Marktforschung
Methoden, Anwendungen, Praxisbeispiele
0515
2017
978-3-8385-8721-9
978-3-8252-8721-4
UTB
Claudia Fantapie Altobelli
Trends und Risiken früh erkennen, das ist ein wichtiges Ziel der Marktforschung. Das Buch stellt hierfür die wesentlichen Methoden und Anwendungsgebiete vor, angefangen mit der Planung (also der Wahl des Forschungsansatzes, der Festlegung des Auswahlplans und der Wahl des Datenerhebungsverfahrens) bis hin zur Durchführung der Erhebung (also der Datensammlung, -auswertung und Interpretation der Ergebnisse).
Es berücksichtigt neben quantitativen auch - explizit und umfassend - qualitative Forschungsmethoden. Außerdem sind neuere Verfahren, speziell aus den Neurowissenschaften, Teil der 3. Auflage. Auf die Produkt-, Werbe- und Preisforschung geht dieses Buch überdies ein. Mit digitalen Medien, Big Data und ethischen Fragen setzt es sich auseinander.
Das Buch richtet sich gleichermaßen an Studierende, Wissenschaftler und Praktiker. Verständlichkeit und Nachvollziehbarkeit der Inhalte stehen deswegen im Vordergrund.
<?page no="2"?> Claudia Fantapié Altobelli Marktforschung Methoden, Anwendungen, Praxisbeispiele 3., vollständig überarbeitete Auflage UVK Verlagsgesellschaft mbH Konstanz mit UVK/ Lucius München <?page no="3"?> Dr. Claudia Fantapié Altobelli ist Professorin für Betriebswirtschaftslehre, insbesondere Marketing, an der Helmut Schmidt Universität Hamburg. Online-Angebote oder elektronische Ausgaben sind erhältlich unter www.utb-shop.de. Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http: / / dnb.ddb.de> abrufbar. Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. © UVK Verlagsgesellschaft mbH, Konstanz und München 2017 Lektorat: Rainer Berger Einbandgestaltung: Atelier Reichert, Stuttgart Einbandmotiv sowie Seite 2: © andresr, iStockphoto.com Druck und Bindung: cpi, Ebner und Spiegel, Ulm UVK Verlagsgesellschaft mbH Schützenstr. 24 · 78462 Konstanz Tel. 07531-9053-0 · Fax 07531-9053-98 www.uvk.de UTB-Nr. 8342 ISBN 978-3-8252-8721-4 <?page no="4"?> Vorwort zur 3. Auflage Kaum ein Gebiet im Marketing hat in den letzten Jahren derart dynamische Entwicklungen durchgemacht wie die Marktforschung: Schlagworte wie Big Data, Neuromarketing und Ethik „füllen“ die diesbezüglichen Wordclouds. Aus diesem Grunde - 10 Jahre nach Entstehen der ersten und sechs Jahre nach Erscheinen der zweiten Auflage - wurde es nötig, das gesamte Buch gründlich zu überarbeiten und zu aktualisieren. Aufgenommen wurden neue Kapitel zum Thema Ethik in der Marktforschung und Umgang mit Big Data. Mobile Marktforschung und Neuromarketing wurden erweitert und aktualisiert, ebenso die qualitative Marktforschung. Um das Buch nicht ausufern zu lassen, habe ich das eine oder andere (schweren Herzens! ) gekürzt. Weggefallen sind das Kapitel zur internationalen Marktforschung - der geneigte Leser kann hierzu sehr ausführlich Berndt/ Fantapié Altobelli/ Sander 2016 konsultieren - wie auch das Kapitel zu Marketing-Prognosen. Die Thematik in nur 30 Seiten abzuhandeln macht einfach keinen Sinn. Bedanken möchte ich mich ganz herzlich bei meiner Sekretärin, Frau Jennifer Hübner. Mit unglaublichem Durchblick hat sie die Formatvorlage des Verlags nicht nur auf Anhieb begriffen, sondern auch zügig und einwandfrei umgesetzt. Für die komplette Neuerstellung zahlreicher Abbildungen bedanke ich mich bei Herrn cand. rer. pol. Jannik Faltus. Die kritischen Anmerkungen meiner Mitarbeiterinnen und Mitarbeiter, in alphabetischer Reihenfolge Frau Lamia Arslan, Frau Dr. Elke Goltz, Herrn MSc Henrik Heikes, Frau MSc Lena Heinemann, Herr Dipl.-Kfm. David Hensel, Frau MA Birthe Langhinrichs, Frau Dipl.-Kffr. Cordelia Mühlbach, Frau MSc Xi Yang, Frau Dipl.-Kffr. Judith Znanewitz, haben wesentlich zur Verbesserung des Manuskripts beigetragen. Ganz besonders gilt mein Dank Herrn Dipl. oec. Rainer Berger (UVK Verlagsgesellschaft mbH - UVK Lucius) für die wirklich tolle Zusammenarbeit. Unsere Kinder Philip und Dominik, für deren Betreuung ich mich in der ersten Auflage dieses Buches bei der Kita Piratenschiff bedankt hatte, sind inzwischen groß - trotzdem und gerade deswegen möchte ich ihnen dieses Buch widmen. Ebenso meinem Ehemann Matthias (im wirklichen Leben mein Kollege Prof. Dr. Matthias Sander), der in den letzten Monaten mit Fertiggerichten abgespeist wurde, damit ich das Manuskript fertigstellen konnte. Hamburg, im März 2017 Claudia Fantapié Altobelli Vorwort zur 1. Auflage Marketingentscheidungen ohne verlässliche Informationsgrundlagen sind notgedrungen fehlerhaft; eine methodisch fundierte Marktforschung ist daher für jedes Unternehmen unverzichtbar - unabhängig davon, ob das Unternehmen Marktforschungsaktivitäten selbst durchführt oder einem Marktforschungsinstitut im Auftrag gibt. Das vorliegende Buch entstand aus dem Wunsch heraus, sowohl Studierende als auch Praktiker mit den wesentlichen Methoden und Anwendungsgebieten der Marktfor- <?page no="5"?> 6 Vorwort zur 1. Auflage schung vertraut zu machen. Im ersten Teil des Buches wird zunächst auf Gegenstand und Bedeutung der Marktforschung eingegangen. Der zweite Teil widmet sich der Planung einer Erhebung. Dazu gehören insb. die Bereiche Wahl des Forschungsansatzes, Festlegung des Auswahlplans, Wahl des Datenerhebungsverfahrens. Gegenstand des dritten Teils ist die Durchführung der Erhebung mit den Teilbereichen Datensammlung, Datenauswertung und Interpretation der Ergebnisse. Im vierten Teil werden anschließend die gebräuchlichsten Prognoseverfahren im Marketing dargelegt. Schließlich widmet sich der fünfte Teil ausgewählten Anwendungsgebieten der Marktforschung: Produktforschung, Werbeforschung und Preisforschung. Bei der gesamten Darstellung wurde auf Verständlichkeit und Nachvollziehbarkeit der Ausführungen Wert gelegt. Aus diesem Grunde werden sämtliche dargestellten Verfahren durch geeignete Beispiele erläutert. Darüber hinaus werden die wichtigsten Methoden und Anwendungsgebiete durch konkrete Beispiele aus der Marktforschungspraxis illustriert, anhand derer der Leser Einblicke in die praktische Arbeit von Marktforschungsinstituten gewinnen kann. Anders als in den meisten Lehrbüchern zu dieser Thematik wurde die qualitative Marktforschung explizit und umfassend behandelt. Dies folgt der Erkenntnis insb. aus der Marktforschungspraxis, dass viele Fragestellungen im Marketing - vor allem im Zusammenhang mit psychologischen Konstrukten - durch quantitative Forschungsansätze nicht adäquat abgebildet werden können. Ein derart umfassendes Werk kann nicht ohne kräftige Unterstützung entstehen. Mein Dank gilt den vielen Marktforschungsinstituten, welche nicht nur bereitwillig Informationsmaterial zugeschickt haben, sondern auch zu persönlichen Gesprächen bereit waren. Stellvertretend seien hier A.C. Nielsen, GfK, Naether Marktforschung, Schaefer Marktforschung, TNS Infratest, Wegener Marktforschung genannt. Danken möchte ich natürlich auch meinen Mitarbeitern für zahlreiche kritische Anmerkungen und konstruktive Gespräche: Dr. Thorsten Granzow, Dipl.-Kfm. Sebastian Binger, Dipl.- Kfm. Sascha Hoffmann. Meine studentischen Hilfskräfte, Dipl.-Kfm. Constantin Hoya, Dipl.-Kfm. Robert Kramer, Dipl-Kffr. Nicole Hegner, Dipl. Soz. Tzvetomira Daskalova, cand. rer. pol. Silja Spijkers und cand. rer. pol. Christoph Zlobinski, haben in mühsamer Kleinarbeit viele Abbildungen erstellt und die formale Überprüfung des Manuskripts übernommen. Herr Dipl.-Kfm. Daniel Nolte hat dankenswerterweise zahlreiche Praxisbeispiele im Bereich der qualitativen Marktforschung zusammengetragen. Frau Barbara Naziri hat mit gewohntem Engagement nicht nur das Manuskript erstellt, sondern auch zahlreiche Abbildungen gestaltet. Herrn Dr. Wulf von Lucius (v. Lucius u. v. Lucius Verlagsgesellschaft) gilt mein herzlicher Dank für die wie immer reibungslose Zusammenarbeit. Nicht zuletzt möchte ich dem gesamten Team der Kita „Piratenschiff“ danken, insb. Frau Sieglinde Freuer, Frau Leane Bettin, Frau Ramona Eckert, Frau Antje Schäfers. Ohne sie hätte ich nicht die geringste Chance gehabt, das Buch fertig zu stellen. Mein allergrößter Dank gilt meinen Kindern Philip und Dominik sowie meinem Ehemann Matthias, die während der gesamten Entstehungszeit des Buches erfolgreich verhindern konnten, dass ich mich auch an Wochenenden damit beschäftigte; dadurch konnten sie einen erheblichen Beitrag zur Normalität des Alltags leisten. Ihnen sei dieses Buch gewidmet. Hamburg, im Oktober 2006 Claudia Fantapié Altobelli <?page no="6"?> Inhaltsverzeichnis Teil 1: Grundlagen ................................................................................................................ 13 1 Marktforschung als Managementaufgabe.................................................. 13 1.1 Informationsbedarf für Marketingentscheidungen.......................................... 13 1.2 Charakterisierung und Arten der Marktforschung........................................... 16 1.3 Ziele und Rahmenbedingungen der Marktforschung ..................................... 18 1.4 Prozess der Marktforschung................................................................................ 19 2 Träger der Marktforschung ............................................................................. 23 2.1 Betriebliche Marktforschung ............................................................................... 23 2.2 Institutsmarktforschung ....................................................................................... 28 2.3 Sonstige Träger der Marktforschung.................................................................. 30 3 Forschungsansätze in der Marktforschung................................................ 33 3.1 Explorative Studien ............................................................................................... 33 3.2 Deskriptive Studien ............................................................................................... 35 3.3 Kausale Studien...................................................................................................... 37 4 Ethik in der Marktforschung .......................................................................... 39 4.1 Datenschutz............................................................................................................ 39 4.2 Berufsethische Prinzipien..................................................................................... 40 Teil 2: Sekundärforschung ................................................................................................ 45 1 Quellen der Sekundärforschung .................................................................... 45 1.1 Systematik von Quellen der Sekundärforschung ............................................. 45 1.2 Digitalisierung, Social Media und Big Data....................................................... 49 2 Beurteilung der Sekundärforschung............................................................. 53 Teil 3: Querschnittsstudien ............................................................................................... 55 1 Quantitative Befragung .................................................................................... 55 1.1 Klassifikation und Charakterisierung quantitativer Befragungen .................. 55 1.2 Methoden quantitativer Befragung ..................................................................... 58 <?page no="7"?> 8 Inhaltsverzeichnis 1.2.1 Schriftliche Befragung........................................................................................... 58 1.2.2 Persönliche Befragung .......................................................................................... 59 1.2.3 Telefonische Befragung ........................................................................................ 61 1.2.4 Online-Befragung .................................................................................................. 63 1.2.5 Mobile Befragung .................................................................................................. 64 1.3 Gestaltung des Fragebogens ................................................................................ 67 1.3.1 Spezifikation des Informationsbedarfs .............................................................. 67 1.3.2 Festlegung der Befragungsmethode ................................................................... 68 1.3.3 Festlegung des Frageninhalts ............................................................................... 68 1.3.4 Festlegung der Befragungstaktik ......................................................................... 69 1.3.5 Festlegung der Fragenformulierung und der Antwortmöglichkeiten ........... 76 1.3.6 Festlegung der Reihenfolge der Fragen und der Länge des Fragebogens ... 86 1.3.7 Formale Gestaltung des Fragebogens ................................................................ 89 1.3.8 Fragebogen-Pretest ............................................................................................... 92 1.4 Messung, Operationalisierung und Skalierung von Variablen ....................... 93 1.4.1 Messung und Messverfahren ............................................................................... 93 1.4.2 Qualität von Messverfahren................................................................................. 94 1.4.3 Operationalisierung und Skalierung komplexer Konstrukte........................ 100 2 Beobachtung ...................................................................................................... 115 2.1 Klassifikation und Charakterisierung von Beobachtungen .......................... 115 2.2 Aufzeichnungsverfahren der Beobachtung..................................................... 120 2.2.1 Aufzeichnung durch den Beobachter .............................................................. 120 2.2.2 Apparative Beobachtungsverfahren ................................................................. 121 3 Auswahl der Erhebungseinheiten ............................................................... 133 3.1 Vollerhebung vs. Teilerhebung ......................................................................... 133 3.2 Festlegung des Auswahlplans ............................................................................ 134 3.2.1 Elemente eines Auswahlplans ........................................................................... 134 3.2.2 Verfahren der nichtzufälligen Auswahl ........................................................... 137 3.2.3 Verfahren der Zufallsauswahl............................................................................ 141 3.2.4 Sonstige Verfahren der Stichprobenauswahl .................................................. 154 3.2.5 Bestimmung des Stichprobenumfangs ............................................................ 156 <?page no="8"?> Inhaltsverzeichnis 9 Teil 4: Panelerhebungen und Kohortenanalysen................................................... 159 1 Klassifikation und Charakterisierung von Panelerhebungen ............. 159 1.1 Abgrenzung und Systematik von Panelerhebungen ...................................... 159 1.2 Handelspanels ...................................................................................................... 160 1.3 Verbraucherpanels............................................................................................... 163 1.4 Spezialpanels......................................................................................................... 165 2 Erhebung und Auswertung von Paneldaten ............................................ 169 2.1 Handelspanels ...................................................................................................... 169 2.2 Verbraucherpanels............................................................................................... 172 3 Methodische Probleme von Panelerhebungen ....................................... 181 3.1 Repräsentativität von Panelergebnissen........................................................... 181 3.2 Validität von Panelergebnissen ......................................................................... 182 4 Kohortenanalysen ............................................................................................. 183 Teil 5: Experimente ............................................................................................................ 185 1 Klassifikation und Charakterisierung von Experimenten ................... 185 1.1 Merkmale von Experimenten............................................................................ 185 1.2 Systematik von Experimenten........................................................................... 187 2 Validität von Experimenten .......................................................................... 191 2.1 Interne vs. externe Validität............................................................................... 191 2.2 Die Behandlung von Störgrößen bei experimentellen Designs................... 191 3 Experimentelle Designs ................................................................................. 197 3.1 Notation ................................................................................................................ 197 3.2 Vorexperimentelle Designs................................................................................ 198 3.3 Echte Experimente ............................................................................................. 200 3.4 Quasi-Experimente ............................................................................................. 208 Teil 6: Datensammlung und Datenauswertung ...................................................... 213 1 Durchführung und Kontrolle der Feldarbeit............................................ 213 2 Aufbereitung der Daten .................................................................................. 217 <?page no="9"?> 10 Inhaltsverzeichnis 3 Datenanalyse ...................................................................................................... 223 3.1 Überblick............................................................................................................... 223 3.2 Verfahren der Datenreduktion.......................................................................... 225 3.2.1 Univariate Verfahren der Datenreduktion ...................................................... 225 3.2.2 Faktorenanalyse ................................................................................................... 242 3.3 Verfahren der Klassifikation.............................................................................. 254 3.3.1 Clusteranalyse ....................................................................................................... 254 3.3.2 Diskriminanzanalyse ........................................................................................... 265 3.3.3 Multidimensionale Skalierung............................................................................ 278 3.4 Verfahren zur Messung von Beziehungen ...................................................... 287 3.4.1 Regressionsanalyse .............................................................................................. 287 3.4.2 Kausalanalyse ....................................................................................................... 300 3.4.3 Varianzanalyse ...................................................................................................... 315 3.4.4 Kontingenzanalyse .............................................................................................. 331 3.4.5 Korrelationsanalyse ............................................................................................. 334 3.5 Verfahren zur Messung von Präferenzen........................................................ 342 3.5.1 Conjoint-Analyse ................................................................................................. 342 3.5.2 Multidimensionale Skalierung............................................................................ 352 4 Interpretation und Präsentation der Ergebnisse .................................... 355 Teil 7: Qualitative Studien ............................................................................................... 357 1 Qualitative Befragung ..................................................................................... 357 1.1 Charakterisierung qualitativer Studien ............................................................. 357 1.2 Methoden qualitativer Befragung...................................................................... 358 1.3 Gestaltung qualitativer Befragungen ................................................................ 375 2 Qualitative Beobachtung ............................................................................... 383 3 Anforderungen an qualitative Messverfahren.......................................... 387 4 Stichprobenbildung bei qualitativen Erhebungen................................. 391 5 Aufbereitung und Auswertung qualitativer Daten................................. 393 5.1 Überblick............................................................................................................... 393 5.2 Qualitative Inhaltsanalyse................................................................................... 393 <?page no="10"?> Inhaltsverzeichnis 11 5.2.1 Grundgedanke der qualitativen Inhaltsanalyse ............................................... 393 5.2.2 Techniken der qualitativen Inhaltsanalyse....................................................... 397 5.2.3 Beurteilung der qualitativen Inhaltsanalyse ..................................................... 399 5.3 Analyse nonverbaler Daten................................................................................ 399 Teil 8: Ausgewählte Anwendungen der Marktforschung..................................... 403 1 Produktforschung............................................................................................. 403 1.1 Gegenstand der Produktforschung .................................................................. 403 1.2 Produktentwicklung ............................................................................................ 404 1.3 Produkttests.......................................................................................................... 406 1.3.1 Arten von Produkttests ...................................................................................... 406 1.3.2 Ausgewählte Testanordnungen der Produktforschung ................................ 410 2 Testmarktuntersuchungen ............................................................................ 419 2.1 Regionaler Markttest ........................................................................................... 419 2.2 Testmarktsimulation ........................................................................................... 420 2.3 Kontrollierter Markttest ..................................................................................... 422 2.4 Elektronischer Testmarkt................................................................................... 423 3 Werbeforschung ................................................................................................ 427 3.1 Gegenstand der Werbeforschung ..................................................................... 427 3.2 Werbeträgerforschung ........................................................................................ 428 3.2.1 Gegenstand der Werbeträgerforschung........................................................... 428 3.2.2 Kennziffern der Werbeträgerforschung .......................................................... 429 3.3 Werbemittelforschung ........................................................................................ 432 3.3.1 Überblick............................................................................................................... 432 3.3.2 Werbemittelpretests ............................................................................................ 434 3.3.3 Werbemittelposttests........................................................................................... 440 4 Preisforschung ................................................................................................... 443 4.1 Gegenstand der Preisforschung ........................................................................ 443 4.2 Ermittlung der Akzeptanz von Preisen ........................................................... 443 4.3 Ermittlung von Reaktionen auf Preisänderungen.......................................... 447 4.3.1 Ermittlung auf der Grundlage von Kaufdaten ............................................... 447 <?page no="11"?> 12 Inhaltsverzeichnis 4.3.2 Ermittlung auf der Grundlage von Befragungen ........................................... 450 4.3.3 Ermittlung auf der Grundlage von Kaufangeboten ...................................... 452 4.4 Ermittlung der Zahlungsbereitschaft bei unterschiedlicher Produktausstattung.............................................................................................. 455 Statistische Tabellen ......................................................................................................... 461 Literaturverzeichnis ........................................................................................................... 467 Sachverzeichnis................................................................................................................... 485 <?page no="12"?> Teil 1: Grundlagen 1 Marktforschung als Managementaufgabe 1.1 Informationsbedarf für Marketingentscheidungen Rationales betriebswirtschaftliches Handeln setzt das Treffen von Entscheidungen voraus; diese wiederum erfordern die Berücksichtigung entscheidungsrelevanter Informationen. Damit wird deutlich, dass der betrieblichen Informationswirtschaft innerhalb der Unternehmensführung eine entscheidende Rolle zukommt. So muss eine rationale und zielgerichtete Unternehmensplanung systematisch von Informationsprozessen begleitet werden. Dabei werden Informationen zum einen zur Ermittlung einer Problemlücke benötigt, d.h. zur Erkennung und Formulierung von Problemen, zum anderen zur Bewertung und Auswahl der Handlungsalternativen i.S. einer Problemlösung. Im Rahmen des Marketings sind zahlreiche Entscheidungen sowohl auf strategischer als auch auf taktisch-operativer Ebene zu treffen. Abbildung 1.1 zeigt den allgemeinen Planungs- und Entscheidungsprozess im Marketing. Eine Informationsgewinnung über Umwelt, Märkte und Unternehmen findet zunächst im Rahmen der Situationsanalyse statt; allerdings werden Informationen auf jeder weiteren Stufe des Planungs- und Entscheidungsprozesses benötigt. Insofern wird der Marketing-Planungsprozess von einem Informationsbeschaffungsprozess überlagert, da auf jeder Stufe des Planungsprozesses Teilentscheidungen zu treffen sind. Grundsätzlich lassen sich die Informationsbereiche des Marketing in Umweltinformationen und Unternehmensinformationen gliedern. Während Umweltinformationen das Umfeld beschreiben, in welchem das Unternehmen bzw. dessen Geschäftsfelder auf den einzelnen Märkten agieren, beinhalten Unternehmensinformationen Aussagen über die Stärken und Schwächen des Unternehmens allgemein sowie in Bezug auf konkrete Problemstellungen. Umweltinformationen beinhalten zum einen die Rahmenbedingungen unternehmerischen Handelns (Dateninformationen), zum anderen Instrumentalinformationen, d.h. Informationen über Reaktionszusammenhänge zwischen Unternehmen und Umwelt (vgl. Tab. 1.1). Informationen über die globale Umwelt betreffen die verschiedenen ökonomischen, gesellschaftlichen, technologischen, politisch-rechtlichen sowie geographisch-infrastrukturellen Rahmenbedingungen und beschreiben damit die allgemeine Situation einer Volkswirtschaft. Globale Umweltdaten betreffen daher alle Unternehmen unabhängig von ihrer Branchenzugehörigkeit. Informationen über Branche und Wettbewerb umfassen Informationen über die allgemeine Branchenstruktur sowie über die Unternehmensmärkte (Beschaffungs- und Absatzmärkte). Solche Informationen sind nur für Unternehmen bzw. Geschäftsfelder relevant, die in einer bestimmten Branche tätig sind, und können daher branchenabhängig grundverschieden sein. <?page no="13"?> 14 Marktforschung als Managementaufgabe Abb. 1.1: Überblick über die Aufgabenbereiche des Marketingmanagements (Quelle: Sander 2011, S. 302) Von besonderer Bedeutung für das Marketing sind Informationen über die Abnehmer. Hierzu gehören zum einen Beschaffenheit und Größe der Marktsegmente, Bedarfsintensität, Bedürfnisstruktur, Kaufkraft. Darüber hinaus sind Reaktionen der Abnehmer auf Marketingsktivitäten zu erfassen, u.a. Aussagen über Preiselastizitäten, Präferenzen, Werbeelastizitäten. Marketing-Organisation und Human Resource Management Situationsanalyse und -prognose Umweltanalyse und -prognose Globale Umwelt Branche Und Wettbewerb Prognose zukünftiger Entwicklungen Unternehmensanalyse Marktorientierte Unternehmensplanung Strategische Unternehmensziele und -mission Bildung strategischer Geschäftsfelder Strategische Stoßrichtungen und Ressourcenallokation Einsatz strategischer Analyseinstrumente Timing- Aspekte des Marktein- und -austritts Marktorientierte Geschäftsfeldplanung Strategische Geschäftsfeldziele Alternative Marketingstrategien Strategiebewertung und -auswahl Strategische Budgetierung Umsetzung von Marketingstrategie und Marketingpolitik Kontrolle von Marketingstrategie und Marketingpolitik Marketing-Audits Strategische Marketingplanung Planung des Marketing- Instrumenteeinsatzes (Marketingpolitik) Marketingimplementierung Marketing- Controlling Strategisches Geschäftsfeld Z Produktpolitik Kontrahierungspolitik Distributionspolitik Kommunikationspolitik Marketing-Mix Strategisches Geschäftsfeld A Produktpolitik Kontrahierungspolitik Distributionspolitik Kommunikationspolitik Marketing-Mix <?page no="14"?> Informationsbedarf für Marketingentscheidungen 15 Tab. 1.1: Umweltinformationen Bereiche Beispielhafte Indikatoren Globale Umwelt Wirtschaft Bruttonationaleinkommen Wechselkursentwicklung Inflationsrate Rohstoff- und Energiepreise Gesellschaft Gesellschaftliche Struktur Gesellschaftliche Trends Demographische Entwicklung Politik Gesetzgebung Steuern und Subventionen Politische Stabilität Zwischenstaatliche Abkommen Regulierung/ Deregulierung Technologie Ausgaben für F&E Patentanmeldungen Produkt- und Prozessinnovationen Technologische Dynamik Natürliche Umwelt Klima Ressourcen Infrastruktur Branche und Wettbewerb Branchenstruktur Marktform Eintrittsbarrieren Kapitalintensität Absatzmärkte Wettbewerber Distributionspartner Endnachfrager Beschaffungsmärkte Kapitalgeber Arbeitskräfte Lieferanten Umwelt reaktionen auf Marketingaktivitäten Endabnehmer Preiselastizität Werbeelastizität Markenpräferenz Handel Änderungen des Bestellverhaltens Aktionsangebote Wettbewerber Imitation von Innovationen Reaktionen auf eigene Preisänderungen Staatliche Akteure Sanktionen Staatliche Eingriffe (z.B. Höchst- oder Mindestpreise) Unternehmensinformationen beinhalten Aussagen über die Leistungs- und Führungspotenziale eines Unternehmens (vgl. Bea/ Haas 2015, S. 126 ff.). Leistungspotenziale ergeben sich aus den Bereichen Beschaffung, Produktion, Absatz, Personal, Kapital, Technologie; Führungspotenziale resultieren aus den Bereichen Planung und Kontrolle, Information, Organisation, Unternehmenskultur. Unternehmensinformationen dienen somit der Beurteilung der Stärken und Schwächen eines Unternehmens, wohingegen die <?page no="15"?> 16 Marktforschung als Managementaufgabe Erhebung von Umweltinformationen die Einschätzung von Chancen und Risiken ermöglicht. 1.2 Charakterisierung und Arten der Marktforschung Definition Marktforschung ist die systematische und zielgerichtete Sammlung, Aufbereitung, Auswertung und Interpretation von Informationen über Märkte und Marktbeeinflussungsmöglichkeiten als Grundlage für Marketingentscheidungen. Kernaufgabe der Marktforschung ist somit die Bereitstellung relevanter Informationen für marketingpolitische Entscheidungen. Gegenstand der Marktforschung sind Sachverhalte, welche Absatz- und Beschaffungsmärkte betreffen (Daten- und Instrumentalinformationen). Die Ermittlung der entscheidungsrelevanten Informationen erfolgt dabei planvoll unter Heranziehung wissenschaftlicher Methoden. Abzugrenzen ist der Begriff der Marktforschung von der Marketingforschung: Während die Marktforschung auf die Analyse von Absatz- und Beschaffungsmärkten abzielt, befasst sich die Marketingforschung auch mit Informationen aus nichtmarktlichen Bereichen (z.B. aus der politisch-rechtlichen, technischen, soziokulturellen und natürlichen Umwelt) wie auch mit unternehmensinternen Informationen, sofern sie für Marketingentscheidungen relevant sind. Allerdings beschränkt sich die Analyse auf die Absatzmärkte, d.h. Beschaffungsmärkte werden ausgeklammert. Der Zusammenhang zwischen Marktforschung und Marketingforschung ist in Abb. 1.2 dargestellt. Die Ausführungen in diesem Buch beschränken sich auf Methoden und Fragestellungen der Absatzmarktforschung, d.h. Beschaffungsmarktforschung und die übrigen Bereiche der Informationswirtschaft werden hier nicht näher betrachtet. Im Fokus stehen hier dabei insb. die aktuellen und potenziellen Abnehmer. Abb. 1.2: Abgrenzung von Marktforschung und Marketingforschung (Quelle: in Anlehnung an Pepels 2014, S. 20) Marktforschung kann nach verschiedenen Kriterien klassifiziert werden; einen Überblick bietet Tab. 1.2. Die Unterscheidungskriterien sind nicht immer überschneidungsfrei. Aus diesem Grunde sollen nachfolgend nur die wichtigsten Unterscheidungsmerkmale kurz skizziert werden. Marktforschung Marktinformationen Beschaffungsmarktforschung Absatzmarktforschung Umweltinformationen Unternehmensinformationen Marketingforschung <?page no="16"?> Charakterisierung und Arten der Marktforschung 17 Tab. 1.2: Formen der Marktforschung Kriterien Ausprägungen Bezugszeitraum Einmalige Erhebung (Ad-hoc-Forschung, Querschnittanalyse) Mehrmalige Erhebung (Tracking-Forschung, Längsschnittanalyse) Untersuchte Märkte Beschaffungsmarktforschung Absatzmarktforschung Finanzmarktforschung Arbeitsmarktforschung Form der Informationsgewinnung Primärforschung Sekundärforschung Erhebungsmethode Befragung Beobachtung Untersuchte Marketinginstrumente Produktforschung Preisforschung Kommunikationsforschung Vertriebsforschung Untersuchte Marktteilnehmer Konsumentenforschung Konkurrenzforschung Absatzmittlerforschung Methodischer Ansatz Quantitative Marktforschung Qualitative Marktforschung Träger der Marktforschung Betriebliche Marktforschung Institutsmarktforschung Ort der Messung Laborforschung Feldforschung Räumlicher Geltungsbereich Nationale Marktforschung Internationale Marktforschung Nach dem Bezugszeitraum wird zwischen einmaligen und mehrmaligen Erhebungen unterschieden. Während einmalige Erhebungen den Status quo zu einem bestimmten Zeitraum untersuchen (Querschnittsstudien, vgl. Teil 3), beschreiben mehrmalige Erhebungen Entwicklungen im Zeitablauf (Längsschnittstudien, vgl. Teil 4). Nach den untersuchten Märkten wird zwischen Beschaffungsmarktforschung, Absatzmarktforschung, Finanzmarktforschung und Arbeitsmarktforschung differenziert. Nach der Form der Informationsgewinnung wird zwischen Primär- und Sekundärforschung unterschieden. Während im Rahmen einer Primärerhebung originäre Daten <?page no="17"?> 18 Marktforschung als Managementaufgabe zum spezifischen Untersuchungszweck erhoben werden, greift man bei Sekundärerhebungen auf bereits vorhandenes Datenmaterial (vgl. Teil 2). Die Heranziehung der Marketinginstrumente als Klassifikationsmerkmal führt zur Unterscheidung in Produktforschung, Werbeforschung, Preisforschung und Vertriebsforschung (vgl. Teil 8). Nach der Art der Messung unterscheidet man in qualitative und quantitative Marktforschung. Während qualitative Untersuchungen explorativen Charakter haben und nur Tendenzaussagen erlauben, zielen quantitative Studien auf die Gewinnung verallgemeinerbarer (i.S. repräsentativer) Aussagen über die Grundgesamtheit ab. Nach der räumlichen Dimension wird zwischen nationaler und internationaler Marktforschung unterschieden (zu den Besonderheiten internationaler Marktforschung vgl. z.B. Berndt/ Fantapié Altobelli/ Sander 2016, S. 46-97). 1.3 Ziele und Rahmenbedingungen der Marktforschung Definition Ziel der Marktforschung ist die zeitgerechte Bereitstellung entscheidungsrelevanter Informationen für die Entscheidungsträger unter Berücksichtigung finanzieller, personeller, zeitlicher und rechtlicher Restriktionen. Aus dem Oberziel der Marktforschung - der Bereitstellung entscheidungsrelevanter Informationen für das Marketing - lassen sich folgende Teilaufgaben ableiten (vgl. Pepels 2014, S. 21): Innovationsfunktion: Es sollen Chancen und Trends erkannt werden, welche die Märkte und die Umwelt bieten. Frühwarnfunktion: Risiken müssen frühzeitig erkannt werden, um notwendige Entscheidungs- und Anpassungsprozesse zu ermöglichen. Intelligenzverstärkungsfunktion: Durch Förderung der Methodenkenntnisse und des Wissens über marktrelevante Zusammenhänge soll die Willensbildung in der Unternehmensführung unterstützt werden. Unsicherheitsreduktionsfunktion: Zuverlässige Informationen reduzieren das Risiko von Fehlentscheidungen. Strukturierungsfunktion: Eine planvolle, systematische Vorgehensweise unterstützt das Verständnis und erhöht damit die Qualität und Effizienz der Marketingplanung. Selektionsfunktion: Aus der Fülle verfügbarer Informationen sollen die relevanten Sachverhalte herausgefiltert und aufbereitet werden. Prognosefunktion: Veränderungen des marketingrelevanten Umfelds können aufgezeigt und deren Auswirkungen auf das eigene Geschäft abgeschätzt werden. Die aufgeführten Ziele und Aufgaben der Marktforschung können jedoch nur unter Berücksichtigung wesentlicher Restriktionen verfolgt werden. Zum einen sind finanzielle Restriktionen zu beachten, welche regelmäßig aus einem begrenzten Marktforschungsbudget resultieren. Zum anderen schränken personelle Rahmenbedingungen - etwa das Fehlen von ausreichend für die Marktforschung qualifiziertem Personal - den Hand- <?page no="18"?> Prozess der Marktforschung 19 lungsspielraum der Marktforschung ein. Weiterhin sind auch zeitliche Restriktionen im Sinne eines begrenzten Zeitbudgets zu nennen. Von besonderer Bedeutung sind für die Marktforschung rechtliche Restriktionen, insb. im Zusammenhang mit Fragen des Persönlichkeits- und Datenschutzes. Regelungen finden sich u.a. im Bundesdatenschutzgesetz (BDSG) sowie auf internationaler Ebene in der 2016 in Kraft getretenen EU-Datenschutz-Grundverordnung. Weiterhin unterliegen Marktforschungsaktivitäten einer Vielzahl von Standesregeln; zu nennen sind hier auf nationaler Ebene die verschiedenen Richtlinien des ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V., auf internationaler Ebene der ICC/ ESO- MAR Kodex. Die Richtlinien und Empfehlungen betreffen sensiblen Themen wie z.B. Mystery Forschung, telefonische Befragungen, Befragungen von Minderjährigen. Einzelheiten finden sich auf der Homepage des ADM, http: / www.adm-ev.de. Regelwerke zum Umgang mit neurowissenschaftlichen Methoden sind derzeit im Aufbau (vgl. Hensel et al. 2017). Zu den Einzelheiten vgl. die Ausführungen in Kapitel 4 in diesem Teil. 1.4 Prozess der Marktforschung Eine fundierte Marktforschung setzt ein systematisches und planvolles Vorgehen voraus; in diesem Sinne kann die Marktforschungstätigkeit als ein Ablauf aufeinander folgender Phasen aufgefasst werden. Die einzelnen Stufen des Marktforschungsprozesses sind in Abb. 1.3 dargestellt. Die erste Stufe des Marktforschungsprozesses bildet die Formulierung des Forschungsproblems und - darauf aufbauend - die Ableitung des konkreten Forschungsziels. Anstoß ist i.d.R. ein bestimmtes Marketingproblem, etwa Verlust von Marktanteilen an den Hauptkonkurrenten für ein bestimmtes Produkt, das vom Marketingmanagement aufgedeckt und an die Marktforscher herangetragen wird. Daher sollten insbesondere in dieser Stufe Marketingmanager und Marktforscher zusammenarbeiten, um das vorliegende Problem abzugrenzen, zu definieren und den konkreten Informationsbedarf festzustellen. Eine exakte Formulierung und schriftliche Fixierung des Forschungsproblems sind zu empfehlen. Auf dieser Grundlage wird das konkrete Forschungsziel i.S. einer Definition und Konkretisierung der Aufgabenstellung abgeleitet. So könnte im Falle eines Marktanteilrückgangs zugunsten des Hauptkonkurrenten (Marketingproblem) das Forschungsproblem beispielsweise lauten „Ermittlung der Ursachen für den Marktanteilsverlust“. Daraus lässt sich z.B. folgendes Forschungsziel ableiten: „Erstellung eines Stärken-Schwächen-Profils des eigenen Produkts im Vergleich zum Konkurrenzprodukt unter Einbezug des Produkts als solches sowie der Produktvermarktung“. In der nächsten Stufe ist ein Zeit-, Organisations- und Finanzplan zu erstellen. In dieser Phase wird der Zeitrahmen für die Untersuchung abgesteckt; des Weiteren ist zu bestimmen, ob die Untersuchung unternehmensintern durch die betriebliche Marktforschung oder unternehmensextern durch ein Marktforschungsinstitut durchzuführen ist. Auch wird das zur Verfügung stehende Budget festgelegt. Im Rahmen der Planung des Untersuchungsdesigns erfolgt die inhaltliche Planung und Konkretisierung der Erhebung. Unter einem Untersuchungsdesign versteht man dabei die Konzeption des Forschungsvorhabens, d.h. den Rahmen, welcher der Sammlung <?page no="19"?> 20 Marktforschung als Managementaufgabe und Analyse der benötigten Informationen zugrunde gelegt wird. Elemente eines Untersuchungsdesigns sind der grundlegende Forschungsansatz, die Herkunft der Daten (Informationsquellen und Erhebungsmethoden), die Auswahl, Operationalisierung, Messung und Skalierung der heranzuziehenden Variablen sowie die Auswahl der Erhebungseinheiten. Abb. 1.3: Ablauf des Marktforschungsprozesses Der grundlegende Forschungsansatz leitet sich zunächst aus den Forschungszielen ab; dementsprechend wird unterschieden zwischen explorativen, deskriptiven und kausalen Studien. Während explorative Studien die Aufgabe haben, ein aktuelles Forschungsproblem zu erkunden und zu definieren, haben deskriptive Studien die Beschreibung von Sachverhalten - z.B. Marktphänomene - zum Gegenstand. Kausale Studien zielen schließlich auf die Ermittlung von Ursache-Wirkungszusammenhängen ab (vgl. ausführlich Kapitel 3 in diesem Teil); dies erlaubt auch die Erstellung von Prognosen. Nach der Herkunft der Daten werden Forschungsdesigns danach unterschieden, ob die benötigten Informationen auf der Grundlage von Sekundärerhebungen oder Primärer- Formulierung von Forschungsproblem und Forschungsziel Zeit-, Organisations- und Finanzplanung Planung des Untersuchungsdesigns Wahl des Forschungsansatzes Festlegung von Informationsquellen und Erhebungsmethoden Messung, Operationalisierung und Skalierung der Variablen Auswahl der Erhebungseinheiten Datensammlung und Datenauswertung Datenerhebung Datenaufarbeitung Datenanalyse Interpretation und Präsentation der Ergebnisse Kontrolle der Erhebungsplanung Kontrolle der Erhebungsdurchführung Planung Realisation Kontrolle <?page no="20"?> Prozess der Marktforschung 21 hebungen beschafft werden sollen. Im Rahmen der Sekundärforschung werden Daten gesammelt, die bereits zu einem früheren Zeitpunkt für ähnliche oder auch andere Zwecke erhoben wurden (vgl. Teil 2), wohingegen durch Primärforschung originäre Daten zum spezifischen Forschungsziel erhoben werden. Als Erhebungsmethoden der Primärforschung unterscheidet man die Befragung sowie die Beobachtung. Darüber hinaus können als Sonderformen Panelerhebungen und Experimente genannt werden, welche Elemente einer Befragung und/ oder einer Beobachtung beinhalten können. Grundsätzlich wird eine Sekundäranalyse im Vorfeld eines Marktforschungsprojekts durchgeführt; im Rahmen einer Primäranalyse werden anschließend diejenigen Informationen erhoben, welche die Sekundärforschung nicht oder nicht in der gewünschten Qualität zu liefern vermochte. Bei der Entscheidung zwischen Primär- und Sekundärforschung spielen Zeit-, Kosten- und Nutzenaspekte eine Rolle. Eine Sekundärforschung ist in der Regel weniger zeit- und kostenintensiv als eine Primärforschung, ihr Nutzen ist aber auch häufig geringer - etwa weil die verfügbaren Daten nicht aktuell oder unvollständig sind. Wird eine Sekundärforschung gewählt, so sind Anforderungen an Menge und Qualität der Informationen zu formulieren sowie relevante Datenquellen zu identifizieren. Im Falle einer Primärforschung ist hingegen die Erhebungsmethode festzulegen. Grundsätzlich ist die Eignung unterschiedlicher Erhebungsmethoden vom Konkretisierungsgrad des Marketingproblems und des daraus abgeleiteten Forschungsproblems abhängig (vgl. Böhler 2004, S. 30 f.). Bei schlecht strukturierten, komplexen und neuartigen Problemen eignen sich explorative Verfahren unter Anwendung einer qualitativen Marktforschung; bei klar definierten Problemen können je nach Forschungsziel deskriptive Forschungsdesigns auf der Grundlage quantitativer Erhebungsmethoden oder aber experimentelle Designs herangezogen werden. Im Rahmen des Untersuchungsdesigns ist weiterhin festzulegen, welche Merkmale bzw. Variablen in die Untersuchung einzubeziehen sind. Des Weiteren ist festzulegen, wie die Variablen zu messen und zu skalieren sind (vgl. Teil 3). Grundsätzlich lassen sich die Ausprägungen der einzelnen Dimensionen von Forschungsdesigns beliebig miteinander kombinieren, einige Kombinationen sind jedoch nicht zweckmäßig oder unmöglich: So kann eine explorative Analyse nicht in Form eines Experiments stattfinden, da ein Experiment das Vorhandensein klar definierter Forschungshypothesen voraussetzt; andererseits sind Experimente die geeignetste Erhebungsmethode, um kausale Studien durchzuführen. Der Zusammenhang zwischen Forschungsansatz, Erhebungsverfahren und methodischem Ansatz ist in Abb. 1.4 dargestellt. Unabhängig davon ist im Rahmen einer Primärerhebung festzulegen, welche Erhebungseinheiten in die Untersuchung gelangen sollen (vgl. Kapitel 4 im 3. Teil). Hierfür ist zunächst die Grundgesamtheit abzugrenzen; des Weiteren ist die Grundsatzentscheidung zwischen Vollerhebung und Teilerhebung zu treffen. Vollerhebungen bieten sich lediglich bei einer vergleichsweise kleinen Grundgesamtheit an, wie dies gelegentlich im Industriegütermarketing vorkommen kann; im Normalfall erfolgen Primäruntersuchungen auf der Grundlage von Teilerhebungen. In diesem Falle ist darüber zu befinden, welches Verfahren der Stichprobenauswahl heranzuziehen ist). Liegt das Untersuchungsdesign fest, so sind in einer weiteren Stufe die Daten zu sammeln und auszuwerten, d.h. es findet die eigentliche Durchführung der Erhebung statt. In <?page no="21"?> 22 Marktforschung als Managementaufgabe einem ersten Teilschritt erfolgt die konkrete Datenerhebung (vgl. Kapitel 1 im 6. Teil). Im Rahmen einer Sekundäranalyse werden die Daten aus den identifizierten Quellen zusammengestellt und systematisiert. Bei einer Primärerhebung wird ggf. zunächst eine Pilotstudie durchgeführt (z.B. Test des Fragebogens im Hinblick auf Eindeutigkeit, Verständlichkeit usw.); anschließend erfolgt die eigentliche Feldarbeit, d.h. die konkrete (Haupt-)Erhebung der Daten. Erhebungsverfahren Forschungsansatz Sekundärerhebung Primärerhebung Befragung Beobachtung Panel Experiment Qualitativ Quantitativ Qualitativ Quantitativ Explorative Studien Deskriptive Studien Kausale Studien uneingeschränkt geeignet eingeschränkt geeignet nicht geeignet Abb. 1.4: Zusammenhang zwischen Forschungsansatz, Erhebungsverfahren und methodischem Ansatz Die erhobenen Daten werden anschließend aufbereitet. Hier werden z.B. nicht auswertbare Fragebögen aussortiert, die Daten werden anschließend editiert, codiert und in den Computer eingegeben (vgl. Kapitel 2 in Teil 6). Daran schließt sich die (statistische oder qualitative) Datenanalyse an. Hierzu steht eine Vielzahl an Verfahren zur Verfügung (vgl. Kapitel 3 im 6. Teil), deren Eignung und Anwendbarkeit vom Forschungsziel sowie von der Art des zugrunde liegenden Datenmaterials abhängt. Die Ergebnisse der Datenanalyse werden anschließend interpretiert und dokumentiert (z.B. in Form eines zusammenfassenden schriftlichen Berichts, vgl. Kapitel 4 im 6. Teil). Üblicherweise erfolgt auch eine Ergebnispräsentation durch den (die) beauftragten Marktforscher gegenüber dem Auftraggeber. Im Rahmen einer Diskussion können Verständigungsprobleme beseitigt und Interpretationsspielräume der Ergebnisse ausgelotet werden. In einem abschließenden Schritt erfolgt eine Kontrolle der Erhebung, um festzustellen, ob die Forschungsziele erfüllt wurden. Es ist an dieser Stelle darauf hinzuweisen, dass zwischen den einzelnen Prozessstufen Rückkopplungen bestehen können, z.B. wenn im Rahmen der Datensammlung festgestellt wird, dass die Erhebungsmethode ungeeignet oder die Stichprobe nicht adäquat ist. Auch können bestimmte Teilphasen übersprungen werden, z.B. bei zeitlich wiederkehrenden Erhebungen zum gleichen Sachverhalt. <?page no="22"?> 2 Träger der Marktforschung Träger der Marktforschung sind zum einen Stellen bzw. Abteilungen im Unternehmen (betriebliche Marktforschung), zum anderen externe Institute (Institutsmarktforschung) und sonstige Organe wie Marktforschungsberater und Informationsbroker, die mit Marktforschungsaufgaben betraut sind. Im Folgenden sollen die einzelnen Träger der Marktforschung kurz charakterisiert werden. 2.1 Betriebliche Marktforschung Definition Als betriebliche Marktforschung werden Marktforschungsaktivitäten bezeichnet, welche im Unternehmen selbst realisiert werden; typischerweise handelt es sich um eine eigene Marktforschungsabteilung oder einen hauptamtlich mit Marktforschungsaufgaben betrauten Mitarbeiter. Zentrale Aspekte im Zusammenhang mit der betrieblichen Marktforschung sind: der Umfang der im Unternehmen selbst durchgeführten Marktforschungsaktivitäten, die organisatorische Stellung der Marktforschung im Betrieb sowie die Gestaltung des betrieblichen Informationsmanagements. Der Umfang der betrieblichen Marktforschung hängt von Art und Ausmaß der Aufgabenteilung zwischen Unternehmen und Institut ab. Die meisten Unternehmen erledigen die anfallenden Marktforschungsaufgaben nicht (ausschließlich) unternehmensintern, vielmehr erfolgt eine Aufgabenteilung zwischen betrieblicher Marktforschung und Institutsmarktforschung. Insbesondere umfassende Primärerhebungen erfordern i.d.R. die Zusammenarbeit mit einem Marktforschungsinstitut. Typischerweise übernimmt die betriebliche Marktforschung konzeptionelle Aufgaben, also die Vorbereitung und Planung von Marktforschungsaktivitäten, wohingegen sich die Institutsmarktforschung insb. mit der Datengewinnung und Datenauswertung befasst (vgl. Grundei 2000, S. 3). Die einzelnen Aktivitäten sind dabei unbedingt zu verzahnen, etwa indem Mitarbeiter des Marktforschungsinstituts von Anfang an in die Konzeption der Erhebung einbezogen werden. Eine gute Zusammenarbeit zwischen betrieblicher und Institutsmarktforschung ist für die Qualität der Ergebnisse entscheidend. Welche Aktivitäten konkret selbst durchgeführt oder an Institute fremdvergeben werden, ist eine klassische Makeor-buy-Entscheidung. Die Vorteile der Eigenforschung und der Fremdforschung sind in Tab. 1.3 skizziert; die jeweiligen Nachteile gelten spiegelbildlich. Die organisatorische Eingliederung der Marktforschung im Unternehmen umfasst die folgenden Gestaltungsfelder (vgl. Grundei 2000, S. 8 ff.): Etablierung, Platzierung, <?page no="23"?> 24 Träger der Marktforschung Differenzierung und Kooperation. Tab. 1.3: Vorteile von Eigenvs. Fremdforschung Vorteile der Eigenforschung Vorteile der Fremdforschung Größere Erfahrung mit den Gegebenheiten des Unternehmens Ggf. Vertrautheit mit dem Problem Bessere Kenntnisse über Produkte und Branche Bessere Kontrolle und Koordination der Marktforschungsaktivitäten Vertraulichkeit der Ergebnisse gewährleistet Größere Methodenkenntnisse durch Einsatz von Spezialisten Größere Erfahrung Größere Objektivität Höhere Akzeptanz im Unternehmen Häufig günstiger als Eigenforschung Die Etablierung betrifft die Frage, ob für Marktforschungsaufgaben spezielle organisatorische Einheiten wie z.B. eine Abteilung oder eine Stabsstelle eingerichtet werden sollen (Spezialistenlösung), oder aber ob die Verantwortung für Marktforschungsaufgaben Mitarbeitern übertragen wird, welche primär mit anderen Aufgaben betraut sind, z.B. Produktmanager (Integrationslösung). Nicht alle Unternehmen verfügen über eine institutionalisierte betriebliche Marktforschung; dies ist jedoch größenabhängig. Zudem werden die Informationen aus der Marktforschung nicht immer systematisch genutzt: So werden in Deutschland nur rund 44 Prozent der Vorstandsentscheidungen im B2B-Bereich durch Marktinformationen abgesichert; im Vertrieb sind es nur 40,6 Prozent, in der Produktion sogar nur ein Drittel aller Entscheidungen (EuPD Research 2009). Abb. 1.5: Marktforschung als Stabstelle Die Platzierung beinhaltet die Frage, wie eine institutionalisierte Marktforschungseinheit in die Organisationsstruktur des Unternehmens einzugliedern ist. Die häufigste Variante ist die Errichtung einer Stabstelle, welche je nach Bedeutung und Aufgabenschwerpunkt der Marktforschung im Betrieb entweder der Unternehmensleitung oder der Marketingleitung zugeordnet wird (vgl. Abb. 1.5). Unternehmensleitung Beschaffung Produktion Marketing Marktforschung Sparte I Marktforschung Sparte II Sparte III Unternehmensleitung <?page no="24"?> Betriebliche Marktforschung 25 Alternativ kann die Marktforschung auch als Linieninstanz angesiedelt werden. In einer funktionalen Organisation wird sie üblicherweise der Marketingabteilung zugeordnet, in einer divisionalen Organisation findet sich eine Marktforschungsinstanz u.U. in jeder Produktsparte. In diesem Falle findet eine vollständige Dezentralisierung von Marktforschungsaktivitäten statt (vgl. Abb. 1.6). Gegenüber der Stablösung verfügt die Marktforschung als Linieninstanz damit über eine höhere Autonomie und größere Entscheidungsfreiheit. Abb. 1.6: Marktforschung als Linieninstanz Im Rahmen einer Spartenorganisation ist eine völlige Dezentralisierung gemäß Abb. 1.6 jedoch eher selten. Typischerweise erfolgt eine Konzentration der Marktforschung in einem Zentralbereich. Die Marktforschungsaktivitäten werden aus den Geschäftsbereichen ausgegliedert und in einer zentralen Marktforschungsabteilung zusammengefasst (vgl. Frese/ Werder 1993, S. 39). Abb. 1.7: Marktforschung als Service-Cost-Center in einer Spartenorganisation Eine Variante dieses Modells ist das sog. Cost-Center (vgl. Abb. 1.7), im Rahmen dessen Marktforschungsaufgaben in einem Cost-Center mit Budgetverantwortung ausgegliedert werden; seltener wird die Marktforschung als Profit-Center mit Gewinn- und Verlustverantwortung geführt (vgl. Ottawa/ Rietz 2015, S. 60). Die Abteilung kann von allen Unternehmenseinheiten in Anspruch genommen werden; diese müssen die angeforderten Leistungen jedoch bezahlen. Dabei werden interne Verrechnungspreise zugrunde gelegt. Vorteilhaft ist an dieser Variante die Tatsache, dass die Sparten nur dann Aufträge an die Marktforschungsabteilung vergeben, wenn die Informationen tatsächlich benötigt werden und der Nutzen der Information höher beurteilt wird als die der Sparte entste- Beschaffung Sparte I Unternehmensleitung Unternehmensleitung Sparte II Sparte III Produktion Marketing Marktforschung Werbung Vertrieb Marktforschung Produktion … … Sparte I Unternehmensleitung Sparte II Marktforschung Marketing Marketing … … … … <?page no="25"?> 26 Träger der Marktforschung henden Kosten. Zu erwähnen ist, dass in der Praxis - insb. in Großunternehmen - häufig Mischformen realisiert werden, d.h. neben einer zentralen Abteilung bestehen auch dezentrale Marktforschungsstellen in den einzelnen Geschäftsbereichen. Unter einer Differenzierung wird die interne Organisation des Marktforschungsbereichs verstanden. Typische Segmentierungsformen sind (vgl. Grundei 2000, S. 11 f.): nach methodischen Aspekten (z.B. quantitative vs. qualitative Marktforschung, Prognosen, Datenanalyse), nach Anwendungsschwerpunkten (z.B. Werbeforschung, Produktforschung, Preisforschung), nach Phasen des Marktforschungsprozesses (z.B. Vorbereitung, Durchführung, Auswertung von Erhebungen). Schließlich beinhaltet die Kooperation die Regelung von Kompetenz- und Kommunikationsbeziehungen zwischen denjenigen organisatorischen Einheiten, welche an der Durchführung von Marktforschungsaufgaben beteiligt sind. Hierbei ist zu unterscheiden zwischen Kooperation zwischen mehreren Marktforschungseinheiten (Marktforschungskooperation) und Kooperation zwischen Marktforschung und Verwendern von Marktforschungsleistungen (Prozesskooperation). Tab. 1.4: Varianten der Marktforschungskooperation (Quelle: in Anlehnung an Grundei 2000, S. 12 ff.) Bezeichnung Kurzcharakterisierung Richtlinienmodell Ein Zentralbereich für Marktforschung ist für Marktforschungsentscheidungen allein entscheidungsbefugt. Die dezentralen Marktforschungseinheiten der Geschäftsbereiche treffen ihre Entscheidungen im Rahmen der vorgegeben Richtlinien. Matrixmodell Zentrale und dezentrale Marktforschungseinheiten (sog. Matrix- Einheiten) sind nur gemeinsam entscheidungsbefugt; die Entscheidungen werden von einem Matrixausschuss getroffen, welchem Mitarbeiter der zentralen und der dezentralen (operativen) Einheiten angehören. Servicemodell Die operativen Einheiten entscheiden darüber, ob und welche Marktforschungsmaßnahmen durchzuführen sind; der Zentralbereich entscheidet über die Art und Weise der konkreten Auftragsdurchführung. Autarkiemodell Die einzelnen Marktforschungseinheiten entscheiden und operieren völlig unabhängig voneinander. In vielen Fällen findet jedoch zumindest ein Informationsaustausch zwischen den einzelnen Einheiten statt. Marktforschungskooperation beinhaltet die Frage, in welcher Form die Beziehungen zwischen den unternehmerischen Einheiten, welche Marktforschungsaufgaben wahrnehmen, zu gestalten sind. Tabelle 1.4 zeigt einige typische Organisationsmodelle der Marktforschungskooperation. Prozesskooperation beinhaltet hingegen die Zusammenarbeit zwischen der Marktforschung und den Abnehmern ihrer Leistungen (z.B. Pro- <?page no="26"?> Betriebliche Marktforschung 27 duktmanager). Tabellle 1.5 zeigt einige typische Gestaltungsalternativen der Prozesskooperation in der Praxis. Tab. 1.5: Gestaltungsalternativen der Prozesskooperation (Quelle: in Anlehnung an Grundei 2000, S. 16 ff.) Bezeichnung Kurzcharakterisierung Kernbereichsmodell Marktforschungsaufgaben werden vollständig von den Produktbereichen als Zentraleinheit ausgegliedert. Der Kernbereich entscheidet selbstständig über die Durchführung von Erhebungen und führt sie ggf. auch autonom durch. Matrixmodell Marktforschung und Produktmanager entscheiden gemeinsam über Marktforschungsaktivitäten. Servicemodell Das Produktmanagement entscheidet darüber, ob und welche Untersuchungen erforderlich sind. Die methodische Umsetzung obliegt der Marktforschung. Stabsmodell Der Marktforschung obliegt lediglich die Entscheidungsvorbereitung bzgl. der Durchführung von Erhebungen. Die Entscheidungsfindung ist Aufgabe des Produktmanagements. Angesichts der zentralen Rolle von Informationen für betriebliche Entscheidungen kommt der Gestaltung des betrieblichen Informationsmanagements eine große Bedeutung zu. Insofern ist Marktforschung lediglich ein Bestandteil des betrieblichen Informationsmanagements. Durch neue Medien - hier insb. das Internet - ist die potenziell nutzbare Informationsmenge dramatisch angestiegen („Big Data“, vgl. Abschnitt 1.2 im 2. Teil). Dies führt nicht unbedingt zur Verbesserung der Informationsqualität, da die vorhandene Datenmenge zum einen nicht mehr handhabbar ist, zum anderen nicht immer methodischen Ansprüchen genügt. Um die dadurch entstehenden Probleme zu bewältigen, kann im Unternehmen ein Führungsinformationssystem (FIS) implementiert werden (vgl. hierzu z.B. Mertens/ Griese 2002). Definition Ein Führungsinformationssystem (FIS) ist ein interaktives, IT-basiertes Informationssystem zur Gestaltung des Informationsflusses im Unternehmen, um Entscheidungs- und Kontrollaufgaben zu unterstützen. Übergeordnetes Ziel eines Führungsinformationssystems ist allgemein, die benötigten Informationen den richtigen Stellen zur richtigen Zeit zur Verfügung zu stellen. Aufgaben eines Führungsinformationssystems sind im Einzelnen die Erfassung, Aufbereitung, Speicherung, Verdichtung, Analyse und Übermittlung von Daten. Moderne FIS wie z.B. SAP verfolgen dabei die Idee des integrierten Gesamtsystems, d.h. die Vermeidung von Insellösungen. Viele Unternehmen verfügen allerdings über eine Vielzahl heterogener Informationssysteme für verschiedene Bereiche und Ebenen, welche teilweise historisch gewachsen sind. Damit entsteht das Problem der Integration der einzelnen Teilsysteme - Schnittstellendesign, Vereinheitlichung von Daten, Schaffung <?page no="27"?> 28 Träger der Marktforschung flexibler Auswertungsmöglichkeiten usw. Ein Lösungsansatz ist das sog. Data Warehousing (vgl. Bea/ Haas 2015, S. 367 ff.). Definition Ein Data Warehouse ist ein abgestimmter Datenpool aus verschiedenen Datenquellen im Unternehmen, welcher von den einzelnen Informationssystemen und Mitarbeitern des Unternehmens abgerufen und ausgewertet werden kann. Als logisch zentraler Speicher bietet ein Data Warehouse eine einheitliche und konsistente Datenbasis zur Entscheidungsunterstützung und arbeitet losgelöst von operativen Datenbanken. Es soll unternehmensweit ausgerichtet sein und die Informationsbedürfnisse verschiedener Anwendergruppen abdecken können. Im Rahmen eines sog. Data Mining können Zusammenhänge zwischen einzelnen Datensätzen und Variablen ermittelt werden. Häufig finden sich in Unternehmen für den Marketingbereich eigene Informationssysteme, sog. Marketinginformationssysteme (MAIS). Wesentliche Elemente eines MAIS sind (vgl. Sander 2011, S. 240): eine Datenbank, welche der Sammlung inner- und außerbetrieblicher Informationen dient, eine Methodenbank, welche die Anwendungssoftware für die mathematischstatistische Datenverarbeitung enthält, und eine Modellbank, welche Modelle enthält, mittels derer Markt- und Unternehmenszusammenhänge in mathematisch-quantitativer Form abgebildet werden (z.B. Prognosemodelle, Preisabsatzfunktionen, Werbewirkungsfunktionen). Verknüpft werden die Daten-, Methoden- und Modellbank mit entsprechenden Managementsystemen, um die Wartung und Pflege des MAIS für den Systemadministrator zu erleichtern und für den Anwender eine benutzerfreundliche Oberfläche zu schaffen. 2.2 Institutsmarktforschung Definition Ein Marktforschungsinstitut ist ein selbstständiges kommerzielles Unternehmen, dessen Wertschöpfungsschwerpunkt in der Durchführung von Marktforschungsaktivitäten besteht und welches Erhebungen selbstständig und ohne wesentliche Fremdhilfe durchführt (Full-Service-Institut). In dieser Definition nicht enthalten sind (vgl. zu den unterschiedlichen Abgrenzungen Hüttner/ Schwarting 2002, S. 455 f.): nicht erwerbsorientierte Institute, z.B. Forschungsinstitute an Universitäten oder Wirtschaftsforschungsinstitute, Marktforschungsabteilungen von Unternehmen, z.B. von Werbeagenturen, Unternehmen, welche nur Teilleistungen anbieten (z.B. Feldorganisationen). <?page no="28"?> Institutsmarktforschung 29 Nach ihrem Tätigkeitsspektrum können Marktforschungsinstitute unterteilt werden in allgemeine Institute, welche ein vollständiges Spektrum von Erhebungstypen und Dienstleistungen anbieten, und Spezialinstitute, welche sich auf bestimmte methodische Konzepte oder Branchen konzentrieren, etwa psychologische Marktforschung, Werbeforschung, Pharmaforschung etc. Hierbei handelt es sich häufig um kleinere, stark spezialisierte Institute, welche bestimmte Nischen bearbeiten und mit einer eigenständigen USP den Markt bearbeiten. Kleinere Institute haben eine überschaubare Anzahl von Kunden, die entsprechend persönlich betreut werden. Die Anzahl der Marktforschungsinstitute kann nur schwer beziffert werden, da sie von der definitorischen Abgrenzung abhängt. Allgemein geht man davon aus, dass in Deutschland derzeit über 200 Marktforschungsinstitute vorhanden sind. Führend sind in Deutschland einige wenige Institute wie GfK (Nürnberg), Kantar TNS oder A.C. Nielsen, flankiert von einigen wenigen weiteren Unternehmen mittlerer Größe wie INRA, IPSOS oder das Institut für Demoskopie Allensbach. Der größte Anteil besteht jedoch aus kleinen bis sehr kleinen Instituten, welche teilweise sehr spezialisiert sind und oftmals nur sehr wenige Mitarbeiter beschäftigen. Die Branche ist dabei durch starke Konzentrationstendenzen charakterisiert, sei es durch Fusionen, sei es durch Kooperationen. Insbesondere im internationalen Bereich besteht die Tendenz zur Bildung von internationalen Netzwerken. Dabei ist festzustellen, dass der Wettbewerb ständig zunimmt. Einen Gesamtüberblick über die Branche bietet das jährlich erscheinende Handbuch der Marktforschungsunternehmen, welches vom Berufsverband Deutscher Markt- und Sozialforscher (BVM) herausgegeben wird. Neben Forschungsinstituten sind im Handbuch auch Berater, Studios, Feldorganisationen und andere Dienstleister vertreten; darüber hinaus zählen zu seinen Mitgliedern auch betriebliche und akademische Marktforscher. Ende 2016 zählte der Verband über 1.600 Mitglieder in Deutschland, Österreich und der Schweiz. Verbände der Marktforschung sind auf nationaler Ebene insb. der Berufsverband Deutscher Markt- und Sozialforscher e.V. (BVM) sowie der Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V. (ADM). Während der BVM die berufsständischen Interessen seiner Mitglieder vertritt, hat der ADM die Förderung der gemeinsamen Belange seiner Mitglieder wie auch eine gewisse Selbstkontrolle zum Ziel. Beide Verbände befassen sich auch mit berufsethischen Fragen, etwa Fragen der Vertraulichkeit und des Datenschutzes; zudem geben sie regelmäßig Stellungnahmen zu methodischen Fragen wie z.B. Online-Befragungen heraus. Auf internationaler Ebene spielt insb. ESOMAR eine Rolle (European Society for Opinion and Market Research). Daneben ist auch die WAPOR (World Association for Public Opinion Research) zu erwähnen. Typische Felder der Institutsmarktforschung sind nicht nur die Auftragsforschung, sondern auch die Durchführung „ungefragter“ Erhebungen, welche anschließend an Interessenten vermarktet werden. Darüber hinaus werden immer wieder neue Untersuchungskonzepte entwickelt, um sich von der Konkurrenz abzuheben. In den letzten Jahren konnte dabei festgestellt werden, dass in zunehmendem Maße hochkomplexe Analyseverfahren eingesetzt werden, welche Spezialwissen erfordern und hohe Anforderungen an die Mitarbeiter stellen. Als Konsequenz können die methodischen Details <?page no="29"?> 30 Träger der Marktforschung von den Auftraggebern häufig kaum mehr nachvollzogen werden, sodass die Institute zunehmend Beratungsfunktionen wahrnehmen und auch Unterstützung bei der Implementierung bieten müssen (vgl. Berekoven et al. 2009, S. 35 f.). Hat sich ein Unternehmen für die Inanspruchnahme eines Instituts entschieden, ist eine Anbieterauswahl zu treffen. Folgende Kriterien können sich für die Auswahl als hilfreich erweisen (vgl. Pepels 2014, S. 28 f.): Erfahrung bzw. Spezialisierung in relevanten Märkten oder in besonderen Erhebungsverfahren (z.B. Panelforschung), leistungsfähige personelle und sachliche Ausstattung, Größe und Zusammensetzung des Kundenkreises, ausgewiesen beispielsweise durch Referenzen anderer Auftraggeber, Mitgliedschaft in einschlägigen Fachverbänden wie BVM oder ADM, da die Mitgliedschaft an bestimmten Mindest(qualitäts-)anforderungen gebunden ist, institutseigene Bemühungen und Grundsätze für Qualitätssicherung und Datenschutz, Möglichkeit des Konkurrenzausschlusses während der Projektdauer, Empfehlungen anderer Unternehmen (z.B. Lieferanten, Abnehmer) oder eigene Erfahrungen aus der Vergangenheit, laufende Kontrollmöglichkeiten seitens des Auftraggebers (Budget, Termine), „weiche“ Kriterien wie räumliche Nähe, Sympathie etc. Hat sich das Unternehmen für ein Institut entschieden, so muss es ein möglichst genaues Briefing erarbeiten, welches für das Institut Grundlage der Angebotsstellung ist. Dieses enthält u.a. Angaben über die konkrete Problemstellung, Zielgruppen, methodische Wünsche, Terminvorstellungen. Bei erstmaliger Zusammenarbeit werden i.A. Angebote verschiedener Institute eingeholt. Nach einer eventuellen Verhandlung über strittige Punkte erfolgt die Auftragsvergabe, bei der folgende Sachverhalte verbindlich zu regeln sind (vgl. Pepels 2014, S. 29): ausführliche und präzise Problembeschreibung, Untersuchungsdesign (Stichprobe, Auswahlverfahren, Erhebungsverfahren etc.), Art der Ergebnisse, Kontaktpersonen im Institut und beim Auftraggeber, Leistungen, die der Auftraggeber beisteuert, detaillierte Kostenkalkulation mit Aufgliederung der Positionen in Vorarbeiten, Pretest, Feldarbeit, Auswertung, Präsentation usw., Terminplanung (Zwischentermine, Berichtsabgabe, Präsentation), Form der Berichterstattung. 2.3 Sonstige Träger der Marktforschung Externe Marktforschungsleistungen werden nicht nur von Instituten, sondern auch von einer ganzen Reihe weiterer Träger geliefert. Solche Träger bieten nicht das gesamte Leistungsspektrum eines Full-Service-Instituts an, sondern sind auf bestimmte Leistungen spezialisiert. Beispielsweise kann ein Unternehmen im Falle der Eigenfor- <?page no="30"?> Sonstige Träger der Marktforschung 31 schung eine Feldorganisation beauftragen, welche einen Interviewerstab für die Durchführung einer Face-to-Face-Befragung zur Verfügung stellt. Tabelle 1.6 zeigt die wichtigsten sonstigen Marktforschungsdienstleister im Überblick. Tab. 1.6: Sonstige Träger der Marktforschung Träger Kennzeichnung Marktforschungsberater Freiberufliche Spezialisten, die im Auftrag ihrer Kunden bei der Konzeption, Auswertung und Analyse von Erhebungen mitwirken Oftmals Bindeglied zwischen Unternehmen und Institut Informationsbroker Spezialisten, die gegen Honorar bestimmte Informationen nachweisen, beschaffen und auswerten Beispiel: Kundendatenverwerter, die das z.B. über Kundenkarten erhobene Material (Kaufverhalten, persönliche Daten) auswerten und ggf. an Dritte weitergeben Marktforschungsabteilungen von Werbeagenturen Betreuung bestimmter Kundenaufträge Zusammenarbeit mit Instituten auf dem Gebiet der Werbeforschung Feldorganisationen Bereitstellung von Interviewerstäben für den Auftraggeber (Unternehmen oder Institut) Mittlerweile häufig auch Dateneingabe und -analyse Teststudios Anbieter, welche Räumlichkeiten zur Durchführung von Interviews, Beobachtungen, Experimente zur Verfügung stellen Sie bieten häufig auch personelle Kompetenzen an Unternehmensverbände Unterhalten häufig eigene Marktforschungsstellen bzw. -abteilungen Führen eigene Studien für Verbandsmitglieder durch oder beauftragen ein Marktforschungsinstitut <?page no="32"?> 3 Forschungsansätze in der Marktforschung Bei der Planung einer Erhebung ist zunächst der grundlegende Forschungsansatz festzulegen. Abhängig vom verfolgten Untersuchungsziel lassen sich Forschungsansätze in explorative, deskriptive und kausale Studien unterscheiden. Damit zusammenhängend stellt sich auch die Frage, ob der heranzuziehende methodische Ansatz eher qualitativ oder eher quantitativ sein soll. Quantitative Methoden der Marktforschung richten sich insb. auf objektiv und zahlenmäßig messbare Größen. Die Datenerhebung erfolgt im Normalfall auf der Grundlage repräsentativer Stichproben mit dem Ziel, verallgemeinerbare Aussagen zu gewinnen (vgl. Teil 3). Typischerweise erfolgt die Datenauswertung unter Einsatz statistischer Verfahren. Qualitative Methoden stützen sich hingegen auf vergleichsweise kleine Fallzahlen und produzieren relativ „weiche“ Daten. Auf Repräsentativität wird bewusst zugunsten einer tiefergehenden Analyse des interessierenden Sachverhalts verzichtet. Typische Methoden sind Tiefeninterviews und Gruppendiskussioonen (vgl. Teil 7). Nicht gleichzusetzen sind qualitative und quantitative Forschung mit subjektiver und objektiver Forschung: Zum einen sind beide Ansätze bemüht, objektive - i.S. von wertfreie - Daten zu erheben; zum anderen enthalten auch quantitative Methoden subjektive Elemente, z.B. bei der Auswahl der in die Untersuchung eingehenden Variablen, der Operationalisierung der Konstrukte, der Interpretation der Ergebnisse u.a. Im Folgenden soll auf die einzelnen Forschungsansätze näher eingegangen werden. 3.1 Explorative Studien Definition Explorative Studien dienen der Gewinnung erster Einsichten zum aktuellen Forschungsproblem. Typischerweise finden explorative Analysen bei neuartigen, komplexen und schlecht strukturierten Forschungsproblemen Anwendung. Erhebungsmethoden im Rahmen explorativer Studien sind Sekundärforschung, qualitative Befragungen und Beobachtungen sowie Fallstudienanalysen. Explorative Studien sind geeignet, komplexe Forschungsprobleme in wohldefinierte Teilprobleme herunterzubrechen und zu präzisieren und dienen somit der Hypothesenfindung. Darüber hinaus ist bei einem konkreten Marketingproblem häufig eine Fülle theoretisch möglicher Erklärungen gegeben - bei einem Umsatzrückgang etwa Missmanagement des Produktmanagers, eine schwache Werbekampagne, Wandel der Kundenbedürfnisse usw. Explorative Studien können hier dazu beitragen, konkurrierende Erklärungen zu erkunden und die vielversprechendsten zu selektieren. Weiterhin können explorative Analysen einen Beitrag zur Operationalisierung von Konstrukten leisten. Beispielsweise kann im Rahmen von Tiefeninterviews festgestellt werden, welche Facetten <?page no="33"?> 34 Forschungsansätze in der Marktforschung das Konstrukt „Kundenzufriedenheit“ beinhaltet; diese Facetten können dann in der Hauptuntersuchung als Items in eine quantitative Repräsentativbefragung eingehen. Der methodische Ansatz ist im Rahmen explorativer Analysen qualitativ; es wird hier also nicht versucht, repräsentative Ergebnisse für die Grundgesamtheit zu gewinnen, sondern es wird eine kleine Gruppe von Untersuchungseinheiten möglichst umfassend und tiefgehend analysiert. In den meisten Fällen werden dabei psychologische oder soziologische Konstrukte untersucht. Aufgrund des zu Beginn einer Untersuchung geringen Kenntnisstands erfordern explorative Studien ein hohes Maß an Flexibilität und Kreativität seitens der Marktforscher; im Zuge des Forschungsvorhabens ist u.U. ein Wechsel der Forschungsmethode erforderlich, um sich dem veränderten Informationsstand anzupassen. Typische Erhebungsverfahren im Rahmen explorativer Analysen sind Sekundärerhebungen sowie (qualitative) Befragungen (z.B. Expertenbefragungen) und Beobachtungen. Auch im Rahmen explorativer Analysen sollten zunächst Sekundärquellen herangezogen werden, da daraus erste Einblicke in mögliche Ursachen des aktuellen Problems gewonnen werden können. Besteht der aktuelle Marktforschungsanlass etwa in einem Umsatzrückgang, so ist das Forschungsproblem grundlegend verschieden, wenn der Marktanteil des Unternehmens (ggf. im Vergleich zum Hauptkonkurrenten) stabil, steigend oder aber ebenfalls gesunken ist. Darüber hinaus ist im Rahmen explorativer Untersuchungen die Fallstudienanalyse gebräuchlich (vgl. Bonoma 1985; Borchard/ Göttlich 2009; Ridder 2016). Hier werden ausgewählte Fälle des zu untersuchenden Sachverhalts intensiv analysiert. Durch das Herausfinden von Gemeinsamkeiten und Unterschieden können erste potenzielle Gesetzmäßigkeiten als Grundlage für die Formulierung von Forschungshypothesen festgestellt werden. Geeignete Fälle sind dabei solche, die Veränderungen aufzeigen (z.B. im Zusammenhang mit der Einführung einer neuen Technologie oder dem Wechsel zentraler Rahmenbedingungen), die Extrembeispiele darstellen (z.B. Fälle besonders erfolgreicher Produkteinführungen vs. Berichte spektakulärer Flops) und welche die Abfolge von Ereignissen im Zeitablauf widerspiegeln. Zu der Analyse ausgewählter Fälle zählt auch das häufig praktizierte Benchmarking. Benchmarking beinhaltet die Identifikation sog. Best Practice-Unternehmen; es handelt sich hierbei um Unternehmen, die bestimmte Aktivitäten im Vergleich zu anderen besonders erfolgreich durchführen (vgl. Horvàth/ Herter 1992). Dabei kann es sich um Konkurrenten aus derselben Branche handeln; besonders innovative Ansatzpunkte lassen sich jedoch auch aus der Analyse branchenfremder Unternehmen gewinnen. Im eigenen Unternehmen können Hinweise durch Vergleiche von erfolgreichen und weniger erfolgreichen Marketingmaßnahmen in der Vergangenheit ermittelt werden (Böhler 2004, S. 38); Voraussetzung hierfür ist die regelmäßige Erfassung und Aufbereitung unternehmensinterner Daten. Im Rahmen von Primärerhebungen spielen bei explorativen Analysen qualitative Befragungs- und Beobachtungstechniken eine große Rolle. Gebräuchlich sind z.B. Tiefeninterviews und Gruppendiskussionen. Dadurch wird versucht, tiefere Einblicke in die Psychologie der Untersuchungseinheiten - z.B. Konsumenten - zu gewinnen. Gegebenenfalls lassen sich daraus Forschungshypothesen für deskriptive und kausale Stu- <?page no="34"?> Deskriptive Studien 35 dien ableiten. Da die verschiedenen Verfahren qualitativer Marktforschung ausführlich in Teil 7 behandelt werden, wird an dieser Stelle nicht näher darauf eingegangen. 3.2 Deskriptive Studien Definition Deskriptive Studien beschreiben marketingrelevante Phänomene und überprüfen konkrete Forschungshypothesen, welche z.B. durch explorative Analysen generiert wurden. Je nachdem, ob die Daten zu einem bestimmten Zeitpunkt oder wiederholt erhoben werden, unterscheidet man zwischen Querschnittsanalysen und Längsschnittanalysen. Viele Marktforschungsvorhaben der betrieblichen Praxis sind als deskriptive Analysen ausgelegt. Typische Ziele deskriptiver Analysen sind: Beschreibung von Sachverhalten und Ermittlung der Häufigkeit ihres Auftretens (z.B.: „Wie viele Konsumenten gehören zu den Intensivverwendern eines Produkts, wie viele gehören zu den Normalverwendern und wie viele zu den Nichtverwendern? “ „Durch welche Merkmale lassen sich Intensivverwender, Normalverwender bzw. Nichtverwender eines Produkts charakterisieren? “ Ermittlung des Zusammenhangs zwischen Variablen (z.B.: „Führt eine Preissenkung zu einer Erhöhung des Anteils der Verwender eines Produkts? “) Vorhersage von Entwicklungen zur Identifikation eines ggf. vorhandenen Handlungsbedarfs (z.B.: „Wie wird sich nach jetzigem Kenntnisstand der Umsatz in den nächsten fünf Jahren entwickeln? “) Deskriptive Studien gehen von einem genau festgelegten Forschungsziel und einem konkret definierten Informationsbedarf aus; auf dieser Grundlage wird ein detaillierter Marktforschungsplan erstellt, in welchem Inhalte, Methoden, Termine, Zuständigkeiten usw. festgelegt werden. Im Gegensatz zu explorativen Studien werden weniger Flexibilität und Kreativität, sondern vielmehr Objektivität, Validität und Reliabilität der Messungen gefordert (vgl. hierzu Abschnitt 3.1.3. im 3. Teil). Deskriptive Analysen erfolgen zumeist in Form repräsentativer Teilerhebungen. Der methodische Ansatz bei deskriptiven Studien ist überwiegend quantitativ. Erhoben werden die Daten bei einer großen Anzahl von repräsentativ ausgewählten Untersuchungseinheiten; die Daten werden anschließend umfassend statistisch ausgewertet. Typische Erhebungsmethoden sind dabei die Befragung und die Beobachtung (vgl. die Abschnitte 1 und 2 in Teil 3), wobei der (standardisierten) Befragung die größte Bedeutung zukommt. Definition Im Rahmen von Querschnittsanalysen werden Daten erhoben, die sich auf einen bestimmten Zeitpunkt beziehen (z.B. Image des Unternehmens bei den relevanten Zielgruppen). Somit beschreiben sie den Status quo der untersuchten Größen. Typischerweise werden sie auf der Grundlage standardisierter Befragungen oder Beobachtungen durchgeführt. <?page no="35"?> 36 Forschungsansätze in der Marktforschung Querschnittsanalysen stellen die in der Praxis häufigste Form deskriptiver Studien dar. Im Rahmen von Querschnittsanalysen werden i.d.R. mehrere Variablen gleichzeitig erhoben; neben der isolierten Betrachtung der Häufigkeitsverteilungen der einzelnen Variablen (z.B. Kaufmenge eines Produkts) werden zumeist auch Häufigkeiten des Auftretens der Ausprägungen mehrerer Variablen gleichzeitig untersucht (z.B. Kaufmenge bei Konsumenten unterschiedlicher Altersgruppen); dies bildet die Grundlage für eine Identifikation und statistische Überprüfung von Zusammenhangshypothesen. Vorteilhaft an Querschnittsanalysen ist die Möglichkeit, relevante Sachverhalte umfassend zu erfassen, mit Hilfe statistischer Methoden zu analysieren und verallgemeinerbare Ergebnisse für die Grundgesamtheit zu gewinnen (entsprechende Qualität der Messverfahren vorausgesetzt). Nachteilig ist zum einen die vergleichsweise oberflächliche Beschreibung der Untersuchungsobjekte; zum anderen darf die Möglichkeit umfassender statistischer Auswertungen nicht darüber hinwegtäuschen, dass häufig nur eine Scheingenauigkeit erreicht wird. Darüber hinaus sind solche Studien vergleichsweise zeit- und kostenintensiv. Definition Im Rahmen von Längsschnittanalysen werden die benötigten Daten wiederholt zu verschiedenen Zeitpunkten erhoben. Somit eignen sich Längsschnittanalysen zur Erfassung von Entwicklungen. Hierbei wird unterschieden zwischen Panelerhebungen, Wellenerhebungen und Kohortenanalysen. Im Rahmen von Panelerhebungen wird derselbe Personenkreis wiederholt zum selben Forschungsgegenstand befragt bzw. beobachtet (vgl. hierzu ausführlich Teil 4); bei Wellenerhebungen ist die Stichprobe bei erneuter Erhebung zwar strukturgleich, sie besteht jedoch aus einem unterschiedlichen Personenkreis. Unter Kohortenanalysen werden Untersuchungen verstanden, bei denen eine nach bestimmten Kriterien (z.B. Geburtsjahr) gebildete Personengesamtheit im Zeitablauf untersucht wird. Längsschnittanalysen erlauben zum einen die Anwendung von Verfahren der Zeitreihenanalyse auf die einbezogenen Variablen und bilden damit die Grundlage für Prognosen. Zum anderen ermöglicht die Analyse von Längsschnittdaten auch die Untersuchung des Wechselverhaltens von Untersuchungseinheiten, z.B. Markenwechsel. Darüber hinaus können die aufgezeigten Entwicklungen zu anderen Variablen in Beziehung gesetzt werden, z.B. das Markenwahlverhalten in Abhängigkeit von bestimmten Ausprägungen von Marketingvariablen im Zeitablauf (etwa Werbekampagnen oder Preissenkungen; vgl. Malhotra 2010, S. 110). Zu beachten ist, dass deskriptive Studien zwar - neben der reinen Beschreibung von Sachverhalten - auch den Zusammenhang zwischen Variablen aufdecken können und somit auch zur Erklärung und (Wirkungs-)Prognose beitragen, z.B. Wirkungszusammenhang zwischen Preishöhe und Marktanteil; allerdings werden bei deskriptiven Studien sog. Störgrößen nicht explizit berücksichtigt (z.B. Marketingmaßnahmen der Konkurrenz, konjunkturelle Lage u.a.), sodass die ermittelten Zusammenhänge nicht als kausal i.e.S. zu verstehen sind. <?page no="36"?> Kausale Studien 37 3.3 Kausale Studien Definition Mit Hilfe kausaler Studien werden sog. Kausalhypothesen überprüft. Kausalität bedeutet, dass zwischen den untersuchten Variablen Ursache-Wirkungs-Beziehungen bestehen, d.h. eine interessierende Variable wird von einer oder mehreren anderen Variablen beeinflusst. Der methodische Ansatz bei kausalen Studien ist typischerweise quantitativ. Zwar wird auch im Rahmen explorativer Studien nach Ursachen für bestimmte Phänomene gesucht, die Methodik ist dort jedoch qualitativ orientiert, Hypothesen liegen nicht vor. Im Rahmen kausaler Studien liegen hingegen konkrete Forschungshypothesen vor, welche im Detail zu überprüfen und statistisch abzusichern sind. Von deskriptiven Analysen, welche ebenfalls in der Lage sind, Ursache-Wirkungs-Beziehungen aufzudecken, unterscheiden sich kausale Studien durch den Versuch, Störgrößen explizit zu kontrollieren (vgl. Böhler 2004, S. 40). Darüber hinaus handelt es sich bei explorativen und deskriptiven Analysen um sog. „Ex post facto“-Forschung, d.h. bei Untersuchung der Kriteriumsvariable Y wird nachträglich und rückblickend nach möglichen Ursachen gesucht; bei kausalen Studien wird der Zusammenhang hingegen ex ante durch systematische Variation der unabhängigen Variable(n) analysiert. Im Gegensatz zum naturwissenschaftlichen Verständnis von Kausalität - Ursache X führt unter bestimmten Bedingungen immer und zwangsläufig zu Wirkung Y aufgrund natürlicher Gesetzmäßigkeiten - ist Kausalität im sozialwissenschaftlichen Sinne an folgende Aspekte gebunden (vgl. Iacobucci/ Churchill 2010, S. 100): Bei der Untersuchung des Einflusses einer Variablen X auf eine Variable Y wird davon ausgegangen, dass die betrachtete erklärende Variable X eine der möglichen Ursachen für Variable Y ist, jedoch nicht die einzige. Wird ein Einfluss von Variable X auf Variable Y festgestellt, so impliziert dies, dass eine bestimmte Ausprägung von Variable X unter bestimmten Bedingungen eine spezifische Ausprägung der Variable Y wahrscheinlich zur Folge hat; ein strenger deterministischer Zusammenhang zwischen den betrachteten Variablen kann im Allgemeinen nicht angenommen werden. Dass Variable X die Ursache von Variable Y ist, kann im positiven Sinn nie bewiesen werden. Allenfalls kann ein vermuteter Zusammenhang widerlegt werden, dies allerdings auch nur mit einer bestimmten Wahrscheinlichkeit. Kausale Studien erfolgen typischerweise mittels Experimente. Die einzelnen Versuchsanordnungen unterscheiden sich u.a. dadurch, in welcher Form und in welchem Ausmaß Störgrößen explizit berücksichtigt werden. Gemeinsam ist allen Experimenten, dass eine oder mehrere unabhängige Variable(n) durch den Experimentator variiert werden, wobei - im Idealfall - alle anderen Einflussfaktoren kontrolliert werden. Dies erlaubt die Isolierung der Wirkung der unabhängigen auf die abhängige(n) Variable(n). Als experimentelle Stimuli werden Marketingvariablen herangezogen; als abhängige <?page no="37"?> 38 Forschungsansätze in der Marktforschung Variablen werden üblicherweise ökonomische (z.B. Absatzmenge) oder psychologische (z.B. Markenbekanntheit) Variablen untersucht. Zu erwähnen ist, dass Experimente - genauso wie Panelerhebungen und qualitative Verfahren - keine eigenständigen Erhebungsmethoden darstellen, da die Datenerhebung in Form von Befragungen und/ oder Beobachtungen erfolgt. Experimente werden ausführlich in Kapitel 3 in Teil 5 dargestellt. Neben Experimenten können auch Panelerhebungen kausale Zusammenhänge aufdecken, sofern deren Aufbau die Anforderungen an quasi-experimentelle Anordnungen erfüllt (vgl. die Ausführungen in Abschnitt 3.4 in Teil 5). <?page no="38"?> 4 Ethik in der Marktforschung Die Diskussion um ethische Fragestellungen in der Marktforschung ist nicht neu; schon lange befassen sich die einschlägigen Verbände (in Deutschland z.B. ADM und BVM, international ICC/ ESOMAR) mit der Frage, was ethisch „gute“ Marktforschung ist und was nicht. Auch die wissenschaftliche Diskussion befasst sich zunehmend mit ethischen Fragen, insb. im Zusammenhang mit dem Einsatz neurowissenschaftlicher Methoden. Für die Marktforschung relevante ethische Aspekte sind dabei der Datenschutz sowie die verschiedenen berufsethischen Prinzipien. 4.1 Datenschutz Datenschutzrechtliche Aspekte werden in Deutschland ausführlich im Bundesdatenschutzgesetz geregelt (BDSG), zuletzt geändert 2015, sowie durch die EU- Datenschutz-Grundverordnung. Ergänzt bzw. spezifiziert wird das BDSG durch entprechende Richtlinien, hier insb. die vom ADM herausgegebene Richtlinie zum Umgang mit Adressen in der Markt- und Sozialforschung (vgl. ADM 2011). Weitere relevante Regelungen finden sich u.a. im Telekommunikationsgesetz (TKG) bzw. im Telemediengesetz (TMG) sowie im Sozialgesetzbuch (SGB). Ziel sämtlicher Regelungen ist der Schutz der Privatsphäre vor unberechtigten Zugriffen von außen. Gegenstand des Datenschutzes sind ausschließlich sog. personenbezogene Daten, also solche, die Rückschlüsse auf Merkmale einzelner Personen zulassen. Dazu gehören nicht nur Namen und Adressen, sondern z.B. auch Aufzeichnungen in videoüberwachten öffentlichen oder privaten Bereichen. Gemäß BDSG ist die Erhebung, Verarbeitung und Nutzung personenbezogener Daten grundsätzlich verboten, jedoch unter bestimmten Bedingungen erlaubt. Zum einen ist die Verwendung personenbezogener Daten gemäß §4 BDSG immer dann zulässig, wenn der Betroffene explizit eingewilligt hat. Voraussetzung hierfür ist allerdings eine angemessene Aufklärung. Weiterhin wird in § 28 geregelt, unter welchen Bedingungen die Verwendung personenbezogener Daten erlaubt ist. Die Verwendung personenbezogener Daten ist allgemein u.a. in folgenden Fällen zulässig: zum Abschluss von Verträgen, bei „berechtigtem Interesse“, wenn keine schutzwürdigen Belange des Betroffenen berührt werden, oder wenn die Daten aus allgemein zugänglichen Quellen stammen (z.B. Telefonbüchern). Die Erhebung und Nutzung personenbezogener Daten für die Markt und Meinungsforschung wird ausdrücklich in § 30a BDSG geregelt. Hiernach ist die Verwendung personenbezogener Daten aus öffentlich zugänglichen Quellen grundsätzlich zulässig; Diese Regelung bildet die Grundlage für die Gewinnung von Stichproben in der Marktforschung. <?page no="39"?> 40 Ethik in der Marktforschung § 30a BDSG: Geschäftsmäßige Datenerhebung und -speicherung für Zwecke der Markt- oder Meinungsforschung (1) Das geschäftsmäßige Erheben, Verarbeiten oder Nutzen personenbezogener Daten für Zwecke der Markt oder Meinungsforschung ist zulässig, wenn 1. kein Grund zu der Annahme besteht, dass der Betroffene ein schutzwürdiges Interesse an dem Ausschluss der Erhebung, Verarbeitung oder Nutzung hat, oder 2. die Daten aus allgemein zugänglichen Quellen entnommen werden können oder die verantwortliche Stelle sie veröffentlichen dürfte und das schutzwürdige Interesse des Betroffenen an dem Ausschluss der Erhebung, Verarbeitung oder Nutzung gegenüber dem Interesse der verantwortlichen Stelle nicht offensichtlich überwiegt. […] (2) Für Zwecke der Markt- oder Meinungsforschung erhobene oder gespeicherte personenbezogene Daten dürfen nur für diese Zwecke verarbeitet oder genutzt werden. […] Für einen anderen Zweck dürfen sie nur verarbeitet oder genutzt werden, wenn sie zuvor so anonymisiert werden, dass ein Personenbezug nicht mehr hergestellt werden kann. (3) Die personenbezogenen Daten sind zu anonymisieren, sobald dies nach dem Zweck des Forschungsvorhabens, für das die Daten erhoben worden sind, möglich ist. Bis dahin sind die Merkmale gesondert zu speichern, mit denen Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren Person zugeordnet werden können.[…] Weiterhin wird in den genannten Gesetzen geregelt, unter welchen Bedingungen Adressdaten weitergegeben werden dürfen. Das TKG und das TMG sind in dieser Hinsicht deutlich restriktiver als das BDSG, da sie in jedem Falle eine explizite Einwilligung der Betroffenen verlangen. 4.2 Berufsethische Prinzipien Berufsethische Prinzipien und berufsständische Verhaltensregeln sind Regelwerke, denen sich Mitglieder der Marktforschungsverbände verpflichten, ggf. auch über die geltenden gesetzlichen Regelungen hinaus. Von besonderer Relevanz ist der ICC/ ESOMAR Internationaler Kodex für die Markt- und Sozialforschung. Für Deutschland gilt dabei zusätzlich die „Erklärung für das Gebiet der Bundesrepublik Deutschland zum ICC/ ESOMAR Internationalen Kodex für die Markt- und Sozialforschung“, welche von den vier Verbänden herausgegeben wurde (vgl. i.E. Scheffler et al. 2008): ADM Arbeitskreis Deutscher Markt und Sozialforschungsinstitute e.V., Arbeitsgemeinschaft Sozialwissenschaftlicher Institute e.V. (ASI), BVM Berufsverband Deutscher Markt und Sozialforscher e.V. und Deutsche Gesellschaft für Online-Forschung e.V. (DGOF). <?page no="40"?> Berufsethische Prinzipien 41 Eine erste Forderung ist die Wissenschaftlichkeit der Vorgehensweise. Marktforscher, die sich dem ICC/ ESOMAR-Kodex verpflichten, müssen gewährleisten, dass Forschungsaktivitäten dem Ziel der Gewinnung generalisierbarer Erkenntnisse dienen und dass dieses Erkenntnisinteresse mit geeigneten, wissenschaftlich anerkannten Methoden verfolgt wird. Damit soll auch gewährleistet werden, dass die eingesetzten Messverfahren den Qualitätskriterien Objektivität, Reliabilität und Validität entsprechen (vgl. Abschnitt 1.4.2 im 3. Teil). Dies bedeutet u.a., dass eine verzerrte oder gar verfälschte Darstellung der Untersuchungsergebnisse unzulässig ist - selbst dann, wenn der Auftraggeber dem zustimmt oder dies sogar ausdrücklich wünscht. Darüber hinaus ist im Untersuchungsbericht das Untersuchungsdesign angemessen zu erläutern, Grenzen der Erhebung (z.B. mangelnde Repräsentativität durch hohe Ausfälle) sind explizit offenzulegen. Anders als bei der Erhebung von Daten mit dem Ziel der kommerziellen Nutzung (z.B. Direktmarketing) ist eine zentrale Forderung für die Markt- und Sozialforschung die uneingeschränkte Anonymisierung der Daten, d.h. die erhobenen Daten dürfen an den Auftraggeber und andere Dritte nur in einer Form übermittelt werden, die eine Identifikation der Teilnehmer ausschließt oder nur mit einem unverhältnismäßig großen Aufwand möglich macht (ADM 2011, o.S.). Selbst wenn die Probanden der Weitergabe ihrer Daten explizit einwilligen würden, darf eine solche Einwilligung in der Markt- und Sozialforschung nicht eingeholt werden (Scheffler et al. 2008). Darüber hinaus ist Markt- und Sozialforschung gegenüber anderen Tätigkeiten abzugrenzen. Gemeint sind hier insb. kommerzielle Aktivitäten im Zusammenhang mit Werbung, Verkaufsförderung und Direktmarketing, die keine wissenschaftliche Forschung sind. So ist beispielsweise die Verbindung einer telefonischen Befragung im Rahmen einer Erhebung zur Kundenzufriedenheit mit Maßnahmen der Telefonwerbung, etwa zur Information über ein neues Leistungsangebot, unzulässig. Neben diesen allgemeinen Grundsätzen hat der ADM eine Vielzahl von Richtlinien herausgegeben, welche den Umgang mit besonderen Methoden oder Personengruppen betreffen (Details siehe www.adm-ev.de): Richtlinie für die Aufzeichnung und Beobachtung von Gruppendiskussionen und qualitativen Einzelinterviews Richtlinie für den Einsatz von Mystery Research in der Markt-und Sozialforschung Richtlinie für Studien im Gesundheitswesen zu Zwecken der Markt- und Sozialforschung Richtlinie für telefonische Befragungen Ergänzung der Richtlinie für telefonische Befragungen zum Anzeigen der Rufnummer Ergänzung der Richtlinie fur telefonische Befragungen zur berufsethischen Selbstbeschränkung und zum Einsatz automatischer Wähleinrichtungen bei telefonischen Interviews Richtlinie für die Befragung von Minderjährigen Richtlinie für die Veröffentlichung von Ergebnissen der Wahlforschung <?page no="41"?> 42 Ethik in der Marktforschung Richtlinie zum Umgang mit Adressen in der Markt- und Sozialforschung Richtlinie zum Umgang mit Datenbanken in der Markt- und Sozialforschung Richtlinie für Online-Befragungen Richtlinie für den Einsatz von Datentreuhändern in der Markt- und Sozialforschung Richtlinie für Untersuchungen in den und mittels der Sozialen Medien (Soziale Medien Richtlinie) Wichtige Grundsätze, welche in den genannten Richtlinien enthalten sind, betreffen insb. den Schutz der Probanden. So ist die Teilnahme von Versuchspersonen freiwillig; aus der Nichtteilnahme darf niemandem ein persönlicher Nachteil entstehen. Zu jedem Zeitpunkt des Projekts - auch im Falle einer vorangegangenen Zustimmung - können die Teilnehmer ihre Mitarbeit verweigern. Darüber hinaus sind bei Forschungsvorhaben, die auf einer zulässigen verdeckten Beobachtung beruhen, die Teilnehmer anschließend über die erfolgte Beobachtung aufzuklären („debriefing“), und es ist nachträglich deren schriftliches Einverständnis zur Verwendung der Daten einzuholen. Die von den Probanden zu bearbeitenden Aufgaben dürfen zudem zu keinerlei körperlichen oder geistigen Beeinträchtigung führen. Forschungsvorhaben mit Kindern und Jugendlichen bedürfen über die hier genannten Grundsätze hinaus der schriftlichen Zustimmung mindestens eines Erziehungsberechtigten. Große Unsicherheit herrscht derzeit noch bei ethischen Fragen im Zusammenhang mit apparativen neurowissenschaftlichen Methoden (vgl. Abschnitt 2.2 in Teil 3). Erste Ansätze zur Entwicklung von Ethik-Kodices, z.B. der NMSBA Code of Ethics oder der Neuromarketing Code of Ethics von Murphy et al. (2008), sind derzeit im Aufbau (vgl. die ausführliche kritische Darstellung bei Hensel et al. 2017). In jedem Fall sind die vorhandenen Richtlinien, z.B. von ADM und ICC/ ESOMAR, kontinuierlich zu überarbeiten, um den neuen Entwicklungen gerecht zu werden. Für den Umgang mit den neuen Verfahren schlägt Scheffler (2010, S. 46) eine eindeutige Zuordnung der (apparativen) Methoden zu den folgenden fünf Gruppen vor: Verfahren, für die keine Information und Genehmigung der Teilnehmer erforderlich ist, etwa Videoaufnahme im öffentlichen Raum; Verfahren, bei denen eine allgemeine Information der Teilnehmer ausreichend ist, z.B. Videoerfassung am Point of Sale; Verfahren, bei denen eine Opt-out-Möglichkeit ausreichend ist, z.B. Möglichkeit zur Ablehnung von Cookies; Verfahren, die eine ausführliche Aufklärung der Probanden und deren ausdrückliche Zustimmung (Opt-in) erfordern, z.B. Eye Tracking, Facial Coding, Hautwiderstandsmessung, fMRT; Verfahren, deren Einsatz in der Marktforschung ausdrücklich verboten ist, da sie die körperliche oder geistige Gesundheit des Probanden beeinträchtigen können. Dazu gehören invasive Verfahren wie die PET (Positronen-Emissions-Tomographie), bei welcher radioaktive Isotope injiziert werden, oder die Erzeugung unzumutbarer psychischer Stresssituationen. <?page no="42"?> Berufsethische Prinzipien 43 Weiterführende Literatur Bonoma, T.V. (1985): Case Research in Marketing: Opportunities, Problems, and a Process, in: Journal of Marketing Research, 22(2), 199-208. Borchard, A., Göttlich, S.E. (2009): Erkenntnisgewinnung durch Fallstudien, in: Albers, S., Klapper, D., Konradt, U., Walter, A., Wolf, J. (Hrsg.): Methodik der empirischen Forschung, 3. Aufl., Wiesbaden, 33-48. Grundei, J. (2000): Die Organisation der Marktforschung. Gestaltungsmöglichkeiten und Effizienzbewertung, Diskussionspapier 2000/ 2, Wirtschaftswissenschaftliche Dokumentation, Fachbereich 14, TU Berlin, Berlin. Ridder, H.-G. (2016): Case Study Research. Approaches, Methods, Contribution to Theory, Reihe: Sozialwissenschaftliche Forschungsmethoden, Band 12, München, Mering. Scheffler, H., Meulemann, H., Dittrich, W., Wenzel, O. (2008): Erklärung für das Gebiet der Bundesrepublik Deutschland zum ICC/ ESOMAR Internationalen Kodex für die Markt- und Sozialforschung, o.O. Hensel, D., Wolter, L., Znanewitz, J. (2017): A Guideline for Ethical Aspects in Conducting Neuromarketing Studies, in: Thomas, A.R., Pop, N.A., Iorga, A.M., Ducu, C. (eds.): Ethics and Neuromarketing - Implications for Market Research and Business Practice, Berlin u.a., 65-87. <?page no="44"?> Teil 2: Sekundärforschung Definition Unter Sekundärforschung versteht man die Suche, Sammlung, Sichtung und Auswertung von Daten, die zu einem früheren Zeitpunkt, ggf. auch zu einem anderen Zweck bereits erhoben wurden. Damit beinhaltet die Sekundärforschung („desk research“) die Ausschöpfung von bereits vorhandenem Datenmaterial unter dem speziellen Blickwinkel der aktuellen Fragestellung. Eine besondere Rolle innerhalb der Sekundärforschung spielen Big Data. 1 Quellen der Sekundärforschung 1.1 Systematik von Quellen der Sekundärforschung Quellen der Sekundärforschung können unternehmensintern und unternehmensextern sein. Interne Quellen der Sekundärforschung sind insb. bei der Erhebung unternehmensspezifischer Informationen heranzuziehen. Rechnungswesen und Controlling liefern beispielsweise kontinuierliche Informationen über betriebswirtschaftliche Eckdaten (Kostenstruktur, Kostenentwicklung, Bilanzkennzahlen, Deckungsbeiträge usw.). Die Absatz- und Umsatzstatistik ermöglicht Einblicke in die Leistungstiefe eines Unternehmens, seiner Geschäftsbereiche, Märkte und Produkte. Eine weitere wichtige Quelle sind frühere Erhebungen des Unternehmens. Tabelle 2.1 gibt einen Überblick über wichtige unternehmensinterne Quellen der Sekundärforschung. Damit diese Daten für Marketingentscheidungen herangezogen werden können, sollten sie in entscheidungsrelevanten Untergliederungen vorliegen, z.B. nach (vgl. Böhler 2004, S. 65): Produkten bzw. Produktgruppen, Verkaufsgebieten, Absatzwegen, Kunden bzw. Kundengruppen, Auftragsgrößenklassen usw. Durch die regelmäßige Erfassung und Speicherung o.g. Daten kann das Unternehmen eine interne Datenbank aufbauen, von der relevante Informationen jederzeit abrufbar sind. Zu beachten ist, dass die technischen Möglichkeiten moderner IT-Systeme solche Datenbanken sehr schnell zu einer kaum mehr handhabbaren Datenfülle führen. Zur Auswertung umfangreicher Datenbestände hat sich das sog. Data Mining etabliert (vgl. Petersohn 2005). Mit Hilfe des Data Mining wird das Verbraucherverhalten modelliert; als Analysemethoden werden klassische multivariate Verfahren der Datenanalyse wie Regressionsanalyse, Clusteranalyse und Diskriminanzanalyse, aber auch neuere Ansätze wie z.B. Neuronale Netze eingesetzt. <?page no="45"?> 46 Quellen der Sekundärforschung Tab. 2.1: Ausgewählte unternehmensinterne Quellen der Sekundärforschung Quellen Beispiele Rechnungswesen und Controlling Kostenstruktur und -entwicklung Deckungsbeiträge Bilanzkennzahlen Rentabilität/ Gewinn Absatz- und Vertriebsstatistik Auftragseingänge und -bestände Außendienstberichte Kundendienstberichte (Garantiefälle, Reklamationen, Mahnungen etc.) Vertriebswegeerfolgskennziffern Produktions- und Lagerstatistik Produktionskapazität Kapazitätsauslastung Lagerbestände Frühere Primärerhebungen Produktanalysen Kundenanalysen Wettbewerbsanalysen Imageanalysen Externe Quellen sind insb. zur Erhebung von Informationen über die globale Umwelt sowie von Brancheninformationen von Bedeutung. Sie können als Printprodukte oder auch in elektronischer Form vorliegen. Tabelle 2.2 gibt einen Überblick über wichtige unternehmensexterne Quellen der Sekundärforschung. Globale Umweltdaten (gesamtwirtschaftliche, politische, technologische Rahmendaten etc.) werden von diversen Institutionen regelmäßig erhoben und veröffentlicht. Die Publikationen der amtlichen Statistik (z.B. Statistisches Jahrbuch für die Bundesrepublik Deutschland oder die Zeitschrift „Wirtschaft und Statistik“) liefern Informationen auf gesamtdeutscher Ebene, wohingegen Informationsmaterialien der statistischen Ämter von Ländern und Gemeinden differenziertere Daten zu einzelnen Regionen bzw. Gemeinden bereitstellen. Ministerien und staatliche Institutionen veröffentlichen ebenfalls allgemeine Wirtschaftsdaten, aber auch spezifische Informationen zu bestimmten Branchen. Detailliertere Brancheninformationen erhält man darüber hinaus von Wirtschaftsverbänden. Neben Branchenstatistiken, Branchenberichten und Betriebsvergleichen bereiten viele Verbände Daten amtlicher und nichtamtlicher Quellen für ihre Verbandsmitglieder auf. Wertvolle Informationen sind von wirtschaftswissenschaftlichen Instituten erhältlich. Gerade wissenschaftliche Einrichtungen wie Universitäten, Forschungsinstitute u.ä. ermöglichen den - häufig kostenlosen - Zugriff auf aktuelle Forschungsberichte und Wirtschaftsdaten. So befasst sich z.B. das Ifo-Institut München insb. mit Konjunkturforschung sowie mit der Erforschung von Struktur und Entwicklung einzelner Wirtschaftszweige. Fragestellungen im Zusammenhang mit dem Handel werden am Institut für Handelsforschung (Köln) sowie an der Forschungsstelle für den Handel (Berlin) behandelt. <?page no="46"?> Systematik von Quellen der Sekundärforschung 47 Tab. 2.2: Ausgewählte unternehmensexterne Quellen der Sekundärforschung Quellen Beispiele Amtliche Statistik Statistisches Bundesamt Statistische Landesämter Statistische Ämter der Gemeinden Statistisches Amt der Europäischen Gemeinschaften Ministerien und staatliche Institutionen Bundes- und Landesministerien (z.B. für Wirtschaft, Finanzen, Landwirtschaft) Öffentliche Anstalten, Ämter und Verwaltungen (z.B. Kraftfahrtbundesamt, Bundesagentur für Arbeit, Industrie- und Handelskammern) Internationale Behörden (z.B. EU, OECD, UNCTAD) Internationale Organisationen (z.B. IWF, Weltbank, FAO) Wirtschaftsverbände Bundesverband der Deutschen Industrie (BDI) Zentralverband Elektrotechnik und Elektronikindustrie (ZVEI) Verband der Automobilindustrie e.V. (VDA) Spezialverbände wie z.B. ZAW (Zentralausschuss der deutschen Werbewirtschaft), Kommunikationsverband etc. Wirtschaftswissenschaftliche Institute IFO-Institut, München Institut für Handelsforschung an der Universität zu Köln Hamburger Weltwirtschaftsinstitut (HWWI) Institut für Weltwirtschaft, Kiel Forschungsstelle für den Handel, Berlin Markforschungsinstitute GfK-Gruppe Kantar TNS Institut für Demoskopie Allensbach Nielsen Allgemeine Fachpublikationen Zeitungen und Zeitschriften Fachbücher, Fachzeitschriften Firmenveröffentlichungen Bibliographien Datenbanken Offline-Datenbanken Online-Datenbanken Internetbasierte Informationsquellen Online-Publikationen Suchmaschinen (z.B. Google) Webkataloge (z.B. Yahoo! ) Link-Listen Soziale Netzwerke (Facebook, Twitter usw.) <?page no="47"?> 48 Quellen der Sekundärforschung Auch Marktforschungsinstitute liefern zahlreiche Sekundärmaterialien insb. in Form von Studien und Forschungsberichten zu speziellen Fragestellungen wie auch Paneldaten. Eine wichtige Quelle für Wettbewerbsinformationen liefern auch Unternehmensveröffentlichungen, z.B. Imagebroschüren, Kataloge, Geschäftsberichte. Unternehmensdaten können häufig über deren Website abgerufen werden. Viele Medienunternehmen unterhalten darüber hinaus Archive mit den verschiedensten Informationen, u.a. auch aktuelle Marketingstudien, wie z.B. werben&verkaufen (www.wuv.de). Eine immense Bedeutung für die Beschaffung sekundärstatistischer Daten kommt Datenbanken zu. Die Fortschritte in der Kommunikations- und Informationstechnologie haben gerade in den letzten Jahren dazu geführt, dass eine Vielzahl externer Datenbanken einem wachsenden Kreis von Nutzern zu akzeptablen Kosten zur Verfügung steht. Dadurch werden Recherchen zum einen erheblich beschleunigt, zum anderen bieten solche Datenbanken enorme Vorteile im Hinblick auf Aktualität, Quantität und Qualität der verfügbaren Informationen. Datenbanken können sowohl offline (CD-ROMs, USB Sticks bis hin zu externen Festplatten, je nach Datenvolumen) wie auch online verfügbar sein. Der Trend geht dabei eindeutig hin zu Online-Datenbanken. Grundsätzlich betreiben die meisten in Tab. 2.2 genannten Institutionen eigene Datenbanken. Daneben gibt es spezielle Datenbankanbieter. Zu den Betreibern von Online-Datenbanken zählen: Professionelle Informationsdienste: Als ein wichtiger kommerzieller Anbieter in Deutschland ist GBI-GENIOS (www.genios.de) zu nennen. GENIOS beinhaltet rd. 1300 verschiedene Datenbanken mit 140 Millionen Dokumenten und bietet den Gateway-Zugriff auf Informationsdienste, wobei datenbankübergreifende Recherchen möglich sind. Weiterhin greift der Anbieter auf über 300 Tageszeitungen und 800 Fachzeitschriften zu. GENIOS bietet zudem auch Media Monitoring an, z.B. in Social Media. Amtliche bzw. halbamtliche Institutionen: Dazu gehören z.B. Datenbanken des Statistischen Bundesamtes (www.destatis.de) oder der Industrie- und Handelskammern (www.ihk.de), welche eine Vielzahl - teilweise gebührenpflichtiger - Informationen bereithalten. Das Statistische Bundesamt bietet beispielsweise seit März 2016 mit GENESIS-Online eine zweisprachige Datenbank mit einem umfangreichen Datenangebot aus allen Statistikbereichen an. Internationale Organisationen: Datenbanken internationaler Organisationen stellen eine Vielzahl an Daten zu verschiedenen Ländern bzw. Ländergruppen zur Verfügung. Beispiele sind die Weltbank (www.worldbank.org), die OECD (www.oecd.org) oder die Welthandelsorganisation (www.wto.org.) Über den Web-Auftritt der Weltbank (www.worldbank.org) besteht beispielsweise ein (gebührenpflichtiger) Zugang zu den Datenbanken WDI (World Development Indicators) und GDF (Global Development Finance). Marktforschungsinstitute: Den Unternehmen stehen auch (kostenpflichtig) Datenbanken von Marktforschungsinstituten, wie z.B. Nielsen (www.nielsen.com), GfK (www.gfk.de), Emnid (www.emnid.de) sowie Kantar TNS (www.tns-infratest.com), zur Verfügung. Dabei ist der Trend festzustellen, dass Unternehmen ihre Desk Research zunehmend an Marktforschungsinstitute delegieren, welche einen professionellen Umgang mit Sekundärdaten garantieren (insb. im Hinblick auf die Datenqualität). <?page no="48"?> Digitalisierung, Social Media und Big Data 49 Weitere internetbasierte Quellen der Sekundärforschung sind: Suchmaschinen. Nach Eingabe eines Suchbegriffs erhält der Nutzer eine Liste von Webseiten, die diesen Suchbegriff enthalten. Bekannteste Suchmaschine ist Google. Webkataloge. Diese sind darauf spezialisiert, Quellen redaktionell zu überprüfen, aufzubereiten und die dazugehörigen WWW-Adressen in Themenbereichen zu katalogisieren. Bekanntester Webkatalog ist Yahoo! Link-Listen. Diese beinhalten eine Sammlung von Informationen zu bestimmten Themen in Form von Hinweisen auf themenverwandte Websites. Informationen aus Sozialen Netzwerken wie Facebook oder Twitter. Aus den Posts, Likes/ Dislikes usw. der Nutzer können wesentliche Hinweise für ihre Einstellungen, Motive usw. gewonnen werden (vgl. Abschnitt 1.2 in diesem Teil). 1.2 Digitalisierung, Social Media und Big Data Die „Digitale Revolution“ hat dazu geführt, dass die meisten sekundärstatistischen Informationen digital verfügbar sind, viele davon sogar kostenlos. So führt die Eingabe in Google des Suchbegriffs „Internetnutzung in Deutschland“ zu ca. 565.000 Treffern (Stand: Oktober 2016). Durch die Digitalisierung von Informationen und deren Verbreitung über das Internet können somit weite Teile des Informationsbedarfs von Unternehmen gedeckt werden, insb. wenn es um statistisches Datenmaterial geht. Neue Impulse für die Marktforschung sind durch Social Media wie Facebook, Twitter, YouTube und Google+ entstanden. Bereits durch die in Social Media generierten Nutzerprofile können Unternehmen wertvolle Hinweise über ihre Zielgruppen gewinnen (Soziodemografie, Interessen und Hobbys etc.). Darüber hinaus eignen sich Social Media hervorragend zur Gewinnung sog. Consumer Insights. Hierunter verstht man Einblicke in psychologische Variablen der Konsumenten wir Motive, Einstellungen, Präferenzen. Schließlich können Soziale Netzwerke wie Facebook auch unmittelbar als Plattform zur Rekrutierung von Teilnehmern für Primärerhebungen genutzt werden. Durch laufende Beobachtung der Kommunikationsprozesse in Social Media, z.B. Posts, Uploads von Bildern und Videos u.a., können Unternehmen das Verhalten ihrer Zielgruppen beobachten und für die zielgerichtete Gestaltung des eigenen Leistungsangebots nutzen. Aus diesem Grunde ist eine kontinuierliche und systematische Überwachung der markenbezogenen Kommunikationsprozesse in den verschiedenen Social Media Plattformen erforderlich (Social Media Monitoring). Dies gilt nicht nur für die Kommunikationskanäle, in denen sich das Unternehmen selbst aktiv engagiert (z.B. Corporate Blogs, Facebook- und Twitter-Auftritte oder YouTube-Kanäle), sondern auch in solchen, in denen sich die Zielpersonen unabhängig von der Unternehmenspräsenz austauschen (vgl. Fantapié Altobelli/ Schwarzenberger 2013). Wichtige Einsatzfelder des Social Media Monitoring sind (vgl. Steffen 2008, S. 22 f.): Kundenfeedback zum eigenen Leistungsangebot, Tracking von Markteinführungen, Erkennen von Trends, Frühwarnung bei Bedrohungen der eigenen Reputation und Wettbewerbsbeobachtung. <?page no="49"?> 50 Quellen der Sekundärforschung Der Weiteren können die Reaktionen sämtlicher relevanten Akteure auf die eigenen Marketingmaßnahmen (z.B. Werbekampagnen, Produktinnovationen) beobachtet und analysiert werden, um ggf. Kurskorrekturen vorzunehmen. Angesichts der Vielzahl an Social Media Posts - täglich derzeit über 3,5 Mio. Beiträge allein im deutschsprachigen Raum (Stand: Oktober 2016) - empfiehlt sich der Einsatz spezialisierter Social Media Monitoring Tools; bekannte Anbieter sind z.B. Echobot (www.echobot.de) oder ComScore (www.comscore.com). Diese Anbieter haben sich auf Medienbeobachtung spezialisiert (Digital Media Analytics) und ermöglichen durch spezielle Analysetools eine systematische Auswertung der Flut an Beiträgen in digitalen Medien. Hierdurch kann das Verhalten von Publikum, Marken und Konsumenten im Netz gezielt und strukturiert erfasst werden. Abb. 2.1: Entwicklung der Anzahl der Internetnutzer weltweit im Milliarden (Quelle: Statista 2016) Nicht nur Social Media, sondern sämtliche Plattformen im Internet stellen potenziell Quellen von Sekundärdaten dar. Mehr als die Hälfte der Weltbevölkerung ist mittlerweile im Internet aktiv (vgl. Abb. 2.1) und erzeugt ein immenses Datenvolumen. Dies wird unter dem Begriff Big Data subsumiert. Als Big Data werden i.a. solche Daten bezeichnet, die die herkömmliche Speicherkapazität von Datenbanken übersteigen. Wesentliche Dimensionen sind hierbei die sog. „4 Vs“ (vgl. IBM 2016; Binder/ Weber 2015, S. 31 ff.): Datenvolumen (Volume): Bis 2020 wird ein Datenvolumen von 43 Trillionen Gigabytes und damit eine 300fache Steigerung seit 2005 erwartet. Geschwindigkeit (Velocity): Sie betrifft die Herausforderung, gespeicherte Daten schnell genug abrufen zu können, um sie für betriebliche Entscheidungen zu nutzen. Vielfalt an Datenformaten (Variety): Daten aus verschiednenen Quellen und in verschiedenen Formaten müssen sinnvoll integriert und aggregiert werden, um qualifi- 2,69 2,95 3,21 3,43 3,63 3,82 4,00 4,17 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 2013 2014 2015 2016* 2017* 2018* 2019* 2020* Anzahl der Internetnutzer in Milliarden Personen, die das Internet mindestens einmal im Monat nutzen (Stand: April 2016; *: Prognose) <?page no="50"?> Digitalisierung, Social Media und Big Data 51 zierte Analysen zu ermöglichen; gleichzeitig ist es erforderlich, die traditionellen Forschungsmethoden der qualitativen und quantitativen Marktforschung in diesen Kontext zu integrieren. Wahrheitsgehalt (Veracity) der Daten als Indikator von Zuverlässigkeit und Qualität. Gerade dieser Aspekt ist für betriebliche Entscheidungen von zentraler Bedeutung, da Mängel in der Datenqualität zu Fehlentscheidungen führen. Die Entwicklung hin zu Big Data hatte zur Folge, dass entsprechende Analyse- und Visualisierungstechniken entwickelt werden mussten, um die Datenfülle zu beherrschen. Dazu gehören beispielsweise Flash-basierte Massenspeicher, die einen schnelleren Zugriff auf große Datenbestände ermöglichen, und nichtrelationale Datenbank- Technologien, welche die Speicherung und den Zugang zu unstrukturiertem Datenmaterial ermöglichen (vgl. Nunan/ Di Domenico 2013, S. 509). Unternehmen sehen in den Big Data eine Chance, das Konsumentenverhalten - Motive und Bedürfnisse, Einstellungen, Präferenzen bis hin zum Kauferlebnis selbst - besser zu verstehen. Dadurch gewinnt die Sekundärforschung in Unternehmen an Bedeutung und führt tendenziell zu einer Dezentralisierung der Marktforschungsaktivitäten, da sämtliche Unternehmensbereiche prinzipiell Zugang zu den digitalen Daten haben und ihren eigenen Informationsbedarf selbst befriedigen können (vgl. ausführlich Binder/ Weber 2015). Aber auch Marktforschungsinstitute müssen den Umgang mit Big Data in ihrem Portfolio explizit berücksichtigen. Dies hat zur Folge, dass Marktforschungsinstitute der Sekundärforschung mittlerweile ein größeres Gewicht beimessen und ihre Kompetenzen entsprechend erweitern müssen. Dies betrifft u.a. die digitale Auswertung von Inhalten, die automatische Erkennung von Textbausteinen, die anwendergerechte Visualisierung von Inhalten u.a. Der „grenzenlose Zugang“ zu Big Data darf allerdings nicht darüber hinwegtäuschen, dass ein nachhaltiger Wettbewerbsvorteil nur dann generiert werden kann, wenn die Sammlung, Analyse, Interpretation und Distribution der Informationen im Unternehmen - also der gesamte Prozess der Sekundärforschung mit Big Data - sytematisch, strukturiert und zielorientiert erfolgt. Von besonderer Bedeutung ist der Schritt zwischen der Generierung von Consumer Insights aus Big Data und deren tatsächlicher Nutzung für Management- und Marketingentscheidungen, da gerade an dieser Stelle in der Praxis häufig eine Lücke besteht. Ein Bezugsrahmen für die Implementierung von Big Data in Unternehmen auf der Grundlage eines ressourcenorientierten Ansatzes wird von Erevelles/ Fukawa/ Swayne (2016) vorgeschlagen. Ungeachtet des großen Potenzials für Marketing und Marktforschung wirft diese Entwicklung allerdings eine ganze Reihe ethischer Fragestellungen auf. Dazu gehören beispielsweise der Schutz der Privatsphäre oder die Möglichkeit, die Löschung von in Sozialen Medien hinterlegten Daten zu erwirken (vgl. Nunan/ Di Domenico 2013 sowie die Ausführungen in Kapitel 4 des 1. Teils). Rechtliche Probleme insb. im Zusammenhang mit Social Media Marktforschung resultieren u.a. aus (vgl. ausführlich ADM 2016) der technisch kaum möglichen Anonymisierung von Posts, des Urheberrechts für hochgeladene Inhalte, der Verlinkung auf fremde Inhalte und der Messung und Analyse des Nutzerverhaltens im Internet. <?page no="52"?> 2 Beurteilung der Sekundärforschung Wesentliche Vorteile der sekundärstatistischen Datengewinnung liegen in der Schnelligkeit und Kostengünstigkeit der Informationsbeschaffung. Selbst kommerzielle Daten von Marktforschungsinstituten verursachen nur einen Bruchteil der Kosten, welche dem Unternehmen entstehen würden, würde es eine entsprechende Studie selbst durchführen oder in Auftrag geben. Auch sind Sekundärquellen für bestimmte Bereiche (z.B. Bevölkerungsstatistik, volkswirtschaftliche Gesamtrechnungen) häufig die einzige verfügbare Quelle. In jedem Fall hat die Sekundärforschung auch die Funktion, die Primärforschung zu unterstützen - zum einen dadurch, dass sie Forschungslücken aufzeigt, die durch Primäranalysen geschlossen werden müssen, zum anderen dadurch, dass sie die Auswertung und Interpretation von Primärdaten erleichtern kann. Insofern können ergänzende Sekundärstudien auch im Anschluss an eine Primärforschung durchgeführt werden. Des Weiteren ist Sekundärforschung hilfreich, um einen ersten Einblick in die relevante Fragestellung zu liefern. Damit ist sie für explorative Studie geeignet. Nichtsdestotrotz ist Sekundärforschung mit einer Reihe von Nachteilen behaftet. So sind entscheidungsrelevante Daten zu bestimmten Fragestellungen häufig gar nicht verfügbar, oder aber - da sie nicht problemspezifisch erhoben wurden - entsprechen sie nicht exakt der eigentlichen Fragestellung. Ein weiterer Nachteil liegt in der häufig mangelhaften Aktualität der Daten; dieses Problem ist umso gravierender, je dynamischer die Entwicklung der relevanten Variablen ist. Gerade bei internationalen Forschungsprojekten ist die mangelnde Aktualität von Sekundärdaten ein zentrales Problem. Häufig ist die Gliederungssystematik der Sekundärdaten nicht geeignet - etwa weil das Aggregationsniveau der Informationen zu grob ist. Bei bestimmten Quellen sind zudem die Objektivität, Validität und Reliabilität der Daten zu hinterfragen, insbesondere dann, wenn die Daten zu bestimmten - z.B. politischen - Zwecken erhoben wurden, oder keine Möglichkeit besteht, Einblicke in das methodische Vorgehen bei der Erstellung des Datenmaterials zu gewinnen. Gerade die Informationsflut im Internet erfordert eine sehr genaue Evaluation der Qualität der dort verfügbaren Datenquellen. Darüber hinaus sind Daten aus verschiedenen Quellen oft nicht vergleichbar; so sind definitorische Abgrenzungen häufig unterschiedlich (z.B. „Mittelständische Unternehmen“, „Intensivverwender“), unterschiedliche Forschungsdesigns führen zu abweichenden Ergebnissen usw. Schließlich ist bei Sekundärinformationen keine Exklusivität gewährleistet, da grundsätzlich jeder Interessent Zugang zu den Informationen hat. Dies gilt auch und gerade für die durch Big Data generierten Consumer Insights, die prinzipiell in gleicher Form auch den Wettbewerbern zur Verfügung stehen. Tabelle 2.3 zeigt zusammenfassend die Vor- und Nachteile der Sekundärforschung. Trotz der erwähnten Nachteile sollten bei einem konkreten betrieblichen Informationsbedarf zunächst die verfügbaren Quellen der Sekundärforschung ausgeschöpft werden; erst wenn der Informationsbedarf nicht befriedigt werden kann ist eine (oftmals teure) primärstatistische Erhebung in Erwägung zu ziehen. Die Entscheidung zwischen Sekundär- und Primärforschung hängt zudem auch von der Relevanz der benötigten Informationen für die aktuelle Forschungsfrage. <?page no="53"?> 54 Beurteilung der Sekundärforschung Tab. 2.3: Vor- und Nachteile der Sekundärforschung Vorteile Nachteile Schnelligkeit Kostengünstigkeit Mitunter einzige verfügbare Datenquelle Unterstützung der Primärforschung Liefert erste Einblicke in die relevante Fragestellung Mangelnde Verfügbarkeit relevanter Informationen Mangelnde Entsprechung mit dem zu untersuchenden Sachverhalt Mangelhafte Aktualität Ungeeignete Gliederungssystematik Mangelnde Objektivität, Reliabilität und Validität der Daten Mangelnde Vergleichbarkeit Exklusivität nicht gewährleistet Weiterführende Literatur Erevelles, S., Fukawa, N., Swayne, L. (2016): Big Data Consumer Analytics and the Transformation of Marketing, in: Journal of Business Research, 69(2), 897- 904. Patzer, G. (1995): Using Secondary Data in Marketing Research, Westport. Stewart, D.W., Kamins, M.A. (1993): Secondary Research - Information Sources and Methods, 2 nd ed., Newbury Park. Tirunillai, S., Tellis, G.J. (2014): Mining Marketing Meaning from Online Chatter: Strategic Brand Analysis of Big Data Using Latent Dirichlet Allocation, in: Journal of Marketing Research, 51(4), 463-479. <?page no="54"?> Teil 3: Querschnittsstudien 1 Quantitative Befragung 1.1 Klassifikation und Charakterisierung quantitativer Befragungen Definition Die Befragung ist die am weitesten verbreitete Form der Primärforschung. Sie beruht darauf, dass die Testpersonen selbst Auskunft über den Befragungsgegenstand geben. Eine quantitative Befragung (Survey) hat das Ziel, statistisch auswertbare Daten zu generieren und erfolgt als standardisierte Repräsentativerhebung. Dadurch wird es möglich, die Ergebnisse aus der Stichprobe auf die interessierende Grundgesamtheit zu übertragen (Induktionsschluss). Eine quantitative Befragung wird immer unter Zugrundelegung eines standardisierten Fragebogens durchgeführt. Die Befragten sollen dabei einen repräsentativen Querschnitt der interessierenden Grundgesamtheit darstellen (vgl. Kapitel 3 in diesem Teil). Die Fragen werden vorab festgelegt und sämtlichen Auskunftspersonen mit dem gleichen Wortlaut und grundsätzlich in derselben Reihenfolge gestellt. Im Rahmen einer nichtstandardisierten Befragung erhält der Interviewer hingegen lediglich einen Leitfaden; Ablauf und Fragenwortlaut werden nach freiem Ermessen des Interviewers in Abhängigkeit von der konkreten Befragungssituation fallweise bestimmt. Während standardisierte Befragungen Vorteile im Hinblick auf Vergleichbarkeit und Auswertbarkeit der Antworten haben, bieten freie Befragungen bessere Anpassungsmöglichkeiten an individuelle Situationen und sind somit für explorative, qualitative Studien besonders geeignet; allerdings erfordern sie einen gut geschulten Interviewerstab und bergen darüber hinaus die Gefahr von Verzerrungen aufgrund des hohen Interviewereinflusses. (Die qualitative Befragung wird ausführlich in Teil 7 behandelt.) Nach der Anzahl der Teilnehmer kann zwischen Einzel- und Gruppenbefragung unterschieden werden. Den Standardfall bei quantitativen Befragungen bildet die Einzelbefragung (Einzelinterview), bei welcher jeweils nur eine Untersuchungseinheit (z.B. Einzelperson, Haushalt) befragt wird. Hingegen werden bei Gruppenbefragungen mehrere Untersuchungseinheiten gleichzeitig interviewt. Gruppeninterviews werden typischerweise im Rahmen explorativer Studien eingesetzt. Durch Effekte der Gruppendynamik erhofft man sich u.a. den Abbau von Antworthemmungen sowie die Auslösung spontaner Reaktionen und Assoziationen. Quantitative Befragungen können ein- oder mehrmalig erfolgen. Einmalige Befragungen (Ad-hoc-Studien) erfolgen zu einem bestimmten Zeitpunkt; damit erzeugen sie Querschnittsdaten. Mehrmalige Befragungen (Tracking-Studien) beinhalten hingegen wiederholte Befragungen zum gleichen Untersuchungsgegenstand und erzeugen damit Längsschnittdaten. Dadurch sind sie in der Lage, Entwicklungen aufzuzeigen. Die einzelnen Varianten von Längsschnittstudien werden ausführlich in Teil 4 behandelt. <?page no="55"?> 56 Quantitative Befragung Grundsätzlich können quantitative Befragungen schriftlich, persönlich, telefonisch (Festnetz), online oder mobil (Smartphone, Tablet) administriert werden. Im Rahmen einer schriftlichen Befragung werden die Fragen den Auskunftspersonen schriftlich vorgelegt und von diesen schriftlich beantwortet. Bei einer persönlichen (Face-to-face)-Befragung wird hingegen ein Interviewer eingesetzt, d.h. die Äußerungen der Probanden werden im Wege persönlicher Kommunikation erfasst. Die Fragen werden mündlich gestellt und mündlich beantwortet. In zunehmendem Maße werden persönliche Interviews computergestützt durchgeführt (CAPI). Im Rahmen einer telefonischen Befragung werden entweder Interviewer eingesetzt oder aber Tonbandstimmen. Auch telefonische Interviews werden häufig computergestützt durchgeführt (CATI). Bei einer Online-Befragung handelt es sich um eine Form der unpersönlichen Kommunikation, bei welcher der Befragte den Fragebogen direkt am Computer im Online-Betrieb beantwortet. Insofern handelt es sich um eine computergestützte Weiterentwicklung der schriftlichen Befragung (CAWI). Mobile Apps erlauben die Durchführung von Befragungen über ein Smartphone und sind faktisch eine spezielle Form einer Online-Befragung. Tabelle 3.1 zeigt die gängigen Befragungsmethoden wie auch deren wichtigsten Ausprägungen im Überblick. Tab. 3.1: Befragungmethoden bei quantitativen Erhebungen Methode Wichtigste Ausprägungen Schriftliche Befragung Konventionell mit Papierfragebogen Elektronisches Formular Persönliche Befragung Konventionell (PAPI; Paper And Pencil Interview) CAPI (Computer Assisted Personal Interview) Telefonische Befragung CATI (Computer Assisted Telephone Interview) Telefonische Computerbefragung Online-Befragung CAWI (Computer Assisted Web Interview) Interaktives Fernsehen Online-Kiosksystem Mobile Befragung Mobile CATI Mobile Internetbefragung Mobile App Im Zeitablauf hat eine Verschiebung zwischen den einzelnen Befragungsarten stattgefunden (vgl. Abb. 3.1): Waren 1990 noch persönliche Befragungen mit rd. 2/ 3 der Interviews dominierend, wurden sie nach und nach durch Telefoninterviews ersetzt und machen mittlerweile nur 24 % der Interviews 2015 aus. Klassische schriftliche Befragungen spielen mit 8 % der Interviews eine nur noch untergeordnete Rolle, wohingegen Online-Befragungen von 3 % der Interviews im Jahre 2000 auf 34 % im Jahre 2015 angewachsen sind. Mobile Apps spielen mit 1 % der Interviews bisher eine nur untergeordnete Rolle. <?page no="56"?> Klassifikation und Charakterisierung quantitativer Befragungen 57 Da die meisten Umfragen mittlerweile computergestützt durchgeführt werden, ist eine Konvergenz der Softwarelösungen und Geräte festzustellen. So ist es prinzipiell unerheblich, ob der Interviewer im Rahmen einer Face-to-face-Befragung das Interview mit Hilfe seines Tablets oder Smartphones durchführt, oder ob die Probalden den Fragebogen im Rahmen einer selbstadministrierten Online- oder mobilen Befragung beantworten. Mittlerweile werden Online-Fragebögen von 20 % der Befragten in Deutschland auf einem mobilen Device beantwortet (Kantar TNS 2016, o.S.). Abb. 3.1: Anteil der Interviews nach Befragungsarten in Prozent (Quelle: ADM 2016, S. 14) Nach dem Befragungsgegenstand lassen sich quantitative Befragungen in Einthemen- und Mehrthemenbefragungen unterscheiden. Eine Einthemenbefragung erfolgt zu einem einzigen Befragungsgegenstand; hingegen werden die Auskunftspersonen bei einer Mehrthemenbefragung (Omnibusbefragung) zu unterschiedlichen Erhebungsgegenständen befragt. Eine Omnibusbefragung wird im Auftrag mehrerer Auftraggeber durchgeführt, weswegen die auf das einzelne Unternehmen anfallenden Kosten relativ gering sind. Durch die verschiedenen Themen ist der Fragebogen abwechslungsreich, Unternehmen können flexibel „einsteigen“, da typischerweise mehrere regelmäßige Starttermine möglich sind, und die Ergebnisse liegen vergleichsweise zeitnah vor. Allerdings ist die Zahl der Fragen pro Thema eingeschränkt; des Weiteren muss auf Zielgruppenkongruenz wie auch auf Überschneidungsfreiheit der einzelnen Befragungsthemen geachtet werden. Viele Marktforschungsinstitute bieten Omnibusse an, z.B. GfK, Kantar TNS und Ipsos. Aufgrund der langen Rücklaufzeiten bei schriftlichen Erhebungen erfolgt die Administration des Fragebogens dabei typischerweise nur mündlich, telefonisch oder online. 24 6 22 13 33 35 41 22 8 21 34 65 34 38 3 1 2015 2010 2000 1990 Persönliche Interviews Telefonische Interviews Schriftliche Interviews Online-Interviews Interviews per Mobile App <?page no="57"?> 58 Quantitative Befragung 1.2 Methoden quantitativer Befragung 1.2.1 Schriftliche Befragung Im Rahmen einer schriftlichen Befragung erfolgt die Kommunikation zwischen Befrager und Befragtem ausschließlich unpersönlich über einen Fragebogen. Der Fragebogen kann postalisch zugestellt, am Point of Sale oder bei Events ausgelegt oder aber Printerzeugnissen (z.B. Zeitungen, Zeitschriften, Katalogen) beigelegt werden. Nach dem Ausfüllen werden die Fragebögen vom Probanden zurückgeschickt bzw. von einem Institutsmitarbeiter eingesammelt. Zunehmend werden Fragebögen in elektronisch lesbarer Form versendet, z.B. als elektronisches Formular, das einer E-Mail angehängt wird. Dies erleichtert die Dateneingabe in den Computer bzw. letztere erfolgt - ebenso wie die Datenübermittlung an das Marktforschungsinstitut - automatisch. Insgesamt gesehen spielen schriftliche Befragungen mittlerweile jedoch eine nur untergeordnete Rolle (8 % der Interviews im Jahr 2015, vgl. ADM 2016, S. 14), da sie gerade in den letzten Jahren weitgehend durch Online-Befragungen sowie telefonische Befragungen substituiert wurden. Vorteilhaft an einer schriftlichen Befragung sind die vergleichsweise geringen Kosten pro Erhebungsfall, da keine Interviewer erforderlich sind. Darüber hinaus sind räumliche Entfernungen unerheblich. Ein weiterer Vorteil liegt darin, dass Verzerrungen aufgrund der Interviewsituation weitgehend entfallen, da aufgrund der unpersönlichen Kommunikationsform keine Beeinflussungsmöglichkeit seitens des Interviewers gegeben ist. Allerdings steht diesen Vorteilen eine ganze Reihe von Nachteilen gegenüber. Ein erstes typisches Problem schriftlicher Umfragen ist die Repräsentativität. Zwar werden standardisierte schriftliche Befragungen i.d.R. bei einer repräsentativ ausgewählten Stichprobe durchgeführt; da die Fragebögen jedoch im Allgemeinen versendet werden, müssen die Adressen der Auskunftspersonen bekannt sein. Postalische Adressen lassen sich relativ einfach ermitteln (z.B. Kundendatenbanken, Telefonverzeichnisse, Adresslisten von Adressenverlagen); allerdings sind solche Adresslisten häufig nicht auf dem neuesten Stand, oder aber sie erfassen die Grundgesamtheit nicht vollständig. E-Mail- Adressen sind deutlich schwieriger zu erfassen und im Rahmen von Befragungen im Konsumgüterbereich nur über Panels von Marktforschungsinstituten nutzbar. Die Repräsentativität schriftlicher Umfragen wird zusätzlich durch eine häufig geringe Rücklaufquote beeinträchtigt, welche vielfach nicht mehr als 5 - 10 % beträgt. Tritt ein systematischer Ausfall von Probanden auf, z.B. aufgrund einer hohen Verweigerungsquote bei bestimmten Bevölkerungsgruppen, ist die Zusammensetzung der Stichprobe nicht mehr repräsentativ. Bei der Gestaltung des Fragebogens ist daher äußerste Sorgfalt anzuwenden, um die Befragten zur gewissenhaften Beantwortung und Rücksendung des Fragebogens zu motivieren (vgl. hierzu Abschnitt 1.3 in diesem Teil). Auch empfehlen sich Nachfassaktionen, um die Rücklaufquote zu steigern. Der Zeitbedarf pro Erhebungsfall ist bei einer schriftlichen Befragung höher als bei einer telefonischen oder einer Online-Befragung, jedoch niedriger als bei einer persönlichen Befragung. Zeitverzögerungen ergeben sich insb. bei notwendig werdenden Nachfassaktionen. Aufgrund der unpersönlichen Befragungssituation unterliegen schriftliche Befragungen Grenzen im Hinblick auf Fragebogenumfang, Art und Thematik der Fragen. So sollte der <?page no="58"?> Methoden quantitativer Befragung 59 Fragebogen möglichst kurz sein, die Bearbeitungszeit sollte 20 Minuten nicht überschreiten. Auch sollten „heikle“ Fragen vermieden werden, da sie Antwortverweigerung herbeiführen. Problematisch ist auch die Tatsache, dass aufgrund der fehlenden Interaktion Verständnisprobleme auftreten können. Eine standardisierte schriftliche Befragung weist aufgrund ihrer Zielsetzung und grundlegenden Konzeption zudem eine nur geringe Flexibilität aus. Ein weiterer Nachteil schriftlicher Befragungen liegt in der Unkontrollierbarkeit der Befragungssituation. Es ist nicht gewährleistet, dass die anvisierte Auskunftsperson den Fragebogen auch selbst ausfüllt; darüber hinaus kann die Reihenfolge der Fragenbeantwortung nicht gesteuert werden. Zudem ist nicht zu verhindern, dass die Auskunftsperson den Fragebogen zunächst vollständig durchliest und durch Vor- und Zurückblättern die Antworten aufeinander abstimmt (vgl. Berekoven et al. 2009, S. 110). 1.2.2 Persönliche Befragung Die persönliche Befragung (Face-to-face-Interview) stellte früher die am häufigsten eingesetzte Befragungsart dar, sie wurde jedoch - insbesondere aufgrund ihrer vergleichsweise hohen Kosten - von Telefon- und Online-Befragungen stark verdrängt. Im Rahmen einer persönlichen Befragung stehen sich Befragter und Befragender physisch gegenüber, Fragestellung und Fragenbeantwortung erfolgen somit zur gleichen Zeit und am selben Ort. Persönliche Befragungen können beim Probanden zu Hause, auf der Straße, in Einkaufszentren oder in einem Marktforschungsstudio stattfinden. Der Interviewer liest die Fragen aus dem Fragebogen vor - ggf. ergänzt durch Vorlage von Anschauungsmaterialien -, notiert die Antworten des Befragten an den entsprechenden Stellen im Fragebogen und sendet den Fragebogen an das Marktforschungsinstitut zur Auswertung. Mittlerweile sehr verbreitet sind computergestützte persönliche Interviews (Computer Assisted Personal Interviewing, CAPI). Die Zahl der von den in Deutschland tätigen Instituten eingesetzten CAPI-Geräte ist von rd. 7300 Geräten im Jahr 2000 auf knapp 9900 Geräte im Jahr 2015 gestiegen (ADM 2016, S. 15). Eingesetzt werden entweder Laptops oder zunehmend Tablets und Smartphones. Der Fragebogen wird programmiert und entweder am Endgerät (für Offline-Befragungen) oder in einer Cloud gespeichert (für den Online-Zugriff); der Interviewer liest die Fragen vom Bildschirm seines Laptops oder Tablets ab und gibt die Antworten entweder über die Tastatur oder mit Hilfe eines elektronischen Stiftes über den Touchscreen seines Endgeräts. Die Antworten werden zur Auswertung online auf den Rechner des Marktforschungsinstituts überspielt. Computergestützte Befragungen haben erhebliche Vorteile: Sie sind flexibel einsetzbar, sowohl für Inhome- oder Studiotests wie auch Outdoor auf Events oder am Point of Sales. Die eingesetzte Software erlaubt komplexe Filterführungen und eine dynamische Fragebogenprogrammierung. Ergebnisse können in Echtzeit abgerufen werden. Multimediale Darstellungen wie Bilder oder Videos können problemlos eingebunden werden. <?page no="59"?> 60 Quantitative Befragung Kommerzielle Softwarelösungen erlauben oftmals auch die Erfassung offener Nennungen, da über einen elektronischen Stift handschriftliche Texte eingegeben und erfasst werden können. Einige Softwarelösungen wie z.B. IDSurvey verfügen über Spracherkennung und sind kompatibel mit dem Apple-System Siri. Für CAPI existieren verschiedene kommerzielle Softwarelösungen, z.B. von IdSurvey, SurveyToGo oder mQuest der Firma cluetec (vgl. Abb. 3.2), welche einen sehr komfortablen und flexiblen Einsatz erlauben. Daneben existieren verschiedene kostenlose Apps, die jedoch einen deutlich geringeren Leistungsumfang aufweisen. Abb. 3.2: CAPI-Befragung mit mQuest (cluetec GmbH) (Quelle: https: / / www.cluetec.de/ solutions/ mquest/ , Abruf vom 13.10.2016) Die Repräsentativität persönlicher Befragungen ist im Allgemeinen als hoch einzustufen, sofern die Stichprobenbildung auf der Grundlage eines angemessenen Auswahlverfahrens erfolgt. Üblicherweise werden eine Quotenauswahl oder eine mehrstufige Klumpenauswahl vorgenommen (vgl. Kapitel 4 in diesem Teil). Die Rücklaufquote ist bei persönlichen Befragungen vergleichsweise hoch, jedoch mittlerweile rückläufig. Problematisch ist auch die mangelnde Erreichbarkeit vieler Auskunftspersonen, insb. tagsüber. Der Zeitbedarf für Face-to-face-Umfragen ist im Vergleich zu den anderen Formen von Befragungen am höchsten - bis zu 45 Minuten pro Interview; dasselbe gilt für die anfallenden Kosten, da der Einsatz von Interviewern sehr kostenintensiv ist. Die Kosten pro Interview sind abhängig vom Umfang des Fragebogens, der anvisierten Zielgruppe (die Rekrutierung von z.B. Ärzten aus einem Panel ist deutlich teurer als eine herkömmliche Haushaltsstichprobe) und von der Art der zu stellenden Fragen. Bei einer ca. 15-minütigen Befragung ist bereits mit Kosten zwischen 15 und 20 Euro pro Interview zu rechnen, bei längeren Befragungen entsprechend mehr. Große Vorteile weist die Face-to-face-Befragung im Hinblick auf die Flexibilität auf. Aufgrund der persönlichen Interaktion können auch komplexere Fragestellungen zu- <?page no="60"?> Methoden quantitativer Befragung 61 grunde gelegt werden, da Verständnisprobleme sofort ausgeräumt werden können. Der Umfang des Fragebogens kann größer sein, Art und Thematik der Fragen umfassender als bei schriftlichen Befragungen. Darüber hinaus können auch visuelle Stimuli eingesetzt werden, bei CAPI auch audiovisuelle Materialien. Vorteilhaft ist die Face-to-face-Befragung auch im Hinblick auf die Kontrollierbarkeit der Erhebungssituation, da der Interviewer den Ablauf des Interviews steuern kann. Vollständigkeit der Antworten, Einhaltung der Fragenreihenfolge etc. sind daher eher gewährleistet als bei schriftlichen Umfragen. Große Nachteile weisen Face-to-face-Interviews allerdings in Bezug auf mögliche Verzerrungen durch die Interviewsituation auf. Die Interviewsituation ist zum einen durch die soziale Interaktion von Interviewer und Befragtem, zum anderen durch das Befragungsumfeld charakterisiert (vgl. Berekoven et al. 2009, S. 98 f.). Verzerrungen im Rahmen sozialer Interaktion entstehen, wenn die Dialogpartner im Hinblick auf Merkmale wie Alter, Geschlecht, soziale Klassenzugehörigkeit, Bildungsstand, Sprechweise etc. sehr verschieden sind. Sowohl der Befragte als auch der Interviewer entwickeln ein Bild über den Partner sowie Vorstellungen über die eigene Rolle und die Rolle des Interviewpartners. Beim Befragten wirkt sich das Bild des Interviewers auf sein Antwortverhalten aus; beim Interviewer besteht die Gefahr, dass sein Bild des Befragten seine Art der Fragestellung und die von ihm registrierten Antworten beeinflusst. Um diesen sozialen Interaktionsprozess möglichst ergebnisneutral zu halten, ist eine große Sorgfalt bei der Auswahl und Schulung der Interviewer erforderlich. Zudem sollten Intervieweranweisungen möglichst detailliert sein. Auch das Befragungsumfeld kann zu Ergebnisverzerrungen führen, etwa bei der Wahl eines ungünstigen Befragungsorts oder Befragungszeitpunkts, oder aber wenn ein Dritter bei der Befragung anwesend ist. 1.2.3 Telefonische Befragung Im Rahmen einer telefonischen Befragung kommunizieren Interviewer und Befragte mündlich miteinander, es fehlt jedoch das persönliche Gegenüber. Die Durchführung der Befragung kann von einem Call-Center oder von der Wohnung des Interviewers aus erfolgen. Mittlerweile werden Telefonumfragen nahezu flächendeckend computergestützt durchgeführt (CATI, Computer Assisted Telephone Interviewing). Die Fragen erscheinen für den Interviewer am Bildschirm; der Interviewer liest die Fragen vor und gibt die Antworten direkt in den Computer ein. Die telefonische Befragung wird durch eine spezielle Software gesteuert, wodurch viele Funktionen automatisiert werden. Dazu gehören beispielsweise eine automatische Terminplanung sowie die Quotensteuerung und -überwachung. Automatische Wahlprogramme - sog. Auto-Dialer - führen die Telefonschaltung mit Nummernauswahl durch, übernehmen die komplette Filterführung und erlauben eine zufallsgesteuerte Rotation von Statements und Antwortvorgaben. Darüber hinaus zeigen sie Fehler sofort an, transferieren die Daten unmittelbar in die Auswertung und zeigen Zwischenergebnisse an (vgl. Malhotra 2010, S. 212 f.). Die Softwarelösungen sind typischerweise webbasiert und können somit auch für Face-to-face (CAPI) und Online-Umfragen (CAWI) eingesetzt werden. Insofern entsprechen die Vorteile von CATI den im vorangegangenen Abschnitt genannten Vorteilen von CAPI. <?page no="61"?> 62 Quantitative Befragung Ganz ohne Interviewer kommen telefonische Computerbefragungen aus. Im Rahmen von TDE (Touchtone Data Entry) wird der Interviewer durch eine Tonbandstimme ersetzt, der Befragte antwortet per Tastendruck (z.B.: „Lautet Ihre Antwort ‚ja’, drücken Sie bitte auf die Eins. Lautet Ihre Antwort ‚nein’, drücken sie bitte auf die Zwei.“). Bei IVR (Interactive Voice Response) kann der Befragte verbal antworten, da der Computer über ein Stimmerkennungsprogramm verfügt. Die Repräsentativität telefonischer Umfragen ist allgemein als hoch einzustufen. Aufgrund der in Deutschland sehr hohen Telefondichte ist die Grundgesamtheit nur unwesentlich eingeschränkt. Allerdings ist zu beachten, dass eine zunehmende Zahl an Nummern im Festnetz nicht eingetragen ist; auch sind Telefonbücher häufig nicht mehr ganz aktuell. Aus diesem Grunde werden Telefonnummern zunehmend nach dem Zufallsprinzip ausgewählt (Random-digit dialing). Zudem ist eine bestimmte Zielgruppe, die sogenannten Mobile Onlys, bei telefonischen Befragungen nicht mehr per Festnetz erreichbar. Um bei CATI-Befragungen die Repräsentativität der Erhebung zu gewährleisten, unterhalten Marktforschungsinstitute mittlerweile auch Panels von Personen mit ausschließlichem mobilem Anschluss. In sog. Dual Frame-Stichproben werden damit Festnetznummern um Mobilfunknummern ergänzt (Kantar TNS 2016, o.S.). Bei Zustandekommen eines Kontakts ist zu gewährleisten, dass die Zielperson am Apparat ist, sofern diese vorbestimmt ist (z.B. aufgrund der Einhaltung von Quotenvorgaben). Soll die Zielperson hingegen zufallgesteuert ausgewählt werden, werden besondere Methoden eingesetzt, z.B. die Geburtsdatum-Auswahl (vgl. Abschnitt 4). Die Antwortquote ist i.d.R. höher als bei schriftlichen Befragungen, sie ist aber sehr themenempfindlich. Bei besonders sensiblen Fragen liegt sie oft bei nur 10%, bei für die Befragten interessanten Themen kann sie aber auch über 80% betragen (vgl. Berekoven et al. 2009, S. 103). Wie bei Face-to-face-Umfragen liegt ein Problem in der schlechten Erreichbarkeit der Auskunftspersonen, wobei das Problem bei Telefonumfragen jedoch nicht so gravierend ist. Hinzu kommt, dass die Erreichbarkeit über das Mobiltelefon zunimmt, sodass mobile Telefonumfragen in der praktischen Marktforschung eine steigende Bedeutung haben. Insbesondere bei computergestütztem Vorgehen wird der Interviewer erheblich entlastet, da das System die Auswahl der Telefonnummern, die Anwahl der Zielpersonen sowie die Auswahl von Ersatznummern bei Fehlversuchen übernimmt. Der Zeitbedarf ist bei telefonischen Befragungen im Vergleich zu den übrigen Befragungsformen am geringsten. Auch die Kosten halten sich in Grenzen. Allerdings ist der Umfang der Befragung eingeschränkt. Die Flexibilität telefonischer Befragungen ist als gering einzustufen: Der Umfang des Fragebogens muss gering sein - die Dauer eines Telefoninterviews sollte 10-15 Minuten nicht überschreiten. Umfangreiche Fragenkomplexe müssen stark aufgegliedert werden, offene Fragen sowie breit gefächerte Antwortkategorien sollten vermieden werden. Hinzu kommt, dass visuelle Hilfen nicht eingesetzt werden können. Pro Interview (CATI) fallen üblicherweise Kosten ab ca. 10 Euro an, diese sind jedoch abhängig vom Umfang des Fragebogens, der Zielgruppe und der Art der Fragen. Im Hinblick auf die Kontrollierbarkeit der Erhebungssituation weisen Telefonbefragungen ähnliche Vorteile wie Face-to-face-Umfragen auf. Das Problem von Verzerrungen aufgrund der Interviewsituation ist zwar gegeben, jedoch nicht so gravierend wie bei <?page no="62"?> Methoden quantitativer Befragung 63 Face-to-face-Umfragen. Insbesondere bei zentraler Durchführung von einem Call- Center aus kann die Aktivität der Interviewer besser kontrolliert werden. 1.2.4 Online-Befragung Im Rahmen von Online-Befragungen spielen Internet-Befragungen im WorldWideWeb die größte Rolle. Daneben zählen zu den Formen der Online-Befragung die Befragung an Online-Kioskterminals am Point of Sale sowie Befragungen im interaktiven Fernsehen, welche jedoch aufgrund ihrer untergeordneten Bedeutung hier nicht weiter erläutert werden sollen. Derzeit wird rd. ein Drittel der Interviews im Rahmen der Institutsmarktforschung online durchgeführt. Internetbasierte Umfragen haben Gemeinsamkeiten mit einer schriftlichen Befragung; der Unterschied liegt in den informationstechnischen und medialen Charakteristika des Internet. Internet-Befragungen werden mittlerweile fast ausschließlich mit Hilfe sog. CAWI-Systemen realisiert (Computer Assisted Web Interviewing). Die eingesetzten Befragungsserver wurden auf der Grundlage der CATI-Technologie entwickelt. Die Befragung selbst erfolgt mittels eines interaktiv gestalteten Fragebogens, den der Befragte online am Bildschirm ausfüllt und durch Klicken auf einen „Senden“-Button an die befragende Instanz zurückschickt. Insofern handelt es sich hier um eine Form des CSAQ (Computer Self-Administered Questionnaire). Die ausgereiften technischen Möglichkeiten erlauben u.a.: automatische Filterführung, Einsatz multimedialer Elemente wie Bewegtbild und Ton, Rotation von Items, Fragen und Fragenblöcken, automatisierte Quotensteuerung, Randomisierung von Stimuli in Online-Experimenten, z.B. Conjoint-Analysen, Ergebnisauswertung in Echtzeit. Probleme weisen viele Online-Befragungen im Hinblick auf die Repräsentativität auf. Die Grundgesamtheit ist auf Untersuchungseinheiten mit Internetzugang beschränkt, die einen speziellen Ausschnitt der deutschen Bevölkerung darstellen. Repräsentative Bevölkerungsumfragen sind also nicht möglich. Aber selbst wenn für bestimmte Themenstellungen die Grundgesamtheit der Internetnutzer interessiert, so ist deren Zusammensetzung erstens nicht bekannt, zweitens ist es nicht möglich, repräsentative Zufallsstichproben zu ziehen (vgl. im Einzelnen Hauptmanns/ Lander 2003). Gebräuchliche Verfahren zur Rekrutierung von Teilnehmern wie Online Banner, Links oder Newsletter bewirken, dass die Stichprobe selbstselektierend ist, d.h. sie basiert auf einer freiwilligen Teilnahme der Nutzer und nicht auf einer aktiven Rekrutierung seitens des Instituts. Das Problem der Selbstselektion kann durch sog. Pop-up- Rekrutierung gemildert werden, da nur jeder n-te Besucher einer Internetseite zur Teilnahme aufgefordert wird; zudem ist die Ausfallquote messbar, da die Teilnehmer, die nicht an der Umfrage teilnehmen wollen, das Pop-up wegklicken müssen (vgl. Starsetzki 2003, S. 47). Repräsentativ ist die Stichprobe allerdings ebenso wenig wie die aus einem Online-Access-Panel, da die Teilnahme am Panel ebenfalls selbstselektierend ist. Die Antwortquote bei Internet-Befragungen gilt im Allgemeinen als gering, genaue Angaben lassen sich aber nur bei Pop-up-Rekrutierung machen. Neuere Ansätze zur Rekrutierung bestehen über Soziale Netzwerke wie z.B. Facebook, da hierüber sehr große Stichproben generiert werden können. Allerdings handelt es sich hier eben- <?page no="63"?> 64 Quantitative Befragung falls um eine selbstselektierende Stichprobe, bei welcher die Teilnehmer i.d.R. über ein vergleichsweise hohes Themeninvolvement verfügen (vgl. Lütters 2009, S. 52). Im Hinblick auf den Zeitbedarf weist eine Online-Befragung Vorteile im Vergleich zur schriftlichen und Face-to-face-Befragung auf, wenn sie auch der telefonischen Befragung in dieser Hinsicht unterlegen ist. Deutliche Vorteile weist die Internet-Befragung in Bezug auf die Kosten auf, da ein Interviewerstab nicht erforderlich ist und Druckkosten für Fragebögen sowie die manuelle Eingabe der Antworten entfallen. Pro Proband werden ab 5 Euro berechnet, je nach Zielgruppe und Umfang des Fragebogens können die Kosten aber auch deutlich höher sein. Nach der ESOMAR Global Prices Study 2014 (vgl. ESOMAR 2014) verursachen Online-Umfragen weltweit durchschnittlich rd. 70% der Kosten einer CATI-Umfrage, CATI kostet wiederum ca. 80% einer Faceto-face-Umfrage (wenn alle drei Optionen angeboten werden). Ein weiterer Vorteil von Internet-Befragungen liegt in ihrer Flexibilität, da ein Internet- Fragebogen nicht auf Text beschränkt ist, sondern multimedial unter Einbindung von Bildern, Ton, Anwendungsprogrammen usw. gestaltet werden kann (vgl. Batinic 2002, S. 81). Allerdings ist auf die technische Infrastruktur der Nutzer Rücksicht zu nehmen (z.B. veraltete Browserversionen, geringe Bildschirmauflösung, langsamer Internetzugang etc.). Untersuchungen haben darüber hinaus gezeigt, dass die wahrgenommene Anonymität bei WWW-Befragungen besonders hoch ist, sodass hier auch sensible Themen untersucht werden können. Wie bei schriftlichen Befragungen können allerdings Verständnisprobleme auftreten, da keine zwischenmenschliche Interaktion stattfindet. Die Kontrollierbarkeit der Erhebungssituation ist einerseits ähnlich zu beurteilen wie bei der schriftlichen Befragung, da nicht gewährleistet ist, dass die anvisierte Auskunftsperson - sofern die Stichprobe nicht selbstselektierend ist - den Fragebogen selbst ausfüllt. Zudem haben häufig mehrere Personen Zugang zu einem Internetanschluss. Andererseits erlauben die automatisierte Filterführung und der Zwang zur Einhaltung der Fragenreihenfolge eine bessere Steuerung des Antwortverhaltens der Befragten. Aufgrund fehlender direkter Interaktion mit der befragenden Instanz gelten Internet- Umfragen als objektiv, d.h. der Interviewereinfluss ist weitgehend ausgeschaltet. Eine Beeinflussung findet allenfalls durch die Gestaltung des Fragebogens statt, wobei durch zufallsgesteuerte Rotation der Fragen Reihenfolgeeffekte vermieden werden. In den letzten Jahren hat die Digitalisierung zu einer Zunahme der sog. Do-it-Yourself- Marktforschung (DiY) geführt. Immer mehr Unternehmen setzen für klassische Standardumfragen Online-Befragungstools wie SurveyMonkey oder Google Customer Survey ein. Dies kann für Marktforschungsinstitute potenziell eine Bedrohung darstellen, zumal die eingesetzten Softwarelösungen immer professioneller werden (vgl. Dreßen 2014). Dies wird in Zukunft u.U. zu einer stärkeren Spezialisierung der Institute auf spezielle Methoden, Zielgruppen oder Branchen führen. 1.2.5 Mobile Befragung Im Rahmen mobiler Erhebungen wird zwischen mobilen, interviewergestützten CATI- Umfragen und selbst administrierten Befragungen unterschieden. Während erstere lediglich einen Unterfall telefonischer Befragungen darstellen und von Marktforschungsinstituten praktiziert werden, um Undercoverage-Effekte durch sinkende Festnetzanschlüsse zu kompensieren (s.o.), arbeiten selbstadministrierte Verfahren ohne <?page no="64"?> Methoden quantitativer Befragung 65 Interviewer, d.h. die Steuerung des Interviews erfolgt über eine Software, welche Fragenreihenfolge, Filterführung usw. steuert. Zu unterscheiden ist hierbei zwischen mobilen Internet-Umfragen und eigenständigen mobilen Befragungen mit Hilfe einer Mobile App. Bei webbasierten mobilen Umfragen handelt es sich um klassische Internet-Umfragen, die von einem mobilen Endgerät aus wie Smartphone oder Tablet beantwortet werden. Die Einladung zur Teilnahme an der mobilen Umfrage erfolgt per SMS, E-Mail oder passiv, indem ein QR-Code von den Umfrageteilnehmern eingelesen wird, der zur Befragung führt. Zudem können links bzw. Banner zu mobilen Umfragen in Apps integriert werden (Context Research 2016, o.S.). Zu beachten ist, dass 2016 bereits 90% der unter 35-Jährigen ein mobiles Endgerät nutzten (vgl. Freese 2016, S. 44). Gerade jüngere Zielgruppen, für die die mobile Nutzung des Internets selbstverständlich ist, nehmen an klassischen Online-Befragungen über Smartphone oder Tablet teil; allerdings ist die Abbruchquote deutlich höher als bei Nutzung stationärer Endgeräte. Der Grund liegt meist in einer geringen Nutzerfreundlichkeit, da viele Umfragen für die Beantwortung an einem stationären Rechner konzipiert wurden, zu lang oder zu komplex sind und mobil schlichtweg nicht korrekt wiedergegeben werden (vgl. Freese 2016, S. 44 f.). Aus diesem Grunde ist beim Design einer Online-Befragung deren potenzielle Nutzung an einem mobilen Endgerät unbedingt mit zu berücksichtigen. Eine eigenständige Form mobiler Befragung ist die Befragung über Mobile Apps. Teilnehmer an einem Mobile Panel laden sich eine spezielle Befragungs-App auf ihren Smartphone oder Tablet herunter und können so an Umfragen teilnehmen, die spezifisch für mobile Endgeräte konzipiert wurden. Mehrere Anbieter bieten Mobile Apps an, z.B. appinio oder SurveryMonkey. Diese Form steckt allerdings noch in den Kinderschuhen; 2015 wurden in Deutschland nur 1 % der Interviews mittels Mobile Apps durchgeführt (vgl. ADM 2016, S. 14). Die Repräsentativität mobiler Marktforschung ist nach dem derzeitigen Stand noch eingeschränkt. Zwar verfügt ein Großteil der deutschen Bevölkerung ab 14 Jahren über ein Mobiltelefon, die mobile Internetnutzung ist jedoch noch nicht flächendeckend verbreitet. Mobile Stichproben verfügen über einen höheren Bildungsstand und sind jünger als der Bevölkerungsquerschnitt, sodass mobile Befragungen für flächendeckende Repräsentativerhebungen derzeit (noch) ungeeignet sind. Für jüngere Zielgruppen sind mobile Befragungen hingegen sehr geeignet, da gerade die Jüngeren im Rahmen von telefonischen oder Face-to-face-Befragungen kaum zu erreichen sind. Da keine Verzeichnisse von Mobilfunknummern existieren, ist das Sampling allerdings nur über Mobile Access Panels (Rekrutierungspools für Mobiltelefonnutzer) möglich (vgl. Maxl/ Döring 2010, S. 27). Dies wirft - wie bereits bei Online-Access-Panels - die Frage nach der Repräsentativität auf, da die Teilnahme am Panel selbstselektierend ist. Der Zeitbedarf pro Erhebungsfall ist bei mobilen webbasierten Umfragen analog zu beurteilen wie bei Internetumfragen. Bei Mobile Apps ist aufgrund der typischen Nutzungssituation von Mobiltelefonen der Fragebogen i.A. 50 % kürzer als bei „klassischen“ Internetumfragen, sodass der Zeitbedarf sogar geringer ist. Hinzu kommt, dass gegenüber Online-Umfragen die Responsezeiten schneller sind (50 % Rücklauf innerhalb der ersten Stunde, vgl. Wallisch/ Maxl 2009). Allerdings können die Datenübertragungsraten derzeit noch nicht mit jenen von DSL-Internetzugängen mithalten. Die Kosten der Befragung sind ebenfalls deutlich geringer als bei konventioneller schriftlicher oder mündlicher Befragung. Eine Befragung mittels Mobile App ist bereits ab 1 <?page no="65"?> 66 Quantitative Befragung Euro pro Teilnehmer möglich. Aus Sicht der Nutzer können jedoch bei Teilnahme an einer mobilen Befragung erhebliche, nicht kontrollierbare Kosten aus dem Verbindungsentgelten entstehen, was die Akzeptanz einschränken kann. Deutliche Vorteile weisen mobile Befragungen im Hinblick auf die Flexibilität auf, da der Befragte Ort und Zeit zur Beantwortung von Fragen mit dem Mobiltelefon in vielen Fällen flexibler wählen kann. Besonders interessant sind mobile Befragungen dann, wenn es um Datenerhebung im „moment-of-truth“, also sehr nah an einer Entscheidungssituation geht (zum Beispiel am Point of Sale), oder wenn der Forschungsgegenstand und die Zielgruppe sehr mobile-affin sind (Kantar TNS 2016, o.S.). Allerdings sind die Darstellungsmöglichkeiten deutlich beschränkter als bei anderen Befragungsmedien, zudem ist der Umfang des Fragebogens eingeschränkt. Eine Kontrollierbarkeit der Erhebungssituation ist im hohen Maße gegeben, da ein Mobiltelefon ein Medium der persönlichen Nutzung ist, d.h. beim Anwählen einer bestimmten Mobilfunknummer ist davon auszugehen, dass tatsächlich der anvisierte Teilnehmer am Apparat ist. Verzerrungen durch die Interviewsituation können nur bei mobilen CATI- Erhebungen eintreten, bei selbst administrierten Methoden, welche hier im Fokus stehen, sind solche Effekte nicht vorhanden. Tabelle 3.2 gibt einen zusammenfassenden Überblick über die Vor- und Nachteile der einzelnen Befragungsformen. Welche Methode im Einzelfall zu wählen ist, hängt vom Forschungsziel, von der angestrebten Informationsqualität sowie vom zeitlichen und finanziellen Budget ab. Die nachfolgenden Angaben dienen daher nur der Orientierung. Tab. 3.2: Vor- und Nachteile quantitativer Befragungsmethoden Kriterien Schriftliche Befragung Face-toface- Befragung Telefonische Befragung Online- Befragung Mobile Befragung Repräsentativität mittel hoch hoch mittel gering Zeitbedarf pro Erhebungsfall mittel hoch bis mittel niedrig bis sehr niedrig niedrig sehr niedrig Kosten pro Erhebungsfall gering hoch bis mittel gering sehr gering sehr gering Flexibilität gering sehr hoch gering hoch hoch bis sehr hoch Kontrollierbarkeit der Erhebungssituation gering hoch hoch mittel hoch Verzerrungen durch Interviewsituation gering potenziell hoch mittel bis hoch gering gering <?page no="66"?> Gestaltung des Fragebogens 67 1.3 Gestaltung des Fragebogens Im Rahmen der Gestaltung eines Fragebogens erfolgt die Operationalisierung und Umsetzung der Forschungsfrage, d.h. der zu untersuchende Sachverhalt wird in einzelne Variablen zerlegt und in konkrete Fragen umgesetzt. Im Rahmen einer quantitativen Befragung ist der Fragebogen dabei typischerweise standardisiert, d.h. allen Befragten werden dieselben Fragen im selben Wortlaut und in derselben Reihenfolge gestellt. Die Gestaltung des Fragebogens vollzieht sich in mehreren Schritten (vgl. Abb. 3.3). Abb. 3.3: Prozess der Fragebogengestaltung 1.3.1 Spezifikation des Informationsbedarfs Quantitative Studien erfordern ein gewisses Maß an Vorkenntnissen, um geeignete Hypothesen als Grundlage für die Erhebung zu formulieren. Je sorgfältiger der Forscher im Vorfeld einer Untersuchung Forschungsprobleme und Forschungsziele definiert hat, umso einfacher ist in diesem Stadium die Bestimmung des konkreten Informationsbedarfs. Darüber hinaus sollte auf dieser Stufe genau definiert werden, an welche Adressaten sich der Fragebogen richtet, da die Merkmale der Befragten einen großen Einfluss auf die inhaltliche und sprachliche Gestaltung des Fragebogens haben (vgl. Malhotra 2010, S. 336). Fragebogen-Pretest Formale Gestaltung des Fragebogens Festlegung der Reihenfolge der Fragen sowie der Länge des Fragebogens Festlegung der Fragenformulierung und der Antwortmöglichkeiten Festlegung der Befragungstaktik Festlegung des Frageninhalts Festlegung der Befragungsart Spezifikation des konkreten Informationsbedarfs <?page no="67"?> 68 Quantitative Befragung 1.3.2 Festlegung der Befragungsmethode Nach der Spezifikation des konkreten Informationsbedarfs muss der Forscher bestimmen, in welcher Form die benötigten Daten abgefragt werden sollen. Fragenformulierung, Antwortmöglichkeiten, Länge des Fragebogens usw. hängen sehr stark davon ab, ob die Befragung schriftlich, face-to-face, telefonisch oder elektronisch erfolgt (vgl. Iacobucci/ Churchill 2010, S. 205 und die Ausführungen im vorangegangenen Abschnitt 1.2). Beispielsweise müssen Fragebögen für mündliche Befragungen - sei es telefonisch oder face-to-face - eher im Konversationston gehalten werden, da Befragter und Interviewer mündlich interagieren. Fragebögen für schriftliche Befragungen sollten detaillierte Anweisungen zur Beantwortung beinhalten, da kein Interviewer anwesend ist, der bei der Beantwortung Hilfestellung leisten kann. Auch die Festlegung der Antwortmöglichkeiten wird von der Art der Befragung beeinflusst: So ist es beispielsweise nicht sinnvoll, im Rahmen einer telefonischen Befragung eine längere Liste von Marken zu nennen und den Befragten zu bitten, diese in eine Reihenfolge gemäß seiner Markenpräferenz zu bringen, da der Befragte keinerlei Gedächtnisstütze hat, um die Frage zu beantworten. In diesem Fall empfiehlt es sich beispielsweise, die Marken einzeln zu nennen und den Befragten zu bitten, das Ausmaß seiner Wertschätzung für jede einzelne Marke anhand einer Ratingskala anzugeben. Erfordert die Befragung visuelle Stimuli, ist eine telefonische Befragung ausgeschlossen und auch eine schriftliche wenig empfehlenswert. Die zu wählende Befragungsart hängt auch vom ermittelten Informationsbedarf und von der Art den konkret zu erhebenden Daten ab. Beispiel 3.1: Ein US-amerikanisches Unternehmen wollte im Rahmen einer Studie erheben, welche Anteile der Internetnutzer welche Multimedia-Plug-Ins nutzten. Aus Erfahrung wusste das beauftragte Marktforschungsinstitut, dass mindestens ein Drittel der Internetnutzer nicht genau weiß, welche Plug-Ins verwendet werden, insbesondere auch nicht in welcher Version. Aus diesem Grunde wären sowohl eine schriftliche als auch eine mündliche Befragung wenig sinnvoll gewesen, da ein hoher Anteil an Antwortausfällen resultiert wäre. Stattdessen entschied sich das Marktforschungsinstitut für eine Online-Befragung. Den Probanden wurden per Internet Bilder geschickt, welche in verschiedenen Plug-In-Formaten erstellt wurden. Bei jedem Bild mussten die Befragten angeben, ob sie es auf ihren Bildschirmen sehen konnten. Wurde die Frage bejaht, konnte auf das Vorhandensein des zugehörigen Plug-Ins auf dem PC des Nutzers geschlossen werden. Auf diese Weise konnten die Befragten Daten erzeugen ohne jegliche technische Kenntnisse zu besitzen. Quelle: Grecco/ King 1999 1.3.3 Festlegung des Frageninhalts In Abhängigkeit von dem vorliegenden Informationsbedarf und der gewählten Art der Befragung ist auf dieser Stufe festzulegen, welchen Inhalt die einzelnen Fragen aufweisen sollen. Zunächst ist darüber zu befinden, ob jede Frage auch wirklich notwendig ist. Jede Frage in einem Fragebogen sollte zusätzliche Informationen erzeugen oder einem anderen, fest definierten Zweck dienen. Sämtliche Fragen sollten daher dahingehend überprüft werden, ob sie für den Untersuchungszweck zwingend erforderlich <?page no="68"?> Gestaltung des Fragebogens 69 sind, da überflüssige Fragen den Fragebogen verlängern ohne einen echten Nutzen herbeizuführen (vgl. Malhotra 2010, S. 338 f.). Allerdings ist es häufig notwendig, auch Fragen zu stellen, die nicht direkt mit dem Forschungsproblem zusammenhängen, etwa, um den Untersuchungszweck zu verschleiern. Insbesondere bei sensiblen Befragungsgegenständen kann es sinnvoll sein, zu Beginn der Befragung einige neutrale „Eisbrecherfragen“ zu stellen, um eine positive Gesprächsatmosphäre zu erzeugen. Um Validität und Reliabilität zu gewährleisten, sind darüber hinaus häufig Kontrollfragen einzubeziehen. Weiterhin ist zu überprüfen, ob einzelne Fragen nicht in mehrere Teilfragen aufgespalten werden sollten, um z.B. mehrdeutige Antworten zu vermeiden oder aber, weil unterschiedliche Bezugsebenen angesprochen werden. Beispiel 3.2: [1] Mehrdeutige Antworten: „Empfinden Sie die kalorienreduzierten Tiefkühl-Lasagne von X als wohlschmeckend und gesund? “ (ja/ nein) Die Antwort „ja“ ist eindeutig, nicht aber die Antwort „nein“, da unklar ist, ob der Befragte den Geschmack, die Gesundheit oder beides verneint. Korrekt wäre es, zwei Fragen zu stellen: „Empfinden Sie die kalorienreduzierten Tiefkühl-Lasagne von X als wohlschmeckend? “ (ja/ nein) „Halten Sie die kalorienreduzierten Tiefkühl-Lasagne von X für gesund? “ (ja/ nein) [2] Unterschiedliche Bezugsebenen: „Warum kaufen Sie Babynahrung der Marke X? “ Die möglichen Antworten könnten lauten: „weil sie qualitativ hochwertiger ist als andere Marken“ oder „weil sie mir vom Kinderarzt empfohlen wurde“. Dadurch werden zwei unterschiedliche Bezugsebenen angesprochen: zum einen der Grund für die Bevorzugung der Marke im Vergleich zu Konkurrenzprodukten, zum anderen der Anlass für das Kennenlernen bzw. für die erstmalige Nutzung der Marke. Korrekt wären daher folgende Fragen: „Wie kamen Sie erstmalig dazu, Babynahrung der Marke X zu kaufen? “ „Was gefällt Ihnen besonders an Babynahrung der Marke X? “ 1.3.4 Festlegung der Befragungstaktik Im Rahmen der Befragungstaktik geht es darum, Auskunftsfähigkeit und Auskunftsbereitschaft der Befragten zu fördern. Häufig sind die Befragten nicht in der Lage, bestimmte Fragen korrekt zu beantworten; eine zu erwartende mangelhafte Auskunftsfähigkeit sollte vom Forscher antizipiert werden, um Antwortausfälle oder falsche Antworten zu vermeiden. Typische Gründe für die Unfähigkeit, bestimmte Fragen zu beantworten, können sein: unzureichende Information, fehlendes Erinnerungsvermögen oder Unfähigkeit, bestimmte Antworten zu artikulieren. <?page no="69"?> 70 Quantitative Befragung Häufig werden Untersuchungseinheiten zu Themen befragt, worüber sie nur unzureichende oder gar keine Informationen besitzen. Dies kann zum einen einen Antwortausfall zur Folge haben, zum anderen aber auch eine Falschantwort, was deutlich bedenklicher ist. Beispiel 3.3: Im Rahmen einer US-amerikanischen Studie wurden die Befragten gebeten, das Ausmaß ihrer Zustimmung zu folgendem Statement anzugeben: „Das National Bureau of Consumer Complaints ist ein wirksames Mittel für Konsumenten, um zu ihrem Recht zu kommen, wenn sie ein fehlerhaftes Produkt erworben haben.“ 96,1% der Rechtsanwälte und 95,0% des allgemeinen Publikums äußerten hierzu eine Meinung. Auch unter Vorgabe einer Antwortkategorie „weiß nicht“ äußerten noch 51,9% der Rechtsanwälte und 75,0% des allgemeinen Publikums eine eindeutige Meinung. Das National Bureau of Consumer Complaints existierte allerdings nicht. Quelle: Malhotra 2010, S. 340 In einem solchen Fall empfiehlt es sich, Filterfragen in den Fragebogen einzubauen, um das Ausmaß der Vertrautheit mit dem Untersuchungsgegenstand zu erfassen (vgl. Schuman/ Presser 1979). Sinnvoll ist auch, „weiß nicht“ als Antwortkategorie vorzusehen, um den Anteil an Falschantworten zu reduzieren. Ein weiterer Grund für fehlende oder falsche Antworten ist die Unfähigkeit der Befragten, sich an bestimmte Sachverhalte genau zu erinnern. Grundsätzlich ist die Erinnerungsfähigkeit eines Ereignisses von folgenden Faktoren abhängig (vgl. Iacobucci/ Churchill 2010, S. 209 f.): subjektive Wichtigkeit, Länge des seither verstrichenen Zeitraums sowie Vorhandensein von Gedächtnisstützen. Allgemein werden subjektiv unwichtige Ereignisse schlechter erinnert als wichtige. Für die meisten Befragten sind Kauf bzw. Nutzung bestimmter Marken, Kaufzeitpunkt etc. von geringer Bedeutung, da sie gegenüber den betreffenden Produkten nur ein geringes Involvement besitzen. Solche Ereignisse werden daher i.d.R. nur dann erinnert, wenn sie zeitlich nicht zu weit zurückliegen. Beispiel 3.4: Die Frage „Wie viele Liter Bier haben Sie in den letzten vier Wochen getrunken? “ ist aus zwei Gründen unglücklich: Erstens wird Bier von den Befragten nicht litersondern flaschenweise konsumiert; an die Anzahl der Liter wird sich also sicherlich spontan niemand erinnern können. Zweitens ist ein Zeitraum von vier Wochen zu lang. Besser wäre die folgende Formulierung: „Wie häufig trinken Sie Bier im Laufe einer typischen Woche? “ weniger als einmal die Woche 1 - 3 Mal die Woche 4 - 6 Mal die Woche täglich <?page no="70"?> Gestaltung des Fragebogens 71 Typische Fehlerquellen im Zusammenhang mit dem Erinnerungsvermögen sind (vgl. Malhotra 2010, S. 340): Vergessen: Ein Befragter kann sich an ein Ereignis gar nicht erinnern, obwohl er davon Kenntnis gehabt hat. Telescoping-Effekt: Die meisten Menschen erinnern Ereignisse als zeitnäher, als es tatsächlich der Fall ist. Erfindung: Die Befragten „erinnern“ Ereignisse, die nie stattgefunden haben. Das Erinnerungsvermögen kann erhöht werden, wenn visuelle oder verbale Gedächtnishilfen angeboten werden (z.B. Produktlisten). Zur Überprüfung des Wahrheitsgehalts der Antworten werden häufig auch fiktive Markennamen einbezogen. Beispiel 3.5: Die Frage „Welche Zahnpasta-Marken haben Sie in den letzten 6 Monaten verwendet? “ wird wahrscheinlich dazu führen, dass der Befragte sich - wenn überhaupt - an nur sehr wenige Marken erinnert. Sinnvoller ist es, dem Befragten eine Liste von Marken vorzugeben, auf der er die genutzten Marken ankreuzen kann. Werden fiktive Marken einbogen, kann zudem auf die (Un-)zuverlässigkeit des Antwortverhaltens geschlossen werden. Mitunter sind die Befragten nicht in der Lage, ihre Antwort zu artikulieren. Dies kann dann vorkommen, wenn die Antwortmöglichkeiten komplexe Sachverhalte betreffen, die sich nicht in Kurzform angeben lassen. In solchen Fällen kann es hilfreich sein, die Antwortmöglichkeiten zu visualisieren. Gerade die modernen, computergestützten Befragungsverfahren erlauben die Einbindung von vielfältigem Anschauungsmaterial. Beispiel 3.6: Die Antworten auf die Frage „Welchen Stil bevorzugen Sie bei Ihrer Wohnungseinrichtung? “ werden - wenn überhaupt - „antik“, „modern“, „keine bevorzugte Stilrichtung“ , „pflegeleicht“ u.Ä. umfassen; für einen Möbelhersteller dürften die Antworten jedoch wenig hilfreich sein. Sinnvoller ist es, den Befragten Bilder von Möbeln und sonstigen Einrichtungsgegenständen zu zeigen und nach ihren Präferenzen zu fragen. Auch wenn die Befragten grundsätzlich in der Lage sind, eine bestimmte Frage zu beantworten, sind sie häufig nicht dazu bereit. Folgende Gründe können dafür ursächlich sein: Die Beantwortung erfordert zuviel Zeit und Mühe, die Frage erscheint im gegebenen Kontext als unpassend bzw. ein gerechtfertigter Grund für die geforderte Information wird nicht ersichtlich, oder die Frage berührt einen sensiblen Sachverhalt. Viele Befragte sind nicht willens, zuviel Zeit und Mühe in die Beantwortung von Fragen zu investieren. Aus befragungstaktischen Gründen sollten die Fragen daher so gestellt werden, dass der Beantwortungsaufwand minimiert wird. Ansonsten besteht die Gefahr, dass nicht nur die betreffende Frage nicht oder nur ungenau beantwortet wird, sondern dass die Bearbeitung des Fragebogens als Ganzes abgebrochen wird. <?page no="71"?> 72 Quantitative Befragung Beispiel 3.7: Bei der Frage „Würden Sie mir bitte sagen, welchen Betrag Sie jährlich für Versicherungen ausgeben? “ ist jeder Befragte i.d.R. in der Lage, die entsprechenden Unterlagen zusammenzusuchen und die Einzelbeträge zusammenzurechnen. Ob der Proband hierzu Zeit und Lust hat, ist allerdings fraglich. Einfacher zu beantworten wäre die folgende Fragestellung: „Geben Sie bitte an, welche ungefähren Beträge Sie jährlich für die nachfolgend angeführten Versicherungen bezahlen (in Euro): Unter 200 200 bis unter 300 300 bis unter 400 400 und mehr Weiß nicht Habe ich nicht Wohngebäudeversicherung Hausratversicherung Haftpflichtversicherung … Ausbildungsversicherung Der Forscher kann die entsprechenden Beträge anschließend selbst addieren. Gelegentlich wird die Antwort verweigert, weil die Frage im gegebenen Kontext als unpassend bzw. der Grund für die Frage dem Befragten nicht unmittelbar ersichtlich erscheint. Beispiel 3.8: Die Frage: „Welche der nachfolgend angeführten Länder gehören zu Ihren bevorzugten Urlaubszielen? “ ist unproblematisch, wenn sie in einem Fragebogen zum Thema Freizeit, Urlaub o.Ä. gestellt wird oder das befragende Unternehmen der Tourismusbranche angehört. Wird dieselbe Frage in einem anderen Zusammenhang oder von einem anderen Auftraggeber gestellt - z.B. einem Hersteller von Spirituosen, der nach geeigneten Motiven für eine Werbekampagne sucht - wird die Frage möglicherweise als unpassend empfunden. In diesem Falle empfiehlt es sich, den Kontext zu verändern bzw. ergänzende Statements zu formulieren. Das Unternehmen könnte die Frage z.B. folgendermaßen stellen: „Als namhafter Hersteller qualitativ hochwertiger alkoholischer Getränke ist es unser Anliegen, dass Sie unsere Produkte möglichst überall erhalten. Würden Sie uns daher bitte verraten, in welchen Ländern Sie bevorzugt Ihren Urlaub verbringen? “ Ein besonderes Problem stellt die Behandlung sensibler Befragungsgegenstände dar (vgl. hierzu ausführlich z.B. Lee 1993; Hill 1995; Tourangeau/ Smith 1996). Solche Sachverhalte werden von den Befragten als potenziell bedrohlich oder peinlich angesehen (z.B. politische und religiöse Überzeugungen, Sexualverhalten), sodass mit einer hohen Antwortverweigerungsquote zu rechnen ist. Aber auch bei Befragungsgegenständen, die das Prestige der Befragten berühren (z.B. Einkommen), ist seitens des Forschers <?page no="72"?> Gestaltung des Fragebogens 73 große Sorgfalt anzuwenden, weil sonst eine hohe Anzahl von Antwortverweigerungen bzw. Falschantworten zu erwarten ist. Es gibt jedoch eine Reihe von Techniken, die die Zuverlässigkeit der Antworten deutlich erhöhen können. Sensible Fragen sollten möglichst am Ende des Fragebogens platziert werden. Bis dahin wurde das anfängliche Misstrauen überwunden, und es wurde eine Beziehung zum Befragten hergestellt, sodass die Neigung, die Frage zu beantworten, höher ist. Eine weitere Möglichkeit besteht darin, sensible Fragen in eine Gruppe neutraler, harmloser Fragen unterzubringen. Dadurch wirkt die betreffende Frage weniger auffällig. Schließlich können auch verschiedene Varianten einer sog. psychotaktischen Befragung herangezogen werden, also eine taktisch geschickte Wahl des Wording (vgl. Hüttner/ Schwarting 2002, S. 92 f.). Die persönliche Betroffenheit des Befragten kann z.B. dadurch reduziert werden, dass der eigentlichen Frage ein Statement vorangestellt wird, das bestimmte Eigenschaften bzw. ein bestimmtes Verhalten als keinesfalls außergewöhnlich hinstellt. Dadurch erhofft man sich, dass sich der Befragte als Teil einer Gemeinschaft fühlt und weniger Antworthemmnisse empfindet. Beispiel 3.9: Auf die Frage: „Haben Sie Schulden? Wenn ja: Auf welche Höhe belaufen sie sich? “ wird der Forscher kaum eine ehrliche Antwort erhalten. Besser ist folgende Formulierung: „Die schwache Konjunkturlage und die ständigen Preiserhöhungen führen dazu, dass mittlerweile ein Großteil der Deutschen verschuldet ist. Sind Sie auch davon betroffen? Wenn ja: in welchem Umfang? “ Für bestimmte Fragen - z.B. nach dem Einkommen oder dem Alter - empfiehlt es sich, keine genauen Angaben zu fordern, sondern die Zugehörigkeit zu bestimmten Kategorien abzufragen. Beispiel 3.10: Statt „Wie hoch ist Ihr monatliches Haushaltsnettoeinkommen? “empfiehlt sich folgende Formulierung: „Wenn Sie einmal zusammenrechnen, was nach Abzug von Steuern und Sozialversicherungsbeiträgen in Ihrem Haushalt im Monat übrig bleibt: Wie hoch ist der verbleibende Betrag? “ unter € 1000 € 1000 - unter 2000 € 2000 - unter 3000 € 3000 - unter 4000 € 4000 und mehr Bestimmte Fragen, die die Privatsphäre betreffen, können sehr schnell als zu intim und aufdringlich empfunden werden, sodass ein höherer Anteil an Ausfällen oder Falschantworten entsteht. Problematisch sind auch Sachverhalte, bei denen die Gefahr sozial erwünschter Antworten besteht. Es empfiehlt sich in solchen Fällen, in die Fragestellung eine Rechtfertigung für das - ggf. sozial abweichende - Verhalten der Befragten einzubauen. <?page no="73"?> 74 Quantitative Befragung Beispiel 3.11: Die Frage „Wie häufig duschen Sie durchschnittlich pro Woche? “ - eine aus der Sicht eines Herstellers von Körperpflegemitteln durchaus wichtige Frage - kann in dieser Form nicht gestellt werden, da viele Befragte aus Gründen sozialer Erwünschtheit häufigeres Duschen angeben werden, als dies in Wirklichkeit der Fall ist. Geeigneter ist folgende Formulierung: „Viele Menschen sind der Ansicht, dass zu häufiges Duschen der Haut schadet. Könnten Sie mir sagen, wie häufig Sie pro Woche durchschnittlich duschen? “ Anstelle des tatsächlich interessierenden Sachverhalts können auch Indikatoren herangezogen werden, von denen auf die interessierende Variable geschlossen werden kann. Beispiel 3.12: Auf die Frage: „Leben Sie gesundheitsbewusst? “ werden viele Befragte aus Prestigegründen mit „ja“ antworten. Besser ist es, Indikatoren wie Konsum von z.B. Alkohol und Tabak, sportliche Aktivitäten, Kauf von Reformhausprodukten etc. abzufragen, da daraus eher auf das tatsächliche Gesundheitsbewusstsein geschlossen werden kann. Das Problem sozial erwünschten Antwortverhaltens (vgl. Grohs et al. 2009) kann auch mit Hilfe sog. Kontrollskalen reduziert werden. Solche Skalen werden im Fragebogen eingebaut und messen die allgemeine Neigung eines Probanden, sozial erwünschte Antworten zu geben. Bekannt ist z.B. die Soziale Erwünschtheitsskala von Crowne und Marlowe (1960). Eine neuere Skala wurde von Winkler/ Kroh/ Spieß (2006) für den deutschsprachigen Raum enwickelt, welche die soziale Erwünschtheit anhand von 6 Items misst, die auf einer 7-stufigen Likert-Skala zu beantworten sind (Beispiel: „Ich habe schon mal zuviel Wechselgeld zurückbekommmen und nichts gesagt“, „Ich bin immer ehrlich zu anderen“ u.ä.). Da davon ausgegangen werden kann, dass niemand auf solche Fragen uneingeschränkt mit Ja antworten kann, wenn er ehrlich ist, kann vermutet werden, dass Probanden mit einem hohen Gesamtscore bei den Kontrollfragen in der Tendenz auch bei den anderen Fragen sozial erwünschte Antworten geben. Zur Erfassung problematischer Sachverhalte sind grundsätzlich auch qualitative Befragungstechniken geeignet, insb. projektive Verfahren (vgl. hierzu die Ausführungen in Kapitel 7). Gebräuchlich ist z.B. die sog. Drittpersonentechnik, d.h. die Frage wird so gestellt, dass der Befragte angeben soll, wie sich seiner Ansicht nach Drittpersonen in bestimmten Situationen verhalten würden. Dem liegt die Annahme zugrunde, dass der Befragte sich von der Frage zwar distanzieren kann, aber implizit seine eigenen Ansichten bzw. Verhaltensweisen in seine Antwort hineinprojiziert. Beispiel 3.13: Die Frage „Was ist Ihre Haltung zur Aufnahme von Flüchtlingen in Deutschland? “ wird einen hohen Anteil sozial erwünschter Antworten erzeugen, da nur wenige Befragten ehrlich zugeben würden, dass sie eine ablehnende Haltung zu dieser Frage haben. Besser ist folgende Formulierung: „Glauben Sie, dass viele Deutsche die Aufnahme von Flüchtlingen in Deutschland ablehnen? Wenn ja, warum glauben Sie das? “ <?page no="74"?> Gestaltung des Fragebogens 75 Ein Ansatz zur Erfassung sensibler Sachverhalte stellt die sog. Randomized Response-Technik dar (vgl. z.B. Warner 1965, Greenberg et al. 1969). Die Grundidee basiert darauf, dass der Befragte die Fragen paarweise erhält. Eine Frage ist neutral, die andere Frage ist sensiblen Inhalts. Die neutrale Frage weist dabei eine bekannte Wahrscheinlichkeit einer „ja“-Antwort auf. Welche der beiden Fragen der Befragte beantworten muss, wird per Zufallsprinzip bestimmt. Der Interviewer weiß hier nicht, welche der beiden Fragen die Auskunftsperson beantwortet hat. Unter diesen Bedingungen ist anzunehmen, dass der Befragte eher eine zutreffende Antwort gibt. Die sensible Frage A: „Haben Sie schon einmal einen Sex-Shop aufgesucht? “ kann beispielsweise mit der Frage B gekoppelt werden: „Haben Sie im Dezember Geburtstag? “. Welche der beiden Fragen der Befragte zu beantworten hat, kann z.B. durch Ziehung einer Kugel aus einer Urne bestimmt werden, etwa Frage A bei Ziehung einer roten Kugel, Frage B bei Ziehung einer schwarzen Kugel. Der Anteil an Befragten, die schon einmal einen Sex-Shop aufgesucht haben, kann mit Hilfe eines geeigneten statistischen Modells ermittelt werden, da der Anteil der Befragten, die Frage A oder B beantworten müssen, von den Anteilen an roten und schwarzen Kugeln in der Urne gesteuert wird. Im einfachsten Fall einer Gleichverteilung roter und schwarzer Kugeln beträgt die Wahrscheinlichkeit, dass die sensible Frage beantwortet werden muss, genau 0,5. Die Wahrscheinlichkeit, dass ein Befragter im Dezember Geburtstag hat, ist z.B. aus den Daten einer Volkszählung zu ermitteln. In diesem Beispiel wird sie als 0,07 angenommen. Die Befragung ergibt beispielsweise, dass 15% der Befragten auf Frage A oder B mit „ja“ geantwortet haben. Der Anteil der Befragten, der schon einmal einen Sex-Shop aufgesucht hat, kann dann wie folgt errechnet werden (vgl. Reinmuth/ Geurts 1975). Seien p = Anteil der Befragten, die eine der Fragen mit „ja“ beantwortet haben, q = Wahrscheinlichkeit, dass der Befragte die sensible Frage A beantworten musste, A = Anteil der „ja“-Antworten auf die sensible Frage, B = Anteil der „ja“-Antworten auf die neutrale Frage; dann gilt: ( ) B A p 1 q p π ⋅ − + π ⋅ = Einsetzen der Zahlenwerte ergibt: 23 , 0 07 , 0 5 , 0 5 , 0 15 , 0 A A = π ⋅ + π ⋅ = d.h. 23% der Befragten haben schon einmal einen Sex-Shop aufgesucht. Zum Randomized-Response-Modell sind mittlerweile zahlreiche methodische Beiträge erschienen; dessen Anwendung in der Praxis ist jedoch noch nicht weit verbreitet. <?page no="75"?> 76 Quantitative Befragung 1.3.5 Festlegung der Fragenformulierung und der Antwortmöglichkeiten Im Rahmen der Fragenformulierung ist der Wortlaut der einzelnen Fragen zu bestimmen. Sprachliche Aspekte sind insofern von großer Relevanz, als unglücklich formulierte Fragen zu einer falschen Beantwortung oder gar zur Antwortverweigerung führen können (vgl. Schuman/ Presser 1996, S. 275 ff.). Eine nicht korrekte Beantwortung führt zu Verzerrungen der Ergebnisse, eine Antwortverweigerung zu sog. Missing Values, welche Probleme bei der Datenanalyse verursachen können. Für die sprachliche Gestaltung eines Fragebogens sind daher eine ganze Reihe von Grundsätzen zu beachten (vgl. Malhotra 2010, S. 343 ff.): genaue Definition des Fragengegenstands, verständliche Wortwahl, Vermeidung vager Formulierungen, Vermeidung mehrdeutiger Formulierungen Vermeidung von Suggestivfragen, Vermeidung impliziter Alternativen, Vermeidung verwirrender Anweisungen sowie Vermeidung von Verallgemeinerungen. Der Wortlaut einer Frage muss den Inhalt der Frage so wiedergeben, dass er konkret und exakt definiert wird. Die Frageformulierung sollte daher dahingehend überprüft werden, ob der Fragengegenstand präzise definiert ist, also das Wer? Was? Wann? Wo? Warum? und Wie? aus der Frage eindeutig hervorgehen. Beispiel 3.14: Die Frage „Welche Zahnpastamarke benutzen Sie? “ definiert den Sachverhalt nur unzureichend: Wer: Nur der Befragte selbst oder der Haushalt? Was: Was ist, wenn im Haushalt verschiedene Marken verwendet werden? Wann: Immer? Zuletzt verwendet? Am häufigsten verwendet? Wo: Zu Hause? Eine bessere Formulierung wäre: „Welche der nachfolgend aufgelisteten Zahnpastamarken wurden im vergangenen Monat in Ihrem Haushalt verwendet? “ Um Missverständnisse zu vermeiden, sollte die Wortwahl verständlich und dem sprachlichen Niveau des Befragten angepasst werden. Das Bildungsniveau eines Marktforschers ist oftmals höher als beim Bevölkerungsdurchschnitt. Gewisse Wörter und Formulierungen, die für den Forscher zum normalen Sprachgebrauch gehören, sind u.U. für den Befragten unverständlich; Fremdwörter und Fachausdrücke sollten daher vermieden werden. Beispiel 3.15: Die Frage: „Halten Sie den Distributionsgrad von Marke X für adäquat? “ dürfte bei vielen Befragten auf Verständnislosigkeit stoßen. Besser ist folgende Formulierung: „Wenn Sie Marke X kaufen wollen, was meinen Sie: Ist sie im Handel im Vergleich zu anderen Marken leichter oder schwieriger zu bekommen? “ <?page no="76"?> Gestaltung des Fragebogens 77 leichter genauso leicht schwieriger weiß nicht Um eine korrekte Beantwortung zu erzeugen, sollten vage Formulierungen vermieden werden, d.h. die verwendeten Begriffe dürfen keinen Spielraum für unterschiedliche Auffassungen beinhalten (vgl. ausführlich Schaeffer 1991). Beispiel 3.16: Bei der Frage„Wie häufig nutzen Sie das Internet über Ihr Smartphone oder Tablet? “ mit den Antwortkategorien sehr häufig häufig manchmal nie ist nur die Antwortkategorie „nie“ eindeutig; den übrigen Kategorien dürften unterschiedliche Befragte auch unterschiedliche Bedeutungen zuweisen. Besser sind z.B. folgende Antwortkategorien: täglich mehrmals die Woche mehrmals im Monat seltener nie Vermeidung mehrdeutiger Formulierungen bedeutet, dass aus der Frage deutlich werden muss, was genau zu beantworten ist. Beispiel 3.17: Bei der Frage „Sind Sie mit der Farbe und dem Geschmack des Getränks X zufrieden? “ ist die Antwort „ja“ ist nicht eindeutig, da unklar ist, ob sie sich auf die Farbe, den Geschmack oder beides bezieht. Suggestivfragen sind solche, welche dem Befragten eine bestimmte Antwort nahelegen. Dadurch manipuliert der Forscher bewusst oder unbewusst die Ergebnisse; die Antworttendenz wird in eine bestimmte Richtung gesteuert. Beispiel 3.18: „Wissenschaftler aus aller Welt warnen vor den möglichen Folgen genetisch manipulierter Nahrungsmittel. Würden Sie trotzdem genetisch manipulierte Nahrungsmittel kaufen? “ Bei dieser Formulierung ist wahrscheinlich, dass ein hoher Anteil der Befragten unzutreffenderweise mit „nein“ antwortet. Folgende Formulierung ist neutraler: „Die Wissenschaft macht es möglich, Nahrungsmittel genetisch zu verändern. Würden Sie entsprechende Produkte kaufen? “ Fragen sollten so formuliert werden, dass deren Beantwortung nicht von impliziten Annahmen über die Konsequenzen des interessierenden Sachverhalts abhängt. Unter <?page no="77"?> 78 Quantitative Befragung einer impliziten Annahme versteht man dabei eine Annahme, die der Forscher zugrunde legt, die aber den Befragten nicht bekannt ist. Beispiel 3.19: Im Rahmen einer US-amerikanischen Untersuchung wurde die Einstellung zur Einführung einer gesetzlichen Gurtpflicht in PKWs mit zwei alternativen Fragestellungen erhoben. Die erste Variante lautete: „Es ist eine gute Idee, ein Gesetz zu verabschieden, welches Personen in PKWs verpflichtet, Sicherheitsgurte anzulegen“. Dass bei gesetzlicher Regelung die Nichteinhaltung der Gurtpflicht sanktioniert werden würde, wurde nicht explizit erwähnt. Auf die so formulierte Frage mit impliziter Annahme antworteten 73% mit „stimme zu“. Die zweite Variante lautete: „Es sollte ein Gesetz geben, dass Personen in PKWs sich entweder anschnallen oder eine Strafe zahlen“. Die Konsequenz wurde hier explizit angegeben; das Ausmaß an Zustimmung betrug bei dieser Formulierung nur noch 50%. Quelle: Ungar 1986, S. 90 Ebenso wie implizite Annahmen sollten auch implizite Alternativen vermieden werden. Eine Frage mit impliziter Alternative bedeutet, dass ein bestimmter Sachverhalt erfragt wird - i.d.R. eine Präferenz für ein bestimmtes Objekt -, ohne dass alternative Möglichkeiten explizit erwähnt werden. Dies kann zu einer erheblichen Verzerrung der Antworten führen. Beispiel 3.20: Im Rahmen einer Untersuchung über die Einstellung von Hausfrauen zum Nachgehen einer Arbeit außer Haus wurden bei zwei repräsentativen Teilstichproben folgende Fragen gestellt: Variante A: „Würden Sie gerne arbeiten gehen, wenn es möglich wäre? “ Variante B: „Würden Sie lieber arbeiten gehen, oder machen Sie lieber Ihre Hausarbeit? “ Bei Variante A gaben 19% der Befragten an, sie würden lieber nicht arbeiten gehen. Bei der zweiten Teilstichprobe, welche mit Variante B konfrontiert wurde, gaben 68% an, sie würden lieber nicht arbeiten gehen, sondern ihre Hausarbeit machen. Quelle: Noelle-Neumann 1970, S. 200 Die Auskunftsfähigkeit der Befragten kann stark beeinträchtigt werden, wenn die Anweisungen für die Beantwortung der Fragen unklar, also z.B. zu umfangreich oder zu knapp sind. Wird dem Befragten nicht klar, worin seine Aufgabe besteht, führt dies im günstigsten Fall zu einem überhöhten Anteil von „weiß nicht“-Antworten, im schlimmsten Fall zum Antwortausfall. Beispiel 3.21: „Welche Waschmittelmarken werden in Ihrem Haushalt genutzt? Nennen Sie alle die von Ihnen genutzten Marken, ordnen Sie sie nach der Nutzungshäufigkeit und unterstreichen Sie die von Ihnen bevorzugte Marke! “ Bei dieser Fragestellung wird die Testperson mit zu vielen Aufgaben gleichzeitig konfrontiert. Zudem bleibt unklar, welchen Zeitraum der Befragte bei der Beantwortung zugrunde legen muss. <?page no="78"?> Gestaltung des Fragebogens 79 Grundsätzlich sollten Fragen so spezifisch wie möglich gestellt werden, d.h. der Befragte soll nicht dazu angehalten werden, Verallgemeinerungen vorzunehmen oder gar Berechnungen anstellen zu müssen. Dadurch wäre er zwar möglicherweise nicht überfordert, jedoch würde er den Aufwand für die Beantwortung der Fragen als zu hoch empfinden. Beispiel 3.22: Die Fragestellung „Wie hoch ist der durchschnittliche jährliche Pro-Kopf- Verbrauch an Erfrischungsgetränken in Ihrem Haushalt? “ ist aus folgenden Gründen ungeeignet: Eine durchschnittliche Auskunftsperson wird den Verbrauch pro Woche oder allenfalls pro Monat angeben können; der Zeitraum von einem ganzen Jahr ist zu lang. Eine derart allgemeine Aussage kann der Befragte nicht treffen. Selbst wenn der Befragte den jährlichen Gesamtverbrauch angeben könnte, müsste er ihn durch die Zahl der Haushaltsmitglieder teilen. Vorzuziehen sind daher folgende Formulierungen: „Wie hoch ist der wöchentliche Verbrauch von Erfrischungsgetränken in Ihrem Haushalt? “, und „Wie viele Personen leben in Ihrem Haushalt? “. Die erforderlichen Berechnungen für den jährlichen Pro-Kopf-Verbrauch kann der Forscher selbst vornehmen. Nicht nur die Fragenformulierung, sondern auch die vorgegebenen Antwortmöglichkeiten haben einen großen Einfluss auf die Qualität der Ergebnisse (vgl. hierzu ausführlich Hüttner/ Schwarting 2002, S. 100 ff.). Abb. 3.4 zeigt die Einteilung von Fragen nach der Antwortmöglichkeit. Abb. 3.4: Einteilung von Fragen nach der Antwortmöglichkeit (Quelle: nach Hüttner/ Schwarting 2002, S. 100) Grundsätzlich können offene und geschlossene Fragen unterschieden werden. Offene Fragen sind dadurch charakterisiert, dass die Auskunftsperson in ihrer Wortwahl völlig frei ist; es existieren keine festen Antwortkategorien, die Antwort des Befragten muss Fragearten Offene Fragen Geschlossene Fragen Alternativfragen Mehrfachauswahlfragen (Selektivfragen) Normalform Spezialform: Dialogfrage Normalform Spezialform: Skalafrage Ja-Nein Frage Neutrale Fassung Unbegrenzte Anzahl von Nennungen Begrenzte Anzahl von Nennungen <?page no="79"?> 80 Quantitative Befragung möglichst im genauen Wortlaut notiert werden, um Verzerrungen zu vermeiden. Erst im Anschluss an die Befragung dann die Antworten codiert und Antwortkategorien gebildet. Offene Fragen können in Normalform oder in Spezialform gestellt sein. Die Normalform beinhaltet, dass die Frage aus einem vollständigen Satz besteht. Beispiel 3.23: [1] Warum haben Sie einen Fernseher der Marke X gekauft? [2] Was verbinden Sie mit der Marke Y? [3] Wie alt sind Sie? [4] Welchen Bildungsabschluss besitzen Sie? Offene Fragen finden sich typischerweise im Rahmen qualitativer Untersuchungen; sie werden aber auch für bestimmte Sachverhalte im Rahmen quantitativer Erhebungen verwendet, insb. als Antwortmöglichkeit im Rahmen einer Kategorie „Sonstiges, und zwar: …“. Im Rahmen qualitativer Untersuchungen werden offene Fragen häufig in Spezialform gestellt, z.B. als Satzergänzungstest, Picture Frustration Test bzw. Balloon- Test. Da qualitative Erhebungen ausführlich in Teil 7 behandelt werden, wird hier nicht näher darauf eingegangen. Generell weisen offene Fragen die folgenden Vorteile auf: Offene Fragen erlauben es dem Befragten, seine Meinung unverzerrt kundzutun und eignen sich daher insb. zur Erforschung psychologischer Sachverhalte oder z.B. als Eisbrecherfragen am Anfang eines Fragebogens. Im Rahmen quantitativer, standardardisierter Erhebungen erlauben es offene Fragen, zusätzliche Aspekte zu erfassen und damit weitergehende Erkenntnisse und Einblicke über die Probanden zu gewinnen. Die Probanden fühlen sich ihrerseits durch offene Fragen ernst genommen und erhalten das Gefühl, dass der Forscher individuell auf deren Belange eingeht. Allerdings weisen offene Fragen auch eine ganze Reihe von Nachteilen auf: Im Rahmen von Face-to-face-Interviews ist das Potenzial für Verzerrungen durch den Interviewer im Rahmen der Antwortaufzeichnung hoch, es sei denn, die Antworten werden auf Tonband registriert. Die Kodierung der Antworten ist sehr aufwändig, es sei denn, es handelt sich um quantitative Daten wie z.B. Alter (siehe Frage [3] in Beispiel 3.23) oder die Zahl möglicher Antworten ist begrenzt wie z.B. beim Bildungsabschluss (Frage [4]). Werden hingegen psychologische Sachverhalte wie Motive oder Assoziationen erhoben (Fragen [1] und [2]), muss die Vielzahl an unterschiedlichen Antworten in geeigneter Weise kategorisiert werden, um die Daten anschließend interpretieren zu können (vgl. hierzu Popping 2000; Luyens 1995). Bei quantitativen Erhebungen sollte mit offenen Fragen daher sparsam umgegangen werden. Implizit geben offene Fragestellungen denjenigen Befragten mehr Gewicht, welche sich freier und ausführlicher artikulieren können. Zudem werden in der Tendenz kritische Punkte eher geäußert als positive. Werden psychologische Sachverhalte erhoben, können offene Fragen im Prinzip nur bei mündlichen Befragungen gestellt werden, da Befragte dazu neigen, sich bei <?page no="80"?> Gestaltung des Fragebogens 81 schriftlicher Beantwortung kurz zu fassen. Zudem erfordert die schriftliche Beantwortung offener Fragen Zeit und Mühe, welche nicht alle Probanden aufzuwenden bereit sind. Bei geschlossenen Fragen werden die relevanten Antwortkategorien von vornherein vorgegeben. Der Befragte muss sich für eine der angegebenen Antwortkategorien entscheiden, unabhängig davon, ob er den Fragebogen selbst ausfüllt oder ein Interviewer seine Antworten notiert. Bei geschlossenen Fragen lassen sich Alternativfragen und Mehrfachauswahlfragen (Multiple-Choice-Fragen) unterscheiden. Alternativfragen verfügen grundsätzlich nur über zwei Antwortkategorien, etwa „ja/ nein“, „stimme zu/ stimme nicht zu“ usw. Häufig findet sich neben den beiden eigentlich interessierenden Antwortalternativen auch eine sog. „neutrale“ Alternative, z.B. „weiß nicht“, „weder - noch“, „sowohl - als auch“ u.Ä. (vgl. Schuman/ Presser 1996, S. 161 ff.). Die Einbeziehung einer neutralen Kategorie ist insofern sinnvoll, als ein zutreffendes Bild der Situation häufig nur dann möglich ist, wenn auch die „Unentschlossenen“ explizit erfasst werden. Dies ist z.B. bei Wahlprognosen der Fall, aber auch bei Prognosen für Markt- oder Absatzpotenzial im Rahmen von Neuprodukteinführungen. Nachteilig ist, dass eine „weiß nicht“-Kategorie verhindern kann, dass die Probanden Position beziehen. Alternativfragen können in Normalform oder in Spezialform auftreten. In der sog. Normalform unterscheidet man die Ja-Nein-Frage, bei welcher lediglich die Antwortmöglichkeiten „ja“ und „nein“ vorgegeben sind, und die neutrale Fassung, bei der die Alternative in der Frage mit genannt wird. Dies soll - im Sinne der Vermeidung impliziter Alternativen - verhindern, dass durch Nennung nur der eigentlich interessierenden Alternative diese bevorzugt wird. Beispiel 3.24: [1] Ja-Nein-Frage: „Beabsichtigen Sie, in diesem Sommer in den Urlaub zu fahren? “ ja nein weiß nicht [2] Neutrale Frage: „Beabsichtigen Sie, in diesem Sommer in den Urlaub zu fahren, oder bleiben Sie lieber zu Hause? “ Ich fahre in den Urlaub. Ich bleibe zu Hause. Ich weiß es noch nicht. Die Spezialform der Dialogfrage besteht darin, dass den Auskunftspersonen die beiden Alternativen in Form einer kleinen Geschichte (nur textlich oder auch bildlich, z.B. als Cartoon) präsentiert werden, in der sich zwei Personen miteinander unterhalten. Der Befragte wird dann aufgefordert, einer der beiden Personen zuzustimmen. Ein Beispiel findet sich in Abb. 3.5. <?page no="81"?> 82 Quantitative Befragung Abb. 3.5: Beispiel für eine Dialogfrage Mehrfachauswahlfragen (Multiple-Choice-Fragen) sind dadurch charakterisiert, dass sie mehrere alternative Antwortkategorien zulassen. Der Befragte soll diejenige(n) Kategorie(n) auswählen, die am ehesten seine Position wiedergibt bzw. wiedergeben. Die Anzahl der möglichen Nennungen kann dabei begrenzt oder unbegrenzt sein (vgl. Hüttner/ Schwarting 2002, S. 106 f.). Beispiel 3.25: „Wenn Sie einen Smartphone kaufen wollen: Was ist für Sie dabei wichtig? Preis im Vergleich zu ähnlichen Modellen Größe des Displays Auflösung des Displays Erfahrung mit der Marke Beratung vor Ort Garantieleistungen Sonstiges, und zwar………………………………………… Die Zahl an gültigen Antworten kann durch die folgenden Ausfüllanweiseungen gesteuert werden: [1] Unbegrenzte Zahl von Nennungen „Bitte kreuzen Sie alle Kriterien an, die für Sie zutreffen! “ [2] Nach unten begrenzte Zahl von Nennungen „Bitte kreuzen Sie mindestens zwei Kriterien an, die für Sie zutreffen! “ Also dieses Jahr bleibe ich im Sommer sicher zu Hause. Der Stress mit dem Urlaub ist mir zu viel, und teuer ist es auch noch. Ich spare lieber für sinnvolle Anschaffungen. Ich finde, einmal im Jahr sollte es schon drin sein - Die Erholung brauche ich einfach. Ich werde diesen Sommer ganz sicher verreisen. Wem würden Sie eher zustimmen: A oder B? A B <?page no="82"?> Gestaltung des Fragebogens 83 [3] Nach oben begrenzte Zahl von Nennungen „Bitte kreuzen Sie bis zu drei für Sie zutreffende Kriterien an! “ [4] Nach oben und unten begrenzt „Bitte kreuzen Sie die drei für Sie wichtigsten Kriterien an! “ Des Weiteren kann man Mehrfachauswahlfragen auch danach unterscheiden, ob sich die Antwortkategorien gegenseitig ausschließen (wie z.B. Altersklassen) oder Mehrfachnennungen wie in obigem Beispiel möglich sind. Eine Sonderform von Mehrfachauswahlfragen stellt die sog. Skalafrage dar. Mit einer Skalafrage wird nicht nur das Vorhandensein eines Sachverhalts erhoben, sondern auch dessen Intensität, z.B. von „1: Stimme voll und ganz zu“ bis „5: Stimme überhaupt nicht zu“. Abb. 3.6 zeigt Beispiele für in der Marktforschung verwendete Skalen zur Messung der Kundenzufriedenheit. Da die verschiedenen Skalen ausführlich in Abschnitt 1.4 behandelt werden, soll an dieser Stelle nicht näher darauf eingegangen werden. Abb. 3.6: Beispiele für grafische Skalen zur Messung der Kundenzufriedenheit Der Vorteil geschlossener Fragen im Vergleich zu offenen Fragen liegt in deren besserer Auswertbarkeit und in der hohen Vergleichbarkeit der Antworten. Aus diesem +1 +2 +3 -1 -2 -3 0 Wie zufrieden sind Sie mit der Betreuung durch unsere Servicemitarbeiter? Sehr unzufrieden Sehr zufrieden Sehr unzufrieden Sehr zufrieden Sehr unzufrieden Sehr zufrieden Sehr unzufrieden Sehr zufrieden 5 6 7 3 2 1 4 <?page no="83"?> 84 Quantitative Befragung Grunde liegt ihr Einsatzbereich in der quantitativen Marktforschung. Dem gegenüber stehen jedoch auch verschiedene Nachteile. Abb. 3.7: Ergebnisse bei der Messung der Kaufabsicht mit und ohne Verwendung einer neutralen Antwortkategorie (Quelle: nach Churchill/ Iacobucci 2002, S. 332). Es ist möglich, dass keine der vorgesehenen Antwortkategorien die wirkliche Position des Befragten widerspiegelt. Um dennoch ein möglichst umfassendes Spektrum an Antwortkategorien zu erhalten, kann zum einen eine explorative Befragung mit offener Fragestellung vorgeschaltet werden, zum anderen kann eine Kategorie „Sonstiges“ (mit beliebiger Antwortmöglichkeit) vorgesehen werden (vgl. Hüttner/ Schwarting 2002, S. 103 f.). Zu beachten ist allerdings, dass ein hoher Anteil an Befragten, welche die Ka- Kauf eines Flugtickets in den nächsten 12 Monaten Kauf von Batterien in den nächsten 30 Tagen Kauf von Kinokarten in den nächsten 7 Tagen Werde ich ganz sicher kaufen 14 % 14 % Werde ich vielleicht kaufen 15 % Werde ich wahrscheinlich kaufen 11 % 18 % Werde ich wahrscheinlich nicht kaufen 19 % 23 % Werde ich ganz sicher nicht kaufen 41 % 45 % Werde ich ganz sicher kaufen 21 % 23 % Werde ich wahrscheinlich kaufen 28 % 35 % Werde ich vielleicht kaufen 25 % Werde ich wahrscheinlich nicht kaufen 15 % 28 % Werde ich ganz sicher nicht kaufen 11 % 14 % Werde ich vielleicht kaufen 25 % Werde ich ganz sicher kaufen 13 % 14 % Werde ich wahrscheinlich kaufen 15 % 20 % Werde ich wahrscheinlich nicht kaufen 21 % 39 % Werde ich ganz sicher nicht kaufen 27 % 25 % 5-Punkte-Skala 4-Punkte-Skala <?page no="84"?> Gestaltung des Fragebogens 85 tegorie „Sonstiges“ ankreuzen, die Ergebnisse der Studie gefährden können. In jedem Falle sollte der Fragebogen daher sorgfältig getestet werden. Wie bereits erwähnt, kann die Angabe einer neutralen Antwortkategorie („weiß nicht“, „weder - noch“ usw.) dazu beitragen, Antwortausfälle zu reduzieren. Allerdings wird dadurch verhindert, dass Unentschlossene zum betreffenden Sachverhalt Stellung beziehen. Abbildung 3.7 zeigt Beispiele für die unterschiedliche Verteilung der Antworten auf die einzelnen Antwortkategorien einmal ohne und einmal mit Vorgabe einer neutralen Position. Offensichtlich ist, dass ohne Vorhandensein einer neutralen Kategorie die Befragten insb. die Position „wahrscheinlich nicht“ ankreuzen. Dieser Effekt ist umso ausgeprägter, je näher in der Zukunft die Kaufhandlung stattfinden soll. Außer in dem Fall, dass Mehrfachnennungen zugelassen sind, müssen die Antwortkategorien so formuliert werden, dass sie sich gegenseitig ausschließen. Zudem unterliegen Mehrfachauswahlfragen prinzipiell einem Reihenfolge-Bias (vgl. z.B. Schuman/ Presser 1996, S. 56 ff.; Krosnick/ Alwin 1987; Wanke et al. 1995). Bei Auflistungen besteht eine Tendenz, insb. die erste Kategorie anzukreuzen (Primäreffekt), häufig aber auch die letzte (Rezenzeffekt). Bei nummerischen Listen (z.B. Preise, Mengen) werden tendenziell mittlere Positionen angekreuzt. Um diesen Bias zu umgehen, ist es sinnvoll, die sog. Split-Ballot-Technik anzuwenden: Die beiden Versionen der Frage werden zwei jeweils unabhängigen, repräsentativen Teilstichproben vorgelegt. Die Ergebnisse werden entweder miteinander verglichen, oder es wird der Durchschnitt der Mittelwerte in beiden Stichproben ermittelt. Computergestützte Befragungsmethoden wie sie heutzutage üblich sind erlauben eine Randomisierung der Fragen (d.h. zufällige Zuordnung zu den Probanden) wie auch eine Rotation der Reihenfolge der Antwortkategorien bzw. Items, sodass der Reihenfolgeneffekt minimiert werden kann. Abbildung 3.8 zeigt ein Beispiel für den Einfluss der Reihenfolge der Antwortkategorien auf die Antwortverteilung. Abb. 3.8: Einfluss der Reihenfolge der Antwortkategorien auf die Antwortverteilung (Quelle: nach Churchill/ Iacobucci 2002, S. 335) Die Fernsehnutzung meines Haushaltes ist (im Vergleich zum Vorjahr): Stark angestiegen Antwort Leicht angestiegen Gleich Leicht gesunken Stark gesunken 5 % 2 % 1 5 9 % 10 % 2 5 48 % 46 % 3 3 26 % 23 % 4 2 12 % 19 % 5 1 Reihenfolg <?page no="85"?> 86 Quantitative Befragung Wenn es sich bei den Antwortkategorien um Klassen einer metrisch skalierten Variable handelt, so ist die Antwortverteilung häufig von der Definition der Skalengrenzen abhängig. Geht es bei der untersuchten Variable zudem um die Angabe von Häufigkeiten für ein bestimmtes Verhalten, neigen die Befragten zur Vermeidung der ersten und der letzten Kategorie, da sie bewusst oder unbewusst mittlere Positionen als „normales“, „übliches“ Verhalten interpretieren (vgl. Schwarz et al. 1985). Beispiel 3.26: Die Frage: „Wie viele Zigaretten rauchen Sie pro Tag? “ wird mit großer Wahrscheinlichkeit unterschiedliche Antworten erzeugen, wenn folgende alternative Antwortkategorien vorgegeben werden: Variante 1: unter 5 5 - 10 über 10 Variante 2: unter 10 10 - 20 über 20 Aufgrund der Tendenz, mittlere Positionen anzukreuzen, werden die Befragten bei Variante 1 tendenziell „weniger rauchen“ als bei Variante 2. 1.3.6 Festlegung der Reihenfolge der Fragen und der Länge des Fragebogens Nachdem die Fragenformulierung abgeschlossen ist, müssen die Fragen in eine sinnvolle Reihenfolge gebracht werden. Die Position der einzelnen Fragen im Fragebogen wird u.a. von deren Aufgabe im Rahmen der Erhebung beeinflusst. In Abhängigkeit von der zur erfüllenden Aufgabe werden Fragen dabei unterschieden in (vgl. Abb. 3.9): Ergebnisfragen und Instrumentalfragen (vgl. im Folgenden Pepels 2014, S. 108 ff.). Ergebnisfragen (Sachfragen) sind Fragen zum eigentlichen Untersuchungsgegenstand und erlauben funktionelle Verknüpfungen. Sie machen i.d.R. den größten Teil eines Fragebogens aus. Dazu gehören sog. Präzisionsfragen, welche die Tatbestände selbst direkt oder indirekt erfassen (z.B. Frage nach der Markenpräferenz für Produktkategorie X), und Maßstabsfragen, welche die Aussagen relativieren und vergleichbar machen sollen (z.B. Bedarfshäufigkeit der Produktkategorie X). Dadurch kann im Beispiel die Markenpräferenz anhand der Nutzungshäufigkeit der Kategorie relativiert werden. Flankiert werden Ergebnisfragen durch sog. Instrumentalfragen. Diese dienen nicht der unmittelbaren Informationsgewinnung, sondern haben primär die Steuerung des Befragungsablaufs zur Aufgabe. Dazu gehören analytische Fragen, Ablaufordnungsfragen und psychologisch-funktionelle Fragen. Analytische Fragen betreffen den Befragungsgegenstand selbst und werden unterstützend zu den Ergebnisfragen gestellt. Sie umfassen <?page no="86"?> Gestaltung des Fragebogens 87 Korrelationsfragen, die als Grundlage für die Bildung von Untergruppen und Kreuztabulierungen dienen wie z.B. Fragen zur Soziodemographie; Erhebungskontrollfragen, welche gewährleisten sollen, dass die Interviewdurchführung sorgfältig erfolgt ist; Auskunftskontrollfragen, welche Inkonsistenzen in den Antworten der Befragten aufdecken sollen, z.B. Kontrollskalen bei vermutetem sozial erwünschtem Antwortverhalten. Abb. 3.9: Unterteilung der Fragearten nach deren Aufgabe (Quelle: in Anlehnung an Pepels 2014, S. 108) Ablaufordnungsfragen dienen der Steuerung des Befragungsablaufs. Dazu gehören: Filterfragen, die einzelne Befragte von der Bearbeitung von Teilen des Fragebogens ausschließen, da bestimmte Fragenkomplexe auf sie nicht zutreffen bzw. für sie nicht relevant sind, und Gabelungsfragen, welche Befragte in verschiedene Fragebogenkomplexe parallel aufgliedern. Psychologisch-funktionelle Fragen sind der Befragungstaktik zuzuordnen und haben vorwiegend methodische Bedeutung. Dazu gehören: Kontaktfragen (auch: Eisbrecherfragen), die zu Beginn der Befragung gestellt werden, um eine positive Befragungsatmosphäre zu schaffen; Unterweisungsfragen, welche die Auskunftspersonen für den Befragungsgegenstand sensibilisieren sollen und sie dabei unterstützen, die nachfolgenden Fragen zu verstehen; Pufferfragen, welche Ausstrahlungseffekte zwischen aufeinander folgenden Aspekten eines Themas vermeiden sollen oder auch zu einem anderen Thema überleiten; Ablenkungsfragen, die den eigentlichen Erhebungsgegenstand verdecken sollen, um Lerneffekte beim Befragten zu vermeiden; Ausgleichsfragen, welche jenem Teil der Befragten gestellt werden, die nach einer Filterfrage von der Bearbeitung eines Fragenkomplexes befreit sind. Dadurch soll vermieden werden, dass die Befragten mit Absicht bestimmte Antworten geben, um Fragearten Ergebnisfragen Instrumentalfragen Korrelationsfragen Erhebungskontrollfragen Auskunftskontrollfragen Kontaktfragen Unterweisungsfragen Pufferfragen Ablenkungsfragen Ausgleichsfragen Filterfragen Gabelungsfragen Präzisionsfragen Maßstabsfragen Analytische Fragen Ablaufordnungsfragen Psychologischfunktionelle Fragen <?page no="87"?> 88 Quantitative Befragung Teile des Fragebogens nicht beantworten zu müssen und damit die Bearbeitungszeit verkürzen. Grundsätzlich sollte ein Fragebogen wie folgt aufgebaut werden: Kontaktfragen, Sachfragen, Kontrollfragen, Korrelationsfragen (z.B. Angaben zur Person). In der Praxis haben sich hinsichtlich der Reihenfolge der Fragen eine Reihe von Prinzipien bewährt (vgl. Böhler 2004, S. 100 f.; Iacobucci/ Churchill 2010, S. 220 ff.). Der Fragebogen sollte mit Kontaktfragen beginnen, um Misstrauen abzubauen und die Auskunftspersonen zur Mitarbeit zu motivieren. Solche Kontaktfragen sollen möglichst einfach zu beantworten sein und Interesse wecken, da die Bereitschaft zur weiteren Bearbeitung des Fragebogens sehr stark vom ersten Eindruck abhängt. Fragen, die als zu schwierig, uninteressant oder gar bedrohlich empfunden werden, gefährden die gesamte Befragung. Bewährt haben sich z.B. Fragen nach der Meinung des Befragten zu einem bestimmten Objekt, da viele Befragte gerne den Eindruck gewinnen, dass ihre Meinung wichtig ist. Spezifische Fragen sollten erst nach allgemeineren Fragen gestellt werden (Trichter- Prinzip). Ansonsten besteht die Gefahr einer zu frühen Sensibilisierung des Befragten für ein bestimmtes Thema - im Beispiel 3.27 der Service. Beispiel 3.27: „Welche Eigenschaften spielen beim Kauf eines Fernsehers für Sie eine Rolle? “ „Wenn Sie einen Fernseher kaufen: Wie wichtig ist Ihnen der Service? “ Die Fragen sollten in einer logischen Reihenfolge gestellt werden. Alle Fragen zu einem bestimmten Themenkomplex sollten gestellt werden, bevor ein neuer Themenkomplex beginnt. Der Fragebogen sollte möglichst abwechslungsreich gestaltet werden, um Monotonie zu vermeiden. Dies kann durch thematische Abwechslung oder Veränderung von Fragetechnik und Antwortmöglichkeiten geschehen. Ausstrahlungseffekte sollten vermieden werden. Solche Ausstrahlungseffekte entstehen, wenn vorausgehende Fragen den Befragten sensibilisieren und seine Gedanken in eine bestimmte Richtung lenken, sodass die Beantwortung nachfolgender Fragen nicht mehr unbeeinflusst ist (Halo-Effekt). Solche Ausstrahlungseffekte können u.a. durch einen gezielten Einbau von Puffer- und Ablenkungsfragen reduziert werden. Filter- und Gabelungsfragen sollten sorgfältig konzipiert werden. Bei allen Formen computergestützter Befragungen ist die Verwaltung von Ablaufordnungsfragen relativ unproblematisch; bei schriftlichen Befragungen ist die Verwendung dieser Art von Fragen hingegen an Grenzen gebunden, da die Befragten durch zu viele Gabelungsfragen verwirrt werden können. Bei der Konzeption von Gabelungsfragen empfiehlt es sich, zuerst ein Flussdiagramm mit den gewünschten und möglichen Verzweigungen zu erstellen, um das Spektrum und die Abfolge der erforderlichen Fragen zu identifizieren. Die Folgefragen, zu denen die Befragten nach der Gabelung dirigiert werden, <?page no="88"?> Gestaltung des Fragebogens 89 sollten dabei möglichst in der Nähe der Gabelungsfrage platziert werden, um das erforderliche Umblättern im Fragebogen zu minimieren. Darüber hinaus sollten Gabelungsfragen so platziert werden, dass der Befragte nicht antizipieren kann, welche weiteren Informationen von ihm gefordert werden. Schwierige oder sensible Fragen sollten am Ende des Fragebogens platziert werden. Die Beantwortung solcher Fragen ist davon abhängig, ob es dem Forscher gelungen ist, beim Befragten Interesse und insb. Vertrauen zu wecken, ansonsten droht Antwortausfall. Korrelationsfragen sollten erst am Ende der Befragung gestellt werden. Da es sich bei Korrelationsfragen i.W. um persönliche Angaben wie Alter, Schulbildung, Einkommen etc. handelt, hätten die Befragten sonst das Gefühl, einem Verhör unterzogen zu werden, wenn solche Fragen gleich zu Beginn gestellt würden, und evtl. die Antwort verweigern. Hinsichtlich der Länge des Fragebogens gibt es keine verbindlichen Vorgaben, da die einem Befragten „zumutbare“ Länge von Faktoren wie der Art der Befragung (z.B. schriftlich, face-to-face, telefonisch), dem Typ des Befragten (Konsument, Einkäufer im Betrieb etc.), dem Thema der Befragung usw. abhängt. Bei Endverbraucherbefragungen sollte die Bearbeitungsdauer eines schriftlichen Fragebogens i.d.R. 30 - 45 Minuten nicht überschreiten. Face-to-face-Befragungen erlauben eine längere Durchführungszeit, telefonische Befragungen nur eine kürzere (ca. 15 - 20 Minuten). Für Online-Befragungen können 20 Minuten angesetzt werden, selbstadministrierte mobile Befragungen sollten hingegen 10 Minuten nicht überschreiten. Hierbei handelt es sich jedoch nur um grobe Richtwerte. 1.3.7 Formale Gestaltung des Fragebogens Die bis zu diesem Punkt entwickelten Inhalte des Fragebogens sollen in diesem Schritt in eine ansprechende äußere Form umgesetzt werden. Bestandteile eines Fragebogens sind dabei Einführung (Vorstellung der Studie), Fragen(-blöcke), Antwortvorgaben bzw. Platz für Antworten bei offenen Fragen sowie Anweisungen für Interviewer bzw. für Befragte. Diese verschiedenen Bestandteile sollen sinnvoll angeordnet und in ein ansprechendes Layout gebracht werden. Dies gilt insbesondere für alle Formen selbstadministrierter Befragungen, also solcher Befragungen, bei denen der Proband den Fragebogen selbst ausfüllt (schriftlich, online, mobil). Im Rahmen der formalen Anordnung wird die äußere Struktur des Fragebogens festgelegt. Zu Beginn des Fragebogens sollte stets eine Einführung erscheinen, um Vertrauen und Interesse zu wecken. Aufgabe der Einführung ist es, die Befragten von der Wichtigkeit der Untersuchung und der Wichtigkeit ihrer Teilnahme zu überzeugen. Aus der Einführung sollte zudem ersichtlich werden, welchen Nutzen die Befragten aus der Teilnahme ziehen können (z.B. „Dadurch helfen Sie uns, Produkte nach Ihrem Geschmack zu entwickeln“). Ferner sollte die Vertraulichkeit bzw. Anonymität der Antworten zugesichert werden. Weiterhin enthält die Einführung ggf. Hinweise auf das <?page no="89"?> 90 Quantitative Befragung Vorhandensein eines frankierten Rückumschlags, Incentives zur Teilnahme, grundsätzliche Anweisungen zum Ausfüllen des Fragebogens etc. Bei schriftlichen Umfragen erfolgt die Einführung häufig separat in Form eines Begleitschreibens. Die einzelnen Fragen sollten in geeigneter Weise aufgegliedert werden; es empfiehlt sich dabei die Bildung thematisch zusammenhängender Blöcke. Die Blöcke selbst wie auch die Fragen innerhalb der Blöcke sollten nummeriert werden, da dadurch die Editierung, Kodierung und Tabulierung der Antworten leichter fallen (vgl. Iacobucci/ Churchill 2010, S. 252). Darüber hinaus ist eine Nummerierung unerlässlich, wenn Gabelungs- und Filterfragen verwendet werden, da nur auf diese Weise die Befragten zu den für sie relevanten Teilen des Fragebogens weitergeleitet werden können. Gabelungs- und Filterfragen können zudem durch optische Hilfsmittel unterstützt werden, z.B. Pfeile oder farbige Unterlegungen. Bei Online- und mobilen Befragungen erfolgt die Filterführung hingegen softwaregesteuert und für die Befragten unauffällig. Hinsichtlich der Anordnung der einzelnen Bestandteile des Fragebogens ist darauf zu achten, dass sie optisch voneinander getrennt werden, z.B. durch Umrahmungen, schattierte oder farbige Unterlegungen oder unterschiedliche Schriftarten bzw. Schriftgrößen. Hinsichtlich der räumlichen Anordnung der Fragen ist zu beachten, dass Fragen am Seitenanfang stärkere Aufmerksamkeit erregen als am Seitenende (vgl. Malhotra 2010, S. 352). Aus diesem Grunde sollten wichtige Fragen nach Möglichkeit am Seitenanfang platziert werden. Bei Online- und mobilen Umfragen ist zudem zu berücksichtigen, dass Fragen, für die der Proband scrollen muss, u.U. nicht beachtet werden. Dasselbe gilt für Antwortkategorien im unteren Bereich einer (Web-)Seite. Aus diesem Grunde empfiehlt es sich, einen Übergang zur nächsten Frage erst dann zu ermöglichen, wenn die vorangegangene Frage vollständig beantwortet ist. Anweisungen für die Teilnehmer zur Beantwortung einzelner Fragen bzw. Anweisungen für den Interviewer, z.B. im Hinblick auf Verwendung von Befragungshilfen oder betreffend die Registrierung der Antworten, sollten an geeigneter Stelle in unmittelbarer Nähe der entsprechenden Fragen platziert werden (vgl. Malhotra 2010, S. 353). Üblicherweise werden Anweisungen zur besseren Übersichtlichkeit in einer anderen Schrift gesetzt, z.B. kursiv. Im Hinblick auf den Seitenumbruch ist darauf zu achten, dass Fragen - inkl. Antwortvorgaben - nicht umgebrochen werden. Ansonsten besteht die Gefahr, dass der Befragte glaubt, die Frage- oder die Antwortmöglichkeiten seien am Ende der Seite zu Ende, was zu einer Verfälschung der Antworten führt. Den Zeilenumbruch betreffend sollte vermieden werden, Antwortkategorien nebeneinander anzuordnen, um Platz zu sparen, da die Lesefreundlichkeit dadurch beeinträchtigt wird. Besser ist es, die Antwortmöglichkeiten untereinander anzuordnen. Beispiel 3.28: „Wie lange sehen Sie an einem durchschnittlichen Wochentag fern? “ unter 15 Minuten 61 - 120 Minuten 15 - 30 Minuten länger als 120 Minuten 31 - 60 Minuten Bei dieser Anordnung besteht die Gefahr, dass die Befragten die Antwortmöglichkeiten zeilenweise und nicht spaltenweise lesen. <?page no="90"?> Gestaltung des Fragebogens 91 Zwischen den einzelnen Fragen sollte ein ausreichender Abstand sein, um den Eindruck der Überfüllung zu vermeiden. Zwar sollten Fragebögen so kurz wie möglich sein, um die Auskunftbereitschaft nicht zu beeinträchtigen; überfüllte Fragebögen sehen jedoch nicht gut aus, erscheinen als verwirrend und führen zu Fehlern im Antwortverhaten. Die Aufbereitung der Fragebögen wird durch Vorkodierung der Antworten wesentlich erleichtert (vgl. Malhotra 2010, S. 352 f.). Im Rahmen einer Vorkodierung werden die Codes zur Eingabe der Antworten in den Computer mit abgedruckt; bei computergestützten Varianten wie CAPI und CATI ist die Vorkodierung bereits in der Software integriert. Beispiel 3.29: „Würden Sie Ihren nächsten Urlaub wieder bei Veranstalter X buchen? “ ja, ganz sicher [1] wahrscheinlich [2] vielleicht [3] sicher nicht [4] Ein weiterer Aspekt bei der formalen Gestaltung eines Fragebogens ist der Einsatz bestimmter Gestaltungselemente. Bei schriftlichen Umfragen sollte auf eine gute Papier- und Druckqualität geachtet werden. Eine schlechte Qualität beeinträchtigt das Image des Instituts bzw. des Auftraggebers, wohingegen eine gute Qualität die Wichtigkeit der Untersuchung unterstreicht. Auch bei elektronisch administrierten Fragebögen ist auf eine ansprechende, professionelle Optik zu achten. Nur ein professionell aussehender Fragebogen gewährleistet, dass die Studie von den Befragten auch ernst genommen wird. Erfolgt die Befragung mit Hilfe eines elektronischen Fragebogens (z.B. im Rahmen einer Online-Befragung) sind die Formate durch die Befragungssoftware teilweise bereits vorgegeben. Das Seitenformat ist u.a. von der Darreichungsform abhängig. Für die meisten Fälle schriftlicher Befragungen eignen sich DIN A4 und DIN A5; in Ausnahmefällen - z.B. Beihefter in Zeitschriften - sind auch kleinere Formate wie z.B. DIN A6 möglich. Umfasst der Fragebogen mehrere Seiten, sollte er in Heftform gebunden und nicht etwa mit Heftklammern zusammengehalten werden, um ein professionelles Aussehen zu gewährleisten. Die technische Umsetzung des Fragebogens für Online- oder mobile Befragungen muss die Lesbarkeit und die problemlose Navigation auf den verschiedenen Endgeräten inkl. Tablets und Smartphones gewährleisten. Für die Übersichtlichkeit des Fragebogens kann der Einsatz unterschiedlicher Farben und Schriftarten hilfreich sein, etwa zur optischen Trennung verschiedener Bestandteile des Fragebogens. Eine unterschiedliche Farbgebung kann beispielsweise auch für verschiedene Adressatengruppen verwendet werden, etwa private und gewerbliche Abnehmer, Befragte aus unterschiedlichen Bundesländern etc. Die Fragebögen selbst sollten durchnummeriert sein, da dadurch eine Kontrolle der Feldarbeit wie auch die Kodierung und Analyse erleichtert werden. Bei online administrierten Fragebögen geschieht dies automatisch nach Zeitpunkt des Rücklaufs. Vorsicht ist jedoch bei schriftlichen Umfragen geboten, da die Befragten darin möglicherweise eine Bedrohung der Anonymität sehen. <?page no="91"?> 92 Quantitative Befragung Die Befragungsergebnisse lassen sich darüber hinaus durch den Einsatz von Befragungshilfen positiv beeinflussen. Dazu gehören - je nach Art der Befragung - Auflistungen (etwa von Produktmarken), grafische Darstellungen sowie Fotos, Karten, Skalen bis hin zu Computeranimationen und Videos im Rahmen von Online- und mobilen Befragungen. 1.3.8 Fragebogen-Pretest Die vorangegangenen Ausführungen haben gezeigt, dass die Gestaltung eines Fragebogens eine Vielzahl von Fehlerquellen birgt, welche die Qualität der Ergebnisse erheblich in Frage stellen können. Aus diesem Grunde ist es i.d.R. angebracht, vor der Hauptuntersuchung den Fragebogen einem Pretest zu unterziehen. Der Umfang eines Pretests umfasst i.A. 15 - 30 Befragungen; dies variiert jedoch in Abhängigkeit von der Heterogenität des Adressatenkreises. Bei mehreren Pretest-Stufen kann der erforderliche Stichprobenumfang durchaus größer sein. Der Pretest sollte bei solchen Befragten erfolgen, die den Adressaten der Hauptstudie entsprechen, um Verzerrungen zu vermeiden (vgl. hierzu z.B. Diamantopoulos et al. 1994). Dabei sollten sämtliche Aspekte des Fragebogens getestet werden, also nicht nur Inhalt, Wortlaut und Reihenfolge der Fragen, sondern auch Länge, Anweisungen für Interviewer und Befragten, Layout etc. Das Ausbleiben eines Pretests kann dazu führen, dass schwerwiegende Fehler begangen und die Ergebnisse der Untersuchung wertlos werden. Bei der Durchführung eines Pretests empfiehlt es sich, zweistufig vorzugehen. In einer ersten Stufe sollten persönliche Interviews durchgeführt werden, unabhängig von der Form, in der die Befragung im Rahmen der Hauptstudie letztlich stattfinden wird (schriftlich, face-to-face, telefonisch etc.). Der Grund liegt darin, dass Interviewer besser in der Lage sind, Reaktionen der Befragten zu erfassen, Widerstände aufzuspüren und Unbzw. Missverständnisse aufzudecken. Dabei sind folgende Methoden geläufig (vgl. Malhotra 2010, S. 354): Protokollanalyse und Debriefing. Im Rahmen einer Protokollanalyse werden die Befragten gebeten, bei der Beantwortung der Fragen „laut zu denken“. Die Anmerkungen der Befragten werden auf Tonband registriert und anschließend analysiert. Dadurch können spontane Eindrücke im Zusammenhang mit dem Fragebogen unmittelbar erfasst werden. Debriefing beinhaltet, dass den Teilnehmern im Anschluss an die Befragung der Pretestcharakter der Untersuchung mitgeteilt wird. Ihnen werden die Ziele des Pretests beschrieben, anschließend werden sie gebeten, die Bedeutung der einzelnen Fragen zu erklären, ihre Antworten zu erläutern und etwaige Probleme zu nennen, welche ihnen bei der Beantwortung der Fragen aufgefallen sind. Die dadurch aufgedeckten Defizite des Fragebogens werden in eine neue Version eingearbeitet, welche erneut zu testen ist - diesmal mit derselben Methode, die für die Hauptuntersuchung vorgesehen ist. Dadurch werden Mängel deutlich, welche bei spezifischer Anwendung einer bestimmten Befragungsmethode auftreten. Ergebnis des Pretests sollte sein, ob das Forschungsproblem in adäquater Weise umgesetzt wurde, also insb. <?page no="92"?> Messung, Operationalisierung und Skalierung von Variablen 93 ob alle Fragen verständlich und frei von Missverständnissen sind, ob bestimmte Fragen überflüssig sind oder aber ob Fragen zu wichtigen Aspekten des Forschungsproblems fehlen. 1.4 Messung, Operationalisierung und Skalierung von Variablen 1.4.1 Messung und Messverfahren Definition Unter einer Messung wird die Zuordnung von Werten zu Eigenschaftsausprägungen von Objekten nach vordefinierten Regeln verstanden. Die Zuordnung soll dabei eine isomorphe Abbildung gewährleisten, d.h. Objekte mit identischen Eigenschaftsausprägungen (z.B. Personen mit gleicher Einstellung zu einer Marke) sollen im Rahmen einer Messung auch identische Werte erhalten. Im Rahmen einer Erhebung werden - unabhängig vom Erhebungsverfahren - Informationen über Merkmale von Untersuchungsobjekten erhoben. Diese können Eigenschaften von Personen betreffen, z.B. soziodemographische Merkmale, Markenpräferenzen oder Einstellungen von Konsumenten, oder aber Merkmale von Produkten bzw. Marken, z.B. Markenimage, Erhältlichkeit, Marktanteile. Die relevanten Eigenschaften sind in geeigneter Weise zu messen. Als Werte kommen üblicherweise Zahlen in Frage, grundsätzlich sind jedoch auch andere Zuordnungen möglich. Während dies bei direkt beobachtbaren Variablen wie Preis, Einkommen oder Alter relativ unproblematisch ist, bedarf die Erhebung komplexer psychologischer Konstrukte (z.B. Einstellungen) weitergehender Überlegungen, da solche Konstrukte nicht direkt beobachtbar sind. Zudem lassen sie sich häufig auch nicht anhand einer einzigen Skala messen, da sie sich aus mehreren zusammenwirkenden Variablen zusammensetzen. Die Messung i.S. einer Zuordnung von Werten zu Eigenschaftsausprägungen bedarf daher zum einen einer Operationalisierung, zum anderen einer Skalierung der interessierenden Eigenschaften bzw. Konstrukte. Ergebnisse einer Messung sind Messwerte bzw. Daten. Abbildung 3.10 zeigt die Zusammenhänge im Überblick. Zur Durchführung von Messungen ist der Einsatz bestimmter Messverfahren erforderlich; diese bezeichnen die Art und Weise, in welcher konkrete Messwerte erhoben werden sollen. Eine erste Unterscheidung besteht zwischen verbalen und nonverbalen Messverfahren. Verbale Messverfahren beinhalten, dass ein Messwert aus einer mündlichen oder schriftlichen Äußerung der Untersuchungseinheiten resultiert, wie dies z.B. im Rahmen einer Befragung geschieht. Nonverbale Messverfahren basieren hingegen auf Beobachtungen (vgl. hierzu die Ausführungen in Abschnitt 2). In den Sozialwissenschaften - und speziell auch in der Marktforschung - dominieren verbale Messverfahren, da vielfach subjektive Merkmale (bzw. Merkmalsausprägungen) der Untersuchungseinheit gemessen werden müssen, die eine Auskunft der Testperson voraussetzen (z.B. Präferenzen, Einstellungen, Kaufabsichten). Hingegen kommen nonverbale Messverfahren dann zum Tragen, wenn objektive, beobachtbare Sachverhalte erhoben werden müssen (z.B. Markenwahl). Aufgrund der Dominanz verbaler - <?page no="93"?> 94 Quantitative Befragung und damit subjektiver - Verfahren in der Marktforschung ist die Güte der Methoden - im Vergleich zu den objektiveren, nonverbalen Verfahren in den Naturwissenschaften - geringer (vgl. Abschnitt 1.4.2). Hinzu kommt, dass in den Sozialwissenschaften eine Vielzahl von Störfaktoren nicht oder nur begrenzt kontrollierbar ist. Abb. 3.10: Operationalisierung, Skalierung und Messung von Variablen Eine weitere Unterteilung entsteht, wenn nach dem Aufzeichnungsverfahren zwischen persönlichen und apparativen Verfahren differenziert wird. Im Rahmen persönlicher Messverfahren erfolgt die Messung durch einen Interviewer bzw. Beobachter in manueller Form (z.B. durch Aufschreiben oder unter Benutzung von Stoppuhren, Handzählern usw.). Apparative Verfahren sind technische Hilfsmittel, welche insb. im Rahmen experimenteller Laborsituationen eingesetzt werden (vgl. hierzu ausführlich Abschnitt 2.2 in diesem Teil). Der höheren Genauigkeit der Messung steht der Nachteil gegenüber, dass der Einsatz in Feldsituationen i.d.R. nicht möglich ist. Im Folgenden werden ausschließlich verbale Messverfahren dargestellt, die im Rahmen quantitativer Befragungen zum Einsatz kommen. Messverfahren für andere Erhebungsformen werden in den jeweiligen Kapiteln behandelt. 1.4.2 Qualität von Messverfahren Fehlerquellen bei Erhebungen Die als Ergebnis einer Messung gewonnenen Messwerte stellen die Grundlage für die Auswertung und Interpretation der Daten (vgl. Teil 6). Die Güte der auf diese Weise erhaltenen Informationen steht und fällt dabei mit der Qualität des erhobenen Datenmaterials und damit mit der Güte der eingesetzten Messverfahren. Die sorgfältige Messung der interessierenden Merkmalsausprägungen spielt somit in der Marktfor- Kaufabsicht bzgl. Marke x Definition des Konstrukts Zahl der Personen, die in den nächsten 3 Monaten Marke X zu kaufen beabsichtigen Werden Sie in den nächsten 3 Monaten Marke X kaufen? Befragter Y Ganz sicher nicht Ganz sicher Ganz sicher nicht Ganz sicher x Operationalisierung Skalierung Messung <?page no="94"?> Messung, Operationalisierung und Skalierung von Variablen 95 schung eine zentrale Rolle. Generell wird gefordert, dass die im Rahmen einer Messung erhaltenen Werte möglichst fehlerfrei sind. Dies bedeutet, dass Unterschiede in den Messwerten vollständig auf Unterschiede in den Ausprägungen des zu messenden Sachverhalts zurückzuführen sind. Resultieren bei zwei Probanden auf einer Skala von 0 - 100 Einstellungswerte von 25 und 60, so wird angenommen, dass die unterschiedlichen Messwerte auch unterschiedliche Einstellungswerte repräsentieren. In der Praxis ist allerdings zumeist davon auszugehen, dass die Messung - zumindest teilweise - mit Fehlern behaftet ist. Ziel einer jeden Messung ist daher, diesen Fehler in Grenzen zu halten. Ein Messwert X 0 enthält dabei grundsätzlich die folgenden Komponenten: X 0 = X W + X S + X Z mit X W = wahrer Wert der zu messenden Ausprägung, X S = systematischer Fehler, X Z = Zufallsfehler. Der Zufallsfehler beruht darauf, dass die Messwerte bei wiederholter Messung um einen konstanten Mittelwert schwanken. Dabei wird angenommen, dass der Mittelwert der Messungen bei ausreichender Fallzahl den unbekannten wahren Wert wiedergibt. Damit gilt, dass sich Zufallsfehler im Mittel ausgleichen. In der Praxis wird als Zufallsfehler der statistisch berechenbare Fehler verstanden, d.h. der Stichprobenfehler bei sog. Random-Verfahren. Der Stichprobenfehler hängt dabei in hohem Maße von der Stichprobengröße ab (vgl. die Ausführungen in Kapitel 3 in diesem Teil), d.h. der Stichprobenfehler fällt - wenn auch unterproportional - mit zunehmendem Stichprobenumfang (bei einer Vollerhebung wäre der Stichprobenfehler demnach Null). Abb. 3.11: Quellen systematischer Fehler Bei Vorliegen eines systematischen Fehlers variieren die Messwerte nicht um einen wahren Wert, sondern die Messergebnisse werden in eine bestimmte Richtung verzerrt - etwa bei einer Uhr, welche „systematisch“ nachgeht. Das Gesetz der großen Zahlen findet hier keine Anwendung, d.h. der systematische Fehler kann durch Erhöhung des Stichprobenumfangs nicht reduziert werden. Darüber hinaus lässt er sich statistisch nicht quantifizieren, sondern allenfalls aus Erfahrungswerten abschätzen. Andererseits ist er aber durch sorgfältige Gestaltung des Messinstruments vermeidbar (vgl. hierzu Sellitz et al. 1976, S. 164 ff.). Abbildung 3.11 zeigt die Quellen systematischer Fehler. Quellen systematischer Fehler Untersuchungseinheit Untersuchungsträger Interviewer Erhebungsplanung Erhebungsdurchführung Auswertung Interpretation Auswahlplan Antwortbias Antwortregistrierung Non Response Falschbeantwortung <?page no="95"?> 96 Quantitative Befragung Eine erste Ursache systematischer Fehler liegt beim Untersuchungsträger. So können im Rahmen der Erhebungsplanung die Grundgesamtheit falsch definiert, die Forschungsfrage nicht korrekt formuliert, der Fragebogen fehlerhaft oder das Auswahlverfahren ungeeignet sein. Auch im Rahmen der Durchführung können Fehler auftreten, etwa durch eine mangelhafte Organisation der Feldarbeit. Darüber hinaus kann die Datenauswertung fehlerhaft - z.B. wegen der Anwendung ungeeigneter Verfahren oder fehlerhafter Codierung und Dateneingabe - sowie die Interpretation der Daten aufgrund subjektiver Wertungen verzerrt sein. Eine weitere Quelle systematischer Fehler liegt im sog. Interviewer-Bias. So kann der Auswahlplan dadurch verzerrt sein, dass der Interviewer seine Quoten nicht einhält oder gar verfälscht. Hierzu gehört auch der mitunter vorkommende Fall, dass der Interviewer einen Teil der Fragebögen selbst ausfüllt. Darüber hinaus kann eine Antwortbeeinflussung seitens des Interviewers stattfinden, sei es unbewusst durch Gestik, Mimik und Auftreten, sei es bewusst durch Suggestion. Schließlich können auch im Rahmen der Antwortregistrierung Fehler auftreten, z.B. durch versehentliches Ankreuzen der falschen Antwortkategorie, Platzmangel zur Erfassung der vollständigen Antwort u.Ä. Schwerwiegende Fehler bei der Untersuchungseinheit betreffen die Antwortverweigerung (Non-Response) und die Falschbeantwortung. Gerade die Antwortverweigerung stellt ein großes Problem in der Sozialforschung dar, da die Repräsentativität der Untersuchungsergebnisse dadurch gefährdet ist. Dies ist dann der Fall, wenn sich die Antwortverweigerer systematisch von den Antwortenden unterscheiden; der Effekt ist umso größer, je höher die Ausfallrate im Vergleich zum Anteil der Antwortenden, d.h. je geringer die Ausschöpfungsquote ist. Neben der Nichtbeantwortung spielt auch die Falschbeantwortung eine wichtige Rolle. Eine eher unbeabsichtigte Falschbeantwortung kann die Folge interner oder externer situativer Gegebenheiten beim Probanden sein, etwa Ermüdung, Krankheit, Präsenz von Familienmitgliedern u.Ä. Bewusste Falschbeantwortung kann aus Prestigegründen oder bei sensiblen bzw. tabuisierten Erhebungsgegenständen eintreten (vgl. hierzu ausführlich Abschnitt 2.2.2). Anforderungen an Messverfahren Das Ziel, möglichst fehlerfreie Messwerte zu erhalten, wird dann erfüllt, wenn die herangezogenen Messverfahren bestimmten Qualitätsanforderungen (Gütekriterien) genügen (vgl. Abb. 3.12): Objektivität, Validität und Reliabilität. Definition Die Objektivität eines Messinstruments ist gewährleistet, wenn die gewonnenen Messwerte personenunabhängig zustande kommen, unterschiedliche Forscher also unter Anwendung derselben Messinstrumente das gleiche Ergebnis erhalten. Entsprechend den Ablaufschritten eines Messvorgangs lassen sich folgende Arten der Objektivität unterscheiden (vgl. Döring/ Bortz 2016, S. 443): <?page no="96"?> Messung, Operationalisierung und Skalierung von Variablen 97 Durchführungsobjektivität, Auswertungsobjektivität und Interpretationsobjektivität. Abb. 3.12: Qualitätsanforderungen an Messverfahren Durchführungsobjektivität ist dann gegeben, wenn der Untersuchungsleiter die Untersuchungseinheiten weder durch sein äußeres Erscheinungsbild noch durch seine Motiv- und Wertstruktur in ihrem Verhalten beeinflusst, d.h. wenn eine möglichst geringe soziale Interaktion zwischen Forscher und Auskunftsperson stattfindet. Die Auswertungsobjektivität ist umso höher, je weniger Freiheitsgrade der Forscher bei der Auswertung der Messergebnisse hat. Sie ist bei standardisierten quantitativen Erhebungen am höchsten, bei qualitativen, nichtstandisierten Erhebungen am geringsten. Schließlich besagt die Interpretationsobjektivität, dass verschiedene Untersuchungsleiter die Messergebnisse in gleicher Weise interpretieren. Bei quantitativen, standardisierten Erhebungen ist Objektivität i.d.R. gegeben, wohingegen bei qualitativen Erhebungen ggf. eine Prüfung der Objektivität erfolgen muss (vgl. i.E. die Ausführungen in Abschnitt 3 in Teil 7). Die Messung der Objektivität erfolgt dabei mit dem sog. Objektivitätskoeffizienten; hierbei werden die Ergebnisse zweier Messvorgänge, welche von unterschiedlichen Forschern durchgeführt wurden, miteinander korreliert. Definition Ein Messinstrument ist reliabel (zuverlässig), wenn es bei wiederholten Messungen unter völlig gleichen Bedingungen dasselbe Messergebnis erzeugt. Damit ist Reliabilität ein Maß für die Präzision eines Messinstruments. Uneingeschränkte Reliabilität bedeutet, dass das Messinstrument in der Lage ist, bei jedem Messvorgang den wahren Wert X W ohne jeden zufälligen Messfehler X Z zu erfassen. Der Grad der Reliabilität einer Messung lässt sich anhand des Standardfehlers ausdrücken, welcher ein Maß dafür ist, um wieviel die Messwerte bei wiederholter Anforderungen an Messverfahren Validität Objektivität Reliabilität Durchführungsobjektivität Auswertungsobjektivität Interpretationsobjektivität Test-Retest-Reliabilität Parallel-Test-Reliabilität Interne-Konsistenz- Reliabilität Inhaltsvalidität Face-Validität Expertenvalidität Konstruktvalidität Diskriminanzvalidität Konvergenzvalidität Kriteriumsvalidität Konkurrentvalidität Prognosevalidität <?page no="97"?> 98 Quantitative Befragung Messung um einen Mittelwert streuen. Die Reliabilität bezieht sich demnach auf den Zufallsfehler. Tritt bei wiederholten Messungen ein Messfehler auf, so kann dies die folgenden Ursachen haben (vgl. Berekoven et al. 2009, S. 81): fehlende Konstanz der Messbedingungen, fehlende Konstanz der Merkmale (unterschiedliche Merkmalswerte trotz konstanter Messbedingungen und fehlerfreiem Messinstrument), fehlende instrumentale Konstanz, d.h. mangelnde Präzision des Messinstruments. Die Reliabilität lässt sich überprüfen durch (vgl. z.B. Döring/ Bortz 2016, S. 464 ff.) die Test-Retest-Reliabilität, die Parallel-Test-Reliabilität sowie die Interne-Konsistenz-Reliabilität Zur Bestimmung der Test-Retest-Reliabilität erfolgt eine Wiederholungsmessung zu einem späteren Zeitpunkt. Die Test-Retest-Reliabilität resultiert dann aus der Korrelation der beiden Messreihen und ist ein Maß für die Stabilität des Messverfahrens. Bei der Parallel-Test-Reliabilität wird eine Vergleichsmessung zum selben Zeitpunkt vorgenommen. Hierbei werden zwei Testversionen entwickelt, welche auf ihre Äquivalenz hin überprüft werden. Bei der Internen-Konsistenz-Reliabilität erfolgt eine Aufteilung des Messinstruments (z.B. die Items bei einer Multi-Item-Skala) in zwei Teile gleicher Länge (Split-Half-Reliabilität); anschließend werden die Ergebnisse auf ihre Einheitlichkeit hin überprüft. Bestimmt wird die Reliabilität jeweils über die Korrelation der Messergebnisse, welche möglichst hoch sein sollte. Die genannten Verfahren zur Messung der Reliabilität sind jedoch selbst mit Fehlerquellen behaftet. So kann sich z.B. bei der Test-Retest-Reliabilität der wahre Wert im Zeitablauf verändern, oder es tritt bei den Probanden ein Pretest-Effekt auf, etwa Sensibilisierung durch wiederholte Messungen. Bei der Split-Half-Reliabilität ist die Aufteilung des Messinstruments in zwei gleichwertige Hälften - etwa zwei gleichwertige Itembatterien - äußerst problematisch. Zur Messung der Internen-Konsistenz-Reliabilität ist daher insb. die Berechnung von Cronbachs Alpha gebräuchlich (vgl. Döring/ Bortz 2016, S. 468): − − = α = 2X I 1 i 2X 2X s s s 1 I I i mit 2 X s = Varianz des Gesamtscores, 2X i s = Varianz in Item i (i = 1,…,I), = = I 1 i i X X = Gesamtscore. Cronbachs Alpha liegt im Wertebereich zwischen 0 und 1; gefordert wird üblicherweise > 0,7. Alpha wird dabei umso größer, je höher die Zahl der Items ist. <?page no="98"?> Messung, Operationalisierung und Skalierung von Variablen 99 Definition Die Validität (Gültigkeit) eines Messinstruments gibt an, ob das Messinstrument tatsächlich das misst, was es zu messen vorgibt, und wie genau es den zu messenden Sachverhalt abbildet. Im Gegensatz zur Reliabilität bezieht sich die Validität auf systematische (konstante) Fehler (zur Validität im Zusammenhang mit Experimenten vgl. auch die Ausführungen in Kapitel 2 im 5. Teil). Beispiel 3.30: Zur Messung der Schulreife von Kindern wird ein Testverfahren verwendet, das in Wirklichkeit bereits vorhandenes Wissen abfragt. Damit ist das Messinstrument nicht valide, da es nicht wie beabsichtigt die Schulreife misst, sondern ein anderes Konstrukt. Dennoch kann das Instrument durchaus reliabel sein, d.h. bei Wiederholung des Tests an demselben Kind resultieren dieselben - allerdings nicht validen - Messwerte. Im Hinblick auf die Marktforschung ist ein Messinstrument, mit dessen Hilfe beispielsweise die Einstellung von Probanden bezüglich eines Objektes (z.B. einer bestimmten Produktmarke) gemessen werden soll, nicht valide, wenn im Rahmen einer Befragung „falsche“ Fragen gestellt werden, mit denen sich die Einstellung gegenüber einem Einstellungsobjekt nicht adäquat abbilden lässt. Die Validität des Messinstruments ist auch dann gestört, wenn die „falschen“ Probanden befragt werden (z.B. Personen, welche nicht zur Zielgruppe der Produktmarke gehören). Mangelnde Reliabilität kann sich in diesem Beispiel durch unsorgfältige Interviewer oder verzerrtes Antwortverhalten der Probanden ergeben. Zur Überprüfung der Validität wird unterschieden in (vgl. Döring/ Bortz 2016, S. 469 ff.): die Inhaltsvalidität, die Konstruktvalidität sowie die Kriteriumsvalidität. Gegenstand der Inhaltsvalidität ist die Frage, ob ein Messinstrument inhaltlich (sachlich und logisch) geeignet ist, einen bestimmten Sachverhalt zu messen. Die Überprüfung erfolgt im Regelfall durch Plausibilitätsüberlegungen (Face-Validität) oder mittels Beurteilung durch Experten (Expertenvalidität). Die Konstruktvalidität misst, in welchem Ausmaß Beziehungen zwischen einem theoretischen Konstrukt (z.B. „Einstellung“) und der empirischen Messung vorliegen. Ein Test ist dann konstruktvalide, wenn aus dem zu messenden Konstrukt Hypothesen ableitbar sind, die anhand der Testwerte gemessen werden können. Diese Beziehung kann in Form der Diskriminanzvalidität (Unterschiedlichkeit der Messung verschiedener Konstrukte mit einem Messinstrument) oder der Konvergenzvalidität (Übereinstimmung der Messungen eines Konstrukts mit verschiedenen Messinstrumenten) abgebildet werden (vgl. Campbell/ Fiske 1959). Gegenstand der Kriteriumsvalidität ist hingegen die Übereinstimmung der Messung eines latenten Konstrukts (z.B. Einstellung zur Marke) mit den Messungen eines korrespondierenden manifesten Kriteriums dieses Konstruktes (z.B. Empfehlungsverhalten). Je nachdem, ob die Messungen zeitgleich oder später erfolgen, unterscheidet <?page no="99"?> 100 Quantitative Befragung man dabei zwischen Konkurrentvalidität (zeitgleiche Messung) und Prognosevalidität (zeitlich aufeinanderfolgende Messung). Die Kriteriumsvalidität errechnet sich als Korrelation zwischen den Testwerten und den Kriteriumswerten einer Stichprobe. Ziel empirischer Erhebungen ist grundsätzlich die Gewinnung von Informationen über eine Gesamtheit von Erhebungseinheiten. Insofern kommt neben den genannten Gütekriterien zusätzlich der Repräsentativität eine zentrale Rolle zu. Definition Statistische Repräsentativität beinhaltet, dass von den Ergebnissen in einer Stichprobe ein Rückschluss auf die Grundgesamtheit möglich ist, wobei der Fehler quantifizierbar ist. Bei quantitativen Erhebungen wird Repräsentativität durch entsprechende Auswahlverfahren gewährleistet (vgl. Kapitel 3 in diesem Teil). Die Zusammensetzung der Stichprobe soll dabei der Zusammensetzung der Grundgesamtheit entsprechen. 1.4.3 Operationalisierung und Skalierung komplexer Konstrukte Definition Operationalisierung ist eine Vorschrift zur Zuordnung von Messungen zu einer interessierenden Variablen. Unter Skalierung wird die Generierung eines Maßstabs verstanden, um Eigenschaftsausprägungen von Objekten zu messen. Die Operationalisierung von Merkmalen bzw. Variablen ist insbesondere bei komplexen, nicht direkt messbaren Konstrukten von Bedeutung. Sie erfordert eine präzise konzeptionelle und begriffliche Erfassung der zu erhebenden Merkmale sowie die Bestimmung der zugehörigen empirisch wahrnehmbaren Eigenschaften (Indikatoren, Items), welche das konzeptionell formulierte Konstrukt repräsentieren und zur Bildung einer geeigneten Messskala heranzuziehen sind. Im Zusammenhang mit der Skalierung sind die folgenden Aspekte von Bedeutung: das Messniveau der Daten, die Art, Anzahl und Richtung der möglichen Antwortkategorien auf der Skala sowie die eingesetzten Skalierungsverfahren. Messniveau der Daten Das Skalenniveau bzw. Messniveau von Variablen hat im Rahmen der Marktforschung eine erhebliche Bedeutung, da es einerseits die anzuwendenden bzw. anwendbaren Datenanalyseverfahren determiniert, andererseits die Aussagekraft von Marktforschungsergebnissen beeinflusst. Generell wird die Messung auf einem möglichst hohen Skalenniveau angestrebt, da das Spektrum anwendbarer Datenanalysemethoden größer ist. Zudem können höhere Skalenniveaus bei Bedarf auf ein niedrigeres Niveau reduziert werden, nicht aber umgekehrt. Tabelle 3.3 zeigt die vier möglichen Skalenniveaus im Überblick. <?page no="100"?> Messung, Operationalisierung und Skalierung von Variablen 101 Tab. 3.3: Skalenniveaus in der Marktforschung Skalentyp Beispiel Empirische Aussage Zulässige Rechenoperationen Zulässige Maßzahlen und Verfahren Nominalskala Markenwahl eines Probanden: Marke 1 oder Marke 2 oder Marke 3 Gleichheit oder Ungleichheit von Objekten (z.B. gleiche Markenwahl durch die Probanden A und B) Jede eineindeutige Operation (Zuordnung von genau einem nummerischen Wert zu genau einer bestimmten Ausprägung). Die Werte selbst haben keine empirische Aussage. Häufigkeit, Modus, Kontingenzmaße Ordinalskala Markenpräferenz eines Probanden: Rang 1: Marke 2 Rang 2: Marke 3 Rang 3: Marke 1 Größer-Kleiner- Relationen (Proband A zieht Marke 2 Marke 3 vor) Jede monotone rangerhaltende Operation. Den Merkmalsausprägungen können beliebige Werte zugeordnet werden, sofern die Rangfolge erhalten bleibt. Median, Centile, Rangkorrelation Intervallskala Ratingskala zur Messung der Kaufabsicht bzgl. Marke 2: „1: ganz sicher nicht“ bis „7: ganz sicher“ Gleichheit von Intervallen bzw. Differenzen 1 Lineare Transformation, z.B. Multiplikation eines jeden Werts mit dem gleichen Faktor Arithmetisches Mittel, Varianz, Produkt-Moment- Korrelationskoeffizient, t-Test, F- Test Verhältnisskala Gekaufte Menge von Marke 2 Verhältnis von zwei Werten Ähnlichkeitstransformation, z.B. Umrechnung von Litern in Gallions Geometrisches Mittel, harmonisches Mittel 1 Die Antwortskala hat zunächst ordinales Niveau. Sie gilt dann als Intervallskala, wenn angenommen werden kann, dass die Abstände zwischen den Skalenwerten von den Probanden als gleich wahrgenommen werden. Während eine Nominalskala lediglich die Feststellung von Identitäten ermöglicht, kann anhand einer Ordinalskala eine Rangfolge zwischen verschiedenen Objekten festgestellt werden. Die Abstände zwischen den Objekten sind dabei unbekannt. Sind die Abstände zwischen den Objekten messbar, liegt eine Intervallskala vor, im Falle des Vorhandenseins eines absoluten Nullpunkts ist eine Verhältnisskala gegeben. Nominal- und Ordinalskalen werden als nichtmetrische Skalen, Intervall- und Verhältnisskalen hingegen als metrische Skalen bezeichnet. <?page no="101"?> 102 Quantitative Befragung Art, Anzahl und Richtung der Antwortmöglichkeiten Je nach untersuchtem Gegenstand sind Skalafragen zu entwickeln, welche eine Messung des interessierenden Sachverhalts möglichst unverzerrt ermöglichen. Dabei kann man folgende Skalenarten unterscheiden: monopolare vs. bipolare Skalen sowie kontinuierliche vs. diskontinuierliche Skalen. Bei einer monopolaren (bzw. unipolaren) Skala verlaufen die Antwortkategorien nur in eine Richtung, z.B. von einer geringen bis hohen Ausprägung. Eine bipolare Skala bildet hingegen zwei gegensätzliche Dimensionen ab, z.B. lehne ab - stimme zu. Bei einer kontinuierlichen Rating-Skala erfolgt die Bewertung an beliebiger Stelle eines Kontinuums (z.B. einer Geraden mit zwei Extrempunkten); die Einteilung in Kategorien wird nachträglich durch den Forscher vorgenommen. Ihre Anwendung in der Marktforschung ist allerdings begrenzt, da nicht gewährleistet ist, dass zwei Probanden, welche das Kontinuum an derselben Stelle ankreuzen, auch genau denselben Messwert meinen. Gebräuchlicher sind daher diskontinuierliche (diskrete) Skalen, welche eine endliche Zahl an Antwortkategorien beinhalten. Abbildung 3.13 zeigt Beispiele für die verschiedenen Skalentypen. Abb. 3.13: Beispiele für gebräuchliche Ratingskalen Bei der Konstruktion einer Skala ist darüber hinaus über die Anzahl der Skalenpunkte, d.h. der möglichen Antwortkategorien zu entscheiden (vgl. Cox 1980). Einerseits erlaubt eine zu kleine Anzahl an Skalenpunkten keine ausreichende Differenzierung der Antworten und führt u.U. dazu, dass die Variable nicht als metrisch skaliert angesehen werden kann, was das Spektrum der möglichen Datenanalyseinstrumente einschränkt. Zuviele Skalenpunkte können andererseits die Probanden überfordern, da diese u.U. Überhaupt nicht gut Sehr gut 1 7 2 3 4 5 6 Überhaupt nicht gut Sehr gut -3 3 -2 -1 0 1 2 Wie gefällt Ihnen die Verpackung von Produkt X? Überhaupt nicht gut Sehr gut 1 7 Unipolare kontinuierliche Skala Unipolare diskontinuierliche Skala Bipolare diskontinuierliche Skala <?page no="102"?> Messung, Operationalisierung und Skalierung von Variablen 103 kein ausreichendes Differenzierungsvermögen besitzen. In der Marktforschung am gebräuchlichsten ist eine 7-Punkte-Skala Neben der Anzahl der Skalenpunkte wird häufig diskutiert, ob die Skala eine gerade oder ungerade Zahl an Antwortmöglichkeiten aufweisen sollte (vgl. Coelho/ Esteves 2007). Wird bei einer Rating-Skala eine gerade Anzahl an Antwortmöglichkeiten vorgegeben, ist das Ankreuzen einer mittleren Position nicht möglich. Die Auskunftsperson muss sich also für eine eher positive bzw. negative Haltung entscheiden. Hierdurch wird das tendenziell „mittige“ Antwortverhalten von unentschlossenen Auskunftspersonen vermieden. Allerdings kann in diesem Fall eine tatsächlich mittlere bzw. indifferente Position nicht zum Ausdruck gebracht werden und führt u.U. zu Antwortverweigerung. Bei einer ungeraden Zahl von Antwortmöglichkeiten besteht jedoch die Schwierigkeit, dass das Ankreuzen einer mittleren Position unterschiedlich interpretiert werden kann (z.B. „weder-noch“, „teils-teils“, „weiß nicht“, „ist mir egal“…). Aus diesem Grunde wird in der praktischen Marktforschung häufig eine neutrale Kategorie (z.B. „weiß nicht“) berücksichtigt. Unterstützt werden kann das Antwortverhalten durch die Flächigkeit der Antwortmöglichkeiten. Eine größere Fläche drückt dabei eine höhere Intensität aus. Ein weiteres Beispiel ist die Aufgabe an eine Auskunftsperson, eine Karte mit der Aufschrift „Würde ich kaufen“ aus einem Stapel von Karten, auf denen dieser Schriftzug in unterschiedlicher Größe gestaltet ist, auszuwählen. Von der Größe des Schriftzuges der ausgewählten Karte wird dann auf die Kaufwahrscheinlichkeit des betreffenden Produkts geschlossen. Einige Beispiele für grafisch unterstützte Skalafragen finden sich in Abb. 3.6 im vorangegangenen Abschnitt 1.3. Bei der Konstruktion monopolarer Skalen werden i.A. auch sog. invertierte Items einbezogen (Reversed Items), d.h. solche mit umgedrehter Polung. Dadurch sollen gleichförmiges Antwortverhalten und „Ja-Sage-Tendenzen“ bei den Probanden vermieden werden. Allerdings erzeugen invertierte Items häufig Falschantworten (vgl. Swain et al. 2008). Falschantworten können als Indikator für mangelnde Sorgfalt bem Ausfüllen des Fragebogens interpretiert werden und damit zum Ausschluss des Fragebogens führen; der Einsatz invertierter Items sollte dennoch sparsam erfolgen, da sie den Befragten u.U. verwirren. In jedem Falle muss darauf geachtet werden, dass invertierte Items bei der Datenaufbereitung umcodiert werden. Beispiel 3.31 Es soll die Innovativität anhand einer Skala von 1 = Stimme überhaupt nicht zu bis 7 = Stimme voll und ganz zu gemessen werden. Folgende drei Items werden formuliert: Item 1: Ich bin immer einer der Ersten, der neue Produkte ausprobiert. Item 2: Wenn ich von einem neuen Produkt höre, möchte ich es unbedingt ausprobieren. Item 3: Ich kaufe ein neues Produkt erst dann, wenn Freunde oder Bekannte es schon ausprobiert haben. Item 3 ist invertiert, d.h. anders als bei den Items 1 und 2 repräsentiert der Wert 1 eine hohe Innovativität, der Wert 7 eine geringe. <?page no="103"?> 104 Quantitative Befragung Komparative vs. nichtkomparative Skalierungsverfahren Definition Skalierungsverfahren beinhalten die Art und Weise, wie mit Hilfe von Skalen Daten gemessen werden sollen. Hierbei wird unterschieden zwischen komparativer und nichtkomparativer Skalierung. Abb. 3.14: Gebräuchliche Skalierungsverfahren in der Marktforschung Abb. 3.14 liefert einen Überblick über in der Marktforschung gebräuchliche Skalierungsverfahren. Techniken komparativer bzw. vergleichender Skalierung beinhalten einen direkten Vergleich von Stimuli (z.B. Rangordnung alternativer Fruchtsaftgetränke nach dem Geschmack). Da eine solche Skalierung nur ordinale Aussagen erlaubt, wird sie auch als nichtmetrische Skalierung bezeichnet. Eine nichtkomparative bzw. nichtvergleichende (auch: monadische oder metrische) Skalierung bedeutet, dass jedes Objekt unabhängig von anderen Objekten im Set skaliert wird; die Ergebnisse werden üblicherweise als metrisch skaliert angenommen (z.B. Beurteilung des Geschmacks alternativer Fruchtsaftgetränke auf einer Skala von 1: „schmeckt überhaupt nicht“ bis 5: „schmeckt sehr gut“ und Vergleich der Scores der einzelnen Getränke). Die nichtvergleichende Skalierung wird in der Marktforschung am häufigsten eingesetzt. Im Folgenden sollen die wichtigsten Verfahren kurz dargestellt werden. Im Rahmen komparativer (vergleichender) Skalierung werden Objekte dadurch in eine Rangfolge gebracht, dass sie direkt miteinander verglichen werden. Das häufigste Verfahren im Rahmen vergleichender Skalierung sind Paarvergleiche. Im Rahmen von Paarvergleichen werden aus der Gesamtmenge von Objekten Objektpaare gebildet; der Proband hat die Aufgabe, das jeweils von ihm präferierte Objekt nach einem vorgegebenen Kriterium (z.B. Geschmack) anzugeben. Bei n Objekten sind pro Testperson dabei n(n-1)/ 2 Paarvergleiche vorzunehmen. Aus den Ergebnissen der Paarvergleiche kann - Transitivität der Urteile vorausgesetzt - eine Rangordnung der Objekte gebildet werden; so erhält das Objekt, das am häufigsten im Paarvergleich präferiert wurde, Rang 1, wohingegen das Objekt, das am seltensten präferiert wurde, Rang n erhält. Skalierungsverfahren Nichtkomparative (metrische) Skalierung Komparative (nichtmetrische) Skalierung Paarvergleich Rangreihung Konstantsummenskala Q-Sort Best-Worse-Skala Mathematische Skalierungsverfahren (Multidimensionale Skalierung; Conjoint-Analyse) Kontinuierliche Skala Diskontinuierliche Skala Likert-Skala Guttmann-Skala Thurstone-Skala Semantisches Differenzial Multiattributmodelle <?page no="104"?> Messung, Operationalisierung und Skalierung von Variablen 105 Unter bestimmten Bedingungen kann aus den Daten auch eine Intervallskala gewonnen werden (vgl. z.B. Likert et al. 1993). Beispiel 3.32: Ich stelle Ihnen jetzt 10 Paare von Zahnpastamarken vor. Bitte geben Sie bei jedem Paar an, welche Marke Sie für den persönlichen Gebrauch vorziehen würden. 1 Colgate Pepsodent 2 Colgate Close Up 3 Pepsodent Close Up 4 Close Up Odol-med 5 Close Up Signal 6 Signal Colgate 7 Signal Odol-med 8 Pepsodent Signal 9 Odol-med Colgate 10 Pepsodent Odol-med Paarvergleiche sind sinnvoll, wenn die Zahl der zu beurteilenden Objekten begrenzt ist; ansonsten wird das Verfahren unübersichtlich. Weitere mögliche Nachteile des Verfahrens sind (vgl. Malhotra 2010, S. 290): Es kann eine Verletzung der Transitivitätsprämisse auftreten, d.h. die resultierende Rangfolge der Objekte ist inkonsistent; das Ergebnis kann von der Reihenfolge der Präsentation der Objektpaare beeinflusst werden; Paarvergleiche haben kaum Ähnlichkeit zu realen Kaufsituationen, im Rahmen derer eine Auswahl zwischen mehreren Alternativen vorzunehmen ist; das Verfahren erlaubt keine Aussagen darüber, ob das - relativ gesehen - präferierte Objekt im absoluten Sinne den Probanden gefällt. Im Rahmen einer Rangreihung müssen die Testpersonen eine Menge von Objekten gleichzeitig beurteilen und gemäß ihrer Präferenzen bzgl. eines vordefinierten Merkmals in eine Rangfolge bringen. Auch hier resultieren ordinalskalierte Präferenzdaten. Es wurden jedoch auch Verfahren entwickelt, um daraus intervallskalierte Daten zu generieren (vgl. z.B. Bottomley 2000). Beispiel 3.33: Ich zeige Ihnen fünf verschiedene Zahnpastamarken. Bitte ordnen Sie die Marken danach, welche Sie für Ihren persönlichen Gebrauch vorziehen würden. Geben Sie dabei der Marke, die Ihnen am meisten zusagt, den Wert 1, der Marke, die Ihnen am wenigsten zusagt, den Wert 5. Marke Rang Colgate ____ Pepsodent ____ Close Up ____ Odol-med ____ Signal ____ <?page no="105"?> 106 Quantitative Befragung Rangreihungsverfahren werden sehr häufig zur Erhebung von Präferenzen herangezogen, z.B. im Rahmen von Conjoint-Analysen (vgl. Abschnitt 3.6 im 6. Teil). Im Vergleich zu Paarvergleichen ähnelt die Untersuchungssituation eher der realen Wahlentscheidung beim Kauf; darüber hinaus sind Verfahren aus dieser Gruppe schneller, sie verhindern intransitive Aussagen und sind für die Befragten unmittelbar nachzuvollziehen (vgl. Malhotra 2010, S. 291). Bei einer zu großen Zahl an Stimuli wird der Proband jedoch u.U. überfordert. Beim Konstantsummenverfahren werden die Probanden gebeten, eine vorgegebene Anzahl an Einheiten (z.B. Punkte, Münzen, Spielmarken) auf die einzelnen Untersuchungsobjekte bzw. auf Ausprägungen von Untersuchungsobjekten restlos zu verteilen; dabei soll die Verteilung die relative Bedeutung der Untersuchungsobjekte widerspiegeln. Beispiel 3.34: Hier sehen Sie fünf Eigenschaften von PKWs. Wie wichtig sind die einzelnen Eigenschaften für Sie, wenn Sie ein PKW kaufen? Bitte verteilen Sie insgesamt 100 Punkte auf die fünf Eigenschaften je nachdem, wie wichtig sie Ihnen sind! Platzverhältnisse im Innenraum Geschwindigkeit Design Sicherheit Preis Summe Q-Sort ist eine Variante von Rangordnungsskalen, bei welcher die Befragten vorgelegte Objekte in mehrere Stapel nach einen bestimmten Kriterium sortieren müssen. Beispielsweise kann den Befragten eine Reihe von Statements bzgl. eines Objekts vorgelegt werden, die sie nach dem Ausmaß der Zustimmung sortieren sollen (z.B. Stapel 1: „Stimme voll und ganz zu“, Stapel 2: „Stimme zu“ usw.). Best-Worse-Skalen sind ein vergleichsweise neuer Ansatz (vgl. Lee et al. 2007 und Auger et al. 2007). Zunächst werden Items (z.B. Produktmerkmale, Werte, Nutzenkomponenten) aufgelistet. Die Probanden müssen dann in jeder Gruppe den jeweils wichtigsten und den unwichtigsten Aspekt angeben. Gerade in der interkulturellen Markforschung, bei der Rating-Skalen aufgrund kultureller Unterschiede im Antwortmuster verzerrte Ergebnisse liefern können (z.B. aufgrund eines Höflichkeitsbias in bestimmten Ländern), können Best-Worse-Skalen bessere Messwerte produzieren. Weitere komparative Skalierungsverfahren sind mathematisch-statistischen Ursprungs (z.B. Conjoint-Analyse, Multidimensionale Skalierung) und werden in Kapitel 3 im 6. Teil dieses Buches beschrieben. Komparative Skalierungsverfahren sind geeignet, wenn Präferenzen bzw. Wichtigkeitsbewertungen erhoben werden sollen, da dadurch verhindert wird, dass alle Eigenschaften als „sehr wichtig“ eingestuft werden und damit eine Nivellierung der Antworten herbeigeführt wird, wie dies bei der Anwendung von Techniken nichtkomparativer Skalierung eintreten kann. 100 <?page no="106"?> Messung, Operationalisierung und Skalierung von Variablen 107 Im Rahmen nichtkomparativer Skalierung erfolgt die Bewertung von Objekten isoliert, d.h. unabhängig von anderen Untersuchungsobjekten. Verfahren nichtkomparativer Skalierung werden typischerweise im Rahmen der Einstellungsmessung eingesetzt und basieren auf sog. Rating-Skalen. Rating-Skalen beruhen darauf, dass die Befragten Punktwerte vergeben, z.B. von 1=sehr gut bis 5=sehr schlecht. Diese Skala erlaubt damit eine abgestufte Beurteilung zwischen zwei Extrempunkten und kann kontinuierlich oder diskret sein (vgl. hierzu Abb. 3.13). Grundsätzlich liefern Rating-Skalen ordinale Daten, unter der Annahme gleicher Abstände zwischen den Skalenpunkten werden sie jedoch häufig als metrisch behandelt. Auf Fragen wie Anzahl der Skalenpunkte, gerade vs. ungerade Anzahl von Antwortkategorien und invertierte Items wurde bereits eingegangen. Weit verbreitet ist die sog. Likert-Skala. Die Likert-Skala beruht darauf, dass den Probanden eine Reihe von Statements vorgelegt wird. Ihre Aufgabe ist es, das Ausmaß ihrer Zustimmung auf einer Skala anzugeben, typischerweise mit den Extrempunkten „stimme voll und ganz zu“ und „stimme überhaupt nicht zu“. Beispiel 3.35: Weiter unten finden Sie eine Liste von Aussagen zur Marke X. Bitte tragen Sie auf den untenstehenden Skalen ein, inwieweit Sie den einzelnen Aussagen zustimmen. Marke X… Stimme voll und ganz zu Stimme überhaupt nicht zu … hebt sich positiv von Konkurrenzmarken ab … ist qualitativ hochwertig … ist preislich günstig … ist überall erhältlich … macht gute Werbung Das Semantische Differenzial besteht aus einer Reihe 5 bis 7-stufiger, bipolarer Rating- Skalen mit metaphorischen - also vom Objekt losgelösten - Gegensatzpaaren (zum Semantischen Differenzial vgl. z.B. Snider/ Osgood 1969). Damit drücken die Adjektivpaare nicht das Vorhandensein von realen Objekteigenschaften (z.B. einer Marke) aus, sondern vielmehr die Assoziationen, die mit dem Objekt verbunden werden. Die Gegensatzpaare repräsentieren dabei die folgenden Dimensionen: evaluative Dimension, welche die affektive Komponente der Einstellung widerspiegelt und Adjektivpaare wie gut-schlecht, attraktiv-unattraktiv beinhaltet; Stärke-Dimension, welche durch Wortgegensatzpaare wie hart-weich, stark-schwach, u.Ä. wiedergegeben wird und Aktivitätsdimension, welche durch Adjektivpaare wie schnell-langsam, aktiv-passiv etc. zum Ausdruck gebracht wird. <?page no="107"?> 108 Quantitative Befragung Beispiel 3.36: Stellen Sie sich bitte die Marke X als Person vor. Wie würden Sie die Eigenschaften dieser Person beurteilen? Ausgewertet werden Semantische Differenziale insb. durch Bildung eines Polaritätsprofils. Darüber hinaus werden häufig Mittelwerte bzgl. der einzelnen Items errechnet. Problematisch ist vor allem der fehlende Objektbezug, was die Interpretation der Ergebnisse erschwert, da nicht auf die Wahrnehmung konkreter Objekteigenschaften geschlossen werden kann. Aus diesem Grunde wurden zahlreiche Modifikationen des Verfahrens entwickelt (vgl. Mindah 1961). Im Marketing werden zumeist objektbezogene Gegensatzpaare herangezogen, welche die einzelnen - realen - Eigenschaften eines Objekts (z.B. eines Produkts) repräsentieren. Beispiel 3.37: Bitte beurteilen Sie, inwieweit die unten angegebenen Aussagen auf die Marke X zutreffen. Ein positives Vorzeichen bedeutet, dass die Aussage auf Marke X zutrifft. Je höher die Zahl ist, umso eher trifft die Aussage auf Marke X zu. Ein negatives Vorzeichen bedeutet, dass die Aussage auf Marke X nicht zutrifft. Je höher die Zahl ist, umso weniger trifft die Aussage auf Marke X zu. + 5 +5 +5 + 4 +4 +4 + 3 +3 +3 + 2 +2 +2 + 1 +1 +1 hohe Qualität preisgünstig überall erhältlich − 1 − 1 − 1 − 2 − 2 − 2 − 3 − 3 − 3 − 4 − 4 − 4 − 5 − 5 − 5 -3 -2 -1 0 1 2 3 schlecht gut sauer süß verträumt nüchtern weich hart leise laut langsam schnell <?page no="108"?> Messung, Operationalisierung und Skalierung von Variablen 109 Eine solche Modifikation des Semantischen Differenzials stellt die sog. Stapel-Skalierung dar (vgl. Beispiel 3.37). Für das zu bewertende Objekt werden Items mit 10 Messpunkten auf einer bipolaren Skala vorgegeben. Der Proband muss angeben, in welchem Ausmaß bestimmte Eigenschaften, welche in der Mitte der Skalen aufgeführt werden, auf das Untersuchungsobjekt zutreffen. Üblicherweise wird die Skala vertikal präsentiert. Die Daten werden analog zum Semantischen Differenzial ausgewertet. Tab. 3.4: Vergleichende Kurzdarstellung ausgewählter Multiattributmodelle Fishbein-Modell Rosenberg-Modell Trommsdorff-Modell Kognitive Komponente (Wissen) W ijk = Subjektive Wahrscheinlichkeit für das Auftreten von Merkmal k bei Objekt j aus Sicht von Person i Dass Tablets der Marke X langlebig sind, halte ich für sehr sehr unwahrwahrscheinlich scheinlich W ijk = Zieleignung von Merkmal k bei Objekt j aus Sicht von Person i (Eignung zur Befriedigung des k-ten Bedürfnisses von Person i) Wenn ich ein langlebiges Tablet erwerben möchte, dann halte ich Marke X für sehr sehr ungeeignet geeignet W ijk = Subjektive Einschätzung des Vorhandenseins von Merkmal k bei Objekt j durch Person i Wie langlebig ist ein Tablet der Marke X? überhaupt sehr nicht langlebig langlebig Affektive Komponente (Bewertung) a ijk = Bewertung des Merkmals k bei Objekt j durch Person i Wenn Tablets der Marke X langlebig sind, so ist das für mich sehr sehr schlecht gut a ik = Subjektive Wichtigkeit des Merkmals k für Person i Dass Tablets der Marke X langlebig sind, ist für mich sehr sehr unwichtig wichtig I ik = Von Person i als ideal empfundene Ausprägung des Merkmals k Wie langlebig ist das ideale Tablet? überhaupt sehr nicht langlebig langlebig Verknüpfung A ij = Einstellung (Attitude) von Person i zu Objekt j ⋅ = k ijk ijk ij a W A ⋅ = k ik ijk ij a W A − = k k ijk ij I W A Aussage Die Einstellung von Person i zum Objekt j ist umso besser, je größer A ij ist Die Einstellung von Person i zum Objekt j ist umso besser, je größer A ij ist Die Einstellung von Person i zum Objekt j ist umso besser, je kleiner A ij ist Multiattributmodelle stellen eine spezielle Skalierungstechnik dar, im Rahmen welcher sich die Gesamtbewertung eines Objekts aus Teilbewertungen bzgl. einzelner Merkmale (Attribute) zusammensetzt. Ein wichtiges Anwendungsgebiet ist die Einstellungsmessung, sie können jedoch auch zur Messung anderer psychologischer Konstrukte herangezogen werden, z.B. Messung des wahrgenommenen Risikos. <?page no="109"?> 110 Quantitative Befragung Grundlage von Multiattributmodellen ist die Annahme, dass Einstellungen aus verschiedenen einstellungsrelevanten Merkmalen resultieren. In einem ersten Schritt werden daher für das Untersuchungsobjekt die relevanten Eigenschaften identifiziert. Für jedes relevante Merkmal werden anschließend die affektive und die kognitive Komponente gemessen. Die verschiedenen Ansätze unterscheiden sich i.W. darin, wie die Komponenten gemessen werden und wie sie miteinander verknüpft werden, um einen aggregierten Einstellungswert zu erhalten. Tabelle 3.4 zeigt exemplarisch den Aufbau der Modelle von Fishbein, Rosenberg und Trommsdorff (vgl. i.E. Kroeber-Riel/ Gröppel-Klein 2013, S. 273 ff.). Bei den dargestellten Ansätzen handelt es sich um kompensatorische Modelle, d.h. schlechte Bewertungen eines Items können durch gute Bewertungen bei anderen Items ausgeglichen werden. Zudem wird Unabhängigkeit der Items unterstellt (vgl. Kroeber- Riel/ Gröppel-Klein 2013, S. 404). Da im Regelfall nicht die Einstellungswerte einzelner Personen relevant sind (A ij ), sondern von Personenmehrheiten, muss zudem noch eine Aggregation erfolgen. Hierzu können arithmetische Mittelwerte der einzelnen A ij über alle befragten Personen bestimmt werden. Alternativ kann eine Cluster-Analyse durchgeführt werden, um Personengruppen mit vergleichbaren Einstellungen identifizieren zu können (zur Cluster-Analyse vgl. Abschnitt 3.4.1 im 6. Teil). Singlevs. Multi-Item-Skalen Im Marketing werden zahlreiche Variablen erhoben, welche teils direkt beobachtbar (z.B. Absatzmenge), teils nicht unmittelbar beobachtbar (z.B. Einstellung) sind. Die theoretisch-begriffliche Fassung des interessierenden Merkmals sagt zunächst aus, „was“ eigentlich zu messen ist; des Weiteren muss die Definition Aussagen darüber erlauben, wann und wo - ggf. durch wen und wie - die Messung vorzunehmen ist. Die inhaltliche Komponente der Operationalisierung - also die Frage nach dem „Was“ - ist bei direkt beobachtbaren Sachverhalten vergleichsweise einfach. So ist z.B. die Variable „Preis“ inhaltlich eindeutig bestimmt, zur konkreten Erhebung der Variable ist das Merkmal jedoch näher zu spezifizieren, z.B. „Preis zu einem bestimmten Stichtag“, „Durchschnittspreis in der Periode“ o.Ä. Neben dieser zeitlichen Dimension ist auch der räumliche Aspekt zu klären, z.B. „in sämtlichen Einzelhandelsgeschäften der Region“, „in Einzelhandelsgeschäften mit einem Umsatzanteil von mindestens X %“ usw. Besondere Schwierigkeiten bei der Operationalisierung treten dann auf, wenn es sich bei den zu erhebenden Merkmalen um hypothetische Konstrukte handelt, welche empirisch nicht direkt beobachtbar sind. Hierbei handelt es sich um komplexe, teilweise multidimensionale Sachverhalte psychologischer oder soziologischer Natur wie z.B. Einstellungen oder Sozialverhalten. Grundsätzlich besteht die Möglichkeit, hypothetische Konstrukte anhand einer einzigen Skala zu messen, beispielsweise: „Wie hoch ist Ihr Umweltbewusstsein? “ mit 1 = sehr niedrig bis 5 = sehr hoch. Solche Single-Item-Skalen sind einfach zu handhaben, senken den zeitlichen und finanziellen Erhebungsaufwand und reduzieren die Verweigerungsrate bei den Probanden. Sind die zu messenden Konstrukte für die Untersuchung nicht von zentraler Bedeutung, so reicht zumeist eine Single-Item-Skala. Auch aus theoretischer Sicht lassen sich Argumente für Single-Item-Skalen finden. So konnten Bergkvist und Rossiter zeigen, dass bei konkreten Konzepten und Attributen, also solchen, die von den Probanden eindeutig und einheitlich verstanden werden (z.B. <?page no="110"?> Messung, Operationalisierung und Skalierung von Variablen 111 Einstellung zur Marke), Single-Item-Skalen ausreichend sind. In diesem Falle ist die Vorhersagevalidität gleichwertig zu einer Multi-Item-Skala. Voraussetzung ist allerdings die sorgfältige Wahl des Items; dieses muss u.a. eine hohe Inhaltsvalidität aufweisen (vgl. Bergkvist/ Rossiter 2007 sowie Rossiter/ Bergkvist 2009). Des Weiteren bietet sich der Einsatz von Single-Item-Skalen dort an, wo die Grundgesamtheit sehr groß oder sehr heterogen ist, da die Entwicklung einer Itembatterie, welche die Besonderheiten sämtlicher Untergruppen berücksichtigt, kaum möglich ist. Nachteilig ist die Tatsache, dass die subjektive Einschätzung eines Merkmals, z.B. die Auffassung, was mit einem hohen Umweltbewusstsein verbunden wird, von Proband zu Proband sehr unterschiedlich ausfallen kann. Zudem kann die Selbsteinschätzung verzerrt sein. Alternativ kann das Konstrukt daher anhand einer Multi-Item-Skala erhoben werden, d.h. durch eine Reihe von Indikatoren, welche verschiedene Facetten des Konstrukts widerspiegeln sollen. Dies ist in der wissenschaftlichen Markt- und Sozialforschung mittlerweile der Standard. Vorteile sind dabei (vgl. Kuß et al. 2014, S. 97): Durch mehrere Items kann eher sichergestellt werden, dass die verschiedenen Aspekte des zu messenden Konstrukts erfasst werden. Die Messwerte auf Multi-Item-Skalen sind feiner differenziert. Multi-Item-Skalen sind häufig reliabler als Single-Item-Skalen, da sie nicht von einer einzelnen Messung abhängig sind. Hierzu ist das Konstrukt zunächst auf der Grundlage theoretischer Überlegungen oder explorativer Studien in seine einzelnen Elemente zu zerlegen. Für die einzelnen Dimensionen des Konstrukts sind anschließend Items zu generieren, welche sich auf empirisch beobachtbare - und somit messbare - Sachverhalte beziehen. Darüber hinaus ist eine Vorschrift anzugeben, wie diese Indikatoren zu messen sind und auf welche Weise die Einzelmessungen zu einem Messwert für das interessierende Konstrukt zu aggregieren sind. Die Aggregation zu einem Gesamtwert über alle Items kann z.B. durch additiv-multiplikative Verknüpfung oder durch andere Vorschriften erfolgen. Beispiel 3.38 zeigt eine mögliche Operationalisierung des Konstrukts „Umweltbewusstsein“. Die Items des Beispiels 3.38 können dann beispielsweise anhand einer Fünf-Punkte-Rating-Skala mit den Ausprägungen 1 („trifft überhaupt nicht zu“) bis 5 („trifft voll und ganz zu“) gemessen werden. Beim letzten Item des Beispiels ist dabei zu beachten, dass die Scores invertiert werden müssen (d.h. 1 = trifft voll und ganz zu, 5 = trifft überhaupt nicht zu), damit höhere Werte auch ein höheres Umweltbewusstsein widerspiegeln. Beispiel 3.38: Items zur operationalen Definition des Konstrukts „Umweltbewusstsein“: [1] „Im täglichen Leben versuche ich immer, Energie zu sparen.“ [2] „Für die Fahrt zur Arbeit verzichte ich häufig auf das Auto.“ [3] „Im Supermarkt kaufe ich nach Möglichkeit keine abgepackte Ware.“ [4] „Einwegpackungen sollten generell verboten werden.“ [5] „Ich fühle mich durch auf der Straße herumliegende Dosen und Zigarettenpackungen gestört.“ [6] „Mülltrennung bringt sehr viel Mühe, aber keinen echten Nutzen.“ (R) <?page no="111"?> 112 Quantitative Befragung Entwicklung und Validierung von Multi-Item-Skalen Wie bereits skizziert wurde, ist die Entwicklung und Validierung geeigneter Multi- Item-Skalen eines der zentralen Probleme bei der Erforschung komplexer Konstrukte. Die gängige Vorgehensweise orientiert sich dabei an der von Churchill (1979) vorgeschlagenen Methodik. Werden im Forschungsvorhaben Strukturgleichungsmodelle eingesetzt, können anspruchsvollere Validierungsverfahren („Verfahren der 2. Generation“) eingesetzt werden; diese werden in Abschnitt 3.5.3 im 6. Teil skizziert. Zur Konstruktion von Skalen sind grundsätzlich die folgenden Schritte erforderlich (vgl. Churchill 1979, S. 66): präzise Definition des zu untersuchenden Konzepts, Itemsammlung, Itemformulierung und -revision, Reliabilitätsprüfung und Validitätsprüfung. Der erste Schritt besteht in der Konzeptionalisierung des Konstrukts. Zu diesem Zweck ist es empfehlenswert, zunächst bisherige Veröffentlichungen zu analysieren. Ein Konstrukt muss präzise definiert und exakt von verwandten Konstrukten abgegrenzt werden (vgl. Jacoby/ Chestnut 1978). Darüber hinaus muss es konsistent verwendet werden und seine Definition muss das Ableiten und Testen von Hypothesen ermöglichen. Die möglichst präzise Definition des Konzepts bildet die Grundlage für die Validitätsprüfung und bestimmt den Inhalt der zu verwendenden Items. Eine eigene, neue Konzeptdefinition sollte dabei - um einen Vergleich mit früheren Studien zu ermöglichen - nur dann erfolgen, wenn das Forschungsproblem dies unbedingt erforderlich macht (vgl. Churchill 1979, S. 67). Ist das Konstrukt exakt definiert, erfolgt im nachfolgenden Schritt die Itemsammlung, d.h. die Suche nach geeigneten Indikatoren zur Messung des Konstrukts. Zur Gewinnung von Items können dabei verschiedene Verfahren der explorativen Analyse genutzt werden, beispielsweise (vgl. Kuß et al. 2014, S. 107; Churchill 1979, S. 67 f.): Ableitung aus der Konzeptdefinition nach logischen Überlegungen, Sichtung der Literatur im Hinblick auf dort verwendete Items, Expertenbefragungen, Alltagsbeobachtung, qualitative Vorstudien wie Kreativtechniken oder Gruppendiskussionen. Die gewählten Indikatoren sind dabei genau dann eine valide Operationalisierung des theoretischen Konstrukts, wenn eine kausale Beziehung zwischen ihnen und dem zugehörigen theoretischen Konstrukt angenommen und empirisch bestätigt werden kann. Im Hinblick auf die Spezifikation des Messmodells ist zwischen formativen und reflektiven Indikatoren zu unterscheiden (vgl. hierzu Albers/ Hildebrand 2006; Diamantopoulos/ Winklhofer 2001). <?page no="112"?> Messung, Operationalisierung und Skalierung von Variablen 113 Formative Indikatoren „bilden“ das Konstrukt, d.h. das latente Konstrukt ist das Ergebnis der einzelnen gemessenen Indikatoren. Das bedeutet, dass sämtliche Indikatoren erfasst sein müssen, damit das Konstrukt vollständig operationalisiert ist. Ändert sich der Wert eines Indikators, so ändert sich der Wert des Konstrukts. Die kausale Wirkung verläuft dabei vom Indikator auf das Konstrukt, z.B. wirkt sich der Beruf (Indikator) auf den sozialen Status (Konstrukt) aus. Die einzelnen Indikatoren können miteinander korrelieren, müssen aber nicht. Hingegen sind reflektive Indikatoren solche, die das Konzept widerspiegeln, d.h. das latente Konstrukt wirkt sich auf eine Vielzahl beobachtbarer Indikatoren aus. Das Konstrukt „Sozialer Status“ etwa wirkt sich auf den Indikator „Anerkennung“ aus. Die Wahl reflektiver Indikatoren beruht auf der Domain Sampling Theory, wonach die bei der Messung verwendeten Items eine Stichprobe aller möglichen Indikatoren darstellen. Insofern sind reflektive Indikatoren nur eine - möglichst geeignete - Teilmenge aller möglichen Indikatoren und werden nach Kriterien der Reliabilität und Validität ausgewählt. Die kausale Wirkung verläuft vom Konstrukt auf die Indikatoren. Die einzelnen Indikatoren müssen dabei miteinander korrelieren, da sie alle im Grunde denselben Sachverhalt messen. Die in 1.4.2 angeführten Überlegungen zu Reliabilität und Validität implizieren somit ein reflektives Messmodell. Abb. 3.15: Formative und reflektive Indikatoren zur Messung der Kundenzufriedenheit (Quelle: Albers/ Hildebrand 2006, S. 12) Am gebräuchlichsten sind im Marketing reflektive Indikatoren, da sie einfacher zu handhaben sind. Abb. 3.15 zeigt den Unterschied zwischen formativen und reflektiven Indikatoren am Beispiel des Konstrukts „Zufriedenheit“. Im Beispiel wird deutlich, dass das Weglassen eines formativen Indikators, z.B. „Der Wellnessbereich ist gut“, zu einer Verringerung der Qualität der Messung führt, da ein relevanter Aspekt der Zufriedenheit vernachlässigt wird. Hingegen wirkt sich die Unterdrückung eines reflek- Reflektive Indikatoren Formative Indikatoren Zufriedenheit mit dem Hotel Die Zimmerausstattung ist gut Hier finde ich Ruhe Der Wellnessbereich ist gut Das Personal ist freundlich Der Service ist gut Ich freue mich, in diesem Hotel übernachten zu können Dieses Hotel empfehle ich gerne weiter Dieses Hotel schätze ich sehr In diesem Hotel fühle ich mich wohl <?page no="113"?> 114 Quantitative Befragung tiven Indikators nicht notwendigerweise aus: Die einzelnen Aussagen, z.B. „In diesem Hotel fühle ich mich wohl“, sind per se - auch alleine - schon geeignet, Kundenzufriedenheit auszudrücken. In einem weiteren Schritt - Itemformulierung und Itemrevision - wird der Wortlaut der Items festgelegt (vgl. Churchill 1979, S. 68). Dazu gehören Entscheidungen wie die Formulierung als Frage oder als Statement, die direkte oder indirekte Abfrage, die Itempolung (z.B. invertierte Items) sowie die Festlegung der Antwortmöglichkeiten. Gegebenenfalls erfolgt eine Verfeinerung und Revision, etwa eine Umformulierung zur Vermeidung sozialer Erwünschtheit oder zur Verbesserung der Verständlichkeit. Tab. 3.5: Beispielhafte Item-Skala-Statistiken in SPSS Item Skalenmittelwert, wenn Item weggelassen Skalenvarianz, wenn Item weggelassen Korrigierte Item-Skala- Korrelation Cronbachs Alpha, wenn Item weggelassen Fußball ist wichtig für mich 24,13 43,295 0,768 0,772 Meine Fußballbegeisterung sagt viel über mich aus 23,36 51,815 0,599 0,810 Wenn ich ein schlechtes Fußballspiel sehe, ärgert mich das sehr 23,56 51,239 0,588 0,812 Ich kann einschätzen, wer ein Fußballfan ist und wer nicht 24,48 57,097 0,435 0,839 Fußball ist mir niemals gleichgültig 23,52 49,008 0,694 0,790 Im Rahmen einer Reliabilitäts- und Validitätsprüfung wird schließlich die Güte der entwickelten Skalen überprüft (vgl. auch Abschnitt 1.4.2). Die Berechnung von Cronbachs Alpha erlaubt eine Bewertung der Internen-Konsistenz-Reliabilität; zudem liefern die Item-Total-Korrelationen, d.h. die jeweiligen Korrelationen der Indikatoren mit dem Konstrukt, Hinweise auf Items, die eliminiert werden müssen. Tabelle 3.5 zeigt die Item-Skala-Statistiken in SPSS am Beispiel einer Skala zur Messung des Fußballinvolvements. Hiernach wäre Item 4 zu eliminieren, da seine Korrelation zum Konstrukt gering ist und durch dessen Unterdrückung Alpha auf 0,839 steigt. Mittels einer exploratorischen Faktorenanalyse kann schließlich die Faktorstruktur der Skala untersucht werden, etwa im Hinblick auf Eindimensionalität. Ergänzend sei hier noch auf die Validierung mittels Strukturgleichungsmodellen hingewiesen (zur Methodik vgl. die Ausführungen in Abschnitt 3.5.3 im 6. Teil und die dort angeführten Gütekriterien sowie Homburg/ Giering 1996). <?page no="114"?> 2 Beobachtung 2.1 Klassifikation und Charakterisierung von Beobachtungen Definition Unter einer Beobachtung versteht man die planmäßige und systematische Erfassung sinnlich wahrnehmbarer Tatbestände im Augenblick ihres Auftretens. Im Gegensatz zur sog. naiven Beobachtung ist die für die Marktforschung relevante wissenschaftliche Beobachtung charakterisiert durch einen exakt abgegrenzten Untersuchungsbereich, ein planmäßiges Vorgehen, eine systematische Aufzeichnung des aktuellen Geschehens sowie einer Überprüfung auf Objektivität, Reliabilität und Validität der Messung. Da der Gegenstand einer Beobachtung sinnlich oder apparativ erfassbare Sachverhalte sind, ist die Beobachtung grundsätzlich unabhängig von der Auskunftsbereitschaft der Teilnehmer. Gewisse Verfahren der Beobachtung erfordern jedoch aufgrund ihrer Anordnung die Zustimmung der beobachteten Person. Im Gegensatz zur Befragung kann das Verhalten der beobachteten Person objektiv erfasst werden, anstatt sich auf möglicherweise fehlerhafte Aussagen des Befragten stützen zu müssen. Allerdings können im Rahmen einer Beobachtung keine Ursachen für ein bestimmtes Verhalten erhoben werden. Beobachtungen können als eigenes Erhebungsverfahren oder aber im Rahmen von Panelerhebungen bzw. Experimenten durchgeführt werden. Sie lassen sich dabei nach folgenden Merkmalen klassifizieren (vgl. z.B. Mangold/ Kunert 2007, S. 309): Strukturierungsgrad der Untersuchung, Beobachtungsumfeld, Partizipationsgrad des Beobachters, Durchschaubarkeit der Erhebungssituation sowie Form der Datensammlung. Strukturierungsgrad der Untersuchung Der Strukturierungsgrad der Untersuchung bezeichnet das Ausmaß, in welchem Anlage und Inhalt der Beobachtung, die Beobachtungssituation sowie die Art der Aufzeichnung standardisiert bzw. vorstrukturiert sind. Im Rahmen einer standardisierten Beobachtung wird der zu beobachtende Sachverhalt durch ein präzises Beobachtungsschema strukturiert. Das Beobachtungsschema ist eine Art Leitfaden, der eine Reihe definierter Beobachtungskategorien enthält; nur solche Sachverhalte werden erfasst, welche in die vorgegebenen Beobachtungskategorien fallen. Ein standardisiertes Vorgehen erleichtert die Quantifizierung und Auswertung der Daten; auch wird der (subjektive) Einfluss des Beobachters bei der Erfassung und Kodierung der beobachteten Tatbestände reduziert (vgl. Böhler 2004, S. 102). Allerdings eignet sich die standardi- <?page no="115"?> 116 Beobachtung sierte Beobachtung nur für vergleichsweise einheitliche und leicht überschaubare Vorgänge. Bei einer nichtstandardisierten Beobachtung fehlt die Vorstrukturierung des zu beobachtenden Sachverhalts; dadurch ist das Verfahren offener und flexibler und kann zur Hypothesengewinnung im Rahmen explorativer Studien eingesetzt werden; eine Kodierung, Quantifizierung und Auswertung der beobachteten Sachverhalte ist allerdings sehr viel anspruchsvoller. Beobachtungsumfeld Nach dem Beobachtungsumfeld wird zwischen Feldbeobachtung und Laborbeobachtung unterschieden. Im Rahmen einer Feldbeobachtung werden die interessierenden Vorgänge in der gewohnten, natürlichen Umgebung des Probanden erfasst; dies hat den Vorteil, dass der Beobachtete nicht unbedingt von der Beobachtung erfahren muss. Hingegen erfolgt eine Laborbeobachtung in einem Studio unter künstlich geschaffenen Bedingungen, wodurch die Zustimmung der Teilnehmer erforderlich ist. Dem Vorteil der Isolierbarkeit und Kontrollierbarkeit der interessierenden Faktoren steht der Nachteil einer möglichen Verhaltensverzerrung aufgrund der künstlichen Situation gegenüber. Wenn Laborbeobachtungen auf der Grundlage konkreter Versuchsanordnungen erfolgen, handelt es sich um experimentelle Studien; die Grenzen sind hier fließend. Partizipationsgrad des Beobachters Beim Partizipationsgrad des Beobachters geht es um die Frage, welche Rolle der Beobachter im Rahmen der Beobachtungssituation einnimmt und ob seine Rolle dem Beobachteten bekannt ist. Bei der teilnehmenden Beobachtung wirkt der Beobachter am Beobachtungsgeschehen mit, d.h. er spielt bei der Untersuchung eine aktive Rolle und nimmt auf die Abläufe Einfluss. In der Marktforschung wird die teilnehmende Beobachtung eher selten eingesetzt, da sie zeit- und kostenintensiv ist. Die teilnehmende Beobachtung bietet sich dort an, wo aus der Interaktion zusätzliche Erkenntnisse gewonnen werden sollen. Aufgrund des starken Einflusses des Beobachters auf das Beobachtungsgeschehen eignet sich die teilnehmende Beobachtung insb. für explorative Analysen, wenn das zu untersuchende Phänomen noch vergleichsweise unbekannt ist. Soll die Rolle des Beobachters hingegen unbekannt bleiben, muss er bei der Untersuchung eine Funktion übernehmen, die seine Anwesenheit rechtfertigt und kein Misstrauen erregt. Dem Vorteil, dass der Beobachter aus nächster Nähe am Geschehen teilhat, steht jedoch der Nachteil gegenüber, dass die Aufzeichnung der relevanten Sachverhalte im Augenblick ihres Auftretens, ohne dass der Beobachter seine Rolle aufgibt, mit Schwierigkeiten verbunden ist (vgl. Berekoven et al. 2009, S. 142). Typische Marktforschungsprobleme, für die eine teilnehmende Beobachtung in Frage kommt, sind die folgenden (vgl. Böhler 2004, S. 103; Pepels 2014, S. 142): Der Marktforscher kann in einem Geschäft als Kunde auftreten (sog. Mystery Shopper), um das Beratungsverhalten des Handels zu untersuchen. Im Investitionsgüterbereich kann der Marktforscher die Rolle eines Außendienstmitarbeiters einnehmen, um mögliche Probleme, Kaufkriterien etc. des Kunden festzustellen. Analog kann der Marktforscher im Konsumgüterbereich die Rolle eines Verkäufers einnehmen, um das Auswahlverhalten von Kunden beim Kauf von Produkten zu gewinnen. <?page no="116"?> Klassifikation und Charakterisierung von Beobachtungen 117 Den Regelfall in der Marktforschung bildet die nichtteilnehmende Beobachtung, bei der der Beobachter lediglich die Aufgabe hat, das Geschehen wahrzunehmen und zu registrieren. Das Verfahren ist objektiver, da der Beobachter nicht aktiv auf das Geschehen einwirkt und daher in seiner Wahrnehmung unabhängig ist. Durchschaubarkeit der Erhebungssituation Die Durchschaubarkeit der Beobachtungssituation bezeichnet das Ausmaß, in welchem dem Teilnehmer die Untersuchungssituation bewusst ist. Dabei werden folgende Beobachtungssituationen unterschieden (vgl. Abb. 3.16): offene Situation, nicht durchschaubare Situation, quasi-biotische Situation und biotische Situation. Beobachtungssituationen Offene Situation Nicht durchschaubare Situation Quasi-biotische Situation Biotische Situation Der Beobachtete weiß von der Beobachtung Er kennt deren Zweck wie auch die konkrete Aufgabe Beispiel: Beobachtung der Handhabung von Produkten in einer häuslichen Situation Der Beobachtete weiß von der Beobachtung Er kennt deren Zweck, nicht aber die konkrete Aufgabe Beispiel: Beobachtung des Markenwahlverhaltens im Rahmen eines Labortests, wenn der Beobachtete nicht weiß, um welche Produktkategorie es sich handelt Der Beobachtete weiß von der Beobachtung Er kennt weder deren Zweck, noch die konkrete Aufgabe Beispiel: Registrierung des Einkaufsverhaltens von Panelteilnehmern im Rahmen einer Neuprodukteinführung Der Beobachtete weiß nicht von der Beobachtung Er kennt weder deren Zweck, noch die konkrete Aufgabe Beispiel: Wartezimmertest im Rahmen der Werbemittelforschung Abb. 3.16: Beobachtungssituationen Je weniger dem Probanden die Beobachtungssituation bewusst ist, umso natürlicher wird sein Verhalten sein und umso besser daher die Ergebnisse der Untersuchung. Bei offener Beobachtung tritt hingegen häufig ein sog. Beobachtungseffekt ein, d.h. aufgrund des Wissens um die Beobachtung verhält sich der Teilnehmer anders als unter normalen Bedingungen. Aus diesem Grunde werden verdeckte Formen der Beobachtung vorgezogen. Liegt der Beobachtung eine experimentelle Anordnung zugrunde, ist eine Verschleierung allerdings schwierig; bei einer Feldsituation sind verdeckte Versuchsanordnungen eher möglich. Auf damit verbundene ethische und rechtliche Probleme, die dadurch entstehen, dass die Untersuchung ohne Einwilligung und Wissen des Teilnehmers durchgeführt wird, sei hier nur hingewiesen. Form der Datensammlung Nach diesem Kriterium wird unterschieden, ob die Aufzeichnung des Beobachtungsgeschehens durch den Beobachter selbst oder durch technische Hilfsmittel erfolgt (vgl. Abschnitt 2.2). Quantitative Tatbestände wie z.B. die Aufzeichnung von Kundenwegen <?page no="117"?> 118 Beobachtung oder Zählungen von Kunden können durch den Beobachter selbst vorgenommen werden; komplexere Untersuchungsgegenstände wie z.B. die Erfassung von Verhaltensreaktionen oder psychischer Zustände erfordern hingegen i.d.R. den Einsatz technischer Hilfsmittel. Die Anwendung von Beobachtungen in der Marktforschung umfasst folgende Bereiche: Zählungen, Erfassung psychischer Zustände, Erfassung physischer Aktivitäten sowie Bestandsaufnahmen und Spurenanalysen. Im Rahmen von Zählungen finden sich folgende exemplarische Anwendungen: Erfassung von Passantenströmen für die Standortanalyse im Handel, Messung von Besucherfrequenzen in einem Geschäft oder Dienstleistungsbetrieb. Von großer Bedeutung in der Marktforschung ist die Erfassung psychischer Zustände, sofern sie sich in physischen Reaktionen niederschlagen. Typische Anwendungsgebiete sind die Wahrnehmungsforschung oder die Messung von Erregungszuständen, z.B. die Aktivierung beim Betrachten von Werbemitteln und Produkten. Anwendungen, die die Erfassung physischer Aktivitäten zum Gegenstand haben, sind beispielsweise: Kundenlaufstudien, bei welchen die Kundenwege in Geschäften aufgezeichnet werden, Handhabungs- und Nutzungsbeobachtungen im Rahmen der Produktforschung, Markenwahlverhalten im Geschäft, Blickverlauf beim Betrachten von Werbemitteln, Zuwendung zum Regal im Geschäft. Abbildung 3.17 zeigt ein Beispiel für eine Kundenlaufstudie (auch: Laufweganalyse). Ziel einer Kundenlaufstudie ist die Erfassung der Laufwege von Kunden, der Zuwendung zum Regal und der Verweildauer von Kunden am Regal, was im Handel als Grundlage für eine Regalplatzoptimierung dienen kann. Ausgewertet werden Kundenlaufstudien u.a. durch sog. Heatmaps. Eine Heatmap zeigt besonders frequentierte Bereiche in Rot (im Bild dunkel), weniger frequentierte Bereiche werden gelb oder grün ausgewiesen (im Bild heller). Bestandsaufnahmen können sowohl im Handel als auch bei Verbrauchern erfolgen. Im Rahmen eines sog. Pantry-Checks werden z.B. Vorratsschränke in Haushalten untersucht, um daraus auf die Verwendung bestimmter Produkt zu schließen. Bei Spurenanalysen werden nachträglich Indikatoren für den Gebzw. Verbrauch bestimmter Produkte erhoben, etwa weggeworfene Zigarettenpackungen nach einer Großveranstaltung wie z.B. ein Fußballspiel oder Popkonzert, um so die Marktanteile verschiedener Marken zu ermitteln. Bei der Beurteilung von Beobachtungen sind zunächst folgende Vorteile zu nennen: Eine Beobachtung kann unabhängig von der Auskunftsbereitschaft und der Verbalisierungsfähigkeit der Probanden erfolgen. <?page no="118"?> Klassifikation und Charakterisierung von Beobachtungen 119 Mit Ausnahme der teilnehmenden Beobachtung entfällt das Problem der Beeinflussung durch den Beobachter. Es können durch Beobachtung nonverbale Verhaltensweisen erfasst werden, z.B. Gestik oder Mimik als Reaktion auf bestimmte Stimuli. Sie ermöglicht die Erfassung von Sachverhalten, die den Probanden selbst nicht bewusst sind, etwa bei gewohnheitsmäßigen, nicht reflektierten Handlungen wie die Auswahl zwischen mehreren Marken im Verkaufsregal. Auch komplexe Zusammenhänge, die nur schwer in Einzelindikatoren zerlegt werden können, lassen sich erforschen, z.B. Verwendungsverhalten bei bestimmten Produkten, Leseverhalten bei Printmedien, Blickverlauf bei der Betrachtung von Werbemitteln. Bestimmte psychische Konstrukte wie Aktivierung, Wahrnehmung, Antwortsicherheit lassen sich unter Anwendung technischer Hilfsmittel deutlich zuverlässiger erfassen als durch eine Befragung. Es können Verhaltenssequenzen erfasst werden, die sonst nur durch wiederholte Interviews zu erheben wären (z.B. Konsumverhalten zu verschiedenen Jahreszeiten). Vorgänge können unmittelbar im Augenblick ihres Geschehens erfasst werden, sodass auch deutlich wird, in welchem Kontext bestimmte Geschehnisse erfolgen. Beobachtungen können andere Erhebungsmethoden ergänzen oder verifizieren, wodurch eine Kontrolle der Ergebnisse möglich wird. Beobachtungen sind geeignet, gruppendynamische Prozesse zu erfassen. Abb. 3.17: Beispiel für eine Kundenlaufstudie im Supermarkt Kasse Kasse Kasse <?page no="119"?> 120 Beobachtung Dem gegenüber stehen folgende Nachteile einer Beobachtung: Viele interessierende Sachverhalte entziehen sich einer Beobachtung. Dazu gehören die meisten psychologischen Konstrukte wie z.B. Einstellungen, Verhaltensabsichten, Präferenzen, Motive, aber auch viele sozioökonomische und demographische Variablen. Bei nichtexperimentellen Beobachtungen kann die Ursache für ein bestimmtes Verhalten nur ermittelt werden, wenn zusätzlich eine Befragung vorgenommen wird. Die Beobachtung weist z.T. erhebliche Repräsentativitätsprobleme auf. Laborbeobachtungen erfolgen mit zumeist kleinen Stichproben; bei Feldbeobachtungen ist die Auswahl der Probanden willkürlich oder bestenfalls systematisch, abhängig von Ort, Tageszeit etc. der Beobachtung. Man denke z.B. an die Beobachtung des Einkaufsverhaltens in einem Supermarkt. Vorgänge, die sich über einen längeren Zeitraum erstrecken oder nur in großen Zeitabständen auftreten, würden eine sehr lange Erhebungsdauer erfordern, sodass eine Beobachtung rein aus Kostengründen nicht in Frage kommt. Analog zum Interviewereinfluss bei der Befragung ist bei der Beobachtung ein Beobachtereinfluss festzustellen. Bei der teilnehmenden Beobachtung greift der Beobachter ohnehin ins Geschehen ein, aber auch bei der nichtteilnehmenden Beobachtung unterliegt der Beobachter einer selektiven Wahrnehmung. Bei komplexen Fragestellungen und Anwendung einer standardisierten Beobachtung ist ein umfassendes Beobachtungsschema mit einer Vielzahl sich gegenseitig ausschließender Beobachtungskategorien erforderlich, wodurch die Datenaufnahmekapazität des Beobachters schnell an Grenzen stößt. Bei nicht verdeckten Beobachtungssituationen tritt auf Seiten der Untersuchungsperson ein Beobachtungseffekt, d.h. eine Verhaltensänderung aufgrund des Wissens um die Beobachtung ein. Die beobachteten Merkmale sind u.U. unterschiedlich interpretierbar, d.h. ein und dasselbe Verhalten kann unterschiedlich gedeutet werden. Beobachtungssituationen sind nur unter Laborbedingungen wiederholbar. Damit sind die Ergebnisse von Feldbeobachtungen nicht ohne weiteres vergleichbar. Die zeitliche Abfolge der beobachteten Ereignisse ist vom Forscher nicht direkt steuerbar. 2.2 Aufzeichnungsverfahren der Beobachtung 2.2.1 Aufzeichnung durch den Beobachter Viele Vorgänge lassen sich durch den Beobachter selbst erfassen, also ohne Zuhilfenahme technischer Hilfsmittel. Die Aufzeichnung erfolgt manuell, etwa mit Hilfe von Handzählern, Stoppuhren, Stift und Block, Strichlisten etc. Bei nichtteilnehmender Beobachtung ist die Aufzeichnung vergleichsweise unproblematisch, da der Beobachter nicht am Geschehen teilnimmt. Im Rahmen einer teilnehmenden Beobachtung nimmt der Beobachter am Ablauf des Geschehens teil, d.h. er übernimmt eine aktive Rolle. Beispiel hierfür ist das sog. Silent Shopping oder Mystery Shopping, im Rahmen dessen der Beobachter als Käufer auftritt und eine reale Kaufsituation simuliert. Dadurch kann er bestimmte Qualitätsmerkmale überprüfen, z.B. Erhältlichkeit des Produkts im <?page no="120"?> Aufzeichnungsverfahren der Beobachtung 121 Geschäft, Verhalten des Verkäufers, Platzierung etc. Der Beobachter berichtet an den Anbieter des Produkts, was erhebliche ethische Bedenken aufwirft. Gebräuchlich ist Mystery-Shopping insb. zur Beurteilung der Servicequalität bei Dienstleistungsunternehmen, z.B. Handel, Banken, Werkstätten. Beispiel 3.39: Mystery Repair Werkstatttest (Dr. Grieger & Cie.) Für einen Werkstatttest wird ein Fahrzeug (Auto oder Motorrad) manipuliert (z.B. Sicherungen, Blinker-Relays, Luftdruck, Wasserstand). Bei Abholung des Fahrzeuges wird überprüft, ob die eingebauten Fehler erkannt und behoben wurden. Die Inhalte bei einem Werkstatttest sind entlang typischer Dienstleistungsepisoden aufgebaut, um den gesamten Prozess eines Werkstattbesuchs abbilden zu können. Kontaktaufnahme z.B. telefonische Kontaktaufnahme, Qualität des Gesprächs, Wahrnehmung der Terminvereinbarung etc. Fahrzeugannahme z.B. Qualität der Direktannahme, Begrüßung, Gesprächs-und Beratungsqualität, Bearbeitungsqualität des Auftrages etc. Wartungsprozess/ Reparaturprozess z.B. Verlauf des Checks, Wartezeiten, Qualität, Sorgfalt, Kommunikation Fahrzeugübergabe z.B. Termintreue, Einhaltung vereinbarter Kosten, Leistungserfüllung gemäß Vereinbarung, Qualität der Erläuterung von Leistungen, Qualität der Fehlererkennung etc. Quelle: Dr. Grieger & Cie 2016, o.S. Die persönliche Beobachtung kann nur bei vergleichsweise einfachen Aufgaben eingesetzt werden (vgl. Hüttner/ Schwarting 2002, S. 160 f.). Dazu gehören z.B. Zählungen. Grenzen findet die persönliche Beobachtung bei komplexen Fragestellungen, bei welchen mehrere Merkmale gleichzeitig erhoben werden müssen. 2.2.2 Apparative Beobachtungsverfahren Apparative (bzw. experimentelle) Beobachtungsmethoden werden bei experimentell angelegten Beobachtungen in Laborsituationen eingesetzt. Die Beobachtung erfolgt dabei unter Zuhilfenahme technischer Geräte. Häufige Anwendungsgebiete sind die Werbemittelforschung und die Produktforschung. Sie lassen sich unterteilen in (vgl. Abb. 3.18): aktualgenetische Verfahren, psychophysiologische Verfahren und mechanische Verfahren. Eine ausführliche und kritische Darstellung der wichtigsten apparativen Verfahren findet sich bei Sauermann 2008 und Keitz 2016. Die Anwendung ausgewählter apparativer Beobachtungsverfahren im Rahmen von Produkt-, Preis- und Werbemitteltests wird eingehend in Teil 8 beschrieben, sodass an dieser Stelle lediglich auf die grundlegende Methodik eingegangen wird. <?page no="121"?> 122 Beobachtung Abb. 3.18: Überblick der gebräuchlichsten apparativen Verfahren Aktualgenetische Verfahren Definition Unter Aktualgenese versteht man den Prozess der Entstehung der Wahrnehmung komplexer Stimuli. Aktualgenetische Verfahren der Beobachtung versuchen, den Wahrnehmungsprozess von Probanden experimentell zu erfassen. Die ganzheitliche Wahrnehmung eines komplexen Reizes erfolgt nicht plötzlich, sondern stufenweise. Der Prozess beginnt dabei mit einer relativ diffusen positiven oder negativen Stimmung gegenüber dem Reiz (Anmutung), die dann mit zunehmend bewusst werdender Wahrnehmung durch kognitive Vorgänge überlagert und korrigiert wird (vgl. Graumann 1959). Verfahren der Aktualgenese arbeiten mit technischen Mitteln der Wahrnehmungserschwerung für Objekte (z.B. Verkürzung, Verkleinerung, Verdunkelung, Verunschärfung). Beispielsweise wird analysiert, welche Elemente eines Produkts in welcher Reihenfolge vom Probanden erkannt werden, wenn das Produkt zunächst verschwommen und anschließend zunehmend schärfer gezeigt wird. Im Folgenden sollen die wichtigsten Verfahren der Aktualgenese skizziert werden. Tachistoskop Mit Hilfe eines Tachistoskops wird die visuelle Wahrnehmung nach kurzzeitiger Darbietung eines Reizes untersucht. Dadurch wird erfasst, welche Elemente eines Objekts (z.B. Werbemittel oder Verpackung) bei der in der Praxis häufig anzutreffenden sehr kurzen Betrachtungsdauer wahrgenommen werden. Zusätzlich sollen erste, spontane Anmutungen von Objekten erfasst werden (vgl. Keitz 2016, S. 233). Am gebräuchlichsten ist das sog. Projektionstachistoskop, bei dem Bilder in hoher Auflösung auf Apparative Beobachtungsverfahren Aktualgenetische Verfahren Psychophysiologische Verfahren Mechanische Verfahren Tachistoskop Schnellgreifbühne Unschärfeverfahren Anglemeter Nyktoskop Perimeter Sichtspaltdeformation Psychogalvanometer Hirnstrommessung (EEG) Facial Coding Funktionelle Magnetresonanztomografie (fMRT) Pupillometer Lidschlagfrequenz Thermografie Stimmfrequenzanalyse Eye Tracking Reaktionsbasierte Verfahren Nonverbale Resonanzmessungen Scanning RFID Online-Beobachtung Lichtschranken Daktyloskop Einwegspiegel Audio-, Foto- und Videoaufnahmen Telemeter <?page no="122"?> Aufzeichnungsverfahren der Beobachtung 123 eine Leinwand projiziert werden; alternativ werden auch Computermonitore eingesetzt. Die Dauer der Darbietung ist zunächst sehr kurz (unterhalb der bewussten Wahrnehmung) und wird sukzessive erhöht, um den Prozess der Wahrnehmungsentstehung zu erfassen. Anwendung findet das Tachistoskop in der Werbemittel- und der Produktforschung. Schnellgreifbühne Bei einer Schnellgreifbühne handelt es sich um einen Kasten mit Schließmechanik. In diesem Kasten befinden sich mehrere Objekte (i.d.R. Produkte), die dem Probanden nur für eine kurze Zeit dargeboten werden. Dieser muss sich spontan für ein Objekt entscheiden. Damit wird die Durchsetzungsfähigkeit von Produkten oder Verpackungen im Handel bei schnellem Durchlauf durch die Regale getestet (vgl. Salcher 1995, S. 118 f.). Unschärfeverfahren Unschärfeverfahren zielen darauf ab, jene Reize zu identifizieren, die bei einem Objekt wahrgenommen werden. Dadurch wird überprüft, ob die Gestaltung eines Produkts oder eines Werbemittels hinreichend prägnant ist. Das Objekt wird zunächst so verschwommen dargeboten, dass eine sofortige Identifikation unmöglich ist. Anschließend wird die Schärfe des Stimulus sukzessive erhöht. Auf dieser Grundlage können dominante (Erkennungs-)Merkmale eines Produks identifiziert werden. Ein Beispiel ist das Verfahren digiFuzz© des Spiegel-Instituts (vgl. Spiegel Institut 2016, o.S.). Anglemeter Bei einem Anglemeter handelt es sich um eine steuerbare Drehscheibe, mit der ein Objekt - z.B. ein Produkt - zur Seite oder nach oben/ unten gewendet werden kann. Dem Probanden wird zunächst die Ansicht von der Seite bzw. von oben oder von unten gezeigt; anschließend wird die relevante Seite (meist die Frontseite) dem Betrachter langsam zugewandt. Einsatz findet das Anglemeter zur Untersuchung der Produktidentifizierung bei Selbstbedienung im Handel. Nyktoskop Mit Hilfe eines Nyktoskops wird das Untersuchungsobjekt (ausgehend von völliger Verdunkelung) sukzessive aufgehellt. Das in der Medizin für die Ermittlung der Sehschärfe bei Dunkelheit eingesetzte Gerät kann in der Marktforschung verwendet werden, um die Wahrnehmungsentstehung von Objekten bei Dunkelheit oder Dämmerung zu erfassen. Perimeter In der Augenmedizin wird ein Perimeter eingesetzt, um das Gesichtsfeld zu messen. Mit dessen Hilfe wird ein Objekt von der Randzone des Blickfelds des Probanden sukzessive in dessen Mitte gerückt. Im Marketing kann es eingesetzt werden, um die Identifizierung eines Produkts bzw. einzelner Elemente zu analysieren. Sichtspaltdeformation Die Sichtspaltdeformation, auch Zöllner-Verfahren genannt, beruht darauf, dass das zu testende Objekt, z.B. ein Produkt, hinter einem Sichtspalt vorbeigeführt wird. Die <?page no="123"?> 124 Beobachtung Größe des Sichtspalts kann dabei variiert werden. Durch anschließende Befragung wird erfasst, was die Testpersonen erkannt haben. Psychophysiologische Verfahren Definition Psychophysiologische (auch: psychomotorische oder psychobiologische) Verfahren werden eingesetzt, um bei den Probanden unwillkürliche physische Reaktionen auf einen Stimulus zu messen. Daraus wird auf die interessierende, die physische Reaktion hervorrufende psychische Variable geschlossen (Erregung, Aktivierung, Aufmerksamkeit, Emotion). Einsatz finden diese Verfahren insb. in der Produkt- und Werbemittelforschung. Neuere Ansätze für die psychologische Marktforschung gehen vom sog. Consumer Neuroscience aus. Das Problem der traditionellen Marktforschung liegt darin, dass sie nur den bewussten Teil der Willensbildung von Konsumenten erfassen kann. Dieser macht jedoch nur einen Bruchteil der tatsächlichen Entscheidungsfindung aus; bereits seit längerem ist bekannt, dass selbst vermeintlich rationale Entscheidungen in einem hohen Maße von unbewusst ablaufenden Gefühlen beeinflusst werden. Mit Hilfe neurowissenschaftlicher Methoden wird versucht, auch diesen unbewusst ablaufenden Teil des Entscheidungsfindungsprozesses zu beleuchten. Ziel ist es, dadurch ein tieferes Verständnis für das menschliche Konsumverhalten zu erlangen (vgl. Hubert/ Kenning 2008). Neuromarketing ist ein Bestandteil des interdisziplinären Forschungsgebietes Neurowissenschaften, in dem versucht wird, die Abläufe im menschlichen Gehirn im Detail zu verstehen (vgl. Morin 2011). Zur Analyse werden insb. medizinische Untersuchungsmethoden wie die Elektroenzephalografie (EEG) oder die funktionelle Magnetresonanztomographie (fMRT) eingesetzt. Mit ihrer Hilfe ist es möglich, neuronale Gehirnaktivitäten zu messen und bildlich darzustellen. Daraus wird abgeleitet, welche Hirnregionen welche Aufgaben und Funktionen besitzen. Was Mediziner bislang zur Krankheitsaufklärung nutzten, hilft Wirtschaftswissenschaftlern und Psychologen zunehmend, besser zu verstehen, wie Menschen ihre Entscheidungen treffen. So beobachten sie mit Hilfe der bildgebenden Verfahren, welche Bereiche des Gehirns aktiv sind, wenn ein Proband beispielsweise eine Kaufentscheidung trifft. Von besonderem Interesse ist es, nachvollziehen zu können, warum Menschen in bestimmten Situationen nicht rational entscheiden, anders reagieren als erwartet und oft sogar entgegen ihren eigenen, in Befragungen erhobenen Absichten handeln. In der Vergangenheit konnten Marktforscher zwar bestimmte Stimuli variieren (z.B. den Preis für ein Produkt) und die daraus folgenden Reaktionen von Probanden beobachten (z.B. deren Kaufentscheidungen); die zuvor abgelaufenen kognitiven und affektiven Entscheidungsprozesse konnten jedoch lediglich (re-)konstruiert werden. Mit Hilfe neurowissenschaftlicher Methoden versuchen die Forscher inzwischen, diese ursprünglich rein hypothetischen Konstrukte aus der „Black Box“ des Gehirns empirisch nachzuweisen, um auf diese Weise neue Einsichten in das Konsumentenverhalten zu erlangen. Die Mehrzahl der empirischen Studien zum Neuromarketing fokussiert dabei auf Aspekte der Marken-, Kommunikations- und Kaufverhaltensforschung (vgl. Camerer et al. 2004; Kenning et al. 2007, S. 57 f.). Anzumerken ist, dass die Anwendung neurowissenschaftlicher Mehoden <?page no="124"?> Aufzeichnungsverfahren der Beobachtung 125 erhebliche ethische Implikationen hat (vgl. Hensel et al. 2017 sowie Abschnitt 4 im 1. Teil). Beispiel 3.40: Pepsi vs. Coca Cola: Der Einfluss einer Marke auf den Geschmack 1975 führte das Unternehmen Pepsi zu Marketingzwecken seinen inzwischen als Standardbeispiel für die Wirkung von Marken bekannten „Pepsi-Test“ durch. Darin verglichen weltweit Hunderte von Konsumenten den Geschmack von Pepsi Cola und Coca Cola. Hierzu mussten sie beide Getränke aus zwei identisch aussehenden, neutralen Bechern trinken und angeben, welche Cola ihnen besser schmeckte. Das Ergebnis des Blindtests war, dass die überwiegende Mehrzahl der Probanden Pepsi Cola gegenüber Coca Cola vorzog. Interessanterweise verkauft sich Coca Cola aber bis heute deutlich besser als Pepsi Cola. Um diesen Widerspruch aufzuklären, wurde der Pepsi-Test im Jahr 2003 noch einmal wiederholt, wobei zusätzlich die Gehirnaktivitäten der Probanden mit Hilfe der funktionalen Magnetresonanztomographie gemessen wurden. Auch dieses Mal schmeckte den Testpersonen mehrheitlich die Pepsi Cola besser, und auch die Gehirnmessungen ergaben beim Trinken von Pepsi deutlich höhere Aktivitäten in den sog. ventralen Putamen, eine Gehirnregion, die stimuliert wird, wenn Menschen etwas schmeckt. Als das Experiment jedoch abgewandelt wurde und die Teilnehmer von Anfang an wussten, welche Cola-Marke sie tranken, ergab sich, dass rund Dreiviertel Coca Cola geschmacklich präferierten. In der Magnetresonanztomographie zeigte sich, dass nun nicht mehr nur das ventrale Putamen, sondern zusätzlich auch der Bereich des medialen präfronteralen Kortex, ein Bereich im Gehirn, der u.a. für das emotionale Entscheidungsverhalten zuständig ist, aktiv war. Anschaulich ausgedrückt „stritten“ damit ein rationaler und ein emotionaler Gehirnbereich darüber, welche Cola die bessere sei, wobei die rationale Bevorzugung des Pepsi-Geschmacks den emotionalen Assoziationen mit der Marke Coca Cola unterlegen war. Quelle: Montague et al. 2004 Die gebräuchlichsten psychobiologischen Verfahren werden im Folgenden kurz dargestellt. Einschränkend ist darauf hinzuweisen, dass die Anwendung einzelner Verfahren wissenschaftlich nicht unumstritten ist. Psychogalvanometer (Hautwiderstandsmessung) Mit Hilfe eines Psychogalvanometers wird die elektrodermale Reaktion (Hautwiderstand) auf einen Stimulus gemessen. Die elektrische Leitfähigkeit der Hautoberfläche wird dabei als Indikator für die Aktivierung (z.B. bei Präsentation eines Produkts oder eines Werbemittels) herangezogen (vgl. Keitz 2016, S. 236 ff.). Ein Niedrigvoltstrom wird dazu über einen Sensor an der Hand- oder Fußfläche zu einem zweiten Sensor geleitet. Bei Aktivierung reagiert der Organismus mit Schweißabsonderung, wodurch sich die Leitfähigkeit der Haut erhöht (d.h. der Hautwiderstand sinkt) und der Stromfluss, der den zweiten Sensor erreicht, steigt. Die Aktivierung des Probanden zeigt dabei, wie stark die Aktivierung und damit Aufmerksamkeitswirkung des Stimulus ist, nicht jedoch die Richtung. Hirnstrommessung (Elektroenzephalogramm, EEG) Mittels Elektroden, die auf der Kopfhaut des Probanden angebracht sind, werden die elektrischen Aktivitäten des Gehirns erfasst, überwiegend die Aktivität der Cortex <?page no="125"?> 126 Beobachtung (Großhirnrinde) (Morin 2011, S. 133). Aktivitäten im okzipitalen Cortex des Gehirns (Hinterhauptslappen) können auf erhöhte Aufmerksamkeit zurückgeführt werden (welche mit Erinnerung, visueller Verarbeitung und Lernen korreliert), oder aber auf verminderte Aufmerksamkeit (Langeweile). Asynchrone Aktivitäten im frontalen Cortex können hingegen entweder auf Annäherungsverhalten (Mögen, Wollen, Motivation zum Handeln) oder auf Rückzugsverhalten (Abneigung, Vermeidung) hindeuten. Damit lassen sich auch emotionale Vorgänge messen (vgl. hierzu Davidson et al. 1990). Höhe und Verlauf der aufgezeichneten Gehirnströme erlauben Rückschlüsse auf die Aufnahme und Verarbeitung von Reizen, z.B. von Werbemitteln. EEG kann auch in Verbindung mit anderen Verfahren eingesetzt werden, z.B. Eye Tracking. Eine integrierte Lösung wird beispielsweise von SMI angeboten. Facial Coding Registriert werden hier Reaktionsmuster einzelner Muskelgruppen im Gesicht, die die Identifikation diskreter Emotionen erlauben. Hierzu wird mit Hilfe einer hochauflösenden Kamera das Gesicht des Probanden gefilmt und über eine spezielle Software (z.B. FaceReader von Noldus) ausgewertet. Das Gesicht wird in zahlreiche „Key Points“ aufgeteilt (bei FaceReader knapp 500) und Vergleichsdaten von über 10.000 Bildern gegenübergestellt. Abb. 3.19: Beispiel für Facial Coding (Quelle: www.noldus.com/ facereader) Die Auswertung des FaceReaders erfolgt automatisch und liefert eine grafische Darstellung des Emotionsmusters des Probanden. Dieses umfasst Emotionsregungen wie <?page no="126"?> Aufzeichnungsverfahren der Beobachtung 127 z.B. glücklich, traurig, überrascht, neutral, verängstigt, abweisend oder verärgert. Anwendung findet Facial Coding zur Erfassung der Emotionen des Probanden bei der Betrachtung bestimmter Stimuli. Hierfür bietet sich in erster Linie Audio- und Videomaterial an, da hier die Emotionen des Probanden zeitlich mit den Stimuli-Reizen in Verbindung gesetzt werden können. Analysiert werden können aber nicht nur visuelle Stimuli, z.B. Werbemittel, sondern auch sonstige sinnlich wahrnehmbare Reize wie Geräusche, Gerüche, Haptik etc. Abbildung 3.19 zeigt ein Beispiel für Facial Coding mit FaceReader. Funktionelle Magnetresonanztomographie (fMRT) Die funktionelle Magnetresonanztomographie (fMRT) gehört wie EEG zu den sog. bildgebenden Verfahren. Sie zeigt, welche Zentren im Gehirn durch einen Stimulus aktiviert werden (Keitz 2016, S. 241). Das Grundprinzip von fMRT basiert darauf, dass Veränderungen im Sauerstoffgehalt des Blutes gemessen werden. Diese werden durch den Energiebedarf aktiver Nervenzellen hervorgerufen. In einem Zeitfenster von wenigen Sekunden kann fMRT neuronale Aktivitäten millimetergenau lokalisieren. Auf dem Bildschirm erscheint eine detaillierte Abbildung des Gehirns des Probanden, in welcher die Hirnbereiche, die aktiviert wurden, rot-gelb markiert sind. Für das Marketing relevant ist zum einen das Zentrum, das für Belohnungen zuständig ist; es wird angenommen, dass dieses Zentrum durch solche Stimuli aktiviert wird, welche für den Probanden attraktiv sind. Interessant sind auch Bereiche, die eine umfassende kognitive Verarbeitung signalisieren und Indikator für extensive Bewertungsprozesse sein können, oder aber Bereiche, die eine kognitive Vereinfachung signalisieren (und damit Indikator habitualisierter Prozesse sein können). Einzelheiten und Anwendungsbeispiele im Marketing finden sich z.B. bei Hubert/ Kenning 2011 oder Esch et al. 2012. Die Anwendung von fMRT in der Marktforschung ist derzeit auf Grundlagenforschung beschränkt, da die Methodik sehr zeit- und kostenintensiv ist (Keitz 2016, S. 242). Zudem stößt das Verfahren auch methodisch auf Kritik. Weitere psychophysiologische Verfahren Beim Pupillometer handelt es sich um eine Augenkamera, welche die Veränderung des Pupillendurchmessers bei Präsentation eines Stimulus erfasst. Die gemessene Änderung wird als Indikator für den Grad der Aktivierung des Probanden herangezogen. Im Rahmen der Messung der Lidschlagfrequenz wird mittels einer Kamera die Veränderung der Lidschlagfrequenz gegenüber dem Normalwert von ca. 30 Lidschlägen/ Minute als Reaktion auf einen bestimmten Stimulus (z.B. Werbemittel) gemessen. Eine Erhöhung der Lidschlagfrequenz wird als Indikator für die Aktivierung aufgefasst. Bei der Thermografie werden Hauttemperaturschwankungen als Reaktion auf die Darbietung eines Stimulus gemessen. Ein sog. Infrarot-Quarz-Thermometer erfasst die Infrarotlichtabstrahlung des Körpers; diese wird als Indikator für den Aktivierungsgrad herangezogen. Schließlich werden im Rahmen der Stimmfrequenzanalyse dem menschlichen Ohr nicht zugängliche, psychisch bedingte Veränderungen der Stimmfrequenz im Bereich von 8-14 Hz (sog. Mikrotremor) erfasst. <?page no="127"?> 128 Beobachtung Mechanische Verfahren Definition Mechanische Verfahren werden im Rahmen nichtteilnehmender Beobachtungen eingesetzt, um eine planvolle Registrierung und Dokumentation des Beobachtungsgeschehens zu ermöglichen (Sauermann 2008, S. 236). Nachfolgend werden die wichtigsten Techniken skizziert. Eye Tracking (Blickregistrierung, Blickaufzeichnung) Die Grundidee des Eye Tracking besteht darin, dass der Blickverlauf eines Probanden beim Betrachten eines visuellen Stimulus (z.B. Werbeanzeige, Verpackung, TV-Spot) erfasst wird. Dem Eye Tracking kommt insb. im Rahmen der Werbemittelforschung eine große Bedeutung zu (vgl. ausführlich Keitz 2016, S. 224 ff. sowie Abschnitt 2.3 im 8. Teil), die Methodik ist im Marketing jedoch vielseitig anwendbar, u.a. in der Produktforschung, der Handelsforschung, im Rahmen von Usability-Tests von Webseiten u.v.a.m. Anbieter von Eye Tracking-Systemen sind u.a. Tobii und SMI. Die Systeme lassen sich dabei mit anderen Aufzeichnungsverfahren kombinieren, z.B. EEG oder Elektrodermale Reaktion. Im Rahmen der Blickregistrierung kommen vor allem folgende Verfahren zur Anwendung: Mobiles Eye Tracking: Hierbei handelt es sich um eine Spezialbrille, welche die Blickbewegungen direkt erfasst. Dadurch können Blickbewegungen auch am Point of Sales aufgezeichnet werden. Remote Eye Tracking: Hier werden die Augenbewegungen der Testperson mit einer Kamera erfasst, die für den Probanden unauffällig angebracht ist, z.B. am Bildschirm. Das System ist für den stationären Einsatz vorgesehen, die Aufzeichnung erfolgt berührungsfrei, z.B. durch Infrarotlicht und Videoaufzeichnung der Augen. Die am häufigsten verwendeten Darstellungen der Blickaufzeichnung sind Scanpaths und Heatmaps. Die Reihenfolge der Blickbewegungen eines Probanden wird durch Scanpaths verdeutlicht, es wird also der Rezeptionsprozess im engeren Sinne dargestellt. Heatmaps zeigen, wie lange die Gesamtheit der Probanden (kumuliert) auf bestimmte Bereiche - z.B. das Logo einer Anzeige oder eines Produktes im Werbefilm - verweilen. Eine ausführliche Darstellung im Zusammenhang mit Werbemittelforschung findet sich in Abschnitt 3.3.2 im 8. Teil. Reaktionszeitbasierte Verfahren Zu diesen Verfahren zählen neben der Antwortzeitmessung auch die verschiedenen Methoden impliziter Imagemessung. Die Antwortzeitmessung wird häufig ergänzend zu computergestützten Befragungsmethoden eingesetzt. Erfasst wird die Zeit, die z.B. zwischen dem Erscheinen der Frage auf dem Bildschirm und der Eingabe der Antwort verstreicht. Die Antwortzeit dient als Indikator für das Ausmaß an Überzeugung der Testpersonen. Die implizite Imagemessung beruht auf dem Reaktionszeitparadigma: Je schneller eine Antwort gegeben wird, umso instinktiver ist das Antwortverhalten und desto besser können tieferliegende Überzeugungen (implizit) abgebildet werden. Das Reaktionszeitparadigma ist ein wissenschaftlich validiertes Verfahren, um implizite Assoziationen zu <?page no="128"?> Aufzeichnungsverfahren der Beobachtung 129 messen. Es basiert darauf, dass die Probanden am Computer einen Stimulus (z.B. Produkt oder Markenlogo) beurteilen (z.B. die Passung zu einer bestimmten Eigenschaft) und dabei die Antwortzeit (Reaktionszeit) gemessen wird. Es werden dabei nur solche Reaktionen in die Ergebnisanalysen einbezogen, die innerhalb sehr kurzer Zeit abgegeben werden (Ø 1,5 Sek). Diese Beschränkung auf sehr schnelle Reaktionen gewährleistet, dass alle Antworten vom implizit intuitiven System im Gehirn der Probanden produziert wurden und nicht länger durchdacht oder rationalisiert sind. So kann das tatsächlich empfundene (implizite) Image eines Objekts gemessen werden, z.B. einer Marke. Wenn ein Proband beispielsweise die Marke BMW mit Sportlichkeit verbindet, so wird er der Paarung „BMW-sportlich“ schnell zustimmen, da die Eigenschaft in seinem Unterbewusstsein verwurzelt ist. Zu den impliziten Messverfahren gehören u.a. der von Greenwald et al. (1998) entwickelte Implizite Assoziationstest (IAT), der Go-No-go-Assoziationstest (GNAT) oder die Affective Misattribution Procedure (AMP), welche in Laborsituationen eingesetzt werden. Darüber hinaus wurden auch Tools entwickelt, welche im Rahmen von Online-Befragungen eingesetzt werden können. Anwendungsgebiet im Marketing ist die Erhebung des impliziten Images von z.B. Marken und Unternehmen. Eine umfassende kritische Darstellung der einzelnen impliziten Messverfahren findet sich bei Znanewitz et al. 2016. Nonverbale Resonanzmessungen (Programmanalysator) Nonverbale Resonanzmessungen erlauben es den Probanden, die emotionale Bewertung von Stimuli (Likes/ Dislikes) nonverbal zum Ausdruck zu bringen und erfassen typischerweise das Ausmaß an Gefallen bzw. Ablehnung eines Stimulus (vgl. Kroeber- Riel/ Gröppel-Klein 2013, S. 131). Mit Hilfe von Joysticks oder Knöpfen (z.B. rechts für Gefallen, links für Missfallen) bringen die Probanden zum einen die Richtung der mit dem Stimulus verbundenen Empfindung zum Ausdruck, zum anderen - z.B. durch die Zeitdauer des Drückens des Knopfes - auch deren Intensität an. Anders als die weiter oben dargestellten reaktionszeitbasierten Verfahren werden hier bewusste Reaktionsmuster deutlich; dadurch können die Ergebnisse von denen reaktionszeitbasierter Verfahren abweichen (vgl. Keitz 2016, S. 243). Typisches Anwendungsbeispiel ist die Werbeforschung. Scanning Scanning ermöglicht es, den Kassiervorgang im Handel und damit auch die Verkaufsdatenerfassung weitgehend zu automatisieren. Große Bedeutung hat das Scanning im Rahmen von Panelerhebungen erlangt (vgl. ausführlich Teil 4). Ermöglicht wurde die artikelspezifische Datenerfassung durch die Einführung einer einheitlichen Europäischen Artikelnummerierung (EAN) im Jahre 1977. Der EAN-Code (vgl. Abb. 3.20) wird von den Herstellern auf den Produkten angebracht und wird an der Kasse mit Hilfe eines elektronischen Lesegeräts (Scanner) registriert. Länderkennzeichen Bundeseinheitliche Betriebsnummer „bbn“ Individuelle Artikelnummer des Herstellers Prüfziffer 4 0 0 4 7 4 4 0 2 0 9 2 8 Abb. 3.20: Beispiel für eine EAN-Nummer <?page no="129"?> 130 Beobachtung Beim Einlesen wird die EAN-Nummer an einen Computer weitergeleitet, der den Verkauf des Artikels erfasst und dessen Lagerbestand fortschreibt. Gleichzeitig wird der Preis des Artikels an die Kasse gesendet. Die Scannertechnologie erlaubt es, schnellere, genauere und detaillierte Verkaufsdaten zu liefern (Art, Anzahl, Verkaufsart und -datum, Verkaufspreis etc.), was erhebliche Vorteile für Warenbewirtschaftung und Marketing mit sich führt. RFID (Radio Frequency Identification) Dieses technische System ermöglicht es, Daten an Objekten zu lesen und zu speichern, ohne diese zu berühren oder Sichtkontakt zu ihnen zu haben (vgl. ausführlich Kern 2006). Ein RFID-System besteht im Wesentlichen aus einem Sender, dem sog. Transponder, und einem Lesegerät. Im Transponder sind auf einem Chip die relevanten Daten gespeichert (z.B. Artikeldaten). Diese werden auf Abruf ausgesendet und durch das Lesegerät erfasst (vgl. Abb. 3.21). Ähnlich wie Strichcodes dient RFID dazu, Waren schnell identifizieren und damit den Warenfluss beobachten zu können. Allerdings können auf dem Chip deutlich umfangreichere und detailliertere Daten gespeichert werden - also nicht nur Artikelnummer, Menge, Preis etc., sondern auch z.B., um welche konkrete Packung es sich handelt, aktueller Standort u.a. Auch sind die Chips im Gegensatz zu Strichcodes beschreibbar, was die Kennzeichnung etwa bei Sonderpreisaktionen erleichtert. Dies ermöglicht es Logistikunternehmen, sämtliche Sendungen zweifelsfrei zu identifizieren und deren aktuellen Status zu überprüfen. Zudem arbeitet das System über eine Funkverbindung und damit über eine größere räumliche Distanz. Eine besondere Bedeutung hat das System für den Handel sowie für die Logistikbranche, da eine flächendeckende Einführung des Systems erhebliche Kosteneinsparungen sowie eine höhere Prozesseffizienz erwarten lässt. Auch Ladendiebstahl ist mit dieser Technologie praktisch nicht mehr möglich. Bedenken herrschen allerdings im Hinblick auf Daten- und Persönlichkeitsschutz, da Daten über das Kaufverhalten eines Konsumenten auch ohne dessen Einwilligung gespeichert und verarbeitet werden können. Auch ein unbefugtes Ausspähen und eine missbräuchliche Nutzung von Daten seitens Dritten sind nicht gänzlich ausgeschlossen. Abb. 3.21: Funktionsweise von RFID (Quelle: Finkenzeller/ Gebhardt 2012, S. 8 f.) Lesegerät Transponder Daten Takt Energie Applikation Koppelelement (Spule/ Antenne) <?page no="130"?> Aufzeichnungsverfahren der Beobachtung 131 Online-Beobachtung Die Online-Beobachtung eignet sich insb. zur Gewinnung von Nutzerprofilen, z.B. Such- und Bestellverfahren, bevorzugte Informationen und Produkte usw. Als Möglichkeiten der Online-Beobachtung sind insb. Logfile-Analysen sowie der Einsatz von sog. Cookies zu nennen. Daneben besteht die Möglichkeit, das Nutzungsverhalten auf der Grundlage einer freiwilligen Nutzerkennung zu erfassen (vgl. Fantapié Altobelli/ Sander 2001, S. 73 f.). Auf jedem Computer, der mit dem Internet verbunden ist, fallen durch den Zugriff seitens der Nutzer Daten über die Herkunft der Nutzer an, nämlich Host-/ Domain- Name des anfragenden Rechners, Datum und Uhrzeit der Anfrage, Name der abgerufenen Dateien. Diese Daten werden in einem Protokoll, dem sog. Logfile festgehalten. Da dieses Verfahren automatisch ohne Mitwirkung des Nutzers stattfindet, spricht man von einem passiven Messverfahren. Solche Daten bilden die Grundlage zur Ermittlung von Reichweitenkennziffern wie Page Views, Visits u.Ä. Aus diesem Protokoll kann der Content-Provider, der auf dem jeweiligen Server Dienste bzw. WWW- Seiten zur Verfügung stellt, den Nutzer im Normalfall nicht eindeutig identifizieren. Eine eindeutige Identifikation ist nur unter Zuhilfenahme der Daten des Service- Providers möglich, was immer noch sehr aufwändig und in Deutschland bislang verboten ist. Durch Cookies ist es möglich, die einzelnen Nutzer zu identifizieren. Cookies werden bei Abruf einer Webseite bzw. zugehöriger Grafiken vom Server an den eigenen Rechner mitgeschickt. Bei der Erzeugung des jeweiligen Cookies werden anfangs nur Daten aus den Logfiles übernommen, um eine spätere Identifizierung des Nutzers jederzeit wieder zu ermöglichen. Somit ist es dem Content-Provider möglich, spezifisches Online-Verhalten des Nutzers auf seinem Server festzustellen. Ein besonders gutes Nutzerprofil lässt sich generieren, wenn sich mehrere Anbieter zu einem Verbund zusammenschließen. Beispielsweise sind beim DoubleClick-Network die jeweiligen Seiten der Internetanbieter alle auf einem zentralen Server gespeichert, sodass gemeinsame Cookies für den gesamten Werbeverbund angelegt und ausgewertet werden können. Insbesondere in Deutschland bestehen gegen Cookies datenschutzrechtliche Bedenken. Weitere Möglichkeiten der Online-Beobachtung bestehen in der Analyse von Blogs, Brand Communities und sozialen Netzwerken im Internet. Diese unter dem Stichwort „User Generated Content“ agierenden Plattformen enthalten eine Fülle unverzerrter Informationen über aktuelle und potenzielle Kunden, welche durch systematisches Monitoring für das Unternehmen nutzbar gemacht werden können. Weitere mechanische Verfahren Lichtschranken werden zur Zählung von Besuchern, Passanten etc. eingesetzt; darüber hinaus werden Verweildauer und Betrachtungsabstand erfasst. Dieselbe Funktion erfüllen Bewegungsmelder und die Infrarotmessung. Ein Daktyloskop wird zur Identifizierung von Fingerabdrücken eingesetzt. Sein Einsatz in der Marktforschung ermöglicht die Feststellung, ob ein Proband das Testobjekt (z.B. Anzeigenseite, Produkt) berührt hat oder nicht. Ein Einwegspiegel ist eine nur einseitig durchsichtige Glasscheibe, welche das verdeckte Beobachten des Verhaltens von Testpersonen erlaubt. Einwegspiegel werden beispielsweise zur Beobachtung von Gruppendiskussionen eingesetzt, wobei insb. Mi- <?page no="131"?> 132 Beobachtung mik, Gestik etc. analysiert werden. Das Verfahren ist allerdings - wie alle Verfahren der verdeckten Beobachtung - ethisch und juristisch bedenklich. Audio-, Foto- und Videoaufnahme dienen der Erfassung verbaler und nonverbaler Verhaltensweisen. Durch die Aufzeichnung und Speicherung des Beobachtungsgeschehens steht das Material auch zu einem späteren Zeitpunkt zur Verfügung, z.B. zu Kontrollzwecken. Beim Telemeter handelt es sich um ein Zusatzgerät, das an Fernsehgeräten angebracht wird (TC score, TC UMX). Mit dessen Hilfe werden Programmwahl und Einschaltdauer von Testpersonen oder -haushalten erfasst (vgl. die Ausführungen im Zusammenhang mit Fernsehzuschauerpanels in Abschnitt 1.4 im 4. Teil). Die dadurch gewonnen Informationen sind allerdings mit Ungenauigkeiten behaftet. <?page no="132"?> 3 Auswahl der Erhebungseinheiten Die Auswahl der Erhebungseinheiten umfasst zunächst die Entscheidung zwischen einer Voll- und einer Teilerhebung; im Falle einer Teilerhebung ist darüber hinaus der Auswahlplan festzulegen, d.h. die Art und Weise, wie aus einer Grundgesamtheit eine Stichprobe zu gewinnen ist. 3.1 Vollerhebung vs. Teilerhebung Sollen Aussagen über eine größere Anzahl von Untersuchungseinheiten getroffen werden, so kommen prinzipiell zwei Vorgehensweisen in Frage: Vollerhebung und Teilerhebung. Definition Im Rahmen einer Vollerhebung (Zensus) werden sämtliche in Frage kommenden Untersuchungseinheiten in die Erhebung einbezogen (z.B. bei einer Volkszählung). Eine Teilerhebung beinhaltet die Einbeziehung lediglich eines Ausschnitts der Grundgesamtheit, der sog. Stichprobe (Sample), in die Untersuchung. Eine Vollerhebung kommt in der Marktforschung nur in Ausnahmefällen vor, etwa im Rahmen von Händler- oder Herstellerbefragungen, wenn also die Grundgesamtheit zahlenmäßig begrenzt ist. In den meisten Fällen ist die Grundgesamtheit zu umfangreich, oder aber die Anzahl zu erhebender Merkmale ist zu groß, sodass sich eine Vollerhebung aus zeitlichen und finanziellen Gründen verbietet. Den Normalfall in der Marktforschung bildet daher die Teilerhebung. Dabei sollen die Merkmalsträger so ausgewählt werden, dass sie hinsichtlich der Untersuchungsmerkmale repräsentativ für die Grundgesamtheit sind und somit ein sog. Inferenzbzw. Repräsentationsschluss von der Stichprobe auf die Grundgesamtheit möglich wird. Voraussetzung hierfür ist eine Strukturgleichheit (Isomorphie) zwischen Stichprobe und Grundgesamtheit, d.h. die in der übergeordneten Grundgesamtheit bestehenden Relationen müssen sich in der Stichprobe wiederfinden. Im Vergleich zu einer Vollerhebung weist eine Teilerhebung folgende Vorteile auf (vgl. Böhler 2004, S. 131 f.; Malhotra 2010, S. 371): Eine Teilerhebung ist weniger zeit- und kostenintensiv als eine Vollerhebung, da Feldarbeit und Auswertung eine geringere Fallzahl betreffen. Bei einer Teilerhebung ist ein geringerer systematischer Fehler zu erwarten (vgl. die Ausführungen in Abschnitt 1.4), da sie einen geringeren personellen Stab benötigt, der aber dafür besser geschult, gesteuert und kontrolliert werden kann. Dadurch erhält man genauere Ergebnisse als bei einer Vollerhebung. Eine Teilerhebung ist häufig organisatorisch oder technisch nicht durchführbar (z.B. wenn nicht alle Elemente der Grundgesamtheit bekannt sind, oder aber aufgrund personeller oder finanzieller Restriktionen). <?page no="133"?> 134 Auswahl der Erhebungseinheiten Eine Teilerhebung ist die einzige Möglichkeit, wenn die Untersuchungseinheiten im Rahmen der Erhebung zerstört werden müssen (z.B. im Rahmen von Qualitätskontrollen, Crash-Tests u.Ä.). Vorteilhaft ist an einer Vollerhebung das Fehlen eines Zufallsfehlers. Der einer Vollerhebung inhärente systematische Fehler führt allerdings u.U. dazu, dass zur Überprüfung der Genauigkeit einer Volkszählung flankierend Stichprobenerhebungen durchgeführt werden müssen. Schließlich ist eine Teilerhebung zwingend notwendig, wenn eine besondere Dringlichkeit herrscht oder aber wenn ein sog. Testeffekt zu befürchten ist, wenn also bei wiederholter Befragung unterschiedliche Personenkreise zu befragen sind, um Lerneffekte zu vermeiden. 3.2 Festlegung des Auswahlplans 3.2.1 Elemente eines Auswahlplans Wird eine Teilerhebung durchgeführt, so ist ein Auswahlplan zu erstellen, im Rahmen dessen festgelegt wird, in welcher Art und Weise die Erhebungseinheiten auszuwählen sind. Abb. 3.22 zeigt die Arbeitsschritte zur Festlegung eines Auswahlplans im Überblick. Abb. 3.22: Arbeitsschritte zur Festlegung eines Auswahlplans Die erste im Rahmen eines Auswahlplans interessierende Fragestellung ist der Kreis der Untersuchungseinheiten, bei welchen die interessierenden Merkmale erfasst werden sollen. Die hiermit angesprochene Frage der Abgrenzung der Grundgesamtheit setzt die Angabe der Erhebungseinheiten und der Auswahleinheiten wie auch ihre Abgrenzung nach regionalen und zeitlichen Gesichtspunkten voraus. Definition Eine Grundgesamtheit ist die Gesamtheit der Erhebungseinheiten (Untersuchungsobjekte bzw. Merkmalsträger), für welche im Rahmen der Erhebung Aussagen gewonnen werden sollen. Festlegung von Auswahlprinzip, Auswahlverfahren und Auswahltechnik Bestimmung des Stichprobenumfangs Bestimmung der Erhebungsgesamtheit Abgrenzung der Grundgesamtheit <?page no="134"?> Festlegung des Auswahlplans 135 Je nach Fragestellung handelt es sich um Personen, Haushalte, Unternehmen, Handelsgeschäfte usw. Lautet das Forschungsproblem etwa „Ermittlung der Einstellung zu Marke X“, so kommen z.B. folgende alternative Erhebungseinheiten in Frage: alle Personen über 14 Jahren, in Privathaushalten lebende Personen über 14 Jahren, in Privathaushalten lebende Personen über 14 Jahre, die Produkt XYZ mindestens einmal genutzt haben. Definition Eine Auswahleinheit ist eine Einheit, welche auf einer bestimmten Stufe des Auswahlprozesses selektiert werden kann. Bei einstufigen Auswahlverfahren sind sie mit den Erhebungseinheiten identisch, bei mehrstufigen Auswahlverfahren entsprechen sie den Erhebungseinheiten erst auf der letzten Stufe. Beispiel 3.41: Im Rahmen einer Händlerbefragung sollen die Mitglieder der Einkaufsabteilung der sog. Key Accounts befragt werden, d.h. denjenigen Handelsunternehmen, die für den Hersteller einen bedeutenden vordefinierten Umsatzanteil erzielen (Erhebungseinheiten). In einer ersten Stufe entsprechen die Auswahleinheiten den Key Accounts als Ganzes. In einer zweiten Stufe werden innerhalb der Key Accounts die Mitglieder der Einkaufsabteilung als Auswahleinheiten bestimmt. Zur Abgrenzung der Grundgesamtheit sind darüber hinaus das Untersuchungsgebiet (z.B. Deutschland, Deutschland ohne Inseln u.Ä.) sowie der Untersuchungszeitraum (z.B. 1.1.-31.1.2018) festzulegen. Definition Unter einer Erhebungsgesamtheit (auch: Auswahlbasis oder Auswahlgrundlage) versteht man eine bestimmte Abbildung bzw. Zusammenstellung der Grundgesamtheit, aus der die Erhebungseinheiten auszuwählen sind. Beispiele für Erhebungsgesamtheiten sind Adressverzeichnisse, Telefonbücher, Karteien und ähnliche Auflistungen. Zu beachten ist, dass Grundgesamtheit und Erhebungsgesamtheit nicht unbedingt übereinstimmen müssen. So sind Verzeichnisse häufig veraltet, weil aktuelle Sterbefälle, Umzüge oder Abwanderungen (noch) nicht enthalten sind; Telefonverzeichnisse beschränken die Grundgesamtheit der Besitzer eines Telefonanschlusses auf solche, die erstens einen Festnetzanschluss haben (d.h. Telefonkunden, die ausschließlich mobil telefonieren, sind nicht erfasst) und zweitens über eine öffentlich zugängliche Telefonnummer (d.h. keine Geheimnummer) verfügen. Die Beispiele machen deutlich, dass die Erhebungsgesamtheit möglichst stark mit der Grundgesamtheit übereinstimmen muss, damit die Repräsentativität der Erhebung nicht in Frage gestellt wird. <?page no="135"?> 136 Auswahl der Erhebungseinheiten Der Bestimmung des Stichprobenumfangs kommt insofern eine große Bedeutung zu, als von der Stichprobengröße die Genauigkeit der Ergebnisse, aber auch die Kosten der Erhebung wesentlich abhängen: So ist bei zunehmendem Stichprobenumfang - Zufallsauswahl vorausgesetzt - der Stichprobenfehler geringer, andererseits steigen aber auch die Erhebungskosten. Die Bestimmung des Stichprobenumfangs wird in Abschnitt 3.2.5 behandelt. Im nächsten Schritt sind Auswahlprinzip, Auswahlverfahren und Auswahltechnik festzulegen. Genau genommen sind - wie in Abb. 3.22 dargestellt - diese Entscheidungen in Verbindung mit der Bestimmung des Stichprobenumfangs zu treffen, da z.B. das Auswahlverfahren Einfluss auf den Stichprobenfehler bzw. den erforderlichen Stichprobenumfang hat. Definition Das Auswahlprinzip beinhaltet die Entscheidung darüber, ob eine Teilerhebung nach dem Zufallsprinzip erfolgen soll oder nicht. Verfahren der nichtzufälligen Auswahl beinhalten die willkürliche Auswahl, bei welcher eine Repräsentativität gar nicht erst angestrebt wird, und Verfahren der bewussten Auswahl, bei denen versucht wird, Repräsentativität dadurch zu erzielen, dass bestimmte Elemente der Grundgesamtheit gezielt (nach subjektivem Ermessen des Forschers) in die Stichprobe gelangen. Varianten der bewussten Auswahl sind die Quotenauswahl und die Konzentrationsauswahl. Abb. 3.23: Gebräuchliche Auswahlverfahren in der Marktforschung Im Rahmen der Zufallsauswahl erfolgt die Auswahl der Untersuchungseinheiten nach einem Zufallsprozess; sämtliche Elemente der Grundgesamtheit haben eine angebbare, Uneingeschränkte Zufallsstichprobe Geschichtete Auswahl Klumpenauswahl Mehrstufige Auswahlverfahren Zufallsauswahl Willkürliche Auswahl Bewusste Auswahl Auswahlverfahren Vollerhebung Nichtzufällige Auswahl Teilerhebung Quotenauswahl Auswahl nach dem Konzentrationsprinzip <?page no="136"?> Festlegung des Auswahlplans 137 von Null verschiedene Wahrscheinlichkeit, in die Stichprobe zu gelangen. Damit wird der (statistische) Fehler berechenbar. Entscheidet sich der Forscher für eine Zufallsauswahl, ist zusätzlich über die Auswahltechnik zu entscheiden, d.h. die Art und Weise, wie der Zufallsprozess generiert werden soll (z.B. mittels Zufallszahlengenerator). Abbildung 3.23 zeigt die Auswahlverfahren im Überblick; eine ausführliche Darstellung der Verfahren erfolgt in den Abschnitten 3.2.2 und 3.2.3. Im letzten Schritt erfolgt schließlich die konkrete Stichprobenziehung, d.h. die Bestimmung der Erhebungseinheiten unter Anwendung eines vorgegebenen Verfahrens und ggf. unter Einsatz einer bestimmten Technik. Dazu gehört auch die Festlegung, wie mit fehlenden Erhebungseinheiten (z.B.: Person nicht mehr gemeldet/ nicht zu Hause angetroffen/ unbekannt usw.) umzugehen ist. In jedem Falle führen vermehrte Ausfälle, dass die Repräsentativität gefährdet ist, sodass genaue Regeln zu formulieren sind. 3.2.2 Verfahren der nichtzufälligen Auswahl Bei Verfahren der nichtzufälligen Auswahl wird auf einen Zufallsmechanismus bei der Stichprobenzielung verzichtet; dadurch ist der Zufallsfehler nicht berechenbar. Zur nichtzufälligen Auswahl gehören die willkürliche Auswahl sowie Verfahren der bewussten Auswahl. Willkürliche Auswahl Definition Der willkürlichen Auswahl (convenience sample) liegt kein expliziter Auswahlplan zugrunde. Die Merkmalsträger werden aufs Geratewohl ausgewählt. In der Regel werden Personen ausgewählt, welche besonders leicht erreichbar sind (z.B. Befragung auf dem städtischen Marktplatz, auf welchem je nach Tageszeit überwiegend z.B. Schüler, Berufstätige, Einkaufende oder Touristen anzutreffen sind; Befragung von Bekannten). Eine derartige Vorgehensweise führt im Regelfall zu verzerrten Ergebnissen, ein Repräsentationsschluss ist nicht möglich. Wegen des geringen zeitlichen und finanziellen Aufwands wird eine derartige Vorgehensweise in der Praxis trotzdem mitunter durchgeführt, etwa bei Blitzumfragen. Quotenauswahl Definition Im Rahmen einer Quotenauswahl wird die Stichprobe so erzeugt, dass die Verteilungen (i.S. relativer Häufigkeiten) bestimmter erhebungsrelevanter Merkmale in der Stichprobe denjenigen in der Grundgesamtheit entsprechen. Als erhebungsrelevante Merkmale werden dabei soziodemographische Variablen wie Geschlecht, Alter, Familienstand, Beruf etc. herangezogen, die leicht erhebbar sind und deren Verteilungen in der Grundgesamtheit aus der amtlichen Statistik zu entnehmen sind. Ist z.B. für die Grundgesamtheit bekannt, dass der Anteil der über 60-jährigen 32% beträgt, so werden bei einer Stichprobe von 100 Einheiten 32 Personen über 60 <?page no="137"?> 138 Auswahl der Erhebungseinheiten Jahre einbezogen. Jeder Interviewer erhält auf der Basis des Quotenplans eine Quotenanweisung, die er zu erfüllen hat; auf der Grundlage dieser Quotenanweisung kann der Interviewer die zu befragenden Personen nach eigenem Ermessen aussuchen. Tabelle 3.6 zeigt ein Beispiel für eine Quotenstichprobe. Tab. 3.6: Beispiel für eine Quotenstichprobe (Quelle: in Anlehnung an Sander 2011, S. 157) Quotierungsmerkmale Grundgesamtheit (N=100.000) Stichprobe (n=500) Quotenanweisung für einen Interviewer (n=20) Geschlecht weiblich 60.000 300 [12] 1 2 3 4 5 6 7 8 9 10 11 12 männlich 40.000 200 [ 8] 1 2 3 4 5 6 7 8 Alter 16 - 25 Jahre 10.000 50 [ 2] 1 2 26 - 35 Jahre 15.000 75 [ 3] 1 2 3 36 - 45 Jahre 30.000 150 [ 6] 1 2 3 4 5 6 46 - 55 Jahre 20.000 100 [ 4] 1 2 3 4 > 55 Jahre 25.000 125 [ 5] 1 2 3 4 5 Wohnort Stadtteil A 30.000 150 [ 6] 1 2 3 4 5 6 Stadtteil B 50.000 250 [10] 1 2 3 4 5 6 7 8 9 10 Stadtteil C 20.000 100 [ 4] 1 2 3 4 Die Quotenauswahl wird in der Marktforschung sehr häufig angewendet. Zwar ist eine statistische Fehlerberechnung nicht möglich, da es sich um ein bewusstes Auswahlverfahren handelt. Dennoch kann die Güte der Stichprobe nachträglich auf der Grundlage der Verteilungen jener Merkmale beurteilt werden, die bei der Stichprobenziehung nicht quotiert wurden. Die Verteilungen dieser Merkmale in der Stichprobe werden mit den (aus der Bevölkerungsstatistik bekannten) Verteilungen in der Grundgesamtkeit verglichen. Wurden beispielsweise für eine Quotenstichprobe wie im Beispiel der Tab. 3.6 die Merkmale Geschlecht, Einkommen und Wohnortgröße verwendet, können weitere soziodemographischen Merkmale wie Alter, Schulbildung u.ä. herangezogen werden, um zu überprüfen, ob die Verteilungen dieser Merkmale in der Stichprobe den zugehörigen Verteilungen in der Grundgesamtheit entsprechen. Ist dies der Fall, so kann auf eine hinreichende Repräsentativität der Stichprobe geschlossen werden, wenn auch nicht im statistischen Sinn. Tabelle 3.7 stellt die wesentlichen Vor- und Nachteile der Quotenauswahl im Überblick dar (zu den Vor- und Nachteilen vgl. insb. Kellerer 1963, S. 196 ff.; Hüttner/ Schwarting 2002, S. 132 ff.). Zu beachten ist, dass die Quotenauswahl häufig mit anderen Verfahren kombiniert wird, z.B. im Rahmen mehrstufiger Stichprobenpläne. <?page no="138"?> Festlegung des Auswahlplans 139 Tab. 3.7: Vor- und Nachteile der Quotenauswahl Vorteile Nachteile Einfach durchführbar, da Merkmalsverteilungen aus der Bevölkerungsstatistik bekannt sind Kostengünstig Hohe Flexibilität durch einfachen Austausch von Ausfällen Führt in der Praxis zu befriedigenden Ergebnissen Hohe Ausschöpfungsquote Güte der Stichprobe nachträglich durch Hinzuziehen weiterer Merkmale feststellbar Gefahr von Verzerrungen der Erhebungsergebnisse Subjektive Verzerrung (z.B. Auswahl nach Sympathie) Bequemlichkeitseffekt (Auswahl leicht zu erreichender Personen wie Freunde und Bekannte) Klumpeneffekt (Beschränkung der Auswahl auf bestimmte Regionen oder soziale Schichten) Bewusste Nichteinhaltung oder Verfälschung von Quoten Es können nur wenige Merkmale quotiert werden, da sonst der Erhebungsaufwand zu groß wird Sog. Restquoten sind häufig kaum zu erfüllen (z.B. 16-20-Jährige mit Einkommen > 3000 €) Statistische Fehlerberechnung nicht möglich Ergebnisverzerrungen durch Ausfälle bzw. Auskunftsverweigerungen unbekannt Repräsentativität ist auf die quotierten Merkmale beschränkt Datenmaterial für die Quotenbildung kann veraltet sein Konzentrationsauswahl Definition Bei der Konzentrationsauswahl gelangen nur solche Untersuchungseinheiten in die Stichprobe, welche für den Untersuchungszweck als besonders aussagefähig bzw. relevant angesehen werden. Unterschieden werden hierbei typische Auswahl und Cut-off-Verfahren. Bei der typischen Auswahl wird eine Anzahl charakteristisch erscheinender Elemente als stellvertretend für die Grundgesamtheit herausgegriffen. Eine derartige Vorgehensweise erscheint insb. im Falle einer recht homogenen Grundgesamtheit vertretbar, sodass davon ausgegangen werden kann, dass einige „typische“ Merkmalsträger die gesamte Menge hinreichend gut repräsentieren. Gebräuchlich ist die typische Auswahl im Rahmen qualitativer, explorativer Untersuchungen, nicht jedoch bei quantitativen Erhebungen. <?page no="139"?> 140 Auswahl der Erhebungseinheiten Beispiel 3.42: Im Rahmen einer qualitativen Erhebung zum Thema „Markenpräferenz bei Babynahrung“ wird eine Stichprobe aus 10 als typisch anzusehenden jungen Müttern gebildet, welche sich im Rahmen einer Gruppendiskussion zu diesem Thema äußern und Motive für ihre Produktbzw. Markenwahl diskutieren sollen. Vorteilhaft sind an der typischen Auswahl die Einfachheit und Kostengünstigkeit; problematisch an diesem Verfahren ist die Bestimmung, welche Merkmalsträger typisch sind bzw. was für einen typischen Merkmalsträger charakteristisch ist. Die Ergebnisse hängen somit stark vom subjektiven Urteil des Forschers ab, wodurch die Validität und Repräsentativität der Ergebnisse fragwürdig sind. Tab. 3.8: Überblick über Verfahren der nichtzufälligen Auswahl Merkmale Beispiele Beurteilung Willkürliche Auswahl Wahl solcher Elemente aus der Grundgesamtheit, die besonders leicht zu erreichen sind Befragung von Passanten einer bestimmten Straße zu einer bestimmten Tageszeit Befragung von Freunden oder Bekannten sehr einfach und kostengünstig in der Regel nicht repräsentativ Quotenauswahl Verteilung bestimmter Merkmale in der Stichprobe (Quoten) soll mit der Merkmalsverteilung in der Grundgesamtheit übereinstimmen Innerhalb der Quotenanweisungen ist der Interviewer bei der Auswahl konkreter Erhebungseinheiten frei Erhebung einer Stichprobe von Studenten, deren Verteilung im Hinblick auf Geschlecht, Staatsangehörigkeit, Studiengang und Alter der Verteilung der gesamten Studentenschaft an einer bestimmten Universität entspricht relativ einfach und kostengünstig liefert in der Regel gute Ergebnisse Gefahr der Willkür bei der Auswahl der Erhebungseinheiten durch den Interviewer Es können nur wenige Merkmale quotiert werden Konzentrationsauswahl Cut-off-Verfahren: Beschränkung der Erhebung auf solche Elemente, die für den Untersuchungsgegenstand eine besondere Bedeutung haben Befragung von Kundenunternehmen, die zusammen einen Marktanteil von 80 % haben einfach und kostengünstig Ergebnisse sind stark vom subjektiven Urteil des Untersuchers geprägt Repräsentativität fraglich Typische Auswahl: Herausgreifen jener Elemente aus der Grundgesamtheit, die als besonders charakteristisch erscheinen Befragung typischer Hausfrauen über bevorzugte Reinigungsmittel <?page no="140"?> Festlegung des Auswahlplans 141 Beim Cut-off-Verfahren beschränkt sich die Auswahl auf jenen Teil der Grundgesamtheit, welcher für den Untersuchungsgegenstand als besonders bedeutsam angesehen wird. Gebräuchlich ist dieses Auswahlverfahren insb. in der Industriegütermarktforschung, etwa indem nur die Key Accounts oder allgemein diejenigen Kunden befragt werden, welche insgesamt eine hohe Umsatzbedeutung für den Anbieter haben. Dies könnten z.B. diejenigen Kundenunternehmen sein, welche für 80% seines Gesamtumsatzes verantwortlich sind. Die möglicherweise zahlreichen kleineren Kunden gelangen nicht in die Stichprobe, da sie für den Anbieter nur geringe Relevanz besitzen. Voraussetzung für die Anwendung des Cut-off-Verfahrens ist die Kenntnis, welche Merkmalsträger im Hinblick auf den Untersuchungsgegenstand als wesentlich anzusehen sind. Wie schon bei der typischen Auswahl liegt hier die Gefahr darin, dass die Ergebnisse stark vom subjektiven Urteil des Forschers abhängen, welche Elemente für die Erhebung von besonderer Relevanz sind. Tabelle 3.8 zeigt abschließend wesentliche Charakteristika nichtzufälliger Auswahlverfahren im Überblick. 3.2.3 Verfahren der Zufallsauswahl Definition Verfahren der Zufallsauswahl sind dadurch charakterisiert, dass die Auswahl der Merkmalsträger auf der Grundlage eines (statistischen) Zufallsprozesses erfolgt. Dadurch entfällt der subjektive Einfluss des Forschers bzw. des Interviewers. Jedes Element der Grundgesamtheit (bzw. - genau genommen - der Erhebungsgesamtheit) besitzt eine angebbare, von Null verschiedene Wahrscheinlichkeit, in die Stichprobe zu gelangen. Dadurch kann der Stichprobenfehler (Zufallsfehler) berechnet werden. Aus diesem Tatbestand ergibt sich, dass aus den Stichprobenergebnissen auf die „wahren“ Werte der Grundgesamtheit geschlossen werden kann (Repräsentationsschluss), wobei für den „wahren“ Wert ein bestimmter Bereich (sog. Konfidenzintervall) angegeben werden kann, innerhalb dessen er sich mit einer bestimmten Wahrscheinlichkeit befindet. Die Größe des Konfidenzintervalls hängt dabei c.p. von der Streuung des interessierenden Merkmals ab: Je homogener die Grundgesamtheit im Hinblick auf das interessierende Merkmal ist, umso geringer ist die Streuung, umso näher wird daher der Stichprobenwert beim wahren Wert liegen. Beispiel 3.43: Aus einer Stichprobe von 10 Frauen wird die Markenbekanntheit eines bestimmten Fertiggerichts erhoben. Bei großer Streuung in der Grundgesamtheit (z.B. im Hinblick auf Berufstätigkeit, Bildungsstand, Alter, Einkommen usw.) werden von Stichprobe zu Stichprobe voraussichtlich sehr unterschiedliche Ergebnisse resultieren. Die Zuverlässigkeit der Ergebnisse kann jedoch verbessert werden, wenn man den Stichprobenumfang erhöht. Nachteilig an Zufallsstichproben sind insb. der erhöhte Planungsaufwand sowie die fehlende Möglichkeit, ausgewählte Untersuchungseinheiten durch andere Merkmalsträger zu ersetzen, ohne die Repräsentativität zu gefährden. Im Rahmen von Zufallsstichproben werden folgende Fälle unterschieden (vgl. Böhler 2004, S. 139 f.): <?page no="141"?> 142 Auswahl der Erhebungseinheiten Heterograder Fall: Untersucht wird eine metrische Variable (z.B. Marktanteil); aus dem Stichprobenmittelwert x ist auf den wahren Wert in der Grundgesamtheit zu schließen. Homograder Fall: Das Merkmal ist nominalskaliert (dichotom, wie z.B. Geschlecht, oder multichotom, wie z.B. Schulbildung). Aus dem Anteil p der Besitzer einer bestimmten Merkmalsausprägung in der Stichprobe ist der „wahre“ Anteilswert π in der Grundgesamtheit zu schätzen. Im Folgenden werden die wichtigsten Verfahren der Zufallsauswahl skizziert. Detaillierte Darstellungen finden sich z.B. bei Cochran 1977; Pokropp 1996; Schaich 1998. Einfache Zufallsauswahl Definition Die einfache bzw. uneingeschränkte Zufallsauswahl beruht auf dem sog. Urnenmodell. Jedes Element der Grundgesamtheit besitzt dieselbe Wahrscheinlichkeit, in die Stichprobe zu gelangen. Bei einem Umfang der Grundgesamtheit von N beträgt diese Wahrscheinlichkeit demnach 1/ N. Wird mit n der festgelegte Stichprobenumfang bezeichnet, dann gilt: jedes n-Tupel ( ) n 1 x , , x , d.h. jede mögliche Stichprobe des Umfangs n, hat dieselbe Wahrscheinlichkeit, realisiert zu werden. Diese beträgt beim Modell ohne Zurücklegen (vgl. Schaich 1998, S. 150): ( ) ( ) ! N ! n N n P − = Insgesamt sind dabei ( ) ( ) ! n N ! N N ; n C − = Stichproben des Umfangs n realisierbar. Aus einer gut gemischten Urne bzw. Trommel, welche Kugeln, Namenskärtchen u.Ä. enthält, werden zufällig nacheinander (und in der Marktforschung immer ohne Zurücklegen) Elemente im Umfang der jeweiligen Stichprobengröße gezogen (Lottery Sampling). Aufgrund des Aufwands bei praktischen Fragestellungen werden i.d.R. anstelle von Urnen bestimmte Auswahltechniken herangezogen. Zur Schätzung der unbekannten Parameter in der Grundgesamtheit ist von der Überlegung auszugehen, dass jede Stichprobe - und damit deren Mittelwert bzw. Anteilswert - als Realisierung einer Zufallsvariablen anzusehen ist. Die Stichprobenmittelwerte x bzw. Anteilswerte p schwanken dabei um den wahren Wert bzw. π der Grundgesamtheit. Würde man sämtliche möglichen Stichproben des Umfangs n aus einer Grundgesamtheit N ziehen (c = 1,…C), so würde folgender Mittelwert aller Stichprobenmittelwerte resultieren: = = μ C 1 c c x C 1 , <?page no="142"?> Festlegung des Auswahlplans 143 d.h. der Mittelwert aller Stichprobenmittelwerte ist gleich dem gesuchten Parameter in der Grundgesamtheit. Es gilt also für den heterograden Fall: Der Erwartungswert des Stichprobenmittelwerts ist gleich dem Mittelwert in der Grundgesamtheit: ( ) μ = x E . Für das arithmetische Mittel der Grundgesamtheit gilt dabei: ( ) N , , 1 i x N 1 N 1 i i = = μ = und für den Stichprobenmittelwert x : ( ) n , , 1 i x n 1 x n 1 i i = = = . Die Varianz der Merkmalswerte in der Grundgesamtheit berechnet sich als: ( ) ( ) N , , 1 i x N 1 N 1 i 2 i 2 = μ − = σ = und in der Stichprobe als: ( ) = − − = n 1 i 2 i 2 x x 1 n 1 s (i = 1,..., n). Die Varianz der Stichprobenmittelwerte ist ein Maß für die Streuung der Stichprobenmittelwerte x um den wahren Wert in der Grundgesamtheit. Diese lässt sich aus der Varianz der Merkmalswerte in der Grundgesamtheit ableiten und beträgt: 1 N n N n 2 2 x − − ⋅ σ = σ ; die zugehörige Standardabweichung (Standardfehler) errechnet sich als: 1 N n N n x − − ⋅ σ = σ . Der Korrekturfaktor N-n/ N-1 kann dabei bei einem Auswahlsatz von n/ N < 5 % vernachlässigt werden. Gemäß dem zentralen Grenzwertsatz gilt, dass der Stichprobenmittelwert x bei wachsendem Stichprobenumfang n (Faustregel: n > 30) annähernd normalverteilt ist mit dem Erwartungswert ( ) μ = x E und der Varianz . n / 2 2x σ = σ Auf der Grundlage dieser Überlegungen kann für den Mittelwert ein Konfidenzintervall (Vertrauensbereich) ermittelt werden. Zunächst gilt, dass die Wahrscheinlichkeit, dass ein bestimmter Stichprobenmittelwert realisiert wird, als Flächenanteil der Normalverteilung errechnet werden kann. So wird aus Abb. 3.24 deutlich, dass im Intervall x σ ± μ 68,3 %, 2 x σ ± μ 95,5% und 3 x σ ± μ 99,7% der möglichen Stichprobenmittelwerte liegen. <?page no="143"?> 144 Auswahl der Erhebungseinheiten Abb. 3.24: Normalverteilung des Mittelwerts x im Bereich ± 3 Beispielsweise gilt, dass ein Stichprobenmittelwert x mit einer Wahrscheinlichkeit P von 95,5 % im Intervall [ ] σ ± μ 2 liegt. Es gilt also: ( ) 955 , 0 2 x 2 P x x = σ + μ ≤ ≤ σ − μ , bzw. allgemein: ( ) ), 1 ( z x z P x x α − = σ ⋅ + μ ≤ ≤ σ ⋅ − μ wobei z einen beliebigen Multiplikator für die Standardabweichung bezeichnet (vgl. Böhler 2004, S. 144 f.). Aus der letzten Gleichung erhält man nach Umformungen: ( ) α − = σ ⋅ + ≤ μ ≤ σ ⋅ − 1 z x z x P x x bzw. x z x σ ⋅ ± = μ , d.h. mit einer Wahrscheinlichkeit von 1 − α liegt der gesuchte Mittelwert der Grundgesamtheit im Intervall [ ] x x z x ; z x σ ⋅ + σ ⋅ − . Bei einem Wert z in Höhe von 2 beträgt 1 −α demnach 95,5, d.h. in 95,5% der Fälle wird im angegebenen Intervall liegen. In der Praxis ist der für die Errechnung des Konfidenzintervalls erforderliche Wert von 2x σ i.d.R. nicht bekannt; für x σ wird daher als Schätzer der Standardfehler aus der Stichprobe herangezogen: n s s x = . In diesem Fall ist der Stichprobenmittelwert x allerdings nicht mehr normalverteilt, sondern t-verteilt mit n - 1 Freiheitsgraden. Das gesuchte Konfidenzintervall lautet dann (vgl. Schaich 1998, S. 175): n s t x n s t x ⋅ + ≤ μ ≤ ⋅ − . Da sich die t-Verteilung bei zunehmendem n jedoch asymptotisch einer Normalverteilung annähert, kann ab n > 30 auch mit den tabellierten z-Werten der Normalverteilung gearbeitet werden. 68.26% 95.44% 99.72% μ -2 σ μ -1 σ μ μ +3 σ μ +2 σ μ +1 σ μ -3 σ <?page no="144"?> Festlegung des Auswahlplans 145 In analoger Weise lässt sich im homograden Fall ein Konfidenzintervall für den Anteilswert π der Grundgesamtheit konstruieren (vgl. z.B. Schaich 1998, S. 176 ff.). Sei = = π N 1 i i x N 1 der Anteilswert der Grundgesamtheit mit 1 x i = wenn die Merkmalsausprägung vorhanden ist, 0 sonst; dann ist der Anteilswert in der Stichprobe = = N 1 i i x n 1 p . Die zugehörige Varianz in der Grundgesamtheit lautet: ( ) ( ) − π − ⋅ π = μ − = σ N 1 i 2 i 2 1 x N 1 und in der Stichprobe ( ) ( ) 1 n n p 1 p 1 n n x x n 1 s n 1 i 2 i 2 − ⋅ − ⋅ = − ⋅ − = − . Beim hier betrachteten Modell ohne Zurücklegen erhält man für die Standardabweichung der Anteilswerte in der Grundgesamtheit und in der Stichprobe: ( ) 1 N n N n 1 p − − ⋅ π − ⋅ π = σ bzw. ( ) 1 N n N 1 n p 1 p s p − − ⋅ − − = . Auch hier gilt, dass bei zunehmendem Stichprobenumfang der Anteilswert p annähernd normalverteilt ist (Faustregel: ( ) 9 p 1 p n ≥ − ⋅ ⋅ ). Bei einem Auswahlsatz 05 , 0 N / n < kann der Korrekturfaktor vernachlässigt werden. Ist p in der Grundgesamtheit bekannt, resultiert folgendes Konfidenzintervall für π : p p z p z p σ ⋅ + ≤ π ≤ σ ⋅ − . Dies ist allerdings nicht praktikabel, da σ p den zu schätzenden, unbekannten Wert π enthält. Da ( ) π − ⋅ π 1 jedoch maximal den Wert ½ annimmt, kann das Konfidenzintervall näherungsweise folgendermaßen bestimmt werden (vgl. Schaich 1998, S. 178): n 2 1 z p n 2 1 z p + ≤ π ≤ ⋅ − . Bei unbekanntem σ p wird bei ausreichend großer Stichprobenbewertung als Schätzer für σ p der Standardfehler der Stichprobe s p verwendet: p p s z p s z p ⋅ + ≤ π ≤ ⋅ − . <?page no="145"?> 146 Auswahl der Erhebungseinheiten Beispiel 3.44: Zur Beurteilung eines neuen Tiefkühlprodukts interessiert sich das auftraggebende Unternehmen für das Durchschnittsalter ( ) und den Anteil berufstätiger Frauen ( π ) an den Verwenderinnen des Produkts. Zu diesem Zweck wird eine Stichprobe von n = 400 Käuferinnen des Produkts gezogen. Aus der Erhebung resultieren ein Durchschnittsalter von 5 , 32 x = Jahren und ein Anteil berufstätiger Verwenderinnen von p = 68%. Die Varianz des Alters in der Stichprobe beträgt 2x s = 81. Fall (1): Die Varianzen der Parameter in der Grundgesamtheit sind bekannt. Es gilt σ 2 (Alter) = 100, σ 2 (Berufstätigkeit) = 0,25. Die Vertrauenswahrscheinlichkeit (1 − α ) wird mit 0,95 vorgegeben. Aus der Tabelle der Standardnormalverteilung resultiert damit (bei zweiseitiger Fragestellung) ein z-Wert von 1,96. Die gesuchten Konfidenzintervalle lassen sich wie folgt ermitteln: 400 100 96 , 1 5 , 32 400 100 96 , 1 5 , 32 ⋅ + ≤ μ ≤ ⋅ − , d.h. das Durchschnittsalter der Verwenderinnen liegt mit einer Wahrscheinlichkeit von 95 % im Intervall [31,85; 33,48]. Für den Anteilswert berufstätiger Verwenderinnen gilt: 400 250 , 0 96 , 1 68 , 0 400 25 , 0 96 , 1 68 , 0 ⋅ + ≤ π ≤ ⋅ − , d.h. mit einer Wahrscheinlichkeit von 0,95 liegt der Anteil berufstätiger Verwenderinnen in der Grundgesamtheit zwischen 67,03 und 68,98. Fall (2): Die Varianzen der Parameter in der Grundgesamtheit sind nicht bekannt. Als Schätzwerte werden hier die Varianzen bzw. Standardabweichungen der Parameterwerte in der Stichprobe herangezogen. Da n>30 und n ⋅ p ⋅ (1-p) = 21 > 9 sind, kann auch hier die Tabelle der Standardnormalverteilung herangezogen werden. Für die Standardfehler aus der Stichprobe gilt: 45 , 0 400 81 n s s x = = = und ( ) ( ) 1 400 68 , 0 1 68 , 0 1 n p 1 p s p − − = − − = . Der Korrekturfaktor kann dabei vernachlässigt werden, da der Auswahlsatz als < 0,05 angenommen werden kann. Somit resultieren die folgenden Konfidenzintervalle: . 023 , 0 96 , 1 68 , 0 0,023 1,96 0,68 und 45 , 0 96 , 1 5 , 32 45 , 0 96 , 1 5 , 32 ⋅ + ≤ π ≤ ⋅ − ⋅ + ≤ ≤ ⋅ − Damit liegt bei unbekannten Varianzen in der Grundgesamtheit das Durchschnittsalter in der Grundgesamtheit mit einer Wahrscheinlichkeit von 95 % im Intervall [31,62; 33,38] und der Anteil berufstätiger Frauen im Intervall [63,49; 72,5]. <?page no="146"?> Festlegung des Auswahlplans 147 Die einfache Zufallsauswahl findet ihre Anwendung insb. bei kleinen, vergleichsweise homogenen Grundgesamtheiten. Vorteilhaft ist neben der einfachen Durchführung die Tatsache, dass die Kenntnis der Merkmalsstruktur der Grundgesamtheit nicht erforderlich ist. Problematisch ist, dass die Elemente der Grundgesamtheit vollständig erfasst und zugänglich sein müssen, z.B. in Form von Adressenverzeichnissen. Zudem gilt, dass im Vergleich zu anderen Verfahren der Zufallsauswahl bei gleichem Zufallsfehler ein größerer Stichprobenumfang erforderlich ist, da viele Merkmale in der Grundgesamtheit eine sehr hohe Varianz aufweisen, welche sich auch in der Stichprobenvarianz niederschlägt. Geschichtete Zufallsauswahl Definition Bei einer geschichteten Zufallsauswahl (Stratified Sampling) wird die Grundgesamtheit zunächst nach einem bestimmten Merkmal in Untergruppen (Schichten) zerlegt. Aus diesen Schichten werden anschließend separate Stichproben gezogen. Die Methode bietet sich an, wenn ein Merkmal in der Grundgesamtheit eine besonders hohe Varianz besitzt. Dieses Verfahren ermöglicht es, den Stichprobenfehler zu reduzieren, da die Streuung zwischen den Schichten entfällt. Damit ist die geschichtete Auswahl insb. dann geeignet, wenn die Grundgesamtheit insgesamt heterogen ist, aber aus vergleichsweise homogene Teilgruppen zusammengesetzt ist (z.B. Tante-Emma- Läden, Supermärkte und Discounter). Die Verteilung des Schichtungsmerkmals in der Grundgesamtheit muss allerdings bekannt sein. Eine geschichtete Stichprobe kann wie folgt ausgewertet werden (vgl. Böhler 2004, S. 151 f.): In jeder Schicht k (k = 1 …, K) werden k x und k x s errechnet und zur Schätzung der tatsächlichen Werte k (inkl. der zugehörigen Konfidenzintervalle) herangezogen. Aus den Stichprobenwerten k x und k x s werden zunächst der Gesamtmittelwert x und die Standardabweichung x s errechnet. Diese werden anschließend - wie bei der einfachen Zufallsauswahl - zur Bestimmung des Konfidenzintervalls für herangezogen. Im Rahmen einer proportionalen Schichtung stehen die Schichten in der Stichprobe im gleichen Verhältnis wie in der Grundgesamtheit. Der Mittelwert resultiert als gewogener Durchschnitt aus den Schichtenmittelwerten. Eine proportionale Schichtung ist sinnvoll, wenn die Streuungen des interessierenden Merkmals innerhalb der Schichten annähernd gleich sind. Bei stark unterschiedlichen Streuungen oder aber für den Fall, dass relativ kleine Schichten eine besondere Bedeutung für das Untersuchungsergebnis haben, wird eine sog. disproportionale Schichtung vorgenommen. Hier sind die Auswahlsätze für die einzelnen Schichten in der Stichprobe nicht identisch mit den Relationen in der Grundgesamtheit. Beispielsweise kommen umsatzstarke Betriebe mit einem größeren Anteil in die Stichprobe, als ihnen <?page no="147"?> 148 Auswahl der Erhebungseinheiten gemäß ihrer relativen Anzahl zustünde, da ihre Umsatzbedeutung mit berücksichtigt wird. Von diesen Grundgedanken lassen sich Marktforschungsinstitute wie z.B. Nielsen und GFK im Lebensmitteleinzelhandel leiten. Auf diese Weise erzielen die Marktforschungsinstitute trotz hoher Streuung in der Grundgesamtheit vergleichsweise geringe Standardfehler. Beispiel 3.45: Bei der Tiefkühlkost-Erhebung des vorangegangenen Beispiels 3.43 wird eine Schichtung nach dem Wohnort vorgenommen (Stadtgebiet vs. Landgebiet). In der Grundgesamtheit wohnen die Verwenderinnen des Produkts zu 75 % in Städten und zu 25 % auf dem Land; entsprechend werden bei einem Stichprobenumfang von n = 400 300 Frauen aus städtischen und 100 Frauen aus ländlichen Gebieten rekrutiert. Die Mittelwerte in den Schichten betragen 31 x , 33 x 2 1 = = . Der Gesamtmittelwert resultiert dann als: 5 , 32 31 25 , 0 33 75 , 0 x 25 , 0 x 75 , 0 x 2 1 = ⋅ + ⋅ = ⋅ + ⋅ = . Einen Unterfall der disproportionalen Schichtung stellt die optimale Schichtung dar, bei welcher die Schichten proportional zu den Streuungen innerhalb der Schichten in der Grundgesamtheit aufgeteilt werden. Dies erlaubt eine Minimierung des Stichprobenfehlers, scheitert in der Praxis jedoch häufig daran, dass entsprechende Informationen über die Verteilung der Schichten in der Grundgesamtheit fehlen. Mehrstufige Zufallsauswahl Definition Eine mehrstufige Auswahl (Multistage Sampling) kann vorgenommen werden, wenn die Grundgesamtheit hierarchisch strukturiert ist. Aus den einzelnen Hierarchiestufen werden Auswahleinheiten gebildet, aus denen nacheinander Zufallsstichproben gezogen werden. Im einfachsten Fall einer zweistufigen Auswahl wird die Grundgesamtheit zunächst in disjunkte Teilmengen (Primäreinheiten) aufgeteilt, welche die Auswahlbasis für die erste Stufe bilden (z.B. Gemeinden). Aus den Primäreinheiten wird eine Zufallsstichprobe gezogen. Untersuchungseinheiten, welche in den gewählten Primäreinheiten enthalten sind (z.B. Haushalte), bilden die Auswahlbasis für die zweite Stufe. Aus jeder ausgewählten Primäreinheit erfolgt eine Zufallsauswahl von Untersuchungseinheiten (Sekundäreinheiten). Beispielsweise kann die Bevölkerung der Bundesrepublik Deutschland hierarchisch nach dem Schema „Bundesland - Gemeinde - Haushalt - Person“ strukturiert werden. In diesem Fall kann im Rahmen einer mehrstufigen Auswahl zunächst eine Stichprobe von Gemeinden auf Landesebene, dann eine Auswahl von Haushalten auf kommunaler Ebene und schließlich eine Auswahl von Individuen, welche letztendlich in die Stichprobe aufgenommen werden sollen, erfolgen. Vorteile ergeben sich hier in einer Kostenersparnis im Rahmen der Datenerhebung aufgrund der räumlichen Konzentration der Untersuchungseinheiten. Auch bietet sich die mehrstufige Auswahl an, wenn für eine uneingeschränkte Zufallsstichprobe keine Auswahlbasis verfügbar ist. <?page no="148"?> Festlegung des Auswahlplans 149 Klumpenauswahl Definition Im Rahmen einer Klumpenauswahl (Cluster sampling) wird die Grundgesamtheit zunächst in sich gegenseitig ausschließende Gruppen (Klumpen) aufgeteilt (z.B. Landkreise innerhalb eines Bundeslandes). Diese stellen die Auswahlbasis dar. Aus der Gesamtheit der Klumpen wird eine Zufallsstichprobe gezogen. Im einfachsten Fall der einstufigen Klumpenauswahl gelangen sämtliche Elemente, die in den gewählten Klumpen enthalten sind, in die Stichprobe; mehrstufige Verfahren sind jedoch ebenfalls möglich. Im Vergleich zur einfachen Zufallsstichprobe hat die Klumpenauswahl eine ganze Reihe von Vorteilen, welche dazu führen, dass sie sich in der Marktforschungspraxis großer Beliebtheit erfreut (vgl. Böhler 2004, S. 153 f.; Malhotra 2010, S. 387): Die Auswahlbasis für die Erhebungseinheiten ist häufig nicht vorhanden (z.B. Liste sämtlicher abhängig Beschäftigter in einer bestimmten Branche). Eine Liste von Betrieben, welche als Klumpen fungieren, ist hingegen vergleichsweise leicht zu beschaffen. Die Liste der Erhebungseinheiten ist oft nicht mehr aktuell. Anstelle eines veralteten Adressverzeichnisses kann beispielsweise ein Stadtgebiet in Häuserblöcke aufgeteilt werden, welche die Auswahlbasis für die Stichprobenziehung bilden. In den gewählten Häuserblöcken werden sämtliche Haushalte befragt (sog. Flächenstichprobe). Dies gewährleistet, dass nur solche Einwohner in die Stichprobe gelangen, welche tatsächlich aktuell in der betreffenden Gemeinde wohnhaft sind. Die Durchführung der Erhebung ist häufig weniger aufwändig, da die Datenerhebung räumlich konzentriert werden kann (z.B. Befragung sämtlicher Beschäftigter an ihrer gemeinsamen Arbeitsstätte). Nachteilig an der Klumpenauswahl ist der Klumpeneffekt, welcher dann auftritt, wenn die Untersuchungseinheiten innerhalb eines Klumpens im Hinblick auf die Untersuchungsmerkmale homogener sind als dies bei einer einfachen Zufallsauswahl zu erwarten wäre. Die Klumpen sind dann weniger repräsentativ für die Grundgesamtheit. Ein Beispiel wäre etwa ein bestimmtes Stadtgebiet bzw. Viertel, das überwiegend Haushalte mit überproportional hohem Einkommen enthält. Kommt dieser Klumpen in die Stichprobe, so sind einkommensstarke Haushalte entsprechend überräpresentiert. Die Repräsentativität ist dabei in hohem Maße von der Feinheit der Klumpenbildung abhängig. Ist die Grundgesamtheit in viele kleine Klumpen aufgeteilt ist eine bessere Repräsentativität zu erzielen als bei nur grober Gliederung der Grundgesamtheit in wenige Klumpen. Abgemildert werden kann der Klumpeneffekt durch eine Ausdehnung der Stichprobengröße, welche infolge der erleichterten Datenerhebung im Regelfall problemlos möglich ist und nur mit vergleichsweise geringen zusätzlichen Erhebungskosten behaftet ist. Dies bedeutet, dass im Vergleich zu einer einfachen Zufallsauswahl der Stichprobenumfang bei gleichen Kosten u.U. erheblich ausgeweitet werden kann, sodass trotz Klumpeneffekts genauere Ergebnisse erzielt werden können. Tabelle 3.9 zeigt die dargestellten Verfahren der Zufallsauswahl im Überblick. <?page no="149"?> 150 Auswahl der Erhebungseinheiten Tab. 3.9: Überblick über Verfahren der Zufallsauswahl Merkmale Beispiele Beurteilung Einfache Zufallsstichprobe Unmittelbare zufällige Ziehung einer Stichprobe aus der Grundgesamtheit Grundlage: Urnenmodell Zufällige Ziehung von 100 Käufern aus der Gesamtheit der Käufer eines Produkts Einfache Durchführung Größerer Stichprobenumfang als bei den anderen Verfahren der Zufallsauswahl erforderlich (bei gleichem Stichprobenfehler) Sämtliche Elemente der Grundgesamtheit müssen erfasst und zugänglich sein. Geschichtete Zufallsstichprobe Grundgesamtheit wird in mehrere Schichten aufgeteilt, aus denen jeweils eine einfache Zufallsstichprobe gezogen wird Proportionale Aufteilung: im Verhälnis zum Umfang der Schichten Optimale Aufteilung: im Verhältnis zu den Streuungen innerhalb der Schichten Aufteilung der Kunden in Gewerbe- und Privatkunden Ziehung je einer Zufallsstichprobe aus den Gewerbe- und den Privatkunden Im Vergleich zur einfachen Zufallsstichprobe Reduzierung des Stichprobenfehlers (bei gleichem Stichprobenumfang) Verteilung der interessierenden Merkmalsdimensionen muss bekannt sein Klumpenauswahl Aufteilung der Grundgesamtheit in Klumpen (meist natürliche Gruppierungen von Untersuchungseinheiten) Aus der Gesamtheit der Klumpen wird zufällig eine Stichprobe gezogen Alle Elemente der gezogenen Klumpen gehen in die Stichprobe ein Ziehung einer Stichprobe von Einzelhandelsgeschäften aus der Gesamtheit der Läden, die das Produkt führen Erfassung des Markenwahlverhaltens aller Käufer der betrachteten Geschäfte während eines vorgegebenen Zeitraums Struktur der Grundgesamtheit braucht nicht im Einzelnen bekannt zu sein Durchführung der Erhebung i.d.R. weniger aufwändig Repräsentation der Grundgesamtheit durch die Klumpen nicht immer gegeben Mehrstufige Auswahl Aufteilung der Grundgesamtheit in Teilmengen (Primäreinheiten) Zufallsauswahl aus der Menge der Primäreinheiten Zufallsauswahl von Untersuchungseinheiten aus jeder ausgewählten Primäreinheit (Sekundäreinheiten) Aufteilung der Grundgesamtheit in Gemeinden Zufällige Auswahl einer Stichprobe von Gemeinden Aus den gewählten Gemeinden Zufallsauswahl von Personen Vereinfachung der Durchführung der Erhebung, wenn die Grundgesamtheit hierarchisch gegliedert ist Geeignet, wenn keine Auswahlbasis für eine einfache Zufallsauswahl verfügbar ist <?page no="150"?> Festlegung des Auswahlplans 151 Auswahltechniken der Zufallsauswahl Der einfachen Zufallsauswahl liegt das Urnenmodell ohne Zurücklegen zugrunde. Aufgrund des Aufwands, welchen diese Vorgehensweise bei realen Grundgesamtheiten implizieren würde (etwa Anfertigen von Namenskärtchen bzw. Kugeln, Beschaffung einer Urne in entsprechender Größe usw.) bedient man sich in der Praxis besonderer Auswahltechniken. Dazu gehören sog. Zufallszahlentafeln sowie sog. Ersatzverfahren. Zufallszahlentafeln enthalten Ziffern, welche durch Zufall gewonnen werden (z.B. mit Hilfe eines Zufallszahlengenerators). Konstitutiv für eine Zufallszahlentafel ist die Tatsache, dass jede der Ziffern 0 bis 9 an jeder beliebigen Stelle der Tafel vor der Herstellung die Wahrscheinlichkeit 0,1 hatte, realisiert zu werden (vgl. Schaich 1998, S. 151). Tabelle 3.10 zeigt einen Ausschnitt aus einer Zufallszahlentafel. Anstelle tabellierter Zufallszahlen wird mittlerweile in der Praxis ein Zufallszahlengenerator verwendet, der entsprechende Ziffernfolgen mit der gewünschten Stellenzahl automatisch generiert. Tab. 3.10: Auszug aus einer Zufallszahlentafel (Quelle: Schaich 1998, S. 151) 2671 4690 1550 2262 2597 8034 0785 2978 4409 0237 9111 0250 3275 7519 9740 4577 2064 0286 3398 1348 0391 6035 9230 4999 3332 0608 6113 0391 5789 9926 2475 2144 1886 2079 3004 9686 5669 4367 9306 2595 5336 5845 2095 6446 5694 3641 1085 8705 5416 9066 Voraussetzung für die Anwendung ist eine lückenlose Durchnummerierung der Grundgesamtheit. Die Vorgehensweise soll anhand eines Beispiels erläutert werden. Detaillierte Ausführungen finden sich bei Schaich 1998, S. 152 ff. Beispiel 3.46: Die Grundgesamtheit betrage N = 100.000; die Elemente der Grundgesamtheit seien von 00000 bis 99999 durchnummeriert. Damit sind aus der Zufallszahlentafel fünfstellige Ziffernfolgen zu entnehmen; bei reihenweisem Vorgehen also: 26714 69015 50226 22597 80340 … Bei einer Stichprobe von beispielsweise n = 100 werden die ersten 100 der auf diese Weise gewonnenen fünfstelligen Ziffernfolgen herangezogen. Durch Zuordnung der Zufallszahlen zu den Elementen der Grundgesamtheit mit den entsprechenden Nummern erhält man die Stichprobe im gewünschten Umfang. Zu den gebräuchlichsten Ersatzverfahren zur Gewinnung uneingeschränkter Zufallsstichproben zählen: Schlussziffernverfahren, Systematische Auswahl mit Zufallsstart, Geburtstagsverfahren, Buchstabenverfahren, Schwedenschlüssel und Random Route. <?page no="151"?> 152 Auswahl der Erhebungseinheiten Das Schlussziffernverfahren setzt wie die Anwendung einer Zufallszahlentafel voraus, dass die Grundgesamtheit durchnummeriert ist, z.B. von 0 bis N-1; die Nummerierung darf mit der Untersuchungsvariable nicht korrelieren, was beispielsweise dann gewährleistet ist, wenn die Zuordnung nach rein äußerlichen Kriterien - etwa chronologisch - erfolgt. Anschließend wird der Auswahlsatz n/ N bestimmt, der die Grundlage für die Auswahl bildet. Nachfolgendes Beispiel soll die Vorgehensweise erläutern. Beispiel 3.47: Die Grundgesamtheit betrage N = 100.000, die Stichprobe n = 200. Damit ist der Auswahlsatz n/ N = 200/ 100.000 = 2 ‰ der Grundgesamtheit. Aus der Ziffernfolge 000 bis 999 werden zufällig zwei Zahlen gezogen; jede dieser dreistelligen Zahlen kann zur Auswahl von genau 1 ‰ der Grundgesamtheit herangezogen werden. Hat man etwa die Zahlen 498 und 782 gewonnen, so gelangen die Elemente der Grundgesamtheit mit folgenden Nummern in die Stichprobe: 0498; 1498; 2498; … ; 99498 (100 Elemente) und 0872; 1782; 2782; … ; 99782 (100 Elemente). Auch die Anwendung der systematischen Auswahl mit Zufallsstart setzt eine Nummerierung der Grundgesamtheit sowie Unkorreliertheit zwischen der Nummerierung und der Untersuchungsvariablen voraus. Zunächst wird der Kehrwert des Auswahlsatzes gebildet, N/ n. Aus den N/ n-Nummern ) 1 n / ( N ; ; 1 ; 0 − wird zufällig eine Zahl r gezogen; anschließend wird die Stichprobe folgendermaßen gebildet: ( ) n N 1 n r ; ; n N 2 r ; n N r ; r ⋅ − + + + . Beispiel 3.48: Soll aus einer Grundgesamtheit von N = 50.000 eine Stichprobe von n = 400 gezogen werden, so würde jedes k-te Element mit 125 400 000 . 50 n N k = = = in die Stichprobe gelangen. Begonnen wird bei einem zufällig ausgewählten Element, welches sich an r-ter Stelle befindet. Wird beispielsweise per Zufall r = 25 gezogen, werden das 150. Element (25 + 125), das 275. Element (25 + 2 ⋅ 125) usw. in die Stichprobe aufgenommen bis die Stichprobengröße von n = 400 erreicht ist. Das Grundprinzip des Geburtstagsverfahrens besteht darin, dass aus einer Grundgesamtheit von Personen, deren Geburtstag bekannt ist, alle diejenigen in die Stichprobe übernommen werden, welche an einem bestimmten Tag im Jahr Geburtstag haben. Je nach erwünschtem Stichprobenumfang können auch mehrere Tage zugrunde gelegt werden. Erreichbar sind Auswahlsätze von (ungefähr) 1/ 365, 2/ 365 usw., je nach Anzahl der einbezogenen Tage; ein exakter, vorgegebener Stichprobenumfang kann somit nur in Ausnahmefällen erzielt werden. Varianten des Geburtstagsverfahrens werden bei mehrstufigen Auswahlverfahren herangezogen, etwa um aus einem gewählten Haushalt die zu befragenden Personen auszuwählen (vgl. Hüttner/ Schwarting 2002, S. 137): Es ist z.B. die Person zu befragen, welche als erste im Jahr Geburtstag hat oder an dem Tag mit der niedrigsten der Zahlen zwischen 1 und 31 Geburtstag hat oder <?page no="152"?> Festlegung des Auswahlplans 153 vom Befragungstag gerechnet als letzte Geburtstag hatte oder als nächste haben wird, o.ä. Diese Vorgehensweise hat den Vorteil, dass keine Auflistung und Nummerierung der Erhebungseinheiten notwendig ist. Beim Buchstabenverfahren gelangen alle jene Personen in die Stichprobe, deren Familienname mit einem bestimmten Buchstaben oder einer bestimmten Buchstabenfolge beginnt. Damit alle Elemente der Grundgesamtheit die gleiche Wahrscheinlichkeit haben, in die Stichprobe zu gelangen, darf zwischen den Anfangsbuchstaben der Familiennamen und den Untersuchungsmerkmalen kein Zusammenhang bestehen. Auch bei diesem Verfahren kann ein vorgegebener Stichprobenumfang nur ungefähr eingehalten werden. Der Schwedenschlüssel findet oft Verwendung, wenn Personen innerhalb von Mehrpersonenhaushalten zu befragen sind. Dabei wird für jedes Interview und für jede Haushaltsgröße vorgegeben, welche (die wievielte) Person jeweils zu befragen ist. Die Zahl resultiert durch Permutationen der Ziffern 1 bis 4 (häufig: 1 bis 3 oder 1 bis 4, wobei 4 die Haushaltsgröße ist). Beispiel 3.49: Die Erhebungsgesamtheit soll Deutsche über 14 Jahre umfassen, die in Privathaushalten leben. Auszugehen ist von Haushalten mit bis zu vier Personen, die zur Erhebungsgesamtheit gehören. Die Personen in einem Haushalt werden dabei meist nach dem Alter nummeriert. Die Permutationen sind in diesem Fall wie folgt: Interviewnummer A B C D E F G H I J K L … Haushaltsgröße* 2 1 2 1 2 1 2 1 2 1 2 1 2 … 3 1 2 3 1 2 3 1 2 3 1 2 3 … 4 1 2 3 4 1 2 3 4 1 2 3 4 … * Netto, d.h. Zahl der zur Erhebungsgesamtheit zählenden Personen Beim vierten durchzuführenden Interview geht der Interviewer folgendermaßen vorgehen: Bei zwei erhebungsrelevanten Personen im Haushalt ist die zweite zu befragen, bei drei erhebungsrelevanten Personen ist die erste zu befragen, bei vier erhebungsrelevanten Personen ist die vierte zu befragen. Das Random-Route-Verfahren (auch: Random-Walk-Verfahren) wird meist auf der letzten Stufe eines mehrstufigen Auswahlverfahrens eingesetzt. Nach dem Zufallsprinzip werden zunächst ausgewählte Ausgangspunkte für den Start einer Befragung bestimmt (z.B. Straße). Darüber hinaus wird eine exakte Regel vorgegeben, wie der Interviewer von diesem Ausgangspunkt aus weiter vorgehen soll. Beispielsweise wird ihm vorgegeben, er soll jeden dritten Haushalt in jedem zweiten Gebäude auf der linken Straßenseite befragen o.Ä. Es handelt sich somit um eine Variante der systematischen Auswahl. Vorteilhaft sind die räumliche Konzentration der Feldarbeit, die einfachen Kontrollmöglichkeiten sowie die vergleichsweise geringen Kosten; allerdings ist der Zufallscharakter des Verfahrens umstritten und eine statistische Berechnung des Zufallsfehlers ist nur näherungsweise möglich (vgl. Berekoven et al. 2009, S. 53). <?page no="153"?> 154 Auswahl der Erhebungseinheiten 3.2.4 Sonstige Verfahren der Stichprobenauswahl Es gibt eine ganze Reihe weiterer Verfahren der Stichprobenauswahl, welche teilweise eigenständige Verfahren darstellen, teilweise als Kombination der bisher dargestellten Methoden anzusehen sind. Im Folgenden sollen die wichtigsten dargestellt werden: Sequenzielle Auswahl, Schneeballverfahren und ADM Stichprobensystem. Im Rahmen einer sequenziellen Auswahl wird zunächst eine vergleichsweise kleine Stichprobe gezogen und ausgewertet. Im Anschluss daran wird entschieden, ob die erhaltenen Informationen ausreichend sind oder nicht (z.B. im Hinblick auf Präzision, Anwendbarkeit von Verfahren der induktiven Statistik sowie komplexer multivariater Verfahren usw.). Ist dies nicht der Fall, werden solange weitere Stichproben gezogen, bis der Informationsstand als ausreichend angesehen wird. Somit wird nicht von einem festgelegten Stichprobenumfang ausgegangen; dieser ergibt sich vielmehr im Laufe der Untersuchung. Vorteilhaft an der sequenziellen Auswahl ist der Versuch, den Stichprobenumfang zu begrenzen und damit die Erhebungskosten zu kontrollieren. Andererseits entsteht ein nicht unerheblicher Analyseaufwand, da nach jeder erneuten Stichprobenziehung aufgrund der Analyseergebnisse entschieden werden muss, ob der Informationsbedarf bereits befriedigt ist. Eine besondere Form eines Auswahlverfahrens stellt das sog. Schnellballverfahren dar (Snowball oder Linkage Sampling). In einem ersten Schritt wird - üblicherweise nach dem Zufallsprinzip - eine anfängliche Gruppe von Erhebungseinheiten ausgesucht. Stößt man im Rahmen der Befragung auf Erhebungseinheiten, welche über die erhebungsrelevanten Merkmale verfügen, werden diese gebeten, Kontaktdaten von Personen mit gleichen Merkmalen zu nennen. In einer zweiten Erhebungswelle werden die neu gewonnenen Erhebungseinheiten ebenfalls gebeten, Kontaktdaten von Personen, die den gleichen Tatbestand erfüllen, zu nennen usw. (vgl. Goodman 1961). Das Hauptziel des Schneeballverfahrens liegt darin, eine Stichprobe von Personen mit solchen Merkmalen zu gewinnen, die in der Gesamtbevölkerung selten sind und daher bei Anwendung einer Zufallsstichprobe in zu geringem Umfang im Sample vertreten wären. Anwendungsbeispiele sind bestimmte Bevölkerungsgruppen, wie z.B. ethnische Minderheiten, Eltern geistig behinderter Kinder, Träger bestimmter Krankheiten wie HIV-Infizierte etc. In solchen Fällen ist eine Schneeballauswahl deutlich effizienter als eine Zufallsauswahl; die Varianz in der Stichprobe wird deutlich verringert, die Kosten sind begrenzt. Nachteilig ist, dass es sich nicht um eine Zufallsauswahl handelt und damit der Fehler nicht berechenbar ist. Zudem ist mit erheblichen Klumpungseffekten zu rechnen. Beim ADM Stichprobensystem handelt es sich um eine Flächenstichprobe, die vom Arbeitskreis Deutscher Marktforschungsinstitute e.V. (ADM) zur Durchführung von Bevölkerungsstichproben entwickelt wurde, da in Deutschland kein allgemein zugängliches Verzeichnis aller Privathaushalte existiert. Das ADM Master Sample basiert auf sog. Muster-Stichprobenplänen, welche als Baukastensystem konzipiert sind (vgl. ausführlich ADM 1979). Dieser allgemeine Rahmen bildete die Grundlage für die Entwicklung des ADM Master Samples; hierbei handelt es sich um ein System von vorgefertigten Stichproben bzw. „Netzen“, welche den Mitgliedsinstituten des ADM zur Verfügung gestellt <?page no="154"?> Festlegung des Auswahlplans 155 werden und als Grundlage für die Ziehung individueller, konkreter Stichproben dienen (vgl. Heyde 2009). Die folgenden Ausführungen beziehen sich auf die F2F Flächenstichprobe für persönliche Interviews (für Telefoninterviews wurde ein vergleichbares Verfahren entwickelt). Das Stichprobensystem umfasst dabei die folgenden Stufen (vgl. ausführlich z.B. Hüttner/ Schwarting 2002, S. 136 ff.): Auswahl von Sampling Points, Auswahl von Haushalten innerhalb der gezogenen Sampling Points und Auswahl der Zielpersonen in den ausgewählten Haushalten. Die Grundgesamtheit bei Bevölkerungsumfragen in Deutschland ist definiert als Personen, welche in Privathaushalten leben. Um Sampling Points zu bilden, wurde das Gebiet der Bundesrepublik Deutschland in Flächen eingeteilt. 2004 wurde das Stichprobensystem überarbeitet: Anstelle der bis dato zugrunde gelegten Wahlbezirke wurden als Grundlage die Gemeindegliederung der Bundesrepublik, die intrakommunalen Gebietsgliederungen sowie die für die Navigationssysteme erstellten Regionaleinteilungen verwendet. Auf der Grundlage dieser Daten wurden in Deutschland rd. 53.000 Flächen elektronisch abgegrenzt, die jeweils mindestens 350, durchschnittlich 700 Privathaushalte enthalten. Beispielsweise unterscheidet die Gemeinde Uelzen 23 Ortsteile mit 53 - 22.639 Einwohnern; daraus entsanden 20 Sampling-Points mit 626 - 2433 Einwohnern (vgl. BVM 2006). 2011 wurde das Stichprobensystem aktualisiert. Nach diesen Merkmalen wurde vor der Ziehung geschichtet bzw. angeordnet; die daraus entstandenen Zellen bildeten die Auswahlbasis, aus der anschließend die Ziehung erfolgte. Die Ziehung erfolgte dabei proportional zur Zahl der Haushalte. Es wurden insgesamt 128 Stichproben - sog. Netze - gezogen, welche jeweils rd. 250 Sampling Points umfassen und an die beteiligten Marktforschungsinstitute weitergegeben wurden. Die 128 Netze sind überschneidungsfrei und können beliebig kombiniert werden. Im Rahmen der zweiten Stufe erfolgt seitens der Institute die Ziehung von Haushalten nach einer uneingeschränkten Zufallsauswahl. Hierbei wird unterschieden zwischen einer Totalauflistung, bei welcher sämtliche Haushalte in Sampling Point bekannt und aufgelistet sind, und einer Teilauflistung, bei welcher die Begehung in Form eines Random-Route-Verfahrens erfolgt. Innerhalb der einzelnen Haushalte können die Zielpersonen entweder nach dem Zufalls- oder nach dem Quotenprinzip ausgewählt werden (vgl. die Ausführungen in Abschnitt 3.2). Die konkrete Auswahl kann dabei nach verschiedenen Ansatzpunkten erfolgen (vgl. Berekoven et al. 2009, S. 54 f.). Ist die Grundgesamtheit begrenzt, z.B. Haushaltsvorstände, Jugendliche zwischen 14 und 19 Jahren o.ä., so werden alle Zielpersonen befragt, die das Erhebungskriterium erfüllen. Setzt sich die Grundgesamtheit aus allen erwachsenen Personen zusammen, so bestehen für die konkrete Auswahl der Zielpersonen folgende Möglichkeiten: Es werden sämtliche Haushaltsmitglieder befragt, oder es erfolgt eine Auflistung der Haushalte (z.B. alphabetisch oder nach Alter). Anschließend wird pro Haushalt eine Zielperson befragt; als Auswahltechniken kommen Zufallszahlenfolgen, das Geburtstagsverfahren oder der Schwedenschlüssel zum Einsatz (vgl. die Ausführungen in Abschnitt 3.2.3). <?page no="155"?> 156 Auswahl der Erhebungseinheiten 3.2.5 Bestimmung des Stichprobenumfangs Da der Stichprobenumfang zum einen die Präzision des Untersuchungsergebnisses, zum anderen aber auch die Erhebungskosten erheblich beeinflusst, ist die Bestimmung der Stichprobengröße von zentraler Bedeutung. In der Praxis der Marktforschung liegt der bevorzugte Stichprobenumfang je nach Fragestellung im Regelfall zwischen 150 und 3000; bei größeren Stichprobenumfängen besteht die Gefahr, dass der systematische Fehler anwächst und die Verringerung des Stichprobenfehlers dadurch überkompensiert wird. Bei Vorliegen einer Zufallsstichprobe kann der notwendige Stichprobenumfang auf der Basis einer gewünschten Vertrauenswahrscheinlichkeit und einer höchstens zu tolerierenden Fehlersumme errechnet werden. Dies soll im Folgenden anhand der uneingeschränkten Zufallsauswahl gezeigt werden; komplexere Verfahren der Zufallsauswahl kommen c.p. mit kleineren Stichprobenumfängen aus. Aus der Formel für den Standardfehler beim Fall ohne Zurücklegen und unter der Voraussetzung, dass der Auswahlsatz 05 , 0 N / n < ist, n x σ = σ , wird ersichtlich, dass der Standardfehler verringert werden kann, wenn der Stichprobenumfang erhöht wird. Dadurch wird das Konfidenzintervall enger; die Parameterschätzung wird genauer. Zur Bestimmung des notwendigen Stichprobenumfangs wird vom Konfidenzintervall für ausgegangen (heterograder Fall): n z x bzw. z x x σ ⋅ ± = μ σ ⋅ ± = μ . Die absolute Fehlerspanne e resultiert damit als: n z x e σ ⋅ = − μ = . Der notwendige Stichprobenumfang kann ermittelt werden, wenn man sowohl die maximale Fehlerspanne angibt, die man gerade noch tolerieren würde, wie auch die Vertrauenswahrscheinlichkeit (1- α ) bzw. die Irrtumswahrscheinlichkeit α vorgibt. Bei bekannter Standardabweichung σ in der Grundgesamtheit resultiert der notwendige Stichprobenumfang als: 2 2 2 2 e z e z n σ ⋅ = σ − = α α . Analog gilt für den homograden Fall: ( ) n 1 n z p e π − π = σ ⋅ = − π = und ( ) 2 2 e p 1 p z n − ⋅ ⋅ = α . <?page no="156"?> Festlegung des Auswahlplans 157 Beispiel 3.50: Ein Unternehmen möchte das durchschnittliche Einkommen seiner Zielgruppe ermitteln. Die Zielgruppe umfasst insgesamt N = 100.000 Personen. Aus Erfahrungswerten ist bekannt, dass in der Grundgesamtheit mit einer Varianz von σ 2 = 120.000 zu rechnen ist. Soll bei gegebener Vertrauenswahrscheinlichkeit von 95 % die Fehlerspanne nicht mehr als 20 € betragen, so ergibt sich ein notwendiger Stichprobenumfang von 1152 000 . 120 20 96 , 1 n 2 = ⋅ = . Neben dem Einkommen interessiert sich das Unternehmen auch für den Anteil der Rentner in der Zielgruppe. Soll der Anteil der Rentner bei gleicher Vertrauenswahrscheinlichkeit von 95 % nicht mehr als 2 % um den wahren Wert schwanken, ergibt sich: ( ) 1418 18 , 0 1 18 , 0 02 , 0 96 , 1 n 2 = − ⋅ = . In diesem Fall ist der größere Wert des Stichprobenumfangs heranzuziehen, also n = 1418, damit beide Fehlerspannen eingehalten werden. Quelle: In Anlehnung an Sander 2011, S. 170 ff. Die obige Berechnung setzt voraus, dass zur Bestimmung des erforderlichen Stichprobenumfangs die Varianz der Grundgesamtheit bzw. - als Ersatzwert - zumindest die Stichprobenvarianz bekannt ist. Da die Stichprobe jedoch gerade erst gebildet werden soll, liegen derartige Werte in der Regel nicht vor. In diesem Fall ist eine außerstatistische Schätzung vorzunehmen, indem auf Expertenurteile oder ähnlich gelagerte Untersuchungen aus der Vergangenheit zurückgegriffen wird. Anzumerken ist weiterhin, dass eine steigende Vertrauenswahrscheinlichkeit bzw. eine sinkende Fehlerspanne zu einem überproportionalen Anstieg des notwendigen Stichprobenumfangs führen, wodurch die Erhebungskosten enorm ansteigen. Beispiel 3.51: Wie im vorangegangenen Beispiel interessiert das Durchschnittseinkommen in der Zielgruppe. Die Grundgesamtheit beträgt N = 100.000. Die Vertrauenswahrscheinlichkeit soll 95% betragen, die Varianz der Grundgesamtheit wird als σ 2 = 120.000 angenommen. In Abhängigkeit von der maximalen Fehlerspanne resultieren die folgenden erforderlichen Stichprobenumfänge: Bei Kosten pro Interview von ca. 50 € würde die Untersuchung bereits knapp 1.000.000 € kosten, wollte man die Fehlerspanne auf ± 5 € reduzieren. 50 40 30 20 10 5 184 288 512 1152 4610 18439 e n <?page no="157"?> 158 Auswahl der Erhebungseinheiten Weiterführende Literatur Amoo, T., Friedman, H.H. (2000): Overall Evaluation Rating Scales: An Assessment, in: International Journal of Market Research, 42(3), 301-311. Becker, W. (1973): Beobachtungsverfahren in der demoskopischen Marktforschung, Stuttgart. Borg, J., Staufenbiehl, T. (2007): Theorien und Methoden der Skalierung, 4. Aufl., Bern. Campbell, D.T., Russo, M.J. (2001): Social Measurement, Thousand Oaks. Churchill, G.A. (1979): A Paradigm for Developing Better Measures of Marketing Constructs, in: Journal of Marketing Research, 16(1), 64-73. Freese, W. (2016): Mobile Marktforschung, in: planung&analyse, 2016(1), 44-45. Hubert, M., Kenning, P. (2008): A Current Overview of Consumer Neuroscience, in: Journal of Consumer Behaviour, 7(4/ 5), 272-292. Grüner, K.W. (1974): Beobachtung, Stuttgart. Guenzel, P.J., Berkmans, T.R., Cannell, C.F. (1983): General Interviewing Techniques, Ann Arbour. Keitz, B. v. (2016): Diagnostisches Werbetesting mittels apparativer Verfahren: Erfahrungen aus der Werbeforschung, in: Esch, F.-R., Langner, T., Bruhn, M. (Hrsg.): Handbuch Controlling der Kommunikation, 2. Aufl., Wiesbaden, 221-250. Kelle, U., Kluge, S. (1999): Vom Einzelfall zum Typus, Opladen. Kern, Christian (2006): Anwendung von RFID-Systemen, 2. Aufl., Berlin u.a. Maxl, E., Döring, N. (2010): Selbst-administrierte mobile Non-Voice-Marktforschung: Methoden- und Forschungsüberblick, in: transfer - Werbeforschung & Praxis, 56(1), 22-32. Noelle-Neumann, E., Petersen, T. (2005): Alle, nicht jeder. Einführung in die Methoden der Demoskopie, 4. Aufl., Berlin. Sauermann, P. (2008): Die Laborbeobachtung in der Marktforschung - Vorteile und Kritikpunkte, in: Pepels, W. (Hrsg.): Marktforschung. Verfahren, Datenauswertung, Ergebnisdarstellung, 2. Aufl., Berlin, 225-248. Schuman, H., Presser, S. (1996): Questions and Answers in Attitude Surveys, Orlando. Thompson, S.K. (2012): Sampling, 3 rd ed., New York. <?page no="158"?> Teil 4: Panelerhebungen und Kohortenanalysen 1 Klassifikation und Charakterisierung von Panelerhebungen 1.1 Abgrenzung und Systematik von Panelerhebungen Definition Im Rahmen einer Panelerhebung wird ein stets gleicher Sachverhalt zu regelmäßig wiederkehrenden Zeitpunkten bei derselben Stichprobe mit identischer Untersuchungsmethode erhoben. Panelerhebungen dienen somit der Gewinnung von Längsschnittdaten. Ziel von Panelerhebungen ist nicht nur die Erfassung des Marktgeschehens, sondern insbesondere die Ermittlung von Marktveränderungen, etwa als Folge von Marketingmaßnahmen. Besondere Bedeutung haben Panels in der Markenartikelindustrie. Einschränkend sei angemerkt, dass in der Realität die Stichprobe Veränderungen unterliegt - etwa durch Wegfall von Panelmitgliedern und Hinzunahme neuer; auch der erhobene Sachverhalt verändert sich insofern, als die im Rahmen eines Panels erhobenen Warengruppen aufgrund der Fluktuation der Kunden des Marktforschungsinstituts variieren. Die Erhebung von Paneldaten kann sowohl auf der Grundlage von Befragungen als auch von Beobachtungen erfolgen; darüber hinaus kann es - bei entsprechender Anordnung - auch als (quasi-)experimentelles Design angesehen werden (vgl. Hüttner/ Schwarting 2002, S. 183). Im Grunde genommen handelt es sich bei Panelerhebungen aus der Sicht der Unternehmen um Sekundärerhebungen, da Paneldaten i.d.R. von den Marktforschungsinstituten erhoben und gegen Entgelt den Kundenunternehmen zur Verfügung gestellt werden; andererseits werden Panels auch zur Ad-hoc-Forschung im Auftrag einzelner Kunden herangezogen, was sie wieder in die Nähe von Primärerhebungen rückt. Abzugrenzen sind Panelerhebungen von sog. Omnibusbzw. Befragungspanels (vgl. Günther et al. 2006, S. 8). Wie Panels sind Befragungspanels feststehende Stichproben; diese werden jedoch in unregelmäßigen Abständen zu unterschiedlichen Untersuchungsgegenständen befragt. Ein solches Befragungspanel hat den Vorteil der konstanten Stichprobe, wodurch z.B. Fehlkontakte bei der Erhebung in kleinen Zielgruppen vermieden werden. Des Weiteren können aus der Gesamtstichprobe Teilstichproben für spezifische Fragestellungen gezogen werden. Panelerhebungen sind darüber hinaus von Wellenerhebungen abzugrenzen, im Rahmen derer unterschiedliche Stichproben im Zeitablauf zum selben Erhebungsgegenstand untersucht werden; die Stichproben sind bei Wellenerhebungen zwar gleichartig, sie bestehen jedoch bei jeder Befragungswelle aus unterschiedlichen Personen. Ein Beispiel hierfür ist AGOF Internet Facts, im Rahmen dessen Reichweiten von Online- Medien und Nutzungsverhalten der Internetnutzer monatlich erhoben werden. <?page no="159"?> 160 Klassifikation und Charakterisierung von Panelerhebungen Grundsätzlich können Panels nach verschiedenen Kriterien klassifiziert werden: nach dem Untersuchungsgegenstand, nach dem Befragtenkreis sowie nach der Art der Erfassung der Paneldaten. Nach dem Untersuchungsgegenstand können handelsbasierte Panels und Spezialpanels unterschieden werden. Handelsbasierte Panels erfassen den Abverkauf des Handels bzw. den Einkauf von Verbrauchern sämtlicher bzw. ausgewählter Warengruppen, wohingegen Spezialpanels solche Panels bezeichnen, die spezifischen Zwecken dienen. Dazu gehören beispielsweise Fernsehzuschauerpanels, Produkttestpanels, Industriepanels oder Verpackungspanels (vgl. hierzu den Überblick bei Günther et al. 2006, S. 98 ff.). Eine Mischform stellen sog. Single Source-Panels dar, bei welchen neben den Einkäufen der Verbraucher auch deren Mediennutzung erfasst wird. Nach dem Befragtenkreis wird zwischen Handels- und Verbraucherpanels unterschieden. Handelspanels werden in Deutschland u.a. von Nielsen und der GfK unterhalten; die Paneldaten werden mittels Beobachtung auf der Grundlage der Warenbestände sowie der An- und Abverkäufe der interessierenden Artikel im Berichtszeitraum erhoben. Im Rahmen von Verbraucherpanels werden hingegen die Einkäufe der Verbraucher erfasst (Einzelpersonen oder Haushalte). Nach der Art der Erfassung der Paneldaten differenziert man zwischen schriftlicher und elektronischer Erfassung. Im Rahmen der schriftlichen Erfassung tragen die Panelmitglieder ihre Einkäufe in spezielle Formulare ein und senden diese in regelmäßigen Abständen an das Marktforschungsinstitut. Diese Form wurde mittlerweile weitestgehend durch die elektronische Erfassung ersetzt, welche scanningbasiert erfolgt. Je nach dem Ort der Erfassung wird dabei zwischen PoS-Scanning und Inhome-Scanning unterschieden. Eine weitere Form der elektronischen Erfassung erfolgt im Rahmen von Online- Panels. Durch Online-Panels wird versucht, Repräsentativitätprobleme von Online- Untersuchungen dadurch zu beseitigen, dass ein für die spezifische Fragestellung repräsentativer Teilnehmerkreis ausgewählt und wiederholt befragt wird. Typisches Anwendungsgebiet von Online-Panels sind die Online-Werbeforschung (z.B. Test von Werbebannern) sowie die Online-Nutzungsforschung (z.B. welche Webseiten wie lange wie häufig besucht werden). 1.2 Handelspanels Definition Handelspanels erfassen Abverkäufe in Handelsgeschäften, d.h. die Entwicklung von Warenbewegungen, Preisen und Lagerbeständen der einbezogenen Handelsunternehmen. Handelspanels werden vorwiegend von der GfK (Nürnberg) und von Nielsen (Frankfurt) durchgeführt. Abbildung 4.1 zeigt die verschiedenen Formen von (Einzel- )Handelspanels im Überblick. Die Datenerfassung kann sowohl scanningbasiert erfolgen als auch durch Mitarbeiter des Instituts, die in regelmäßigen Abständen (i.d.R. monatlich) für die betreffenden Warengruppen eine Inventur durchführen. Bei scan- <?page no="160"?> Handelspanels 161 ningbasierter Erhebung gelangen die Daten hingegen direkt von den Scannerkassen des Geschäfts in die Datenbank des Instituts. Abb. 4.1: Arten von Handelspanels Standardinformationen aus Handelspanels umfassen insb. Absatzmengen, Umsätze und Marktanteile von Produkten, Distributionsgrad der Produkte (Anteil der Geschäfte, die das Produkt führen, ungewichtet sowie nach Umsatzgrößen gewichtet), Durchschnittspreise, Regalplatz und Promotion-Maßnahmen. Die Informationen können dabei nach Geschäftstypen, Umsatzgrößenklassen oder Standorten weiter untergliedert werden. Einzelhandelspanels haben bereits eine lange Tradition; das erste wurde 1933 von Nielsen etabliert. Unterteilt werden können Einzelhandelspanels in Food-Panels und Non Food-Panels; daneben existieren noch Sonderformen. Food-Panels umfassen sämtliche FMCG-Warengruppen (Fast Moving Consumer Goods), d.h. neben Lebensmitteln auch solche Warengruppen, die üblicherweise im Lebensmitteleinzelhandel verfügbar sind, wie z.B. Körperpflege, Babynahrung, Waschmittel. Aufgrund der Vielfalt an Vertriebswegen für bestimmte Artikel werden dabei nicht nur Geschäfte des Lebensmitteleinzelhandels, sondern auch Drogerien, Getränkeabholmärkte usw. in solche Panels einbezogen (vgl. Günther et al. 2006, S. 79). Nicht alle Handelsbereiche werden jedoch abgedeckt, so fehlen z.B. einige Discounter, der nichtstationäre Einzelhandel und der Versandhandel. Beispiel 4.1: Das Nielsen Handelspanel Im Rahmen des Nielsen Handelspanels wird die Entwicklung von Warengruppen, Marken und Einzelartikeln erhoben. Erfasst werden dabei neben klassischen Lebensmittelgeschäften auch Discounter (außer Aldi, Lidl, Norma), Drogeriemärkte sowie Tankstellenshops. Im Rahmen des Panels sind folgende Erhebungen möglich: kontinuierliche Marktbeobachtung (Retail Measurement), Betrachtung einzelner Handelsketten im Hinblick auf eine spezifische Fragestellung (Key Account Tracking) sowie Erhebung weiterer erklärender Faktoren wie z.B. Platzierungsqualität und Lagerbestände (Store Observation). Retail Measurement Analysen stellen das Kernstück des Panels dar. Das scanningbasierte Handelspanel dient der kontinuierlichen Beobachtung aller im Lebensmittelhandel, in Drogeriemärkten sowie in Tankstellen und Rasthäusern verkauften Produktgruppen. Die Paneldaten liefern Informationen über Marktgrößen, Marktanteile und erklärende Faktoren wie z.B. Preis, Distribution, Promotion. Die Datenbasis liefern Food-Panel Non Food-Panel Sonderformen Einzelhandelspanel <?page no="161"?> 162 Klassifikation und Charakterisierung von Panelerhebungen wöchentliche Scanning-Informationen sowie 4-wöchentlich manuell erhobene Informationen für die nicht verscannten Geschäfte. Der Datenabruf kann zweimonatlich, monatlich oder wöchentlich erfolgen. Die Wochendaten bilden die Grundlage für die Bewertung der Handelswerbung wie kurzfristige Preissenkungen, Displays, Anzeigen in Handzetteln und Tageszeitungen. Key Account Tracking liefert Scanning-Informationen über die Entwicklung von Produkten in einzelnen Vertriebsschienen der großen Handelskonzerne. Dadurch können Markenartikler den Erfolg ihrer Produkte bzw. begleitender Marketingmaßnahmen bei den wichtigsten Handelsketten beobachten; die Daten werden auf Wunsch wöchentlich geliefert, je nach Warengruppe sind Detailinformationen bis zu zwei Jahren rückwirkend verfügbar. Das Modul Store Observation bietet als Ergänzung Informationen über die Präsenz, Platzierung und Frische der in den Geschäften angebotenen Produkte. Die Untersuchung erfolgt auf Basis einer repräsentativen Stichprobe, der Erhebungsbzw. Lieferrhythmus beträgt bis zu 13 Mal pro Jahr. Es können u.a. folgende Informationen erhoben werden: Preis- und Promotiontracking, Platzierungsqualität (Regalplatzierung in Rück-, Greif- oder Streckzone; Sonderplatzierungen), Regalanteile der eigenen Produkte im Verhältnis zur Konkurrenz, Lagerbestände, Ablaufdaten sowie Ausverkäufe. Quelle: Nielsen 2010 Non Food-Panels umfassten ursprünglich insb. die Warengruppen Foto- und Do-ityourself, etwas zeitverzögert die Warengruppen der Braunen und Weißen Ware. Die Erfassungshäufigkeit variiert dabei je nach Warengruppe. Während bei Weißer Ware die Daten im zweimonatlichen Rhythmus erhoben werden, erfolgt die Berichterstattung bei saisonalen Warengruppen seltener, z.B. bei Skisportgeräten dreimonatlich in den Winter- und halbjährlich in den Sommermonaten. Durch die stetige Veränderung der Einzelhandelslandschaft - u.a. das Entstehen neuer und veränderter Absatzkanäle für die Hersteller, etwa der Vertrieb von Notebooks und Handys inklusive Verträge mit Mobilfunkanbieterns bei Discountern wie Aldi und Lidl - haben sich zahlreiche zusätzliche Warengruppen und Vertriebskanäle ergeben, die durch ein Panel abgedeckt werden müssen. Hinzu kömmen neue Distributionskanäle, etwa Mobile und Social Media (M- und F-Commerce), und eine wachsende Tendenz des Handels zu Multi Channel Vertrieb. Aus diesem Grunde müssen für jede Warengruppe die verschiedensten Einzelhandelsbranchen bzw. -betriebsformen im Panel berücksichtigt werden. Neben den Grundformen des Food- und des Non Food-Panels, welche für eine Vielzahl von Warengruppen unterhalten werden, existieren noch gesonderte Panels für ausgewählte Warengruppen bzw. Vertriebskanäle. Ein Beispiel ist das ursprünglich von Nielsen angebotene ScanTrack Pharma, ein Apothekenpanel, im Rahmen dessen der Absatz von Gesundheits- und Körperpflegemitteln in Apotheken erhoben wird; das Panel wurde 2013 von IMS Health übernommen und seither weitergeführt. <?page no="162"?> Verbraucherpanels 163 1.3 Verbraucherpanels Definition Im Rahmen von Verbraucherpanels wird das Einkaufsverhalten von Endverbrauchern erfasst (Einzelpersonen oder Haushalte) mit dem Ziel, Entwicklungen und Trends im Verbraucherverhalten zu ermitteln. Nicht erfasst werden dabei Großverbraucher wie Kantinen, Krankenhäuser etc. Abbildung 4.2 zeigt die verschiedenen Arten von Verbraucherpanels im Überblick. Neben den hier dargestellten Endverbraucherpanels existieren noch sog. Vorverbraucherpanels, etwa mit Autoreparaturbetrieben, Heizungsinstallateuren etc., die hier jedoch nicht näher betrachtet werden sollen. Abb. 4.2: Arten von Verbraucherpanels Standardinformationen aus Verbraucherpanels sind (vgl. Günther et al. 2006, S. 223 ff.): Einkaufsmenge und Einkaufswert (insgesamt und pro Käufer), Anzahl der Käufer (Erstkäufer und Wiederholungskäufer), Durchschnittspreise, Marktanteile (mengen- und wertmäßig), Aktionspreise, Aktionseinkäufe (mengen- und wertmäßig). Verbraucherpanels werden in Deutschland schwerpunktmäßig von Nielsen und der GfK durchgeführt. Die größte Bedeutung haben dabei Haushaltspanels. Im Rahmen eines Haushaltspanels werden Warengruppen erfasst, die grundsätzlich gemeinsam vom Haushalt (und nicht von einzelnen Haushaltsmitgliedern) gebzw. verbraucht werden; erfasst wird allerdings nicht der eigentliche Ge- oder Verbrauch, sondern der Einkauf der einzelnen Produkte (vgl. Hüttner/ Schwarting 2002, S. 185 f.). In Haushaltspanels werden dabei sowohl Waren des Foodals auch des Non Food-Bereichs erfasst. Ähnlich wie bei Handelspanels umfassen Food-Panels neben Lebensmitteln auch solche Warengruppen, die üblicherweise im Lebensmitteleinzelhandel bezogen werden (Fast Moving Consumer Goods). Ein Beispiel ist das GfK ConsumerScan Haushaltspanel. Verbraucherpanel Haushaltspanel Individualpanel Non Food-Panel Food-Panel Non Food-Panel Food-Panel <?page no="163"?> 164 Klassifikation und Charakterisierung von Panelerhebungen Beispiel 4.2: Das GfK ConsumerScan Haushaltspanel Die Stichprobe von ConsumerScan umfasst insgesamt 30.000 private Haushalte (deutsche und ausländische Haushalte). Die beteiligten Haushalte erfassen fortlaufend ihre täglichen Einkäufe im Bereich FMCG, überwiegend scanbasiert. Die Auswertung der Paneldaten gibt Auskunft über Käufercharakteristika, -verhalten, reichweiten, Bedarfsdeckung, Markennamen, Nebeneinanderverwendung u.a. Das Institut bietet folgende Analyseinstrumente an (vgl. GfK 2005a, 2009a): Brand and Market Tracking (laufende Beobachtung von Märkten und Marken, Käufer, Kaufvolumen), Consumer Dynamics (Analyse von Marktveränderungen), Planning (Unterstützung der Planung des Marketing-Mix z.B. durch Erfassung des Kunden-Response), Modelling (Identifizierung von Verhaltensmustern, softwaregestütztes Simulatiions-Modelling, Prognose und Optimierung von Marketingmix-Strategien). Erfasst werden über 300 Warengruppen aus dem Bereich der Fast Moving Consumer Goods. Abbildung 4.3 zeigt die Struktur des GfK ConsumerScan Haushaltspanels. Abb. 4.3: Aufbau des GfK ConsumerScan Haushaltspanels (Quelle: GfK 2009a) Non Food-Panels umfassen Gebrauchsgüter und Dienstleistungen. Ein Beispiel hierfür ist das GfK Consumer Panel Nonfood, welches 20.000 repräsentative Haushalte umfasst und im Rahmen dessen rd. 250 Produktgruppen in den Kategorien Entertainment, Handel und Dienstleistungen, Living und Unterhaltungselektronik erfasst werden (vgl. GfK 2009b). Während Haushaltspanels haushaltsbezogene Einkäufe erfassen, werden im Rahmen von Individualpanels Produkte erfasst, welche unmittelbar das einzelne Individuum betreffen, etwa den persönlichen Bedarf an Kosmetika oder Tabakwaren. Solche Panels können zum einen allgemeiner Natur sein, d.h. es werden die Einkäufe von Panelteilnehmern bzgl. einer ganzen Reihe von üblicherweise nicht im Gesamtverband des Haushalts verbrauchten Waren erfasst (allgemeine Panels). Sonderformen ergeben sich zum Marketingpläne Ziele Market/ Brand Tracking Frühwarnsysteme „Reason Why“ Diagnostik Potenziale Neue Märkte Marketingpläne Ziele Einzelhandel Markenhersteller Marktanteile Einkaufsstättentreue Sortimente Preisstellung Promotion- Effekte Basis und prozentualer Zuwachs durch Promotion, Sonderplatzierung etc. Reichweite Markenloyalität Kaufintensität Nebeneinanderverwendung Käufersegmentierung Extensiv/ Intensiv Soziodemographie Lebensstile Stammkäufer / Gelegenheitskäufer <?page no="164"?> Spezialpanels 165 anderen dadurch, dass von vornherein Verbraucher bestimmter Güter ausgewählt werden, wie Raucher, junge Mütter für die Warengruppe Babynahrung etc. (vgl. Hüttner/ Schwarting 2002, S. 186). Beispiele hierfür sind das GfK Individualpanel, welches zahlreiche Warengruppen im Non Food-Bereich abdeckt, z.B. Musik und Unterhaltungselektronik, Körperpflege u.a., oder das Nielsen Raucherpanel. 1.4 Spezialpanels Spezialpanels werden zu bestimmten Zwecken bzw. für bestimmte Branchen erhoben; wichtige Spezialpanels sind Fernsehzuschauerpanels, Internetnutzungspanels und Mini-Testmarktpanels. Fernsehzuschauerpanels Fernsehforschung wird in Deutschland seit dem Start des Sendebetriebs des ZDF im Jahre 1963 betrieben, zunächst vom Institut Infratam in Wetzlar, danach von der Firma teleskopie in Bonn. Seit 1985 ist die GfK-Fernsehforschung in Nürnberg zuständig. Auftraggeber ist die Arbeitsgemeinschaft Fernsehforschung (AGF), welche 1988 als Zusammenschluss der Öffentlich-rechtlichen mit den Privatsendern entstand. Im Gegensatz zu Verbraucher- und Handelspanels, welche von den Marktforschungsinstituten aufgebaut und betrieben werden und deren Ergebnisse Eigentum des betreibenden Instituts sind und an interessierte Hersteller verkauft werden, wird die Zuschauerforschung im Auftrag der Sender durchgeführt. Die Daten, die die GfK erhebt, stehen der AGF als Auftraggeber exklusiv zur Verfügung, d.h. die Datenverwertungsrechte liegen bei der AGF (vgl. Günther et al. 2006, S. 108). Fernsehzuschauerpanels liefern Daten über die Sehbeteiligungen von Sendern bzw. Sendungen insgesamt und bei einzelnen Zielgruppen, welche als Grundlage für die Planung der Fernsehprogramme dienen können. Darüber hinaus liefern die Daten der Fernsehforschung auch Anhaltspunkte für die Qualität der von den Sendern angebotenen Werbezeiten, d.h. für die Fähigkeit, bestimmte Zielgruppen qualitativ und quantitativ zu erreichen. Diese Daten beeinflussen in hohem Maße die Preisforderungen für die einzelnen Werbezeiten und dienen den Werbetreibenden als Grundlage für ihre Mediaplanung. Beispiel 4.3: AGF/ GFK Fernsehpanel Seit 2012 besteht das AGF-Fernsehpanel aus 5.000 täglich berichtenden Haushalten (Fernsehpanel deutschsprachig), in denen fast 10.500 Personen leben (vgl. Abb. 4.4). Seit 2001 sind neben den deutschen Fernsehhaushalten auch Haushalte einbezogen, deren Mitglieder in Deutschland leben und aus einem anderen Land der Europäischen Union stammen. Damit wird die Fernsehnutzung von 75,02 Mio. Personen ab 3 Jahren bzw. 38,32 Mio. Fernsehhaushalten abgebildet (Stand 01.01.2017). Die Erhebung der Fernsehnutzung erfolgt über spezielle Messtechniken, die von der GfK Fernsehforschung in den Panelhaushalten installiert wird: seit 2009 TC score und seit 2012 TC UMX. Mittels TC score werden die klassischen Empfangswege Kabel (analog und digital), Terrestrik, Satellit sowie analoge Videorecoder erfasst. Zusätzlich erfasst TC score die Nutzung zeitversetzten Sehens über digitale Aufzeichnungsgeräte wie Festplatten- und DVD-Recorder. Die Integration weiterer <?page no="165"?> 166 Klassifikation und Charakterisierung von Panelerhebungen Messmodule ist jederzeit möglich, etwa die TV-Nutzung mit einer TV-Karte am PC, IPTV oder auch mobiles Fernsehen (Handy TV). Abb. 4.4: Die Zusammensetzung des AGF Fernsehpanels (Quelle: https: / / www.agf.de/ forschung/ methode/ fernsehpanel/ , Abruf vom 26.3.2017) Seit 2012 ist für die Messung der stationären Fernsehnutzung das TC UMX Messgerät im Einsatz. Eingesetzt wird das Verfahren vor allem dort, wo TC score aus technischen Gründen nicht einsetzbar ist oder die Akzeptanz in den Haushalten nicht gegeben ist. Aus der Fernsehforschung lassen sich u.a. die folgenden Kennziffern gewinnen: Anteil digitaler Nutzung des Fernsehens, beliebteste Sendungen, Marktanteile der Sender, Sehbeteiligung der Zuschauer im Tagesverlauf, durchschschnittliche tägliche Sehdauer. Die Haushaltsmitglieder melden sich per Knopfdruck mittels der speziell entwickelten Fernbedienung an. Das Messgerät misst und speichert sekundengenau u.a. das An- und Abschalten des Fernsehgerätes, jeden Umschaltvorgang, sämtliche sonstigen Verwendungsmöglichkeiten des Fernsehgeräts (z.B. Videospiele), zeitversetztes Sehen usw. Die Daten werden automatisch an die GfK-Fernsehforschung weitergeleitet. Die Fernsehnutzungsdaten des Panels werden dann auf alle deutschen Fernsehhaushalte hochgerechnet. Ergänzt wird die Panelforschung durch spezielle Ad-hoc-Mediastudien. Darüber hinaus können individuelle Auswertungsservices genutzt werden (z.B. Sehertypologien, individuelle Zielgruppenermittlungen u.a.). Die Einbeziehung von YouTube ist derzeit in Arbeit. Quellen: Arbeitsgemeinschaft Fernsehforschung 2017, GfK 2005b 38,32 private TV-Haushalte* in Deutschland mit 75,02 Mio. Personen ab 3 Jahren 5000 täglich berichtende private TV- Haushalte mit ca. 10.500 Personen Bevölkerung in Deutschland Fernsehpanel Ca. 7.700 : 1 (Haushalte) Ca. 7.200 : 1 (Personen) * Deutschsprachiger Einkommensbezieher Stand: 1.1.2017, alle Werte gerundet <?page no="166"?> Spezialpanels 167 Internetnutzungspanels Zur Erfassung der Internetnutzung bieten sowohl GfK als auch Nielsen Panels an. Erfasst werden u.a. die Seitenaufrufe, die „Wege“ des Nutzers im Internet, die Verweildauer auf bestimmten Seiten usw. Die Daten bilden auch eine wichtige Grundlage für die zielgruppengerechte Platzierung von Werbung auf Internetseiten. Beispiel 4.4: Das Nielsen Internetnutzungspanel Das Panel umfasst etwa 25.000 Teilnehmer (ab 2 Jahren) aus ca. 12.500 Haushalten (Grundgesamtheit). Eine auf den Computern der Panelteilnehmer installierte Software erfasst die geöffneten Internetseiten des aktiven Browsers und speichert alle einzelnen Nutzungsvorgänge sowie die Verweildauer auf den einzelnen Seiten ab. Dies erlaubt die Ermittlung der folgenden Kennziffern: Unique Audience: Netto-Besucher pro Monat, Active Reach: Reichweite in Prozent der Internetnutzer, Universe Reach: Reichweite in Prozent der Grundgesamtheit, Anzahl Seitenaufrufe/ Visits pro Person, Nutzungsdauer pro Person. Daraus lassen sich detaillierte Einblicke in das Online-Verhalten der Nutzer sowie in die Nutzung bestimmter Angebote im Internet gewinnen, etwa Online-Spiele. Die Ergebnisse werden von Nielsen in den monatlich erscheinenden NetView- Statistiken bereitgestellt, diese werden wiederum von der Bayerischen Landeszentrale für neue Medien (BLM) für die Medienanstalten ausgewertet und graphisch aufbereitet. Quelle: Die Medienanstalten 2016, o.S. Mini-Testmarktpanels Mini-Testmarktpanels dienen nicht der laufenden Marktbeobachtung, sondern ermöglichen den Ad-hoc-Test verschiedener Marketing-Mix-Instrumente; insofern handelt es sich um unechte Panels, obwohl sie auf der Grundlage von Haushaltspanels durchgeführt werden. Auch handelt es sich um quasi-experimentelle Untersuchungsdesigns, sodass sie eher den experimentellen Verfahren zuzuordnen sind (vgl. Böhler 2004, S. 58). Aus diesem Grunde sollen sie hier nur skizziert und an anderer Stelle näher charakterisiert werden (vgl. Abschnitt 2.4 im 8. Teil dieses Buches). In Deutschland werden Mini-Testmarktpanels von der GfK angeboten (GfK- BehaviorScan mit dem Testmarkt Haßloch in der Pfalz). Im Rahmen von Mini- Testmarktpanels wird das Einkaufsverhalten der teilnehmenden Haushalte in Einzelhandelsgeschäften, welche mit Scannerkassen ausgestattet sind, registriert. Die Panelmitglieder weisen sich beim Einkauf mit einer ID-Karte aus. Die Haushalte können dabei gezielt mit präparierten Medien aus dem Print- und TV-Bereich konfrontiert werden, sodass verschiedene Elemente des Marketing-Mix wie Einführung neuer oder veränderter Produkte, Fernsehspots, Printanzeigen oder Instore-Aktivitäten getestet werden können. Auf diese Weise können die Wirkungen unterschiedlicher Ausprägungen des Marketinginstrumentariums auf ökonomische Zielgrößen wie Absatz oder Gewinn unter realen Bedingungen getestet werden. <?page no="168"?> 2 Erhebung und Auswertung von Paneldaten Eine Panelerhebung vollzieht sich in folgenden Stufen: Definition der Grundgesamtheit, Festlegung der Stichprobe, Erhebung der Daten sowie Auswertung und Berichterstattung. 2.1 Handelspanels Definition der Grundgesamtheit Die Grundgesamtheit eines Handelspanels (im Folgenden wird auf Einzelhandelspanels als wichtigste Variante eingegangen) umfasst i.d.R. mehrere Geschäftstypen, z.B. Supermärkte, Verbrauchermärkte, Discounter, Drogerien usw. Die Zuordnung zu einem Geschäftstyp erfolgt typischerweise nach folgenden Kriterien (vgl. Günther et al. 2006, S. 11 f.): Verkaufsfläche (Mindestbzw. Höchstverkaufsfläche), Sortiment (bestimmte Warengruppen nach Art bzw. Umsatzanteilen), Zugehörigkeit zu einem bestimmten Handelsunternehmen (z.B. Aldi), Umsatz, besondere Ausschlüsse (z.B. Duty Free-Geschäfte). Zur Definition der Grundgesamtheit können insb. bei filialisierten Handelsunternehmen Basisinformationen aus einer Vielzahl von Datenquellen gewonnen werden. Für die übrigen Handelsunternehmen müssen die panelführenden Institute aufgrund mangelnder Aktualität oder Detailliertheit der Datenquellen jedoch eigene Basisuntersuchungen durchführen. Zu beachten ist ferner, dass bestimmte Geschäfte - z.B. Wochenmärkte, Heimdienste und Versandhandel - von Handelspanels nicht erfasst werden, obwohl sie in der Grundgesamtheit enthalten sind. Damit weicht die Erhebnungsgesamtheit von der Grundgesamtheit ab. Festlegung der Stichprobe Grundsätzlich muss eine Panelstichprobe wie bei jeder Teilerhebung für die Grundgesamtheit repräsentativ sein, d.h. die Ergebnisse aus der Stichprobe müssen Rückschlüsse auf die Grundgesamtheit erlauben; des Weiteren muss man aus ihr die Werte der Grundgesamtheit mit hinreichender Genauigkeit (gemessen an der Standardabweichung) schätzen können (vgl. die Ausführungen in Abschnitt 3.2 im 3. Teil). Bei Handelspanels erfolgt die Erhebung typischerweise auf der Grundlage einer disproportional geschichteten Stichprobe. Das bedeutet, dass große Geschäfte in der Stichprobe stärker vertreten sind als in der Grundgesamtheit. Der Grund liegt darin, dass große Geschäfte ein deutlich breiteres und tieferes Sortiment als kleinere aufweisen und da- <?page no="169"?> 170 Erhebung und Auswertung von Paneldaten mit das Spektrum der Waren vollständiger abbilden, insb. bei selten gekauften Gütern. Die Disproportionalität wird bei der Hochrechnung dann ausgeglichen. Zur Schichtung werden i.d.R. die verschiedenen Geschäftstypen verwendet. Darüber hinaus ist die relative Bedeutung der Genauigkeit der Totalschätzung (g 1 ) im Vergleich zur relativen Bedeutung der Schätzung innerhalb der Schichten (g 2 ) zu berücksichtigen, da bei Panels auch die Streuung innerhalb der einzelnen Schichten wichtige Informationen liefert. Die erforderliche Stichprobe einer jeden Schicht i, n i , berechnet sich wie folgt: ⋅ + ⋅ ⋅ + ⋅ ⋅ = i 2i 2 2i 2i 1 2i 2 2i 2i 1 i s g s w g s g s w g n mit w i = Anteil der Schicht i in der Grundgesamtheit, s i = Standardabweichung der Schicht i in der Grundgesamtheit, die aus der Stichprobe geschätzt wird. Der Anteil einer Schicht ergibt sich in der Praxis näherungsweise als Mittelwert aus dem nummerischen und dem wertmäßigen Umsatzanteil, um zahlenmäßig kleine, aber umsatzmäßig bedeutende Geschäfte in der Stichprobe angemessen zu berücksichtigen (vgl. hierzu Günther et al. 2006, S. 20 ff.) Innerhalb der einzelnen Schichten erfolgt dann eine Quotenauswahl, z.B. anhand der Merkmale Geschäftstyp, Geschäftsgröße, Gebiet und Zugehörigkeit zu Handelsunternehmen/ Vertriebsschienen. Erhebung Im Handelspanel sind grundsätzlich verschiedene Erhebungsverfahren möglich (vgl. Berekoven et al. 2009, S. 137 ff; Günther et al. 2006, S. 37 ff.): körperliche Inventur oder elektronische Erfassung. Die körperliche Inventur wird mittlerweile nur noch in Ausnahmefällen eingesetzt, die Institute sind mittlerweile flächendeckend zur elektronischen Erfassung übergegangen. Die Verkäufe werden direkt von den Warenwirtschaftssystemen oder indirekt über die Scannerkassen erfasst, welche aber selbst an das Warenwirtschaftssystem gekoppelt sind. Auf diese Weise kann eine artikelgenaue Erfassung der Abverkäufe erfolgen; damit werden den jeweiligen Preisen auch die tatsächlichen Mengen zugeordnet. Idealerweise erfolgt die Erhebung der Einkäufe des Handels mittels Datenträgeraustausch, was die Erhebungsarbeit für die Institute erheblich vereinfacht. Neben Vorteilen wie höhere Genauigkeit und Vereinfachung der Erhebung erlaubt diese Methode eine häufigere und damit aktuellere Berichterstattung wie auch die schnellere Erfassung der Wirkungen von Marketingmaßnahmen. <?page no="170"?> Handelspanels 171 Auswertung Da im Rahmen von Handelspanels eine disproportionale Stichprobe zugrunde gelegt wird - d.h., große Geschäfte sind in der Stichprobe überpräsentiert - muss zunächst zu Zwecken der Hochrechnung diese „Schiefe“ ausgeglichen werden (vgl. hierzu ausführlich Günther et al. 2006, S. 56 ff.). Die Standardauswertungen umfassen beim Handelspanel eine ganze Reihe von Kennziffern (vgl. Berekoven et al. 2009, S. 148; Günther et al. 2006, S. 128 ff.): Verkauf Die Abverkäufe des Handels für die einzelnen Marken werden sowohl mengenals auch wertmäßig ausgewiesen; des Weiteren erhält man durch Relativierung anhand der Verkaufsmengen bzw. Umsätze der Warengruppe die mengenbzw. wertmäßigen Marktanteile der einzelnen Marken. Zukauf Unter Zukauf versteht man die Einkäufe der verschiedenen Handelsunternehmen bzw. Absatzmittler während der Berichtsperiode. Auch dieser Wert wird mengen- und wertmäßig ausgewiesen sowie für die einzelnen Marken auf die entsprechenden Werte der Warengruppe insgesamt bezogen. Bestand Der Bestand bezeichnet alle Bestände eines Artikels am Erhebungsstichtag. Erhoben werden dabei z.B. die Kennziffern Bestand Menge Gesamt, Bestand Menge Lager, Bestand Menge Regal sowie Bestand Menge Display. Analog werden die wertmäßigen Bestände durch Multiplikation mit dem Preis am Erhebungsstichtag gewonnen. Die verschiedenen Bestandsmengen bzw. -werte können darüber hinaus auf die Gesamtmengen bzw. -werte der Warengruppe bezogen werden. Distribution Handelspanels weisen eine ganze Reihe von Distributionskennziffern aus, z.B. Distribution Gesamt (Anteil der Geschäfte, die einen Artikel bzw. eine Produktgruppe führen), Distribution Verkauf (Anteil der Geschäfte, in denen ein Artikel in der Berichtsperiode tatsächlich verkauft wurde), etc. Die Werte werden sowohl als Prozentsatz der Geschäfte ausgewiesen, in denen ein Artikel geführt (verkauft, eingekauft oder im Bestand war), als auch bezogen auf den Warengruppenumsatz. Die Distributionsdaten gehören dabei zu den wichtigsten Informationen von Handelspanels, zumal diese - im Gegensatz zu Absatzmengen, Umsätzen oder Marktanteilen - aus Verbraucherpanels nicht zu ermitteln sind (vgl. Böhler 2004, S. 80). Weitere Kennziffern, die aus Handelspanels errechnet werden können, sind durchschnittliche Absatzmengen, Einkaufsmengen, Bestände pro Geschäft und Periode sowie Durchschnittspreise. Weiterhin werden Kennziffern wie Umschlagsgeschwindigkeit, Bevorratungsdauer, Lagerkapitalbindung etc. errechnet. Die o.g. Kennziffern werden dabei nach bestimmten Kriterien segmentiert (vgl. Böhler 2004, S. 80 f.), z.B. Nielsen-Gebiete (regionale Aufteilung des gesamtdeutschen Marktes); Einzelhandelsformen: SB-Warenhäuser, große Verbrauchermärkte, Supermärkte, Discounter, Sonstige; <?page no="171"?> 172 Erhebung und Auswertung von Paneldaten Organisationsformen: Filialgeschäfte, Edeka-, Rewe-, Spar-Geschäfte, Sonstige. Darüber hinaus erlauben Handelspanels eine ganze Reihe von Sonderauswertungen (vgl. Günther et al. 2006, S. 267 ff.). Vertriebsstrukturanalyse: Im Rahmen einer Vertriebsstrukturanalyse wird überprüft, inwieweit die Vertriebsstruktur eines Artikels mit der Vertriebsstruktur der Warengruppe übereinstimmt. Diese Analyse kann aufzeigen, ob der Hersteller den Absatz seines Artikels in bestimmten Geschäften forcieren sollte. Distributionsanalysen: Typische Kennziffern von Distributionsanalysen sind: Distributionsüberschneidungsanalyse: Hier wird ermittelt, wie die Absatzmengen, Marktanteile etc. eines Produkts ausfallen, wenn es im Handel zusammen mit einem Konkurrenzprodukt geführt wird oder nicht. Distributionswanderungsanalyse: Untersucht wird, inwieweit Veränderungen der Distribution (z.B. Erhöhung der absoluten Distributionszahlen) darauf zurückzuführen sind, dass die bereits gewonnenen Geschäfte das Produkt verstärkt führen oder aber dass neue Geschäfte gewonnen werden konnten. Distributionsdichteanalyse: Sie erlaubt sowohl für den Produzenten als auch für den Handel Aussagen darüber, inwieweit sich der Absatz steigern lässt, wenn mehrere Varianten eines Produkts in einem Geschäft vertrieben werden oder aber wenn stattdessen Konkurrenzprodukte in das Sortiment aufgenommen werden. Distributionspotenzialanalyse: Sie wird durchgeführt, um zu ermitteln, welcher zusätzliche Umsatz durch eine Verbesserung der Distribution erzielbar ist. Portfolio-Analyse: Portfolio-Analysen können z.B. zur Sortimentsanalyse für einen Key-Accounter erstellt werden; die einzelnen Warengruppen werden in eine Portfolio-Matrix mit den Dimensionen „Warengruppenwachstum“ und „Warengruppenmarktanteil“ positioniert. Die Position der Warengruppen zeigt dem Händler, welche Warengruppen weiterhin im Sortiment gehalten werden müssen und auf welche der Händler ggf. verzichten kann. 2.2 Verbraucherpanels Definition der Grundgesamtheit Die Grundgesamtheit eines Haushaltspanels wird aus Privathaushalten mit ständigem Wohnsitz in Deutschland gebildet (seit 2003 inkl. Ausländerhaushalte). Sogenannte „abgeleitete Haushalte“ wie Altersheime, Haftanstalten, Bundeswehr etc. werden hingegen nicht einbezogen, da sich die dort ansässigen Haushaltsmitglieder nur eingeschränkt selbst versorgen. Bei Individualpanels werden i.d.R. in Privathaushalten lebende Personen ab 10 Jahren berücksichtigt, es sei denn, es interessiert nur eine ganz bestimmte Zielgruppe (z.B. Autobesitzer). Festlegung der Stichprobe Bei Verbraucherpanels (im Folgenden exemplarisch Haushaltspanels) erfolgt i.d.R. eine mehrstufige, geschichtete Quotenauswahl (vgl. Günther et al. 2006, S. 32 ff.). <?page no="172"?> Verbraucherpanels 173 Zunächst werden die Privathaushalte in regionale Einheiten (sog. Sample Points) nach Bundesland und Ortsgröße geschichtet. Anschließend wird eine proportional geschichtete Stichprobe von Sample Points gezogen. In den gewählten Sample Points werden nach dem Quotenverfahren die einzelnen Haushalte ausgewählt. Quotierungsmerkmale sind dabei Haushaltsgröße, Haushaltsnettoeinkommen, Alter der haushaltsführenden Person und Zahl der Kinder unter 15 Jahren. Die Quotenauswahl ist deswegen erforderlich, weil die Verweigerungsquote bei der Anwerbung von Panelhaushalten bis über 90% betragen kann, sodass eine Zufallsstichprobe nur wenig Erfolg verspricht. Erhebung Erfasst werden bei den Panelhaushalten insb. die folgenden Angaben: Datum des Einkaufs, Einkaufsstätte, Marke bzw. Hersteller, Inhalt pro Packung, gekaufte Stückzahl, Preis pro Stück bzw. insgesamt, ggf. Sonderangaben wie kalorienreduziert, mit/ ohne Zusätze u.ä. je nach Warengruppe. Grundsätzlich sind bei Verbraucherpanels folgende Erhebungsmethoden gebräuchlich: PoS-Scanning, Inhome-Scanning, Electronic Diary sowie Interneterfassung. Beim PoS-Scanning weisen sich die Panelteilnehmer an der Kasse mit einer Identifikationskarte aus, auf welcher die Haushaltsnummer als Barcode aufgedruckt ist. Beim Einkauf werden die gekauften Artikel und die Haushaltsnummer per Scanner erfasst, die Datensätze werden anschließend zur Auswertung an das Marktforschungsinstitut übertragen. Für die Haushalte bedeutet die Methodik eine erhebliche Zeitersparnis, was die Rekrutierung von Panelteilnehmern erleichtert; auch sind der Paneleffekt und die Panelsterblichkeit (vgl. Abschnitt 3) geringer als bei anderen Erfassungsmethoden. Allerdings können nur EAN-codierte Artikel erfasst werden, zudem müssen die kooperierenden Geschäfte mit Scannerkassen ausgestattet sein. Aus diesem Grunde ist die Anwendung derzeit auf Mini-Testmarktpanels begrenzt (vgl. die Ausführungen in Abschnitt 2.4 im 8. Teil). Das Inhome-Scanning stellt im Prinzip die elektronische Variante der früheren Kalendermethode dar. Die Haushalte werden mit mobilen Lesegeräten ausgestattet, mit deren Hilfe der EAN-Code der gekauften Artikel eingelesen werden kann; über eine Tastatur müssen darüber hinaus Einkaufsdatum, Einkaufsstätte, Einkaufsmenge und Preis eingegeben werden. Für nicht EAN-codierte Artikel erhält der Teilnehmer ein <?page no="173"?> 174 Erhebung und Auswertung von Paneldaten Codebuch, welches für jeden dieser Artikel einen Barcode enthält. Mit der Leseeinrichtung wird der Code eingelesen; per Modem erfolgt dann die Datenübertragung an das Institut. Das Verfahren ist für die Haushalte - insb. für die nicht EAN-codierten Artikel - immer noch recht aufwändig. Ein Beispiel ist Nielsen Homescan, welches seit 1992 im Einsatz ist. Eine Weiterentwicklung des Inhome Scanning stellt das sog. Electronic Diary dar, welches mit einer Vielzahl zusätzlicher Features ausgestattet ist und das Codebuch durch interaktive Funktionen ersetzt. Das Gerät verfügt neben einer Leseeinrichtung für EAN Codes über ein Display, einen Speicher und eine alphanummerische Tastatur mit Funktionstasten. An die Stelle eines Codebuchs tritt eine menügesteuerte Abfrage, welche die Eingabe uncodierter Artikel erheblich erleichtert. Zudem kann der im Gerät gespeicherte Artikelstamm kurzfristig und bequem per Modem und Telefonleitung überarbeitet werden. Das Drucken und Versenden von Codebüchern entfällt, die Daten werden wie beim Inhome-Scanning per Modem an das Marktforschungsinstitut übertragen. Die GfK hat seit 1997 auf Electronic Diary umgestellt; 2010 wurde von der GfK mit ScanPlus das Nachfolgemodell eingeführt. Seit Januar 2004 besteht bei der GfK auch die Möglichkeit der Interneterfassung („Scan- It“)(vgl. GfK 2007, S. 29). Die Einkaufsdaten werden dabei in zwei Schritten erfasst: Zuerst werden mittels eines Lesestifts die Barcodes der gekauften Artikel gescannt. Der Stift wird in die USB-Schnittstelle eines mit dem Internet verbundenen PCs gesteckt und die Daten werden an die GfK übertragen. Der Server der GfK übermittelt die Artikeltexte an die Panelteilnehmer zurück, diese müssen in eine Eingabemaske noch die Einkaufsstätte sowie für jeden Artikel Preis, Menge etc. eingeben und die Daten an das Institut zurücksenden. Ein erster Vorteil der Interneterfassung resultiert aus der Einfachheit der Dateneingabe - insb. bei nicht EAN-codierten Waren. Die Dialogfähigkeit des Systems erlaubt zudem von beiden Seiten Nachfragen wie auch eine sofortige Plausibilitätskontrolle seitens des Instituts. Auch die Akzeptanz bei ansonsten „panelscheuen“ jüngeren Zielgruppen ist eher gegeben. Mittlerweile ist die internetbasierte Erfassung bei der GfK der Standard, ScanPlus wird nur noch in Panelhaushalten ohne Internetzugang eingesetzt. Auswertung In der Praxis wird bei Verbraucherpanels zwischen Standardauswertungen, die jeder Auftraggeber automatisch erhält, und Sonderanalysen, die nur auf Bestellung durchgeführt werden und gesondert zu bezahlen sind, unterschieden (vgl. Abb. 4.5). Bei den Standardauswertungen werden z.T. ähnliche Informationen wie beim Handelspanel erhoben (Mengen, Preise, Marktanteile etc.). Sonderanalysen spielen bei Verbraucherpanels die größere Rolle, da sie bessere Einsichten in das Käuferverhalten ermöglichen. Im Folgenden soll auf die wichtigsten Auswertungsmöglichkeiten eingegangen werden. Eine sehr ausführliche Beschreibung der Auswertungsmöglichkeiten von Haushaltspanels findet sich bei Günther et al. 2006, S. 223 ff. Gesamtmarktgrößen Grundaufgabe von Verbraucherpanels ist das Aufzeigen der zeitlichen Entwicklung der Endverbrauchernachfrage. Aus diesem Grunde gehören zu den Standardergebnissen von Verbraucherpanels folgende Angaben: <?page no="174"?> Verbraucherpanels 175 mengen- und wertmäßiger Absatz einer Produktgattung, mengen- und wertmäßiger Absatz der einzelnen Marken, darauf aufbauend die mengen- und wertmäßigen Marktanteile der einbezogenen Marken. Auf dieser Grundlage kann ein Anbieter: seine Marktposition überprüfen, Entwicklungen beobachten und die Wirkungen von Marketingmaßnahmen analysieren. Abb. 4.5: Leistungsspektrum des Verbraucherpanels (Quelle: Berekoven et al. 2009, S. 130. Segmentierung Die Aussagekraft der Paneldaten kann durch eine geeignete Segmentierung wesentlich erhöht werden. Gebräuchlich sind dabei folgende Segmentierungskriterien (vgl. Böhler 2004, S. 75): regionale Segmentierung, z.B. nach Ortsgrößen oder Nielsen-Gebieten; Geschäftstypen, z.B. Supermärkte, Discounter, Drogerien; soziodemographische Merkmale wie Alter, Haushaltsgröße, Haushaltsnettoeinkommen; Kaufverhaltensmerkmale wie Markentreue, Verbrauchsintensität, Reaktionen auf Marketingmaßnahmen; psychologische Merkmale, z.B. Einstellungen, Markenpräferenzen usw. Käuferkumulation. Die Käuferkumulation zeigt die Entwicklung der Käuferzahl im Zeitablauf (vgl. Abb. 4.6). Sie liefert wichtige Hinweise über die Durchsetzungsfähigkeit am Markt eines neu eingeführten Produkts bzw. eines Relaunch. Bezieht man die Käuferkumulation auf die Zahl der Panelteilnehmer, erhält man den sog. Käuferkreis. Auswertungsmöglichkeiten Standardberichte Sonderanalysen Gesamtmarktgrößen Marktanteile Teilmärkte Gebiete Einkaufsstätten Sorten etc. Käuferstrukturen Packungsgrößen/ -arten Geschmacksrichtungen Durchschnittspreise Einkaufsintensität Markentreue Kumulierte Käufer/ Wiederkäufer Bedarfsdeckung Käuferwanderung Gain-and-Loss-Analysen Einführungsanalysen Aktionsanalysen Kombinationsanalysen Preisanalysen (-elastizitäten/ -abstände) Prognosen (Parfitt/ Collins) <?page no="175"?> 176 Erhebung und Auswertung von Paneldaten Käuferpenetration Die Käuferpenetration gibt an, welcher Anteil der Käufer einer Produktklasse im Zeitablauf erreicht wird. Sie wird folgendermaßen errechnet: sse Produktkla der in lation Käuferkumu X Marke lation Käuferkumu X Marke n Penetratio = . Abb. 4.6: Käuferkumulation für eine Marke Wiederkäuferrate Während Käuferkumulation und -penetration die Fähigkeit einer Marke zum Ausdruck bringen, neue Kunden zu gewinnen, gibt die Wiederkäuferrate an, inwieweit es der Marke gelingt, die Käufer zu halten; sie ist also als Indikator für die Zufriedenheit der Käufer zu interpretieren. Die Wiederkäuferrate wird wie folgt errechnet: X Marke lation Käuferkumu X er Marke Wiederkäuf kumulierte X Marke errate Wiederkäuf = . Wiederkaufrate und Bedarfdeckungsrate Die Wiederkaufrate bezeichnet das mengenmäßige Ausmaß, in welchem die Käufer einer Marke diese auch wiederkaufen. Sie berechnet sich folgendermaßen: wird getätigt Kauf ersten ihrem nach A Marke der Käufern von die sse, Produktkla der in Kaufmenge X Marke ermenge Wiederkäuf X Marke rate Wiederkauf = . Die Wiederkaufrate kann somit als Marktanteil der Marke in der zugehörigen Produktklasse interpretiert werden. Die Bedarfdeckungsrate kann allgemein als Marktanteil einer Marke Y bei der Käuferschaft der Marke X bezeichnet werden; insofern ist die Wiederkaufrate ein Spezialfall 60 45 30 25 18 12 Zeit Zahl der Käufer Neukäufer 60 105 135 160 178 190 <?page no="176"?> Verbraucherpanels 177 der Bedarfdeckungsrate, nämlich der Marktanteil einer Marke bei ihrer eigenen Käuferschaft. Das folgende Beispiel soll die Zusammenhänge verdeutlichen. Beispiel 4.5: Es soll festgestellt werden, wie die Käufer von vier Marken A, B, C und D in der betrachteten Periode ihren Bedarf decken. Die nachfolgende Tabelle zeigt die prozentuale Verteilung der Kaufmengen der einzelnen Marken (Bedarfsdeckungsraten) bei den Käufern der betrachteten Marken. Marktanteile der Marken i Käufer der Marke A B C D A B C D Sonstige 50 15 5 25 5 25 45 10 5 15 5 10 65 15 5 20 15 20 35 10 Summe 100 100 100 100 Die Elemente auf der Diagonale entsprechen den Wiederkaufraten der einzelnen Marken. Beispielsweise wird ersichtlich, dass 65% der Käufer von Marke C in der betrachteten Periode die Marke wiederkaufen. Der restliche Bedarf wird zu 5% bei Marke A, 10% bei Marke B, 15% bei Marke D und 5% bei sonstigen Marken gedeckt. Auch wird deutlich, dass für Marke C eine hohe Wiederkaufrate als Indikator für die Markentreue vorhanden ist, wohingegen bei Marke D die Markentreue mit nur 10 % Wiederkaufrate nur schwach ausgeprägt ist. Kauffrequenz und Kaufintensität Die Kauffrequenz (Einkaufshäufigkeit) gibt an, wie oft im betrachteten Zeitraum eine bestimmte Marke gekauft wurde. Ergebnis der Analyse sind die Anteile der Käufer, die in der betrachteten Periode die Marke einmal, zweimal, dreimal etc. gekauft haben. Bei der Kaufintensität handelt es sich hingegen um die mengenmäßige Verteilung der Marke auf die Käufer; es handelt sich hierbei um eine spezielle Form einer Konzentrationsanalyse, bei welcher die Käufer eines Produkts nach zunehmender Kaufmenge sortiert werden (vgl. Günther et al. 2006, S. 309 f). Abbildung 4.7 zeigt die Zusammenhänge grafisch. Aus der Grafik lässt sich ablesen, dass die Intensivkäufer - auf der x-Achse im Intervall von [0,67 - 1] - ca. 66% der Gesamtmenge des betrachteten Produkts kaufen, wohingegen die Extensivkäufer, die im Intervall [0 - 0,33] auf der x- Achse abgetragen sind, lediglich ca. 10% der Gesamtmenge einkaufen. Käuferwanderung Im Rahmen von Panelerhebungen kann das Markenwahlverhalten von Käufern im Zeitablauf erfasst werden; die Analyse der Käuferwanderung erfasst die Wanderungsbewegungen zwischen konkurrierenden Marken, d.h. sie beantwortet die Frage, welche Marken von Zuwanderung profitieren und welche Marken hingegen Abwanderungen in Kauf nehmen mussten. Besonders interessant ist die Erfassung der Käuferwanderung bei Neueinführungen oder beim Relaunch von Marken. Eine genaue Erfassung der Wanderungsbewegungen zwischen den Marken ist durch eine sog. Gain-and-Loss-Analyse möglich. Betrachtet werden die mengen- und wert- <?page no="177"?> 178 Erhebung und Auswertung von Paneldaten mäßigen Einkäufe der Panelhaushalte in zwei gleichen Zeiträumen; dabei werden folgende Segmente unterschieden (vgl. Günther et al. 2006, S. 325): das aufrechenbare Segment, dessen Einkaufsmenge in beiden Zeiträumen gleich groß ist; das sog. nicht aufrechenbare Segment, das dadurch entsteht, dass der Haushalt in den beiden betrachteten Zeiträumen unterschiedliche Mengen einkauft. Abb. 4.7: Analyse der Kaufintensität (Quelle: In Ahnlehnung an Günther et al. 2006, S. 310) Untersucht wird insb. das aufrechenbare Segment. Hierzu wird die sog. Gain-and- Loss-Innenmatrix aufgestellt, welche Aufschluss darüber gibt, wie viele Einheiten von einer Marke abwanderten, u.u. Abbildung 4.8 zeigt ein fiktives Beispiel für eine Gainand-Loss-Matrix. Die Matrix lässt sich am Beispiel der Marke A folgendermaßen interpretieren: Marke A hat insgesamt 80 Einheiten gewonnen, und zwar 50 von Marke B und 30 von Marke C. Marke A hat allerdings gleichzeitig 50 Einheiten verloren, nämlich 10 an Marke B und 40 an Marke C. 60 Einheiten der Marke A wurden im Zeitraum wiedergekauft. Weitergehende Analysen werden möglich, indem Affinitätsindizes errechnet werden, welche das Ausmaß an Konkurrenzbeziehungen zwischen den einzelnen Marken wiedergeben (vgl. Günther et al. 2006, S. 326); Darüber hinaus bildet die Gain-and-Loss-Matrix unter Heranziehung der Theorie der Markov-Prozesse die Grundlage für die Prognose von Marktanteilen. 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,2 0,4 0,6 0,8 1,0 Kumulierter Käuferanteil Kumulierter Mengenanteil 10% 34% 33% 66% <?page no="178"?> Verbraucherpanels 179 Zuwanderung vom 1. zum 2. Zeitraum Abwanderung vom 1. zum 2. Zeitraum Marke A B C Verlust Wiederkauf ARBS* A 10 40 50 60 110 B 50 10 60 80 140 C 30 10 40 50 90 Gewinne 80 20 50 150 Wiederkauf 60 80 50 190 ARBS* 140 100 100 340 *ARBS = aufrechenbares Segment Abb. 4.8: Beispiel für eine Gain-and-Loss-Matrix <?page no="180"?> 3 Methodische Probleme von Panelerhebungen Methodische Probleme von Panelerhebungen betreffen zum einen die Repräsentativität, d.h. die Übertragbarkeit der Panelergebnisse auf die Grundgesamtheit; zum anderen ist die Validität von Panelergebnissen angesprochen. Trotz der nachfolgend angeführten methodischen Probleme stellen sie für Markenartikelhersteller die einzige Möglichkeit darn, laufende Informationen über Absatzmengen, Umsätze und Marktanteile zu erhalten, sodass Hersteller einen großen Teil ihres Marktforschungsbudgets für Panelerhebungen aufwenden. 3.1 Repräsentativität von Panelergebnissen Die Repräsentativität von Panelergebnissen wird durch eine ganze Reihe von Faktoren eingeschränkt: Marktabdeckung (Coverage), Auswahlverfahren, Verweigerungsrate sowie Panelsterblichkeit. Abb. 4.9: Coverage von Verbraucher- und Handelspanels Die Marktabdeckung bezeichnet, inwieweit die Grundgesamtheit des Panels in der Lage ist, die tatsächlichen Verkäufe bzw. Einkäufe einer Warengruppe zu erfassen. Aufgrund der engen Definition der Grundgesamtheiten sowohl im Handelsals auch im Verbraucherpanel sind bestimmte Marktteilnehmer nicht enthalten, etwa Versandhandel in Handelspanels oder Großhaushalte in Verbraucherpanels. Weitere Probleme ergeben sich bei Handelspanels durch die Zunahme alternativer Vertriebswege wie Handelsgeschäfte Verbraucher Handelspanelsegment (z. B. Edeka, real) Verbraucherpanelsegment (Privathaushalte mit ständigem Wohnsitz in Deutschland) Sonstige (z.B. Großhaushalte) Sonstige (z.B. Versandhandel) <?page no="181"?> 182 Methodische Probleme von Panelerhebungen Factory Outlets, Internet u.a., welche die Marktabdeckung weiter verringern. Damit ergibt sich die Coverage von Haushalts- und Verbraucherpanels gemäß Abb. 4.9. Das Auswahlverfahren bei Panelerhebungen erfolgt nicht im Rahmen einer Zufallsauswahl, sondern auf der Grundlage einer bewussten Auswahl, i.d.R. in Form einer Quotenauswahl in Verbindung mit einer mehrstufigen Klumpenauswahl. Dadurch wird die Repräsentativität der Panelergebnisse zusätzlich eingeschränkt. Die Verweigerungsrate spielt insb. beim Haushaltspanel eine Rolle - sie kann dort bis zu 90% betragen. Der Grund liegt in dem für Verbraucher erforderlichen Zeitaufwand. Das Problem ist deswegen besonders gravierend, weil die Verweigerungsrate bei bestimmten Bevölkerungsgruppen besonders hoch ist - z.B. bei höheren Einkommensschichten, jüngeren Zielgruppen und in größeren Gemeinden. Bei Handelspanels ist die Bereitschaft zur Teilnahme größer, jedoch sind Verweigerungen auch hier nicht unbekannt (z.B. Aldi). Die Panelsterblichkeit bezeichnet den Ausfall von Panelteilnehmern aus einem laufenden Panel. Abgesehen von einer „natürlichen“ Sterblichkeit aufgrund von Tod oder Umzug sind hier insb. Ausfälle von Panelteilnehmern aufgrund von Zeitmangel, mangelnder Motivation, Ermüdung etc. von Bedeutung. So wird die Panelsterblichkeit im GfK-Haushaltspanel mit durchschnittlich 20% - 30% pro Jahr beziffert; deutlich höher fällt sie bei bestimmten Gruppen - z.B. jungen Einpersonenhaushalten - aus (vgl. Günther et al. 2006, S. 36). Aus diesem Grunde unterhalten Marktforschungsinstitute eine Ersatzstichprobe, in der sich Haushaltsschichten befinden, die von der Panelsterblichkeit besonders betroffen sind. Die im Panel entstehenden Lücken werden nach einem Quotenmodell in regelmäßigen Abständen durch ähnliche Haushalte aus der Ersatzstichprobe aufgefüllt. 3.2 Validität von Panelergebnissen Die (interne) Validität von Panelergebnissen wird durch sog. Paneleffekte eingeschränkt. Als Paneleffekt wird die Tatsache bezeichnet, dass sich Panelmitglieder durch die Teilnahme am Panel anders verhalten als sie es im Normalfall täten, wodurch sie für die Grundgesamtheit atypisch werden. Dies kann auch bei Handelspanels eintreten, ist aber insb. bei Verbraucherpanels von Bedeutung. Typische Paneleffekte sind: Die Teilnehmer kaufen bewusster ein (z.B. preis- oder kalorienbewusster), wodurch eine Verhaltensänderung eintritt. Aus Prestigegründen werden mehr (oder höherpreisige) Einkäufe angegeben, als dies tatsächlich der Fall ist („Overreporting“). Bei längerer Panelzugehörigkeit treten Ermüdungserscheinungen auf, wodurch die Teilnehmer nachlässiger werden. Diese Effekte konnten teilweise gemildert werden, seit die Einkaufserfassung auf elektronischem Wege erfolgt. Zudem zeigt die Erfahrung, dass die ersten beiden Paneleffekte nach kurzer Eingewöhnungszeit wieder abgebaut werden. Aus diesem Grunde gelangen neu angeworbene Panelteilnehmer erst nach einer gewissen Anlaufzeit in die Auswertung. Um Paneleffekten sowie Panelsterblichkeit zu begegnen, führen die Institute zudem eine regelmäßige Panelrotation durch, d.h. ein Teil des Panels wird durch eine neue Stichprobe ersetzt (vgl. Hüttner/ Schwarting 2002, S. 192). <?page no="182"?> 4 Kohortenanalysen Definition Unter Kohortenanalysen werden Untersuchungen verstanden, bei denen eine nach bestimmten Kriterien gebildete Personengesamtheit im Zeitablauf untersucht wird. Als Kriterium dient dabei ein gleiches Ereignis im gleichen Zeitintervall, wie z.B. Geburt, Berufseinstieg, Erstkauf, externer Schock wie z.B. Krieg. Unterschiede im Verhalten von Menschen verschiedener Altersgruppen, wie z.B. Einstellungen oder Präferenzen, lassen sich häufig nicht nur durch altersspezifische Veränderungen, sondern auch durch Generationenunterschiede oder durch Effekte unterschiedlicher Zeitperioden, wie z.B. Wirtschaftskrise oder Krieg, aber auch soziale und kulturelle Veränderungen wie z.B. Erziehungsstile oder Wertewandel in einer Gesellschaft erklären (vgl. Glenn 2005, S. 4). Im Folgenden beschränken sich die Ausführungen auf Geburtskohorten, also Personengesamtheiten, die durch das Ereignis „Geburt“ im betrachteten Zeitraum verbunden sind. Die Kohortenanalyse ist von der Querschnittsanalyse (Untersuchung verschiedener Personen zum gleichen Zeitpunkt) und von der Längsschnittanalyse (Untersuchung gleicher Personen zu unterschiedlichen Zeitpunkten) abzugrenzen. Bei Kohorten ist ferner zwischen echten und unechten Kohorten zu unterscheiden (vgl. Pepels 2014, S. 404): Eine echte Kohorte liegt vor, wenn im Zeitablauf identische Personen beobachtet werden. Insofern kann ein Panel als Sonderform einer echten Kohorte angesehen werden. Um eine unechte Kohorte handelt es sich, wenn im Zeitablauf nicht identische, aber zumindest gleichartige Personengesamtheiten beobachtet werden. In diesem Sinne kann eine Wellenerhebung als Unterfall einer unechten Kohorte angesehen werden. Ziel einer Kohortenanalyse ist das Verfolgen eines bestimmten Segments über einen längeren Zeitraum; dabei wird nicht auf die individuellen Veränderungen abgestellt, sondern auf die der Gesamtheit. Im Rahmen einer Kohortenanalyse sind dabei folgende Effekte möglich (vgl. Rentz/ Reynolds 1981, S. 597 f.): Alterseffekt. Dieser Effekt beruht auf der Tatsache, dass Personen mit zunehmendem Alter einen Reifungsprozess erfahren, der mit psychosozialen Verhaltensänderungen einhergeht. So verschieben sich im Alter teilweise die Bedürfnisse und Gewohnheiten - die Vorliebe für „Fast Food“ sinkt z.B. i.d.R. mit zunehmenden Alter -, aber auch soziale Veränderungen, wie etwa die Phase im Familienlebenszyklus, beeinflussen die Verhaltensweisen der betrachteten Personen. Geschichts- oder Periodeneffekt. Dieser Effekt ist darauf zurückzuführen, dass bestimmte Ereignisse eintreten, die eine Population als Ganzes betreffen, unabhängig von deren Alter. Hierzu zählen z.B. neue Produkte oder Dienstleistungen, die das Verhalten der gesamten Population prägen. Prominentes Beispiel ist hier die Einführung von Smartphones. <?page no="183"?> 184 Kohortenanalysen Generationen- oder Kohorteneffekt. Dieser Effekt beruht auf generationsspezifischen Konsumstilen und entsteht dadurch, dass eine bestimmte Generation Besonderheiten aufweist. Diese Eigenart einer Kohorte bewirkt u.U., dass Verhaltensmuster in der Jugend auch spätere Verhaltensmuster prägen. Der Kohorteneffekt kann zu prognostischen Zwecken herangezogen werden, da Anbieter bestimmter Produkte oder Dienstleistungen in der Lage sind abzuschätzen, was sie von den einzelnen Altersklassen in Zukunft erwarten können. Beispielsweise steht derzeit die sog. Generation Y im Fokus, welche spezifische Verhaltensweisen aufweist, die sowohl ihr Konsumverhalten als auch ihr Berufswahlverhalten prägen. Im Rahmen einer Panelerhebung kann das Zusammenwirken der drei genannten Effekte erfasst werden, sofern eine Aufgliederung nach Altersgruppen erfolgt (vgl. Hüttner/ Schwarting 2002, S. 229). Im Rahmen einer Kohortenanalyse interessieren jedoch die einzelnen Effekte. Die Schwierigkeit liegt dabei darin, dass Periodeneffekte, Alterseffekte und Kohorteneffekte wechselseitig abhängig sind. So beruht der hauptsächlich interessierende Kohorteneffekt auf Konstrukten wie Lebensphilosophie, Einstellungen etc., die jedoch mit zunehmendem Alter Veränderungen unterliegen (Alterseffekt). Überlagert werden beide Effekte von Umweltveränderungen, die eine gesamte Population prägen können (Periodeneffekte). Diese Interdependenz bewirkt, dass eine exakte isolierte Ermittlung der drei genannten Effekte zumeist nicht möglich ist, sondern nur näherungsweise mit Hilfe bestimmter Verfahren geschätzt werden kann (zur statistischen Analyse von Kohorten vgl. z.B. Glenn 2005). Weiterführende Literatur GfK (2007): 50 Jahre GfK Panelforschung. Stationen einer Erfolgsgeschichte, Nürnberg. Glenn, N.D. (2005): Cohort Analysis. Quantitative Applications in the Social Sciences 5, 2 nd ed., Beverly Hills u.a. Günther, M., Vossebein, V., Wildner, R. (2006): Marktforschung mit Panels: Arten, Erhebung, Analyse, Anwendung, 2. Aufl., Wiesbaden. Litzenroth, H.A. (1986): Neue Perspektiven für die Panelforschung durch hoch entwickelte Technologien, in: Jahrbuch der Absatz- und Verbrauchsforschung, 32(3), 212-240. Parfitt, J.H., Collins, B.J.K. (1968): Use of Consumer Panels for Brand Share Prediction, in: Journal of Marketing Research, 5(2), 131-148. Rentz, J.O., Reynolds, F.D. (1981), Separating Age, Cohort and Period Effects in Consumer Behavior, in: Monroe, K.B., Abor, A. (eds.): Advances in Consumer Research, 08, 596-601. <?page no="184"?> Teil 5: Experimente 1 Klassifikation und Charakterisierung von Experimenten Definition Ein Experiment beinhaltet die systematische Variation einer oder mehrer unabhängiger Variablen durch den Forscher unter kontrollierten Bedingungen zur Überprüfung von Kausalhypothesen. Die Datenerhebung im Rahmen experimenteller Designs kann sowohl auf der Grundlage von Befragungen als auch auf der Grundlage von Beobachtungen erfolgen; häufig werden dabei beide Methoden kombiniert. Beispielsweise wird im Rahmen eines Werbemitteltests eine experimentelle Erhebung etwa durch Eye Tracking um eine Befragung zur Wahrnehmung des Werbemittels ergänzt (Likes/ Dislikes, Assoziationen, Erinnerung usw.). Insofern finden die Ausführungen im Zusammenhang mir der Gestaltung von Befragungen und Beobachtungen - hier insb. der apparativen Beobachtung - genauso Anwendung wie die Ausführungen zur Stichprobenbildung, sodass hier nicht weiter darauf eingegangen wird (vgl. die ausführliche Darstellung in Teil 3). 1.1 Merkmale von Experimenten Für experimentelle Designs sind folgende Merkmale konstituierend: Der Forscher variiert eine oder mehrere unabhängige Variablen, um deren Wirkung auf eine oder mehrere abhängige Variablen zu ermitteln. Der Versuch erfolgt unter kontrollierten Bedingungen, d.h. es wird versucht, den Einfluss von Störfaktoren zu kontrollieren, um die Wirkung der unabhängige(n) Variable(n) auf die abhängige(n) Variable(n) zu isolieren. Es handelt sich um Kausalhypothesen, d.h. um postulierte Ursache-Wirkungsbeziehungen zwischen den betrachteten Variablen. Eine Kausalbeziehung ist ein gerichteter empirischer Zusammenhang; für Kausalität sind dabei folgende Bedingungen ausschlaggebend (vgl. Iacobucci/ Churchill 2010, S. 123 ff.): Gemeinsame Variation der unabhängigen und der abhängigen Variablen. Darunter versteht man das Ausmaß, in welchem eine Ursache X und eine Wirkung Y gemeinsam auftreten bzw. sich gemeinsam verändern, und zwar in der Art und Weise, wie dies die betrachtete Hypothese voraussagt. Lautet die Hypothese beispielsweise „Je erfahrener die Außendienstmitarbeiter sind, umso höher sind die Umsätze in den jeweiligen Verkaufsbezirken“, so liegt eine gemeinsame Variation dann vor, wenn in den Verkaufsbezirken, in welchen erfahrene Außendienstmitarbeiter tätig sind, tatsächlich tendenziell höhere Umsätze zu verzeichnen sind. Im umgekehrten Fall ist die Kausalhypothese nicht haltbar. <?page no="185"?> 186 Klassifikation und Charakterisierung von Experimenten Zeitliche Reihenfolge des Auftritts der Variablen. Ex definitione kann eine Wirkung nicht durch ein Ereignis verursacht werden, das nach Eintritt der Wirkung stattgefunden hat. Dies bedeutet, dass die Veränderung der unabhängigen Variablen (Ursache) zeitlich vorgelagert oder zumindest zeitgleich zur Veränderung der abhängigen Variable eintritt (Wirkung). Eliminierung anderer möglicher Ursachen. Idealerweise sollen die untersuchten unabhängigen Variablen die einzige Ursache für die Variation der abhängigen Variablen sein. Dies ist dann gewährleistet, wenn die übrigen möglichen Faktoren (sog. Störgrößen) vom Experimentator kontrolliert werden. Bei Vorliegen dieser Bedingungen lässt sich eine Änderung der abhängigen Variablen eindeutig auf eine Änderung der unabhängigen Variablen zurückführen. Gerade die dritte Bedingung ist jedoch in der Realität nicht immer uneingeschränkt gegeben; so unterscheiden sich auch die einzelnen Versuchsanordnungen danach, inwieweit sie in der Lage sind, Störfaktoren zu kontrollieren. Gerade bei ökonomischen Fragestellungen - anders als bei naturwissenschaftlichen - sind Gesetzmäßigkeiten nur unter definierten Bedingungen und mit einer bestimmten Wahrscheinlichkeit zu ermitteln. Abb. 5.1: Elemente eines Experiments Im Marketing sind typische Fragestellungen, die im Rahmen von Experimenten untersucht werden, die Wirkungen von Marketingmaßnahmen zum einen auf ökonomische Zielgrößen wie Kauf/ Nichtkauf, Absatzmenge u.a., zum anderen auf psychologische Zielgrößen wie Aktivierung, Interesse, Erinnerung. Als experimentelle Stimuli werden also bestimmte Ausprägungen von Marketing-Instrumentalvariablen herangezogen. Im Einzelnen beinhaltet ein Experiment folgende Elemente (vgl. Abb. 5.1): Unabhängige Variablen: Hierbei handelt es sich um den experimentellen Input, d.h. um diejenigen Größen, welche vom Forscher manipuliert werden, um deren Einfluss auf die abhängige Variable festzustellen. Kontrollierte Variablen: Dies sind Variablen, die der Forscher kontrolliert, um deren Einfluss auf die abhängige Variable auszuschalten (z.B. Konstanthaltung des Preises bei Untersuchung der Wirkung alternativer Werbespots auf die Absatzmenge). Störvariablen: Störvariablen sind solche, die die abhängige Variable beeinflussen, aber vom Experimentator nicht kontrolliert werden (können) und damit die Validität der Testergebnisse beeinträchtigen (z.B. Konkurrenzmaßnahmen). Input Output (Wirkung) Testeinheiten Unabhängige Variablen Kontrollierte Variablen Störvariablen Abhängige Variable <?page no="186"?> Systematik von Experimenten 187 Testeinheiten: Testeinheiten bzw. Testelemente können Individuen, Organisationen oder sonstige Institutionen sein, an denen die Wirkung der unabhängigen Variablen gemessen werden soll. Beispiele sind Personen, Unternehmen, Geschäfte, Gebiete. Abhängige Variable: Die experimentelle Wirkung beinhaltet die Veränderung der abhängigen Variablen bei den Testeinheiten als Konsequenz des experimentellen Inputs (und der nicht kontrollierten Störgrößen). 1.2 Systematik von Experimenten Zur Systematisierung von Experimenten können verschiedene Kriterien herangezogen werden: experimentelles Umfeld, zeitlicher Einsatz der Messung, Versuchsanordnung. Nach dem experimentellen Umfeld wird zwischen Feldexperiment und Laborexperiment unterschieden. Im Rahmen eines Laborexperiments wird eine künstliche Situation erzeugt. Das Experiment findet in einem eigens dafür ausgestatteten Teststudio eines Marktforschungsinstituts statt. Dies ermöglicht eine umfassende Kontrolle potenzieller Störeinflüsse. Beispiele für Laborexperimente sind Produkttests, Werbemitteltests sowie einige Preistests (vgl. hierzu die Ausführungen im 8. Teil des Buches). Beim Feldexperiment erfolgt die Erhebung hingegen in einem natürlichen Umfeld, d.h. die Testeinheiten werden in ihrer gewohnten Umgebung untersucht. Aufgrund der realen Versuchssituation ist die Kontrolle von Störvariablen deutlich schwieriger. Varianten des Feldexperiments sind der Store-Test und der Markttest (vgl. die Ausführungen in Abschnitt 1.3 des 8. Teils). Laborexperimente weisen folgende Vorteile auf: Störeinflüsse können weitgehend ausgeschaltet werden; es können problemlos technische Hilfsmittel eingesetzt werden; ihre Anwendung ist flexibel und erlaubt eine Geheimhaltung des experimentellen Inhalts, was z.B. beim Test neuer Produkte bedeutsam ist; im Vergleich zu Feldexperimenten sind Laborexperimente i.d.R. kostengünstiger. Als nachteilig erweisen sich die häufig geringe Realitätsnähe wie auch der i.d.R. eintretende Beobachtungseffekt (vgl. Abschnitt 2.1 in Teil 3). Vorteilhaft an Feldexperimenten sind insb. die folgenden Aspekte: Aufgrund der realen Testsituation ist die externe Validität hoch; die Testeinheiten brauchen nicht zu erfahren, dass sie an einem Experiment teilnehmen, sodass sich der Beobachtungseffekt ausschalten lässt. Nachteilig sind i.d.R. die hohen Kosten, der hohe Zeitaufwand sowie die nur eingeschränkte Kontrollierbarkeit von Störeinflüssen. Viele marketingrelevante Reaktionshypothesen lassen sich mittlerweile im Rahmen von Online-Experimenten untersuchen (vgl. Fantapié Altobelli/ Sander 2001, S. 74 f.). Bei- <?page no="187"?> 188 Klassifikation und Charakterisierung von Experimenten spielsweise lassen sich Werbemitteltests durchführen, indem die zu testenden Werbemittel (Anzeigen, Spots) auf den Bildschirm der Testperson transferiert werden. Weiterhin können im Rahmen virtueller Produkttests Produktinnovationen in verschiedenen Varianten vor der eigentlichen Produktentwicklung getestet werden, sodass die Akzeptanz neuer Produkte bereits in einem frühen Stadium des Produktentwicklungsprozesses untersucht werden und u.U. auch die zeit- und kostenaufwändige Konstruktion von Prototypen entfallen kann. Darüber hinaus können Testmarktuntersuchungen als virtuelle Labor-Store-Tests durchgeführt werden, indem Testpersonen in einem virtuellen Supermarkt unter kontrollierten Bedingungen „einkaufen“. Vorteilhaft an Online- Experimenten sind die hohe geographische Reichweite, die raum-zeit-unabhängige Durchführbarkeit und die geringen Kosten; nachteilig ist wie bei der Online-Befragung die geringe Repräsentativität der Stichprobe. Im Hinblick auf den zeitlichen Einsatz der Messung wird zwischen projektiven Experimenten und Ex-post-facto-Experimenten unterschieden (zu dieser Unterscheidung vgl. z.B. Berekoven et al. 2009, S. 148). Projektive Experimente beruhen darauf, dass der Forscher bewusst und gezielt ex ante die Experimentierbedingungen erzeugt und die Testeinheiten mit den geschaffenen Bedingungen konfrontiert. Der zu untersuchende Sachverhalt wird also vom Zeitpunkt der Veränderung der unabhängigen Variable bis zur eingetretenen Wirkung auf die abhängige Variable verfolgt. Hingegen wird im Rahmen eines Ex-post-facto-Experiments die Veränderung einer abhängigen Variable in der Gegenwart auf das Vorliegen bestimmter Bedingungen in der Vergangenheit zurückgeführt. Beispiel 5.1: Per Befragung wird festgestellt, welche Untersuchungseinheiten mit einem bestimmten Werbespot Kontakt hatten und welche nicht. Gegebenenfalls auftretende Unterschiede in den Kaufmengen der beiden Personengruppen werden auf den Kontakt mit dem Spot zurückgeführt. Abb. 5.2: Klassifikation experimenteller Designs Offensichtlich ist bei Ex-post-facto-Experimenten die Ermittlung von Ursache und Wirkung problematisch, zumal Störeinflüsse unbekannt sind. Außerdem stimmen sie Experimentelle Designs Vorexperimentelle Designs Echte Experimente Quasi-Experimente One-Shot-Case Study (EA-Typ) Eingruppen-Vorher- Nachher-Messung (EBA-Typ) Nachher-Messung mit Kontrollgruppe (EA-CA-Typ) Basisformen Vorher-Nachher- Messung mit Kontrollgruppe (randomisiert) Randomisierte Nachher-Messung mit Kontrollgruppe Solomon-Vier- Gruppen-Design Erweiterte Experimente Vollständiger Zufallsplan Zufälliger Blockplan Lateinisches Quadrat Faktorielle Pläne Vorher-Nachher- Messung mit unterschiedlichen Samples (EB-CA-Typ) Zeitreihendesigns Kontrollgruppenanordnung ohne Randomisierung (EBA-CBA-Typ) <?page no="188"?> Systematik von Experimenten 189 mit der hier verwendeten Definition von Experimenten - systematische Variation unabhängiger Variablen - nicht überein, sodass dieser Unterscheidung nicht weiter gefolgt wird. Ein wichtiges Unterscheidungskriterium von Experimenten ist die Versuchsanordnung, d.h. der Aufbau der Versuchsanlage. Die einzelnen Versuchsanlagen unterscheiden sich dabei insb. im Hinblick auf folgende Kriterien: Art und Weise, in welcher die Berücksichtigung von Störgrößen erfolgt und Anzahl der berücksichtigten experimentellen Variablen (Faktoren) und Ausprägungen (Treatments). Die Heranziehung dieser Kriterien führt zu der in Abb. 5.2 enthaltenen Unterteilung experimenteller Anordnungen (vgl. ausführlich Abschnitt 3): Vorexperimentelle Designs: Diese Versuchsanlagen verzichten auf eine explizite Berücksichtigung von Störfaktoren und implizieren damit, dass die Störvariablen alle Testeinheiten in identischer Weise beeinflussen. Im Grunde handelt es sich hier nicht um Experimente nach der hier verwendeten Definition; sie werden daher nur der Vollständigkeit halber angeführt. Echte Experimente: Bei echten („vollständigen“, „formalen“) Experimenten werden Störvariablen bewusst kontrolliert. Der Forscher variiert die Experimentierfaktoren unter Einsatz von Kontrollgruppen und bildet die Gruppen nach dem Zufallsprinzip (Randomisierung). Unterschieden wird hier zwischen Basisformen und sog. erweiterten Experimenten. Erweiterte Experimente entstehen dabei durch Kombination verschiedener Basisformen von (echten) Experimenten. Dadurch wird es möglich, mehr als einen Testfaktor in mehreren Ausprägungen zu berücksichtigen. Quasi-Experimente: Versuchsanordnungen, bei denen nicht alle der o.g. Bedingungen für echte Experimente gegeben sind, werden als Quasi-Experimente bezeichnet (vgl. Campbell/ Stanley 1963, S. 204). <?page no="190"?> 2 Validität von Experimenten 2.1 Interne vs. externe Validität Die Validität (Gültigkeit) von Messungen bezeichnet das Ausmaß, in welchem die Messergebnisse allgemeingültige Aussagen über den zu messenden Sachverhalt erlauben. Hierbei wird zwischen interner und externer Validität unterschieden. Die interne Validität ist dann gegeben, wenn die beobachtete Wirkung auf die abhängige Variable einzig und allein auf die Veränderung der unabhängigen Variable(n) zurückzuführen ist. Demzufolge bezieht sich die interne Validität darauf, inwieweit es dem Forscher gelungen ist, den Einfluss von Störvariablen auszuschalten. Hingegen bezieht sich die externe Validität auf die Generalisierbarkeit der Experimentierergebnisse auf andere Personen, Situationen oder Zeitpunkte; sie betrifft also die Repräsentativität der gewonnenen Erkenntnisse über die besonderen Bedingungen der Untersuchungssituation und die untersuchten Testeinheiten hinaus. Interne Validität ist dabei eine unabdingbare Voraussetzung für externe Validität: Sind die Messergebnisse nicht eindeutig auf das Experiment zurückzuführen, so ist deren Generalisierung auf die Grundgesamtheit fehlerbehaftet, da diese verzerrt sind (systematischer Fehler). Versuchsanordnungen mit höherer interner Validität wird daher von den meisten Forschern gegenüber solchen mit hoher Repräsentativität (z.B. aufgrund realer Bedingungen), jedoch geringer Kontrolle von Störfaktoren, der Vorzug gegeben (für eine ausführliche Diskussion des Spannungsfelds zwischen interner und externer Validität vgl. Schram 2005). 2.2 Die Behandlung von Störgrößen bei experimentellen Designs Sowohl die interne als auch die externe Validität werden durch eine ganze Reihe von Störfaktoren beeinträchtigt; Tabelle 5.1 zeigt die einzelnen Variablen im Überblick. Gefahrenquellen der internen Validität Die interne Validität wird insb. durch die nachfolgend genannten Faktoren beeinträchtigt (vgl. Campbell/ Stanley 1963, S. 175 ff.; Studman/ Blair 1998, S. 211 ff.; Malhotra 2010, S. 254 ff.): Reifungseffekt: Von Reifung spricht man dann, wenn sich die Testeinheiten während der Testdauer unabhängig vom Testfaktor verändern, die Veränderung also auf Störeinflüsse zurückzuführen ist. Beispiel 5.2: Die Probanden ändern ihr Verhalten aufgrund von Ermüdung oder Langeweile, oder aber aufgrund struktureller Veränderungen, z.B. Leitungswechsel in den Testgeschäften. Dieser Effekt tritt naturgemäß bei Versuchsanordnungen auf, die einen längeren Zeitraum umfassen. <?page no="191"?> 192 Validität von Experimenten Tab. 5.1: Störvariablen der internen und externen Validität Gefahrenquellen für die... Interne Validität Externe Validität Zeiteffekt (History) Reifungseffekt (Maturation) Testeffekt Instrumentalisierungseffekt Statistischer Regressionseffekt (Konvergenzeffekt) Auswahleffekt Ausfalleffekt (Mortalität) Interaktion mit Auswahleffekt Interaktion zwischen Treatments Pretesteffekt Interaktion von Auswahleffekt und Treatments Experimentelles Umfeld Testeffekt: Testeffekte treten dann auf, wenn das Untersuchungsinstrument (z.B. Fragebogen, physiologische Aufzeichnungsverfahren usw.) auf dieselben Untersuchungseinheiten wiederholt angewendet wird. Beispiel 5.3: Bei der Nachher-Messung erinnern sich die Testpersonen an die Antworten der Vorher-Messung und bemühen sich um konsistente Beantwortung des zweiten Fragebogens, obwohl sich die Einstellung aufgrund des zwischenzeitlich eingetretenen Treatments geändert hat. Oder aber sie verändern ihre Einstellung allein durch das Ausfüllen eines Einstellungsfragebogens, da sie aus dem Fragebogen neue Informationen über das Einstellungsobjekt gewinnen. Instrumentalisierungseffekt: Dieser Effekt tritt ein, wenn das Messinstrument den zu messenden Sachverhalt ungenau oder fehlerhaft erfasst, oder aber wenn im Laufe des Experiments das Messinstrument selbst oder dessen Anwender Veränderungen unterliegen. Beispiel 5.4: Während der Durchführung des Experiments wechselt der Versuchsleiter. Dieser beeinflusst durch Gestik und Mimik unbewusst das Versuchsgeschehen. Statistischer Regressionseffekt (Konvergenzeffekt): Solche Effekte treten ein, wenn sich Testeinheiten mit extremen Ausprägungen von Variablen bei wiederholter Messung dem Durchschnittswert nähern. Dies kann vorkommen, wenn die Gruppenzuordnung beim Pretest nicht zufällig ist und die Pretest-Werte zur Gruppenzuordnung im Posttest herangezogen werden. Auswahleffekt: Dieser Effekt tritt ein, wenn die Testgruppen vor der Durchführung des Experiments nicht vergleichbar sind. Damit können unterschiedliche Messwerte der abhängigen Variablen in den einzelnen Gruppen nicht eindeutig auf unterschiedliche Treatments zurückgeführt werden. <?page no="192"?> Die Behandlung von Störgrößen bei experimentellen Designs 193 Beispiel 5.5: Es wird eine neue Produktvariante in einem Testmarkt untersucht, in einem anderen Testmarkt wird die alte Produktvariante beibehalten. Gemessen wird die Absatzmenge in beiden Testgebieten. Allerdings wird übersehen, dass in Testgebiet 1 überproportional viele kleine Einzelhandelsgeschäfte enthalten sind, wohingegen Testgebiet 2 von großen Supermärkten dominiert wird. Ausfalleffekt (Mortalität): Ausfalleffekte beinhalten diejenigen Verzerrungen, welche dadurch entstehen, dass ein Teil der Untersuchungseinheiten im Verlauf des Experiments ausscheidet. Ähnlich wie bei der Panelsterblichkeit ist die Wirkung der Mortalität umso schwerwiegender, je unterschiedlicher verschiedene Testeinheiten davon betroffen werden. Beispiel 5.6: Beim Test unterschiedlich gestalteter Gebrauchsanweisungen („einfache“ Variante mit vielen Grafiken und wenig Text vs. „schwierige“ Variante mit detaillierten verbalen Erklärungen) werden bei der schwierigen Variante tendenziell mehr Testeinheiten die Mitarbeit verweigern. Besonders betroffen werden wahrscheinlich Testeinheiten mit geringem Bildungsniveau sein. Interaktion mit Auswahleffekten: Viele der bisher genannten Störeinflüsse können mit Auswahleffekten interagieren und so zu Verdeckungen von Treatmenteffekten führen. Die Interaktion von Reifungsprozessen und Auswahleffekten führt z.B. dazu, dass - wenn die Gruppen unterschiedlich zusammengesetzt sind - diese auch unterschiedlichen Reifungsprozessen unterliegen. Oder aber unterschiedlich zusammengesetzte Gruppen reagieren auf externe zeitliche Einflüsse in unterschiedlicher Art und Weise. Gefahrenquellen der externen Validität Die externe Validität eines Experiments wird insb. durch folgende Faktoren eingeschränkt (vgl. Campbell/ Stanley 1963, S. 175 f.): Interaktion mit Treatments. Das Problem entsteht, wenn Testeinheiten bei wiederholten Messungen unterschiedlichen Treatments ausgesetzt werden („repeated measures“). Die Testergebnisse erlauben hier keine Generalisierbarkeit auf Situationen, in welchen nur ein Treatment verabreicht wird. Beispiel 5.7: Einer Testgruppe wird zunächst ein Werbespot gezeigt, anschließend wird die Absatzmenge erhoben. Eine Woche später wird das Experiment mit einem anderen Werbespot wiederholt. Das Problem kann allerdings dadurch gelöst werden, dass die zeitliche Reihenfolge der Treatments variiert wird. Beispielsweise kann die Stichprobe in vergleichbare Untergruppen gesplittet werden, welche die Werbespots in unterschiedlicher Reihenfolge erhalten. Pretesteffekt: Hierbei handelt es sich um die Interaktion von Testsituation und Treatment. Es geht um die Frage, ob das Ergebnis eines Experiments mit vorherigem Pretest auf Untersuchungssituationen ohne Pretest verallgemeinert werden kann. Pretests <?page no="193"?> 194 Validität von Experimenten können z.B. die Generalisierbarkeit der Untersuchungsergebnisse beeinträchtigen, wenn die Testeinheiten durch den Pretest sensibilisiert wurden. Beispiel 5.8: Im Rahmen eines Pretests wird die Einstellung zum Thema „gesunde Ernährung“ erhoben. Die Ergebnisse werden herangezogen, um eine Stichprobe nach den Ausprägungen dieses Merkmals zu bilden. Die Testgruppen werden anschließend mit Produkten aus biologischem Anbau und herkömmlichen Lebensmitteln konfrontiert. Gemessen wird die Präferenz. Bei dieser Versuchsanordnung ist zu erwarten, dass Testeinheiten, die am Pretest teilgenommen haben, für die Thematik sensibilisiert sind und anders reagieren als solche, die dem Pretest zuvor nicht unterzogen wurden. Interaktion von Auswahleffekt und Treatments. Dieser Effekt tritt ein, wenn bei der Auswahl der Teilnehmer ein systematischer Fehler entsteht. Beispiel 5.9: An Gymnasien wird eine neue Unterrichtsmethode getestet. Etwaige Erfolge ermöglichen aber keine Aussage darüber, ob die Methode an Haupt- und Realschulen ebenfalls erfolgreich wäre. Ähnliche Probleme treten auf im Hinblick auf die Generalisierbarkeit bei Vorhandensein bestimmter Settings oder zeitlicher Gegebenheiten. Experimentelles Umfeld: Spezifische Wirkungen des experimentellen Umfelds treten insb. dann auf, wenn Untersuchungseinheiten ihr Verhalten deshalb ändern, weil sie an einem Experiment teilnehmen (Beobachtungseffekt). Dies geschieht typischerweise bei Laborexperimenten. Die dargestellten Störvariablen können die Validität von Experimenten erheblich einschränken. Aus diesem Grunde ist es erforderlich, diese Faktoren soweit wie möglich zu kontrollieren, um die o.g. Effekte nach Möglichkeit auszuschalten. Folgende Ansatzpunkte sind dabei gebräuchlich (vgl. Studman/ Blair 1998, S. 227 ff.): Randomisierung, Matching, rechnerische Bereinigung, Blockbildung, Konstanthaltung, Parallelisierung. Im Rahmen der Randomisierung werden zum einen die Testelemente zufällig den Experimentiergruppen zugeordnet; zum anderen erfolgt die Zuordnung der Treatmentstufen zu den einzelnen Experimentiergruppen ebenfalls zufällig. Auf diese Weise wird eine Äquivalenz der Testgruppen (und der Kontrollgruppe) vor Durchführung des Experiments erreicht; damit kann davon ausgegangen werden, dass sich Störfaktoren bei den einzelnen Gruppen in gleicher Weise auswirken. Randomisierung ist die geeignetste Art, den Einfluss von Störvariablen zu umgehen; sie muss jedoch bei kleinen Stichproben durch weitere Verfahren ergänzt werden, da Randomisierung nur im Durchschnitt gleiche Gruppen erzeugt. <?page no="194"?> Die Behandlung von Störgrößen bei experimentellen Designs 195 Beispiel 5.10: Es sollen drei alternative Versionen eines Werbespots getestet werden. Die Testeinheiten werden zunächst zufällig den drei Testgruppen sowie einer Kontrollgruppe zugeordnet. Die verschiedenen Werbespots werden anschließend zufällig den Testgruppen zugewiesen. Unter Matching versteht man die bewusste Zuordnung der Testeinheiten zu den Treatmentstufen dergestalt, dass nach bestimmten, vorab festgelegten Kriterien - nämlich den zu kontrollierenden Merkmalen - je einer Experimentiergruppe gleichartige Testeinheiten zugeordnet werden. Ähnlich wie bei einer Quotenstichprobe wird dadurch Strukturgleichheit der einzelnen Testgruppen angestrebt; diese ist jedoch nur für die einbezogenen Merkmale gegeben. Die Ergebnisse von Experimenten können bei vorliegen von Störgrößen ggf. noch nachträglich rechnerisch bereinigt werden. Beispielsweise kann im Rahmen einer Kovarianzanalyse (ANCOVA) die Wirkung von Störvariablen auf die abhängige Variable dadurch ausgeschaltet werden, dass der Mittelwert der abhängigen Variablen innerhalb jeder Treatmentstufe angepasst wird. Eine Kontrolle von Störgrößen kann schließlich durch Anwendung spezieller Testdesigns erfolgen. Zur Erhöhung der internen Validität kann beispielsweise eine Blockbildung vorgenommen werden (vgl. die Ausführungen zum zufälligen Blockplan in Abschnitt 3.3). Eine Blockbildung findet z.B. dann statt, wenn eine oder mehrere bedeutsame Störgrößen bekannt sind; die Testeinheiten werden dann Blöcken zugeordnet, welche nach den Ausprägungen der Störvariable(n) gebildet werden. Beispiel 5.11: Es soll die Auswirkung alternativer Platzierungen im Geschäft auf die Absatzmenge getestet werden. Um den Einfluss der Ladengröße zu kontrollieren, werden die Testgeschäfte in Blöcke aufgeteilt, z.B. kleinere, mittlere und große Geschäfte. Durch Konstanthaltung personengebundener Störvariablen kann erreicht werden, dass die Unterschiedlichkeit von Vergleichsgruppen nicht auf diese, sondern nur auf die Experimentiervariable zurückzuführen ist. Dadurch wird zwar die interne Validität erhöht, die externe jedoch verringert. Beispiel 5.12: Es soll die Einstellung zu einem Fertiggericht bei Hausfrauen und bei berufstätigen Frauen erhoben werden. Da vermutet wird, dass die Dauer des Berufslebens auch mit einer größeren Erfahrung mit Fertiggerichten einhergeht, werden in beiden Gruppen ausschließlich Frauen in der Altersgruppe der 20-25-Jährigen untersucht, die also - wenn überhaupt - erst seit kurzer Zeit im Berufsleben stehen. Die dadurch gewonnenen Erkenntnisse lassen sich allerdings nicht auf andere Altersgruppen übertragen. Unter Parallelisierung versteht man die Tatsache, dass die Testgruppen in Bezug auf die Störvariable vergleichbar gemacht („parallelisiert“) werden. Die Gruppen gelten dann als parallel, wenn sie hinsichtlich der Störvariablen annähernd gleiche Mittelwerte und Streuungen aufweisen. <?page no="195"?> 196 Validität von Experimenten Beispiel 5.13: Im obigen Fertiggericht-Beispiel sollte dafür Sorge getragen werden, dass beide Gruppen - Hausfrauen und berufstätigen Frauen - im Durchschnitt ähnliche Erfahrungen mit Fertiggerichten haben und die Erfahrung in beiden Gruppen annähernd gleich streut. Zur Erhöhung der externen Validität kommen Testdesigns mit verdeckter Versuchsanordnung zur Anwendung. Auftretende Verzerrungen durch Beobachtungseffekte können darüber hinaus - ähnlich wie bei Panelerhebungen - dadurch ausgeschaltet werden, dass die Testergebnisse erst nach einer gewissen Anlaufzeit in die Auswertung gelangen. Im nachfolgenden Abschnitt werden die wichtigsten Versuchsanordnungen dargestellt und diskutiert, insb. im Hinblick darauf, inwieweit sie geeignet sind, Störgrößen auszuschalten. <?page no="196"?> 3 Experimentelle Designs 3.1 Notation Zur besseren Übersicht soll hier zunächst die Notation für die nachfolgend dargestellten experimentellen Designs skizziert werden. Die Notation lehnt sich an Campbell/ Stanley (1963) an, da sich diese Notation im internationalen Schrifttum durchgesetzt hat. Die Symbolik sei nachfolgend erläutert: X = Eine Experimentiergruppe wird einer experimentellen Situation (Treatment) ausgesetzt, deren Wirkung auf die abhängige Variable gemessen werden soll; O = Beobachtungs- oder Messvorgang („Observation“) an den Testeinheiten/ Testgruppen (bzw. Kontrollgruppe); R = Randomisierung, d.h. zufällige Zuordnung von Testeinheiten bzw. Testgruppen zu Treatments (bzw. Treatmentstufen). Des Weiteren gilt folgende Vereinbarung: Die Richtung von links nach rechts zeigt die zeitliche Reihenfolge an. Die horizontale Anordnung von Symbolen bedeutet, dass sie sich auf dieselbe Gruppe von Testeinheiten beziehen. Die vertikale Ausrichtung der Symbole impliziert, dass die Ereignisse (Treatments oder Messungen) simultan erfolgen. Die Messwerte O beinhalten i.d.R. den Mittelwert oder den Anteilswert der jeweiligen Gruppe. Im Folgenden werden dabei mit EG die Experimentiergruppe (Experimental Group) und mit CG die Kontrollgruppe (Control Group) bezeichnet. Dann wäre z.B. bei der angegebenen Notation die Versuchsanordnung EG: (R) X 1 O 1 CG: (R) X 2 O 2 folgendermaßen zu beschreiben: Eine Experimentiergruppe und eine Kontrollgruppe werden zufällig und simultan zwei verschiedenen Treatments zugewiesen; die abhängige Variable wird bei beiden Gruppen gleichzeitig gemessen. Vielfach findet sich in der deutschsprachigen Literatur folgende Notation (vgl. z.B. Berekoven et al. 2009, S. 149 ff.; Pepels 2014, S. 149 ff.): E: Experimentiergruppe (Experimental Group), C: Kontrollgruppe (Control Group), B: Messung vor Einsatz des Testfaktors (Before), A: Messung nach Einsatz des Testfaktors (After). Danach werden folgende Grundtypen von sog. informalen Experimenten unterschieden: <?page no="197"?> 198 Experimentelle Designs EBA-Typ: Messung an nur einer Gruppe vor und nach Einsatz des Experimentierfaktors; CB-EA-Typ: Messung bei einer Gruppe vor, bei einer anderen Gruppe nach Einsatz des Testfaktors; EA-CA-Typ: Messung bei einer Test- und einer Kontrollgruppe vor und nach Einsatz des Testfaktors; EBA-CBA-Typ: Messung vor und nach Einsatz des Experimentierfaktors bei einer Test- und einer Kontrollgruppe. Es wird ein einziger Testfaktor eingesetzt. Die Auswertung dieser sog. „klassischen“ oder „informalen“ Experimente erfolgt durch Differenzbildung; aufgrund fehlender Randomisierung ist eine statistische Ergebnisprüfung nicht möglich. 3.2 Vorexperimentelle Designs Definition Bei vorexperimentellen Designs erfolgt keine bzw. eine nur unvollständige Kontrolle von Störfaktoren. Insbesondere wird auf eine Randomisierung verzichtet. Implizit wird hier unterstellt, dass Störfaktoren sämtliche Testeinheiten in identischer Weise betreffen. Es handelt sich somit nicht um Experimente im eigentlichen Sinn gemäß der hier verwendeten Definition; sie werden aber der Vollständigkeit halber angeführt. One-Shot-Case Study (EA-Typ) Diese einfachste Versuchsanordnung, auch als After-Only-Design oder EA-Typ bekannt, betrachtet eine einzige Testgruppe, die einem Treatment X ausgesetzt wird; anschließend erfolgt eine Messung der abhängigen Variable (O 1 ): EG: X O 1 . Neben der fehlenden Randomisierung besteht die Schwäche des Designs darin, dass die Faktorwirkung kaum zu ermitteln ist - allenfalls durch Vergleich mit einem hypothetischen Wert der abhängigen Variable ohne Treatment (z.B. auf der Grundlage subjektiver Erfahrungen oder ähnlich gelagerter Fragestellungen). Aus diesem Grunde eignet sich dieses Design allenfalls für explorative Analysen. Eingruppen-Vorher-Nachher-Messung (EBA-Typ) Die Eingruppen-Vorher-Nachher-Messung (in der Literatur auch als EBA-Typ oder One-Group Pretest-Posttest-Design bezeichnet) kann wie folgt symbolisiert werden: EG: O 1 X O 2 . Bei diesem Design wird an einer Experimentiergruppe eine Messung vor Testdurchführung vorgenommen (O 1 ) sowie eine danach (O 2 ). Die Faktorwirkung resultiert als <?page no="198"?> Vorexperimentelle Designs 199 O 2 - O 1 ; die Validität des Ergebnisses ist allerdings zweifelhaft, da eine Kontrolle von Störvariablen unterbleibt und eine Kontrollgruppe fehlt. Tab. 5.2: Charakterisierung vorexperimenteller Designs Typ Beschreibung Beispiel Faktorwirkung Beurteilung One-Shot-Case Study Messung der Werte der abhängigen Variablen nach Einsatz des Testfaktors in einer Testgruppe EG: X O 1 Messung der Bekanntheit einer Produktmarke nach Zeigen eines Werbespots O 1 - „O 0 “ mit O 0 = hypothetischer Erfahrungswert für den Ausgangsmesswert ohne Treatment, O 1 Messwert in der Experimentiergruppe nach dem Treatment Vernachlässigung von Störvariablen Kontrollgruppe fehlt zeitliche Entwicklungseffekte nicht messbar Faktorwirkung nicht exakt ermittelbar Eingruppen-Vorher- Nachher-Messung Messung der Werte der abhängigen Variablen zeitlich vor und nach Einsatz der unabhängigen Variablen in einer Testgruppe EG: O 1 X O 2 Messung und Vergleich der Umsätze für ein bestimmtes Produkt in ausgewählten Einzelhandelsgeschäften vor und nach einer Preissenkung für das betreffende Produkt; Paneluntersuchungen; Store-Tests O 2 - O 1 Differenz in der Experimentiergruppe zwischen zwei Zeitpunkten Vernachlässigung von Störvariablen Kontrollgruppe fehlt Zeitliche Entwicklungseffekte nicht messbar Nachher-Messung mit Kontrollgruppe Messung der Werte der abhängigen Variablen in Test- und Kontrollgruppe nur nach Einsatz der unabhängigen Variablen EG: X O 1 CG: O 2 Probeaktion in ausgewählten Testgeschäften und Vergleich der Umsatzzahlen mit Geschäften, die nicht in die Aktion einbezogen waren O 1 - O 2 Differenz zwischen der Experimentier- und der Kontrollgruppe nach Einsatz des Testfaktors Vernachlässigung von Störvariablen Unterstellung gleicher Ausgangslage Nachher-Messung mit Kontrollgruppe (EA-CA-Typ ohne Randomisierung) Diese Versuchsanordnung wird auch als Posttest-Only-Design with Nonequivalent Groups bezeichnet, da auf eine Randomisierung verzichtet wird. Schematisch handelt es sich um folgende Versuchsanordnung: EG: X O 1 CG: O 2 . Die Experimentiergruppe wird dem Testfaktor ausgesetzt, die Kontrollgruppe nicht. Die Messung der abhängigen Variablen erfolgt bei beiden Gruppen erst nach Durchführung des Experiments. Die Faktorwirkung resultiert als O 1 - O 2 . Aufgrund der fehlenden Randomisierung enthält die Faktorwirkung jedoch auch Störfaktoren, insb. Gruppeneffekte und Mortalität (vgl. Campbell/ Stanley 1963, S. 182 f.). Tabelle 5.2 <?page no="199"?> 200 Experimentelle Designs zeigt abschließend die wesentlichen Merkmale vorexperimenteller Versuchsanordnungen im Überblick. 3.3 Echte Experimente Definition Echte Experimente (auch „formale“ oder „vollständige“ Experimente) erfüllen sämtliche Anforderungen an Experimente: Es erfolgt eine Veränderung der Experimentierfaktoren durch den Forscher, es werden Kontrollgruppen eingesetzt und die Gruppen werden nach dem Zufallsprinzip gebildet (Randomisierung). Zunächst sollen die Basisformen echter Experimente charakterisiert werden: Vorher-Nachher-Messung mit Kontrollgruppe, Nachher-Messung mit Kontrollgruppe (randomisiert), Solomon-Vier-Gruppen-Design. Vorher-Nachher-Messung mit Kontrollgruppe (randomisiertes EBA-CBA-Design) Beim EBA-CBA Experiment (Pretest-Posttest Control Group Design; Before-After with Control Group Design) handelt es sich um ein echtes Experiment, sofern eine Randomisierung vorgenommen wird. Die Experimentiergruppe wird dem experimentellen Stimulus ausgesetzt - z.B. dem zu testenden Werbespot -, die Kontrollgruppe nicht. Damit gilt: EG: (R) O 1 X O 2 CG: (R) O 3 O 4 . Die Faktorwirkung wird gemessen als (O 2 - O 1 ) - (O 4 - O 3 ). Dieses Design ist in der Lage, die meisten Störvariablen zu kontrollieren (vgl. Campbell/ Stanley 1963, S. 183 ff.). Der Auswahleffekt wird durch Randomisierung ausgeschaltet; für die übrigen Störvariablen gilt, dass sie sich gleichermaßen auf die Experimentier- und Kontrollgruppe niederschlagen. In der Experimentiergruppe werden die Faktorwirkung und die Störeinflüsse wirksam, in der Kontrollgruppe lediglich die Störeinflüsse: EG: O 2 - O 1 = X + Störgrößen CG: O 4 - O 3 = Störgrößen. Damit kann die Differenz (O 2 - O 1 ) - (O 4 - O 3 ) die Faktorwirkung isolieren. Einzige Störvariable, die in diesem Design nicht kontrolliert wird, ist der Pretesteffekt. Da die Randomisierung zur Kontrolle der Störgrößen in vielen Fällen ausreichend ist, kann jedoch zur Vermeidung des Pretesteffekts auf eine Vorher-Messung bei beiden Gruppen im Prinzip verzichtet werden. <?page no="200"?> Echte Experimente 201 Nachher-Messung mit Kontrollgruppe (randomisiertes EA-CA-Design) Diese auch als Posttest-Only Control Group Design bekannte Versuchsanordnung beruht darauf, dass durch die vorgenommene Randomisierung die Ausgangslage bei Test- und Kontrollgruppe bei ausreichend großer Stichprobe als gleich angesehen werden kann. Dadurch kann die Vorher-Messung entfallen (vgl. Hüttner/ Schwarting 2002, S. 174). Das Versuchsdesign sieht dabei wie folgt aus: EG: (R) X O 1 CG: (R) O 2 . Die Faktorwirkung resultiert als (O 1 - O 2 ). Bei gleicher Ausgangslage der beiden Gruppen ist die Faktorwirkung identisch mit der beim EBA-CBA-Typ; ein Pretesteffekt entsteht nicht. Bei geringer Stichprobe ist jedoch mit Auswahl- und Ausfalleffekten zu rechnen (vgl. Iacobucci/ Churchill 2010, S. 141). Aufgrund der Randomisierung wird zwar eine gleiche Ausgangslage unterstellt, wegen fehlender Vorher-Messung kann dies jedoch nicht überprüft werden. Darüber hinaus ist es nicht möglich festzustellen, ob Verweigerer in der Testgruppe den Verweigerern in der Kontrollgruppe ähnlich sind. Solomon-Vier-Gruppen-Design Das Solomon-Vier-Gruppen-Design entsteht dadurch, dass man die beiden oben dargestellten Versuchsanordnungen kombiniert. Der Versuchsaufbau sieht wie folgt aus (vgl. Campbell/ Stanley 1963, S. 194): EG I : (R) O 1 X O 2 CG I : (R) O 3 O 4 EG II : (R) X O 5 CG II : (R) O 6 . Es werden also zwei Testgruppen und zwei Kontrollgruppen gebildet; bei je einer Testgruppe und einer Kontrollgruppe erfolgt eine Vorher-Nachher-Messung, bei der jeweils anderen Test- und Kontrollgruppe lediglich eine Nachher-Messung. Im Vergleich zum randomisierten EBA-CBA-Design erlaubt diese Versuchsanordnung auch den Pretesteffekt auszuschalten. Zur Bestimmung der Faktorwirkung werden folgende Überlegungen angestellt (vgl. Iacobucci/ Churchill 2010, S. 140): Aufgrund der Randomisierung kann davon ausgegangen werden, dass die Ausgangssituation aller vier Gruppen - bis auf zufällige Abweichungen - gleich ist. Sowohl für die zweite Testgruppe wie auch für die zweite Kontrollgruppe wird daher ein fiktiver Vorher-Messwert als Durchschnitt der Vorher- Messwerte in der ersten Test- und Kontrollgruppe unterstellt, d.h. ( ) 3 1 O O 2 1 + . Die „Faktorwirkungen“ bei den einzelnen Gruppen berechnen sich damit wie folgt: 3 4 I 1 2 I O O : CG O O : EG − − <?page no="201"?> 202 Experimentelle Designs ( ) ( ) . O O 2 1 O : CG O O 2 1 O : EG 3 1 6 II 3 1 5 II + − + − Die bereinigte Faktorwirkung ergibt sich demnach als ( ) ( ) ( ) 6 5 3 1 6 3 1 5 O O O O 2 1 O O O 2 1 O − = + − − + − und entspricht damit der Faktorwirkung im randomisierten EA-CA-Design, was aufgrund der oben getroffenen Annahme der A-priori-Gruppengleichheit auch zwangsläufig der Fall sein muss. Zusätzlich erlaubt dieses Testdesign jedoch auch die Ermittlung des Pretesteffekts als Differenz der partiellen Faktorwirkungen bei den beiden Experimentiergruppen: [ ] ( ) + − − − 3 1 5 1 2 O O 2 1 O O O . Dieses Testdesign erlaubt die Ausschaltung praktisch sämtlicher Störeinflüsse sowie die Isolierung der einzelnen Effekte und kommt daher einer idealen Versuchsanordnung sehr nahe; seine Anwendung scheitert in der praktischen Marktforschung jedoch meist an dem sehr hohen zeitlichen und finanziellen Aufwand wie auch an dem großen erforderlichen Stichprobenumfang. Tabelle 5.3 zeigt zusammenfassend die wesentlichen Merkmale der Basisvarianten echter Experimente. Da echte Experimente auf einer Randomisierung beruhen, d.h. Zufallsauswahl der Testeinheiten und zufällige Zuordnung zu den einzelnen Treatments, können die genannten experimentellen Designs statistisch abgesichert werden. Im Allgemeinen werden bei den einfacheren Designs statistische Tests zum Vergleich des Mittelwerts (bzw. des Anteilwerts) unabhängiger Stichproben verwendet; bei komplexeren Designs - z.B. dem Solomon-Vier-Gruppen-Design - können varianzanalytische Verfahren zur Anwendung kommen (zu den Einzelheiten vgl. Campbell/ Stanley 1963, Bailey 2008 sowie Abschnitt 3.5.4 in Teil 6). Die bisher erörterten experimentellen Anordnungen enthielten jeweils nur einen Testfaktor in einer einzigen Ausprägung. In vielen praktischen Fragestellungen ist es jedoch erforderlich, mehrere unterschiedliche Treatmentausprägungen (sog. Treatmentstufen) gegeneinander zu testen (z.B. unterschiedliche Werbespots). Zudem ist es häufig erforderlich, unterschiedlichen Experimentiervariablen - also Treatments - gleichzeitig zu testen, etwa unterschiedliche Preishöhen und unterschiedliche Platzierungen im Geschäft. Solche Designs gehen über die „klassischen“ Versuchsanordnungen hinaus, da sie mehrere Testfaktoren in verschiedenen Ausprägungen berücksichtigen; Standardformen solcher sog. erweiterter statistischer Experimente („Statistical Designs“) sind (vgl. Fantapié Altobelli 1998, S. 325): vollständiger Zufallsplan, zufälliger Blockplan, lateinisches Quadrat und faktorielle Pläne. <?page no="202"?> Echte Experimente 203 Tab. 5.3: Charakterisierung der Basisvarianten echter Experimente Typ Beschreibung Beispiel Faktorwirkung Beurteilung Vorher-Nachher-Messung mit Kontrollgruppe Messung der Werte der abhängigen Variablen vor und nach Einsatz des Testfaktors in einer Testgruppe und in einer Kontrollgruppe, die nicht dem Einfluss des Testfaktors ausgesetzt ist. EG: (R) O 1 X O 2 CG: (R) O 3 O 4 . Messung der Umsätze für ein bestimmtes Produkt in ausgewählten Einzelhandelsgeschäften vor und nach einer Preissenkung für das betreffende Produkt. Das Ergebnis wird verglichen mit Geschäften, in denen keine Preisaktion erfolgte. (O 2 - O 1 ) - (O 4 - O 3 ) Differenz zwischen den gemeinsamen Unterschieden in der Test- und der Kontrollgruppe Bis auf den Pretest-Effekt werden alle Störvariablen kontrolliert. Nachher-Messung mit Kontrollgruppe Messung der Werte der abhängigen Variablen in Test- und Kontrollgruppe nach Einsatz der unabhängigen Variablen EG: (R) X O 1 CG: (R) O 2 . Ziehung zweier Zufallsstichproben von Testgeschäften. In einer Gruppe wird eine Probeaktion durchgeführt, in der anderen nicht; anschließend werden die Umsatzzahlen verglichen. (O 2 - O 1 ) Differenz zwischen den Messwerten in der Testgruppe und in der Kontrollgruppe Durch Randomisierung kann bei ausreichender Stichprobengröße gleiche Ausgangslage unterstellt werden, sodass eine Kontrolle der Störgrößen erfolgt. Der Pretesteffekt wird kontrolliert. Solomon-Vier-Gruppen-Design Messung der Werte der abhängigen Variablen vor und nach Einsatz des Testfaktors in je einer ersten Test- und Kontrollgruppe. Messung nur nach Einsatz des Testfaktors in je einer zweiten Test- und Kontrollgruppe. EG I : (R) O 1 X O 2 CG I : (R) O 3 O 4 EG II : (R) X O 5 CG II : (R) O 6 . Siehe Beispiel zur Vorher-Nacher- Messung mit Kontrollgruppe. Bei zwei weiteren Stichproben von Geschäften erfolgt nur eine Messung danach, wobei eine Gruppe an der Preisaktion teilnimmt, die andere nicht. Faktorwirkung: (O 5 - O 6 ) Pretest-Wirkung: [ ] ( ) + − − − 3 1 5 1 2 O O 2 1 O O O Ausschaltung sämtlicher Störeinflüsse Sehr aufwändiges Design, daher in der Praxis kaum angewendet <?page no="203"?> 204 Experimentelle Designs Charakteristisch für statistische Experimente ist die Tatsache, dass die Auswertung mittels Varianzanalyse erfolgt (vgl. die Ausführungen in Abschnitt 3.5.4 im 6. Teil). Hierbei ist zu unterscheiden, ob es sich um vollständige Designs handelt, bei denen sämtliche Merkmalskombinationen getestet werden (z.B. beim vollständigen Zufallsplan oder zufälligen Blockplan), oder aber um sog. reduzierte Designs, bei welchem nur diejenigen Kombinationen untersucht werden, die das vollständige Design möglichst gut repräsentieren (z.B. Lateinisches Quadrat). Letztere kommen mit einer deutlich geringeren Zahl an Testgruppen aus und sind damit weniger zeit- und kostenaufwändig, beinhalten aber einen gewissen Informationsverlust, da nicht alle Kombinationen untersucht werden und Interaktionseffekte damit nicht messbar sind. Vollständiger Zufallsplan Beim vollständigen Zufallsplan wird ein Experimentierfaktor in verschiedenen Ausprägungen (Treatmentstufen) untersucht (vgl. Abb. 5.4). Der Störfaktor wird indirekt dadurch berücksichtigt, dass für die verschiedenen Treatments wiederholt Messungen (Replikationen) erfolgen, z.B. an unterschiedlichen Testeinheiten (Personen, Geschäfte, Zeitpunkte). Dadurch werden die Auswirkungen des Störfaktors ausgeglichen. Die Testeinheiten werden dabei zufällig den verschiedenen Treatmentstufen zugeordnet (Randomisierung). Beispiel 5.14: Es soll die Attraktivität von drei alternativen Verpackungen getestet werden (Treatmentstufen). Zu diesem Zweck werden im Rahmen eines Store-Tests sechs Tage lang (Replikationen) die alternativen Verpackungen in zufälliger zeitlicher Verteilung (Randomisierung) angeboten und die zugehörigen Absatzmengen erfasst. Das einfaktorielle Design hat bei s Treatmentstufen und i = 1, ..., n Replikationen folgendes Aussehen: ( ) ( ) ( ) . O X R EG O X R EG O X R EG s s s k k k 1 1 1 Replikationen Treatmentstufen 1 k s 1 y 11 y 1k y 1s i y i1 y ik y is n y n1 y nk y ns Spaltenmittel Abb. 5.3: Vollständiger Zufallsplan Messwerte der abhängigen Variablen <?page no="204"?> Echte Experimente 205 Zufälliger Blockplan Beim vollständigen Zufallsplan wurden Störfaktoren wiederholt durch Replikationen nach dem Prinzip der Randomisierung berücksichtigt. Im Falle, dass eine bedeutsame Störgröße bekannt ist, kann jedoch dieser Störfaktor explizit in der Versuchsanordnung berücksichtigt werden, und zwar dadurch, dass nach den Ausprägungen der Störgröße Blöcke gebildet werden. Auf Replikationen kann somit verzichtet werden. Dabei werden in jedem Block sämtliche Treatments durchgeführt (vgl. Abb. 5.4). Varianzanalytisch können sowohl die Wirkung des Experimentierfaktors als auch der Einfluss der Blockzugehörigkeit erfasst werden (jedoch nicht deren Interaktion, vgl. Hüttner/ Schwarting 2002, S. 178). Blöcke Treatmentstufen Zeilenmittel 1 k s 1 y 11 y 1k y 1s • l y l1 y lk y ls • m y m1 y mk y ms • m Spaltenmittel • • • Abb. 5.4: Zufälliger Blockplan Beispiel 5.15: Es wird vermutet, dass die Geschlechtszugehörigkeit den maßgeblichen Einfluss auf die wahrgenommene Attraktivität von Verpackungen hat. Aus diesem Grunde erfolgt im vorherigen Beispiel 5.14 eine Blockbildung nach Geschlecht. Die drei Verpackungen werden an einem bestimmten Tag je einer Teilstichprobe aus Männern und Frauen präsentiert. Replikationen sind nicht erforderlich, da andere Störgrößen als das Geschlecht annahmegemäß keine Rolle spielen. Faktorielle Pläne Faktorielle Pläne erlauben die Untersuchung von mindestens zwei Testfaktoren (z.B. Verpackung und Produktplatzierung) sowie der Interaktionen zwischen ihnen. Voraussetzung sind verschiedene Messungen (Replikationen) für die einzelnen Treatment- Kombinationen. Abbildung 5.5 zeigt einen vollständigen bifaktoriellen Zufallsplan mit gleicher Anzahl an Replikationen (i = 1,…, n). Beispiel 5.16: Neben der Attraktivität dreier alternativer Verpackungen soll auch die Wirksamkeit zweier alternativer Regalplatzierungen getestet werden. Diese 3 × 2 = 6 möglichen Faktorkombinationen werden im Rahmen eines Store-Tests in 6 aufeinander folgenden Tagen getestet (in zufälliger zeitlicher Verteilung). <?page no="205"?> 206 Experimentelle Designs Replikationen Treatmentstufen Faktor B 1 l m Treatmentstufen Faktor A 1 1 y 111 y 11l y 11m i y i11 y i1l y i1m n y n11 y n1l y n1m k 1 y 1k1 y 1kl y 1km i y ik1 y ikl y ikm n y nk1 y nkl y nkm s 1 y 1s1 y 1sl y 1sm i y is1 y isl y ism n y ns1 y nsl y nsm Abb. 5.5: Vollständiger bifaktorieller Zufallsplan Der Vorteil mehrfaktorieller Designs liegt darin, dass nicht nur die Haupteffekte der Treatments gemessen werden können, sondern auch die Interaktionen zwischen ihnen. So kann in obigem Beispiel vermutet werden, dass die Wirkung einer Verpackung (auch) von der jeweiligen Platzierung abhängig ist und umgekehrt. Diese Versuchsanordnung erlaubt den Schluss, welche Kombination der beiden Faktoren vorzuziehen ist. Allerdings führt die Berücksichtigung mehrerer Testfaktoren in verschiedenen Ausprägungen sehr schnell zu einem sehr hohen Testaufwand. Aus diesem Grunde wurden sog. reduzierte Designs entwickelt, die den Testaufwand verringern. Lateinisches Quadrat Das Lateinische Quadrat ist ein spezielles, symmetrisches reduziertes Design, das für den Fall von genau drei Treatments konzipiert ist. Das Design ist anwendbar, wenn keine Interaktionseffekte zu erwarten sind, sondern nur Haupteffekte zu berücksichtigen sind. Beim Lateinischen Quadrat können bis zu zwei Störfaktoren gleichzeitig berücksichtigt werden (z.B. Art des Geschäfts und Tageszeit). In diesem Fall wird aber nur ein Treatment einbezogen. Die Treatments - mit lateinischen Großbuchstaben bezeichnet - werden dabei so zugeteilt, dass sie in jeder Zeile und in jeder Spalte nur einmal vorkommen; damit kann der erforderliche Stichprobenumfang in Grenzen gehalten werden (vgl. Abb. 5.6). Zu beachten ist, dass die Zahl der Ausprägungen bei den Treatments bzw. Störvariablen gleich sein muss. Störgröße T Störgröße N 1 2 3 1 A B C 2 B C A 3 C A B Abb. 5.6: Lateinisches Quadrat Treatmentstufen des Testfaktors Messwerte der abhängigen Variablen <?page no="206"?> Echte Experimente 207 Beispiel 5.17: Es wird vermutet, dass die wahrgenommene Attraktivität von Verpackungen vom Geschäftstyp und vom Alter der Probanden maßgeblich beeinflusst wird (Störfaktoren). Die drei Verpackungen A, B und C sollen daher in drei Geschäftstypen (Discounter, Supermarkt, Spezialitätengeschäft) und in drei Altersklassen (16-35; 36-55; 56 und älter) getestet werden. Es gilt also: Treatment: Verpackung A, B, C Störgröße N: Geschäftstyp I, II, III Störgröße Z: Altersklasse 1, 2, 3 Bei einem vollständigen faktoriellen Design wären 3 × 3 × 3 = 27 Kombinationen zu testen. Dies bedeutet, dass 27 repräsentative Testgruppen zu bilden wären. Kann jedoch davon ausgegangen werden, dass Interaktionseffekte vernachlässigbar sind, kann ein reduziertes Design in Form eines Lateinischen Quadrats herangezogen werden. Das Design des Lateinischen Quadrats erlaubt die Beschränkung auf nur 9 Stimuli und damit 9 Testgruppen, was den erforderlichen Stichprobenumfang erheblich reduziert. Aus den 27 Stimuli wird folgendes Set ausgewählt: A I 1 B I 1 C I 1 A I 1 A II 1 B II 1 C II 1 B II 1 A III 1 B III 1 C III 1 C III 1 A I 2 B I 2 C I 2 C I 2 A II 2 B II 2 C II 2 A II 2 A III 2 B III 2 C III 2 B III 2 A I 3 B I 3 C I 3 B I 3 A II 3 B II 3 C II 3 C II 3 A III 3 B III 3 C III 3 A III 3 Dieses Set an Stimuli erfüllt die Bedingung, dass alle Testfaktoren je einmal mit den einzelnen Ausprägungen der Störgrößen kombiniert werden, sodass die Haupteffekte errechnet werden können. Neben den hier dargestellten Standardformen existiert eine ganze Reihe weiterer Versuchsanordnungen, z.B. das griechisch-lateinische Quadrat, mit dem 4 Faktoren berücksichtigt werden können (vgl. Döring/ Bortz 2016, S. 720 ff.). Für weitere reduzierte Designs soll an dieser Stelle auf die Spezialliteratur verwiesen werden. Stimuli beim Vollständigen Design Stimuli beim Lateinischen Quadrat <?page no="207"?> 208 Experimentelle Designs 3.4 Quasi-Experimente Definition Als Quasi-Experimente werden Versuchsanordnungen bezeichnet, für die eine oder mehrere der Bedingungen für echte Experimente fehlen, d.h. für die gilt: Der Experimentierfaktor wird nicht unter kontrollierten Bedingungen variiert, oder es erfolgt keine Randomisierung, oder es wird keine Kontrollgruppe herangezogen. Echte Experimente gemäß Abschnitt 3.3 sind dadurch charakterisiert, dass der Forscher die Experimentierfaktoren verändert, Kontrollgruppen einsetzt und die Gruppen nach dem Zufallsprinzip bildet. In der Praxis ist es jedoch häufig so, dass keine vollständige Kontrolle über die Versuchsbedingungen gewonnen werden kann. Die Grenzen zwischen echten Experimenten und Quasi-Experimenten sind dabei häufig fließend; letztlich werden die echten Experimente durch Verzicht auf Randomisierung zu Quasi-Experimenten. Im Folgenden sollen einige Grundformen quasi-experimenteller Untersuchungen dargestellt werden (vgl. Campbell/ Stanley 1966, S. 210 ff.): Vorher-Nachher-Messung mit unterschiedlichen Samples, Kontrollgruppen-Anordnung ohne Randomisierung sowie Zeitreihendesigns. Weitere Designs finden sich bei Cook/ Campbell 1979 sowie Cook/ Campbell/ Peracchio 1990. Vorher-Nachher-Messung mit unterschiedlichen Samples (EB-CA-Typ) Dieses Untersuchungsdesign wird den quasi-experimentellen Designs zugeordnet, obwohl eine Randomisierung vorgenommen wird. Der Grund ist darin zu sehen, dass die Messungen an zwei verschiedenen Gruppen erfolgen, ohne dass eine „echte“ Kontrollgruppe existiert, da eine Vorhermessung bei der „Kontrollgruppe“ nicht vorgenommen wird. Das Design ist wie folgt: EG I : (R) O 1 CG I : (R) X O 2 . Die Faktorwirkung wird gemessen als O 2 - O 1 . Beispiel 5.18: Vor Schaltung einer Werbekampagne wird eine repräsentative Stichprobe gezogen und bei den Testpersonen wird die Markenbekanntheit des betreffenden Produkts erfasst. Nach Ablauf der Kampagne wird bei einer zweiten repräsentativen Stichprobe wiederum die Markenbekanntheit erhoben. Die Veränderung der Markenbekanntheit wird auf den Einsatz der Werbekampagne zurückgeführt. <?page no="208"?> Quasi-Experimente 209 Vorteilhaft ist an diesem Design die Vermeidung des Pretesteffekts; allerdings sind zeitliche Entwicklungseffekte, d.h. Störfaktoren, die sich zwischen den beiden Messzeitpunkten eingestellt haben, nicht erfassbar. Dieses Design ist typisch für sog. Wellenerhebungen, sofern im Rahmen solcher Studien Kausalhypothesen untersucht werden, da dieselben Erhebungsinhalte in regelmäßigen Abständen bei unterschiedlichen repräsentativen Querschnitten erhoben werden. Kontrollgruppenandesign ohne Randomisierung (EBA-CBA-Typ) Der quasi-experimentelle Charakter dieser Versuchsanordnung entsteht dann, wenn beim Design „Vorher-Nachher-Messung mit Kontrollgruppe“ auf eine Randomisierung verzichtet wird; aus diesem Grunde findet sich dieses Design in der Literatur auch unter dem Begriff Nonequivalent Control Group Design. Bei dieser Versuchsanordnung werden eine Testgruppe und eine Kontrollgruppe eingesetzt; vor und nach Einsatz des Experimentierfaktors bei der Testgruppe werden bei beiden Gruppen Messungen vorgenommen; dadurch können zum einen Entwicklungseffekte ausgeschaltet, zum anderen kann eine evtl. vorhandene A-priori-Unterschiedlichkeit der Gruppen sichtbar gemacht werden. Zeitreihendesign Im Rahmen eines Zeitreihendesigns werden wie bei der Zeitreihenanalyse Beobachtungswerte der interessierenden abhängigen Variablen in gleichbleibenden Abständen erhoben, wie es beispielsweise im Rahmen von Panelerhebungen der Fall ist (vgl. die Ausführungen in Teil 4). Anders als bei herkömmlichen Zeitreihenanalysen wird jedoch ein Experimentierfaktor eingeführt, d.h. es wird die Entwicklung der abhängigen Variablen im Zeitablauf vor und nach Einsatz eines Testfaktors betrachtet. Das Design hat in der Grundform (z.B. bei Zugrundelegen von vier Perioden) folgendes Aussehen: EG: O 1 O 2 X O 3 O 4 . Der quasi-experimentelle Charakter der Versuchsanordnung resultiert daraus, dass auf eine Randomisierung und i.d.R. auch auf den Einsatz einer Kontrollgruppe verzichtet wird. Eine zumindest teilweise Kontrolle von Störfaktoren erfolgt jedoch dadurch, dass vor und nach Einsatz des Testfaktors regelmäßige Messungen vorgenommen werden, sodass davon ausgegangen werden kann, dass viele Störfaktoren sich auf alle Messwerte auswirken, ein Trendbruch also auf den Einsatz des Testfaktors zurückzuführen ist. Im Gegensatz zu den bisherigen Designs kann die Faktorwirkung nicht durch Differenzbildung ermittelt werden; vielmehr ist es erforderlich, mit Hilfe der verschiedenen Verfahren der Zeitreihenanalyse den Zeitreiheneffekt (z.B. Trend, Saison) von der Wirkung des Testfaktors zu isolieren. Zu dieser Klasse von Quasi-Experimenten können Panelerhebungen gerechnet werden, sofern die Forschungsanordnung des Panels durch möglichst umfassende Kontrolle der Untersuchungssituation experimentellen Charakter gewinnt (vgl. Böhler 2004, S. 53 f.). Beispielsweise kann die Wirkung einer Sonderpreisaktion oder einer Verkaufsförderungsmaßnahme auf die Absatzmenge erfasst werden. Tabelle 5.4 fasst die dargestellten Grundformen quasi-experimenteller Designs zusammen. <?page no="209"?> 210 Experimentelle Designs Tab. 5.4: Charakterisierung ausgewählter quasi-experimenteller Designs Typ Beschreibung Beispiel Faktorwirkung Beurteilung Vorher-Nachher-Messung mit unterschiedlichen Samples Messung der Werte der abhängigen Variablen zeitlich vor Einsatz der unabhängigen Variablen in einer Testgruppe und zeitlich nach dem Einsatz in einer anderen Testgruppe (bei zwei repräsentativen Querschnitten) EG I : (R) O 1 CG I : (R) X O 2 Tendenzumfrage, d.h. Befragung von zwei unterschiedlichen repräsentativen Querschnitten deutscher Bürger mit gleichem Fragenwortlaut, etwa Parteienpräferenz vor und nach einer Fernsehdiskussion führender Politiker aller Parteien. (O 2 - O 1 ) Differenz zwischen der Kontrollgruppe im Zeitpunkt 1 und der Experimentiergruppe im Zeitpunkt 0 Zeitliche Entwicklungseffekte nicht messbar Keine echte Kontrollgruppe Pretesteffekt wird ausgeschaltet Kontrollgruppendesign ohne Randomisierung Messung der Werte der abhängigen Variablen vor und nach Einsatz des Testfaktors bei der Experimentiergruppe, Vorher- und Nachher-Messung in der Kontrollgruppe EG: O 1 X O 2 CG: O 3 O 4 Messung der Markenbekanntheit in einer Experimentiergruppe vor und nach einer Werbekampagne. Das Ergebnis wird verglichen mit der Änderung der Markenbekanntheit in der Kontrollgruppe. (O 2 - O 1 )-(O 4 - O 3 ) Differenz zwischen den gemeinsamen Unterschieden in der Experimentier- und der Kontrollgruppe Wirkung des Testfaktors in der Experimentiergruppe wird bereinigt um Entwicklungseffekte, die sich in der Kontrollgruppe zeigen Gute Kontrolle der meisten Störvariablen Zeitreihendesign (Grundform) Mehrmalige Messung der Werte einer abhängigen Variablen in einer Testgruppe in zeitgleichen Abständen vor und nach Einsatz eines Testfaktors EG: O 1 O 2 X O 3 O 4 Entwicklung des Marktanteils konkurrierender Marken im Rahmen einer Panelerhebung vor und nach einer Sonderpreisaktion im Handel Einsatz von Verfahren der Zeitreihenanalyse Viele Störgrößen können nicht kontrolliert werden, insb. externe zeitliche Einflüsse, Pretesteffekte. Bei Heranziehung einer Kontrollgruppe kann mittels Matching die Ausgangslage angeglichen und damit die Validität erhöht werden. <?page no="210"?> Quasi-Experimente 211 Weiterführende Literatur Bailey, R.A. (2008): Design of Comparative Experiments, Series: Cambridge Series in Statistical and Probabilistic Mathematics (25), Oxford. Campbell, D.T., Stanley, J.C. (1966): Experimental and Quasi-Experimental Designs for Research, Boston. Cook, T.D., Campbell, D.T., Peracchio, L. (1990): Quasi Experimentation, in: Dunnette, M.D., Hough, L.M. (eds.): Handbook of Industrial and Organizational Psychology, 1, Palo Alto, 491-576. Ghosh, S., Rao, C.R. (eds.) (1996): Design and Analysis of Experiments, Handbook of Statistics, 13, North-Holland. Sarris, V. (1992): Methodologische Grundlagen der Experimentalpsychologie. Bd. 2: Versuchsplanung und Stadien des psychologischen Experiments, München. <?page no="212"?> Teil 6: Datensammlung und Datenauswertung 1 Durchführung und Kontrolle der Feldarbeit Eine sorgfältige Planung des Untersuchungsdesigns ist eine notwendige, aber nicht hinreichende Bedingung für die Güte der Untersuchungsergebnisse; genauso wichtig ist eine korrekte Durchführung der Feldarbeit, da diese das Ausmaß des systematischen Fehlers stark beeinflusst (vgl. hierzu Abschnitt 1.4.2 im 3. Teil). Häufig wird der eigentlichen Erhebung daher eine Pilotstudie vorgeschaltet, um zu überprüfen, ob das Messinstrument (Fragebogen, Beobachtungsanweisung) adäquat entwickelt wurde. Im Rahmen der Datensammlung sind eine Vielzahl von Teilentscheidungen zu treffen; diese umfassen im Einzelnen (vgl. Abb. 6.1): Auswahl der Feldorganisation, Schulung der Interviewer bzw. Beobachter, Projektabwicklung und Kontrolle der Erhebung Abb. 6.1: Teilaufgaben im Rahmen der Durchführung der Feldarbeit Im Rahmen der Auswahl der Feldorganisation ist zunächst die Grundsatzentscheidung zu treffen, ob ein eigener Interviewerstab aufgebaut werden soll, oder aber die Dienste professioneller Dienstleister in Anspruch genommen werden sollen. Während größere Marktforschungsinstitute i.d.R. über einen Stab eigener Kräfte verfügen, greifen kleinere Institute oder Marktforschungsberater häufig auf spezialisierte Agenturen zurück, welche auf dem freien Markt gegen Entgelt ihre Dienste anbieten. Dasselbe gilt in dem Fall, dass das Unternehmen die Erhebung in eigener Regie durchführt. Neben dieser grundsätzlichen organisatorischen Frage sind für das konkrete Projekt die damit zu beauftragenden Interviewer bzw. Beobachter auszuwählen. Der Forscher sollte detaillierte Aufgabenbeschreibungen in Abhängigkeit von der geplanten Erhebungsform Durchführung und Kontrolle der Erhebung Auswahl der Feldorganisation Erstellung von Aufgabenbeschreibungen Erstellung von Anforderungsprofilen Anwerbung von Interviewern Schulung der Interviewer Einweisung in Befragungstechniken und -taktiken Einweisung in Techniken der Antwortbzw. Verhaltensregistrierung Kontrolle der Erhebung Zeitliche Kontrolle Budgetkontrolle Interviewerkontrolle Kontrolle der Stichprobenrepräsentanz Kontaktieren der Erhebungseinheiten Durchführung der Feldarbeit i.e.S. Registrierung der Antworten bzw. des Verhaltens Durchführung von Nachfassaktionen Projektabwicklung <?page no="213"?> 214 Durchführung und Kontrolle der Feldarbeit erarbeiten. Darauf aufbauend sollten die erforderlichen Eigenschaften bzw. Qualifikationen der Interviewer festgelegt werden: Während die Durchführung einer quantitativen, standardisierten schriftlichen Erhebung nur geringe Vorkenntnisse erfordert, kann ein qualitatives Tiefeninterview nur durch einen geschulten Psychologen erfolgen. Auf der Grundlage der erstellten Anforderungsprofile werden geeignete Personen angeworben. Grundsätzlich sollten Interviewer über folgende allgemeine Mindestqualifikationen verfügen (vgl. Malhotra 2010, S.435): guter gesundheitlicher Zustand, Fähigkeit, auf andere einzugehen, kommunikative Fähigkeiten, angenehmes Äußeres, höheres Bildungsniveau und Erfahrung. In diesem Zusammenhang ist auch der soziodemographische und psychographische Hintergrund der Interviewer zu berücksichtigen. Insbesondere im Rahmen persönlicher Interviews zeigt sich, dass die Wahrscheinlichkeit eines erfolgreichen Interviews umso größer ist, je mehr sich Befrager und Befragte ähneln (vgl. Singer et al. 1983, Barker 1987). Die Schulung der Interviewer ist sehr stark von der gewählten Erhebungsmethode abhängig. Am Beispiel persönlicher Interviews sollen die wichtigsten Richtlinien skizziert werden (vgl. ausführlich Guenzel et al. 1983): Der Interviewer sollte mit den Fragebogen durchweg vertraut sein (sowohl inhaltlich als auch ablauftechnisch). Wortlaut und Reihenfolge der Fragen sollten exakt eingehalten werden. Die Fragen sollten langsam und deutlich vorgelesen werden. Bei Verständnisschwierigkeiten ist die Frage im selben Wortlaut zu wiederholen. Intervieweranweisungen sind exakt zu befolgen. Sorgfältiges Nachhaken ist erforderlich, um Ergänzungen und Erläuterungen seitens des Befragten zu provozieren. Auch bei der Registrierung der Antworten ist sorgfältig vorzugehen. Die Antworten sind wörtlich zu notieren, ferner sollten zusätzliche Anmerkungen und Kommentare ebenfalls im Fragebogen vermerkt werden. Auf keinen Fall sollte der Interviewer Antworten zusammenfassen oder interpretieren; das ist Aufgabe des Forschers. Im Rahmen der Projektabwicklung erfolgt die konkrete Datensammlung bei den Erhebungseinheiten. Dazu gehören folgende Schritte: Kontaktieren der Erhebungseinheit, Befragung bzw. Beobachtung der Auskunftspersonen, Registrierung der Antworten bzw. des beobachteten Verhaltens der Erhebungseinheit, Durchführung von Nachfassaktionen, um schwer zugängliche Probanden zu erreichen. <?page no="214"?> 215 Große Bedeutung hat die Kontrolle der Erhebung, um die Qualität der Ergebnisse zu gewährleisten; die Überprüfung umfasst dabei zeitliche, finanzielle und sachliche Aspekte. In zeitlicher Hinsicht ist die Einhaltung des geplanten Zeitrahmens für die Untersuchung zu überwachen. Die Budgetkontrolle soll gewährleisten, dass der finanzielle Rahmen der Untersuchung nicht gesprengt wird; gerade ungeplante Zeitverzögerungen führen regelmäßig zur Unterschätzung der anfallenden Kosten (vgl. Böhler 2004, S. 157). In sachlicher Hinsicht ist zum einen zu gewährleisten, dass die Interviewer bzw. Beobachter den Anweisungen folgen und die gelernten Techniken im Rahmen der Feldarbeit in geeigneter Weise einsetzen (Interviewerkontrolle); zum anderen ist die Repräsentativität der Stichprobe zu überprüfen. Die Interviewerkontrolle spielt bei Face-to-face- und telefonischen Befragungen eine Rolle, wenn also die Befragung mündlich durch Interviewer administriert wird. Im Rahmen der Interviewerkontrolle sind folgende Aspekte zu beobachten: Überprüfung des Sampling, Überprüfung der Interviewdurchführung. Die Überprüfung des Sampling dient dazu, zu gewährleisten, dass die Interviewer dem Stichprobenplan folgen und nicht die Untersuchungseinheiten nach Bequemlichkeitsaspekten aussuchen, indem sie z.B. einen Probanden, den sie gerade nicht erreichen, nicht nochmals kontaktieren, sondern durch einen anderen ersetzen. Die Interviewer sollen daher angehalten werden, genau zu notieren, wie viele Probanden kontaktiert und wie viele nicht erreicht wurden, wie viele die Teilnahme verweigerten und wie viele Interviews erfolgreich abgeschlossen wurden (vgl. Malhotra 2010, S. 439). Die Überprüfung der Interviewdurchführung soll hingegen aufdecken, ob erstens die Interviews tatsächlich durchgeführt wurden und zweitens, ob die Fragebögen korrekt ausgefüllt wurden. Neben einer allgemeinen Plausibilitätsprüfung wird üblicherweise bei einem Teil der Probanden telefonisch angefragt, ob das Interview tatsächlich durchgeführt wurde. Unter Umständen wird bei einem Teil der Stichprobe die Befragung wiederholt, um Fälschungen aufzudecken. Statistische Verfahren der Mustererkennung können ebenfalls bei der Aufdeckung von Fälschungen unterstützen, da Interviewer, die Fragebögen fälschen, unbewusst oftmals die gleichen Antwortmuster verwenden. Ausführliche Hinweise zur Einhaltung von Qualitätsstandards bei der Datenerhebung finden sich auf der Homepage des ADM (https: / / www.admev.de/ datenerhebung/ ). Bei der Kontrolle der Stichprobenrepräsentativität erfolgt schließlich eine Gegenüberstellung ausgewählter Merkmale der Stichprobe mit bekannten Merkmalen der Grundgesamtheit (i.d.R. soziodemographische Merkmale wie Alter, Geschlecht, Einkommen, Ausbildung, Beruf). Gerade wenn bestimmte Gruppen hohe Ausfälle erzeugen ist die Repräsentativität der Stichprobenergebnisse nicht mehr gewährlestet. In diesem Falle muss nachträglich eine Gewichtung der Daten vorgenommen werden, d.h. unterrepräsentierte Gruppen werden bei der Gesamtauswertung höher gewichtet. Das Verfahren ist insbesondere dann problematisch, wenn nur wenige Merkmalsträger in der Stichprobe sind, diese aber einen signifikanten Anteil der Grundgesamtheit repräsentieren müssen. <?page no="216"?> 2 Aufbereitung der Daten Nach der Durchführung der Feldarbeit liegt das Datenmaterial - je nach Erhebungsmethode - in Form ausgefüllter Fragebögen, Beobachtungsprotokolle, Audiobzw. Videobänder etc. vor. Die darin enthaltenen Einzelinformationen müssen in geeigneter Weise aufbereitet werden, um sie einer Analyse zugänglich zu machen. Hierbei wird im Folgenden nur der Fall quantitativer Befragungen betrachtet, da qualitative Erhebungen ausführlich in Teil 7 behandelt werden. Abbildung 6.2 zeigt den allgemeinen Ablauf der Datenaufbereitung. Abb. 6.2: Ablauf der Datenaufbereitung Der erste Schritt besteht darin, die Fragebögen zu überprüfen; nicht auswertbare Fragebögen sind auszusondern, die verbleibenden müssen ggf. redigiert werden. Zahlreiche Ursachen können dazu führen, dass Fragebögen nicht verwertbar sind: Der Fragebogen ist unvollständig, entweder weil ganze Teile physisch fehlen (z.B. herausgerissene Seiten) oder aber - versehentlich oder absichtlich - nicht ausgefüllt wurden. Der Fragebogen wurde fehlerhaft beantwortet, weil die Befragten offensichtlich die Aufgabe nicht verstanden haben (z.B. Wahl des falschen Pfads bei Gabelungsfragen). Der Fragebogen traf verspätet ein. Die verbleibenden Fragebögen werden einem weiteren Check anhand verschiedener Kriterien unterzogen, ggf. erfolgen Korrekturen an den Fragebögen, um sie verwertbar zu machen. Gängige Kriterien sind (vgl. Iacobucci/ Churchill 2010, S. 407): Vollständigkeit: Fehlende Antworten können Antwortverweigerung, Unverständnis der Frage oder Unwissen des Befragten zum Ausdruck bringen. Für den Zweck der Untersuchung ist es wesentlich, den Grund korrekt zuzuordnen. Lesbarkeit: Kodierung und Eingabe der Daten setzen voraus, dass der Fragebogen lesbar ist; dies gilt sowohl für die Handschrift als auch für mögliche Abkürzungen, die der Interviewer bei der Antwortregistrierung verwendet hat. Verständlichkeit: „Kryptische“ Formulierungen des Interviewers sind zu identifizieren und mit diesem abzuklären. Überprüfung und Redaktion der Fragebögen Dateneingabe und -überprüfung Kodierung Datenkorrektur Erstellen der Datenmatrix <?page no="217"?> 218 Aufbereitung der Daten Konsistenz: Die einzelnen Fragebögen sind dahingehend zu überprüfen, ob sich die Antworten der Befragten widersprechen. Dies ist z.B. dann der Fall, wenn ein Befragter angibt, die E-Mail-Funktion des Internets zu nutzen, bei der Frage nach seiner E-Mail-Adresse er jedoch gleichzeitig angibt, keine zu besitzen. Vergleichbarkeit: Die Registrierung der Antworten soll in vergleichbaren Einheiten erfolgen. Antwortet ein Befragter auf die Frage nach dem jährlichen Haushaltsnettoeinkommen etwa mit „2500“, so liegt die Annahme nahe, dass sich seine Antwort auf das monatliche Einkommen bezieht. Treten in den Fragebögen die o.g. Probleme auf, so sind folgende Ansatzpunkte denkbar: Kontaktaufnahme mit dem Interviewer bzw. mit den Befragten, um Missverständnisse auszuräumen und Unklarheiten zu beseitigen; Zuordnung von sog. „Missing Values“ zu den fehlenden oder fehlerhaften Antworten; Aussonderung des Fragebogens, wenn die ersten beiden Wege nicht gangbar sind. Die (manuelle) Überprüfung der Fragebögen entfällt, wenn die Befragung computergestützt erfolgt (z.B. CAPI, CATI). Im Rahmen der Kodierung werden Antwortkategorien gebildet (sofern sie nicht bereits existieren); den einzelnen Antwortkategorien werden dabei möglichst einfache Symbole zugeordnet, i.d.R. Zahlenwerte. Die Kodierung bildet die Voraussetzung dafür, dass die Rohdaten zwecks weitergehender Verarbeitung auf einen Datenträger übertragen werden können. Bei der Kodierung bestehen erhebliche Unterschiede je nachdem, ob die Daten quantitativer oder qualitativer Natur sind. Quantitative Daten entstehen im Rahmen standardisierter Befragungen mit vorgegebenen Antwortkategorien (vgl. Abschnitt 1.3 im 2. Teil). Das entstehende Datenmaterial kann nach entsprechender Kodierung mit Hilfe gängiger Statistikpakete (z.B. SPSS) ausgewertet werden. Die Codes besitzen dabei keinen nummerischen Aussagewert, sondern dienen lediglich der Kennzeichnung und Ordnung der Variablenwerte. Beispiel 6.1: Bei der Frage: „Wie häufig verwenden Sie Marke X pro Woche? “ wird folgender Schlüssel zugrunde gelegt: 1 weniger als 1 Mal 2 1 - 2 Mal: 3 3 - 4 Mal 4 5 Mal und mehr Weiter mit Frage 18 Die Zahlen 1 bis 4 dienen der Verschlüsselung. Einem Haushalt, der Marke X dreibis viermal pro Woche verwendet, würde der Wert 3 zugeordnet werden. Anders verhält es sich bei qualitativen Studien, in denen offene Fragen verwendet werden, und im Rahmen von Beobachtungen, bei welchen das Verhalten der Probanden aufgezeichnet wird. In diesem Falle existieren keine vorgegebenen Antwortkategorien, diese müssen vielmehr erst entwickelt werden. In manchen Fällen kann sich der Forscher auf vorhandene Studien oder theoretische Überlegungen stützen; ist dies nicht möglich, erfolgt die Kategorienbildung nachträglich (vgl. die Ausführungen in Teil 7). <?page no="218"?> 219 Unabhängig von der Erhebungsmethode sollten bei der Bildung von Kategorien folgende Aspekte beachtet werden (vgl. Luyens 1995): Die Kategorien sollten das gesamte Spektrum der Ausprägungen beschreiben. Zu diesem Zweck empfiehlt es sich oft, selten genannte Fälle in eine Kategorie „Sonstiges“ unterzubringen wie auch eine Kategorie „keine Angabe“ vorzusehen. Die Kategorien sollten sich gegenseitig ausschließen. Dies ist dann der Fall, wenn jede mögliche Antwort einer einzigen Kategorie zugeordnet werden kann. Für kritische Sachverhalte sollten auch dann Kategorien vorgesehen werden, wenn kein einziger Befragter sie genannt hat, da auch diese Information von Bedeutung sein kann. Beispiel 6.2: Aufgrund hoher Mitarbeiterfluktuation in den letzten drei Jahren soll im Rahmen einer quantitativen Mitarbeiterbefragung die Zufriedenheit mit dem Arbeitsplatz im betrachteten Unternehmen erhoben werden. In die Kategorie „äußerst zufrieden“ fällt keine einzige Antwort. Dies legt für das Management einen dringenden Handlungsbedarf nahe. Bei der Kodierung sollten die Daten in möglichst detaillierter Form verschlüsselt werden. Eine Klassenbildung und Aggregation sollte der Forscher erst im Rahmen der Datenanalyse vornehmen, da ansonsten wertvolle Einzelinformationen verloren gehen. Quantitative Erhebungen beruhen i.d.R. auf großen Stichproben, die mit Hilfe geeigneter Statistiksoftware ausgewertet werden.Werden die Daten mittels Software analysiert, sind in technischer Sicht folgende weiteren Aspekte zu beachten (vgl. Iacobucci/ Churchill 2010, S. 409 f.): Es sollten ausschließlich nummerische Codes verwendet werden. Buchstaben, Sonderzeichen und Leerzeichen sind zu vermeiden. Pro Variable sollten so viele Spalten vorgesehen werden, wie sie zur Erfassung sämtlicher Ausprägungen erforderlich sind. Reicht eine Spalte (mit den Codes 0-9 für die Ausprägungen) nicht aus, so hat die Kodierung zweispaltig zu erfolgen (00- 99). Für „keine Angabe“, „trifft nicht zu“ u.Ä. sollten für die gesamte Studie dieselben Kategorien verwendet werden (üblich ist beispielsweise die Ziffer 9 bzw. 99 für „keine Angabe“). Invertierte Items müssen umkodiert werden. Der letzte Schritt im Rahmen der Kodierung ist die Erstellung eines Codeplans, woraus ersichtlich wird, in welcher Weise die Daten kodiert wurden. Tabelle 6.1 zeigt einen Auszug aus einem Codeplan. Der Kodierung der Daten folgt die Übertragung und Speicherung auf einen Datenträger. Dies kann manuell, opto-elektronisch (Lesestift, Scanning) oder automatisch erfolgen (CATI, CAPI). Insbesondere im Falle manueller Eingabe können Fehler auftreten, welche eine Kontrolle erforderlich machen (vgl. Abschnitt 1). Erfolgt die Erhebung computergestützt, wird der Fehler bereits bei der Antworteingabe erkannt. Darüber hinaus sind gängige Softwarepakete wie SPSS, EXCEL, SAS in der Lage, bei entsprechender Konfigurierung einige der o.g. Fehler zu erkennen. <?page no="219"?> 220 Aufbereitung der Daten Tab. 6.1: Auszug aus einem Codeplan Var1 Wie würden Sie das Verhältnis zu Ihrer Hausbank beschreiben? 1 sehr gut 2 gut 3 befriedigend 4 ausreichend 5 schlecht 6 sehr schlecht Welche Transaktionen führen Sie in welcher Form durch? Schalter Internet Telefon Mobil Überweisungen Var2 1/ 0 Var7 1/ 0 Var12 1/ 0 Var17 1/ 0 Kontostandsabfrage Var3 1/ 0 Var8 1/ 0 Var13 1/ 0 Var18 1/ 0 Wertpapiergeschäfte Var4 1/ 0 Var9 1/ 0 Var14 1/ 0 Var19 1/ 0 Daueraufträge Var5 1/ 0 Var10 1/ 0 Var15 1/ 0 Var20 1/ 0 Sonstiges Var6 1/ 0 Var11 1/ 0 Var16 1/ 0 Var21 1/ 0 Wobei benötigen Sie eine persönliche Beratung? Var22 Überweisungen 1/ 0 Var23 Kontostandsabfrage 1/ 0 Var24 Brokerage 1/ 0 Var25 Daueraufträge 1/ 0 Var26 Sonstiges_______________________ Bedienerfreundlichkeit 1 Var27 Benutzeroberflächen im Onlinebanking empfinde ich als bedienerfreundlich Ja, trifft voll zu Nein, trifft gar nicht zu 1 2 3 4 5 6 2 Var28 Es ist in Ordnung, externe Dokumente (z.B. eine TAN-Liste) mitzuführen. Ja, trifft voll zu Nein, trifft gar nicht zu 1 2 3 4 5 6 3 Var29 Ein einfaches Banking-Menü ist auf modernen Mobiltelefonen gut zu bedienen Ja, trifft voll zu Nein, trifft gar nicht zu 1 2 3 4 5 6 Im Anschluss an die Dateneingabe und -überprüfung ist oftmals eine Korrektur erforderlich. Dies kann beinhalten: Behandlung von Missing Values, Gewichtung, Variablentransformation. <?page no="220"?> 221 Missing Values entstehen dann, wenn bestimmte Variablenwerte unbekannt sind (z.B. aufgrund von Antwortverweigerung). Ein hoher Anteil von Missing Values kann die Ergebnisse der Untersuchung erheblich verfälschen, insbesondere dann, wenn die Antwortverweigerer sich nicht gleichmäßig verteilen. Als kritisch wird ein Anteil von über 10 % der Antworten angesehen. Folgende Möglichkeiten sind zur Behandlung von Missing Values gegeben (vgl. Allison 2001): Einfügen eines neutralen Werts: Typischerweise wird hier als fiktiver Wert der Variablenmittelwert eingefügt. Auf diese Weise bleibt der Mittelwert der Variable erhalten, andere Kennziffern werden nur wenig verzerrt. Allerdings ist zu beobachten, dass fehlende Angaben oftmals dann entstehen, wenn der Befragte extreme Positionen vertritt, sodass die Angabe des Variablenmittelwerts die Einstellung des Befragten nicht korrekt widerspiegelt. Imputation: Hierunter versteht man eine Schätzung des fehlenden Variablenwerts auf der Grundlage der Antworten auf andere Fragen. Hierzu wurden geeignete statistische Verfahren entwickelt; dennoch wird dadurch immer ein Bias erzeugt. Handelt es sich bei den Ausfällen um zentrale Antworten zu dem Befragungsthema, sind die entsprechenden Fragebögen auszumustern. Bei weniger wichtigen Fragen kann darauf verzichtet werden, die betreffende Frage auszuwerten, der Fragebogen bleibt im Set. Eine Gewichtung ist häufig dann vorzunehmen, wenn die Daten auf einer Zufallsauswahl beruhen. Ziel ist es i.d.R., die Aussagekraft der Daten zu erhöhen. Beispielsweise kann es sinnvoll sein, bei einer Erhebung mit dem Ziel, Ansatzpunkte für eine Produktvariation zu gewinnen, Intensivverwender stärker zu gewichten. Ferner erfolgt eine Gewichtung des Datenmaterials bei hoher Ausfallquote, um die unterrepräsentierten Fälle auszugleichen. Auch bei einer mehrstufigen Auswahl sind Korrekturen vorzunehmen (vgl. Böhler 2004, S. 162 f.): Wenn in der ersten Stufe die Auswahleinheiten Haushalte sind, aus welchen in der zweiten Stufe als Erhebungseinheiten Personen gezogen werden, so hat ein Single eine viermal größere Wahrscheinlichkeit, in die Stichprobe zu gelangen, als ein Mitglied eines 4-Personen-Haushalts. Aus diesem Grunde wird der Fragebogen eines 4-Personen-Haushalts auch viermal gezählt. Schließlich erfolgt eine Gewichtung auch im Rahmen geschichteter Zufallsstichproben. Die Schichten werden entweder proportional zum Anteil der Schichten in der Grundgesamtheit gewichtet, oder disproportional (vgl. die Ausführungen in Abschnitt 3 des 3. Teils). Allgemein gilt, dass eine Korrektur mittels Gewichtung mit Vorsicht zu genießen ist, da sie zur Verzerrung der Ergebnisse führen kann. Eine Variablentransformation beinhaltet, dass aus den Daten neue Variablen erzeugt bzw. bestehende Variablen modifiziert werden. Hierzu gibt es folgende Ansatzpunkte: Reduktion der Antwortkategorien (z.B. Zusammenfassung der Kategorien „häufig“ und „sehr häufig“ bzw. „selten“ und „sehr selten“ jeweils in einer Kategorie), Bildung neuer Variablen, z.B. Verhältnis zweier Variablen, Indexbildung usw., Spezifizierung von nominalskalierten Variablen mit Hilfe von Dummy-Variablen, Hinzufügen von Variablen, die aus anderen Quellen stammen (zur Ergänzung oder zum Vergleich), Standardisierung, um Variablen unterschiedlicher Niveaulage vergleichbar zu machen: <?page no="221"?> 222 Aufbereitung der Daten s x x z i i − = mit z i = Ausprägung der standardisierten Variable, x i = ursprüngliche Variablenausprägung, x = Stichprobenmittelwert, s = Standardabweichung in der Stichprobe. Tab. 6.2: Datenmatrix Fälle Variablen 1 j m 1 x 11 x 1j x 1m i x i1 x ij x im n x n1 x nj x nm Der letzte Schritt im Rahmen der Datenaufbereitung besteht in der Erstellung der Datenmatrix. Die Spalten der Datenmatrix enthalten die einzelnen Variablen, die Zeilen die verschiedenen Fälle (z.B. Befragte). Bei i = 1, ..., n Fällen („Cases“) und j = 1, ..., m Variablen enthält man somit eine n × m-Datenmatrix (vgl. Tab. 6.2). Bei quantitativen Erhebungen enthält die Datenmatrix nummerische x ij -Werte, x ij bezeichnet dabei den Wert der Variablen j beim i-ten Fall. Bei qualitativen Untersuchungen wird nicht von einer Datenmatrix gesprochen, es wird häufig jedoch ebenfalls ein Tableau erstellt, welches eine geordnete Darstellung verbaler Äußerungen bzw. beobachteter Verhaltensweisen nach Personen und Variablen enthält und welches ebenfalls die Grundlage für die Analyse bildet (vgl. die Ausführungen in Teil 7). <?page no="222"?> 3 Datenanalyse 3.1 Überblick Die mit Hilfe primär- oder sekundärstatistischer Datengewinnung erhobenen und aufbereiteten Daten sind in geeigneter Weise zu verarbeiten, um sie einer Interpretation zugänglich zu machen. Hierfür steht eine ganze Reihe von Verfahren der Datenanalyse zur Verfügung, welche sich nach verschiedenen Kriterien einteilen lassen (vgl. Tab. 6.3). Nach der Zahl der berücksichtigten Variablen wird zwischen univariater, bivariater und multivariater Datenanalyse unterschieden. Während sich eine univariate Datenanalyse auf die Untersuchung der Merkmalsausprägungen einer einzigen Variable beschränkt, werden im Rahmen von Verfahren der bi- und multivariaten Datenanalyse die Zusammenhänge zwischen zwei und mehr Variablen untersucht. Nach dem Geltungsanspruch wird zwischen deskriptiven und induktiven Verfahren unterschieden. Aufgabe deskriptiver Verfahren ist die Beschreibung der in der Stichprobe - bzw. bei Totalerhebungen in der Grundgesamtheit - herrschenden Strukturen. Als Beispiele seien die Berechnung von Mittel- und Anteilswerten genannt. Können die Stichprobenbefunde auf eine reale oder hypothetische Grundgesamtheit übertragen werden, spricht man hingegen von induktiven (inferenziellen) Verfahren. Beispielsweise wird mit Hilfe geeigneter Tests vom Mittelwert in der Stichprobe mit einer bestimmten Irrtumswahrscheinlichkeit auf den Mittelwert in der Grundgesamtheit geschlossen. Partitionierung der Datenmatrix beinhaltet die Frage, ob der Variablensatz in abhängige und unabhängige Variablen aufgeteilt werden kann. Ist dies der Fall, so spricht man von Verfahren der Dependenzanalyse; fehlt eine solche Partitionierung, wird also lediglich die Wechselbeziehung der Variablen untereinander untersucht, so handelt es sich um Verfahren der Interdependenzanalyse. Zu den Verfahren der Dependenzanalyse zählen insb. die Korrelationsanalyse und die Kontingenzanalyse, zu den Verfahren der Interdependenzanalyse z.B. die Varianzanalyse und die Regressionsanalyse. Nach der Richtung der Datenkompression (bzw. nach der Betrachtungsebene) wird unterschieden, ob die Variablen in ihrer Gesamtheit betrachtet werden - z.B. Art oder Richtung des Zusammenhangs zwischen Variablen im Rahmen einer Korrelationsanalyse - oder aber als Betrachtungsebene einzelne Objekte analysiert werden, z.B. Zugehörigkeit eines bestimmten Objekts zu einer Objektgruppe im Rahmen der Clusteranalyse. Je nachdem, ob die Analyse postulierte Zusammenhänge überprüft oder erst entdeckt, wird zwischen strukturprüfenden (konfirmatorischen) und strukturentdeckenden (exploratorischen) Verfahren unterschieden. Zu den strukturprüfenden Verfahren gehört die Regressionsanalyse, im Rahmen derer ein hypothetischer Modellzusammenhang geprüft wird; zu den strukturentdeckenden Verfahren zählt die Clusteranalyse. Nach dem Zweck der Auswertung wird schließlich in Verfahren der Datenreduktion, Verfahren der Klassifikation, Verfahren zur Messung von Beziehungen und Verfahren zur Messung von Präferenzen unterschieden (vgl. Tab. 6.3). <?page no="223"?> 224 Datenanalyse Tab. 6.3: Einteilungskriterien von Verfahren der Datenanalyse Kriterium Ausprägungen Kennzeichnung Zahl der berücksichtigten Variablen univariate Verfahren Betrachtung der Merkmalsausprägungen einer einzigen Variablen bivariate Verfahren Untersuchung der Beziehungen zwischen zwei Variablen multivariate Verfahren Untersuchung der Beziehungen zwischen drei und mehr Variablen Geltungsanspruch deskriptive Verfahren Aussagen über Strukturen in der Stichprobe induktive Verfahren Übertragung von Stichprobenbefunden auf die Grundgesamtheit Partitionierung der Datenmatrix Verfahren der Dependenzanalyse Untersuchung der Abhängigkeit von Variablen von einer oder mehreren unabhängigen Variablen Verfahren der Interdependenzanalyse Untersuchung der wechselseitigen Beziehungen zwischen zwei und mehr Variablen Richtung der Datenkompression auf Variablen gerichtete Verfahren Aussagen über Strukturen von Variablen auf Elemente gerichtete Verfahren Aussagen über Strukturen einzelner Objekte Ausgangspunkt der Auswertung strukturprüfende Verfahren (konfirmatorisch) Überprüfung der Konsistenz der Daten mit postulierten Zusammenhängen strukturentdeckende Verfahren (exploratorisch) Aufdeckung von Zusammenhängen innerhalb eines Datensatzes Auswertungszweck Verfahren der Datenreduktion Komprimieren der Rohdaten auf einige wenige überschaubare Größen Verfahren der Klassifikation Aufteilung einer Gesamtheit von Objekten in Gruppen Verfahren zur Messung von Beziehungen Ermittlung der Zusammenhänge zwischen Variablen Verfahren zur Messung von Präferenzen Beschreibung und Erklärung von Auswahlentscheidungen Verfahren der Datenreduktion haben die Aufgabe, die Vielzahl an Rohdaten zu komprimieren, um das Datenmaterial auf einige wenige überschaubare Größen zu reduzieren; dadurch können Strukturen erkannt werden. Univariate Verfahren der Datenreduktion <?page no="224"?> Verfahren der Datenreduktion 225 erfassen u.a. die Bildung von Häufigkeitsverteilungen sowie Lokalisations- und Streuungsmaße; zu den multivariaten Verfahren der Datenreduktion zählt die Faktorenanalyse. Verfahren der Klassifikation dienen dem Zweck, eine Gesamtheit von Objekten in Gruppen aufzuteilen; insofern dienen sie in gewisser Weise ebenfalls der Datenreduktion, da eine Vielzahl von Aussagen über Einzelobjekte auf Aussagen über Gruppen von Objekten komprimiert wird. Zu den gebräuchlichsten Verfahren der Klassifikation zählen die multivariaten Verfahren Clusteranalyse, Diskriminanzanalyse und Multidimensionale Skalierung. Abb. 6.3: Verfahren der Datenanalyse nach dem Auswertungszweck Verfahren zur Messung von Beziehungen versuchen, Zusammenhänge zwischen den Variablen festzustellen. Bei einseitigen Zusammenhängen spricht man von Dependenzanalyse, bei wechselseitigen von Interdependenzanalyse (s.o.). Verfahren zur Messung von Präferenzen versuchen schließlich, Auswahlentscheidungen von Konsumenten zu beschreiben und zu erklären. Unter den Verfahren zur Präferenzmessung hat die Conjoint-Analyse große Bedeutung erlangt; Präferenzen können darüber hinaus auch mit Hilfe der Multidimensionalen Skalierung ermittelt werden. Im Folgenden werden die Grundzüge der gebräuchlichsten Verfahren skizziert. 3.2 Verfahren der Datenreduktion 3.2.1 Univariate Verfahren der Datenreduktion Im Rahmen univariater Verfahren werden die Merkmalsausprägungen einer einzigen Variablen betrachtet bzw. bei Untersuchung mehrerer Variablen erfolgt die Analyse der einzelnen Variablen isoliert. Deskriptive Verfahren Ausgangspunkt deskriptiver Verfahren der Datenreduktion sind beobachtete Merkmalsausprägungen der Untersuchungsvariablen, welche zunächst ungeordnet vorliegen. Die Rohdaten („Urwerte“) werden der Größe nach geordnet; anschließend wird daraus eine Häufigkeitsverteilung ermittelt. Darüber hinaus werden aus den Daten sog. Maßzahlen errechnet. Verfahren der Datenanalyse Verfahren der Datenreduktion Univariate Verfahren Multivariate Verfahren Verfahren der Klassifikation Clusteranalyse Diskriminanzanalyse Multidimensionale Skalierung Verfahren zur Messung von Präferenzen Conjoint-Analyse Multidimensionale Skalierung Korrelationsanalyse Kontingenzanalyse Varianzanalyse Regressionsanalyse Kausalanalyse Verfahren zur Messung von Beziehungen <?page no="225"?> 226 Datenanalyse Definition Eine Häufigkeitsverteilung beschreibt, wie häufig ein bestimmter Merkmalswert (Ausprägung) in der Stichprobe auftritt. Hierbei wird zwischen absoluten, relativen und kumulierten Häufigkeiten unterschieden. Während die absolute Häufigkeit Aussagen darüber trifft, in wie vielen Fällen eine bestimmte Merkmalsausprägung j in der Stichprobe eingetreten ist (n j ), beschreibt die relative Häufigkeit p j den jeweiligen Anteil der einzelnen Merkmalsausprägungen in der Stichprobe. Es gilt also: n n p j j = , wobei p j = Anteil der Merkmalsausprägung j in der Stichprobe, n j = absolute Häufigkeit der j-ten Merkmalsausprägung, n = Zahl der Untersuchungseinheiten. Bei Vorliegen eines mindestens ordinalen Skalenniveaus können die Häufigkeiten darüber hinaus kumuliert werden; die Aussage hierbei lautet: „Wie häufig tritt eine Merkmalsausprägung kleiner oder gleich einem bestimmten Wert auf? “. Es gilt also: = = = = * j 1 j j j* * j 1 j * j p p . bzw n n . Altersklasse <20 20-39 40-49 60+ Summe Absolute Häufigkeit 30 50 70 50 200 Relative Häufigkeit 0,15 0,25 0,35 0,25 1 Kumulierte relative Häufigkeit 0,15 0,40 0,75 1,0 Absolute Häufigkeit Relative Häufigkeit Kumulierte relative Häufigkeit Abb.6.4: Exemplarische Häufigkeitsverteilung der Variable „Alter“ (Quelle: Fantapié Altobelli 1998, S. 328) Abbildung 6.4 zeigt das Grundprinzip der Bildung von Häufigkeitsverteilungen am Beispiel der Variable „Alter“. Bei der Bildung von Häufigkeitsverteilungen ist das Skalenniveau der Variablen zu beachten. Die Menge aller Merkmalsausprägungen eines 0,2 0,4 <20 20-39 40-59 60+ 0,6 0,8 1,0 10 20 30 40 <20 20-39 40-59 60+ 50 60 70 0,1 0,2 <20 20-39 40-59 60+ 0,3 <?page no="226"?> Verfahren der Datenreduktion 227 nominal bzw. ordinal skalierten Merkmals bildet zusammen mit den zugehörigen Häufigkeiten die Häufigkeitsverteilung für dieses Merkmal; dasselbe gilt für metrische diskrete Variablen mit nur sehr wenigen Ausprägungen (z.B. Kinderzahl). Liegt eine metrische diskrete Variable mit sehr vielen möglichen Werten (z.B. Einwohnerzahl) oder aber eine stetige bzw. annähernd stetige metrische Variable (wie z.B. Einkommen) vor, so ist eine Klassenbildung vorzunehmen, da i.d.R. davon auszugehen ist, dass die einzelnen Merkmalsausprägungen jeweils unterschiedlich sind, also nicht mehrfach vorkommen. Durch die Einführung von Klassen resultieren wenige alternative Ausprägungen j analog zu den nominal- oder ordinalskalierten Variablen. Bezeichnet man mit uj x ( ) o 1 j x . bzw − die untere, mit oj x die obere Grenze einer bestimmten Klasse j, so gehört ein Variablenwert x i dann der Klasse j an, wenn gilt: . x x x oj i o 1 j ≤ < − Für jede Klasse kann als typischer Variablenwert die Klassenmitte definiert werden: ( ) oj o 1 j j x x 2 1 x + = − . Beispiel 6.3: Im Beispiel der Abb. 6.4 lassen sich die Klassenmitten wie folgt angeben: ( ) ( ) ( ) 5 , 49 59 40 2 1 x 5 , 29 39 20 2 1 x 5 , 9 19 0 2 1 x 3 2 1 = + = = + = = + = 4 x ist nicht angebbar, es sei denn, für die Variable „Alter“ wird eine fiktive Obergrenze definiert, z.B. 100. Es wird ersichtlich, dass mit der Klassenbildung einerseits ein Informationsverlust einhergeht, andererseits gewinnt die Darstellung an Übersichtlichkeit. Insofern sind bei der Bestimmung der Anzahl der Klassen Informationsgehalt und Übersichtlichkeit gegeneinander abzuwägen. Im Hinblick auf die Klassenbreite o 1 j o j j x x d − − = gilt: In Bereichen, in denen sich die Beobachtungswerte häufen, sollten die Klassen enger gefasst werden als in Randbereichen mit nur geringen Besetzungen. Die Anzahl verschiedener Klassenbreiten darf jedoch nicht zu unterschiedlich sein, um die Vergleichbarkeit der Häufigkeiten zu gewährleisten. Definition Eine Maßzahl ist eine reellwertige Funktion einer Datenmenge und dient der Zusammenfassung einer Vielzahl von Daten (z.B. Variablenwerten). Dazu gehören Verteilungsparameter und Verhältniszahlen. <?page no="227"?> 228 Datenanalyse Verteilungsparameter haben die Aufgabe, Häufigkeitsverteilungen anhand einiger weniger Werte zu beschreiben. Hierbei wird unterschieden zwischen Lageparametern (Lokalisationsmaßen), Streuungsparametern (Dispersionsmaßen), Formparametern und Konzentrationsparametern. Lageparameter beschreiben die allgemeine Niveaulage einer Verteilung, d.h. deren mittlere Lage; es handelt sich hier also um Mittelwerte. Tabelle 6.4 zeigt die Lokalisationsmaße für die verschiedenen Skalenniveaus. Tab. 6.4: Gebräuchliche Lageparameter in Abhängigkeit vom Skalenniveau Lageparameter Messniveau Charakterisierung Beispiele Nominal Modus Beobachtungswert, der am häufigsten vorkommt Am häufigsten gekaufte Marke eines bestimmten Produkts Ordinal Median Beobachtungswert, welcher die Reihe der (nach ihrer Größe geordneten) Beobachtungswerte halbiert (50 %- Quantil) Note, welche die 50% besseren von den 50% schlechteren Studenten trennt Metrisch Arithmetisches Mittel (durchschnittlicher Beobachtungswert) = = n 1 i i x n 1 x Durchschnittliche Kinderzahl in der Stichprobe Geometrisches Mittel (durchschnittliche Entwicklung der Beobachtungswerte) n n 1 i i g x x ∏ = = Durchschnittliches Wachstum des Marktanteils der Marke im Betrachtungszeitraum Als Modus wird der häufigste Wert einer Verteilung bezeichnet; er kann sowohl bei nominalen als auch bei ordinalen und metrischen (ggf. klassierten) Variablen ermittelt werden. Der Median erfordert hingegen ein mindestens ordinales Skalenniveau und beschreibt den Zentralwert einer Verteilung, d.h. denjenigen Wert, der die 50% größeren von den 50% kleineren Variablenwerten trennt; er wird häufig auch als 50%- Quantil bezeichnet. <?page no="228"?> Verfahren der Datenreduktion 229 Definition Als p-Quantil einer Verteilung bezeichnet man allgemein den Merkmalswert, welcher die 100 ⋅ p% kleineren von den 100 ⋅ p% größeren Variablenwerten trennt. Als Quartile werden dabei speziell die Werte x(0,25), x(0,5), x(0,75) bezeichnet (vgl. Abb. 6.5). Abb. 6.5: Quartile einer Häufigkeitsverteilung Bei ungerader Zahl der Ausprägungen ist der Median der (reale) Variablenwert mit der ganzzahligen Ordnungsnummer (n + 1)/ 2; bei gerader Zahl der Ausprägungen handelt es sich beim Median um einen fiktiven Wert. Bei klassierten metrischen Variablen berechnet sich der Median näherungsweise mittels linearer Interpolation (vgl. Schaich 1998, S. 36 f.). Das arithmetische Mittel setzt mindestens Intervallskalenniveau voraus. In der Marktforschungspraxis wird es allerdings häufig auch auf Ordinaldaten angewandt. Liegt eine klassierte Häufigkeitsverteilung vor, so ist zunächst ist der Klassenmittelwert zu berechnen: = υ υ = j n 1 j j j x n 1 x mit υ = Ordnungsnummer der Variablenwerte in der Klasse j. Der Gesamtmittelwert resultiert als: j m 1 j j x p x ⋅ = = mit p j = Anteil der Klasse j an der Gesamtstichprobe. Das geometrische Mittel wird zur Berechnung durchschnittlicher Wachstumsprozesse eingesetzt. Eine Anwendung des arithmetischen Mittels würde in solchen Fällen zu fehlerhaften Ergebnissen führen. x h(x) x(0,5) Median x(0,25) 1. Quartil x(0,75) 3. Quartil <?page no="229"?> 230 Datenanalyse Beispiel 6.4: Die nachfolgende Tabelle enthält für die Jahre 2011-2016 die Marktanteile einer Marke X sowie die zugehörigen Wachstumsfaktoren. Die Wachstumsfaktoren x i resultieren dabei durch Division des aktuellen Marktanteils durch den Vorjahreswert (für das Jahr 2010 wurde MA 2010 = 10 % beobachtet). Jahr t 2011 2012 2013 2014 2015 2016 Marktanteil MA t (in %) 12,5 15,0 11,5 14,0 16,0 17,5 Wachstumsfaktor x t 1,25 1,20 0,77 1,22 1,14 1,09 Das geometrische Mittel wird errechnet als 098 , 1 09 , 1 14 , 1 22 , 1 77 , 0 20 , 1 25 , 1 x 6 g ≈ ⋅ ⋅ ⋅ ⋅ ⋅ = . Der resultierende Wert lässt sich wie folgt interpretieren: Wäre der Ausgangsmarktanteil MA 2010 in Höhe von 10 % jährlich um genau 1,098 gestiegen, wäre 2016 ein Marktanteil von 17,5 % resultiert. Streuungsparameter beschreiben die Variabilität der Merkmalswerte, d.h. sie sagen aus, in welchem Ausmaß die Variablenwerte im Bereich der Merkmalsskala verteilt sind. Auch hier ist das anzuwendende Maß vom Skalenniveau abhängig (vgl. Tab. 6.5). Bei nominalskalierten Merkmalen kann lediglich angegeben werden, wie viele (bzw. welcher Anteil) der möglichen Ausprägungen der Variable in der Stichprobe realisiert wurden. Beispiel 6.5: Werden im Rahmen eines Werbetests zwei Gruppen von Probanden je 10 Marken präsentiert und werden in der ersten Gruppe im Anschluss an die Präsentation vier, in der zweiten Gruppe sechs Marken erinnert, so ist die Streuung in Gruppe 2 größer als in Gruppe 1. Liegen ordinalskalierte Daten vor, so können zum einen die Variationsbreite (Spannweite), zum anderen der Quartilsabstand angegeben werden. Darüber hinaus kann auch der mittlere Quartilsabstand als halbierte Differenz zwischen dem ersten und dritten Quartil ermittelt werden. Für metrische Daten ist eine ganze Reihe von Streuungsmaßen angebbar. Ausgangspunkt ist dabei grundsätzlich die sog. Abweichungquadratsumme, d.h. die Summe der quadrierten Abweichungen zwischen den einzelnen Variablenwerten und dem Mittelwert der Verteilung. Das in der Marktforschung am häufigsten verwendete Streuungsmaß ist die Varianz s 2 ; sie bezeichnet den Durchschnitt der quadrierten Abweichungen der Variablenwerte von deren Mittelwert. Deren positive Quadratwurzel ist die Standardabweichung s. Diese besitzt die gleiche Dimension wie die ursprünglichen Variablenwerte (z.B. €) und ist daher anschaulicher zu interpretieren als die Varianz, deren Dimension die quadrierte Dimension der Variablenwerte ist (z.B. €²). An dieser Stelle sei noch erwähnt, dass im Rahmen der deskriptiven Statistik die Varanz durch Division <?page no="230"?> Verfahren der Datenreduktion 231 der Abweichungsquadratsumme durch die Zahl der Beobachtungswerte errechnet wird, im Rahmen der induktiven Statistik dagegen durch die Zahl der Freiheitsgrade. Neben der Varianz als mittlere quadratische Abweichung kann auch die mittlere absolute Abweichung errechnet werden. Sollen Variablen unterschiedlicher Niveaulage miteinander verglichen werden, z.B. Einkommen und Kinderzahl, so empfiehlt es sich, den Variationskoeffizienten zu berechnen; auf diese Weise lässt sich die Dimension „herausrechnen“. Voraussetzung ist allerdings Verhältnisskalenniveau. Tab. 6.5: Gebräuchliche Streuungsmaße in Abhängigkeit vom Skalenniveau Streuungsmaße Messniveau Charakterisierung Beispiele Nominal Anteil realisierter Ausprägungen n * n * p = Anteil erinnerter Marken bezogen auf die Gesamtheit der im Rahmen eines Werbetests präsentierten Marken Ordinal Variationsbreite (Differenz zwischen dem größten und dem kleinsten Beobachtungswert) min max x x V − = Spanne, innerhalb welcher sich die Notenergebnisse einer bestimmten Klausur bewegen Quartilsabstand (Differenz zwischen dem dritten und dem ersten Quartil) 25 75 x x − = α Notenspanne, innerhalb welcher 50% der Studenten fallen (die jeweils 25% besten und schlechtesten sind damit nicht enthalten) Metrisch Mittlere absolute Abweichung = − = n 1 i i x x n 1 e Varianz ( ) = − = n 1 i 2 i 2 x x n 1 s Standardabweichung ( ) = − = n 1 i 2 i x x n 1 s Variationskoeffizient x s VK = Durchschnittliche (absolute oder quadratische) Abweichung des Einkommens (in Euro) vom Durchschnittswert in der Stichprobe (in Euro) <?page no="231"?> 232 Datenanalyse Beispiel 6.6: Im Rahmen einer Befragung resultierten bei der Frage „ Ich achte auf gesunde Ernährung“ die folgenden Ergebnisse: Antwortkategorie Kodierung Absolute Häufigkeiten Relative Häufigkeiten Kumulierte relative Häufigkeiten trifft voll zu 4 35 0,35 0,35 trifft eher zu 3 25 0,25 0,60 trifft eher nicht zu 2 30 0,30 0,90 trifft überhaupt nicht zu 1 10 0,10 1,00 Summe 100 1,00 Der Mittelwert resultiert als: ( ) . 85 , 2 1 10 2 30 3 25 4 35 100 1 x = ⋅ + ⋅ + ⋅ + ⋅ = Die Varianz errechnet sich als ( ) ( ) ( ) [ ] 0275 , 1 85 , 2 1 10 ) 85 , 2 2 ( 30 85 , 2 3 25 85 , 2 4 35 100 1 s 2 2 2 2 2 = − + − + − + − = und die zugehörige Standardabweichung beträgt , 0137 , 1 s s 2 = = d.h. im Durchschnitt weichen die Einzelbewertungen um 1,0137 Punkte vom Mittelwert (2,85) ab. Der Variationskoeffizient beträgt damit . 3557 , 0 85 , 2 137 , 10 x s VK = = = Die Spannweite errechnet sich als ( ) . 3 1 4 = − Formparameter beschreiben die Gestalt einer Verteilung und umfassen Schiefesowie Wölbungsmaße. Während Schiefemaße Aussagen über die Symmetrie einer Verteilung erlauben, beschreiben Wölbungsmaße die Steilheit einer Funktion. Diese Maße sind nützlich, da Verteilungen bei gleichem Mittelwert und gleicher Standardabweichung durchaus unterschiedliche Gestalt haben können. Ist beispielsweise die Einkommensverteilung der Käufer von Marke X linkssteil und die der Käufer von Marke Y rechtssteil, lässt sich schlussfolgern, dass Marke X eher von Haushalten mit niedrigem und Marke Y eher von Haushalten mit hohem Einkommen nachgefragt wird. Darüber hinaus können je nach Form Jbzw. U-Verteilungen sowie unimodale oder multimodale Verteilungen unterschieden werden. Bei einer unimodalen Verteilung gibt der Mittelwert die mittlere Lage der Verteilung angemessen an, bei einer multimodalen Verteilung ist der Gesamtmittelwert hingegen wenig aussagekräftig. Abbildung 6.6 zeigt ausgewählte Typen (idealisierter) Häufigkeitsverteilungen. <?page no="232"?> Verfahren der Datenreduktion 233 Konzentrationsparameter untersuchen schließlich das Ausmaß der Ungleichverteilung der Gesamtheit der Merkmale auf die Merkmalsträger, d.h. sie beschreiben, inwieweit die Verteilung von einer Gleichverteilung abweicht. Am gebräuchlichsten ist das Konzentrationsmaß nach Lorenz (vgl. Abb. 6.7). Die 45°-Linie repräsentiert die Gleichverteilung. Je größer die Fläche A ist, umso größer ist die relative Konzentration. Handelt es sich bei der betrachteten Variable beispielsweise um das Einkommen, so besagt Abb. 6.7, dass 20 % der Personen 60 % des Gesamteinkommens erwirtschaften. Abb. 6.6: Ausgewählte idealtypische Formen von Häufigkeitsverteilungen Neben den hier beschriebenen Verteilungsparametern können auch Verhältniszahlen ermittelt werden. Hierzu gehören: symmetrisch asymmetrisch unimodal bimodal breitgipflig schmalgipflig linkssteil rechtssteil U-förmig J-förmig <?page no="233"?> 234 Datenanalyse Quoten (Anteilswerte einer Größe an einer übergeordneten Größe, z.B. Umsatzanteil), Relationen von sachlich zusammenhängenden Variablen, z.B. Pro-Kopf-Einkommen, Messzahlen (Verhältnis eines Wertes in der Berichtsperiode zu einem Wert in der Basisperiode, z.B. Umsatz 2017 bezogen auf Umsatz 2016), Indexzahlen (gewogenes arithmetisches Mittel von Messzahlen mit gleicher Basis- und Berichtsperioden, Preisindizes von Laspeyres und von Paasche). Abb. 6.7: Beispiel für eine Lorenz-Kurve Induktive Verfahren Definition Im Rahmen der induktiven Statistik können aus der Stichprobe Rückschlüsse auf die Gegebenheiten in der Grundgesamtheit gezogen werden. Die ermittelten Verteilungsparameter können Signifikanztests unterzogen werden, mit Hilfe derer Hypothesen über die Verteilung als Ganzes bzw. über einzelne Vertei- A 45°-Linie 20 40 60 80 100 Kumulierter Anteil der Merkmalsträger in Prozent Kumulierter Anteil am Gesamtbetrag des Merkmals in Prozent 20 40 60 80 100 <?page no="234"?> Verfahren der Datenreduktion 235 lungsparameter in der Grundgesamtheit überprüft werden. Der allgemeine Ablauf eines Signifikanztests ist in Abb. 6.8 wiedergegeben. Die grundsätzliche Vorgehensweise soll anhand der Prüfung des Mittelwerts dargestellt werden. Abb. 6.8: Allgemeiner Ablauf eines Hypothesentests Formulierung der Untersuchungshypothesen Im ersten Schritt werden die Untersuchungshypothesen formuliert; hierbei handelt es sich um die Nullhypothese H 0 und um die Alternativhypothese H 1 . Die Nullhypothese H 0 wird in der Regel so formuliert, dass der interessierende Sachverhalt verneint wird. Gelingt es, die Hypothese abzulehnen, so gilt der postulierte Zusammenhang als (vorläufig) bestätigt. Darüber hinaus wird die Alternativhypothese H 1 formuliert, welche bei Widerlegung von H 0 angenommen wird. Bei der Formulierung von Hypothesen ist es von entscheidender Bedeutung, ob es sich um eine einseitige oder eine zweiseitige Fragestellung handelt. Bei zweiseitiger Fragestellung interessiert lediglich die Tatsache, ob sich der Mittelwert vom Ausgangswert 0 signifikant unterscheidet; ob von 0 dabei nach oben oder nach unten abweicht, ist irrelevant. Demzufolge werden die Hypothesen folgendermaßen formuliert: H 0 : und H 1 : . Bei einseitiger Fragestellung interessiert auch die Richtung der Abweichung des Mittelwerts von 0 . Wird beispielsweise postuliert, dass sich im Vergleich zu 0 erhöht hat, würde man die folgenden Hypothesen formulieren: H 0 : ≤ und H 1 : . Wahl des Testverfahrens Festlegung des Signifikanzniveaus Berechnung der Prüfgröße Ermittlung des Ablehnungsbereichs Vergleich der Prüfgröße mit dem tabellierten Wert und Entscheidung Formulierung der Untersuchungshypothesen <?page no="235"?> 236 Datenanalyse Festlegung des Signifikanzniveaus Der nächste Schritt besteht darin, das Signifikanzniveau α festzulegen. Der Wert von α bezeichnet die Wahrscheinlichkeit dafür, dass die Nullhypothese abgelehnt wird, obwohl sie in der Realität (d.h. in der Grundgesamtheit) zutrifft (aus diesem Grunde wird α auch als Irrtumswahrscheinlichkeit bezeichnet). Damit wird deutlich, dass eine statistische Hypothesenprüfung nie mit 100 %-iger Sicherheit, sondern stets unter dem Vorbehalt einer bestimmten Irrtumswahrscheinlichkeit erfolgt. In der Marktforschung gebräuchlich sind folgende Signifikanzniveaus: α = 0,1: die zugehörige Sicherheitswahrscheinlichkeit (1 - α ) beträgt 0,90 (90 %), was allenfalls als „schwach signifikant“ bezeichnet werden kann; α = 0,05 (signifikant, häufig mit dem Symbol ’*’ gekennzeichnet) mit (1 - α ) = 0,95; α = 0,01 (hochsignifikant,’**’) mit (1 - α ) = 0,99; α = 0,001 (***), (1 - α ) = 0,999 (dieser Wert wird nur sehr selten gefordert). Abb. 6.9: Die gebräuchlichsten statistischen Tests (Quelle: Malhotra 2010, S. 503) Auswahl des Testverfahrens In der Statistik existiert eine Vielzahl von Testverfahren, die sich in verteilungsgebundene und verteilungsfreie Prüfverfahren einteilen lassen (vgl. Abb. 6.9). Verteilungsgebundene Prüfverfahren (auch: parametrische Tests) setzen Normalverteilung der betrachteten Variable voraus; hierzu gehören der t-Test (Prüfung eines Mittelwerts bzw. Vergleich zweier Mittelwerte) sowie der F-Test (Vergleich von Varianzen). Verteilungsfreie Prüfverfahren (auch: nichtparametrische Tests) kommen ohne Normalverteilungsvoraussetzung aus, z.B. der Mann-Whitney-U-Test zum Vergleich von Mittelwerten. Hypothesentests Verteilungsgebunden Verteilungsfrei Unabhängige Stichproben Zwei-Gruppen-t- Test z-Test Verbundene Stichproben t-Test Zwei-Stichproben- Fall Zwei-Stichproben- Fall Ein-Stichproben- Fall t-Test z-Test Ein-Stichproben- Fall Kolgomorov- Smirnov-Test χ ²-Anpassungstest Run-Test Binomialtest Unabhängige Stichproben Kolgomorov- Smirnov-Test χ ²-Unabhängigkeitstest U-Test Median-Test Verbundene Stichproben Wilcoxon-Test χ ²-Test McNemar-Test Wilcoxon Rang- Test <?page no="236"?> Verfahren der Datenreduktion 237 Tab. 6.6: Ausgewählte statistische Testverfahren im Ein-Stichproben-Fall Bezeichnung Voraussetzungen Prüfgröße Verteilung der Prüfgröße Prüfung des Mittelwerts z-Test Normalverteilung von x Varianz der Grundgesamtheit ² bekannt n . x z 0 − = Standardnormalverteilung t-Test Normalverteilung von x ² unbekannt ( ) 2 i 1 n- 1 0 x x s mit n . s x t − ⋅ = − = t-Verteilung mit k = n - 1 Freiheitsgraden Prüfung des Anteilswerts z-Test n „groß“ (n > 30) π 0 nicht zu nahe bei 0 oder 1 (0,05 ≤ π 0 ≤ 0,95) Modell mit Zurücklegen Anteilswert π der Grundgesamtheit bekannt ( ) n 1 p z 0 ⋅ − − = Standardnormalverteilung t-Test n „groß“ π 0 nicht zu nahe bei 0 oder 1 Modell mit Zurücklegen Anteilswert π der Grundgesamtheit unbekannt ( ) n p 1 p p t 0 ⋅ − − = t-Verteilung mit k = n - 1 Freiheitsgraden Prüfung der Varianz χ 2 -Test Normalverteilung von x ² unbekannt ( ) 2 i 2 0 2 x x 1 − = χ 2 -Verteilung mit k = n - 1 Freiheitsgraden z-Test Normalverteilung von x ² unbekannt n „groß“ (n > 30) 3 n 2 n 2 s z 0 − − ⋅ = mit ( ) 2 i 1 n1 x x s − = − Standardnormalverteilung (approximativ) Prüfung der Verteilung einer Variablen χ 2 -Anpassungstest x diskret mit m möglichen Ausprägungen (j = 1,…,m) n „groß“ (n > 30) keine der erwarteten Häufigkeiten soll kleiner als 1 sein höchstens 20 % der erwarteten Häufigkeiten sollen kleiner als 5 sein einseitiger Test ( ) = ⋅ ⋅ − = m 1 j 2j 2 j j 2 n n n mit n j = beobachtete Häufigkeiten in der Kategorie j π j = erwarteter (theoretischer) Anteil der Kategorie j Für n → ∞ asymptotisch χ 2 -verteilt mit m - 1 Freiheitsgraden <?page no="237"?> 238 Datenanalyse Nach dem Gegenstand der Prüfung lassen sich statistische Tests danach unterscheiden, ob sie Parameter einer Verteilung oder eine Verteilung als Ganzes überprüfen. Als Parameter einer Verteilung werden typischerweise Mittelwerte, Anteilswerte oder Varianzen getestet. Hingegen wird beim Test einer gesamten Verteilung überprüft, ob die Verteilung der empirischen Werte einer theoretischen Verteilung folgt. Hierzu gehört beispielsweise der χ ²-Anpassungstest oder der Kolmogorov-Smirnov-Test. Auf die einzelnen Testverfahren kann hier nicht im Detail eingegangen werden. Für weiterführende Informationen sei auf die Spezialliteratur verwiesen (vgl. z.B. Kreyszig 1979, Pfanzagl 1983). Berechnung der Prüfgröße Die Wahl des Testverfahrens führt zur Festlegung der zugrunde zu legenden Prüfverteilung, d.h. je nach Testverfahren ist die Prüfgröße zu berechnen, welche einer bestimmten, bekannten Verteilung folgt. Soll der Mittelwert der Grundgesamtheit geprüft werden, so wird die Prüfgröße auf der Basis des Mittelwerts x in der Stichprobe berechnet. Als Testverfahren werden meist der t-Test oder der z-Test herangezogen. Tabelle 6.6 zeigt die Prüfgrößen und deren Verteilungen für ausgewählte statistische Testverfahren im Ein-Stichproben-Fall. Ermittlung des Ablehnungsbereichs Liegt das Signifikanzniveau fest und wurde die Prüfgröße bestimmt, so kann der Ablehnungsbereich ermittelt werden. Es wird also das Intervall bestimmt, innerhalb dessen die Nullhypothese abgelehnt wird. Daraus resultiert auch die Entscheidungsregel, welche besagt, dass die Nullhypothese dann abzulehnen ist, wenn die Prüfgröße in den Ablehnungsbereich fällt. Zur Ermittlung des Ablehnungsbereichs ist dabei zwischen einseitigem und zweiseitigem Test zu unterscheiden. Abbildung 6.10 zeigt die Zusammenhänge am Beispiel der Prüfung des Mittelwerts (z-Test). Bei zweiseitiger Fragestellung ist die Nullhypothese dann abzulehnen, wenn die Prüfgröße entweder größer als das (1 - α / 2)-Quantil der Standardnormalverteilung oder kleiner als das zugehörige negative (1 - α / 2)-Quantil ist. Bei einseitiger Fragestellung wird die Nullhypothese dann abgelehnt, wenn die Prüfgröße größer (kleiner) als das (1 - α )-Quantil bzw. dessen negativer Wert ist. Analog lässt sich der Ablehnungsbereich bei den übrigen Tests ermitteln. Die konkrete Bestimmung des Ablehnungsbereichs kann auf der Grundlage statistischer Tabellen erfolgen, in welchen für die verschiedenen Verteilungen Quantile tabelliert sind (vgl. die entsprechenden Tabellen im Anhang). Vergleich der Prüfgröße mit dem tabellierten Wert und Entscheidung Der empirische Wert der Prüfgröße wird mit dem theoretischen Wert verglichen, welcher bei entsprechender Verteilung bei einem Signifikanzniveau α resultieren würde. Moderne Statistikpakete wie z.B. SPSS oder STATISTA zeigen als Ergebnis dabei meist nicht den empirischen Prüfwert, sondern die betreffende Irrtumswahrscheinlichkeit (z.B. p = .004735), sodass die Signifikanz der betrachteten Größe unmittelbar beurteilt werden kann. Auf die Heranziehung statistischer Tafelwerke kann dann verzichtet werden. Hier wäre das Ergebnis auf dem 5%-Niveau, nicht aber auf dem 1%- Niveau signifikant. Das Ergebnis des Tests ist anschließend zu interpretieren. <?page no="238"?> Verfahren der Datenreduktion 239 Abb. 6.10: Ablehnungs- und Annahmebereiche beim z-Test des Mittelwerts Im Zusammenhang mit statistischen Tests ist noch auf Fehler 1. und 2. Art. hinzuweisen (vgl. Bortz/ Schuster 2010, S. 100). Der Fehler 1. Art ( α -Fehler) tritt dann auf, wenn H 0 wahr ist, jedoch aufgrund des Stichprobenbefunds abgelehnt wird. Der Fehler 2. Art ( β -Fehler) entsteht hingegen dann, wenn H 0 falsch ist, jedoch fälschlicherweise nicht abgelehnt wird. Die Wahrscheinlichkeit eines β -Fehlers verhält sich dabei gegenläufig zum Signifikanzniveau α . z P(z) 0 1α α / 2 α / 2 z P(z) 0 1α α z P(z) 0 α 1α Zweiseitiger Test H 0 : μ = μ 0 H 1 : μ ≠ μ 0 Einseitiger Test H 0 : μ μ 0 H 1 : μ < μ 0 Einseitiger Test H 0 : μ ≤ μ 0 H 1 : μ > μ 0 <?page no="239"?> 240 Datenanalyse Lage des wahren Parameters Entscheidung: H 0 wird … nicht abgelehnt abgelehnt H 0 ist … wahr korrekte Entscheidung 1 - α Fehler 1. Art α falsch Fehler 2. Art β Korrekte Entscheidung 1 - β Zur Verringerung von β kann bei gegebenem α der Stichprobenumfang erhöht werden. Der Wert (1 - β ) bezeichnet dabei die Trennschärfe des Tests, d.h. die Wahrscheinlichkeit der Vermeidung eines Fehlers 2. Art. Ist der wahre Wert der Grundgesamtheit unbekannt, so kann die Trennschärfe des Tests als Funktion des Werts des zu prüfenden Parameters dargestellt werden (Gütefunktion, Powerfunktion). Die Vorgehensweise eines Hypothesentests wird am Beispiel eines Mittelwerttests dargestellt. (In der Realität ist der Test bei n=10 nicht sinnvoll, das Beispiel dient nur der Illustration der Methodik.) Beispiel 6.7: Ein Hersteller von Industrieanlagen möchte in Erfahrung bringen, ob die bei ihm tätigten Außendienstmitarbeiter, wie im Dienstvertrag vereinbart wurde, die wichtigsten Kunden des Unternehmens (Key Accounts) auch tatsächlich alle 14 Tage besuchen, d.h. die vorgeschriebenen 26 Besuche pro Jahr absolvieren. Zu diesem Zweck wird bei einer Stichprobe von 10 Key Accounts telefonisch erfragt, wie viele Besuche der für sie zuständige Mitarbeiter im vergangenen Jahr absolviert hat. Die Ergebnisse der Umfrage sind in nachfolgender Tabelle erfasst. Kunde i 1 2 3 4 5 6 7 8 9 10 Zahl der Besuche x i 24 27 28 25 26 22 21 23 20 24 Die Zahl der Besuche in der Stichprobe reicht von 20 - 28 Besuchen, der Mittelwert beträgt 24 Besuche. Nun möchte der Hersteller feststellen, ob diese mittlere Besuchszahl - statistisch gesehen - mit der vorgeschriebenen durchschnittlichen Besuchszahl von 0 = 26 kompatibel ist. Interessiert den Hersteller die exakte Einhaltung der vorgeschriebenen Besuchszahl, so ist von einer zweiseitigen Fragestellung auszugehen: . 26 : H und 26 : H 0 1 0 0 = μ ≠ μ = μ = μ Als Signifikanzniveau wird α = 0,05 festgelegt. Da die Varianz in der Grundgesamtheit unbekannt ist, wird folgende Prüfgröße verwendet: <?page no="240"?> Verfahren der Datenreduktion 241 . n s x t 0 ⋅ μ − = Für den Mittelwert und die Varianz in der Stichprobe gilt: ( ) 67 , 6 x x 9 1 s 24 x 10 1 x i 2 i 2 i i = − = = = und . 58 , 2 67 , 6 s = = Damit beträgt die Prüfgröße: . 48 , 5 10 58 , 2 26 24 t emp − = ⋅ − Bei zweiseitiger Fragestellung wird bei einem Signifikanzniveau α = 0,05 das 0,975- Quantil 975 , 0 2 / 1 = α − der t-Verteilung bei k = 9 Freiheitsgraden herangezogen: t (0,975; 9) = 2,262. Die Nullhypothese ist abzulehnen, wenn t emp > 2,262 oder t emp < -2,262. Da dies im Beispiel der Fall ist, wird H 0 abgelehnt, d.h. die Anzahl der Außerdienstbesuche weicht signifikant von der vorgeschriebenen Anzahl von 26 Besuchen ab. In diesem Beispiel kann es jedoch sinnvoll sein, lediglich die Unterschreitung der vorgeschriebenen Besuchszahl zu untersuchen, d.h. die Überprüfung, ob die Außendienstmitarbeiter weniger als die vereinbarte Besuchszahl absolviert haben. In diesem Falle ist von einer einseitigen Fragestellung auszugehen. Dementsprechend lauten die Hypothesen: . 26 : H und 26 : H 0 1 0 0 = μ < μ = μ ≥ μ Der empirische Prüfwert t emp = -5,48 wird mit dem 0,95 Quantil der t-Verteilung mit k = 9 Freiheitsgraden verglichen: t (0,95; 9) = 1,833. Die H 0 -Hypothese ist auch hier abzulehnen, die tatsächliche Zahl an Besuchen ist nicht größer oder gleich 26. Damit wird H 1 angenommen, d.h. im Durchschnitt werden A-Kunden weniger häufig als alle 14 Tage besucht. Dies bedeutet, die Außendienstmitarbeiter haben im Durchschnitt ihre vertraglich vereinbarte Leistung nicht erbracht. <?page no="241"?> 242 Datenanalyse 3.2.2 Faktorenanalyse Explorative Faktorenanalyse Definition Die explorative Faktorenanalyse ist ein strukturenentdeckendes Verfahren zur Reduktion von Daten. Ziel dieser Methode ist die Verdichtung einer Vielzahl von Variablen, welche mehr oder weniger voneinander abhängig sind, auf wenige voneinander unabhängige Variablen, sog. Faktoren, ohne dass es zu einem entscheidenden Informationsverlust kommt. Im Rahmen der Faktorenanalyse erfolgt eine Bündelung der erhobenen interkorrelierten Variablen auf wenige zentrale, unabhängige (Einfluss-)Faktoren (vgl. ausführlich Jöreskog/ Sörbom 1979 und Überla 1977). Dabei müssen die Daten mindestens intervallskaliert sein, d.h. ein metrisches Datenniveau der betrachteten Variablen ist erforderlich. Ferner sollte das Datenmaterial aus einer möglichst homogenen Stichprobe von Befragten entstammen. Eine Faktorenanalyse vollzieht sich in folgenden Schritten (vgl. Backhaus et al. 2015, S. 391): Variablenauswahl und Errechnung der Korrelationsmatrix, Extraktion der Faktoren und Bestimmung der Kommunalitäten, Bestimmung der Anzahl der Faktoren, Faktorinterpretation und Bestimmung der Faktorwerte. Ausgangspunkt der Faktorenanalyse sind die erhobenen Ausgangsdaten, welche die Bewertung von Eigenschaften für Objekte seitens der Probanden widerspiegeln. Im Rahmen der Variablenauswahl und der Errechnung der Korrelationsmatrix ist es zunächst erforderlich, die Zusammenhänge zwischen den Ausgangsvariablen messbar zu machen. Diese Zusammenhänge werden mit Hilfe der Korrelationsanalyse ermittelt, die zur Messung bzw. zur Aufdeckung der Zusammenhänge zwischen den Ausgangsvariablen dient. Zu diesem Zweck wird der Korrelationskoeffizient herangezogen, der Auskunft über die Stärke des Zusammenhanges zwischen zwei Variablen gibt (vgl. die Ausführungen in Abschnitt 3.4.5). Vor der Errechnung der Korrelationsmatrix empfiehlt sich jedoch eine Standardisierung der Ausgangsdaten, um eine bessere Vergleichbarkeit erzielen zu können. Dies geschieht durch Transformation der Merkmale mit Hilfe folgender Formel: k k ki ki s x x z − = mit z ki = standardisierter Wert der Variablen k bei Objekt i, x ki = Ausprägung von Merkmal k bei Objekt i, k x = Mittelwert des Merkmals k, s k = Standardabweichung des Merkmals k. <?page no="242"?> Verfahren der Datenreduktion 243 Die Mittelwerte k x für die Variablen k errechnen sich dabei als = k k k x n 1 x und die zugehörigen Standardabweichungen s k als ( ) . 1 n x x s 2 k k k − − = Die Notwendigkeit der Standardisierung ist dann gegeben, wenn die Merkmale in unterschiedlichen Maßeinheiten gemessen werden. Auf der Basis der standardisierten Datenwerte kann anschließend die Korrelationsmatrix erstellt werden (vgl. Tab. 6.7). Tab. 6.7: Aufbau der Korrelationsmatrix Variable x 1 x 2 x 3 x 4 x 1 1 … … … x 2 1 … … x 3 1 … x 4 1 Die Korrelationsmatrix (R) enthält die Korrelationskoeffizienten (r) über alle Eigenschaften. Ferner gibt sie Auskunft über die Unabhängigkeit der Ausgangsvariablen. Ist r 0,6, können Variablen zu einem Faktor gebündelt werden, da eine starke Korrelation gegeben ist. Wird in der Korrelationsmatrix eine starke Korrelation zwischen zwei oder mehreren Variablen festgestellt, geht die Faktorenanalyse von der Hypothese aus, dass die Variablen von einem hinter ihnen stehenden gemeinsamen Faktor bestimmt werden. Um festzustellen, inwiefern die Korrelationsmatrix für die Faktorenanalyse aussagefähig ist, können weitere Untersuchungen durchgeführt werden. Geeignete Maße hierfür sind u.a. das Signifikanzniveau der Korrelationen, die Inverse der Korrelationsmatrix, der Bartlett-Test, die Anti-Image-Kovarianz-Matrix sowie das Kaiser-Meyer-Olkin- Kriterium (vgl. zu den einzelnen Maßen Backhaus et al. 2015, S. 398 ff.). Tab. 6.8: Aufbau der Faktorladungsmatrix Variable Faktor F 1 F 2 … F n x 1 … … … … x 2 … … … … … … … … … x j … … … … <?page no="243"?> 244 Datenanalyse Die Maßgröße für den Zusammenhang zwischen einer oder mehrerer Variable(n) und dem Faktor ist die Faktorladung, die angibt, mit welcher Gewichtung die ermittelten Faktoren an der Beschreibung der beobachteten Zusammenhänge beteiligt sind. Diese lassen sich in einer sog. Faktorladungsmatrix darstellen (vgl. Tab. 6.8). Die Vorgehensweise soll anhand eines Beispiels erläutert werden. Beispiel 6.8: Eine Supermarktkette will ihr Outletkonzept vollkommen umgestalten. Sie beauftragt eine Marktforschungsgruppe, relevante Eigenschaften der Outlets (Einkaufsstätten) zu ermitteln. Mit Hilfe von Tiefeninterviews wurden im Rahmen einer explorativen Voruntersuchung die folgenden relevanten Eigenschaften identifiziert: Wahrgenommenes Preisleistungsverhältnis (Preis), Ausreichender Parkraum (Parking), Übersichtlichkeit der Warenpräsentation (Präsentation), Erreichbarkeit mit ÖPNV (Anbindung), Attraktivität der Verkaufsförderungsmaßnahmen (Promotion). Zur Datengewinnung werden Kunden in sechs verschiedenen Outlets der Supermarktkette gebeten, diese Eigenschaften auf einer Skala von 1 = sehr schlecht bis 7 = sehr gut zu bewerten. Dabei ergeben sich folgende Mittelwerte: Outlet Präsentation Parking Preis Promotion Anbindung 1 1,0 2,0 1,0 2,1 1,0 2 2,0 4,0 6,0 2,9 3,0 3 4,1 5,0 5,1 4,1 4,0 4 5,0 3,0 6,0 6,1 2,0 5 2,0 6,9 3,0 2,9 5,0 6 3,0 7,0 4,0 4,1 6,0 Im Rahmen einer Faktorenanalyse sollen obige Eigenschaften reduziert werden. Die Marktforschungsgruppe berechnet aus der obigen Datenmatrix die folgende Korrelationsmatrix: Präsentation Parking Preis Promotion Anbindung Präsentation 1,00000 0,05163 0,71105 0,95787 0,11234 Parking 1,00000 0,07455 0,00056 0,98623 Preis 1,00000 0,67289 0,13961 Promotion 1,00000 0,06072 Anbindung 1,00000 Anhand der vorliegenden Korrelationsmatrix könnten folgende Eigenschaften zu je einem Faktor zusammengefasst werden: Faktor 1: Präsentation, Preis, Promotion Faktor 2: Parking, Anbindung. Die in den Faktoren enthaltenen Eigenschaften haben untereinander durchweg eine Korrelation von 6 , 0 r ≥ . <?page no="244"?> Verfahren der Datenreduktion 245 Der zweite Schritt der Faktorenanalyse beinhaltet die Extraktion der Faktoren. Grundlage der Faktorenermittlung (Faktorenextraktion) ist das Fundamentaltheorem, welches den Zusammenhang zwischen der Korrelationsmatrix und der Faktorladungsmatrix darstellt. Im Rahmen der Faktorenanalyse geht man von der Annahme aus, dass sich jeder Beobachtungswert einer Ausgangsvariable als Linearkombination mehrerer Faktoren beschreiben lässt. Mathematisch lässt sich das Fundamentaltheorem wie folgt beschreiben (vgl. Hüttner/ Schwarting 2008, S. 250; Überla 1977, S. 50 ff.): = ⋅ = ⋅ + + ⋅ + ⋅ = Q 1 q iq kq iQ kQ 2 i 2 k 1 i 1 k ki p a p a ... p a p a z mit z ki = Standardisierter Wert der Variablen k bei Objekt i, a kq = Faktorladung q von Variable k, p iq = Faktor p q von Objekt i. Die standardisierte Variable z kann also vollständig durch die Faktorladungen a multipliziert mit den Faktoren p abgebildet werden. Zur Verkürzung der Notation lässt sich das Fundamentaltheorem auch in Matrizenschreibweise darstellen: Z = P · A’ mit P = Matrix der Faktoren A’ = Inverse der Faktorladungsmatrix. Das Fundamentaltheorem der Faktorenanalyse beschreibt den Zusammenhang zwischen der Korrelationsmatrix R und der Faktorladungsmatrix A. Es besagt, dass sich die Korrelationsmatrix durch die Faktorladungen und die Korrelationsmatrix der Faktoren C reproduzieren lässt: R = A · C · A’. Da üblicherweise Unkorreliertheit der Faktoren unterstellt wird, reduziert sich das Fundamentaltheorem auf R = A · A’. Die Gültigkeit dieses Ausdruckes beschränkt sich allein auf den Fall der Annahme linearer Additivität (vgl. Backhaus et al. 2015, S. 401, Hüttner/ Schwarting 2008, S. 251). Auf der Grundlage des Fundamentaltheorems werden zwei Verfahren der Bestimmung der Kommunalitäten vorgestellt und erläutert: Hauptkomponentenanalyse sowie Hauptachsenanalyse. <?page no="245"?> 246 Datenanalyse Definition Unter dem Begriff Kommunalität versteht man den Teil der Gesamtvarianz einer Variablen, der durch die gemeinsamen Faktoren erklärt wird bzw. den Umfang an der Varianzerklärung, den die Faktoren gemeinsam für die jeweiligen Ausgangsvariablen liefern. Rechnerisch wird die Kommunalität durch die Summe der quadrierten Faktorladungen einer Variablen über alle Faktoren bestimmt. Bei der Hauptkomponentenanalyse handelt es sich um ein besonders effizientes Verfahren zur Faktorenermittlung, das von Pearson (1901) entwickelt und von Hotelling (1933) erstmals in diesem Zusammenhang angewendet wurde. Die Annahme der Hauptkomponentenanalyse besteht darin, dass die Varianz der Ausgangsvariablen vollständig durch die Faktoren erklärt wird, d.h. eine Einzelrestvarianz in den Variablen existiert nicht. Das bedeutet, dass der Startwert der Kommunalität immer gleich 1 ist und die Kommunalität von 1 auch immer dann vollständig reproduziert wird, wenn ebenso viele Faktoren wie Variablen extrahiert werden. Ist die Anzahl der Faktoren geringer als die Anzahl der Variablen, ist im Ergebnis der Wert der Kommunalität (erklärter Varianzanteil) kleiner 1. Der „nicht erklärte“ Varianzanteil (1-Kommunalität) ist jedoch keine Einzelrestvarianz. Hierbei handelt es sich um den durch die Faktoren nicht reproduzierten Varianzanteil, der als Informationsverlust deklariert wird. Ziel der Hauptkomponentenanalyse ist somit eine möglichst umfassende Reproduktion der Datenstruktur mit möglichst wenigen Faktoren. Im Rahmen der Hauptachsenanalyse wird nicht von einer vollständigen Erklärung der Varianzen durch die Faktoren ausgegangen. Bei dieser Methode ist der Startwert der Kommunalitätenschätzung somit kleiner 1, was bedeutet, dass die Varianz einer Variablen nur in Höhe einer vorgegebenen Kommunalität reproduziert werden kann. Dadurch wird unterstellt, dass sich die Varianz einer Variablen immer in die Kommunalität und die Einzelrestvarianz aufteilt. Ziel der Hauptachsenanalyse ist somit die Erklärung der Varianz der Variablen durch die Faktoren, wohingegen die Hauptkomponentenanalyse insbesondere auf umfassende Reproduktion der Datenstruktur durch die Faktoren abzielt (vgl. Aaker et al. 2013, S. 521 ff.). Die Vorgehensweise soll anhand eines Beispiels erläutert werden. Beispiel 6.9: Anhand der Korrelationsmatrix aus Beispiel 6.8 wird folgende Faktorladungsmatrix ermittelt: Variablen Faktor 1 Faktor 2 Faktor 3 Faktor 4 Faktor 5 Präsentation 0,943 -0,225 -0,201 -0,144 0,005 Parking 0,278 0,957 -0,030 0,010 0,075 Preis 0,837 -0,149 0,526 0,012 0,003 Promotion 0,917 -0,270 -0,261 0,135 -0,003 Anbindung 0,340 0,937 -0,009 -0,004 -0,076 <?page no="246"?> Verfahren der Datenreduktion 247 Die Faktorladungen der einzelnen Faktoren ermöglichen die Berechnung der Kommunalitäten der einzelnen Variablen. Bei einer Extraktion von beispielsweise nur zwei Faktoren (Faktor 1, Faktor 2) resultiert die Kommunalität folgendermaßen: Kommunalität Präsentation 0,9394 Parking 0,9933 Preis 0,7235 Promotion 0,9137 Anbindung 0,9941 Die Kommunalität der Variable „Präsentation“ errechnet sich z.B. als (0,943)²+(0,225)² = 0,9394. Die verbleibende Differenz von (1-0,9394) = 0,0606 ist gemäß der Hauptkomponentenanalyse als der durch die beiden extrahierten Faktoren nicht erklärte Varianzanteil der Variable „Präsentation“ zu interpretieren. Der dritte Schritt der Faktorenanalyse beinhaltet die Ermittlung der Zahl der Faktoren. Da zur Bestimmung der Faktorenzahl keine eindeutigen Vorschriften existieren, werden im Folgenden zwei gebräuchliche Kriterien herangezogen: Kaiser-Kriterium und Scree-Test. Zur Bestimmung der Faktorenzahl müssen sowohl beim Kaiser-Kriterium als auch beim Scree-Test die Eigenwerte der einzelnen Faktoren ermittelt werden (vgl. Beispiel 6.10). Definition Der Eigenwert ist das Maß für die durch einen Faktor erklärte Varianz der Grundgesamtheit, d.h. der Eigenwert liefert den Varianzbeitrag eines Faktors im Hinblick auf die Varianz aller Variablen. Rechnerisch wird der Eigenwert durch die Summe der quadrierten Faktorladungen eines Faktors bestimmt. Auf der Grundlage des Kaiser-Kriteriums wird die Zahl der Faktoren extrahiert, deren Eigenwert größer Eins ist. Begründet wird diese Vorgehensweise mit der standardisierten Varianz der Variablen, die den Wert Eins hat. Würde der Eigenwert kleiner Eins sein, würde noch nicht einmal die Varianz einer Variablen erklärt werden. Im Gegensatz dazu werden beim Scree-Test die Eigenwerte in einem Eigenwert-Faktor- Diagramm mit abnehmender Wertefolge angeordnet. Die Punkte, die sich asymptotisch der Abszisse nähern, werden durch eine Gerade angenähert. Dabei bestimmt der „letzte“ Punkt links von der Geraden („Elbow“) die Anzahl der zu extrahierenden Faktoren. Es muss einschränkend erwähnt werden, dass dieses Verfahren nicht immer eine eindeutige Lösung liefert, da sich aufgrund ähnlicher Differenzen der Eigenwerte nicht immer ein eindeutiger Knick (Elbow) ermitteln lässt (vgl. Backhaus et al. 2015, S. 416 f., Aaker et al. 2013, S. 524 f.). <?page no="247"?> 248 Datenanalyse Beispiel 6.10: Anhand der Werte aus dem Beispiel 6.8 soll die zu extrahierende Anzahl an Faktoren sowohl nach dem Kaiser-Kriterium als auch nach dem Scree-Test ermittelt werden. Dafür müssen aus der Faktorladungsmatrix zuerst die Eigenwerte der einzelnen Faktoren errechnet werden. Variablen Faktorladungen Faktor 1 Faktor 2 Faktor 3 Faktor 4 Faktor 5 Präsentation 0,943 -0,225 -0,201 -0,144 0,005 Parking 0,278 0,957 -0,030 0,010 0,075 Preis 0,837 -0,149 0,526 0,012 0,003 Promotion 0,917 -0,270 -0,261 0,135 -0,003 Anbindung 0,340 0,937 -0,009 -0,004 -0,076 Die Faktorladungen der einzelnen Faktoren ermöglichen die Berechnung der einzelnen Eigenwerte, indem die Summe der quadrierten Faktorladungen eines Faktors gebildet wird: Faktor 1 1 Faktor 2 Faktor 3 Faktor 4 Faktor 5 Eigenwert 2,623 1,940 0,386 0,039 0,011 1 ( ) ( ) ( ) ( ) ( ) . 62 , 2 340 , 0 917 , 0 837 , 0 278 , 0 943 , 0 1 Faktor Eigenwert 2 2 2 2 2 ≈ + + + + = Anhand des vorliegenden Ergebnisses werden sowohl gemäß dem Kaiser-Kriterium als auch gemäß dem Scree-Test die Faktoren 1 und 2 extrahiert. Die Faktoren könnten wie folgt beschrieben werden: Faktor 1: Marketingaktivitäten (Präsentation, Preis, Promotion) Faktor 2: Infrastruktur und Erreichbarkeit (Parking, Anbindung). Abb. 6.11: Eigenwert-Faktor-Diagramm des Beispiels 6.10 Der vierte Schritt der Faktorenanalyse beinhaltet die Faktoreninterpretation. Hierbei handelt es sich um einen kreativen Prozess, indem die in einem Faktor zusammengefassten Variablen mit einem Begriff umschrieben werden müssen. Außerdem dienen die Eigenwerte der Faktoren auch zur Bestimmung ihrer Bedeutung. Interpretationsproble- Kaiser-Kriterium Elbow-Kriterium <?page no="248"?> Verfahren der Datenreduktion 249 me entstehen, wenn Variablen auf mehrere Faktoren hochladen, d.h. die Faktorladungen einer Variablen sind bei mehreren Faktoren größer als 0,5. Um dieses Problem zu lösen, kommt es zum Einsatz der Faktorenrotation. Zur Interpretationserleichterung wird eine Rotation, d.h. eine Drehung der Koordinatenachsen im Ursprung durchgeführt, bei der die Rechtwinkligkeit der Achsen erhalten bleibt (vgl. Abb. 6.12). Die Rotation wird soweit vollzogen, bis möglichst viele Variablen auf nur noch einen Faktor hoch und auf alle anderen niedrig laden. Ziel ist es, dass die Varianz der quadrierten Ladungen maximiert wird. Dadurch wird es möglich, dass eine Ausgangslösung hinsichtlich ihrer Interpretierbarkeit deutlich verbessert werden kann. Die wichtigsten Rotationsalgorithmen sind (vgl. Costello/ Osborne 2005, S. 3): Varimax-Rotation: Maximierung der Varianz der quadrierten Ladungen pro Faktor; Quartimax-Rotation: Maximierung der Varianz der quadrierten Ladungen pro Variable; Equamax-Rotation: Kombination aus der Varimax- und der Quartimax-Rotation. Im Anschluss an die gegebenenfalls notwendige Faktorenrotation erfolgt dann die Interpretation. Abb. 6.12: Rechtwinklige Varimax-Rotation Neben der Information, dass die Variablen auf eine geringe Zahl an Faktoren reduziert werden können, ist von Interesse, welche Werte die Objekte (z.B. Marken) hinsichtlich der extrahierten Faktoren annehmen, d.h. die Ausprägung der Faktoren bei den Objek- F2 F1 F1 (rotiert) F2 rotiert) <?page no="249"?> 250 Datenanalyse ten (vgl. Backhaus et al. 2015, S. 421 f.). Der fünfte Schritt der Faktorenanalyse umfasst daher die Bestimmung der Faktorwerte. Um die Positionierung der Objekte vorzunehmen, müssen die einzelnen Faktorwerte berechnet werden. Zunächst erfolgt dabei eine Standardisierung der Beobachtungswerte (Ausgangsdaten). In einem zweiten Schritt kann dann die Berechnung der Faktorwerte F ij erfolgen: = ⋅ = K 1 k ki jk ji z w F mit F ji = Faktorwert des Objektes i der Dimension j, w jk = Factor Score Coefficient für Variable k der Dimension j. Zur Ermittlung der Koeffizienten der Faktorwerte (Factor Score Coefficients) werden Schätzverfahren eingesetzt; je nach Wahl des Schätzverfahrens kann die Lösung dabei variieren. In vielen Fällen erfolgt die Berechnung der Faktor Score Coefficients auf der Basis der Regressionsanalyse (vgl. Backhaus et al. 2015, S. 421). Erfolgt eine Reduzierung der Variablen auf lediglich zwei bzw. drei Faktoren, so lassen sich die Faktorenwerte in einem Faktorwertediagramm graphisch darstellen und anschließend interpretieren. Beispiel 6.11: Aus den Daten der Beispiele 6.8 - 6.10 wurden die folgenden Factor Score Coefficients mit Hilfe von SPSS ermittelt: Faktor 1 Faktor 2 Präsentation 0,37725 -0,01447 Parking -0,03145 0,50350 Preis 0,32816 0,01234 Promotion 0,37422 -0,03935 Anbindung -0,00598 0,50080 Anhand der vorliegenden Informationen werden die Faktorwerte berechnet. 1. Beobachtungswerte standardisieren: 1.1 Berechnung der Mittelwerte für die Variablen über die Objekte: Präsentation: 85 , 2 6 3 2 5 1 , 4 2 1 x 1 = + + + + + = Parking: 65 , 4 x 2 = Preis: 18 , 4 x 3 = Promotion: 70 , 3 x 4 = Anbindung: 50 , 3 x 5 = <?page no="250"?> Verfahren der Datenreduktion 251 1.2 Berechnung der Standardabweichung der Variablen: Präsentation: ( ) ( ) ( ) 49 , 1 1 6 85 , 2 3 ... 85 , 2 2 85 , 2 1 s 2 2 2 1 = − − + + − + − = Parking: s 2 = 2,04 Preis: s 3 = 1,95 Promotion: s 4 = 1,41 Anbindung: s 5 = 1,87 1.3 Berechnung der standardisierten Beobachtungswerte: Standardisierte Beobachtungswerte Outlet Präsentation Parking Preis Promotion Anbindung 1 -1,243 -1,297 -1,633 -1,136 -1,336 2 -0,571 -0,318 0,932 -0,568 -0,267 3 0,840 0,171 0,470 0,284 0,267 4 1,445 0,808 0,932 1,704 -0,802 5 -0,571 1,101 -0,607 -0,568 0,802 6 0,101 1,150 -0,094 0,284 1,336 Beispielsweise resultiert z 11 als: 243 , 1 49 , 1 85 , 2 1 z 11 − = − = . 2. Berechnung der Faktorwerte: Faktorwerte Outlet Faktor 1 Faktor 2 1 -1,381 -1,280 2 -0,111 -0,252 3 0,570 0,203 4 1,519 -0,885 5 -0,667 0,979 6 0,069 1,235 Für 11 F ergibt sich exemplarisch: ( ) ( ) ( ) 381 , 1 336 , 1 00598 , 0 ... 243 , 1 37725 , 0 F 11 − = − ⋅ − + + − ⋅ = . Die nun vorliegenden Faktorwerte lassen sich in ein Faktordiagramm übertragen. Als Ergebnis kann festgehalten werden, dass die Outlets 1, 2 und 3 sowohl die Infrastruktur als auch die Marketingaktivitäten verbessern müssen (unterschiedlich stark), das Outlet 4 die Infrastruktur verbessern muss und die Outlets 5 und 6 die Marketingaktivitäten erhöhen müssen. <?page no="251"?> 252 Datenanalyse Abb. 6.13: Faktordiagramm des Beispiels 6.11 Konfirmatorische Faktorenanalyse Definition Die konfirmatorische Faktorenanalyse ist eine Methode zur formalen Darstellung der Messung komplexer Konstrukte durch Indikatoren und zur gleichzeitigen Gütebeurteilung dieser Messung. Sie dient somit der Kontrolle der bei der explorativen Faktorenanalyse gewonnenen Ergebnisse. Durch die Anwendung der konfirmatorischen Faktorenanalyse sollen die Schwachstellen der explorativen Faktorenanalyse, d.h. die Nichtberücksichtigung von Messfehlern, die hohe Subjektivität bei der Reduzierung von Faktoren sowie die Ergebnisinterpretation ausgeglichen werden. Somit ist die konfirmatorische im Gegensatz zur explorativen Faktorenanalyse als strukturprüfend einzuordnen. Sie kann zur Hypothesenprüfung herangezogen werden, wenn aufgrund theoretischer Vorüberlegungen Hypothesen über die Beziehung zwischen direkt beobachtbaren Variablen und dahinter stehenden, nicht beobachtbaren Faktoren aufgestellt werden und es von Interesse ist, diese Hypothesen an einem empirischen Datensatz zu prüfen. Diese Variante der Faktorenanalyse basiert ebenfalls auf dem Fundamentaltheorem. Ausgangspunkt für die konfirmatorische Faktorenanalyse ist die Modellspezifikation. Diese umfasst die Definition der Indikatoren und der Faktoren sowie die Zuordnung der Indikatoren zu den Faktoren. Ferner wird in dieser Phase der Analyse untersucht, inwieweit die ermittelten Daten mit dem konstruierten Modell konsistent sind. Problematisch ist die Zuweisung von Skalen zu latenten Konstrukten, die grundsätzlich keine eigenen Skalen aufweisen. Dies geschieht entweder durch Fixierung einer Faktorladung (i.d.R. mit dem Wert 1) oder durch Fixierung der Varianz eines Faktors. -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 Faktordiagramm Faktor 2 (Infrastruktur) Faktor 1 (Marketingaktivitäten) 1 2 3 4 5 6 <?page no="252"?> Verfahren der Datenreduktion 253 Die Spezifikation umfasst latente Variablen ( j ), Indikatorvariablen (x i ), Messfehlervariablen ( i ), Faktorladungen ( ij ) und die Korrelationen der latenten Variablen untereinander ( jk ). Daraus ergibt sich für das Messmodell folgende Gleichung (vgl. Homburg et al. 2008a, S. 280): x = + mit x = Vektor der Indikatorvariablen, = Matrix der Faktorladungen, = Vektor der latenten Variablen, = Vektor der Messfehler. Diese Grundgleichung nimmt in Matrizenschreibweise folgende Form an: + ⋅ = J 1 J 1 J I, I,2 I,1 J 2, 2,2 2,1 J 1, 1,2 1,1 I 2 1 x x x . Im zweiten Schritt erfolgt die Parameterschätzung. Ziel ist es, die unbekannten Parameter ( ij , jk , ,ij ) so zu schätzen, dass die vom Modell reproduzierte Kovarianzmatrix ( ) ˆ , ˆ , ˆ ˆ = die empirische Kovarianzmatrix S möglichst exakt reproduziert. Dadurch wird eine Minimierung einer Diskrepanzfunktion zwischen S und erreicht. Zu berücksichtigen ist jedoch, dass die Diskrepanzfunktion von der verwendeten Schätzmethode abhängt. Weite Verbreitung findet die Maximum-Likelihood-Methode, bei der zu einem gegebenen Stichprobenergebnis S derjenige Wert ˆ als Schätzer für gewählt wird, unter dem die Wahrscheinlichkeit des Eintretens von S am größten ist. Die Überprüfung, ob die angenommenen Faktoren das Modell gut beschreiben, erfolgt im dritten Schritt der Vorgehensweise anhand einer Vielzahl von Anpassungsmaßen. Ein Modell, dessen ermittelte Anpassungsmaße sich innerhalb der Anspruchsniveaus befinden, kann als „gut beschrieben“ angesehen werden. Ist ein Modell nicht ausreichend gut beschrieben, so sind Modifikationen erforderlich, etwa die Änderung der Faktorenstruktur, die Herausnahme einzelner Faktoren, die Modifikation der gesamten Modellstruktur oder die Verwendung von so genannten „Cross-loadings“. „Crossloadings“ kommen dann zur Anwendung, wenn einzelne Variablen Einfluss auf mehrere Faktoren haben. Die Modifikation der Modellstruktur wird dann abgeschlossen, wenn die gewünschten Anspruchsniveaus erreicht sind. Eine Übersicht der gebräuchlichsten Anpassungsmaße sowie der zugehörigen Anspruchsniveaus liefert Tab. 6.9. Globalmaße beschreiben dabei die Modellgüte insgesamt, Partialmaße (lokale Gütekriterien) die Anpassungsgüte einzelner Komponenten. Bei der Anwendung der Kriterien wird dabei typischerweise eine vollständige Erfüllung der globalen Gütemaße gefordert, bei den lokalen Gütemaßen wird die Erfüllung einer Teilmenge (z.B. 50 %) als ausreichend angesehen. Zu beachten ist, dass im Hinblick auf die Anspruchsniveaus bei den einzelnen Kriterien in der Literatur teilweise Uneinigkeit herrscht; die angegebenen Werte sind daher z.T. als Richtgrößen aufzufassen. Ausführliche Erläuterungen zu den einzelnen Anpassungsmaßen sowie eine Übersicht <?page no="253"?> 254 Datenanalyse der Anspruchsniveaus liefern Homburg et al. 2008a, S. 282 ff. sowie Homburg/ Baumgartner 1995. Tab. 6.9: Anpassungsmaße zur Beurteilung von konfirmatorischen faktoranalytischen Modellen Gütekriterien Anspruchsniveau Globale Gütekriterien Goodness of Fit-Index (GFI) 0,9 Adjusted Goodness of Fit-Index (AGFI) 0,9 Normed-Fit-Index (NFI) 0,9 Comparative-Fit-Index (CFI) 0,9 Root Mean Square Error of Approximation (RMSEA) ≤ 0,08 χ ² / df ≤ 2,5 Lokale Gütekriterien Indikatorreliablilität 0,3-0,4 Faktorreliabilität (FR) 0,5-0,6 Anteil durchschnittlich erfasster Varianz 0,5 Signifikanztest der Faktorladungen (einseitig; α = 0,05 bzw. 0,01) 1,645 bzw. 2,326 Den letzten Schritt beinhaltet die Ergebnisinterpretation. Dabei steht im Fokus, inwieweit die theoretisch unterstellte Struktur mit den empirischen Daten konsistent ist. In diesem Zusammenhang sind die einzelnen Parameterschätzer interessant. Unterschiede in der Stärke der Faktorladungen geben Hinweise auf die Eignung einzelner Indikatoren zur Messung des Konstrukts, wobei hohe Faktorladungen auf eine gute Eignung des Indikators zur Messung hinweisen (vgl. Homburg et al. 2008a, S. 289). 3.3 Verfahren der Klassifikation 3.3.1 Clusteranalyse Definition Ziel der Clusteranalyse ist es, eine heterogene Gesamtheit von Objekten (z.B. Konsumenten, Marken) anhand relevanter Merkmale in Gruppen (Cluster) einzuteilen. Dabei sollen die klassifizierten Objekte innerhalb der Gruppe möglichst ähnlich und die Gruppen untereinander möglichst unähnlich sein. Die Variablen können sowohl metrisch als auch nominal (binär) oder ordinal ausgeprägt sein. Eine typische Anwendung im Marketing ist die Bildung von Marktsegmen- <?page no="254"?> Verfahren der Klassifikation 255 ten bzw. Zielgruppen. Die Clusteranalyse umfasst verschiedene Verfahren der Gruppenbildung. Sie vollzieht sich in folgenden Schritten: Bestimmung der Ähnlichkeiten zwischen den Objekten, Auswahl des Fusionierungsalgorithmus, Bestimmung der Clusteranzahl, Clusterbeschreibung. Ausgangspunkt der Clusteranalyse bildet eine Rohdatenmatrix, welche in allgemeiner Form in Tab. 6.10 dargestellt ist. Zu klassifizieren sind i = 1, … I Objekte anhand von k = 1, …, K Variablen. Tab. 6.10: Aufbau der Rohdatenmatrix einer Clusteranalyse Variable 1 Variable 2 … Variable k … Variable K Objekt 1 x 11 x 12 x 1k x 1K Objekt 2 x 21 x 22 x 2k x 2K … … … … … Objekt i x i1 x i2 x ik x iK … … … … … Objekt I x I1 x I2 x Ik x IK Um die Ähnlichkeiten zwischen den Objekten zu ermitteln, wird die Rohdatenmatrix in eine sog. Distanzmatrix (Ähnlichkeitsmatrix) überführt, die immer eine quadratische (I × I)-Matrix darstellt. Die Quantifizierung der Ähnlichkeit oder Distanz zwischen den Objekten wird allgemein als Proximitätsmaß bezeichnet. Zwei Arten von Proximitätsmaßen lassen sich unterscheiden: Ähnlichkeitsmaße: Sie spiegeln die Ähnlichkeit zweier Objekte wider (je größer der Wert, desto ähnlicher sind sich die zwei Objekte); Distanzmaße: Sie messen die Unähnlichkeit zwischen zwei Objekten (je größer der Wert, desto unähnlicher sind die zwei Objekte). Während Ähnlichkeitsmaße meistens bei nichtmetrischen Merkmalen eingesetzt werden, finden Distanzmaße überwiegend bei metrischen Merkmalen ihre Anwendung (vgl. Raab et al. 2009, S. 248 f.). Abbildung 6.14 gibt einen Überblick über die gebräuchlichsten Proximitätsmaße. Auf die wichtigsten wird im Folgenden näher eingegangen. Bei einem nominalen (binären) Skalenniveau beruhen die Ähnlichkeitsmaße größtenteils auf der allgemeinen Ähnlichkeitsfunktion ( ) c b d a d a S ij + λ + δ + δ + = mit S ij = Ähnlichkeit zwischen den Objekten i und j, <?page no="255"?> 256 Datenanalyse a = Anzahl der Merkmale, die bei beiden Objekten vorhanden sind (1; 1), b = Anzahl der Merkmale, die nur bei Objekt 2 vorhanden sind (0; 1), c = Anzahl der Merkmale, die nur bei Objekt 1 vorhanden sind (1; 0), d = Anzahl der Merkmale, die bei beiden Objekten nicht vorhanden sind (0; 0), , = mögliche konstante Gewichtungsfaktoren. Der Unterschied zwischen den einzelnen Proximitätsmaßen liegt in der Höhe der beiden Gewichtungsfaktoren und (vgl. zu den verschiedenen Proximitätsmaßen den Überblick bei Bortz/ Schuster 2010, S. 454 ff. sowie Backhaus et al. 2015, S. 460 ff.). Abb. 6.14: Überblick über ausgewählte Proximitätsmaße Der Tanimotobzw. der Jaccard-Koeffizient misst den relativen Anteil gemeinsamer Merkmale zweier Objekte bezogen auf die gesamte Anzahl vorhandener Merkmale. Das gemeinsame Nichtvorhandensein eines Merkmals wird nicht beachtet. Somit lautet der Tanimoto-Koeffizient: c b a a S ij + + = mit =0 und =1. Der Russel&Rao-Koeffizient (RR-Koeffizient) misst den relativen Anteil gemeinsamer vorhandener Merkmale zu allen möglichen Merkmalen. Somit lautet der RR-Koeffizient: d c b a a S ij + + + = . Der RR-Koeffizient berücksichtigt keine Gewichtungsfaktoren. Der Simple Matching-Koeffizient misst den relativen Anteil gemeinsamer vorhandener und nichtvorhandener Merkmale zweier Objekte, bezogen auf die gesamte Anzahl möglicher Merkmale. Somit ergibt sich für den M-Koeffizienten folgende Formel: d c b a d a S ij + + + + = mit =1 und =1. Anhand dieser Ähnlichkeitsmaße wird die Ähnlichkeitsmatrix erstellt und in eine Distanzmatrix (1-Ähnlichkeitsmatrix) überführt. Die Vorgehensweise soll anhand eines Beispiels erläutert werden. Proximitätsmaße Bei Nominalskalen Bei metrischen Skalen Tanimoto-Koeffizient RR-Koeffizient M-Koeffizient Dice-Koeffizient Kulcynski-Koeffizient L 1 -Norm L 2 -Norm Mahalanobis-Distanz Q-Korrelationskoeffizient <?page no="256"?> Verfahren der Klassifikation 257 Beispiel 6.12: Das Marktforschungsinstitut Späh&Guck wird beauftragt, für einen Kunden die Ähnlichkeit zwischen ausgewählten Automobilmarken zu erfassen und diese zu möglichst homogenen Gruppen zusammenzufassen. Für die neuesten Modelle der Marken BMW, Audi, VW und Opel resultiert aus verfügbarem Prospektmaterial folgendes Bild: Marke Airbag ABS 1. BMW ja ja 2. Audi ja nein 3. VW nein nein 4. Opel ja nein Auf der Grundlage des Simple-Matching-Koeffizienten können folgende Ähnlichkeiten ermittelt werden: 5 , 0 1 0 1 0 1 0 d 1 1 0 0 1 1 1 d 5 , 0 1 1 0 0 1 0 d 5 , 0 0 1 0 1 0 1 d 0 0 2 0 0 0 0 d 5 , 0 0 1 0 1 0 1 d c b a d a d 4 , 3 4 , 2 3 , 2 4 , 1 3 , 1 2 , 1 = + + + + = = + + + + = = + + + + = = + + + + = = + + + + = = + + + + = + + + + = Daraus lässt sich die folgende Ähnlichkeitsmatrix aufstellen: BMW Audi VW Opel 1. BMW 2. Audi 3. VW 4. Opel 1 0,5 1 0,0 0,5 1 0,5 1,0 0,5 1 Somit lautet die Distanzmatrix: BMW Audi VW Opel 1. BMW 2. Audi 3. VW 4. Opel 0 0,5 0 1,0 0,5 0 0,5 0,0 0,5 0 Bei einem metrischen Skalenniveau beruhen die Ähnlichkeitsmaße auf der allgemeinen Ähnlichkeitsfunktion der Minkowski-Metrik bzw. L-Norm <?page no="257"?> 258 Datenanalyse ( ) r 1 K 1 k r jk ik x x j , i d − = = mit d(i,j) = Distanz zwischen Objekt i und Objekt j, x ik = Wert der Variablen k bei Objekt i (k = 1, 2, ... K), x jk = Wert der Variablen k bei Objekt j (k = 1, 2, ... K), r 1 = Minkowski-Konstante. Dabei stellt r eine positive Konstante dar. Aus der allgemeinen Gleichung der Minkowski-Metrik lassen sich für unterschiedliche Werte von r unterschiedliche Distanzmaße ableiten, z.B. die Euklidische Distanz (r=2, L 2 -Norm) und die City-Block-Metrik (r=1, L 1 -Norm, auch: Manhattan-Metrik). Während die Euklidische Distanz die direkte Entfernung zwischen zwei Objekten im K-dimensionalen Raum misst, ergibt sich bei der City-Block-Metrik die Distanz zweier Punkte als Summe der (absolut gesetzten) Merkmalsdifferenzen, d.h. die Distanz wird rechtwinklig gemessen (vgl. Bortz/ Schuster 2010, S. 456 ff.). Häufig wird in den gängigen Softwarepaketen die quadrierte Euklidische Distanz zugrunde gelegt. Zu beachten ist, dass die verschiedenen Distanzmaße in der Regel auch zu einer unterschiedlichen Rangfolge der Ähnlichkeiten führen (mit Ausnahme des ähnlichsten und des unähnlichsten Objektpaares). Liegen korrelierte Merkmale vor, kann entweder eine Faktorenanalyse vorgeschaltet werden, oder es kann die sog. Mahalanobis-Distanz verwendet werden (vgl. im Detail Bortz/ Schuster 2010, S. 457). Beispiel 6.13: Bei dem Fall des Beispiels 6.12 verfügt die Marktforschungsgruppe zusätzlich über die Preislisten der neuesten Modelle der Marken BMW, Audi, VW und Opel: Marke Preis in € BMW 40.000 Audi 35.000 VW 29.000 Opel 30.000 Das Distanzmaß der metrischen Variablen soll die direkte Entfernung der Marken im Objektraum messen. Somit erfolgt eine Berücksichtigung der positiven Konstanten von r=2, d.h. es wird die Euklidische Distanz verwendet. ( ) 2 1 4 1 k 2 jk ik x x j , i d − = = Daraus ergibt sich folgende Distanzmatrix: <?page no="258"?> Verfahren der Klassifikation 259 BMW Audi VW Opel BMW Audi VW Opel 0 5.000 0 11.000 6.000 0 10.000 5.000 1.000 0 Voraussetzung für die Ermittlung der Distanzen ist die Verwendung der gleichen Maßeinheit für die metrischen Variablen. Ist dies nicht der Fall, müssen die Daten vorher standardisiert werden. Dies geschieht durch die Transformation der Merkmale mit Hilfe folgender Formel: k k ki ki s x x z − = mit z ki = standardisierter Wert von Merkmal k bei Objekt i, x ki = Ausprägung von Merkmal k bei Objekt i, k x = Mittelwert des Merkmals k, s k = Standardabweichung von Merkmal k. Um ein Zusammenführen von Distanzmatrizen mit gemischtskalierten (nominal-, ordinal- und kardinalskalierten) Merkmalen zu ermöglichen, ist eine linearhomogene Aggregation notwendig. Da die Distanzmatrix für nominalskalierte Merkmale Werte zwischen 0 und 1 annimmt, wird die Distanzmatrix für metrischskalierte Merkmale zuvor normiert, indem die einzelnen Distanzen durch die jeweils maximal vorkommende Distanz dividiert werden. Die Gesamtdistanz ergibt sich anschließend aus folgender Formel (vgl. Bortz/ Schuster 2010, S. 458): ( ) Kij K Oij O Nij N ij d g d g d g d ⋅ + ⋅ + ⋅ = mit d ij = Distanz zweier Objekte i und j, g = relativer Anteil der Anzahl der Merkmale einer Skalierungsart an der Gesamtheit der Merkmale, N, O, K = Anzahl der nominal-, ordinal- oder kardinalskalierten Merkmale. Beispiel 6.14: Die einzelnen Distanzmatrizen der Beispiele 6.12 und 6.13 werden zunächst normiert, indem die Distanzwerte durch den jeweils maximal vorkommenden Wert (1,0 bzw. 11.000) dividiert werden. BMW Audi VW Opel BMW Audi VW Opel 0 0,5 0 1,0 0,5 0 0,5 0,0 0,5 0 <?page no="259"?> 260 Datenanalyse BMW Audi VW Opel BMW Audi VW Opel 0 0,45 0 1,00 0,54 0 0,91 0,45 0,09 0 Anschließend werden beide Matrizen zu einer endgültigen Distanzmatrix zusammengefasst. Beispielsweise errechnet sich der Distanzwert zwischen BMW und Audi aus (2/ 3· 0,5+1/ 3· 0,45) = 0,483. BMW Audi VW Opel BMW Audi VW Opel 0 0,483 0 1,000 0,513 0 0,637 0,150 0,363 0 Damit ist die Bestimmung der Ähnlichkeiten abgeschlossen. Die gewonnene Distanzmatrix bildet den Ausgangspunkt für die Anwendung von Clusteralgorithmen, die eine Zusammenfassung der Objekte zum Ziel haben. Dabei stehen unterschiedliche Fusionierungsalgorithmen zur Auswahl (vgl. Abb. 6.15). Abb. 6.15: Überblick über ausgewählte Clusteralgorithmen (Quelle: Backhaus et al. 2015, S. 476) Im nächsten Schritt wird die Clusteranzahl bestimmt. Üblicherweise wird das Elbow- Kriterium herangezogen. Der Abbruch erfolgt dann, wenn eine weitere Zusammenfassung der bestehenden Cluster zu einem Sprung in der Fehlerquadratsumme führt. Dabei ist zu berücksichtigen, dass der jeweilige Wert beim Elbow-Kriterium vom Anwender individuell vorgegeben werden muss. Schließlich erfolgt die Clusterbeschreibung. Hierbei wird entweder der Zentroid herangezogen (d.h. das fiktive Element des Clusters mit durchschnittlichen Ausprägungen bzgl. aller Merkmale), oder aber das reale Objekt, das dem Zentroiden am nächsten liegt. Clusterverfahren Graphentheoretische Verfahren Hierarchische Verfahren Partitionierende Verfahren Optimierungsverfahren Divisiv Agglomerativ Austauschverfahren Iteratives Minimaldistanzverfahren Single- Linkage Complete- Linkage Average- Linkage Centroid Median Ward <?page no="260"?> Verfahren der Klassifikation 261 Hierarchische Verfahren Hierarchische Verfahren beruhen darauf, dass Cluster schrittweise durch Aggregation oder Teilung von Elementen bzw. Gruppen gebildet werden. Während bei den divisiven Verfahren die Gesamtheit der Objekte schrittweise in immer feinere Klassen zerlegt wird, werden bei den agglomerativen Verfahren die Objekte sukzessive zu immer größeren Klassen zusammengefasst (vgl. Hoberg 2003, S. 94 f.). Eine der am häufigsten angewandten agglomerativen Techniken stellt das Single-Linkage dar. Wie bei allen agglomerativen Verfahren werden zunächst die Objekte mit der geringsten Distanz aus der endgültigen Distanzmatrix zu einer ersten Gruppe vereint. Im darauf folgenden Schritt erfolgt beim Single-Linkage-Verfahren nur eine Berücksichtigung der kleinsten Einzeldistanz („Nearest Neighbour“). Werden also zwei Elemente (oder Gruppen) P und Q zu einer neuen Gruppe (P+Q) zusammengefasst, so errechnet sich die Distanz zwischen der Gruppe (P+Q) und dem Element bzw. der Gruppe R wie folgt: ( ) ( ) ( ) ( ) ( ) { } Q , R D P , R D Q , R D P , R D 5 , 0 Q P ; R D − − + = + . Vereinfacht lässt sich die Distanz auch aus der nachfolgenden Beziehung ermitteln: ( ) ( ) ( ) { } Q , R D ; P , R D min Q P , R D = + . Dieses Verfahren ist für alle Distanzmaße geeignet, birgt jedoch die Gefahr, dass es zu kettenförmigen Clustergebilden kommen kann (Chaining-Effekt), in denen sich Objekte befinden, die zueinander eine geringere Ähnlichkeit aufweisen als zu Objekten anderer Cluster (vgl. Jensen 2008, S. 347). Das Verfahren ist beendet, wenn alle Objekte zu einer einzigen Klasse zusammengefasst werden. Als Ergebnis erhält man eine Baumstruktur (Dendrogramm). Beispiel 6.15: Aus der Distanzmatrix des Beispiels 6.14 resultiert die geringste Distanz zwischen Audi und Opel mit einem Wert von 0,150, sodass Audi und Opel zu einer ersten Gruppe zusammengefasst werden. Die reduzierte Distanzmatrix steht wie folgt aus: (1) (2,4) (3) (1) (2,4) (3) 0 0,483 0 1,000 0,363 0 mit (1)=BMW, (2)=Audi, (3)=VW, (4)=Opel Die reduzierte Distanzmatrix zeigt, dass die geringste Distanz nunmehr zwischen der Audi-Opel-Gruppe und VW besteht. Aus diesem Grunde wird VW der ersten Gruppe hinzugefügt. BMW bildet alleine ein zweites Cluster. (1) (3,(2,4)) (1) (3,(2,4)) 0 0,483 0 Ein alternatives agglomeratives Verfahren stellt das Complete-Linkage-Verfahren dar. Der Unterschied zum Single-Linkage-Verfahren besteht lediglich in der Vorgehensweise bei <?page no="261"?> 262 Datenanalyse der Bildung der reduzierten Distanzmatrix. Beim Complete-Linkage-Verfahren erfolgt eine Berücksichtigung der größten Einzeldistanz („Furthest Neighbour“) (vgl. Backhaus et al. 2015, S. 481). Die Berechnung der neuen Distanz erfolgt gemäß der Formel: ( ) ( ) ( ) ( ) ( ) { } Q , R D P , R D Q , R D P , R D 5 , 0 Q P ; R D − + + = + . Vereinfacht lässt sich die Distanz auch aus der nachfolgenden Beziehung ermitteln: ( ) ( ) ( ) { } Q , R D ; P , R D max Q P , R D = + . Auch bei diesem Verfahren können sämtliche Distanzmaße zugrunde gelegt werden. Ferner ist gewährleistet, dass alle paarweisen Objektähnlichkeiten innerhalb eines Clusters kleiner sind als der Durchschnitt der paarweisen Ähnlichkeiten zwischen verschiedenen Clustern. Einen Kompromiss zwischen dem Single-Linkage- und dem Complete-Linkage- Verfahren stellt das Average-Linkage-Verfahren dar. Bei diesem Verfahren wird die durchschnittliche Entfernung der Objekte zu allen Objekten des neuen Clusters wie folgt berechnet: ( ) ( ) ( ) { } Q , R D P , R D 5 , 0 Q P ; R D + = + . Ein in der Praxis häufig genutzter Clusteralgorithmus ist das Ward-Verfahren (vgl. Bortz/ Schuster 2010, S. 462 ff.). Im Vergleich zu den bisher vorgestellten Verfahren erfolgt beim Ward-Verfahren keine Fusionierung von Objekten auf der Basis der geringsten Distanzen, sondern es werden jene Objekte bzw. Gruppen fusioniert, die ein vorgegebenes Heterogenitätsmaß am wenigsten vergrößern. In der Literatur wird dieses Verfahren auch als Minimum-Varianz-Methode, Fehlerquadratsummen-Methode oder HGROUP-100-Methode bezeichnet. Die Berechnung der Distanz des zuletzt gebildeten Clusters zu den anderen Gruppen erfolgt gemäß folgender Formel: ( ) ( ) ( ) ( ) ( ) ( ) { } Q , P D NR Q , R D NQ NR P , R D NP NR NQ NP NR 1 Q P ; R D ⋅ − ⋅ + + ⋅ − + + = + mit NR (NP, NQ) = Zahl der Objekte in Gruppe R (P, Q). Ziel des Ward-Verfahrens ist es somit, die Objekte bzw. Gruppen zu vereinen, die die Streuung (Varianz) möglichst wenig erhöhen. Als Konsequenz bildet der Algorithmus im Ergebnis tendenziell in sich homogene und ähnlich große Cluster (vgl. Raab et al. 2009, S. 251). Das Varianzkriterium (Fehlerquadratsumme), welches als Heterogenitätsmaß verwendet wird, errechnet sich für eine Gruppe g wie folgt: ( ) mit x x V g I 1 i K 1 k 2 kg ikg g = = − = x igk = Beobachtungswert der Variablen k (k = 1, …, K) bei Objekt i (für alle Objekte i = 1, …, I g in Gruppe g), kg x = = g I 1 i ikg g x I 1 = Mittelwert über die Beobachtungswerte der Variablen k in Gruppe g. <?page no="262"?> Verfahren der Klassifikation 263 Zu Beginn des Algorithmus beträgt die Fehlerquadratsumme Null. Pro Gruppierungsschritt erhöht sich die Varianz um die halbe Distanz der neuen Gruppe, sodass die berechneten Distanzen genau der doppelten Zunahme der Fehlerquadratsumme bei Fusionierung zweier Objekte bzw. Gruppen entsprechen (vgl. Backhaus et al. 2015, S. 485). Daraus ergibt sich, dass die Objekte bzw. Gruppen mit der kleinsten Distanz zu einer neuen Gruppe vereint werden, diese kleinste Distanz halbiert und auf die Fehlerquadratsumme aufaddiert wird. Beispiel 6.16: Ausgangssituation ist die endgültige Datenmatrix des Beispiels 6.14. Im Rahmen des Fusionierungsalgorithmus wird stets die kleinste Distanz berücksichtigt. Die anschließende Übersicht verdeutlicht das Ward-Verfahren: 1. Rechenschritt: 075 , 0 2 150 , 0 V 1 = = ( ) ( ) ( ) ( ) ( ) 534 , 0 150 , 0 1 363 , 0 2 513 , 0 2 3 1 4 2 ; 3 D 697 , 0 150 , 0 274 , 1 966 , 0 3 1 150 , 0 1 637 , 0 1 1 483 , 0 1 1 1 1 1 1 4 2 ; 1 D = ⋅ − ⋅ + ⋅ ⋅ = + = − + ⋅ = ⋅ − ⋅ + + ⋅ + + + = + (1) (2,4) (3) (1) (2,4) (3) 0 0,697 0 1,000 0,534 0 2. Rechenschritt: 342 , 0 2 534 , 0 075 , 0 V 2 = + = ( ) ( ) ( ) 889 , 0 534 , 0 697 , 0 3 1 2 4 1 4 2 3 ; 1 D = − ⋅ + ⋅ ⋅ = + + (1) (3,(2,4)) (1) (3,(2,4)) 0 0,889 0 (1) (3,(2,4)) 3. Rechenschritt: 787 , 0 2 889 , 0 342 , 0 V 3 = + = . Abbildung 6.16 zeigt das zugehörige Dendrogramm. <?page no="263"?> 264 Datenanalyse Abb. 6.16: Dendrogramm des Beispiels 6.16 Im Rahmen der Clusterbildung erfolgt der Abbruch des Algorithmus u.a. anhand des Dendrogramms oder alternativ mit Hilfe des Elbow-Kriteriums. Im Beispiel würde man Audi, Opel und VW sinnvollerweise zu einem Cluster zusammenfassen, wohingegen BMW ein eigenes Cluster bilden würde. Partitionierende Verfahren Während bei den hierarchischen Verfahren schrittweise Cluster gebildet werden, wird bei den partitionierenden Verfahren von einer gegebenen oder generierten Startgruppierung ausgegangen, bei der schon eine Einteilung in Cluster vorliegt. Dabei wird durch das schrittweise Verschieben einzelner Objekte von einem Cluster zu einem anderen mit Hilfe eines Austauschalgorithmus versucht, das Optimum einer gegebenen Zielfunktion zu erreichen (vgl. Raab et al. 2009, S. 251). Partitionierende Verfahren vollziehen sich in folgenden Schritten (vgl. Bortz/ Schuster 2010, S. 461): Berechnung der Zentroide der n vorgegebenen Cluster (Clusterzentren aus den jeweils durchschnittlichen Merkmalsausprägungen über alle Merkmale), Überprüfung, ob die Verschiebung eines Objektes in ein anderes Cluster eine verbesserte Aufteilung im Sinn des gewählten Optimierungskriteriums ergibt (z.B. Verringerung der gruppeninternen Varianz), Berechnung der Zentroide nach der Neuzuordnung, Wiederholung dieses Vorganges, bis keine Verbesserung der Aufteilung mehr möglich ist. BMW Audi Opel VW 0,075 0,342 0,787 Fehlerquadratsumme <?page no="264"?> Verfahren der Klassifikation 265 Bei den Optimierungskriterien wird zwischen dem Varianz-, Determinanten- und Spur-Kriterium differenziert, wobei hier nicht näher auf die einzelnen Verfahren eingegangen werden soll (vgl. hierzu im Einzelnen Bortz/ Schuster 2010, S. 574 f.). Neuere Ansätze der Clusteranalyse Im Laufe der Zeit wurde eine Vielzahl neuer Verfahren der Clusteranalyse entwickelt (vgl. z.B. den Überblick in Wedel/ Kamakura 2000). Auf die einzelnen Verfahren kann an dieser Stelle nicht im Detail eingegangen werden, es sollen hier daher nur die wichtigsten Entwicklungen skizziert werden. Latent Class Clusteranalyse (vgl. z.B. Vermunt/ Magidison 2002). Diese auch als Probabilistische Clusteranalyse, Mixture-Likelihood Clustering oder Bayesian Classification bezeichnete Methode beruht auf einem statistischen Modell. Es wird angenommen, dass jedes Objekt genau einem Cluster zuzuorden ist; die Clusterzugehörigkeit ist jedoch nicht deterministisch. Für jedes Objekt und jedes Cluster wird die Wahrscheinlichkeit ermittelt, dass das Objekt einem Cluster angehört. Die Zuordnung eines Objekts zu einem Cluster erfolgt dann abhängig von der Zugehörigkeitswahrscheinlichkeit. Fuzzy Clustering (vgl. z.B. Hruschka 1986) geht davon aus, dass ein Objekt grundsätzlich mehreren Clustern angehören kann. Die Objekte werden hierbei unscharf, d.h. mit einer bestimmten Gewichtung (Zugehörigkeitsgrad), auf die Cluster verteilt. Der Zugehörigkeitsgrad entspricht nicht der Zugehörigkeitswahrscheinlichkeit beim Latent Class Clustering, sondern gibt an, wie stark ein Objekt dem betreffenden Cluster angehört. Ist die Zugehörigkeit 1 bzw. 0, ist das Objekt einem Cluster vollständig bzw. überhaupt nicht zugehörig. 3.3.2 Diskriminanzanalyse Definition Mit Hilfe der Diskriminanzanalyse können Unterschiede zwischen Gruppen von Untersuchungsobjekten analysiert werden. Anhand von relevanten Merkmalen wird die Zugehörigkeit von Untersuchungsobjekten (Personen, Marken usw.) zu Gruppen (Kundengruppen oder Warengruppen) erklärt bzw. prognostiziert. Die Diskriminanzanalyse ist ein strukturprüfendes Verfahren. Während die Clusteranalyse auf Ähnlichkeiten zwischen Objekten beruht, basiert die Diskriminanzanalyse auf Abhängigkeiten einer nominalskalierten Variablen von zwei oder mehr metrisch skalierten unabhängigen Variablen. Methodisch werden die Unterschiede zwischen zwei oder mehr im Vorwege festgelegten Ausprägungen einer nominal skalierten Gruppierungsvariablen (abhängige Variable, y) anhand einer Linearkombination von zwei oder mehr metrisch skalierten Merkmalsvariablen x k (k= 1,…,K) abgebildet (vgl. hierzu Klecka 1980, S. 10 f.). Typische Fragestellungen zur Anwendung der Diskriminanzanalyse sind: Kreditwürdigkeitsprüfungen: In welche Risikoklasse können Kreditnehmer aufgrund von soziographischen Daten eingeordnet werden? Klassifizierung von Warengruppen: Anhand welcher Eigenschaften lassen sich Produkte zu Warengruppen zusammenfassen? <?page no="265"?> 266 Datenanalyse Erfolgsprognosen: Anhand welcher Merkmale lässt sich der Erfolg oder Misserfolg von Marken erklären und prognostizieren? Wähleranalysen: Welchen Wählergruppen (Parteien) lassen sich Wähler aufgrund welcher politischen Einstellungsmerkmale zuordnen? Die Anwendung der Diskriminanzanalyse kann verschiedene Untersuchungsziele haben. Zum einen kann ermittelt werden, aufgrund welcher Merkmalsvariablen Unterschiede zwischen den untersuchten Gruppen auftreten bzw. wie stark die Unterschiede zwischen den Gruppen sind. Zum anderen kann prognostiziert werden, in welche Gruppe neu zu klassifizierende Untersuchungsobjekte aufgrund der Ausprägungen von Merkmalsvariablen einzuordnen sind bzw. wie hoch die Wahrscheinlichkeit der Zuordnung eines Elementes zu einer bestimmten Gruppe ist. Weiterhin kann überprüft werden, ob sich die Gruppen signifikant unterscheiden, und es können diejenigen Variablen identifiziert werden, welche am stärksten zur Erklärung von Gruppenunterschieden beitragen (vgl. Frenzen/ Krafft 2008, S. 611). Die Diskriminanzanalyse vollzieht sich in folgenden Schritten (vgl. Backhaus et al. 2015, S. 219): Definition der Gruppen, Formulieren der Diskriminanzfunktion, Schätzen der Diskriminanzfunktion, Prüfung der Diskriminanzfunktion und der Merkmalsvariablen, Klassifikation neuer Elemente. Die Definition der Gruppen kann durch theoretische Vorüberlegungen oder durch eine vorgeschaltete Analyse wie beispielsweise der Clusteranalyse erfolgen. Es gilt bei der Definition der Gruppen zu bedenken, dass zum einen der zur Verfügung stehende Stichprobenumfang in jeder Gruppe mindestens so groß sein muss wie die Anzahl der untersuchten Variablen. Des Weiteren steigt die Komplexität der Diskriminanzanalyse mit einer steigenden Gruppenzahl. Im Folgenden sollen Rechengang und Interpretation der Diskriminanzanalyse anhand des Mehrgruppenfalls erläutert werden. Die Auswahl der Variablen erfolgt aufgrund sachlogischer Überlegungen hypothetisch. Nach der Schätzung der Diskrimininanzfunktion kann ermittelt werden, wie gut die ausgewählten Variablen geeignet sind, die Unterscheidung der Gruppen zu erklären. Das allgemeine Diskriminanzmodell y hat dieselbe Form wie das allgemeine Modell der multiplen Regressionsanalyse (vgl. Abschnitt 3.4.1). Zur Bestimmung der Diskriminanzfunktion ist diese partiell nach den Diskriminanzkoeffizienten abzuleiten, um ein Mehrgleichungsmodell zu erstellen. Aus diesem lassen sich mit Hilfe der Beobachtungswerte der Variablen x k die Diskriminanzkoeffzienten bestimmen. Das allgemeine Modell der Diskriminanzanalyse lautet wie folgt (vgl. Backhaus et al. 2015, S. 221): K K k k 1 1 x b x b x b a y ⋅ + + ⋅ + + ⋅ + = mit y = Diskriminanzvariable, a = konstantes Glied, b k = Diskriminanzkoeffizient für die Variable x k (k = 1, …, K). <?page no="266"?> Verfahren der Klassifikation 267 Die Unterschiedlichkeit zweier Elemente i und j (i=1,…, I; j=1…, J, z.B. Kunden, Marken etc.) lässt sich anhand der Differenz ihrer Diskriminanzwerte ermitteln. Die Unterschiedlichkeit zweier Gruppen g (Kundengruppen, Markengruppen) wird zunächst anhand der Unterschiedlichkeit der Mittelwerte der Diskriminanzwerte der in der jeweiligen Gruppe enthaltenen Elemente bestimmt (Zentroid). Dieses Maß wird im Laufe der Betrachtungen verfeinert. Der Gruppenmittelwert (Zentroid) g y σ lautet wie folgt (vgl. Backhaus et al. 2015, S. 222): = = σ g I 1 i gi g g y I 1 y mit g y σ = Zentroid von Gruppe g, gi y = Diskriminanzwert von Element i in Gruppe g, g I = Anzahl der Elemente I in Gruppe g. Abb. 6.17: Streuwerte und Diskriminanzachse im 2-Gruppen-2-Variablen-Fall Grafisch kann die Diskriminanzfunktion als eine Gerade dargestellt werden, die sog. Diskriminanzachse. Einzelne Elemente einer Gruppe sowie die Mittelwerte (Zentroide) lassen sich als Punkte auf der Diskriminanzachse lokalisieren. Abbildung 6.17 zeigt ein Beispiel für den einfachsten Fall der Diskriminanzanalyse (Zwei-Gruppen-zwei- Variablen-Fall). Mitglied Gruppe A Mitglied Gruppe B Mittelwert Gruppe A Mittelwert Gruppe B x 1 x 2 20 40 60 20 40 60 80 <?page no="267"?> 268 Datenanalyse Im Rahmen der Schätzung der Diskriminanzfunktion soll diese so geschätzt bzw. die Parameter b k sollen so bestimmt werden, dass die Gruppen g (g = 1,…, G) (in der Grafik die Gruppen A und B) optimal getrennt werden. Es wird also die Diskriminanzachse gesucht, welche die beiden Gruppen möglichst vollständig trennt. Der Zentroid als Maß für den Abstand der Gruppen ist hierbei allerdings nicht geeignet, da die Streuung innerhalb der Gruppen nicht berücksichtigt wird (vgl. Backhaus et al. 2015, S. 223). Das kann zur Konsequenz haben, dass sich Gruppen mit einem großen Abstand der zugehörigen Zentroiden tatsächlich ähnlicher sind als solche mit einem geringen Abstand der Zentroiden. Ein genaueres Kriterium ist das sogenannte Diskriminanzkriterium (vgl. Böhler 2004, S. 216): F treat G 1 g I 1 i 2 g gi G 1 g 2 g g QS QS ) y y ( ) y y ( I g = − − = Γ = = = . Gesucht wird also eine Diskriminanzfunktion, bei der das Verhältnis der Streuung zwischen den Gruppen (QS treat ) zur Streuung innerhalb der Gruppen (QS F ) maximal ist, d.h. die Koeffizienten b k der Diskriminanzfunktion sind so zu wählen, dass das Diskriminanzkriterium maximiert wird: ). ( max k 1 b ,..., b Γ Im Mehrgruppenbzw. Mehrvariablenfall reicht eine Diskriminanzfunktion zur Abbildung der Varianzen nicht aus, es sind also weitere jeweils unkorrelierte Diskriminanzfunktionen zu berechnen, um die Restvarianz zu erfassen. Maximal können in Abhängigkeit von der Anzahl der betrachteten Gruppen G-1 Diskriminanzfunktionen berechnet werden. Die Berechnung erfolgt wie im Zweigruppenfall über die Maximierung des Diskriminanzkriteriums. Der Maximalwert = Max ( ) wird als Eigenwert bezeichnet. Jede weitere Diskriminanzfunktion ist so zu bestimmen, dass sie ein Maximum der nach der Ermittlung der ersten Diskriminanzfunktion verbleibenden Restvarianz erklärt. Um zu ermitteln, wie groß der Erklärungsanteil jeder weiteren Diskriminanzfunktion ist, kann ihr jeweiliger Eigenwert herangezogen werden: l 2 1 l l ... EA γ + + γ + γ γ . Der Eigenwertanteil EA l der l-ten Diskriminanzfunktion (l=1,…,L) wird dabei auf die Summe des durch alle Diskriminanzfunktionen erklärten Eigenwertes bezogen. Der Eigenwertanteil der Diskriminanzfunktionen nimmt schnell ab. So reichen zumeist auch bei einer großen Anzahl von untersuchten Gruppen zwei Diskriminanzfunktionen aus (vgl. Backhaus et al. 2015, S. 237). <?page no="268"?> Verfahren der Klassifikation 269 Zur Schätzung der Diskriminanzfunktion (vgl. Backhaus et al. 2015, S. 274 ff.) wird zunächst eine nicht-normierte Diskriminanzfunktion geschätzt. Die hierbei verwendeten Koeffizienten k seien proportional zu den Diskriminanzkoeffzienten b k und damit optimal im Sinne des Diskriminanzkriteriums: K K k k 1 1 x x x y ⋅ ν + + ⋅ ν + + ⋅ ν = . Nach Einsetzen in das Diskriminanzkriterium erhält man in Matrixschreibweise: W B ′ ′ = mit = Spaltenvektor der nicht-normierten Diskriminanzkoeffizienten v k, B = (K × K)-Matrix für die Streuung der K Variablen zwischen den Gruppen, W = (K × K)-Matrix für die Streuung der K Variablen innerhalb der Gruppen. Die Matrixelemente von B und W lauten: = − − = G 1 g r rg k kg g kr ) x x )( x x ( I B = = − − = G 1 g I 1 i rg rgi kg kgi kr g ) x )(x x (x W mit kgi x = Merkmalsausprägung von Element i in Gruppe g bezüglich Variable k, kg x = Mittelwert von Variable k in Gruppe g, g I = Fallzahl in Gruppe g, G = Anzahl der Gruppen. Durch die Maximierung von mittels vektorieller Differentiation nach erhält man für den Maximalwert von die folgende Bedingung: [ ] . ) ( ) )( ( ) )( ( 2 2 0 W W B W B = ′ ′ − ′ = ν ∂ ∂ Die 0 beschreibt dabei einen Null-Vektor. Nach Division von Zähler und Nenner durch ( ´W ) ergibt sich der Ausdruck: [ ] . 2 0 W W B = ′ − Nach Umformung ergibt sich: 0 W B = − ) ( <?page no="269"?> 270 Datenanalyse Unter der Voraussetzung, dass die Matrix W invertierbar ist, lässt sich weiter umformen in: 0 E A = − ) ( mit . 1 B W A − = Mit E wird dabei die Einheitsmatrix bezeichnet. Die Lösung des obigen Ausdrucks stellt ein klassisches Eigenwertproblem dar. Der größte Eigenwert der Matrix A ist dabei zu ermitteln. Der Vektor der nichtnormierten Diskriminanzkoeffzienten ist ein zugehöriger Eigenwertvektor. Die folgende Normierungsbedingung sagt aus, dass die vereinte Innergruppenvarianz der Diskriminanzwerte der Stichprobe I den Wert 1 erhalten soll: 1 G I 1 = − b´Wb mit G 2 1 I ... I I I + + + = . Die normierten Diskriminanzkoeffizienten erhält man somit durch die Transformation s 1 b = mit . G I 1 s 2 W ' − = Mit s wird dabei die vereinte Innergruppenstandardabweichung der Diskriminanzwerte, die man mit nichtnormierten Diskriminanzkoeffizienten ( ) erhalten würde, bezeichnet. Anhand der Diskriminanzkoeffizienten erhält man das konstante Glied als: = − = K 1 k k k 0 x b b . Die Ermittlung weiterer Diskriminanzfunktionen erfolgt analog, indem der nächstgrößere Eigenwert gesucht wird. Das Rechenverfahren der Diskriminanzanalyse beinhaltet damit eine Hauptkomponentenanalyse der Matrix A. Beispiel 6.17: Ein Waschmittelhersteller steht vor dem Problem der Neueinführung der Marke CLEAN. Auf dem Waschmittelmarkt sind bereits 5 Marken (M 1 bis M 5 ) erhältlich. Von der Marketingabteilung wurden diese in drei Gruppen eingeteilt (hoher, mittlerer und geringer Verkaufserfolg). Aufgrund einer Voruntersuchung wird davon ausgegangen, dass nur die Merkmale Preis und Qualität entscheidend für die Gruppeneinteilung sind. Die Preisklassen der einzelnen Marken wurden aus Paneldaten und die Qualität über ein Rating ermittelt. Marke M1 M2 M3 M4 M5 Erfolg hoch mittel mittel gering gering Preis 1 2 2 2 3 Qualität 3 3 2 1 1 <?page no="270"?> Verfahren der Klassifikation 271 Aus der Ermittlung der Streuung der beiden Merkmalsvariablen in und zwischen den Gruppen lassen sich folgende Ergebnisse berechnen: Diskriminanzfunktion Eigenwert Koeffizient 1 Koeffizient 2 1 9,472 -0,526 0,831 2 0,528 0,825 0,526 Die geschätzten Diskriminanzfunktionen haben die folgende Form: . x 526 , 0 x 825 , 0 yˆ , x 831 , 0 x 526 , 0 yˆ 2 1 2 2 1 1 ⋅ + ⋅ = ⋅ + ⋅ − = Es ist ersichtlich, dass der Eigenwert der zweiten Diskriminanzfunktion bereits deutlich unter dem Eigenwert der ersten Diskriminanzfunktion liegt. Die unten stehende Tabelle zeigt die Diskriminanzwerte der untersuchten Waschmittelmarken. Es ist zu erkennen, dass sämtliche untersuchten Elemente in die richtige Gruppe eingeteilt wurden. Die kritischen Werte der Diskriminanzfunktionen 1G , 2G , also die Diskriminanzwerte, ab welchen ein Element einer bestimmten Gruppe zugeordnet wird, errechnen sich durch das Einsetzen des Gesamtmittelwertes der Merkmalsvariablen Preis und Qualität in die Diskriminanzfunktionen. Dabei bezeichnen g 2 g 1 x , x die Mittelwerte der Ratings bzgl. Variable 1 (Preis) bzw. Variable 2 (Qualität) in den 3 Gruppen (hoher, mittlerer und geringer Erfolg). Die Werte G 2 G 1 x und x sind hingegen die Gesamtmittelwerte der Ratings über alle 3 Gruppen. Fallnummer Tatsächliche Gruppe Vorhergesagte Gruppe Diskriminanzwerte Funktion 1 Funktion 2 1 3 3 2,753 -0,650 2 2 2 1,701 1,051 3 2 2 0,000 0,000 4 1 1 -1,701 -1,051 5 1 1 -2,753 0,650 Für die erste Diskriminanzfunktion ergeben sich die folgenden mittleren Diskriminanzwerte für die einzelnen Gruppen sowie insgesamt: . 598 , 0 2 825 , 0 2 526 , 0 yˆ , 490 , 0 1 825 , 0 5 , 2 526 , 0 yˆ , 011 , 1 5 , 2 825 , 0 2 526 , 0 yˆ , 949 , 1 3 825 , 0 1 526 , 0 yˆ , x 825 , 0 x 526 , 0 yˆ G 1 13 12 11 g 2 g 1 g 1 = ⋅ + ⋅ − = − = ⋅ + ⋅ − = = ⋅ + ⋅ − = = ⋅ + ⋅ − = ⋅ + ⋅ − = <?page no="271"?> 272 Datenanalyse Für die zweite Diskriminanzfunktion resultieren analog: . 714 , 2 2 526 , 0 2 831 , 0 yˆ , 604 , 2 1 526 , 0 5 , 2 831 , 0 yˆ , 977 , 2 5 , 2 526 , 0 2 831 , 0 yˆ , 409 , 2 3 526 , 0 1 831 , 0 yˆ , x 526 , 0 x 831 , 0 yˆ G 2 23 22 21 g 2 g 1 g 2 = ⋅ + ⋅ = = ⋅ + ⋅ = = ⋅ + ⋅ = = ⋅ + ⋅ = ⋅ + ⋅ = Unterstellt man eine annähernd gleiche Verteilung der Merkmalsvariablen innerhalb der Gruppen, entspricht der kritische Diskriminanzwert der Diskriminanzfunktionen jeweils den Diskriminanzwerten der Gesamtmittelwerte der Merkmalsvariablen. Die Prüfung der Ergebnisse erfolgt in zwei Schritten. Zunächst wird die Diskriminanzfunktion an sich überprüft. Im Anschluss lassen sich Aussagen zur Eignung der Variablen machen. Zur Ermittlung der Diskriminanzfunktionen wird das Diskriminanzkriterium maximiert. Dieses entspricht einer Maximierung des Verhältnisses der Streuung zwischen den Gruppen (QS treat ) zur Streuung innerhalb der Gruppen (QS F ). Der Eigenwert als Maximalwert von kann daher als Gütekriterium für die Trennkraft der Diskriminanzfunktion verwendet werden (vgl. Frenzen/ Krafft 2008, S. 619). Zwei Gütemaße sind hierbei von Bedeutung: der kanonische Korrelationskoeffizient und Wilks‘ Lambda. Der kanonische Korrelationskoeffizient c entspricht der Wurzel aus dem Verhältnis der erklärten Streuung zur Gesamtstreuung und ist normiert auf Werte zwischen Null und eins: γ + γ = 1 c . Beispiel 6.18: Im vorangegangenen Beispiel 6.17 ergeben sich für die extrahierten Diskriminanzfunktionen die folgenden Werte für c: . 6065 , 0 528 , 0 1 528 , 0 c 951 , 0 472 , 9 1 472 , 9 1 c 2 1 1 = + = = + = γ + γ = Das gängigste Gütemaß für die Diskriminanzfunktion ist das Wilks‘ Lambda (vgl. Backhaus et al. 2015, S. 240 ff.): γ + = Λ 1 1 . Wilks’ Lambda entspricht dem Verhältnis der nicht erklärten Streuung zur Gesamtstreuung und ist ein inverses Maß: Je kleiner der Wert ist, umso besser ist die Anpassung. <?page no="272"?> Verfahren der Klassifikation 273 Beispiel 6.19: In unserem Beispiel ergeben sich für die extrahierten Diskriminanzfunktionen die folgenden Werte für 1 und 2 : . 654 , 0 528 , 0 1 1 , 095 , 0 472 , 9 1 1 1 1 2 1 1 = + = Λ = + = γ + = Λ Die Werte von 1 und 2 eignen sich für eine Prüfung der einzelnen Diskriminanzfunktionen. Um eine Aussage über die Unterschiedlichkeit der Gruppen treffen zu können, sind die im hier betrachteten Mehrgruppenfall miteinander zu multiplizieren: ∏ = γ + = Λ L 1 l l 1 1 . Mit l wird dabei der Eigenwert der l-ten Diskriminanzfunktion bezeichnet. Beispiel 6.20: Für das Beispiel 6.17 gelangt man zu dem Ergebnis: = 0,095 · 0,654 = 0,0621. Es wird erkennbar, dass die Verwendung beider Diskriminanzfunktionen zu einer leicht verbesserten Trennung der Gruppen führt. Wilks‘ Lambda kann mit Hilfe einer Transformation in eine probabilistische Variable umgewandelt werden, die annähernd 2 -verteilt ist mit K (G-1) Freiheitsgraden (vgl. Backhaus et al. 2015, S. 241 f.). Eine statistische Signifikanzprüfung der Diskriminanzfunktion wird hierdurch möglich. Die folgende Transformation ist anzuwenden: Λ − + − − = χ ln 1 2 G K N 2 bzw. im Mehrgruppenfall ( ) = γ + − + − − = χ L 1 l l 2 1 ln 1 2 G K N mit N = Anzahl der untersuchten Fälle, K = Anzahl der Variablen, G = Anzahl der Gruppen. Beispiel 6.21: In unserem Beispiel werden drei Gruppen auf ihre Unterschiedlichkeit hin untersucht. Die Untersuchungshypothesen sind wie folgt zu formulieren: H 0 = Die untersuchten Gruppen unterscheiden sich nicht signifikant voneinander; H 1 = Mindestens zwei Gruppen unterscheiden sich voneinander. <?page no="273"?> 274 Datenanalyse Für die Durchführung des Hypothesentests ist nun der empirische 2 -Wert zu ermitteln. Wir haben im Beispiel drei Gruppen bestehend aus insgesamt 5 Elementen anhand von 2 Variablen untersucht. Unter Einbeziehung der Eigenwerte ergibt sich der folgende empirische Wert für 2 : ( ) ( ) ( ) . 159 , 4 528 , 0 1 ln 472 , 9 1 ln 1 2 3 2 5 2 − = + + + ⋅ − + − − = χ Dieser Wert ist mit dem theoretischen Wert aus der 2 -Tabelle zu vergleichen. Es soll eine Irrtumswahrscheinlichkeit von 5% angenommen werden. Für 4 Freiheitsgrade ergibt sich aus der Tabelle der folgende theoretische Wert: ( ) ( ) ( ) ( ) ( ) . 49 , 9 4 1 3 2 1 G K 2 95 , 0 2 95 , 0 2 95 , 0 = χ = − ⋅ χ = − ⋅ χ Der Ablehnungsbereich für die Verwerfung der Nullhypothese lautet: ( ) [ [ ∞ − ⋅ ; 1 G K AB 0 H , d.h. der empirische Wert für 2 muss größer sein als der theoretische 2 -Wert, um die Nullhypothese ablehnen zu können. Das ist hier nicht der Fall; dies bedeutet, dass die 5 Waschmittelmarken nicht aufgrund der Merkmalsvariablen Preis und Qualität in Gruppen mit hohem, mittlerem und geringem Erfolg eingeteilt werden können. Bedeutung der Diskriminanzkoeffizienten Die Diskriminanzkoeffizienten geben Aufschluss über den Einfluss der einzelnen Merkmalsvariablen auf die Unterschiedlichkeit der untersuchten Gruppen. Im Beispiel würde die folgende Frage gestellt: Wie wichtig sind die Qualität und der Preis des Produktes für den Erfolg? Um diese jedoch bezogen auf die Wichtigkeit der Variablen vergleichen zu können, sind sie zunächst zu standardisieren, da sie von Skaleneffekten in ihrer Größe beeinflusst werden. Für die Standardisierung der Diskriminanzkoeffizienten benötigt man die Standardabweichung der betreffenden Variablen (vgl. Frenzen/ Krafft 2008, S. 622): k k *k s b b ⋅ = . Der standardisierte Diskriminanzkoeffizient b k* errechnet sich durch Multiplikation des Koeffizienten b k mit der Standardabweichung s k . Für die Berechnung der Standardabweichung der Diskriminanzkoeffizienten kann die Innengruppenvarianz W kk verwendet werden: = = − = G 1 g I 1 i 2 kg kgi kk g ) x x ( W mit W kk = Innengruppenvarianz der Variablen k, x kgi = Wert der Variablen k aus Gruppe G für Element i, kg x = Mittelwert der Variablen k in Gruppe G. <?page no="274"?> Verfahren der Klassifikation 275 Beispiel 6.22: In unserem Beispiel ergeben sich für W kk die folgenden Werte: W 11 = 0,5 und W 22 = 0,5. Daraus kann die Standardabweichung der Variablen s k errechnet werden (I - G ist dabei die Anzahl der Freiheitsgrade): G I W s kk k − = . Für das Beispiel resultieren die folgenden Werte: 5 , 0 3 5 5 , 0 s 1 = − = , 5 , 0 3 5 5 , 0 s 2 = − = . Die standardisierten Diskriminanzkoeffizienten für die erste Diskriminanzfunktion lauten: 2628 , 0 5 , 0 5257 , 0 b * 11 − = ⋅ − = und 4153 , 0 5 , 0 8306 , 0 b *21 = ⋅ = . Die Werte für die zweite Diskriminanzfunktion sind entsprechend: 4125 , 0 5 , 0 8250 , 0 b * 12 = ⋅ = sowie 2628 , 0 5 , 0 5257 , 0 b *22 = ⋅ = . Um zu einer Bewertung der Wichtigkeit der Diskriminanzkoeffzienten über alle Diskriminanzfunktionen zu gelangen, sind die unterschiedlichen Eigenwertanteile l der Diskriminanzfunktionen zu berücksichtigen. Dies geschieht, indem man die standardisierten Koeffizienten b k* der einzelnen Funktionen mit den jeweiligen Eigenwertanteilen l gewichtet und addiert: l L 1 l *kl k b b γ ⋅ = = mit k b = mittlerer Diskriminanzkoeffizient von Merkmalsvariable k. Beispiel 6.23: In unserem Beispiel ergeben sich die folgenden standardisierten Diskriminanzkoeffizienten für den Mehrgruppenfall: <?page no="275"?> 276 Datenanalyse . 075 , 4 5279 , 0 2628 , 0 4721 , 9 4153 , 0 b und 4667 , 0 5279 , 0 4125 , 0 4721 , 9 26285 , 0 b 2 1 = ⋅ + ⋅ = = ⋅ + ⋅ = Das Vorzeichen der standardisierten Diskriminanzkoeffizienten spielt bei ihrer Beurteilung keine Rolle. Es ist ersichtlich, dass in diesem Beispiel der Preis zur Erklärung des Verkaufserfolgs eine deutlich geringere diskriminierende Wirkung hat als die Qualität, d.h. die wahrgenommene Produktqualität spielt als Erfolgsfaktor eine deutlich größere Rolle als der Preis. Klassifikation neuer Elemente Nachdem oben beschrieben wurde, wie die Unterschiedlichkeit von Gruppen aufgrund von Merkmalsvariablen erklärt werden kann, wird nun gezeigt, in welche Gruppe neue Elemente (im Beispiel eine neue Waschmittelmarke) aufgrund der Ausprägung der Variablen zugeordnet werden können. Ein neues Element i wird in diejenige Gruppe g eingeordnet, der es aufgrund seines Diskriminanzwertes am nächsten liegt. Kriterium für die „Nähe“ zu einer Gruppe ist der jeweilige Gruppenmittelwert (Zentroid). Für die Messung der Distanz wird üblicherweise die quadrierte euklidische Distanz gewählt: ( ) = − = L 1 l 2 gl il 2ig y y D mit y il = Diskriminanzwert des Elementes i bzgl. der l-ten Diskriminanzfunktion, gl y = Diskriminanzwert des Gruppenmittelwertes, 2ig D = quadrierte euklidische Distanz des neuen Elements i zum Zentroid von Gruppe G. Beispiel 6.24: Um eine neue Waschmittelmarke einer der drei Gruppen aus unserem Beispiel zuordnen zu können (geringer - mittlerer - hoher Verkaufserfolg) müssen zunächst die Ausprägungen der Variablen Preis und Qualität ermittelt werden. Für die neue Marke liegen die folgenden Werte vor: x 1 (Preis) = 3 und x 2 (Qualität) = 3. Zunächst sind die Diskriminanzwerte y l für die geschätzten Diskriminanzfunktionen zu bestimmen: 89 , 0 3 825 , 0 3 526 , 0 y 1 = ⋅ + ⋅ − = sowie 071 , 4 3 526 , 0 3 831 , 0 y 2 = ⋅ + ⋅ = . Im Anschluss sind die quadrierten euklidischen Distanzen zu den Gruppen- Zentroiden zu ermitteln: <?page no="276"?> Verfahren der Klassifikation 277 Gruppe 1: ( ) ( ) ( ) ( ) 869 , 3 409 , 2 071 , 4 949 , 1 897 , 0 y y y y D 2 2 2 12 2 2 11 1 2 11 = − + − = σ − + σ − = ; Gruppe 2: ( ) ( ) ( ) ( ) 210 , 1 977 , 2 071 , 4 011 , 1 897 , 0 y y y y D 2 2 2 22 2 2 21 1 2 12 = − + − = σ − + σ − = ; Gruppe 3: ( ) ( ) ( ) ( ) ( ) 076 , 4 604 , 2 071 , 4 490 , 0 897 , 0 y y y y D 2 2 2 32 2 2 31 1 2 13 = − + − − = σ − + σ − = . Die Distanz der neuen Waschmittelmarke zu Gruppe 2 (mittlerer Erfolg) ist mit 1,210 am geringsten. Das Element wird daher Gruppe 2 zugeordnet. Varianten der Diskriminanzanalyse Ausgehend von der beschriebenen Grundform der Diskriminanzanalyse lassen sich verschiedene Varianten unterscheiden (vgl. Tab. 6.11). Da eine Darstellung der einzelnen Verfahren den Rahmen dieses Buches sprengen würde, sei hier auf die einschlägige Literatur verwiesen (vgl. insbesondere Jennrich 1977; Klecka 1980; Tatsuoka 1988). Tab. 6.11: Kriterien zur Unterscheidung diskriminanzanalytischer Verfahren (Quelle: Decker/ Temme 2000, S. 310) Unterscheidungskriterium Ausprägungsformen Anzahl der zu untersuchenden Gruppen 2 >2 Skalenniveau der unabhängigen Variablen metrisch nicht metrisch Verteilungsannahme multivariat normalverteilt verteilungsfrei Mathematischer Modellansatz linear nichtlinear Klassifikationskonzepte Distanzkonzept Wahrscheinlichkeitskonzept Klassifikationsvariablen Merkmalsvariablen Diskriminanzvariablen Art der Berücksichtigung der vorhandenen Variablen simultan schrittweise Die Diskriminanzanalyse lässt sich sinnvollerweise mit der Clusteranalyse kombinieren. So ist die Anwendung des strukturentdeckenden Verfahrens der Clusteranalyse geeignet, um Gruppen zu identifizieren, die mit Hilfe der Diskriminanzanalyse näher untersucht werden können. <?page no="277"?> 278 Datenanalyse 3.3.3 Multidimensionale Skalierung Definition Die typische Fragestellung im Rahmen der Multidimensionalen Skalierung (MDS) ist die Beurteilung der Ähnlichkeit von Objekten, z.B. die von Konsumenten subjektiv wahrgenommene Ähnlichkeit von Marken derselben Produktklasse. Die wahrgenommenen Ähnlichkeiten werden in einem metrischen Raum positioniert. Hierzu wird eine Konfiguration (Gesamtheit der Positionen) der Objekte im Wahrnehmungsraum gesucht derart, dass die wahrgenommenen Ähnlichkeiten zwischen den Objekten möglichst genau durch die räumlichen Abstände (Minkowski-Metrik, vgl. Abschnitt 3.3.1) abgebildet werden. Die Objekte sollen demnach so auf die Punkte des Raumes abgebildet werden, dass die Distanz zwischen je zwei Punkten gerade der Ähnlichkeit zwischen den zugehörigen Objekten entspricht. Ein typisches Beispiel für die Anwendung einer MDS ist die Wahrnehmung von Marken derselben Produktklasse durch Konsumenten. Im Rahmen der Ermittlung von Positionierungen können grundsätzlich zwei Wege beschritten werden: Während bei der Faktorenanalyse eine Eigenschaftsbeurteilung der Objekte erfolgt, wobei die relevanten Eigenschaften bekannt sein müssen, erfolgt bei der MDS eine Beurteilung der von den befragten Personen subjektiv wahrgenommenen Ähnlichkeiten zwischen den Objekten (vgl. Borg et al. 2010, S. 7 ff.). Im Vergleich zur Faktorenanalyse sind bei der MDS die relevanten Eigenschaften der zu untersuchenden Objekte (nahezu) unbekannt. Eine Multidimensionale Skalierung vollzieht sich in folgenden Schritten (vgl. Backhaus et al. 2015, S. 355 ff., Wührer 2008, S. 458): Messung der Ähnlichkeiten, Wahl des Distanzmodells, Ermittlung der Konfiguration, Aggregation der Konfiguration, Zahl und Interpretation der Dimensionen. Ausgangssituation einer MDS ist die Messung der subjektiven Wahrnehmung der Ähnlichkeiten von Objekten. Um dieses zu realisieren, müssen Ähnlichkeitsurteile von Personen erfragt werden, indem ein Paarvergleich von Objekten erfolgt. Die wichtigsten Verfahren zur Erhebung von Ähnlichkeitsurteilen sind die Methode der Rangreihung, die Ankerpunktmethode und das Ratingverfahren. Bei der Methode der Rangreihung, dem klassischen Verfahren zur Erhebung von Ähnlichkeitsurteilen, wird eine Auskunftsperson veranlasst, die Objektpaare nach ihrer empfundenen Ähnlichkeit zu ordnen, d.h. die Objektpaare werden nach aufsteigender oder abfallender Ähnlichkeit in eine Rangfolge bzw. -reihe gebracht. Bei i = 1, … I <?page no="278"?> Verfahren der Klassifikation 279 Objekten ergeben sich somit I(I-1)/ 2 Objektpaare. Diese Unterteilung der möglichen Objektpaare erfolgt solange, bis jede Gruppe genau nur ein Objektpaar enthält. Im Gegensatz dazu dient bei der Ankerpunktmethode jedes Objekt genau einmal als Vergleichsobjekt zur Beurteilung der Ähnlichkeiten. Daraus ergeben sich insgesamt bei I Objekten I(I-1) Paarvergleiche, sodass für jeden Ankerpunkt (I-1) Ränge vergeben werden. Je größer die Ähnlichkeit im Rahmen der Paarvergleiche ist, desto kleiner ist der Rang. Beim Ratingverfahren werden alle Objekte mit Hilfe einer Ratingskala bewertet, indem einzelne Objektpaare auf einer Ähnlichkeitsbzw. Unähnlichkeitsskala beurteilt werden. Diese Paarbildung erfolgt wie bei der Rangreihung, jedoch sieht das Ratingverfahren eine isolierte Betrachtung der Paare vor. Da es sich hierbei um symmetrische Konstrukte handelt (die Ähnlichkeit zwischen A und B ist gleich der Ähnlichkeit zwischen B und A), wird jedes Objektpaar nur einmal beurteilt, sodass insgesamt bei I Objekten I(I-1)/ 2 Paare zu beurteilen sind. Der Nachteil dieser Methode besteht jedoch darin, dass sog. Ties (verschiedene Objektpaare erhalten gleiche Ähnlichkeitswerte) auftreten können (vgl. Wührer 2008, S. 443 ff.). Beispiel 6.25: Im Rahmen einer Untersuchung am Frankfurter Hauptbahnhof wurden Manager gebeten, die fünf Hotels in der City bezüglich ihrer Ähnlichkeit zu vergleichen. Dabei wurde eine Ratingskala mit den Ausprägungen von „1 = sehr ähnlich“ bis „10 = sehr unähnlich“ verwendet. Im Mittel über alle befragten Personen ergab sich die folgende symmetrische Datenmatrix: Hotel A Hotel B Hotel C Hotel D Hotel E Hotel A Hotel B 10 Hotel C 9 3 Hotel D 6 7 2 Hotel E 1 8 5 4 Als Startkonfiguration wurde folgende Platzierung der Hotels in einem zweidimensionalen Raum gewählt: x-Achse y-Achse Hotel A 1 3 Hotel B 9 9 Hotel C 10 3 Hotel D 8 1 Hotel E 3 2 <?page no="279"?> 280 Datenanalyse Im zweiten Schritt der MDS erfolgt die Wahl des Distanzmodells. Um die Objekte in einem psychologischen Wahrnehmungsraum abbilden zu können, ist für diese Darstellung ein Distanzmaß notwendig. Bei einem metrischen Skalenniveau beruhen die Ähnlichkeitsmaße auf der allgemeinen Ähnlichkeitsfunktion der Minkowski-Metrik (vgl. Borg et al. 2010, S. 11): r 1 K 1 k r jk ik ij x x d − = = mit d ij = Distanz zwischen Objekt i und Objekt j, x ik = Wert der Variablen k bei Objekt i (k = 1, 2, ... K), x jk = Wert der Variablen k bei Objekt j (k = 1, 2, ... K), r 1 = Minkowski-Konstante. Dabei stellt r eine positive Konstante dar. Für r = 2 resultiert die Euklidische Distanz, für r = 1 die City-Block-Metrik (vgl die Ausführungen in Abschnitt 3.3.1). Nach der Wahl des Distanzmodells schließt sich die Ermittlung der Konfiguration an. Um diese zu erhalten, ist ein iteratives Vorgehen erforderlich. Dabei erfolgt die Bestimmung der ersten willkürlichen Konfiguration, der sogenannten Startkonfiguration, indem in einem möglichst gering dimensionierten Raum eine Konfiguration ermittelt wird, deren dargestellte Distanzen d ij möglichst gut die Monotoniebedingung erfüllen. Die Rangfolge der errechneten Distanzen soll die Rangfolge der Ähnlichkeiten bzw. Unähnlichkeiten u ij widerspiegeln. Eine Gegenüberstellung der ursprünglichen (Un- )Ähnlichkeiten u ij mit den berechneten Distanzen d ij mit Hilfe des Sheparddiagramms (vgl. Abb. 6.18) verdeutlicht, ob ein streng monotoner Verlauf vorliegt. Entsprechen die Rangfolgen von u ij und d ij einander, dann ist die Monotoniebedingung erfüllt. Liegt somit die Bedingung u ij > u pq dann d ij > d pq nicht vor, ist eine Berechnung der Disparitäten erforderlich, um zumindest eine schwach monotone Transformation der Unähnlichkeiten zu erzielen: 2 d d dˆ dˆ pq ij pq ij + = = mit ij dˆ = Disparität, pq ij d , d = Distanz zwischen Objektpaar ij und pq. Beispiel 6.26: Im Rahmen der Situation im Beispiel 6.25 soll überprüft werden, ob die bereits vorhandene Konfiguration die Monotoniebedingung erfüllt. Für die Überprüfung wird die Euklidische Distanz verwendet. <?page no="280"?> Verfahren der Klassifikation 281 Unähnlichkeiten ( ) 2 1 2 2 B , A 9 3 9 1 d − + − = = 10,00 10 ( ) 2 1 2 2 C , A 3 3 10 1 d − + − = = 9,00 9 ( ) 2 1 2 2 D , A 1 3 8 1 d − + − = = 7,28 6 ( ) 2 1 2 2 E , A 2 3 3 1 d − + − = = 2,24 1 ( ) 2 1 2 2 C , B 3 9 10 9 d − + − = = 6,08 3 ( ) 2 1 2 2 D , B 1 9 8 9 d − + − = = 8,06 7 ( ) 2 1 2 2 E , B 2 9 3 9 d − + − = = 9,22 8 ( ) 2 1 2 2 D , C 1 3 8 10 d − + − = = 2,83 2 ( ) 2 1 2 2 E , C 2 3 3 10 d − + − = = 7,07 5 ( ) 2 1 2 2 E , D 2 1 3 8 d − + − = = 5,10 4 Bei den Unähnlichkeiten handelt es sich um die Ergebnisse aus der Managerbefragung aus Beispiel 6.25. Sie werden den Ähnlichkeitsmaßen gegenübergestellt, um die Einhaltung der Monotoniebedingung zu ermitteln. Die Monotoniebedingung ist hier nicht erfüllt, da zum einen die Distanz zwischen den Hotels B und C größer ist als bei den Hotels D und E und zum anderen auch die Distanz zwischen den Hotels B und E größer ist als bei den Hotels A und C. Um zumindest die schwache Monotoniebedingung zu erfüllen, müssen die Disparitäten ermittelt werden. Aus Abb. 6.18 ist die notwendige Transformation für die Erfüllung der schwachen Monotonie zu entnehmen. Anhand des Shepard-Diagramms ist optisch erkennbar, ob die Monotoniebedingung erfüllt ist. Rechnerisch erfolgt die Beurteilung der Güte der Konfiguration mit Hilfe des Stress-Maßes nach Kruskal als Qualitätsmaß. Am gebräuchlichsten ist dabei folgende Variante (vgl. Wührer 2008, S. 316): ( ) − = j 2ij i j 2 ij ij i d dˆ d 1 STRESS . <?page no="281"?> 282 Datenanalyse Abb. 6.18: Beispiel eines Shepard-Diagramms mit willkürlicher Startkonfiguration und Transformation Das Stress-Maß misst, wie gut bzw. wie schlecht eine Konfiguration die Monotoniebedingung erfüllt. Eine exakte Anpassung liegt dann vor, wenn das Stress-Maß gleich Null ist. Disparitäten müssen in diesem Fall nicht errechnet werden. Bei dem Ergebnis würde die willkürliche Startkonfiguration die Bedingung eines streng monotonen Verlaufs erfüllen. Allgemein gilt: Je kleiner das Stress-Maß ist, desto besser ist die Konfiguration. Beispiel 6.27: In unserem Beispiel lässt sich der STRESS1-Wert folgendermaßen errechnen: u ij Objektpaare d ij ij dˆ ( ) 2 ij ij dˆ d − d ij ² 1 A,E 2,24 2,24 0,00 5,02 2 C,D 2,83 2,83 0,00 8,01 3 B,C 6,08 5,59 0,24 36,97 4 D,E 5,10 5,59 0,24 26,01 5 C,E 7,07 7,07 0,00 49,98 6 A,D 7,28 7,28 0,00 53,00 7 B,D 8,06 8,06 0,00 64,96 8 B,E 9,22 9,11 0,01 85,01 9 A,C 9,00 9,11 0,01 81,00 10 A,B 10,00 10,00 0,00 100,00 Σ - - - 0,50 509,96 03 , 0 96 , 509 50 , 0 1 STRESS = = Der geringe Wert für STRESS1 zeigt, dass die Konfiguration in diesem Beispiel bereits sehr gut ist. <?page no="282"?> Verfahren der Klassifikation 283 Die jeweils ermittelte Konfiguration wird iterativ solange verbessert, bis der STRESS1 einen vorgegebenen Grenzwert unter- oder eine vorgegebene Zahl von Iterationen überschreitet. Im vierten Schritt der MDS erfolgt die Aggregation der Konfigurationen. Die bisherige Darstellung der MDS galt bisher nur für eine Person. Dies entspricht der individuellen, klassischen MDS. Im Marketing ist jedoch meist der subjektive Wahrnehmungsraum einer Gruppe von Personen (Zielgruppe) relevant. Voraussetzung dafür sind homogene Personengruppen. Sollte dies nicht von vornherein gegeben sein, könnten diese beispielsweise durch eine Clusteranalyse ermittelt werden. Um den Wahrnehmungsraum von Gruppen zu ermitteln, bieten sich unterschiedliche Möglichkeiten zur Lösung des Aggregationsproblems an, auf die hier nicht näher eingegangen wird (vgl. hierzu z.B. Hair et al. 2010, S. 575 f.). Im fünften Schritt des Verfahrens werden die Zahl und Interpretation der Dimensionen berücksichtigt. Dabei wird die Anzahl der Dimensionen vom Marktforscher festgelegt. Eigentlich sollte die Zahl der „wahren“ Dimensionalität der Wahrnehmung entsprechen. Da diese jedoch zumeist unbekannt ist, stellt sie ein Problem dar. Aus praktischen Gründen wird deshalb mit zwei bis drei Dimensionen gearbeitet. Das hängt mit der grafischen Darstellbarkeit, Anschaulichkeit und Interpretierbarkeit der Ergebnisse zusammen. Die Darstellung von Objekten im Wahrnehmungsraum liefert Erkenntnisse darüber, in welcher Weise Objekte relativ zu konkurrierenden Objekten wahrgenommen werden, welche Objekte ähnlich wahrgenommen werden und somit in einer engen Konkurrenz zu einander stehen und inwiefern eventuell Marktlücken für neue Objekte bestehen. Im Gegensatz zur Faktorenanalyse, bei der die Faktoren frühzeitig inhaltlich interpretiert werden, erfolgt die Interpretation der Konfiguration hier erst nach dem MDS- Algorithmus. Die inhaltlichen Bezeichnungen der Dimensionen der Konfiguration werden bei der MDS aus der Lage der Objekte im Objektraum abgeleitet. Damit sind die fünf Schritte der MDS abgeschlossen. Sämtliche Standard-Statistikpakete wie SPSS, SAS oder R enthalten MDS-Module. Zudem existieren spezifische MDS-Programme für fortgeschrittene Anwenderansprüche. Einen Überblick liefern z.B. Borg et al. 2010. Messung von Präferenzen mittels Multidimensionaler Skalierung Bei der Ermittlung der Ähnlichkeitsdaten bleibt unberücksichtigt, ob die Auskunftsperson ein Objekt als positiv oder negativ bewertet. Will man den Nutzen, d.h. die Präferenz, die eine Person mit dem Objekt verbindet, in eine Untersuchung einbeziehen, so ist eine zusätzliche Datenerhebung durchzuführen, sofern diese zusätzlichen Präferenzen einer Person bezüglich der Objekte nicht vorliegen. Mit diesen Informationen kann die MDS erweitert werden. Dadurch ist es möglich, in den Wahrnehmungsraum neben den Objekten auch die Präferenzen von Personen einzubeziehen. Grundsätzlich existieren zwei Möglichkeiten, die Präferenzen im Rahmen der MDS zu berücksichtigen (vgl. Hair et al. 2010, S. 591 f.): <?page no="283"?> 284 Datenanalyse das Idealpunktmodell und das Idealvektormodell. Der Idealpunkt einer Person repräsentiert ein hypothetisches Objekt, das die am meisten präferierte Position im Wahrnehmungsraum einnimmt. Eine sinnvolle Anwendung des Idealpunktmodells ist immer dann gegeben, wenn eine ideale Ausprägung hinsichtlich der Beurteilungsdimension besteht, bei deren Über- oder Unterschreiten ein Nutzenabfall eintritt. Die rechnerische Ermittlung des Idealpunktes wird mit Hilfe einer modifizierten Präferenzregression durchgeführt (vgl. z.B. Carroll 1972): = + ⋅ + ⋅ + = R 1 r i 1 R ri r i q b x b a y mit q i = ( ) I ,..., 1 i x R 1 r 2 ri = = y i = ermittelter Präferenzwert einer Person bezüglich Objekt i, x ri = Koordinate von Objekt i auf Dimension r (r = 1,…,R), a, b r = zu schätzende Parameter, q i = Dummy-Variable q, deren Wert sich aus der Summe der quadrierten Koordinaten eines Objektes i (i = 1,…,I) ergeben. Abb. 6.19: Beispiel eines Idealpunktmodells Nutzenmaximum Isopräferenzlinien Idealpunkt Nutzen (Präferenz) Marke A Marke B Marke C Marke D x 1 x 2 <?page no="284"?> Verfahren der Klassifikation 285 Daraus lassen sich die Koordinaten des Idealpunktes mit Hilfe folgender Formel errechnen: ( ) R ,..., 1 r b 2 b x 1 R r * r = − = + . Abbildung 6.19 zeigt ein Beispiel für ein Idealpunktmodell mit Idealpunkt, Nutzenmaximum und Isopräferenzlinien. Das Idealvektormodell (vgl. Abb. 6.20) geht von einer Präferenzfunktion aus, für die gilt: „Je mehr, desto besser.“ Es gibt keinen Idealpunkt, sondern nur eine Richtung (Vektor), die die größtmögliche Nutzenstiftung in allen Dimensionen anzeigt. Die Isopräferenzlinien sind dabei Orte gleichen Nutzens. Sinnvoll ist die Anwendung dieses Modells, wenn ein „Mehr“ an Ausprägungen in den Beurteilungsdimensionen immer ein „Mehr“ an Nutzen erzeugt. Die Berechnung des Idealvektors erfolgt mit Hilfe der Regressionsanalyse, der das folgende Grundmodell zugrunde liegt: ( ) I ,..., 1 i x b a y R 1 r ri r i = ⋅ + = = . Beim Einzeichnen des Präferenzvektors in den Objektraum ist zu beachten, dass bei den Koeffizienten der Regressionsanalyse die Vorzeichen zu ändern sind, da es sich bei den Präferenzdaten um Rangdaten handelt, bei denen der niedrigste Wert die höchste Präferenz bedeutet. Die Steigung des Präferenzvektors ergibt sich somit aus dem Punkt 1 (0; 0), der durch den Ursprung läuft, und dem Punkt 2 (-b 1 ; -b 2 ), sodass die Steigung des Präferenzvektors b 2 / b 1 beträgt. Abb. 6.20: Beispiel eines Idealvektormodells x 1 x 2 Marke A Marke D Marke B Marke C <?page no="285"?> 286 Datenanalyse Beispiel 6.28: Bei der externen Präferenzanalyse ordneten Manager auf dem Frankfurter Flughafen die in Beispiel 6.25 genannten Hotels im Mittel wie folgt: Hotel Präferenz A 1 B 5 C 4 D 3 E 2 Idealpunktmodell: Aus der allgemeinen Formel des Idealpunktmodells ergibt sich für dieses zweidimensionale Beispiel folgende Formel: ( ) 22 2 1 3 2 2 1 1 i x x b x b x b a y + + + + = Die Normalgleichungen des Idealpunktmodells lauten: A 10 b 3 b 1 b a 1 3 2 1 ⋅ + ⋅ + ⋅ + = E 13 b 2 b 3 b a 2 3 2 1 ⋅ + ⋅ + ⋅ + = D 65 b 1 b 8 b a 3 3 2 1 ⋅ + ⋅ + ⋅ + = C 109 b 3 b 10 b a 4 3 2 1 ⋅ + ⋅ + ⋅ + = B 162 b 9 b 9 b a 5 3 2 1 ⋅ + ⋅ + ⋅ + = . Idealvektormodell: Aus der allgemeinen Formel des Idealvektormodells ergibt sich folgende Formel: 2 2 1 1 i x b x b a y + + = . Die Normalgleichungen des Idealvektormodells lauten: A 3 b 1 b a 1 2 1 ⋅ + ⋅ + = E 2 b 3 b a 2 2 1 ⋅ + ⋅ + = D 1 b 8 b a 3 2 1 ⋅ + ⋅ + = C 3 b 10 b a 4 2 1 ⋅ + ⋅ + = B 9 b 9 b a 5 2 1 ⋅ + ⋅ + = . Um die Interpretation der Dimensionen zu erleichtern, dreht man gewöhnlich die Achsen, damit auf analytischem Weg eine möglichst gute Einfachstruktur hergestellt wird. In diesem Zusammenhang wird von einer Varimax-Rotation gesprochen, wenn die Achsen senkrecht (rechtwinklig) aufeinander bleiben. Hierbei handelt es sich um Methoden der orthogonalen Rotation. Im Idealfall bewirkt diese Drehung eine sogenann- <?page no="286"?> Verfahren zur Messung von Beziehungen 287 te Einfachstruktur, d.h. die Objekte befinden sich entlang der Achsen. Es ist erwiesen, dass durch die Drehung des Koordinatenkreuzes im Ursprung die Aussagekraft einer Hauptachsenanalyse nicht verändert wird. Bei schiefwinkligen (obliquen) Rotationen hingegen wird die Unabhängigkeitsprämisse der Faktoren im statistischen Sinne aufgegeben. Dann wird eine (erneute) Faktorenanalyse notwendig, wobei empirische Untersuchungen gezeigt haben, dass die Ergebnisse meist nicht mehr interpretierbar sind (vgl. Bortz/ Schuster 2010, S. 418 f.). Eine andere Möglichkeit bei der Interpretation der Konfiguration ist das Property Fitting. Hierbei handelt es sich um eine Kombination von MDS und Faktorenanalyse, bei der die Eigenschaftsausprägungen bzw. -beurteilungen nachträglich in den Wahrnehmungsraum mit einbezogen werden. Der Objektraum enthält also zusätzlich Vektoren wie bei der Faktorenanalyse (vgl. ausführlich Hilbert/ Opitz 1997). 3.4 Verfahren zur Messung von Beziehungen Verfahren zur Messung von Beziehungen versuchen, Zusammenhänge zwischen den betrachteten Variablen aufzudecken. Verfahren der Dependenzanalyse messen die Abhängigkeit einer oder mehrerer abhängiger Variablen von einer oder mehreren unabhängigen Variablen. Insofern kann die oben beschriebene Diskriminanzanalyse auch den Verfahren der Depenzenzanalyse zugeordnet werden (bei einer nominalskalierten abhängigen Variablen und zwei oder mehr metrisch skalierten unabhängigen Variablen). Weitere gebräuchliche Verfahren sind: Regressionsanalyse (bei metrisch skalierten abhängigen und unabhängigen Variablen), Kausalanalyse (bei metrisch skalierten abhängigen und unabhängigen Variablen) sowie Varianzanalyse (bei einer metrisch skalierten abhängigen Variablen und einer oder mehreren nominalskalierten unabhängigen Variablen). Verfahren der Interdependenzanalyse untersuchen die wechselseitigen Beziehungen zwischen Variablen. Zwar beruhen auch die Clusteranalyse, die Faktorenanalyse, die Multidimensionale Skalierung und die Conjoint-Analyse auf Interdependenzen zwischen Variablen, da die typischen Fragestellungen dieser Verfahren jedoch nicht vorrangig auf die Untersuchung wechselseitiger Beziehungen i.e.S. ausgerichtet sind, werden an dieser Stelle nur die Kontingenzanalyse und die Korrelationsanalyse als „typische“ Verfahren der Interdependenzanalyse dargestellt. 3.4.1 Regressionsanalyse Definition Mit Hilfe der Regressionsanalyse werden Art und Richtung des Zusammenhangs zwischen metrisch skalierten Variablen untersucht, d.h. es wird die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen analysiert. <?page no="287"?> 288 Datenanalyse Die Regressionsanalyse stellt eines der in den Sozialwissenschaften am häufigsten angewendeten Verfahren dar. Typische Fragestellung im Marketing ist z.B. die Untersuchung, wie sich die Absatzmenge verändert, wenn eine oder mehrere Marketingvariablen (Preishöhe, Werbebudget) variiert werden. Insofern können mit Hilfe der Regressionsanalyse nicht nur Zusammenhänge aufgedeckt, sondern auch (Wirkungs-)Prognosen erstellt werden. Eine Regressionsanalyse vollzieht sich in folgenden Schritten: Formulierung des Regressionsmodells, Schätzung der Regressionsfunktion, Prüfung der Regressionsfunktion und der Regressionskoeffizienten, Prüfung der Modellannahmen. Lineare Regressionsanalyse Am häufigsten wird das lineare Regressionsmodell zugrunde gelegt, das in allgemeiner Form folgendermaßen lautet: K K k k 1 1 x b x b x b a y ⋅ + + ⋅ + + ⋅ + = mit y = abhängige Variable, a = Konstante der Regressionsfunktion, b k = Regressionskoeffizienten (k = 1, …, K), x k = unabhängige Variablen. Abb. 6.21: Ausgangssituation der einfachen linearen Regressionsanalyse Bezeichnet man mit i den Wert der Regressionsfunktion, der aus den Werten x 1i , …, x Ki der unabhängigen Variablen resultiert, so erhält man die gesuchten Regressionskoeffizienten dadurch, dass die Summe der quadrierten Abweichungen zwischen den x y x bˆ aˆ y ˆ ⋅ + = y i i x i e i <?page no="288"?> Verfahren zur Messung von Beziehungen 289 Werten der Regressionsfunktion i und den zugehörigen Beobachtungswerten y i minimiert wird: ( ) ( ) min! x b x b a y yˆ y Z i 2 Ki K i 1 1 i n 1 i 2 i i → ⋅ − − ⋅ − − = − = = Speziell im Modell der einfachen linearen Regressionsanalyse wird die lineare Abhängigkeit zwischen einer metrischen abhängigen Variablen und einer metrischen unabhängigen Variablen untersucht, z.B. die Abhängigkeit der Absatzmenge vom Produktpreis. Das Grundmodell der linearen Einfachregression lautet: y = a + b ⋅ x mit y = abhängige Variable, x = unabhängige Variable, a, b = Regressionskoeffizienten (Ordinatenabschnitt und Steigung der Funktion). Abbildung 6.21 zeigt die Ausgangssituation einer linearen Einfachregression. Gegeben sind n Wertpaare (x i , y i ) aus der Stichprobe, die sich um die - noch unbekannte - Regressionsgerade scharen: x bˆ aˆ yˆ ⋅ + = ; für die einzelnen Werte auf der Regressionsgerade gilt entsprechend: i i x bˆ aˆ yˆ ⋅ + = . Die Regressionskoeffizienten a und b sind so zu bestimmen, dass die resultierende Regressionsfunktion „möglichst gut“ die empirischen Beobachtungswerte repräsentiert; konkret wird diejenige Gerade gesucht, für die die Summe der quadrierten Abweichungen der durch die Regressionsgleichung vorhergesagten i -Werte von den beobachteten y i -Werten, e i, minimal wird (Methode der kleinsten Quadrate). Zur analytischen Herleitung der Regressionsgleichung ist die folgende Zielfunktion zu minimieren (vgl. Bortz/ Schuster 2010, S. 187): ( ) ( ) ! Min x bˆ aˆ y yˆ y e Z i 2 i i i 2 i i n 1 i 2i → ⋅ − − = − = = = Hierzu werden die ersten partiellen Ableitungen nach aˆ und bˆ gebildet und gleich Null gesetzt: 0 aˆ n 2 x bˆ 2 y 2 aˆ Z n 1 i i n 1 i i = ⋅ ⋅ + ⋅ + − = ∂ ∂ = = 0 x aˆ 2 x bˆ 2 y x 2 bˆ Z n 1 i i n 1 i 2i n 1 i i i = ⋅ + ⋅ + ⋅ − = ∂ ∂ = = = . <?page no="289"?> 290 Datenanalyse Die Lösung des Gleichungssystems führt zu folgenden Parameterwerten: ( )( ) ( ) . y n 1 y , x n 1 x mit x x y y x x bˆ x bˆ y aˆ i i i i i 2 i i i i = = − − − = ⋅ − = Beispiel 6.29: Ein Markenartikelhersteller für Babyshampoo vermutet einen Zusammenhang zwischen der Höhe des Preises und den Absatzzahlen. Zur Schätzung dieses Modells sind ihm von den Handelsreisenden die Verkaufszahlen und die Preise von 2012- 2016 in den Supermärkten bekannt: Jahr Preis p i Absatzmenge x i p p i − x x i − ( ) 2 i p p − ( ) ⋅ − p p i ( ) x x i − 2012 1,00 40 -1 20 1 -20 2013 2,00 20 0 0 0 0 2014 2,00 20 0 0 0 0 2015 2,00 10 0 -10 0 0 2016 3,00 10 1 -10 1 -10 Σ 10,00 100 0 0 2 -30 Zu bestimmen ist folgende Regressionsgerade: p b a x ⋅ + = . Zur Bestimmung der Regressionsgerade werden errechnet: = 2 x =20 ( ) = − i i 0 x x ( ) = − i i 0 p p <?page no="290"?> Verfahren zur Messung von Beziehungen 291 ( ) 2 p p i 2 i = − ( ) ( ) 30 x x p p i i i − = − − Daraus erhält man: bˆ = -15 und aˆ = 50 Die gesuchte Regressionsgerade lautet somit: x = 50 - 15p. Auf der Basis der geschätzten Regressionsgerade kann bei einem beliebigen Preis p i die zu erwartende Absatzmenge x i geschätzt werden. Wird beispielsweise ein Preis von € 1,49 erwogen, so erhält man durch Einsetzen in die Regressionsgleichung folgenden Schätzwert für die Absatzmenge: x = 27,65 = 27. Die Güte der Anpassung der Regressionsfunktion an die empirischen Werte kann mit Hilfe des Bestimmtheitsmaßes r 2 gemessen werden: ( ) ( ) − − = i 2 i i 2 i 2 y y y yˆ r Das Bestimmtheitsmaß gibt an, welcher Anteil der Streuung der Beobachtungswerte durch die Regressionsgerade erklärt wird. Der Wertebereich des Bestimmtheitsmaßes liegt zwischen 0 und 1, wobei für r 2 = 0 überhaupt keine, für r 2 = 1 eine vollständige Erklärung der Streuung der empirischen Werte durch die Regressionsgerade erfolgt. Im Beispiel resultiert das Bestimmtheitsmaß als r 2 = 0,75. Die Höhe des Bestimmtheitsmaßes wird durch die Zahl der unabhängigen Variablen beeinflusst; um diesen Effekt auszuschalten, wird das korrigierte Bestimmtheitsmaß folgendermaßen errechnet: ( ) 1 K n r 1 K r r 2 2 2 korr − − − − = mit K = Zahl der unabhängigen Variablen, n = Zahl der Beobachtungen, n-K-1 = Zahl der Freiheitsgrade. <?page no="291"?> 292 Datenanalyse Werden mehrere unabhängige Variablen herangezogen, so kann das multiple Regressionsmodell K K 1 1 x b x b a y ⋅ + + ⋅ + = mit Hilfe der Matrizenrechnung parametrisiert werden (vgl. Bortz/ Schuster 2010, S. 360). Die K unabhängigen Variablen werden um eine weitere Variable K + 1 ergänzt, auf der alle n Beobachtungswerte den Wert 1 erhalten. Damit entspricht der Parameter b K+1 dem konstanten Glied a, d.h. b K+1 ist ein n-Vektor, der n-Mal das konstante Glied enthält. Die Regressionsgleichung lautet dann: 1 K 1 K K K 1 1 x b x b x b y + + + + + = . Das Regressionsmodell lautet in Matrixschreibweise: y = Xb mit y = n-Vektor der Beobachtungswerte der abhängigen Variablen, b = K-Vektor der Regressionskoeffizienten, X = n × K-Matrix der Beobachtungswerte der K unabhängigen Variablen. Auch hier werden die Parameter der Regressionsfunktion so bestimmt, dass: ! Min e 2i n 1 i → = Daraus folgt: ( ) ( ) yˆ y ' yˆ e Z y 2i n 1 i − − = = = = e e' ( ) ( ) ! Min 2 ' → − + = = − − = y X' b' Xb X' b' y y' Xb y Xb y Ableitung nach dem Vektor b und Nullsetzen führt zu ( ) 0 y X' Xb X' b e e' = − = 2 2 d d Hieraus folgt: ( ) ( ) ( ) ( ) . 1 1 1 y X' X X' b y X' X X' b X X' X X' y X' Xb X' − − − = = = <?page no="292"?> Verfahren zur Messung von Beziehungen 293 Beispiel 6.30: Von einem Forschungsinstitut kauft der Markenartikelhersteller aus Beispiel 6.29 für den beobachteten Zeitraum Daten über die Qualität des Babyshampoos, die über eine Rating-Skala (1 = sehr schlecht bis 5 = sehr gut) erhoben wurden. Folgende Wertetabelle wird der Berechnung zugrunde gelegt: Jahr 2012 2013 2014 2015 2016 Preis 1 2 2 2 3 Absatzmenge 40 20 20 10 10 Qualität 3 3 2 1 1 Die Matrix (X’X) -1 resultiert als ( ) − − − − = − 5 , 0 5 , 0 2 5 , 0 1 3 2 3 2 , 10 1 X X' . Damit ergibt sich b als ( ) y X' X X' b 1 − = bzw. − = ⋅ ⋅ − − − − = 5 10 30 10 10 20 20 40 1 1 2 3 3 3 2 2 2 1 1 1 1 1 1 5 , 0 5 , 0 2 5 , 0 1 3 2 3 2 , 10 b Das Bestimmtheitsmaß errechnet sich aus folgender Formel: ( ) ( ) − − = i 2 i i 2 i 2 y y y yˆ r Hierzu muss zunächst der Schätzwert berechnet werden: bˆ x yˆ ⋅ = . = − ⋅ = 5 15 20 25 35 5 10 30 1 3 1 1 2 1 2 2 1 3 2 1 3 1 1 yˆ , 20 y = Die erklärte Streuung beträgt ( ) ( ) ( ) ( ) ( ) ( ) 500 20 5 20 15 20 20 20 25 20 35 y yˆ 2 2 2 2 2 i 2 i = − + − + − + − + − = − <?page no="293"?> 294 Datenanalyse und die Gesamtstreuung: ( ) ( ) ( ) ( ) ( ) ( ) 600 20 10 20 10 20 20 20 20 20 40 y y 2 2 2 2 2 i 2 i = − + − + − + − + − = − . Daraus resultiert das Bestimmtheitsmaß als: 83 , 0 600 500 r 2 = = . Das bedeutet, dass 83% der Streuung der y-Werte durch das Modell erfasst werden. Wird eine Regressionsanalyse auf der Basis mehrerer unabhängiger Variablen durchgeführt, so stellt sich häufig zusätzlich die Frage nach dem relativen Einfluss der einzelnen Variablen. Hierzu müssen die Regressionskoeffizienten k bˆ standardisiert werden, da die absolute Höhe der Regressionskoeffizienten von der Dimension beeinflusst wird, in der die Variablen x k gemessen werden (vgl. Skiera/ Albers 2008, S. 475). Die standardisierten beta-Koeffizienten errechnen sich wie folgt: y x k k s s bˆ beta k ⋅ = für alle k mit k x s = Standardabweichung der unabhängigen Variablen x k , s y = Standardabweichung der abhängigen Variablen y. Die Höhe der beta-Koeffizienten zeigt, wie stark der Einfluss der einzelnen unabhängigen Variablen auf die abhängige Variable ist, wohingegen die unstandardisierten Regressionskoeffizienten k bˆ den marginalen Effekt der Änderung der zugehörigen unabhängigen Variablen widerspiegeln. Die Heranziehung von beta-Werten ist allerdings bei Vorhandensein von Multikollinearität (Korrelation zwischen den unabhängigen Variablen) wenig aussagekräftig. Statistische Absicherung In der Regel werden Regressionsmodelle auf der Grundlage einer repräsentativen Stichprobe ermittelt. Damit die Regressionsgleichung aus der Stichprobe auf die Grundgesamtheit übertragen werden kann, müssen zum einen die Regressionsfunktion als Ganzes wie auch die einzelnen Regressionskoeffizienten geprüft werden; zum anderen muss überprüft werden, ob die Annahmen des Regressionsmodells im vorliegenden Fall erfüllt sind. Zunächst ist zu beachten, dass die geschätzte Regressionsfunktion K K 1 1 x bˆ x bˆ aˆ yˆ ⋅ + + ⋅ + = als Realisation einer „wahren“, aber unbekannten Regressionsfunktion u x x x y K K 2 2 1 1 + ⋅ β + + ⋅ β + ⋅ β + α = angesehen werden kann, mit <?page no="294"?> Verfahren zur Messung von Beziehungen 295 y = abhängige Variable, x k = unabhängige Variablen (k = 1, … K), α = Konstante der „wahren“ Regressionsfunktion, β k = Regressionskoeffizienten, u = Störgröße. Die Regressionsfunktion als Ganzes kann mit Hilfe des F-Tests überprüft werden (vgl. ausführlich Backhaus et al. 2015, S. 87 ff.). Besteht zwischen der abhängigen Variablen y und den unabhängigen Variablen x k ein kausaler Zusammenhang, so dürfen die Regressionskoeffizienten nicht alle Null sein. Die zugehörige Nullhypothese lautet demnach: . 0 : H K 2 1 0 = β = = β = β = α Der empirische F-Wert berechnet sich als ( ) ( ) ( ) = = − − − − = n 1 i 2 i n 1 i 2 i emp 1 K n / yˆ y K / y yˆ F . Zu vergleichen ist der empirische F-Wert mit dem theoretischen F-Wert (F th ) bei K Freiheitsgraden im Zähler, (n - K - 1) Freiheitsgraden im Nenner und einem vorgegebenen Signifikanzniveau α . Ist F emp > F th , so ist die Nullhypothese zu verwerfen, d.h. nicht alle Regressionskoeffizienten β k sind Null, der postulierte Zusammenhang gilt damit als statistisch signifikant. Bei Signifikanz der Regressionsfunktion können die einzelnen Regressionskoeffizienten mit Hilfe des t-Tests geprüft werden. Die Nullhypothese lautet: 0 : H k o = β . Der empirische t-Wert berechnet sich als k b k emp S b t = wobei S bk den Standardfehler von b k bezeichnet. Ist der empirische t-Wert (Absolutbetrag) größer als der theoretische t-Wert bei einem Signifikanzniveau α und n - K - 1 Freiheitsgraden (zweiseitige Fragestellung), ist die Nullhypothese zu verwerfen. Beispiel 6.31 Im Beispiel 6.30 resultiert ein empirischer F-Wert von 5. Bei einem Signifikanzniveau α von 0,05 und je 2 Freiheitsgraden im Zähler und im Nenner beträgt der theoretische F-Wert 19. Damit ist die Nullhypothese beizubehalten, d.h. der ermittelte Zusammenhang ist statistisch nicht signifikant. Für die einzelnen empirischen t-Werte (t emp ) wird errechnet: t emp = 1,32; <?page no="295"?> 296 Datenanalyse t emp 1 = 1,41; t emp 2 = 1,00. Diese Werte werden mit dem theoretischen Wert der t-Verteilung bei 2 Freiheitsgraden und α = 0,05 (zweiseitige Fragestellung) verglichen. Der theoretische t-Wert beträgt t (0,05; 2) = 4,303, d.h. H 0 wird abgelehnt, wenn t emp > 4,303 oder t emp < -4,303. Damit wird auch bzgl. der Koeffizienten die Nullhypothese beibehalten. Darüber hinaus können für die wahren, aber unbekannten Regressionskoeffizienten β k Konfidenzintervalle angegeben werden. Diese geben an, in welchem Bereich um b k der „wahre Wert“ des Regressionskoeffizienten β k mit einer vorzugebenden Wahrscheinlichkeit liegt. Die Übertragung der Stichprobenergebnisse auf die Grundgesamtheit und insb. die inferenzstatistische Absicherung sind nicht zulässig, wenn die Prämissen des Regressionsmodells verletzt werden. Im Einzelnen handelt es sich um folgende Annahmen (vgl. Skiera/ Albers 2008, S. 478 ff.: Annahmen hinsichtlich der Störvariablen: Die Störvariablen u i sind normalverteilt Die Störvariablen haben den Erwartungswert Null, d.h. E(u i ) = 0. Die Störvariablen sind homoskedastisch, d.h. sie haben dieselbe Varianz σ 2 ; es gilt also: ( ) 2 i u Var σ = für alle i. Die Störvariablen sind unkorreliert, d.h. es gilt cov (u i , u j ) = 0 für alle i ≠ j, 0 ≤ i, j ≤ n. Annahmen hinsichtlich der Modellspezifikation: Das Modell ist linear in den Parametern a und b k . Alle relevanten unabhängigen Variablen sind erfasst. Die Zahl der Beobachtungen ist größer als die Zahl der zu schätzenden Parameter. Annahme hinsichtlich der unabhängigen Variablen: Zwischen den unabhängigen Variablen x k besteht keine lineare Abhängigkeit, d.h. es ist keine Multikollinearität gegeben. Sind die Störvariablen nicht normalverteilt, sind Signifikanztests (F-Test, t-Test) unzulässig; bei einer großen Zahl an Beobachtungen (Faustregel: n > 40) können Signifikanztests unter Rückgriff auf den zentralen Grenzwertsatz dennoch durchgeführt werden. Die Verletzung der Prämisse, der Erwartungswert der Störgrößen sei Null, führt dazu, dass das konstante Glied a nicht mehr unverzerrt ist. <?page no="296"?> Verfahren zur Messung von Beziehungen 297 Ist die Varianz der Residuen nicht konstant, liegt Heteroskedastizität vor. Eine Prüfung auf Heteroskedastizität kann beispielsweise durch den Goldfeld-Quandt- Test, den Breusch-Pagan-Test oder den White-Test erfolgen (vgl. Pindyck/ Rubinfeld 1998, S. 132 ff.). Heteroskedastizität führt dazu, dass die Schätzer zwar erwartungstreu, jedoch nicht mehr effizient sind. Autokorrelation (Korrelation der Störvariablen) tritt häufig bei Zeitreihen auf. Autokorrelation führt zu Verzerrungen beim Standardfehler und damit auch bei der Bestimmung der Konfidenzintervalle für die Regressionskoeffizienten. Aufgedeckt werden kann Autokorrelation mit Hilfe des Durbin-Watson-Tests (vgl. Pindyck/ Rubinfeld 1998, S. 143). Nichtlinearität in den Parametern führt zu verzerrten Schätzwerten; zur Berechnung nichtlinearer Regressionsmodelle vgl. die Ausführungen im nachfolgenden Abschnitt. Nichterfassung aller relevanten Variablen kann zur Verzerrung der Schätzwerte führen. Bei der Formulierung des Modells sollte daher stets große Sorgfalt angewendet werden. Die Zahl an Beobachtungen sollte stets deutlich größer sein als die Zahl der zu schätzenden Parameter, da ansonsten kaum signifikante Zusammenhänge zu ermitteln sind. Multikollinearität (lineare Abhängigkeit zwischen den unabhängigen Variablen) führt i.d.R. zu hohen Standardabweichungen der Regressionskoeffizienten und unzuverlässigen Schätzwerten für die Parameter (u.a. auch falsche Vorzeichen). Bei Vorliegen von Multikollinearität bestehen folgende Ansatzpunkte zur Behebung: Unterdrückung einer oder mehrerer unabhängiger Variablen (z.B. mittels schrittweiser Regressionsanalyse, vgl. Bortz/ Schuster 2010, S. 358); Vorschaltung einer Faktorenanalyse (vgl. Abschnitt 3.2.2); Heranziehung spezieller Verfahren wie Ridge Regression (vgl. Mahajan et al. 1977) oder Latent Root Regression (Sharma/ James 1981). Nichtlineare Regression Häufig führen theoretische Überlegungen oder die Analyse der Anordnung der (x i , y i )- Wertepaare zur Vermutung, dass der Zusammenhang zwischen den Variablen nichtlinearer Natur sei. Grundsätzlich lassen sich nichtlineare Beziehungen, die durch Polynome höher als ersten Grades repräsentiert werden, problemlos schätzen (vgl. z.B. Bortz/ Schuster 2010, S. 198 ff.). In allgemeiner Form lautet das Regressionsmodell: ( ) S , , 1 s x b x b x b x b a y S S s s 2 2 1 = ⋅ + + ⋅ + + ⋅ + ⋅ + = . Auch hier ist zur Bestimmung der Regressionskoeffizienten die Summe der quadrierten Abweichungen zwischen Schätz- und Beobachtungswerten zu minimieren, d.h. es gilt: <?page no="297"?> 298 Datenanalyse ( ) ( ) ! Min x b x b x b a y yˆ y Z S S s s 1 i n 1 i i i n 1 i → ⋅ − − ⋅ − − ⋅ − − = − = = = Ableiten der Zielfunktion nach a und b s (s = 1,…, S) führt zu einem System von S + 1 Gleichungen mit S + 1 Variablen, welches matrixalgebraisch gelöst werden kann. Die inferenzstatistische Absicherung ist allerdings mathematisch sehr komplex und soll hier nicht weiter betrachtet werden (vgl. z.B. Draper/ Smith 1998, S. 266 ff.). In vielen Fällen sind nichtlineare Zusammenhänge gegeben, die nicht durch Polynome höherer Ordnung repräsentiert werden können. In solchen Fällen kann die Regressionsfunktion jedoch häufig dadurch ermittelt werden, dass eine lineare Transformation vorgeschaltet wird (vgl. Bortz/ Schuster 2010, S. 200 ff.). Beispielsweise kann die Funktionsgleichung 2 x a y ⋅ = durch Logarithmieren linearisiert werden: x ln b a ln y ln ⋅ + = . Setzt man b' b ln und ' x x ln , ' a a ln , ' y y ln = = = = , erhält man ' x ' b ' a ' y ⋅ + = . Obige Regressionsgleichung kann dann auf dem bereits bekannten Wege parametrisiert werden. Die gesuchten Parameter aˆ und bˆ erhält man durch Entlogarithmieren von ' aˆ und ' bˆ . Zu beachten ist allerdings, dass die dadurch resultierenden Regressionskoeffizienten nicht exakt mit denjenigen übereinstimmen, welche man durch direkte Anwendung der Methode der kleinsten Quadrate auf die nichtlineare Funktion erhalten würde. Gelegentlich werden bestimmte Kausalzusammenhänge im Marketing durch Funktionen abgebildet, welche weder durch Polynome höherer Ordnung noch durch linearisierbare Funktionen repräsentiert werden können. In solchen Fällen können für die gesuchten Parameter nur Näherungslösungen ermittelt werden. Ein entsprechender Algorithmus wurde z.B. von Marquardt (1963) entwickelt. Regressionsanalyse mit nichtmetrischen Variablen In bestimmten Fällen können auch bei Vorliegen nichtmetrischer abhängiger oder unabhängiger Variablen Regressionsanalysen durchgeführt werden. Ein erster Fall ist dann gegeben, wenn die abhängige Variable y dichotom skaliert ist; die unabhängigen Variablen können dabei sowohl metrisch als auch kategorial ausgeprägt sein. Die herkömmliche Regressionsanalyse kann nicht eingesetzt werden, da Dichotomie bei der abhängigen Variable zu nicht-normalverteilten Störgrößen führt (vgl. Urban 1993, S. 16 ff.). In diesem Falle kann - neben der Zwei-Gruppen-Diskriminanzanalyse (vgl. Abschnitt 3.3.2) - die sog. Logistische Regression eingesetzt werden. An dieser Stelle soll nur der Grundgedanke der logistischen Regression vorgestellt werden; die ausführliche methodische Vorgehensweise findet sich z.B. bei Krafft 1997, Frenzen/ Krafft 2008 sowie Backhaus et al. 2015, S. 283-356. <?page no="298"?> Verfahren zur Messung von Beziehungen 299 Eine für das Marketing relevante Fragestellung könnte exemplarisch lauten: Wie hängt der Kauf bzw. Nichtkauf eines Produktes (y) von der Preishöhe (x 1 ) und dem Werbebudget (x 2 ) ab? Dabei nimmt die abhängige Variable y zwei Werte an: = wird. uft nicht geka Produkt das falls 0, wird, kauft Produkt ge das falls , 1 y Es wird unterstellt, dass der beobachtbaren Variable y eine nichtbeobachtbare (latente) Variable z zugrunde liegt, die zu einer dichotomen Realisierung von y führt. Es gilt: > = sonst. 0 0, z falls , 1 y i i Ausgangspunkt der logistischen Regression ist das folgende allgemeine Modell: i ik k K 1 k i u x b a z + ⋅ + = = mit z i = nicht beobachtete Variable beim Objekt i (i = 1, …, n), a = konstantes Glied, b k = Koeffizient der unabhängigen Variablen x ik (k = 1,…, K), x ik = Ausprägung der unabhängigen Variablen k beim Objekt i, u i = Realisierung der Störgröße. Ziel der logistischen Regression ist- im Gegensatz zur herkömmlichen Regressionsanalyse - nicht die Schätzung der Beobachtungswerte, sondern die Schätzung der Eintrittswahrscheinlichkeit des Ereignisses y = 1 in Abhängigkeit der unabhängigen Variablen x k , P i (y=1). Der logistische Regressionsansatz wird wie folgt formuliert: ( ) i z i e 1 1 1 y P − + = = . Die Parameter werden üblicherweise mit Hilfe der Maximum-Likelihood-Methode geschätzt. Ein anderer Fall der Anwendung der Regressionsanalyse bei nichtmetrischen Variablen liegt dann vor, wenn die abhängige Variable zwar metrisch, die unabhängige Variable jedoch nominalskaliert ist. Als Beispiel kann folgende Problemstellung dienen: Kaufmenge eines Produkts in Abhängigkeit der Phase im Familienlebenszyklus. In einem solchen Fall kann eine sog. Dummy-Regression durchgeführt werden (vgl. Hair et al. 2010, S. 173). Hierzu muss die unabhängige Variable zunächst umcodiert werden. Am Beispiel des Familienlebenszyklus kann dies gemäß Tab. 6.12 erfolgen (hier wurde „älteres Paar ohne Kinder“ als Referenzkategorie zugrunde gelegt und wird nicht direkt in die Regressionsgleichung einbezogen). Das Regressionsmodell lautet in diesem Fall 3 3 2 2 1 1 i D bˆ D bˆ D bˆ aˆ yˆ ⋅ + ⋅ + ⋅ + = . <?page no="299"?> 300 Datenanalyse Tab. 6.12: Dummy-Codierung einer nominalskalierten Variablen Phase im Familienlebenszyklus Ursprünglicher Variablencode Dummy-Codierung D 1 D 2 D 3 Alleinstehend 1 1 0 0 Mit Partner zusammenlebend/ verheiratet 2 0 1 0 Familie mit Kindern 3 0 0 1 Älteres Paar ohne Kinder 4 0 0 0 Für Alleinstehende resultiert als Regressionsgleichung demnach 1 i bˆ aˆ yˆ + = , für die Kategorie „Älteres Paar ohne Kinder“ entsprechend aˆ yˆ i = . Analog lassen sich die Regressionsgleichungen für die übrigen Kategorien aufstellen. Es wird ersichtlich, dass der Regressionskoeffizient 1 bˆ als Differenz zwischen dem Modellwert 1 für Alleinstehende im Vergleich zu i bei älteren Paaren ohne Kinder zu interpretieren ist. 3.4.2 Kausalanalyse Definition Die Kausalanalyse wird angewendet, um kausale Beziehungen zwischen nicht beobachtbaren Konstrukten (latenten Variablen) in einem sachlogisch begründeten Modell (Strukturgleichungsmodell) abzubilden und statistisch abzusichern. Die Struktur der Beziehungen wird in einem Pfaddiagramm abgebildet. Latente Variablen beruhen auf nicht direkt messbaren Konstrukten wie beispielsweise Einstellungen oder Zufriedenheit, die anhand von Indikatoren abgebildet werden und miteinander in Beziehung gesetzt werden können (zu der Unterscheidung zwischen Konstrukt und latenter Variable vgl. Steinmetz 2015, S. 35 ff. sowie zur Konzeptualisierung die Ausführungen in Abschnitt 1.4 im 3. Teil). Eine typische Fragestellung für das Marketing könnte lauten: Welchen Einfluss haben die soziale Schichtzugehörigkeit und Persönlichkeitsmerkmale (wie Innovationsfreude, Risikoempfinden, Meinungsführerschaft) auf die Akzeptanz von Mobile Banking? Die Variablen „soziale Schicht“ und „Persönlichkeitsmerkmale“ sind hypothetische Konstrukte, welche jeweils durch spezifische Indikatoren gemessen werden können. Die Kausalanalyse geht zurück auf Arbeiten von Jöreskog (1973, 1978) sowie von Jöreskog/ Sörbom (1979, 1982). Die Anwendungsmöglichkeiten der Kausalanalyse für Fragestellungen des Marketings wurden von Bagozzi (1980) erstmalig diskutiert. <?page no="300"?> Verfahren zur Messung von Beziehungen 301 Die Überprüfung von Hypothesen mit Hilfe der Kausalanalyse sollte nur dann durchgeführt werden, wenn die Hypothesenbildung und die Konstruktion der latenten Variablen auf der Basis intensiver sachlicher Überlegungen erfolgt ist. Das mathematische Prinzip der Kausalanalyse lässt sich umschreiben als eine Kombination aus faktorenanalytischem und regressionsanalytischem Denkansatz. Die Besonderheit der Kausalanalyse liegt dabei in der expliziten Formulierung der Messtheorie und der Substanztheorie (vgl. Homburg/ Hildebrandt 1998, S. 18 ff.). Die Messtheorie beschreibt Begriffe, die sich auf direkt messbare Zusammenhänge beziehen, also auf Indikatorvariablen. Die Substanztheorie beschreibt die theoretischen Konstrukte und bezieht sich damit auf nicht direkt messbare Sachverhalte, also die latenten Variablen und Hypothesen über deren Zusammenhang. Die Integration dieser beiden Betrachtungsweisen erfolgt mit Hilfe von Korrespondenzhypothesen, die eine Brücke zwischen der Substanztheorie und der Messtheorie schlagen, indem sie sowohl latente als auch beobachtbare Indikatorvariablen enthalten. Sie dienen der Operationalisierung der hypothetischen Konstrukte. Abb. 6.22: Aufbau eines kausalanalytischen Modells Abbildung 6.22 zeigt den grundlegenden Aufbau eines kausalanalytischen Modells anhand eines Pfaddiagramms mit den gängigen Variablenbezeichnungen. Direkt beobachtbare Variablen (dargestellt in Kästchen) sind die Operationalisierungen der nicht direkt beobachtbaren latenten Variablen (dargestellt in Kreisen bzw. Ellipsen). Die Pfeile (=Pfade) beschreiben die unterstellten kausalen Beziehungen zwischen zwei Variablen im Sinne von „Je-desto-Hypothesen“. Gekrümmte Doppelpfeile beschreiben nicht kausal interpretierte Beziehungen zwischen latenten Variablen und zwischen Messfehlervariablen. 1 2 y 1 y 2 y 3 y 4 1 2 x 1 x 2 x 3 x 4 1 2 3 4 1 2 3 4 2 Messmodell der latenten exogenen Variablen Messmodell der latenten endogenen Variablen Strukturmodell <?page no="301"?> 302 Datenanalyse Das Strukturmodell beinhaltet die substanztheoretischen Hypothesen der Wirkungszusammenhänge zwischen den latenten, also nicht direkt messbaren Variablen. Hier wird bereits die Kausalität der Variablen unterstellt, indem eine Einteilung in endogene, also aus dem Modell heraus erklärten abhängige Variablen, und exogene, also erklärende unabhängige Variablen erfolgt. Ziel des Modells ist die Generierung von Werten für die latenten endogenen Variablen. Das Strukturmodell wird formal dargestellt durch die folgende Matrizengleichung: B + + ⋅ = mit = latente endogene Variable Eta, wird durch das Modell erklärt; = latente exogene Variable Ksi, wird nicht durch das Modell erklärt; = Koeffizientenmatrix der latenten endogenen Variablen, modelliert die Effekte zwischen latenten endogenen Variablen; = Koeffizientenmatrix der latenten exogenen Variablen, modelliert die Effekte der latenten exogenen auf die latenten endogenen Variablen; = Residualvariable für eine latente endogene Variable. Die Messmodelle geben die messtheoretischen Hypothesen wieder, indem sie die Beziehungen zwischen den latenten Variablen und und den dazu gehörenden Indikatoren darstellen. Dabei wird einem faktorenanalytischen Denkansatz gefolgt, genauer gesagt einem Ansatz der konfirmatorischen Faktorenanalyse, da Hypothesen über die Beziehungen zwischen latenten Variablen und den Indikatoren vorliegen. So wird im Messmodell unterstellt, dass die Korrelationen zwischen den Indikatorvariablen auf den Einfluss der latenten Variablen zurückgeführt werden können. Im Gegensatz zur explorativen Faktorenanalyse ist das Ziel des Messmodells also nicht die Reduktion von Daten, sondern die theoriegeleitete Abbildung latenter Variablen durch direkt messbare Indikatoren. Die Messmodelle werden formal durch die folgenden Matrizengleichungen dargestellt (vgl. Homburg et al. 2008b, S. 554 f): X = X ⋅ + (Messmodell der latenten exogenen Variablen), Y = Y ⋅ + (Messmodell der latenten endogenen Variablen) mit X = Matrix der Indikatoren (Messvariablen) für latente exogene Variablen, Y = Matrix der Indikatoren (Messvariablen) für latente endogene Variablen, X = Matrix der Pfadkoeffizienten zwischen den Indikatoren und den latenten exogenen Variablen, Y = Matrix der Pfadkoeffizienten zwischen den Indikatoren und den latenten endogenen Variablen, = Störvariable für eine exogene Indikatorvariable, = Störvariable für eine endogene Indikatorvariable. So wird, wie in Abb. 6.22 ersichtlich, die latente exogene Größe 1 durch zwei direkt beobachtbare Indikatoren x 1 und x 2 beschrieben. <?page no="302"?> Verfahren zur Messung von Beziehungen 303 Formal besteht die Kausalanalyse demnach aus einem Strukturmodell auf Basis des regressionsanalytischen Denkansatzes sowie mindestens zwei Messmodellen auf Basis des faktorenanalytischen Denkansatzes. Dabei folgt die Kausalanalyse dem Grundgedanken, dass sich anhand der Korrelationen zwischen den X-Variablen und zwischen den Y-Variablen die Beziehungen in den endogenen und exogenen Messmodellen abbilden lassen. Mit ihrer Hilfe ist es wiederum möglich, die Beziehungen im Strukturmodell zu berechnen. Die explizite Erfassung der jeweiligen Messfehler ermöglicht zudem die Interpretation der nicht durch das Modell erklärbaren Varianzanteile in der Modellstruktur. Für das formale Verständnis der Kausalanalyse ist das Verständnis des verwendeten Kausalitätsbegriffes nötig. Kausalität im Sinne der Kausalanalyse wird wie folgt aufgefasst (für eine tiefergehende Betrachtung des statistischen Kausalitätsbegriffes vgl. Bortz/ Schuster 2010, S. 159 ff.): Ein direkter kausaler Zusammenhang zwischen zwei Variablen x 1 und x 2 besteht nur dann, wenn eine Veränderung von x 2 durch eine Veränderung von x 1 hervorgerufen wird und alle anderen Variablen, die nicht von x 1 abhängen, konstant gehalten werden. Gemessen wird dieser Sachverhalt anhand des Korrelationskoeffizienten zwischen zwei Variablen: 2 1 2 1 x x 2 1 x , x s , s ) x , x ( s r = mit 2 1 x , x = Mittelwerte der Ausprägungen der Variablen 1 und 2 über alle Objekte i=1,…, I, − ⋅ − − = i 2 2 i 1 1 i 2 1 ) x x ( ) x x ( 1 I 1 ) x , x ( s = Kovarianz zwischen x 1 und x 2, − − = i 2 1 1 i x ) x x ( 1 I 1 s 1 = Standardabweichung der Variablen x 1, − − = i 2 2 2 i x ) x x ( 1 I 1 s 2 = Standardabweichung der Variablen x 2, 2 i 1 i x , x =Ausprägung der Variablen 1 bzw. 2 bei Objekt i. Der Wertebereich des Korrelationskoeffizienten r x1x2 liegt zwischen -1 und +1. Ist dieser von Null verschieden, ergeben sich 4 Interpretationsmöglichkeiten: Die Variable x 1 ist verursachend für die Variable x 2 . Die Variable x 2 ist verursachend für die Variable x 1 . Die Abhängigkeit zwischen den Variablen x 1 und x 2 ist teilweise durch den Einfluss einer dritten, exogenen Variable bedingt. <?page no="303"?> 304 Datenanalyse Die Abhängigkeit zwischen den Variablen x 1 und x 2 ist vollständig durch den Einfluss einer dritten, exogenen Variablen bedingt. Diese Interpretation der Korrelation entspricht dem Denkansatz der Faktorenanalyse. Letzteres lässt sich nachweisen mit dem partiellen Korrelationskoeffizienten. Dabei lässt sich der Einfluss der Variable auf x 1 und x 2 ermitteln, indem konstant gehalten wird. Nimmt man an, dass allein für die Abhängigkeiten der beiden Variablen x 1 und x 2 verantwortlich ist, muss die Korrelation zwischen x 1 und x 2 gleich Null sein. Im Rahmen der Kausalanalyse können alle Interpretationsmöglichkeiten für die Korrelation zwischen zwei Variablen angewendet werden je nachdem, welche Art von Zusammenhang durch die formulierten Hypothesen im Vorwege angenommen wird. Die Vorgehensweise der Kausalanalyse lässt sich in die folgenden Arbeitsschritte einteilen (vgl. Homburg et al. 2008b, S. 550 ff.): Generierung der Untersuchungshypothesen: Die Hypothesenbildung stellt die theoretische Vorarbeit für die Durchführung einer Kausalanalyse dar. Hier sind intensive Überlegungen über die Zusammenhänge des zu analysierenden Datensatzes anzustellen. In dieser Phase der Untersuchung kann der Einfluss des Forschers auf den Untersuchungsablauf sehr groß sein, weshalb dieser Schritt mit besonderer Sorgfalt durchzuführen ist. Spezifikation der Modellstruktur: Für die Formulierung der Modellstruktur werden anhand des Hypothesensystems jedem Konstrukt die messbaren Indikatoren zugeordnet (Operationalisierung der Messmodelle); des Weiteren wird der Zusammenhang der Konstrukte untereinander definiert (Aufstellen des Strukturmodells). Das Ergebnis ist ein umfangreiches Gleichungssystem. Die gängige Software (z.B. A- MOS oder LISREL) ermöglicht die Erstellung eines Pfaddiagramms zur Darstellung der Ursache-Wirkungszusammenhänge. Die Schätzung erfolgt dann automatisch, die Entwicklung eines Gleichungssystems ist also nicht mehr nötig. Identifikation der Modellstruktur: In diesem Schritt wird die Lösbarkeit des Modells bzw. des Gleichungssystems geprüft. Es wird geprüft, ob die empirischen Informationen ausreichen, um die Parameter des Gleichungssystems eindeutig zu bestimmen. Parameterschätzung: Die Software AMOS stellt verschiedene Verfahren zur Schätzung der Parameter zur Verfügung. Anhand der Annahmen, von denen im Rahmen der Schätzung ausgegangen wird, muss festgelegt werden, welches Verfahren für die Parameterschätzung des spezifischen Modells geeignet ist. Beurteilung der Schätzergebnisse: Es stehen eine Reihe von Kriterien zur Verfügung, anhand derer die Güte der Anpassung der Modellstruktur an die empirischen Daten geprüft werden kann. Diese Kriterien beziehen sich sowohl auf die Modellstruktur als Ganzes als auch auf einzelne Teile des Modells. Auf die Ablaufschritte wird im Folgenden eingegangen. Dabei wird auf eine eingehende Erläuterung der mathematischen Struktur verzichtet und auf die Standardwerke von Bollen 1989, Hayduk 1987 und Homburg 1992 verwiesen. <?page no="304"?> Verfahren zur Messung von Beziehungen 305 Es werden verschiedene Softwarepakete zur Lösung kausalanalytischer Modelle angeboten, auf die am Ende des Kapitels gesondert eingegangen wird. Ein sehr komfortables und leistungsfähiges Softwarepaket ist AMOS, welches als Grundlage für die Ausführungen dient. Generierung der Untersuchungshypothesen Der erste Schritt zur Anwendung einer Kausalanalyse beinhaltet eingehende theoretische Vorarbeiten, die als Voraussetzung für eine Modellformulierung bezeichnet werden können. So erfolgt die Bildung des kausalanalytischen Modells auf der Grundlage der im Vorwege formulierten Hypothesen, welche wiederum die Beziehungen in einem empirischen Datensatz beschreiben. Hierfür ist genau zu spezifizieren, welche Variablen in welcher Weise, d.h. mit welchem Vorzeichen, in das Modell eingehen und welche Beziehungen zwischen den Variablen unterstellt werden. Die Hypothesenbildung ist der wichtigste und zugleich anspruchsvollste Schritt bei der Arbeit mit der Kausalanalyse, da der Einfluss des Forschers auf die Ergebnisse bei der Berechnung des Modells erheblich sein kann. Beispielhaft unterstellen wir, dass die Kaufabsicht bzgl. einer Armbanduhr von dem zur Verfügung stehenden Budget und der wahrgenommenen Produktqualität abhängt. (Dieses Beispiel stellt eine erhebliche Vereinfachung einer realen Entscheidungssituation dar.) Die Kaufabsicht wird durch die Indikatoren „Ich beabsichtige, eine Armbanduhr der Marke X in den nächsten 6 Monaten zu kaufen“ und „Wenn ich eine Armbanduhr benötige, werde ich Marke X kaufen“ beschrieben. Die wahrgenommene Produktqualität wird anhand der folgenden Indikatoren bestimmt: „Eine Armbanduhr der Marke X hebt sich positiv von Konkurrenzprodukten ab“ und „Armbanduhren der Marke X sind qualitativ hochwertig“. Die Höhe des Budgets drückt sich in den Gesamtausgaben der Probanden für Schmuck und Accessoires (pro Jahr) aus. Aus der beschriebenen Situation ergibt sich das folgende Hypothesensystem: Hypothesen des Messmodells der latenten exogenen Variablen: 1.1 Die wahrgenommene Produktqualität wird durch zwei Indikatoren erfasst: „Eine Armbanduhr der Marke X hebt sich positiv von Konkurrenzprodukten ab“ und „Armbanduhren der Marke X sind qualitativ hochwertig“. 1.2 Das Budget wird durch die Höhe der jährlichen Ausgaben für Schmuck und Accessoires wiedergegeben. Hypothesen des Strukturmodells: 2.1 Je positiver die wahrgenommene Produktqualität ist, desto höher ist die Kaufabsicht. 2.2 Je höher das verfügbare Budget ist, desto höher ist die Kaufabsicht. Hypothese des Messmodells der latenten endogenen Variablen: 3 Die Kaufabsicht bzgl. des Produkts wird durch die Indikatoren „Ich beabsichtige, eine Armbanduhr der Marke X in den nächsten 6 Monaten zu kaufen“ und „Wenn ich eine Armbanduhr benötige, werde ich Marke X kaufen“ erfasst. In dem dargestellten Hypothesensystem sind auch die Vorzeichen bzw. die Art des Einflusses angegeben. Die Art des Einflusses der Variablen wird damit durch die Hy- <?page no="305"?> 306 Datenanalyse pothesen festgelegt. Wird die Art des Einflusses der Variablen nicht festgelegt, so ergibt die Schätzung der Parameter lediglich eine Anpassung des Modells an die empirischen Daten, nicht jedoch eine Hypothesenprüfung. Auf diese Weise kann zumindest bezogen auf die Richtung des Einflusses ein Hypothesentest erfolgen. Spezifikation der Modellstruktur Die Spezifikation der Modellstruktur beschreibt die Übersetzung des entwickelten Hypothesensystems in ein Pfadmodell, welches dann für die Parameterschätzung in mathematische Strukturen überführt wird. Aufbau des Pfadmodells: Um die Erstellung des Pfadmodells zu erleichtern, wurden die folgenden Regeln formuliert, die in der Forschungspraxis überwiegend zur Anwendung kommen (vgl. Heise 1975, S. 38 ff. und S. 115): Direkt beobachtbare Variablen werden in Kästchen dargestellt. Latente Variablen werden in Kreisen bzw. Ellipsen dargestellt. Kausale Beziehungen zwischen Variablen werden durch einen geraden Pfeil (= Pfad) dargestellt, wobei ein Pfeil seinen Ursprung immer bei der unabhängigen oder verursachenden Variable hat und stets nur eine Variable als Ursprung und eine Variable als Endpunkt hat. Einflüsse von Messfehlervariablen werden ebenfalls durch Pfeile dargestellt, wobei der Ursprung des Pfeils von der Residualvariablen ausgeht. Kausal nicht interpretierbare Beziehungen werden durch gekrümmte Doppelpfeile dargestellt und sind nur zwischen exogenen latenten Variablen und Messfehlervariablen zulässig. Ein vollständiges Kausalmodell besteht mindestens aus zwei Messmodellen und einem Strukturmodell. In einem typischen Kausalmodell steht das Messmodell der latenten exogenen Variablen, bestehend aus den x- und -Variablen, auf der linken Seite, in der Mitte ist das Strukturmodell mit den - und -Variablen und rechts das Messmodell der latenten exogenen Variablen, das die y- und -Variablen enthält. Zur Verdeutlichung dient das in Abb. 6.23 angeführte, beispielhaft aufgestellte Kausalmodell, das auf den zuvor formulierten Hypothesen beruht. Das Modell besteht aus zwei exogenen und einer endogenen latenten Variablen sowie den dazu gehörigen Messmodellen. Die latenten Variablen werden dabei durch reflektive Indikatoren operationalisiert (vgl. Abschnitt 1.4 im 4. Teil). Die Vorzeichen an den Pfeilen (Pfaden) geben den theoretisch begründeten Einfluss der unabhängigen auf die abhängigen Variablen an. So wird sowohl von der Qualität als auch vom Budget ein positiver Einfluss auf die Kaufabsicht angenommen. Die Eins am Koeffizienten 32 gibt an, dass das Budget vollständig durch die Messung der Gesamtausgaben für Schmuck und Accessoires abgebildet werden kann. Daher muss auch die Messfehlervariable 3 den Wert Null haben. <?page no="306"?> Verfahren zur Messung von Beziehungen 307 Abb. 6.23: Pfadmodell mit drei latenten Variablen Folgende Parameter können im Rahmen eines Kausalmodells verwendet werden: Feste Parameter Der Wert eines festen Parameters wird im Vorwege durch den Forscher festgelegt. Hierfür gibt es zwei Gründe. Zum einen wird aufgrund der vorhergehenden Überlegungen unterstellt, dass der Wert der Variable gleich Null ist und somit keine kausalen Beziehungen zwischen bestimmten Variablen bestehen. Zum anderen wird aufgrund von Erkenntnissen aus der theoretischen Vorarbeit ein bestimmter Wert für eine Variable festgelegt. In beiden Fällen wird der Wert der Variable nicht durch das Modell geschätzt, sondern im Vorwege festgelegt. Restringierte Parameter Im Modell kann festgelegt werden, dass ein oder mehrere Parameter denselben Wert haben. Diese Parameter werden als restringiert bezeichnet. Das kann sinnvoll sein, wenn bei zwei unabhängigen Variablen derselbe Einfluss auf eine abhängige Variable unterstellt wird oder wenn die Werte von Messfehlervarianzen als gleich groß angenommen werden. Werden beispielsweise zwei Parameter als restringiert festgelegt, so verringert sich die Anzahl der durch das Modell zu schätzenden Parameter, da nur ein Wert zu schätzen ist. Freie Parameter Parameter, deren Werte durch das Modell zu schätzen sind, heißen freie Parameter. Sie geben die angenommenen kausalen Beziehungen, Kovarianzen und Messfehlerwerte der Variablen wieder. 1 Kaufabsicht Nächster Kauf in Kategorie (y 2 ) 2 Budget Abhebung Konkurrenz (x 1 ) Ausgaben (x 3 ) 1 2 3 = 0 1 2 1 Messmodell der latenten exogenen Variablen Messmodell der latenten endogenen Variablen Strukturmodell 11 (+) 1 Qualität Hochwertig (x 2 ) 21 (+) 32 =1 11 (+) 21 (+) Kauf in den nächsten 6 Monaten (y 1 ) <?page no="307"?> 308 Datenanalyse Durch die Software AMOS wird das Pfaddiagramm in ein lineares Gleichungssystem überführt und geschätzt. Um die Überführung des Pfaddiagrammes in ein mathematisches Gleichungssystem zu verdeutlichen, wird das oben stehende Pfaddiagramm als Beispiel verwendet. Für die Bildung der Gleichungen gelten die folgenden Regeln (vgl. Heise 1975, S. 49 ff.): Für jede abhängige Variable ist jeweils eine Gleichung zu formulieren. Werden die abhängigen Variablen von mehreren unabhängigen Variablen beeinflusst, sind diese additiv miteinander zu verknüpfen. Die Pfadkoeffizienten geben die Stärke des Zusammenhanges zwischen einer abhängigen und einer unabhängigen Variablen an. Unter der Voraussetzung, dass die Indikatorvariablen an I Objekten gemessen werden und alle Variablen im Modell standardisiert worden sind, lässt sich das Pfaddiagramm wie unten dargestellt in Gleichungen abbilden. Das Gleichungssystem für das Modell der Abb. 6.23 hat die folgende Form: Strukturmodell 1 i 2 i 12 1 i 11 1 i ζ + ξ γ + ξ γ = η Messmodell der latenten endogenen Variablen 1 i 1 i 11 1 i y ε + η λ = 2 i 1 i 21 2 i y ε + η λ = Messmodell der latenten exogenen Variablen 1 i 1 i 11 1 i x δ + ξ λ = 2 i 1 i 21 2 i x δ + ξ λ = 3 i 2 i 32 3 i x δ + ξ λ = bzw. in unserem speziellen Fall x i3 = 1 i2 + 0. Die Indizierung i verdeutlicht, dass es sich bei den jeweiligen Variablen um den Beobachtungswert bei dem Objekt i (z.B. Proband) handelt. Die Variable x i3 (Budget) wird in unserem Beispiel vollständig durch die Gesamtausgaben abgebildet, daher sind hier wie bereits erwähnt 32 = 1 und i3 = 0 Prüfung der Identifizierbarkeit der Modellstruktur Um die Parameter des Kausalmodells schätzen zu können, ist in einem nächsten Schritt zu prüfen, ob ausreichend empirisches Datenmaterial für die zu schätzenden Parameter vorhanden ist. Es ist also zu klären, welche Parameter existieren, wie viele Parameter zu schätzen sind und wie viele Indikatoren hierfür zur Verfügung stehen. Analytisch wird die Frage gestellt, ob nur eine Kovarianz- oder Korrelationsmatrix existiert, die eindeutig die Gesamtheit der zu schätzenden Parameter bestimmt, oder ob weitere Kovarianz- oder Korrelationsmatrizen existieren, die zu gleichen Ergebnissen führen. Ob ein Modell angemessen identifiziert ist, lässt sich über die Ermittlung der Anzahl der Freiheitsgrade (df, degrees of freedom) prüfen (vgl. Homburg et al. 2008b, S. 558 f. <?page no="308"?> Verfahren zur Messung von Beziehungen 309 sowie ausführlich Bollen 1989, S. 326 ff.). Notwendige Bedingung für die Lösbarkeit eines Kausalmodells ist, dass die Anzahl der empirischen Informationen die Anzahl der zu schätzenden Parameter übersteigt. Dies bedeutet, dass die Anzahl der zu schätzenden Parameter t die Anzahl der empirischen Varianzen und Kovarianzen (q (q+1))/ 2 nicht überschreitet: 2 ) 1 q ( q t + ⋅ ≤ . Modelle, welche die Bedingung verletzen, sind mit Sicherheit nicht identifiziert. Umgekehrt ist jedoch eine solche Aussage nicht möglich. Die Bedingung ist also nicht hinreichend. Folgende drei verschiedene Konstellationen sind möglich: Ist df = 0, so ist das Modell vollständig identifiziert (saturiert). Es werden jedoch alle empirischen Informationen für die Lösung des linearen Gleichungssystems aufgebraucht. Eine iterative Annäherung der empirischen an die theoretische Matrix ist nicht mehr möglich, auch ist die Durchführung von Teststatistiken im Fall einer eindeutigen Lösung nicht möglich. Ist df < 0, so ist das Modell nicht identifiziert. Die Anzahl der Parameter übersteigt die Anzahl der Gleichungen innerhalb des linearen Gleichungssystems. Die empirischen Informationen reichen für eine Schätzung nicht aus. Die Tatsache, dass das Modell als Ganzes nicht identifiziert ist, schließt jedoch nicht aus, dass einzelne Parameter sinnvoll geschätzt werden können (vgl. Homburg/ Hildebrandt 1998, S. 38). Es besteht die Möglichkeit, einzelne Parameter von vornherein auf einen bestimmten Wert festzulegen oder Parameter zusammenzufassen, die dann nur noch als ein Wert geschätzt werden. Dadurch wird die Zahl der zu schätzenden Parameter reduziert. Wie bereits erläutert ist diese Vorgehensweise nur mit theoretischer Fundierung der gemachten Annahmen zulässig. Ist df > 0, so ist das Modell überidentifiziert. Das bedeutet, die Parameter lassen sich iterativ schätzen, und es ist möglich, Teststatistiken durchzuführen, da noch ausreichend empirische Informationen vorhanden sind. Grundsätzlich ist also immer ein Modell anzustreben, das eine gewisse Anzahl an Freiheitsgraden aufweist. Die Klärung der Identifizierbarkeit von Kausalmodellen ist problematisch, da keine Verfahren existieren, die eine Identifizierbarkeit zweifelsfrei feststellen können (vgl. Homburg 1992, S. 503 und Homburg et al. 2008b, S. 559). Es existieren neben dem oben beschriebenen Verfahren weitere Kriterien, die von AMOS verwendet werden, um die Identifizierbarkeit des Modells sicherzustellen. Die Gesamtheit dieser Kriterien führt in der Regel dazu, dass nicht identifizierbare Modelle zuverlässig erkannt werden (vgl. Homburg/ Hildebrandt 1998, S. 39). Parameterschätzung Nach der Spezifikation des Modells und der Überprüfung der Identifizierbarkeit der Modellstruktur müssen die freien, also nicht fixierten oder restringierten Parameter geschätzt werden. Zur Schätzung der freien Parameter steht eine Reihe von verschiedenen Schätzverfahren zur Verfügung, zwischen denen der Anwender zu wählen hat (vgl. Bentler/ Chou 1995, S. 37 ff.) Diese Schätzverfahren stellen unterschiedliche Anforderungen an die Daten und bieten verschiedene Möglichkeiten zur Bewertung des Schätzergebnisses. Gemeinsam ist ihnen die Anpassung der theoretischen an die empirische Kovarianz- oder Korrelationsmatrix. Zur Abbildung dieser Differenz verwen- <?page no="309"?> 310 Datenanalyse den die verschiedenen Schätzverfahren unterschiedliche Diskrepanzbzw. Fitfunktionen (vgl. Browne 1982, S. 72 ff. sowie Browne 1984, S. 62 f.), die zu minimieren sind. Zunächst kann grundsätzlich zwischen iterativen und nichtiterativen Verfahren unterschieden werden. Die nichtiterativen Verfahren lassen keinen Einsatz von Teststatistiken zu, sind also für eine methodisch einwandfreie Analyse, insbesondere mit konfirmatorischem Charakter, nicht geeignet. Nichtiterative Verfahren wie die Methode der Instrumentalvariablen (IV) oder die Zweistufenschätzmethode (Two-Stage-Least- Square; TSLS) können zur Vorgabe von Startwerten für die iterativen Schätzverfahren verwendet werden. Die iterativen Verfahren unterscheiden sich hinsichtlich der Voraussetzungen, die sie an die Verteilung der empirischen Daten stellen, sowie dem Spektrum der anwendbaren Teststatistiken. AMOS bietet dem Anwender die folgenden Schätzverfahren: Maximum Likelihood Methode (ML), Methode der ungewichteten kleinsten Quadrate (unweighted least squares, ULS), Methode der verallgemeinerten kleinsten Quadrate (generalized least squares, GLS), Methode der skalenunabhängigen kleinsten Quadrate (scale free least squares, SLS), Methode der asymptotisch verteilungsfreien Schätzer (asymptotically distribution free, ADF). Welche Schätzverfahren jeweils anwendbar und zulässig sind hängt davon ab, ob bestimmte Voraussetzungen gegeben sind (vgl. Adler 1996, S. 191 ff.; Jöreskog/ Sörbom 1989): Multinormalverteilung der manifesten Variablen Die Messvariablen müssen in der Grundgesamtheit normalverteilt sein. Ist das nicht der Fall, so kann es zu verzerrten Schätzergebnissen oder entarteten Schätzern kommen. Die Schätzverfahren ML und GLS erfordern die Multinormalverteilung der Messvariablen in der Grundgesamtheit. Skaleninvarianz der Diskrepanzfunktion Eine Diskrepanzfunktion ist skaleninvariant, wenn sich ihr Minimum bei einer Änderung der Skalierung der Messvariablen nur im selben Verhältnis verändert (etwa bei der Transformation einer Messvariablen von Euro auf Cent). Bei skalenabhängigen Schätzmethoden wie z.B. unweighted least squares (ULS) führt eine Änderung der Skalierung zu skalenabhängigen Minima in der Diskrepanzfunktion, sodass bei Anwendung des Verfahrens die Variablen vorab standardisiert werden sollten. Erforderliche Stichprobengröße Angaben für den erforderlichen Stichprobenumfang schwanken. Als Richtwert werden Größenordnungen von n 100 bis n 200 genannt bzw. es wird, ausgehend von der Anzahl der zu schätzenden Parameter t, ein Wert von n 5 t oder von n t 50 gefordert. Bei der ADF-Methode ist der üblicherweise geforderte Stichprobenumfang jedoch wesentlich höher (1,5t(t+1)). <?page no="310"?> Verfahren zur Messung von Beziehungen 311 Verfügbarkeit von Inferenzstatistiken, insbesondere 2 -Test Mit dem 2 -Test wird gegen die Nullhypothese getestet, dass die empirische Kovarianzmatrix der modelltheoretischen entspricht. Der Test liefert nur zuverlässige Schätzer, wenn für die Messvariablen in der Grundgesamtheit eine Multinormalverteilung vorliegt. Für die Schätzung mit dem Schätzverfahren ADF sind Inferenzstatistiken auch ohne diese Voraussetzung anwendbar. Beurteilung der Schätzergebnisse Im Anschluss an die Parameterschätzung ist die Güte der Schätzung zu beurteilen, d.h. es wird die Frage gestellt, wie gut das aufgestellte Modell in der Lage ist, die Zusammenhänge zwischen den beobachteten Variablen zu beschreiben. Hierfür wird auf verschiedene Anpassungsmaße zurückgegriffen. Globale Gütekriterien (Globalmaße) beziehen sich dabei auf eine Beurteilung hinsichtlich der Anpassungsgüte des Gesamtmodells, wohingegen Partialmaße der Bewertung einzelner Komponenten des geschätzten Strukturgleichungsmodells dienen (zu den einzelnen Gütemaßen vgl. Homburg/ Baumgartner 1995 sowie die Ausführungen im Zusammenhang mit der Faktorenanalyse in Abschnitt 3.2.2). Globale Gütekriterien dienen der Überprüfung, wie gut das spezifizierte Strukturmodell in seiner Gesamtheit zu den empirischen Daten passt, es wird also ein Vergleich zwischen der theoretischen und der durch das Modell geschätzten Kovarianzmatrix vorgenommen. Bei der Anwendung sollten aufgrund der verschiedenen Eigenschaften der Indizes mehrere Gütemaße unterschiedlichen Typs Berücksichtung finden. Die folgenden Gütemaße werden von AMOS angeboten: 2 -Test Getestet wird die Hypothese H 0 , dass die empirische Kovarianzmatrix der theoretischen entspricht. Ziel ist es damit nicht, die Nullhypothese zu verwerfen, sondern einen möglichst geringen 2 -Wert zu erhalten. Problematisch ist bei der Anwendung des 2 -Tests die hohe Sensitivität gegenüber einer Abweichung von der Multinormalverteilung der Messvariablen in der Grundgesamtheit zum einen und gegenüber dem Stichprobenumfang zum anderen. Darüber hinaus wird durch den 2 -Test überprüft, ob ein Modell im absoluten Sinne richtig ist. Es entspricht aber nicht dem Ziel der Kausalanalyse, durch ein Hypothesensystem eine möglichst gute Annäherung an die Realität zu erreichen (Jöreskog/ Sörbom 1993, S. 212 f.). Es sollte daher auf weitere Tests zurückgegriffen werden. Goodness of fit Index (GFI) Der GFI kennzeichnet den Anteil der durch das Modell erklärten Ausgangsvarianz. Er entspricht damit dem globalen Bestimmtheitsmaß der Regressionsanalyse (R 2 ). Je stärker sich der GFI an Eins annähert, desto mehr Varianz wird im Modell erklärt und desto besser ist der Fit des Modells. Das bedeutet, der GFI sollte nach Möglichkeit hoch sein. Häufig wird der Wert 0,9 als Mindestmaß angegeben (Homburg/ Baumgartner 1995, S. 167 ff.; Hoyle/ Panther 1995, S. 164). <?page no="311"?> 312 Datenanalyse Root Means Square Residual (RMR) Der RMR veranschaulicht die durchschnittliche Menge der nicht durch das Modell erklärten Residualvarianzen. Je geringer der RMR ausfällt, desto weniger Varianz wird im Modell nicht erklärt, desto besser ist der Fit des Modells. Der RMR sollte damit nach Möglichkeit nahe bei Null liegen. Der unstandardisierte RMR lässt jedoch keine Festlegung von Richtwerten zu. Es ist problematisch, den RMR zu interpretieren, weil er sich in Relation zur Größe der identifizierten Varianzen und Kovarianzen bewegt. Sein Vorzug liegt insbesondere im Vergleich verschiedener Modelle, welche auf denselben Daten beruhen. Der standardisierte RMR, welcher auf einer Korrelationsmatrix basiert, bewegt sich dagegen in einem normierten Wertebereich zwischen Null und Eins. Hier wird ein standardisierter RMR unter 0,1 in der Regel als Indiz für einen guten Fit gewertet (vgl. Schumacker/ Lomax 2016 S. 114 f.). Adjusted Goodness of Fit Index (AGFI) Der AGFI stellt ebenfalls ein Maß für den Anteil der durch das Modell erklärten Gesamtvarianz dar, allerdings unter zusätzlicher Berücksichtigung der Anzahl der Freiheitsgrade. Der AGFI sollte nach Möglichkeit ebenfalls hoch sein, d.h. für den AGFI wird üblicherweise ebenfalls ein Wert über 90 Prozent vorausgesetzt (AGFI > 0,9) (Schumacker/ Lomax 2016, S. 112). Normed Fit Index (NFI) Der Wert der minimierten Diskrepanzfunktion liegt immer zwischen dem Wert eines besonders schlechten Basismodells, in dem alle manifesten Variablen als unkorreliert angenommen werden, und dem eines so genannten saturierten Modells, das einen Wert von Eins aufweist. Der NFI vergleicht den Wert der minimierten Diskrepanzfunktion mit dem Wert des Basismodells. Der NFI ist normiert und liegt zwischen Null und Eins. Je näher der NFI an 1 liegt, desto besser ist die Anpassung des Modells gelungen und desto näher liegt es an dem saturierten Modell. Ist der NFI größer als 0,9, kann von einer guten Anpassung des Modells ausgegangen werden (vgl. Bentler/ Bonnet 1980, S. 588 ff.). Comparative Fit Index (CFI) Mit dem CFI kann zusätzlich die Zahl der Freiheitsgrade berücksichtigt werden. Auch beim CFI deutet ein Wert von über 0,9 auf eine gute Modellanpassung hin (vgl. Bentler 1990, S. 238 ff.). Einer der Vorteile der Kausalanalyse ist die Möglichkeit der Prüfung der Anpassungsgüte von Teilen des Hypothesensystems. So ist es möglich, dass Teile des Modells die Realität gut abbilden, während das Gesamtmodell keine gute Anpassung aufweist. Dieses lässt sich anhand der sogenannten Partialkriterien ermitteln. Maßgeblich für die Bewertung der partiellen Modellgüte ist zunächst die Betrachtung der Parameterschätzung im Hinblick auf die Übereinstimmung mit den theoretisch postulierten Hypothesen. Dazu gehören einerseits die Betrachtung der Wirkungsrichtung sowie andererseits die Prüfung der Ergebnisse auf ihre statistische Signifikanz. Die gebräuchlichsten Teststatistiken werden unten stehend erläutert. <?page no="312"?> Verfahren zur Messung von Beziehungen 313 Die folgenden Gütemaße werden von AMOS angeboten: Standardfehler der Schätzung (Square Error, SE) Die SE geben an, mit welcher Streuung bei den Parameterschätzungen zu rechnen ist. Je kleiner die Standardfehler der geschätzten Parameter ausfallen, desto zuverlässiger sind die einzelnen Schätzungen zu bewerten. Critical Ratio (CR) Die Berechnung des CR entspricht der Parameterschätzung dividiert durch den Standardfehler der Schätzung. Sind die Ausgangsvariablen in der Grundgesamtheit normalverteilt, so kann ein t-Test auf der Basis des CR angewendet werden. Getestet wird gegen die Nullhypothese, dass die geschätzten Werte sich nicht von Null unterscheiden. Liegt der CR über 1,96, so kann bei einer Irrtumswahrscheinlichkeit von 0,05 ein Beitrag zur Bildung der Modellstruktur des entsprechenden Parameters angenommen werden. Quadrierte multiple Korrelationskoeffizienten (Indikatorreliabilität) Anhand der quadrierten multiplen Korrelationskoeffizienten wird die Reliabilität der Messung der latenten Variablen und der Indikatorvariablen im Kausalmodell gemessen. Die Reliabilität einer Variablen gibt wieder, inwieweit eine Messung frei von zufälligen Messfehlern ist. Bezogen auf die Indikatorvariablen geben die quadrierten multiplen Korrelationskoeffizienten an, wie gut die einzelnen Indikatoren der Messung der latenten Variablen dienen. Bezogen auf die latenten endogenen Variablen messen die quadrierten multiplen Korrelationskoeffizienten die Stärke der Kausalbeziehungen in den Strukturgleichungen. Rechnerisch entspricht die Indikatorreliabilität dem Quadrat der Faktorladungen in den Konstrukten. Der Grenzwert für die Indikatorreliabilität liegt üblicherweise zwischen 0,4 und 0,5, was inhaltlich bedeutet, dass zumindest 40-50% der Varianz einer Messvariablen durch den dahinterstehenden Faktor erklärt werden sollten. Ermittlung der Residuen Mit den geschätzten Parametern lässt sich die theoretische Kovarianzmatrix erstellen. Die Differenzen zwischen der theoretischen und der empirischen Kovarianzmatrix ergeben die Residuen. Je näher die Residuen an Null liegen, umso geringer ist der nicht durch das Modell erklärte Anteil der Kovarianz der entsprechenden Variablen. Bei einem gut angepassten Modell sollte der Wert der Residuen 0,1 nicht übersteigen. Es ist zu beachten, ob aufgrund von Skalenunterschieden eine Standardisierung der Residualvarianzen erforderlich ist. Die Differenz- oder Residualmatrix wird von AMOS bereitgestellt. Die nachfolgende Tab.6.13 fasst die wichtigsten Kriterien zur Beurteilung der Modellgüte zusammen. Es sei darauf hingewiesen, dass die Ergebnisse der Parameterschätzung und die Güte der Anpassung des Modells im Rahmen der Kausalanalyse anhand von mehreren Kriterien beurteilt werden sollten. Weichen einzelne Kriterien von den vorgegebenen Werten ab, so muss dies nicht zwingend auf ein unbrauchbares Modell hindeuten. Es sollte daher immer ein geeignetes Bewertungsschema angewendet werden. <?page no="313"?> 314 Datenanalyse Tab. 6.13: Gebräuchliche Gütekriterien zur Beurteilung der Anpassungsgüte eines Kausalmodells Kriterium Anforderung Globale Gütekriterien RMR <0,1 GFI >0,9 AGFI >0,9 NFI >0,9 CFI >0,9 Lokale Gütekriterien Standardfehler der Schätzung möglichst klein CR ( α = 0,05) >1,96 Quadrierte multiple Korrelationskoeffizienten > 0,4 Durch die Veränderung der Modellstruktur kann eine Verbesserung der Prüfkriterien erreicht werden. Wird diese Vorgehensweise gewählt, so verändert sich auch das Hypothesensystem, und die theoretischen Vorüberlegungen verlieren teilweise an Gültigkeit. Diese Vorgehensweise bedeutet, dass die Kausalanalyse ihren konfirmatorischen Charakter verliert und zu einem explorativen Analyseverfahren wird, da die neuen Hypothesen nicht aufgrund theoretischer Überlegungen, sondern empirischer Analysen zustande gekommen sind. Eine theoretische Begründung dieser Vorgehensweise kann daher nur im Nachhinein erfolgen. Varianten der Kausalanalyse Partial Least Squares Eine Alternative zu den kovarianzbasierten Verfahren AMOS und LISREL stellt der Partial Least Squares-Ansatz (PLS) dar. Kovarianzbasierte Schätzverfahren legen für die Parameterschätzung i.d.R. das Maximum-Likelihood-Prinzip zugrunde, welches eine multivariate Normalverteilung voraussetzt. Dies ist jedoch bei der praktischen Anwendung nur selten gegeben und erfordert große Stichproben. Zudem ist das Verfahren nur bei reflektiven Messmodellen anwendbar. Aus diesem Grunde wurde PLS entwickelt mit dem Ziel, die restriktiven Annahmen des kovarianzbasierten Ansatzes zu vermeiden (zu einer vergleichenden Diskussion der beiden Ansätze vgl. z.B. Scholderer/ Balderjahn 2006 sowie Homburg/ Klarmann 2006). Im Rahmen von PLS können auch formative Indikatoren berücksichtigt werden. Dadurch werden Fehlspezifikationen des Modells vermieden. Zudem beruht die Parameterschätzung auf multipler Regression (Least Square), sodass keine Verteilungsannahme erforderlich ist. Dadurch ist PLS auch bei kleinen Samples anwendbar. Weiterhin liefert PLS eher konservative Schätzungen, sodass die Gefahr einer Modellannahme trotz fehlerhafter Operationalisierung bzw. Modellkonzeption vergleichweise gering ist. Auch PLS bietet eine Vielzahl von Gütekriterien, welche sich in Abhängigkeit des Messmodells (formativ vs. reflektiv, vgl. Abschnitt 1.4 im 2. Teil) unterscheiden. Einschränkend ist darauf hinzuweisen, dass PLS keine globalen Gütemaße erlaubt. Kova- <?page no="314"?> Verfahren zur Messung von Beziehungen 315 rianzbasierte Verfahren liefern somit statistisch exaktere Ergebnisse. Auf eine ausführliche Darstellung der methodischen Vorgehensweise bei PLS muss hier verzichtet werden. Eine umfassende Darstellung findet sich u.a. bei Huber et al. 2007. NEUSREL Diese von Buckler (2001) entwickelte Methode basiert auf der Verbindung von Faktorenanalyse und Neuronalen Netzen. Während AMOS, LISREL und PLS für die Überprüfung von Hypothesen konzipiert wurden, können mit NEUSREL exploratorische Analysen durchgeführt werden, da sich die Methode zum Aufdecken von Beziehungen und Interaktionen eignet. Zudem ist NEUSREL in der Lage, auch nichtlineare Beziehungen zwischen den Variablen abzubilden. Solche Wirkungsbeziehungen können grundsätzlich auch unabhängig von theoretischen Vorüberlegungen ermittelt werden. Dies birgt allerdings die Gefahr der Abkehr vom Postulat theoriegeleiteter Forschung. Insofern ist in jedem Falle auf eine umfassende theoretische Fundierung der untersuchten Wirkungszusammenhänge zu achten. NEUSREL arbeitet wie PLS verteilungsfrei, was eine breite Anwendbarkeit ermöglicht. Die erforderliche Stichprobengröße ist abhängig von der Modellkomplexität: Bei Vorliegen von nichtlinearen und Interaktionseffekten wird allgemein ein Stichprobenumfang von ca. 250 gefordert. Neben der NEUSREL-Analyse bietet das Programm die Durchführung einer PLS-Schätzung, sodass der Anwender auch eine vergleichende Untersuchung mit beiden Schätzverfahren durchführen kann. Eine ausführliche Darstellung des Verfahrens findet sich bei Buckler/ Hennig-Thurau 2008. 3.4.3 Varianzanalyse Definition Mit Hilfe der Varianzanalyse wird der Einfluss einer oder mehrerer (mindestens nominalskalierter) Variablen auf eine oder mehrere metrisch skalierte Variablen untersucht. Dabei wird festgestellt, ob zwischen verschiedenen Gruppen signifikante Unterschiede bestehen, die auf den Einfluss einer oder mehrerer kontrollierbarer Variablen zurückzuführen sind. Typischer Anwendungsbereich der Varianzanalyse ist die Auswertung von Experimenten (vgl. Teil 5); insofern eignet sich die Varianzanalyse zur Überprüfung von Kausalhypothesen. Eine ausführliche Beschreibung der verschiedenen varianzanalytischen Methoden findet sich bei Scheffé 1999. Eine beispielhafte Fragestellung lautet: Wie hängt die Absatzmenge von der Platzierung des Produkts im Geschäft ab? Eine Varianzanalyse vollzieht sich grundsätzlich in folgenden Schritten (Herrmann/ Landwehr 2008, S. 585): Modellspezifizierung, Zerlegung der Gesamtabweichung, Berechnung der Varianzen und Messung der Effekte, Signifikanztest, Interpretation der Ergebnisse. <?page no="315"?> 316 Datenanalyse Die einzelnen Varianten der Varianzanalyse unterscheiden sich dabei nach der Anzahl der unabhängigen Variablen, nach der Anzahl der abhängigen Variablen sowie nach dem Skalenniveau der unabhängigen Variablen. Einfaktorielle Varianzanalyse Im Folgenden soll die grundsätzliche Vorgehensweise anhand der univariaten einfaktoriellen Varianzanalyse (ANOVA) erläutert werden. Im Rahmen der univariaten einfaktoriellen Varianzanalyse wird die Wirkung einer einzigen unabhängigen nominalskalierten Variable (Faktor) mit k = 1, …, s Ausprägungen (Faktorstufen) auf eine metrisch skalierte abhängige Variable geprüft; das hier dargestellte Verfahren findet bei Experimenten nach einem vollständigen Zufallsplan Anwendung. Die Modellformulierung lautet: ik k ik u y + α + μ = mit y ik = Beobachtungswert i der Faktorstufe k (i = 1, …, n; k = 1,…, s), = Mittelwert der Grundgesamtheit, α k = Wirkung der Stufe k des Faktors A i.S. der Abweichung des Faktorstufenmittelwerts vom Gesamtmittelwert der Stichprobe ( k s 1 k α = ), u ik = nicht erklärter Einfluss der Zufallsgrößen in der Grundgesamtheit. Es ist nun zu überprüfen, ob Unterschiede in den Mittelwerten der abhängigen Variable, z.B. unterschiedliche Absatzmengen, bei den einzelnen Faktorstufen (z.B. unterschiedliche Platzierungen im Geschäft) statistisch signifikant sind. Das Ausgangstableau der einfaktoriellen Varianzanalyse wird in Abb. 6.24 dargestellt. Beobachtungen i Treatmentstufen 1 k s 1 i n Gruppenmittelwerte Gesamtmittelwert Abb. 6.24: Ausgangstableau der einfaktoriellen Varianzanalyse Die Gruppenmittelwerte k y , d.h. die Mittelwerte bei den einzelnen Faktorstufen, streuen um den Gesamtmittelwert y . Ausgangspunkt der Überlegungen ist die sog. Streuungszerlegung: Es gilt, dass sich die Gesamtstreuung, gemessen als Summe der quadrierten Abweichungen der Beobachtungswerte y ik vom Gesamtmittelwert y , additiv <?page no="316"?> Verfahren zur Messung von Beziehungen 317 aus der Treatmentquadratsumme und der Fehlerquadratsumme zusammensetzt, es gilt also (vgl. Bortz/ Schuster 2010, S. 207 f.): QS Tot = QS Treat + QS F mit QS Tot = Totale Quadratsumme, QS Treat = Treatmentquadratsumme, QS F = Fehlerquadratsumme. Die Treatmentquadratsumme bezeichnet dabei die Streuung zwischen den Gruppen, welche also auf die verschiedenen Faktorstufen zurückzuführen ist, wohingegen die Fehlerquadratsumme die Streuung innerhalb der Gruppen bezeichnet, die aus zufälligen Schwankungen resultiert. Die einzelnen Quadratsummen berechnen sich wie folgt: ( ) ( ) ( ) = = = = = − = − ⋅ = − = − = s 1 k F Tot 2 k Treat n 1 i s 1 k 2 k ik F n 1 i s 1 k 2 ik Tot . QS QS y y n QS y y QS y y QS Dividiert man die Quadratsummen durch die jeweilige Anzahl an Freiheitsgraden, resultieren die empirischen Varianzen als (vgl. Bortz/ Schuster 2010, S. 209): 1 s n QS MQ Tot Tot − ⋅ = 1 s QS MQ Treat Treat − = s s n QS MQ F F − ⋅ = . Die Freiheitsgrade der Gesamtvarianz setzen sich additiv aus den Freiheitsgraden der Treatmentvarianz und den Freiheitsgraden der Fehlervarianz zusammen; zwischen den Varianzen besteht jedoch keine additive Beziehung. Wird untersucht, ob sich die Gruppenmittelwerte i y signifikant voneinander unterscheiden, ist folgende Nullhypothese aufzustellen: s k 1 0 : H μ = = μ = = μ . Die Nullhypothese besagt, dass die Gruppenmittelwerte identisch sind. Die zugehörige Alternativhypothese besagt entsprechend, dass sich mindestens zwei Gruppenmittelwerte signifikant voneinander unterscheiden. Je größer die Treatmentvarianz MQ Treat im Vergleich zur Fehlervarianz MQ F ist, umso größer ist der Einfluss des Treatments im Vergleich zu zufälligen Einflüssen. Als Prüfgröße wird <?page no="317"?> 318 Datenanalyse F Treat emp MQ MQ F = verwendet. Der empirische F-Wert wird mit dem theoretischen Wert der F-Verteilung bei 1 s − Freiheitsgraden im Zähler, n s s Freiheitsgraden im Nenner und einem Signifikanzniveau α verglichen. Ist F emp > F theor , so ist die Nullhypothese zu verwerfen, d.h. es ist von einem signifikanten Einfluss des Testfaktors auf die abhängige Variable auszugehen. Die Ergebnisdarstellung erfolgt in Form einer sog. Varianztabelle (vgl. Tab. 6.14). Tab. 6.14: Ergebnistabelle einer einfaktoriellen Varianzanalyse Streuungsursache Quadratsumme Freiheitsgrade Varianz F emp Faktorstufe QS Treat s-1 MQ Treat F Treat MQ MQ Zufall QS F n s-s MQ F Gesamt QS Tot n s-1 MQ Tot Führt die Varianzanalyse zu einem signifikanten F-Wert, so ist lediglich der Schluss zulässig, dass sich mindestens zwei Gruppenmittelwerte signifikant voneinander unterscheiden, d.h. dass das Experiment als solches eine Wirkung hat; welche Mittelwerte im Einzelnen signifikant voneinander unterschiedlich sind, ist aus dem Overall-Test der Varianzanalyse nicht feststellbar. Zur Durchführung von Einzelvergleichen wurden eine ganze Reihe von Tests entwickelt, bspw. der in SPSS enthaltene Duncan-Test oder der im Folgenden dargestellte Scheffé-Test (vgl. hierzu Bortz/ Schuster 2010, S. 232 ff.). Dadurch kann festgestellt werden, welche Ausprägung des Treatmentfaktors die größte Wirkung entfaltet. Für die einzelnen Mittelwertpaare können folgende Nullhypothesen aufgestellt werden: 0 y y D : H 0 y y D : H 3 1 2 2 0 2 1 1 10 = − = = − = usw., d.h. allgemein ' k k k k0 y y D : H − = s. , 1, k ; k' k alle für = ≠ Beim Scheffé-Test wird überprüft, welche Einzelvergleiche (Mittelwertdifferenzen) signifikant sind; dabei wird der gesamte Hypothesenkomplex über sämtliche Einzelvergleiche auf Signifikanzen hin überprüft. Der Scheffé-Test gewährleistet, dass die Wahrscheinlichkeit eines α -Fehlers für jeden Einzelvergleichstest nicht größer ist als das Signifikanzniveau α für den Overall-Test der Varianzanalyse. Zur Durchführung des Scheffé-Tests werden zunächst die empirischen Mittelwertdifferenzen gemäß Tab. 6.15 ermittelt. Die empirischen Mittelwertdifferenzen D ik werden mit folgender Prüfgröße verglichen: <?page no="318"?> Verfahren zur Messung von Beziehungen 319 ( ) ( ) ( ) ( ) n 1 ; 1 n s ; 1 s F MQ 1 s 2 D theor F krit α − − − ⋅ − = . Tab. 6.15: Empirische Ermittlung von Mittelwertdifferenzen 1 y 2 y k y s y 1 y − D 12 D 1k D 1s 2 y − D 2k D 2s : k y − D ks : s y − Ist die empirische Differenz größer als die kritische Differenz, so ist die empirische Differenz auf dem α -Niveau signifikant. Die Anwendung der Varianzanalyse ist an folgenden Voraussetzungen gebunden (vgl. Malhotra 2010, S. 540): Die Störgröße ist normalverteilt mit einem Erwartungswert in Höhe von Null und konstanter Varianz. Es darf kein systematischer Fehler bei der Erhebung auftreten. Die Störgrößen sind unkorreliert, d.h. die Beobachtungswerte sind voneinander unabhängig. Während geringfügige Verletzungen der ersten beiden Annahmen keine nennenswerte Gefährdung der Validität der Ergebnisse herbeiführen, kann eine Verletzung der dritten Prämisse zu starken Verzerrungen bei der Berechnung des empirischen F-Werts führen. Die Vorgehensweise der einfaktoriellen Varianzanalyse soll anhand eines Beispiels verdeutlicht werden. Beispiel 6.32: Das Unternehmen Hicks möchte für seine Babynahrung eine kurzfristige Absatzsteigerung erzielen und testet vorab in drei ausgewählten Einzelhandelsgeschäften folgende Promotionmaßnahmen: P 1 : Einsatz von Hostessen am Point of Sale; P 2 : Gewinnspiel; P 3 : Sonderpreisaktion. Angesichts der Testergebnisse nimmt das Unternehmen an, dass die Art der Promotionmaßnahme das Ergebnis signifikant beeinflusst. Es wird folgende Nullhypothese formuliert: H 0 : (P 1 ) = (P 2 ) = (P 3 ). Die Ergebnisse des Store-Tests sind im folgenden Ausgangstableau enthalten. <?page no="319"?> 320 Datenanalyse P 1 P 2 P 3 Beobachtungswerte 31 32 30 (Absatz/ Tag) 12 15 20 26 28 28 Summe 69 75 78 Gruppenmittelwert 23 25 26 Gesamtmittelwert 24 2/ 3 Promotionaktion Streuungszerlegung: QS Tot = (31 - 24 2/ 3) 2 + (12 - 24 2/ 3) 2 + (26 - 24 2/ 3) 2 + (32 - 24 2/ 3) 2 + (15 - 24 2/ 3) 2 + (28 - 24 2/ 3) 2 + (30 - 24 2/ 3) 2 + (20 - 24 2/ 3) 2 + (28 - 24 2/ 3) 2 = 422 QS F = (31 - 23) 2 + (12 - 23) 2 + (26 - 23) 2 + (32 - 25) 2 + (15 - 25) 2 + (28 - 25) 2 + (30 - 26) 2 + (20 - 26) 2 + (28 - 26) 2 = 408 QS Treat = QS Tot - QS F = 3 (23 - 24 2/ 3) 2 + 3 (25 - 24 2/ 3) 2 + 3 (26 - 24 2/ 3) 2 = 14 Durch Division mit der zugehörigen Anzahl von Freiheitsgraden erhält man die Varianzen als: 75 , 52 1 3 3 422 1 s n QS MQ Tot Tot = − ⋅ = − ⋅ = 7 1 3 14 1 s QS MQ Treat Treat = − = − = 68 3 3 3 408 s s n QS MQ F F = − ⋅ = − ⋅ = . Der anschließende Signifikanztest führt zu folgendem Ergebnis: 1029 , 0 68 7 MQ MQ F F Treat emp = = = 14 , 5 F F F 05 , 0 ; 6 ; 2 ; s s n ; 1 s theor = = = α − ⋅ − . Da F emp < F theor wird die Nullhypothese angenommen, d.h. es kann nicht von einem signifikanten Einfluss der Promotionmaßnahme auf die Absatzmenge ausgegangen werden. Im vorangegangenen Beispiel wurde das grundsätzliche Vorgehen der Varianzanalyse dargestellt, welche bei Vorliegen eines vollständigen Zufallsplans Anwendung findet. Für die übrigen, in Abschnitt 3.3 des 5. Teils dargestellten Versuchsanordnungen muss das Verfahren modifiziert werden. Im Folgenden sollen nur ausgewählte Erweiterungen der Varianzanalyse angeführt werden. Ausführliche Darstellungen varianzanalytischer Methoden bei unterschiedlichen Versuchsanordnungen finden sich u.a. bei Scheffé 1999 sowie Bailey 2008. <?page no="320"?> Verfahren zur Messung von Beziehungen 321 Varianzanalyse beim zufälligen Blockplan Beim zufälligen Blockplan wird ein Störfaktor explizit dadurch berücksichtigt, dass nach den Ausprägungen dieses Faktors Blöcke gebildet werden. Auch hier wird die Wirkung eines Testfaktors (z.B. Platzierung im Geschäft) auf eine abhängige Variable (z.B. Absatzmenge) untersucht; die Wirkung wird jedoch getrennt nach den Ausprägungen eines Störfaktors, z.B. Geschlecht der Testpersonen, ermittelt. Das Ausgangstableau der Varianzanalyse beim zufälligen Blockplan findet sich in Abb. 6.25. Blöcke Treatmentstufen Zeilenmittel 1 k s 1 y 11 y 1k y 1s • l y l1 y lk y ls • m y m1 y mk y ms • m Spaltenmittel • • • Abb. 6.25: Ausgangstableau der Varianzanalyse beim zufälligen Blockplan Das theoretische Modell der Varianzanalyse lautet in diesem Fall (vgl. Hüttner/ Schwarting 2002, S. 267): lk l k lk u y + τ + α + μ = mit y lk = Beobachtungswert in Block l bei der Faktorstufe k, = Mittelwert der Grundgesamtheit, α k = Wirkung der Stufe k des Faktors A = α = 0 k s 1 k , τ l = Wirkung der Ausprägung l der Störgröße T = τ = 0 l m 1 l , u lk = nicht erklärter Einfluss von Zufallsgrößen in der Grundgesamtheit. Die Gesamtstreuung setzt sich nunmehr folgendermaßen zusammen: QS Tot = QS Treat + QS bl + QS F mit QS Tot = Totale Quadratsumme, QS Treat = Treatmentquadratsumme, QS bl = Blockquadratsumme, QS F = Fehlerquadratsumme. Die Berechnung der Quadratsummen erfolgt folgendermaßen: ( ) = = − = s 1 k m 1 l 2 lk Tot y y QS <?page no="321"?> 322 Datenanalyse ( ) = • − = s 1 k 2 k Treat y y m QS ( ) = • − = m 1 l 2 l bl y y k QS ( ) . y y y y QS s 1 k m 1 l 2 k l lk F = = • • + − − = Die Varianzen erhält man wiederum mittels Division durch die jeweiligen Freiheitsgrade: 1 s m QS MQ Tot Tot − ⋅ = 1 s QS MQ treat Treat − = 1 m QS MQ bl bl − = ( )( ) . 1 s 1 m QS MQ F F − − = Die Prüfgrößen für die Effekte der Treatments und der Blockzugehörigkeit erhält man durch Division der entsprechenden Varianzen durch die Fehlervarianz, also F Treat ) Treat ( emp MQ MQ F = F bl ) bl ( emp MQ MQ F = . Beispiel 6.33: Das Unternehmen des Beispiels 6.31 vermutet, dass die Wirkung alternativer Promotionmaßnahmen maßgeblich davon beeinflusst wird, in welchem Geschäftstyp das Produkt angeboten wird. Die drei Promotionmaßnahmen aus dem Beispiel 6.32 werden daher in drei Geschäften unterschiedlichen Typs getestet: G 1 : Tante-Emma-Laden; G 2 : Supermarkt; G 3 : Discounter. Auf Replikationen wird verzichtet, da die Störgröße (Geschäftstyp) bereits explizit im Untersuchungsdesign berücksichtigt wird. Die Ergebnisse des Storetests sind in nachfolgender Tabelle enthalten. <?page no="322"?> Verfahren zur Messung von Beziehungen 323 Blöcke Treatments P 1 P 2 P 3 Zeilenmittel G 1 31 32 30 31,00 G 2 12 15 20 15,67 G 3 26 28 28 27,33 Spaltenmittel 23,00 25,00 26,00 24,67 Die einzelnen Quadratsummen resultieren als: ( ) ( ) ( ) ( ) = = • • = • = • = = = + − − = = − = = − = = − = s 1 k m 1 l 2 k l lk F m 1 l 2 l bl s 1 k 2 k Treat s 1 k m 1 l 2 lk Tot . 3 , 23 y y y y QS 6 , 384 y y k QS 14 y y m QS 422 y y QS Somit können die Varianzen wie folgt errechnet werden: ( )( ) . 3 8 , 5 1 s 1 m QS MQ 3 , 192 1 m QS MQ 7 1 s QS MQ 75 , 52 1 s m QS MQ F F bl bl Treat Treat Tot Tot = − − = = − = = − = = − ⋅ = Daraus resultieren die folgenden Prüfgrößen: . 97 , 32 MQ MQ F 2 , 1 MQ MQ F F bl ) bl ( emp F Treat ) Treat ( emp = = = = Varianzanalyse bei mehrfaktoriellen Plänen Bei mehrfaktoriellen Plänen wird die Wirkung von mindestens zwei Testfaktoren untersucht. Neben der Wirkung der Platzierung im Geschäft auf die Absatzmenge kann beispielsweise auch der Einfluss alternativer Verpackungen getestet werden. Zu berücksichtigen ist dabei die Tatsache, dass die Testfaktoren zum einen isoliert auf die abhängige Variable wirken, zum anderen aber auch ihr Zusammenwirken die abhängige Variable beeinflusst. Beispielsweise kann eine ungünstige Platzierung im Geschäft durch eine auffällige und ansprechende Verpackung zumindest teilweise kompensiert werden. Aus diesem Grunde werden im Rahmen einer mehrfaktoriellen Vari- <?page no="323"?> 324 Datenanalyse anzanalyse nicht nur die Wirkungen der Testfaktoren, sondern auch der Einfluss der Interaktionen zwischen den Faktoren analysiert. Das zugrunde liegende theoretische Modell lautet am Beispiel eines bifaktoriellen Plans (vgl. Backhaus et al. 2015, S. 187): ( ) ikl kl l k ikl u y + + + + = mit y ikl = Beobachtungswert i bei Treatment k des Faktors A und Treatment l des Faktors B, = Mittelwert der Grundgesamtheit, α k = Wirkung des Treatments k des Faktors A, β l = Wirkung des Treatments l des Faktors B, ( αβ ) kl = Wirkung der Interaktion der Treatments k und l der Faktoren A und B, u ikl = nicht erklärter Einfluss der Zufallsgrößen in der Grundgesamtheit. Das Ausgangstableau der zweifaktoriellen Varianzanalyse ist in Abb. 6.26 dargestellt. Dabei bezeichnen y ikl = Beobachtungswert i bei Treatment k von Faktor A und Treatment l des Faktors B, y = Gesamtmittelwert, kl y • = Mittelwert bei der Treatmentkombination kl der Faktoren A und B, • • k y = Gesamtmittelwert bei Treatment k von Faktor A, l y •• = Gesamtmittelwert bei Treatment l von Faktor B. Die Gesamtstreuung QS Tot der Beobachtungswerte setzt sich aus der Streuung innerhalb der Gruppen QS F (Fehlerstreuung) und der Streuung zwischen den Gruppen QS z , welche auf das Experiment zurückzuführen ist, zusammen. Die Streuung zwischen den Gruppen lässt sich wiederum zerlegen in eine Streuung der Haupteffekte QS A und QS B und eine Streuung durch Wechselwirkung der Faktoren A und B, QS AxB . Die einzelnen Streuungen werden wie folgt berechnet (vgl. Bortz/ Schuster 2010, S. 292 ff.): ( ) = = = − = n 1 i s 1 k m 1 l 2 ikl Tot y y QS ( ) = = • − = s 1 k m 1 l 2 kl z y y n QS ( ) = • • − ⋅ = s 1 k 2 k A y y n m QS <?page no="324"?> Verfahren zur Messung von Beziehungen 325 ( ) = • • − ⋅ = m 1 l 2 l B y y n s QS B A z B A QS QS QS QS − − = × . QS QS QS z Tot F − = Treatments Faktor B Zeilenmittelwerte y .k ⎯ . Treatments Faktor A Replikationen i 1 ... l ... m 1 1 … n Beobachtungswerte y i1l … Zellenmittelwerte ⎯ y .1l ⎯ y .11 ... ⎯ y .1l ... ⎯ y .1m ⎯ y .1. k 1 … n Beobachtungswerte y ikl … Zellenmittelwerte ⎯ y .kl ⎯ y .k1 ... ⎯ y .kl ... ⎯ y .km ⎯ y .k. s 1 … n Beobachtungswerte y isl Zellenmittelwerte ⎯ y .sl ⎯ y .s1 ... ⎯ y .sl ... ⎯ y .sm ⎯ y .s. Spaltenmittelwerte ⎯ y ..l ⎯ y ..1 ... ⎯ y ..l ... ⎯ y ..m ⎯ y Abb. 6.26: Ausgangstableau der zweifaktoriellen Varianzanalyse Die Varianzen resultieren wiederum als Quotienten der Quadratsummen und der zugehörigen Freiheitsgrade: m s n QS MQ Tot Tot ⋅ ⋅ = 1 s QS MQ A A − = 1 m QS MQ B B − = ( )( ) 1 m 1 s QS MQ B A B A − − = × × ( ) 1 n m s QS MQ F F − ⋅ = . Als Prüfgrößen verwendet man wieder empirische F-Werte, die sich als Quotienten der jeweiligen Faktorvarianzen durch die Fehlervarianz ergeben; diese Prüfgrößen werden <?page no="325"?> 326 Datenanalyse wieder mit den entsprechenden theoretischen Werten der F-Verteilung verglichen (bei entsprechender Anzahl von Freiheitsgraden und Signifikanzniveau α ): ( ) F A A emp MQ MQ F = ( ) F B B emp MQ MQ F = ( ) . MQ MQ F F B A B A emp × × = Welche Mittelwertdifferenzen signifikant sind, kann wiederum mit Hilfe des Scheffé- Tests ermittelt werden. Beispiel 6.34: Das Unternehmen des Beispiels 6.33 möchte zusätzlich in Erfahrung bringen, ob unterschiedliche Platzierungen im Geschäft die Absatzmenge beeinflussen. Getestet werden zwei alternative Platzierungen: A 1 : Normalregal im Verbund mit sonstigen Babyprodukten; A 2 : Normalregal im Verbund mit Konserven. Die Ergebnisse des Tests sind in der nachfolgenden Tabelle enthalten. Replikationen Treatments A 1 A 2 B 1 B 2 B 3 B 1 B 2 B 3 1 31 32 30 22 20 18 2 12 15 21 17 20 17 3 26 28 27 18 17 16 Die Quadratsummen errechnen sich wie folgt: ( ) ( ) ( ) ( ) { } 5 , 618 5 , 21 16 5 , 21 32 5 , 21 31 y y QS 2 2 2 2 n 1 i s 1 k m 1 l ikl Tot = − + + − + − = − = = = = ( ) ( ) ( ) ( ) { } 5 , 556 5 , 21 17 5 , 21 20 5 , 21 31 3 y y n QS 2 2 2 s 1 k m 1 l 2 kl z = − + + − + − ⋅ = − = = = • ( ) ( ) ( ) ( ) { } 5 , 328 5 , 21 22 5 , 21 17 5 , 21 5 , 25 3 3 y y n m QS s 1 k 2 2 2 2 k A = − + − + − ⋅ ⋅ = − ⋅ = = • • ( ) ( ) ( ) { } 3 , 120 5 , 21 3 , 18 5 , 21 6 , 24 3 2 y y n s QS 2 2 m 1 l 2 l B = − + − ⋅ ⋅ = − ⋅ = = • • 6 , 107 3 , 120 5 , 328 5 , 618 QS QS QS QS B A z B A = − − = − − = × . 62 5 , 556 5 , 618 QS QS QS z Tot F = − = − = <?page no="326"?> Verfahren zur Messung von Beziehungen 327 Daraus resultieren folgende Varianzen und Prüfgrößen: 36 , 34 3 2 3 5 , 618 m s n QS MQ Tot Tot = ⋅ ⋅ = ⋅ ⋅ = ( ) 5 , 328 1 2 5 , 328 1 s QS MQ A A = − = − = ( ) 17 , 60 1 3 3 , 120 1 m QS MQ B B = − = − = ( )( ) 83 , 53 ) 1 3 )( 1 2 ( 6 , 107 1 m 1 s QS MQ B A B A = − − = − − = × × ( ) 17 , 5 ) 1 3 ( 3 2 62 1 n m s QS MQ F F = − ⋅ ⋅ = − ⋅ = ( ) 54 , 63 17 , 5 5 , 328 MQ MQ F F A A emp = = = ( ) 65 , 11 17 , 5 17 , 60 MQ MQ F F B B emp = = = ( ) . 41 , 10 17 , 5 83 , 53 MQ MQ F F B A B A emp = = = × × Varianzanalyse beim lateinischen Quadrat Beim lateinischen Quadrat werden zwei Störfaktoren gleichzeitig berücksichtigt (z.B. Geschlecht der Probanden, Geschäftstyp, vgl. die Ausführungen in Abschnitt 3.3 im 5. Teil). Da kein vollständiges Design vorliegt, sind Interaktionseffekte nicht beschreibbar. Das theoretische Modell lautet (vgl. Hüttner/ Schwarting 2002, S. 270): lpk p l k lpk u y + υ + τ + α + μ = mit y lpk = Beobachtungswert in Zeile l und Spalte p beim Treatment k des Faktors A ( ) s , , 1 k , q , 1 p , m , , 1 l = = = , = Mittelwert in der Grundgesamtheit, α k = Wirkung des Treatments k des Faktors A, τ l = Wirkung der Ausprägung l der Störgröße T, υ p = Wirkung der Ausprägung p der Störgröße N, u lpk = nicht erklärter Einfluss der Zufallsgrößen in der Grundgesamtheit. Die Ausgangssituation der Varianzanalyse beim lateinischen Quadrat ist in Abb. 6.27 dargestellt. Aufgrund der quadratischen Versuchsanordnung muss sich die Zahl der Ausprägungen entsprechen, d.h. m = q = s. Pro Zelle wird dabei im Standardfall ein Messwert y lp erhoben (anstelle von y lpk wird y lp notiert, da ein Treatment k pro Zeile und Spalte nur einmal vorkommt). Lateinische Quadrate mit Messwiederholungen (Replikationen) werden bei Bortz/ Schuster 2010, <?page no="327"?> 328 Datenanalyse S. 396 ff. dargestellt. Unter dem Beobachtungswert findet sich in Klammern das zugehörige Treatment. Störgröße T Störgröße N 1 2 … p … q Zeilenmittel 1 y 11 (1) y 12 (2) … y 1p … y 1q (s) ⎯ y 1. 2 y 21 (2) y 22 (3) … y 2p … y 2q (1) ⎯ y 2. … … … … … … … … l y l1 y l2 … y lp … y lq ⎯ y l. … … … … … … … … m y m1 (s) y m2 (1) … y mp … y mq (s-1) ⎯ y m. Spaltenmittel ⎯ y .1 ⎯ y .2 … ⎯ y .p … ⎯ y .q ⎯ y Abb. 6.27: Ausgangssituation der Varianzanalyse beim lateinischen Quadrat Für die einzelnen Streuungen gilt (vgl. Hüttner/ Schwarting 2002, S. 270): ( ) = = − = m 1 l q 1 p 2 lp Tot y y QS ( ) = • − ⋅ = m 1 l 2 l T y y s QS ( ) = − ⋅ = s 1 k 2 k Treat y y s QS ( ) = • − ⋅ = q 1 p 2 p N y y s QS ( ) = = • • + − − − = m 1 l q 1 p 2 k p l 2 F y 2 y y y y QS lp . k y resultiert dabei als Mittelwert der Beobachtungswerte bei Faktorstufe k über alle Zeilen und Spalten. QS F stellt allerdings nur dann eine Fehlerstreuung dar, die als Prüfgröße für die Haupteffekte verwendet werden kann, wenn keine Interaktionen vorliegen. Durch Division mit der jeweiligen Zahl der Freiheitsgrade erhält man: ( ) 1 q m k QS MQ 2 2 2 Tot Tot − = = = 1 k QS MQ T T − = <?page no="328"?> Verfahren zur Messung von Beziehungen 329 1 k QS MQ N N − = 1 k QS MQ Treat Treat − = ( )( ) . 2 k 1 k QS MQ F F − − = Die Prüfgrößen erhält man wiederum als: ( ) F T T emp MQ MQ F = ( ) F N N emp MQ MQ F = ( ) . MQ MQ F F Treat Treat emp = Beispiel 6.35: Im Rahmen einer Werbeplanung soll erkundet werden, wie sich drei verschiedene Werbespots (Faktor A) für das Produkt auf das Kaufverhalten (gemessen an der Absatzmenge) von drei verschiedenen Konsumentengruppen (Faktor B) auswirken. Um eine Vergleichbarkeit der Ergebnisse zu gewährleisten, erfolgt die Untersuchung zeitgleich an drei verschiedenen Standorten (Faktor C). Die Stichprobe beträgt N = 270 Konsumenten. Interaktionen sollen nicht berücksichtigt werden. Auf der Grundlage eines lateinischen Quadrates ergibt sich folgende Datentabelle: a 1 a 2 a 3 b 1 c 1 c 2 c 3 b 2 c 2 c 3 c 1 b 3 c 3 c 1 c 2 Jede Zelle umfasst 30 Konsumenten, d.h. n = 30 Konsumenten der Konsumentengruppe b 1 sehen Werbespot a 1 für das Produkt am Standort c 1 , 30 Konsumenten der Konsumentengruppe b 1 sehen Werbespot a 2 für das Produkt am Standort c 2 ,… und n = 30 Konsumenten der Konsumentengruppe b 3 sehen Werbespot a 3 für das Produkt am Standort c 2 . Das nachfolgende Ausgangstableau enthält die Absatzmengen bei den einzelnen Treatments sowie die zugehörigen Zeilen- und Spaltenmittelwerte. a 1 a 2 a 3 Zeilenmittel b 1 11 14 11 12 b 2 12 8 10 10 b 3 10 17 15 14 Spaltenmittel 11 13 12 12 <?page no="329"?> 330 Datenanalyse Die Quadratsummen errechnen sich als: ( ) ( ) 920 . 1 9 25 4 4 16 0 1 4 1 30 y y n QS m 1 l q 1 p 2 lp Tot = + + + + + + + + ⋅ = − ⋅ = = = ( ) ( ) ( ) ( ) { } 720 12 14 12 10 12 12 3 30 y y s n QS 2 2 m 1 l 2 l T = − + − + − ⋅ ⋅ = − ⋅ ⋅ = = • ( ) ( ) ( ) ( ) { } 180 12 12 12 13 12 11 3 30 y y s n QS 2 2 2 q 1 p 2 p N = − + − + − ⋅ ⋅ = − ⋅ ⋅ = = • ( ) ( ) ( ) ( ) { } 780 12 9 12 13 12 12 3 30 y y s n QS 2 3 2 2 3 2 2 3 2 s 1 k 2 k Treat = − + − + − ⋅ ⋅ = − ⋅ ⋅ = = . 240 y 2 y y y y n QS m 1 l q 1 p 2 k p l F lp = = • • = + − − − ⋅ = Durch Division der Quadratsummen durch die jeweiligen Freiheitsgrade resultieren die folgenden Varianzen: ( ) 240 8 1920 1 q m k QS MQ 2 2 2 Tot Tot = = − = = = 360 2 720 1 k QS MQ T T = = − = 90 2 180 1 k QS MQ N N = = − = 390 2 780 1 k QS MQ Treat Treat = = − = ( )( ) . 120 2 240 2 k 1 k QS MQ F F = = − − = Für die Effekte der Störgrößen N und T sowie des Treatments ergeben sich mittels Division durch die Fehlervarianz die folgenden Prüfgrößen: ( ) 3 120 360 MQ MQ F F T T emp = = = ( ) 75 , 0 120 90 MQ MQ F F N N emp = = = ( ) . 25 , 3 120 390 MQ MQ F F Treat Treat emp = = = <?page no="330"?> Verfahren zur Messung von Beziehungen 331 3.4.4 Kontingenzanalyse Definition Im Rahmen der Kontingenzanalyse wird die wechselseitige Abhängigkeit zwischen zwei oder mehreren nominalskalierten oder klassierten höherskalierten Variablen untersucht. Als Beispiel kann der Zusammenhang zwischen Geschlecht und Markenwahl angeführt werden. Ausgangspunkt der Analyse ist eine Häufigkeitstabelle, welche in allgemeiner Form in Abb. 6.28 dargestellt ist. Dabei sind: n kl = absolute Häufigkeit der Merkmalskombination kl (k=1, …, s; l=1, …, m), = • = s 1 k kl l n n = Häufigkeit des Auftretens der Merkmalsausprägung l über alle k (Spaltensumme), = • = m 1 i kl k n n = Häufigkeit des Auftretens der Merkmalsprägung k über alle l (Zeilensumme), n = Gesamtzahl der Fälle. Variable 1 Variable 2 1 … l … m 1 n 11 … n 1l … n 1m n 1. … … … … … … … k n k1 … n kl … n km n k. … … … … … … … s n s1 … n sl … n sm n s. n .1 … n .l … n .m n Abb. 6.28: Häufigkeitstabelle für die Kontingenzanalyse Die in Abb. 6.28 enthaltenen absoluten Häufigkeiten können anhand der Gesamtzahl der Fälle, der Zeilensummen n k. oder der Spaltensummen n .l relativiert werden (Kreuztabellierung); dies erlaubt ein erstes Urteil, ob ein Zusammenhang zwischen den Variablen vermutet werden kann. Genauere Ergebnisse lassen sich mit einem ²- Unabhängigkeitstest ermitteln. ²-Unabhängigkeitstest Die H 0 -Hypothese beim ²-Unabhängigkeitstest lautet: Beide Variablen treten unabhängig voneinander auf. Zur Prüfung der Nullhypothese werden die empirischen Häufigkeiten der Merkmalskombinationen k und l, n kl , mit den theoretischen Häufigkeiten N kl verglichen; diese errechnen sich als: n n n N l k kl • • ⋅ = . <?page no="331"?> 332 Datenanalyse Das Grundprinzip der Kontingenzanalyse basiert darauf, dass ein Zusammenhang zwischen beiden Variablen umso eher anzunehmen ist, je weniger sich die empirischen von den theoretischen Häufigkeiten unterscheiden. Grundlage für die statistische Überprüfung des Zusammenhangs ist die Summe der quadrierten Abweichungen zwischen den beobachteten und den theoretischen Häufigkeiten (n kl - N kl ) 2 . Als Prüfgröße wird der empirische χ 2 -Wert herangezogen (vgl. Bortz/ Schuster 2010, S. 172): ( ) ( ) • • • • ⋅ ⋅ = = − = − = χ k l n n n 2 n n n kl s 1 k m 1 l kl 2 kl kl 2 emp l k l k n N N n . Voraussetzung ist dabei, dass die erwarteten Häufigkeiten pro Zelle größer als 5 sind. Der empirische χ 2 -Wert wird mit dem theoretischen Wert der χ 2 -Verteilung bei einem vorgegebenen Signifikanzniveau α und (k-1)(l-1) Freiheitsgraden verglichen. Die H 0 - Hypothese ist abzulehnen, wenn 2 theor 2 emp χ > χ ; dann kann von einem signifikanten Zusammenhang zwischen den untersuchten Variablen ausgegangen werden. Allerdings liefert die Kontingenzanalyse keine Aussagen über die Richtung des Zusammenhangs; dies ist mit Hilfe von Plausibilitätsüberlegungen festzustellen. Bei den Variablen „Geschlecht“ und „Markenwahl“ wäre etwa davon auszugehen, dass die Geschlechtszugehörigkeit die Markenwahl beeinflusst, nicht jedoch umgekehrt. Die grundsätzliche Vorgehensweise soll anhand eines Beispiels illustriert werden. Beispiel 6.36: Eine Kosmetikfirma möchte feststellen, ob Männer und Frauen bzgl. Haarstylingmitteln ein unterschiedliches Markenwahlverhalten aufweisen. Im Rahmen eines Store-Tests wurden dazu 5 Marken dahingehend untersucht, wieviele Käufer im Testzeitraum männlich oder weiblich waren. Die nachfolgende Tabelle zeigt die beobachteten und - in Klammern - die erwarteten Häufigkeiten. Geschlecht Marke n k• 1 2 3 4 5 Männlich 1 12 (6,4) 14 (11,6) 4 (5,2) 7 (6,8) 16 (10) 40 Weiblich 2 4 (9,6) 15 (17,4) 9 (7,8) 10 (10,2) 9 (15) 60 n •l 16 29 13 17 25 100 N 11 ergibt sich beispielsweise als: . 4 , 6 100 16 40 N 11 = ⋅ = Dieser Wert lässt sich wie folgt interpretieren: Bei gleichem Markenwahlverhalten von Männern und Frauen müssten von den 16 Käufern von Marke 1 40 %, d.h. 6,4 Käufer, Männer sein. <?page no="332"?> Verfahren zur Messung von Beziehungen 333 Der empirische χ 2 -Wert errechnet sich als ( ) ( ) ( ) . 47 , 15 15 15 9 6 , 11 6 , 11 14 4 , 6 4 , 6 12 2 2 2 2 emp ≈ − + + − + − = χ Aus der ²-Tabelle resultiert bei einem Signifikanzniveau von 5 % (und damit einer Vertrauenswahrscheinlichkeit (1 α ) von 0,95) und 4 Freiheitsgraden folgender Wert: . 49 , 9 2 05 , 0 ); 1 2 )( 1 5 ( 2 ), 1 l )( 1 k ( 2 theor = χ = χ = χ − − α − − Da 2 theor 2 emp χ > χ , ist die H 0 -Hypothese abzulehnen, d.h. es besteht ein signifikanter Zusammenhang zwischen Geschlecht und Markenwahlverhalten. Zur Absicherung der Interpretation können einzelne Häufigkeiten der Kontingenztafel miteinander verglichen werden (analog zu den Einzelvergleichen im Rahmen der Varianzanalyse, vgl. hierzu Abschnitt 3.4.3). Ein geeignetes Verfahren wurde von Bresnahan und Shapiro (1966) vorgeschlagen. In der statistischen Literatur wurde eine Vielzahl weiterer Kontingenzmaße entwickelt, auf die im Einzelnen nicht eingegangen werden kann. Im Folgenden sollen nur einige der gebräuchlichsten skizziert werden. Phi-Koeffizient Der Phi-Koeffizient ( φ ) misst die Stärke des Zusammenhangs zweier Variablen im Spezialfall zweifach gestufter Merkmale (2 × 2-Kontingenztabelle). Er berechnet sich als: n 2 χ = φ und liegt im Wertebereich zwischen 0 und 1, wobei der Wert 0 einen nicht vorhandenen, der Wert 1 einen vollständigen Zusammenhang darstellt (dies ist dann der Fall, wenn alle Werte in der Tabelle auf der Haupt- oder Nebendiagonalen liegen). Kontingenzkoeffizient C Der Kontingenzkoeffizient C misst die Stärke des Zusammenhangs auch bei mehrfach gestuften Merkmalen, d.h. bei Merkmalen mit mehr als zwei Ausprägungen. Er kann wie folgt errechnet werden: n C 2 2 + χ χ = . Auch der Kontingenzkoeffizient C liegt grundsätzlich zwischen 0 und 1; der Wert von 1 wird allerdings nur asymptotisch erreicht. Da der obere Wert vom Umfang der Tabelle abhängig ist, sollte der Kontingenzkoeffizient nur zum Vergleich von Kontingenztabellen gleicher Größe verwendet werden. <?page no="333"?> 334 Datenanalyse Cramer’s V Cramer’s V stellt eine modifizierte Version des Phi-Koeffizienten für Tabellen größeren Umfangs dar. Wird φ für Tabellen größer als 2 × 2 errechnet, besitzt er keine Obergrenze; Cramer’s V bereinigt im Prinzip den Wert von Phi entweder mit der Zahl der Spalten oder der Zeilen (je nachdem, welcher Wert kleiner ist). Dadurch wird erreicht, dass V im Wertebereich zwischen 0 und 1 liegt. Die Formel lautet: ( ) ( ) 1 m , 1 s min V 2 − − φ = . Für zwei zweifach gestufte Merkmale gilt demnach: V = φ . Weitere Verfahren Zur Untersuchung der Zusammenhänge zwischen mehr als zwei nominalskalierten Variablen kann die sog. Konfigurationsfrequenzanalyse (KFA) angewendet werden, welche ebenfalls auf χ 2 basiert (vgl. ausführlich Krauth 1993). Darüber hinaus gibt es eine ganze Reihe weiterer Verfahren, die in der Literatur unter der Bezeichnung „loglineare“, „logit“ und „probit“-Modelle zu finden sind (vgl. Anderson 1990, Gilbert 1993). Auf diese soll hier jedoch nicht weiter eingegangen werden. 3.4.5 Korrelationsanalyse Definition Korrelationskoeffizienten messen die Stärke des Zusammenhangs zwischen zwei Variablen. Das Vorzeichen des Korrelationskoeffizienten gibt an, ob der Zusammenhang positiv oder negativ ist. In Abhängigkeit vom Skalenniveau sind unterschiedliche Koeffizienten gebräuchlich (vgl. Tab. 6.16). Tab. 6.16: Bivariate Korrelationsarten (Quelle: Bortz/ Schuster 2010, S. 171) Merkmal y Merkmal x Intervallskala Dichotomes Merkmal Ordinalskala Intervallskala Produkt-Moment- Korrelation Punktbiseriale Korrelation Rangkorrelation Dichotomes Merkmal φ -Koeffizient Biseriale Rangkorrelation Ordinalskala Rangkorrelation <?page no="334"?> Verfahren zur Messung von Beziehungen 335 Produkt-Moment-Korrelationskoeffizient Der Produkt-Moment-Korrelationskoeffizient ist definiert als: ( )( ) ( ) ( ) . y y x x y y x x r i 2 i i 2 i n 1 i i i − − − − = = Dabei gilt: 1 r 1 + ≤ ≤ − . Während die Größe des Korrelationskoeffizienten die Stärke des Zusammenhangs aufzeigt, gibt das Vorzeichen von r die Richtung des Zusammenhangs an. Für r = +1 (-1) besteht ein vollständiger positiver (negativer) Zusammenhang zwischen den Variablen. Zu beachten ist allerdings, dass der Produkt- Moment-Korrelationskoeffizient lediglich einen linearen Zusammenhang abbilden kann (vgl. Abb. 6.29). Abb. 6.29: Beispiele für Korrelationsdiagramme (Quelle: in Anlehnung an Überla 1977, S. 15) Die Korrelationsanalyse ist eng mit der Regressionsanalyse verbunden; so entspricht der Korrelationskoeffizient der Quadratwurzel des Bestimmtheitsmaßes (vgl. die Ausführungen in Abschnitt 3.4.1). Darüber hinaus gilt, dass die Korrelation zwischen den Variablen x und y der Korrelation zwischen den empirischen y-Werten und den vorhergesagten -Werten im Rahmen der Regressionsanalyse entspricht. Statistische Absicherung Soll aufgrund des empirisch bestimmten Korrelationskoeffizienten r auf den unbekannten Korrelationskoeffizient ρ in der Grundgesamtheit geschlossen werden, muss y x x x r xy = +0,5 r xy = -0,3 r xy = 0 r xy = 0 r xy = 1 r xy = -1 y y y y y x x x <?page no="335"?> 336 Datenanalyse vorausgesetzt werden können, dass die Grundgesamtheit bivariat normalverteilt ist. Ob eine empirisch ermittelte Korrelation r mit der Nullhypothese 0 : H 0 = ρ vereinbar ist, lässt sich mit folgender Prüfgröße testen (vgl. Bortz/ Schuster 2010, S. 162 f.): 2 r 1 2 n r t − − = . Es kann gezeigt werden, dass für Stichproben von n > 3 der obige Ausdruck t-verteilt mit n - 2 Freiheitsgraden ist; somit wird der empirische t-Wert mit dem theoretischen Wert der t-Verteilung bei einem Signifikanzniveau α und n - 2 Freiheitsgraden verglichen (zweiseitiger Test, d.h. 0 : H 1 ≠ ρ ). Kann die Nullhypothese verworfen werden (für t emp > t theor ), weicht die Korrelation signifikant von Null ab. Bei großen Stichproben (n > 25) kann auch eine Nullhypothese über den Wert des Korrelationskoeffizienten geprüft werden, der nicht Null ist: 0 c , c : H 0 ≠ = ρ . Hierzu wird die sog. Fisher’s Z-Transformation herangezogen (vgl. Bortz/ Schuster 2010, S. 160 f.): − + = r 1 r 1 ln 2 1 z . Die auf diese Weise transformierten Werte sind auch für 0 ≠ ρ annähernd normalverteilt nach − ρ − ρ + 3 n 1 ; 1 1 ln 2 1 N . Zur Prüfung der Nullhypothese wird folgende Prüfgröße berechnet: 3 n c 1 c 1 ln 2 1 r 1 r 1 ln 2 1 z − − − − − + = ; H 0 wird abgelehnt, wenn α < 2 z z oder α − > 2 1 z z resultiert. Beispiel 6.37: Im Rahmen der Regressionsanalyse aus Beispiel 6.29 kann der zugehörige Korrelationskoeffizient errechnet werden als: ( )( ) ( ) ( ) . 866 , 0 1200 30 x x p p x x p p r i 2 i i 2 i n 1 i i i − = − = − ⋅ − − − = = Es liegen n = 5 Beobachtungswerte vor. Der empirische t-Wert errechnet sich als: <?page no="336"?> Verfahren zur Messung von Beziehungen 337 . 999 , 2 250 , 0 3 866 , 0 r 1 2 n r t 2 emp = ⋅ = − − = Aus der Tabelle der t-Verteilung im Anhang (zweiseitige Fragestellung) kann bei einem Signifikanzniveau von 5 % und (n - 2) = 3 Freiheitsgraden der theoretische t- Wert ermittelt werden als: . 182 , 3 t t 05 , 0 ; 3 theor = = Da der empirische t-Wert kleiner ist als der theoretische, ist die Nullhypothese anzunehmen, dass heißt die Korrelation weicht nicht signifikant von Null ab. Trotz des hohen Werts des Korrelationskoeffizienten wirkt sich hier somit der geringe Stichprobenumfang von n = 5 aus, sodass der Zähler der Prüfgröße einen vergleichsweise geringen Wert annimmt. Punktbiseriale Korrelation Die punktbiseriale Korrelation wird angewendet, um den Zusammenhang zwischen einem dichotomen Merkmal (z.B. Geschlecht) und einem intervallskalierten Merkmal (z.B. Kaufmenge) festzustellen. Den Wert einer punktbiserialen Korrelation erhält man, wenn in die Gleichung für die Produkt-Moment-Korrelation für das dichotome Merkmal die Werte 0 und 1 eingesetzt werden. Dadurch vereinfacht sich die Gleichung zu (vgl. Bortz/ Schuster 2010, S. 171): 2 1 0 y 0 1 pb n n n s y y r ⋅ ⋅ − = mit 1 0 n , n = Anzahl der Untersuchungseinheiten in den Merkmalskategorien x 0 und x 1 der dichotomen Variablen x, 1 0 y , y = durchschnittliche Ausprägung der intervallskalierten Variablen y bei den Untersuchungseinheiten in den Kategorien x 0 und x 1 der Variablen x, n = n 0 + n 1 = Gesamtstichprobenumfang, s y = Standardabweichung der Variablen y. Zur statistischen Absicherung ( ) 0 : H 0 = ρ wird folgende Prüfgröße herangezogen: ( ) ( ) 2 n / r 1 r t 2 pb pb − − = . Beispiel 6.38: Mit Hilfe eines Fragebogens soll untersucht werden, ob sich das Kaufverhalten von Männern und Frauen im Hinblick auf Geräte der Unterhaltungselektronik unterscheidet. Vermutet wird, dass Männer aufgrund einer höheren Technikaffinität ein stärkeres Interesse an Produkten dieser Kategorie haben. Unter anderem wird auch die Kaufabsicht bei DVD-Playern in den nächsten sechs Monaten erfragt. <?page no="337"?> 338 Datenanalyse An der Befragung nehmen insgesamt n = 22 Personen teil (n 0 =12 Frauen und n 1 =10 Männer). Die Kaufabsicht wird anhand einer Rating-Skala von 1 = „werde ich ganz bestimmt nicht kaufen“ bis 10 = „werde ich ganz sicher kaufen“ erhoben. Als Signifikanzniveau ist = 0,05 vorgegeben. Dieser Test soll als zweiseitiger Test durchgeführt werden, d.h. H 0 : ρ = 0. Die Befragung führte zu folgenden Ergebnissen: Frauen (x=0): 6 5 6 8 4 5 7 5 5 7 5 Männer (x=1): 8 7 6 10 9 7 7 8 10 Aus diesen Datenreihen ergeben sich die folgenden Werte: 3 , 6 y 0 = und 2 , 7 y 1 = . Die Standardabweichung der Variablen y errechnet sich als: 51 , 2 22 22 135 967 n n y y s 2 2 n 1 i i n 1 i 2i y ≈ − = − = = = . Somit kann der Korrelationskoeffizient wie folgt ermittelt werden: 18 , 0 484 10 12 51 , 2 3 , 6 2 , 7 n n n s y y r 2 1 0 y 0 1 pb ≈ ⋅ ⋅ − = ⋅ ⋅ − = . Der empirische t-Wert resultiert als: ( ) ( ) ( ) ( ) 82 , 0 2 22 18 , 0 1 18 , 0 2 n r 1 r t 2 2 pb pb ≈ − − = − − = . Der theoretische t-Wert ergibt sich aus der Tabelle der t-Verteilung für zweiseitige Fragestellung (vgl. t-Tabelle im Anhang) bei n - 2 = 20 Freiheitsgraden und einem Signifikanzniveau = 0,05 als: t theor = t (20; 0,05) = 2,086. Da t theor > t emp , ist die H 0 -Hypothese anzunehmen, d.h. es besteht kein signifikanter Zusammenhang zwischen Geschlecht und Interesse an DVD-Playern. Biseriale Rangkorrelation Die biseriale Rangkorrelation findet dann Anwendung, wenn der Zusammenhang zwischen einer ordinalskalierten und einer dichotomen Variable untersucht werden soll. Eine beispielhafte Fragstellung könnte lauten: Ein Proband wird gebeten, verschiedene Produktmarken hinsichtlich seiner Markenpräferenz in eine Rangfolge zu bringen (Merkmal y). Es soll überprüft werden, ob die Markenpräferenz im Zusammenhang mit den Herkunftsland (Variable x) steht, wobei x 1 = nationale Marke, x 2 = ausländische Marke ist. <?page no="338"?> Verfahren zur Messung von Beziehungen 339 Der Grundgedanke basiert auf der Überlegung, dass ein perfekter Zusammenhang zwischen den Variablen dann gegeben wäre, wenn alle Beobachtungen der ordinalskalierten Variablen y bei der ersten Ausprägung der dichotomen Variablen, x 1 , durchweg höhere (oder niedrigere) Rangplätze aufweisen würden als bei der zweiten Ausprägung x 2 . Beispielsweise würde der Proband den nationalen Marken durchweg höhere Rangplätze zuweisen als den internationalen Marken. Es wird nun untersucht, wieviel höhere Rangplätze (U) bzw. wieviele niedrigere Rangplätze (U') sich in der jeweils anderen Gruppe befinden (vgl. Bortz/ Schuster 2010, S. 177 f.). Der biseriale Rangkorrelationskoeffizient errechnet sich als: max bisR U ' U U r − = , wobei 2 1 max n n U ⋅ = mit n 1 = Häufigkeit des Auftretens der Merkmalsausprägung x 1 der dichotomen Variablen x, n 2 = Häufigkeit des Auftretens der Merkmalsausprägung x 2 der dichotomen Variablen x. Bezeichnet man mit T 1 die Rangsumme der ersten Gruppe (Summe der Rangplätze der Variablen y, welche zur Merkmalsausprägung x 1 der Variablen x gehören) und mit T 2 die Rangsumme der zweiten Gruppe, werden U und U' errechnet als: ( ) ( ) . T 2 1 n n n n ' U und T 2 1 n n n n U 2 2 2 2 1 1 1 1 2 1 − + + ⋅ = − + + ⋅ = Die statistische Überprüfung der Nullhypothese H 0 : 0 bisR = ρ erfolgt bei einem großen μ über den approximativen U-Test (vgl. Bortz/ Schuster 2010, S. 178). Die Prüfgröße lautet: U U U z σ μ − = mit ( ) . 12 1 n n n 2 n n 2 1 U 2 1 U + ⋅ = σ ⋅ = μ Der empirische z-Wert wird mit dem kritischen z-Wert bei einem vorgegebenen Signifikanzniveau α verglichen; liegt er unterhalb des kritischen z-Werts, so ist die H 0 - Hypothese abzulehnen. Bei großen Stichproben ist der kritische Wert approximativ normalverteilt. Bei kleinen Stichprobenumfängen wird hingegen der exakte Wert der U-Verteilung herangezogen. Abgelehnt wird H 0 , wenn min(U) (der kleinere der beiden Werte U und U') kleiner als U krit ist. Nachfolgendes Beispiel soll die Zusammenhänge verdeutlichen. <?page no="339"?> 340 Datenanalyse Beispiel 6.39: Ein Proband soll 18 Produktmarken (n 1 =10 nationale und n 2 =8 ausländische) derselben Produktkategorie in eine Rangfolge bringen. Ziel der Erhebung ist die Feststellung, ob zwischen der Markenpräferenz und der Herkunft der Marke (inländisch (I) oder ausländisch (A)) ein Zusammenhang besteht (sog. „home bias“), d.h. ob der Proband in der Tendenz heimische Marken vorzieht. Die Ergebnisse der Untersuchung finden sich in der nachfolgenden Tabelle. Marke 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Herkunft (x) I I A I I I A A I A I I I A A I A A Präferenz (y) 4 7 9 8 1 6 5 2 10 16 17 11 12 13 15 14 18 3 Der Korrelationskoeffizient lässt sich folgendermaßen errechnen: max bisR U ' U U r − = 80 8 10 n n U 2 1 max = ⋅ = ⋅ = ( ) ( ) 24 92 2 9 8 80 T 2 1 n n n n ' U 56 79 2 11 10 80 T 2 1 n n n n U 2 2 2 2 1 1 1 1 2 1 = − ⋅ + = − + + ⋅ = = − ⋅ + = − + + ⋅ = . 4 , 0 80 24 56 r bisR = − = Zur statistischen Überprüfung der Nullhypothese H 0 : 0 bisR = ρ kann die Prüfgröße wie folgt ermittelt werden: U U U z σ μ − = ( ) 25 , 11 12 1520 12 19 8 10 12 1 n n n 40 2 8 10 2 n n 2 1 U 2 1 U ≈ = ⋅ ⋅ = + ⋅ = σ = ⋅ = ⋅ = μ 42 , 1 25 , 11 40 56 U z U U ≈ − = σ μ − = . Aufgrund der kleinen Stichprobengröße ist hier jedoch mit dem exakten U-Wert zu rechnen. Aus der U-Test-Tabelle * kann der kritische U-Wert entnommen werden. Für n 1 = 10 und n 2 = 8 resultiert der Wert 17. Da min(U) (der kleinere der beiden Werte U und U') mit einem Wert von 24 größer ist als der kritische Wert von U, ist die Nullhypothese anzunehmen, d.h. das Ergebnis ist bei einem Signifikanzniveau von = 0,05 (zweiseitiger Test) nicht signifikant. <?page no="340"?> Verfahren zur Messung von Beziehungen 341 * Auszug aus der U-Test-Tabelle ( = 0,05; zweiseitiger Test): n 1 n 2 8 9 10 8 13 9 15 17 20 10 17 20 23 Rangkorrelation nach Spearman Liegen zwei ordinalskalierte Variablen vor, wird der Rangkorrelationskoeffizient nach Spearman herangezogen (vgl. Bortz/ Schuster 2010, S. 178 ff.). Eine beispielhafte Fragestellung könnte lauten: Beurteilung von n Produkten durch zwei verschiedene Konsumenten. Es wird überprüft, ob zwischen den beiden Rangreihungen ein Zusammenhang besteht, d.h. ob die Probanden eine ähnliche Markenpräferenz aufweisen. Für jede Untersuchungseinheit i wird zunächst die Differenz aus den Rangplätzen gebildet, die ihr die zwei Befragten x und y vergeben haben, d i . Diese werden anschließend quadriert. Der Korrelationskoeffizient berechnet sich als: ( ) 1 n n d 6 1 r 2 2i n 1 1 s − ⋅ − = = . Für 30 n > kann approximativ folgende Prüfgröße herangezogen werden: ( ) ( ) 2 n / r 1 r t s s emp − − = . Die H 0 -Hypothese 0 : H s 0 = ρ kann abgelehnt werden, wenn t emp (zweiseitige Fragestellung) im Bereich − α − < < − α − − 2 n ; 2 1 t t 2 n ; 2 1 t emp liegt. Folgendes Beispiel soll die Vorgehensweise verdeutlichen. Beispiel 6.40: Es soll untersucht werden, inwieweit die Präferenzen der potenziellen Käufer bzgl. ausgewählter Produktmarken derselben Produktklasse übereinstimmen. Beispielsweise bewerten zwei Probanden fünf Produktmarken gemäß nachfolgender Tabelle: Produkt i Rang Konsument x Rang Konsument y d i d i ² 1 2 4 -2 4 2 5 5 0 0 3 1 2 -1 1 4 4 3 1 1 5 3 1 2 4 Summe 10 <?page no="341"?> 342 Datenanalyse Der Korrelationskoeffizient berechnet sich als: ( ) 5 , 0 1 25 5 10 6 1 r s = − ⋅ ⋅ − = . Als Prüfgröße errechnet man: ( ) ( ) 225 , 1 2 5 / 5 , 0 1 5 , 0 t emp = − − = . Bei einem Signifikanzniveau α von 0,01 und 3 Freiheitsgraden ist die H 0 -Hypothese abzulehnen, da gilt: 841 , 5 225 , 1 841 , 5 < < − . Somit korrelieren die Beurteilungen der beiden Probanden hochsignifikant. (Allerdings ist im Beispiel n < 30; der t-Test wurde hier - obwohl „eigentlich“ nicht zulässig - nur zur Verdeutlichung der Vorgehensweise durchgeführt.) Liegen verbundene Ränge vor, d.h. wird derselbe Rangplatz mehreren Untersuchungseinheiten zugewiesen, dann kann die obige Formel nur dann verwendet werden, wenn der Anteil verbundener Ränge nicht mehr als 20 % aller Rangplätze ausmacht. Ansonsten muss die Berechnung des Korrelationskoeffizienten modifiziert werden. 3.5 Verfahren zur Messung von Präferenzen 3.5.1 Conjoint-Analyse Definition Die Conjoint-Analyse dient dazu, die Präferenzen bzw. Nutzenvorstellungen von Personen bezüglich alternativer Objekte (z.B. Produktkonzepte) zu analysieren. Es handelt sich dabei um ein Verfahren der indirekten Präferenzmessung, d.h. aus Globalurteilen bzgl. der zu bewertenden Objekte wird auf die relative Bedeutung von deren Eigenschaften und Präferenzen bzgl. einzelner Eigenschaftsausprägungen geschlossen. Die Conjoint-Analyse ist ein in der Marktforschung weit verbreitetes multivariates Verfahren zur Messung von Nachfragerpräferenzen (vgl. Hartmann/ Sattler 2004, S. 3). Sie basiert auf der Annahme, dass ein Produkt (bzw. eine Dienstleistung) aus einem Bündel von Leistungsmerkmalen bzw. Eigenschaften besteht (z.B. Preis, Verpackung, Marke, Garantie), welche verschiedene Ausprägungen annehmen können (keine Garantie, 1 Jahr oder 2 Jahre Garantie usw.). Der vom Kunden empfundene Gesamtnutzen des Produktes setzt sich annahmegemäß aus den Nutzenwerten der einzelnen Merkmale zusammen. Je besser der Nachfrager die einzelnen Merkmale bewertet, desto höher sind auch seine Präferenz für das Produkt, damit auch sein persönlicher Nutzen und die Wahrscheinlichkeit, dass er dieses Produkt kauft. Formal ergibt sich der Gesamtnutzen U i eines Produktes i mit k = 1,…, K Merkmalen wie folgt (vgl. Teichert et al. 2008, S. 659): <?page no="342"?> Verfahren zur Messung von Präferenzen 343 ( ) ( ) ( ) [ ] . Ki U K f , , 2i U 2 f , 1i U 1 f i U = Zentrales Ziel der Conjoint-Analyse ist es, die Teilnutzen und damit letztlich die relative Wichtigkeit einzelner Eigenschaften und ihrer unterschiedlichen Ausprägungen für die Gesamtbewertung eines Produktes zu ermitteln. Ausgehend von Gesamturteilen über zu vergleichende Stimuli (ein Stimulus besteht jeweils aus einer Kombination von Eigenschaften mit den jeweiligen Eigenschaftsausprägungen), die sich hinsichtlich der Merkmalsausprägungen unterscheiden, wird auf den Nutzenbeitrag der einzelnen Ausprägungen zu diesem Gesamturteil geschlossen. Es handelt sich somit um ein dekompositionelles Verfahren, bei dem die unabhängigen Variablen die Ausprägungen der einzelnen Eigenschaften sind und die abhängige Variable die Präferenz der Auskunftspersonen hinsichtlich der zu bewertenden Produkte darstellt. Gegenüber self-explicated Verfahren, bei denen die Präferenz einzelner Produktkomponenten direkt abgefragt wird, besitzt die Conjoint-Analyse den großen Vorteil, dass die Probanden „vollständige“ Produkte beurteilen und dabei simultan positive und negative Eigenschaftsausprägungen gegeneinander abwägen müssen. Bei einem methodisch korrekten Versuchsaufbau erreicht die Conjoint-Analyse dadurch vergleichsweise hohe Validitätswerte, da der Proband mit einer realitätsnahen Entscheidungssituation konfrontiert wird. Typische Anwendungsfälle für die Conjoint-Analyse bilden im Marketing Kosten- Nutzenbewertungen alternativer Produktkonzepte, Marktanteilsprognosen konkurrierender Produkte sowie nachfrageorientierte Preisbestimmungen und Marktsegmentierungen (vgl. Hüttner/ Schwarting 2002, S. 339, Hensel-Börner/ Sattler 2000, S. 706). Die Vorgehensweise bei einer Conjoint-Analyse ist stark von den jeweiligen Untersuchungsumständen abhängig; sie verläuft jedoch zumeist in den folgenden Schritten: Auswahl der zu untersuchenden Eigenschaften und ihrer möglichen Ausprägungsalternativen, Festlegung des Erhebungsdesigns, Bewertung der Stimuli, Schätzung der Teilnutzenwerte, Normierung und Aggregation der ermittelten Nutzenwerte (vgl. Backhaus et al. 2015, S. 536). Auswahl der Eigenschaften und ihrer Ausprägungen Um im Rahmen einer Conjoint-Analyse die Teilnutzenwerte einzelner Eigenschaftsausprägungen eines Produktes ermitteln zu können, müssen in einem ersten Schritt zunächst die zu untersuchenden Produktmerkmale sowie deren mögliche Ausprägungen festgelegt werden. Dabei sind einige grundlegende Voraussetzungen an die Wahl der Eigenschaften geknüpft. So sollen ausschließlich Eigenschaften untersucht werden, von denen angenommen wird, dass sie für die Präferenzentscheidung relevant sind. Zudem müssen sie aus Sicht der Beurteilenden voneinander unabhängig sein, d.h. in ihrem beigemessenen Teilnutzen nicht von anderen Eigenschaften abhängig sein. Außerdem müssen sie vom Hersteller eines Produktes beeinflussbar sein und dürfen keine Ausschlusskriterien darstellen (vgl. Mengen/ Simon 1996, S. 231). Aus Gründen der Komplexität müssen darüber hinaus die Anzahl der zu betrachtenden Eigenschaften sowie deren Ausprägungsalternativen auf einige wenige begrenzt sein. Zudem müssen <?page no="343"?> 344 Datenanalyse die zu untersuchenden Eigenschaften in einer kompensatorischen Beziehung zueinander stehen, da im Grundmodell der Conjoint-Analyse unterstellt wird, dass sich die zu ermittelnden Teilnutzen additiv zu einem Gesamtnutzen zusammensetzen. Bei empirischen Untersuchungen lässt sich diese Annahme häufig nicht halten. So werden sicherlich nur wenige Konsumenten bereit sein, bei Flügen niedrige Sicherheitsstandards zu akzeptieren, selbst wenn die Ticketpreise im Gegenzug niedrig sind. Daher werden neben der additiven Verknüpfung auch Alternativen, wie multiplikative bzw. gemischte Verknüpfungen unterstellt (vgl. Hartmann/ Sattler 2002, S. 5, Hüttner/ Schwarting 2002, S. 340 f.). Nachfolgend wird an einem Beispiel das Grundprinzip der Conjoint-Analyse mit kompensatorischen Eigenschaften dargestellt. Beispiel 6.41: Ein Hersteller von Peripheriegeräten für PCs möchte einen neuen Drucker entwickeln, der am Markt wettbewerbsfähig ist. Aus Voruntersuchungen ist bekannt, dass die drei Eigenschaften Druckqualität, Druckgeschwindigkeit und Preis für Konsumenten besonders kaufrelevant sind. Für jede Eigenschaft sind jeweils drei unterschiedliche Ausprägungen denkbar: Eigenschaften Eigenschaftsausprägungen 1 2 3 A: Druckqualität Normale Auflösung Hohe Auflösung Fotoqualität B: Druckgeschwindigkeit 5 Seiten/ Minute 10 Seiten/ Minute 20 Seiten/ Minute C: Preis 30 EUR 60 EUR 90 EUR Erhebungsdesign Nachdem festgelegt wurde, welche Eigenschaften und welche Eigenschaftsausprägungen untersucht werden sollen, wird im nächsten Schritt das Erhebungsdesign festgelegt. Hierbei werden sowohl die von den Probanden zu vergleichenden Stimuli als auch die Präsentationsart für die Probanden festgelegt. Grundsätzlich können die Stimuli den Probanden entweder als vollständige Produktkonzepte unter Einbeziehung sämtlicher beuteilungsrelevanter Eigenschaften vorgelegt werden (Profilmethode), oder die zu vergleichenden Stimuli bestehen jeweils nur aus zwei Eigenschaften (Faktoren), die miteinander verglichen werden (Zwei-Faktorbzw. Trade-Off-Methode). Die Bestimmung der Anzahl möglicher Stimuli im Rahmen der Profilmethode erfolgt gemäß: ∏ = = K i 1 k k M A mit A i = Anzahl möglicher Stimuli, M k = Anzahl der Ausprägungen der Eigenschaft k, K = Anzahl der Eigenschaften. <?page no="344"?> Verfahren zur Messung von Präferenzen 345 Beispiel 6.42: Für das Beispiel 6.41 ergeben sich im Fall der Profilmethode insgesamt die in nachfolgender Tabelle enthaltenen 3 3 =27 Stimuli: A1B1C1 A2B1C1 A3B1C1 A1B2C1 A2B2C1 A3B2C1 A1B3C1 A2B3C1 A3B3C1 A1B1C2 A2B1C2 A3B1C2 A1B2C2 A2B2C2 A3B2C2 A1B3C2 A2B3C2 A3B3C2 A1B1C3 A2B1C3 A3B1C3 A1B2C3 A2B2C3 A3B2C3 A1B3C3 A2B3C3 A3B3C3 Für die Zwei-Faktor-Methode werden hingegen bei K Eigenschaften )! 2 K ( ! 2 ! K 2 K − = Trade-Off-Matrizen aufgestellt, welche die möglichen Kombinationen von Eigenschaftsausprägungen der jeweils zu vergleichenden beiden Faktoren enthalten. Im verwendeten Beispiel ergeben sich somit 3 Trade-Off-Matrizen (vgl. Tab. 6.17). Jede Zelle einer Trade-Off-Matrix entspricht dabei einem Stimulus, welcher im weiteren Verlauf von Probanden mit den anderen Stimuli hinsichtlich ihrer Präferenz verglichen werden muss. Tab. 6.17: Trade-Off-Matrizen bei der Zwei-Faktor-Methode A: Druckqualität B: Druckgeschwindigkeit 1: 5 Seiten/ Minute 2: 10 Seiten/ Minute 3: 20 Seiten/ Minute 1: Normale Auflösung A1B1 A1B2 A1B3 2: Hohe Auflösung A2B1 A2B2 A2B3 3: Fotoqualität A3B1 A3B2 A3B3 A: Druckqualität C: Preis 1: 30 € 2: 60 € 3: 90 € 1: Normale Auflösung A1C1 A1C2 A1C3 2: Hohe Auflösung A2C1 A2C2 A2C3 3: Fotoqualität A3C1 A3C2 A3C3 B: Druckgeschwindigkeit C: Preis 1: 30 € 2: 60 € 3: 90 € 1: 5 Seiten/ Minute B1C1 B1C2 B1C3 2: 10 Seiten/ Minute B2C1 B2C2 B2C3 3: 20 Seiten/ Minute B3C1 B3C2 B3C3 Für die Profilmethode spricht, dass den Probanden vollständig beschriebene Stimuli vorgelegt werden, sodass die Beurteilung stärker einer realen Präferenzentscheidung entspricht, was sich tendenziell positiv auf die Validität der Untersuchungsergebnisse auswirkt. Zudem ist die Anzahl der zu betrachtenden Stimuli in der Regel deutlich kleiner als bei der Zwei-Faktor-Methode. Nachteilig gegenüber der Zwei-Faktor- Methode ist jedoch, dass die an die Auskunftspersonen gestellte Bewertungsaufgabe <?page no="345"?> 346 Datenanalyse deutlich anspruchsvoller und komplexer ist, weil der Nutzen von mehreren Eigenschaften gleichzeitig gegeneinander abgewogen werden muss. Empirisch wird aufgrund des simultanen Vergleichs zwischen den Ausprägungen aller relevanten Produkteigenschaften und der damit einhergehenden höheren Validität die Profilmethode zumeist bevorzugt, weshalb sie im weiteren Verlauf auch zugrunde gelegt wird. Bei der Präsentationsform werden die Stimuli den Testpersonen typischerweise in Form von schriftlichen Kurzbeschreibungen der Produkteigenschaften vorgelegt, ggf. unter Heranziegung von Bildern und Grafiken. Gerade bei Onlineuntersuchungen werden zudem auch multimediale Präsentationsformen genutzt, bei denen die zu bewertenden Eigenschaften durch Audio- und Videoelemente vorgestellt werden (vgl. Ernst/ Sattler 2000, S. 161 ff.). Anzahl der Stimuli Die Anzahl der zu vergleichenden Stimuli wird bereits bei relativ wenigen zu untersuchenden Eigenschaften und Eigenschaftsausprägungen sehr groß. So ergeben sich im Falle der Profilmethode bereits bei fünf zu untersuchenden Eigenschaften mit jeweils drei möglichen Eigenschaftsausprägungen 3 5 = 243 einzelne Stimuli, welche im Rahmen einer empirischen Untersuchung kaum noch von den Testpersonen zu bewerten sein dürften. Daher werden den Probanden zumeist nicht sämtliche Stimuli zur Bewertung vorgelegt (vollständiges Design), sondern nur eine statistisch ausgewählte Teilmenge (reduziertes Design), welche die Grundgesamtheit möglichst gut abbildet. Für den speziellen Fall eines symmetrischen Designs (sämtliche Eigenschaften weisen dieselbe Anzahl alternativer Eigenschaftsausprägungen auf), bei dem exakt drei Eigenschaften mit jeweils drei Ausprägungsalternativen untersucht werden sollen (3 3 =27 mögliche Stimuli), lässt sich ein sog. lateinisches Quadrat als reduziertes Design bilden (vgl. Abschnitt 3.3 im 5. Teil). Hierbei müssen von den Probanden nur noch neun Stimuli miteinander verglichen werden. Diese werden dergestalt ausgewählt, dass jede Eigenschaftsausprägung exakt einmal mit jeder Ausprägung einer anderen Produkteigenschaft kombiniert wird. Für das Beispiel 6.41 resultiert das in Tab. 6.18 dargestellte lateinische Quadrat als reduziertes Bewertungsdesign. Tab. 6.18: Lateinisches Quadrat für das Beispiel 6.41 A1B1C1 A2B1C2 A3B1C3 A1B2C2 A2B2C3 A3B2C1 A1B3C3 A2B3C1 A3B3C2 Bewertung der Stimuli Für die Bewertung der Stimuli werden Probanden gebeten, die Stimuli in einer Rangfolge zu ordnen, welche die Präferenzen bzw. Nutzenvorstellungen der jeweiligen Testperson wiedergeben. Sollte die Rangreihung aufgrund zu vieler Stimuli mit zu vielen gleichzeitig abzuwägenden Eigenschaften für die Probanden zu komplex sein, lassen sich die Präferenzen auch indirekt mittels Paarvergleichen bzw. Rating-Skalen ermitteln (vgl. Kaltenborn et al. 2013, S. 39 ff.). Tabelle 6.19 zeigt exemplarisch die Rangreihung des lateinischen Quadrats aus der Tab. 6.18. <?page no="346"?> Verfahren zur Messung von Präferenzen 347 Tab. 6.19: Beispielhafte Rangreihung des lateinischen Quadrates Stimulus Nr. Beschreibung Rang 1 Normale Auflösung / 5 Seiten/ 30€ 4 2 Normale Auflösung / 10 Seiten/ 60€ 6 3 Normale Auflösung / 20 Seiten/ 90€ 7 4 Hohe Auflösung / 5 Seiten/ 60€ 8 5 Hohe Auflösung / 10 Seiten/ 90€ 5 6 Hohe Auflösung / 20 Seiten/ 30€ 3 7 Fotoqualität / 5 Seiten/ 90€ 9 8 Fotoqualität / 10 Seiten/ 30€ 1 9 Fotoqualität / 20 Seiten/ 60€ 2 Schätzung der Nutzenwerte Auf der Basis der empirischen Rangdaten werden im nächsten Schritt die Teilnutzenwerte für sämtliche Eigenschafsausprägungen ermittelt. Ziel ist es dabei, die Teilnutzenwerte dergestalt zu bestimmen, dass die resultierenden Gesamtnutzenwerte y i „möglichst gut“ den empirisch abgefragten Rangwerten entsprechen. Allgemein ergibt sich der Gesamtnutzen eines Stimulus i für das additive Modell der Conjoint-Analyse aus der Addition der Teilnutzenwerte seiner einzelnen Eigenschaftsausprägungen: = = ⋅ β = K 1 k M 1 m km km i k x y mit y i = geschätzter Gesamtnutzen für Stimulus i, km = Teilnutzenwert für Ausprägung m der Eigenschaft k, x km = 1 falls bei Stimulus i die Eigenschaft k mit der Ausprägung m vorliegt, 0 sonst. Ausgangspunkt der Schätzung von Teilnutzenwerten bilden die von Testpersonen vorgenommenen Rangreihungen der Stimuli. Die konkrete Auswertung der Daten kann auf der Grundlage verschiedener Schätzverfahren erfolgen, welche abhängig vom Skalenniveau der Präferenzurteile sind. In der Vergangenheit wurden insb. MONA- NOVA (Monotone Varianzanalyse), Linmap und Regressionsanalyse (OLS) eingesetzt; mittlerweile hat sich die Schätzung mittels Hierarchical Bayes Verfahren durchgesetzt (zu den einzelnen Verfahren und deren Vor- und Nachteile vgl. den Überblick bei Kaltenborn et al. 2013). Conjoint-Analysen werden bereits nach wenigen zu untersuchenden Eigenschaften sehr umfangreich und komplex, sodass conjointanalytische Studien mittlerweile fast ausschließlich computergestützt durchgeführt werden. Viele Anbieter bieten Software- Lösungen oder ergänzende Module, z.B. SPSS: Auch Excel und R ermöglichen einfa- <?page no="347"?> 348 Datenanalyse che Conjoint-Analysen. Das umfassendste Paket wird von Sawtooth Software angeboten, welches eine Vielzahl von Varianten ermöglicht und eine umfangreiche Dokumentation anbietet. Einen Überblick über gängige Softwarelösungen und ihr jeweiliges Anwendungsspektrum bieten Kaltenborn et al. 2013, S. 81 ff. Im Folgenden wird die Methodik vereinfachend auf der Grundlage einer Regressionsanalyse vorgestellt. Bei einem metrischen Skalenniveau wird unterstellt, dass die einzelnen Rangwerte äquidistant sind, d.h. die Abstände zwischen ihnen gleich groß sind. Dadurch werden die ursprünglich lediglich ordinal skalierten Daten auf ein metrisches Skalenniveau angehoben. Die Teilnutzenwerte lassen sich mit Hilfe einer Dummy kodierten Regressionsanalyse aus den abgegebenen Gesamturteilen der Testpersonen ermitteln (alternativ lassen sich die Teilnutzenwerte auch durch eine Varianzanalyse ermitteln; vgl. Backhaus et al. 2015, S. 530 ff.). Die allgemeine Regressionsgleichung lautet: = − = ⋅ + = K 1 k 1 M 1 m km km 0 i k x b b y mit y i = Rangwert von Stimulus i. Dabei sind von den möglichen M k Eigenschaftsausprägungen einer Eigenschaft k nur M k -1 linear unabhängige Dummy-Variablen. Die nicht berücksichtigten Eigenschaftsausprägungen lassen sich inhaltlich als Basisausprägung verstehen. Damit ergibt sich die Gesamtzahl Q der Dummy-Variablen aus: = − = K 1 k k K M Q mit Q = Anzahl der Dummy-Variablen, M k = Anzahl der Ausprägungen von Eigenschaft k, K = Anzahl der Eigenschaften. Beispiel 6.43: Für das Beispiel 6.41 ergibt sich exemplarisch für den Drucker Nr. 8 (Fotoqualität, 5 Seiten pro Minute, 90 EUR) folgende Kodierung: 1 x 0 x 0 x 3 A 2 A 1 A = = = 0 x 0 x 1 x 3 B 2 B 1 B = = = 1 x 0 x 0 x 3 C 2 C 1 C = = = Es gilt: . x b x b x b x b x b x b x b x b x b b y 3 C 3 C 2 C 2 C 1 C 1 C 3 B 3 B 2 B 2 B 1 B 1 B 3 A 3 A 2 A 2 A 1 A 1 A 0 8 ⋅ + ⋅ + ⋅ + + ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + = Nach Einsetzen der Werte resultiert: . 1 b 1 b 1 b b 1 b 0 b 0 b 0 b 0 b 1 b 1 b 0 b 0 b b y 3 C 1 B 3 A 0 3 C 2 C 1 C 3 B 2 B 1 B 3 A 2 A 1 A 0 8 ⋅ + ⋅ + ⋅ + = ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + = <?page no="348"?> Verfahren zur Messung von Präferenzen 349 Um für jede Eigenschaft die Teilnutzenwerte als positive bzw. negative Abweichungen von einem Basisnutzen (Nullpunkt) darzustellen, können die durch die Regression ermittelten b km wie folgt transformiert werden: k km km b b − = β mit km = transformierte Teilnutzenwerte für jede Eigenschaft k, b km = ermittelte Teilnutzen aus der Regressionsanalyse, k b = durchschnittlicher Teilnutzenwert je Eigenschaft k (Basisnutzen). Die Güte der ermittelten Teilnutzenwerte zeigt sich darin, wie gut die Reihenfolge der rechnerisch resultierenden Gesamtnutzen mit den empirisch ermittelten Rangurteilen der Testpersonen übereinstimmt. Statistisch geben hierüber der Pearson’sche Korrelationskoeffizient sowie Kendall’s Tau Auskunft. Während der Pearson’sche Korrelationskoeffizient die Korrelation zwischen metrisch skalierten Gesamtnutzenwerten und den empirisch ermittelten Rangwerten bestimmt, gibt Kendall’s Tau die Korrelation zwischen den empirischen und den errechneten Rangwerten wieder (vgl. Backhaus et al. 2015, S. 547). Für andere Skalenniveaus der Daten und unterschiedliche Schätzverfahren kommen andere Gütekriterien zur Anwendung (vgl. Kaltenborn et al. 2013, S. 47 ff.). Normierung und Aggregation der ermittelten Nutzenwerte Die Größe der Teilnutzenwerte gibt Auskunft über die Einflusshöhe einer Eigenschaftsausprägung auf den Gesamtnutzen eines Produktes. Sie lässt jedoch keinen direkten Schluss auf die relative Wichtigkeit einer Eigenschaft zur Präferenzveränderung zu. Die relative Wichtigkeit einer Eigenschaft ergibt sich vielmehr aus der Spannweite bzw. Differenz zwischen dem höchsten und dem niedrigsten Teilnutzenwert der möglichen Eigenschaftsausprägungen. Ist die Spannweite sehr groß, so kann durch Ausprägungsvariation der betreffenden Eigenschaft eine signifikante Änderung des Gesamtnutzenwertes erreicht werden. Die Spannweite bzw. Wichtigkeit w einer Eigenschaft k lässt sich entsprechend der folgenden Formel berechnen: { } { } km m km m k min max w β − β = . Die relative Wichtigkeit erhält man, indem man die ermittelte Wichtigkeit der einzelnen Eigenschaften mit der Relevanz der übrigen Eigenschaften vergleicht (vgl. Teichert et al. 2008, S. 664): { } { } { } { } = β − β β − β = K 1 k km m km m km m km m k min max min max w . Die erhobenen individuellen Präferenzurteile erlauben zunächst keine verallgemeinerbaren Aussagen. Durch eine Normierung lassen sich die abgeleiteten Teilnutzenwerte der einzelnen Testpersonen jedoch miteinander vergleichen. Bei der Normierung werden sämtliche Teilnutzenwerte auf denselben Nullpunkt bezogen und eine einheitliche Skaleneinteilung vorgenommen. Üblicherweise wird der Nullpunkt dadurch bestimmt, dass die Eigenschaftsausprägung mit dem kleinsten ermittelten Teilnutzenwert gleich <?page no="349"?> 350 Datenanalyse Null gesetzt wird. Anschließend werden sämtliche Teilnutzenwerte km um den kleinsten Teilnutzenwert min km β reduziert: min k km neu km β − β = β . Für eine einheitliche Skaleneinteilung ist darüber hinaus die Bestimmung des maximalen Wertebereiches wichtig. Dabei entspricht die Summe der größten Teilnutzenwerte je Eigenschaft dem maximalen Wertebereich, und der Stimulus mit sämtlichen höchsten Teilnutzenwerten erhält einen Gesamtnutzenwert von 1. Damit ergeben sich die übrigen normierten Teilnutzenwerte β ˆ gemäß folgender Formel: { } = β β = β K 1 k m neu km neu km km max ˆ . Die so berechneten normierten Teilnutzenwerte liefern gleichzeitig auch eine Aussage über die relative Wichtigkeit der einzelnen Eigenschaften. Beispiel 6.44: Nachfolgend werden mit Hilfe von SPSS individuelle Teilnutzenwerte für die in Tab. 6.19 dargestellte Rangfolge für die alternativen Drucker errechnet. Averaged Importance Utility Factor AUFLÖSUN Auflösung 33,33 -2,0000 Normale Auflösung 1,0000 Hohe Auflösung 1,0000 Fotoqualität DRUCKGES Druckgeschwindigkeit -,6667 5 Seiten 18,52 -,3333 10 Seiten 1,0000 20 Seiten PREIS Preis 48,15 2,3333 30 Euro -,3333 60 Euro -2,0000 90 Euro 5,0000 CONSTANT Pearson‘s R = ,925 Kendall‘s tau = ,833 Significance = ,0002 Significance = ,0009 Damit ist der Preis die wichtigste Eigenschaft, gefolgt von der Auflösung und von der Druckgeschwindigkeit. Die Ergebnisse sind hochsignifikant. Mit Hilfe der Normierung der Teilnutzenwerte lassen sich nun die Ergebnisse der Individualanalysen aggregieren. Dadurch sind Aussagen über aggregierte Nutzenwerte, <?page no="350"?> Verfahren zur Messung von Präferenzen 351 wie beispielsweise die durchschnittliche Präferenzstruktur potenzieller Käufergruppen, möglich. Für die Aggregation der Individualanalysen wird eine Mittelwertbildung über die individuellen Teilnutzenwerte der einzelnen Eigenschaftsausprägungen vorgenommen. Alternativ hierzu ist auch eine gemeinsame Conjoint-Analyse denkbar, bei der die Präferenzurteile der einzelnen Testpersonen als Wiederholungen des Untersuchungsdesigns verstanden werden (vgl. Backhaus et al. 2015, S. 538 f.). Dabei ist jedoch zu beachten, dass im Allgemeinen die Korrelationsgüte zwischen den rechnerischen und den empirischen Rangwerten gegenüber Individualanalysen abnimmt. Hybride Conjoint-Analyse Hybridmodelle kombinieren die dekompositionelle Conjoint-Analyse mit kompositionellen Direktbefragungen (Self-Explicated-Verfahren). Dabei erfolgt zunächst eine direkte Befragung der Testpersonen zur Relevanz einzelner Produkteigenschaften. Aufbauend auf den Ergebnissen werden anschließend individuell angepasste Untersuchungsdesigns aufgestellt, in welchen nur noch die für die einzelnen Testpersonen relevanten Merkmale und Merkmalsausprägungen analysiert werden müssen. Auf diese Weise reduziert sich die Zahl der von einem Probanden zu bewertenden Stimuli stark, wohingegen die Gesamtzahl der potenziell untersuchbaren Eigenschaften gegenüber einer reinen Conjoint-Analyse deutlich zunimmt (Hensel-Börner/ Sattler 2000, S. 706). Eine der am häufigsten angewandten Methoden der hybriden Conjoint-Analyse ist die Adaptive Conjoint-Analyse (ACA) (vgl. Hensel-Börner/ Sattler 2000, S. 706). Diese computergestützte Conjoint-Analyse verläuft in mehreren Phasen, wobei zunächst in einem kompositionellen Befragungsteil für die einzelnen zu untersuchenden Eigenschaften die alternativen Eigenschaftsausprägungen von den Testpersonen zu bewerten sind. Im anschließenden dekompositionellen Teil müssen die Probanden Paarvergleiche zwischen alternativen Stimuli durchführen, welche auf der Basis des kompositionellen Untersuchungsteils automatisch erstellt wurden. Im Rahmen der ACA werden so zwei separate Nutzwertschätzungen der Eigenschaftsausprägungen vorgenommen, welche einerseits aus den Präferenzangaben des direkten Befragungsteils resultieren und andererseits aus den Paarvergleichen abgeleitet werden (vgl. Hensel-Börner/ Sattler 2000, S. 706 f.). Auf diese Weise lassen sich die aus den Gesamturteilen der Conjoint-Analyse abgeleiteten Nutzenwerte mit den direkt abgefragten Präferenzurteilen unterschiedlicher Merkmalsausprägungen vergleichen. Trotz ihrer weiten Verbreitung weist die ACA jedoch auch einige Schwachpunkte auf, welche sich vor allem auf die mehrfach von jeder Testperson vorzunehmenden Paarvergleiche sowie auf die mangelnde Vergleichbarkeit der beiden Teilnutzwertschätzungen beziehen (vgl. Green/ Krieger/ Agarwal 1991, S. 220 f.). Bei der sog. Customized (Computerized) Conjoint Analysis, eine Weiterentwicklung der ACA, werden daher im dekompositionellen Teil Vollprofilbeschreibungen verwendet und eine alternative Kalibrierung der Teilnutzwertschätzungen vorgenommen (vgl. Hensel-Börner/ Sattler 2000, S. 708). Choice based Conjoint-Analyse Bei der klassischen Conjoint-Analyse werden Präferenzurteile abgefragt. Es zeigt sich jedoch, dass erfragte Präferenzen und tatsächliches Kaufbzw. Entscheidungsverhalten von Konsumenten z. T. signifikante Unterscheide aufweisen. Diesen Mangel versucht die Choice based Conjoint-Analyse abzumildern, indem hier die Präferenzewerte aus <?page no="351"?> 352 Datenanalyse tatsächlichen Wahlentscheidungen ermittelt werden (vgl. Haaijer/ Wedel 2003, S. 371 sowie Erhardt 2009, S. 101 ff.). Dazu werden Testpersonen alternative Stimuli vorgelegt, von denen sie den Stimulus mit dem für sie höchsten Gesamtnutzenwert auswählen sollen. Vielfach werden diese Untersuchungen am Computer vorgenommen. Die im Rahmen einer Conjoint-Analyse ermittelten Teilnutzenwerte werden oftmals dazu genutzt, Marktanteile von (zukünftigen) Produkten zu prognostizieren. Diese werden mit Hilfe von sog. Choice Simulatoren ermittelt. Dabei werden alternative Kaufverhaltensannahmen unterstellt. Bei dem First-Choice-Konzept wird unterstellt, dass sich Konsumenten grundsätzlich für dasjenige Produkt entscheiden, welchem sie den höchsten Gesamtnutzenwert zuordnen. Bei den Probabilistic-Choice-Modellen, wie Bradley- Terry-Luce oder LOGIT, wird hingegen angenommen, dass die Kaufwahrscheinlichkeit mit steigendem Präferenzwert zunimmt (vgl. Green/ Srinivasan 1990, S. 14, Hartmann/ Sattler 2004, S. 14). Zusätzlich müssen Annahmen über die Art und die Anzahl möglicher Wettbewerbsprodukte getroffen werden, um daraus den Marktanteil eines (Neu-)Produktes zu schätzen. Im einfachsten Fall reagieren die Wettbewerber gar nicht auf die Neueinführung eines Produktes. Sollten die Wettbewerber hingegen ihre bestehenden Produkte verändern, so bleibt zwar die Menge der untersuchten Produkte unverändert, die Gesamtnutzenwerte ändern sich jedoch nach Maßgabe der variierten Produkteigenschaften. In dem Fall, dass die Wettbewerber ihrerseits neue Produkte einführen, müssen zusätzliche Präferenzwerte für die neuen Produkte in die Berechnung der Marktanteile einfließen. Zur Marktanteilsprognose werden abschließend die individuell ermittelten Kaufwahrscheinlichkeiten aggregiert. 3.5.2 Multidimensionale Skalierung Wie bereits in Abschnitt 3.3.3 beschrieben, kann die Multidimensionale Skalierung erweitert werden, um Präferenzurteile abzubilden. Will man den Nutzen, d.h. die Präferenz, die eine Person mit dem Objekt verbindet, in die Untersuchung einbeziehen, so ist dieser zusätzlich zu erheben. Dadurch ist es möglich, in den Wahrnehmungsraum neben den Objekten auch die Präferenzen von Personen abzubilden. Geeignete Methoden zur Berücksichtigung von Präferenzurteilen von Probanden sind das Idealpunkt- und das Idealvektormodell. Da die Methodik bereits ausführlich in Abschnitt 3.3.3 beschrieben wurde, soll an dieser Stelle nicht näher darauf eingegangen werden. Weiterführende Literatur Albers, S., Hildebrandt, L. (2006): Methodische Probleme bei der Erfolgsfaktorenforschung - Messfehler, formative versus reflexive Indikatoren und die Wahl des Strukturgleichungs-Modells, in: zfbf, 58(3), 2-33. Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2015): Multivariate Analysemethoden, 14. überarb. Aufl., Berlin u.a. Borg, I., Groenen, P., Mair, P. (2010): Multidimensionale Skalierung, Reihe: Sozialwissenschaftliche Forschungsmethoden, Band 1, München, Mering. Bray, J.H., Maxwell, S.E. (1985): Multivariate Analysis of Variance, Beverly Hills. <?page no="352"?> Verfahren zur Messung von Präferenzen 353 Buckler, F., Hennig-Thurau, T. (2008): Identifying Hidden Structures in Marketing’s Structural Models Through Universal Structure Modelling: An Explorative Bayesian Neural Network Complement to LISREL and PLS, in: Marketing - Journal of Research and Management, 4(2), 47-66. Carroll, J.D., Green, P.E. (1995): Psychometric Methods in Marketing Research: Part 1, Conjoint Analysis, in: Journal of Marketing Research, 32(4), 385-391. Cox, T., Cox, M. (2000): Multidimensional Scaling, London. Cureton, E.E., D’ Agostino, R.B. (1983): Factor Analysis - An Applied Approach, Hillsdale, N.J. Green, P., Srinivasan, V. (1990): Conjoint Analysis in Marketing: New Developments With Implications for Research and Practice, in: Journal of Marketing, 59(10), 3-19. Hartmann, A., Sattler, H. (2004): Wie robust sind Methoden zur Präferenzmessung? , in: Zeitschrift für betriebswirtschaftliche Forschung (ZfbF), 56(2), 3-22. Hoberg, R. (2003): Clusteranalyse, Klassifikation und Datentiefe, Diss., Lohmar, Köln. Homburg, C., Klarmann, M. (2006): Die Kausalanalyse in der empirischen betriebswirtschaftlichen Forschung. Problemfelder und Anwendungsempfehlungen, in: Die Betriebswirtschaft, 66(6), 727-749. Huber, F., Herrmann, A., Meyer, F., Vogel, J., Vollhardt, K. (2007): Kausalmodellierung mit Partial Least Squares, Wiesbaden. Kaltenborn, T., Fiedler, H., Lanwehr, R., Melles, T. (2013): Conjoint-Analyse, Reihe: Sozialwissenschaftliche Forschungsmethoden, Band 7, München, Mering. Kaufman, L., Rousseeuw, P.J. (1990): Finding Groups in Data: An Introduction to Cluster Analysis, New York. Klecka, W. (1980): Discriminant Analysis, Beverly Hills. Lachenbruch, P. (1975): Discriminant Analysis, New York. Leik, R.K. (1997): Experimental Design and the Analysis of Variance, Thousand Oaks. Loehlin, J.C. (1987): Latent Variable Models: An Introduction to Factor, Path and Structural Analysis, Hillsdale, N.J. Steinhausen, D., Langer, K. (1977): Clusteranalyse, Berlin. Steinmetz, H. (2015): Lineare Strukturgleichungsmodelle. Eine Einführung mit R, Reihe: Sozialwissenschaftliche Forschungemethoden, Band 9, 2. Aufl., München, Mering. Überla, K. (1977): Faktorenanalyse, 2. Aufl., Berlin u.a. Urban, D. (1993): Logit-Analyse: Statistische Verfahren zur Analyse von Modellen mit qualitativen Response-Variablen, Stuttgart. <?page no="353"?> 354 Datenanalyse Vermunt, J.K., Magidson, J. (2002): Latent Class Cluster Analysis, in: Hagenaars, J.A., McCutcheon, A.L. (eds.): Applied Latent Class Analysis, Cambridge, 89-106. Völckner, F., Sattler, H., Teichert, T. (2008): Wahlbasierte Verfahren der Conjoint-Analyse, in: Herrmann, A., Homburg, C. (Hrsg.): Marktforschung. Methoden, Anwendungen, Praxisbeispiele, 3. Aufl., Wiesbaden, 687-712. <?page no="354"?> 4 Interpretation und Präsentation der Ergebnisse Nach erfolgter Auswertung der Daten sind die Ergebnisse zusammenzustellen, zu interpretieren und dem Auftraggeber (bzw. hausintern) vorzustellen, d.h. es ist ein Forschungsbericht zu erstellen und zu präsentieren. Bei der Erstellung des Forschungsberichts sind zunächst die Ergebnisse in geeigneter Weise zu visualisieren. Dies geschieht bei quantitativen Daten in Form von Tabellen und Diagrammen, bei qualitativen Daten als grafische Darstellungen wie z.B. Flussdiagramme, Netzwerkgraphiken u.ä. Die Wahl der geeigneten Darstellungsform aus der Vielfalt der möglichen Alternativen bleibt dem Forscher überlassen, es sind bei der Gestaltung jedoch bestimmte Grundsätze einzuhalten (vgl. Iacobucci/ Churchill 2010, S. 640 ff.). Tabellen und Diagramme sind grundsätzlich zu nummerieren und mit einer Überschrift zu versehen; im Text sollte auf sie verwiesen werden. Die Werte sollten dabei in geeigneter Weise geordnet werden, z.B. nach Jahreszahl oder Größe. Darüber hinaus sollte die Maßeinheit der Werte (z.B. in 1.000 t) angegeben sein. Bei Sekundärdaten muss die Quelle ersichtlich werden; Ergänzungen und Kommentare sollten als Fußnoten erscheinen. Die optische Gestaltung sollte stets die Kriterien der Zweckmäßigkeit, Aussagefähigkeit und Übersichtlichkeit erfüllen. Auf die Vielzahl möglicher Visualisierungsansätze kann an dieser Stelle nicht näher eingegangen werden; ein ausführlicher Überblick über die verschiedenen Formen findet sich z.B. bei Meyer 1999, neuere Ansätze insb. unter Berücksichtigung von Big Data bei Huang 2014. Die Interpretation der Ergebnisse kann durch eine ausreichende Visualisierung erheblich erleichtert werden. Manipulative Verzerrungen oder Darstellungen wie z.B. Stauchung/ Streckung von Skalen u.ä. sind dabei unbedingt zu vermeiden, da sie den Leser irreführen. Obwohl manche Ergebnisse Spielräume für eine subjektive Interpretation lassen, sollte sich der Forscher bei der Formulierung der Ergebnisse um eine möglichst große Objektivität bemühen, da auch der Wortlaut suggestiv wirken kann. Beispiel 6.45: Das Unternehmen X führt eine Imageanalyse im Vergleich zu Hauptkonkurrent Y durch. Unternehmen X wird als „traditionell“, „altmodisch“, „zuverlässig“ beurteilt, wohingegen Unternehmen Y als „dynamisch“, „innovativ“, „modern“ bewertet wird. Der Forscher kann das Ergebnis z.B. folgendermaßen interpretieren: „Unternehmen X ist es gelungen, das Vertrauen seiner Kunden zu gewinnen. Tradition und Zuverlässigkeit werden als wichtige Kennzeichen des Unternehmens wahrgenommen.“ „Unternehmen X ist es bislang nicht gelungen, sein eher hausbackenes Image zu verbessern. Fortschritt und Dynamik werden für das Unternehmen als wesensfremd angesehen.“ Beim Verfassen des Forschungsberichts ist auf verschiedene Punkte zu achten. Der Bericht sollte übersichtlich und logisch aufgebaut sein. Typischerweise ist der Aufbau eines Forschungsberichts wie folgt: Titelblatt, Inhaltsverzeichnis, <?page no="355"?> 356 Interpretation und Präsentation der Ergebnisse Executive Summary, d.h. eine thesenartige Zusammenfassung der Ergebnisse und der daraus abzuleitenden Schlussfolgerungen, Einführung mit Angabe des konkreten Entscheidungs- und Forschungsproblems, Methodisches Vorgehen (Untersuchungsdesign, Stichprobenplan, angewandte Verfahren zur Datensammlung und Datenauswertung), detaillierte und geordnete Darstellung der Forschungsergebnisse, ggf. auf unterschiedlichem Aggregationsniveau, Grenzen der Ergebnisse (z.B. Bindung an bestimmte Prämissen, Nonresponse- Problem, methodische Einschränkungen usw.), Schlussfolgerungen aus den Forschungsergebnissen und Empfehlungen für das Management. Die erhebungstechnischen Details (z.B. Fragebogen, Intervieweranweisungen, Codeplan usw.) sollten in einem Anhang dokumentiert werden. Ein Verzeichnis der Quellen schließt den Berichtsband. Weiterhin sollte bei der Berichterstattung darauf geachtet werden, dass ein technischer Jargon vermieden wird, d.h. die Formulierungen sollten sprachlich dem Leser angepasst werden. Lassen sich Fachbegriffe nicht vermeiden, so sollten sie in einem Anhang kurz erläutert werden. Die Formulierungen sollten darüber hinaus kurz und prägnant sein, überflüssige bzw. redundante Aussagen sind zu vermeiden. Das Erscheinungsbild des Berichts sollte ansprechend sein und einen professionellen Eindruck erwecken. Dazu gehören neben Papier- und Druckqualität auch eine großzügige Raumaufteilung auf den Seiten. Des Weiteren sollten Tabellen und Grafiken zur Unterstützung des Textes herangezogen werden. Nach der Erstellung des Forschungsberichts erfolgt die mündliche Präsentation beim Auftraggeber. Mittlerweile erfolgt dies meist unter Zuhilfenahme standardisierter Präsentationssoftware wie z.B. PowerPoint oder Prezi. Ergänzt werden kann die Bildschirmpräsentation durch Flipcharts, Videos und andere Medien. Auch die mündliche Präsentation sollte einen professionellen Eindruck hinterlassen: Ausdrucksweise locker, aber nicht flapsig, überzeugendes, sicheres Auftreten, kurze, prägnante Sätze (KISS-Prinzip: Keep It Simple and Straightforward), Vermeidung von „Füllwörtern“ („nicht wahr”, „wissen Sie” u.Ä.), klare Strukturierung, Einsatz von unterstützender Gestik und Mimik. Nach der Präsentation sollte genügend Raum für Fragen sein. Auf der Seite des Auftraggebers ist dafür Sorge zu tragen, dass die Ergebnisse intern bekannt und verfügbar gemacht werden. Die Marktforscher sollten weiterhin für Rückfragen und Beratung zur Verfügung stehen. <?page no="356"?> Teil 7: Qualitative Studien 1 Qualitative Befragung 1.1 Charakterisierung qualitativer Studien Definition Qualitative Studien sind nichtstandardisierte Erhebungen im Rahmen explorativer Untersuchungen auf der Grundlage kleiner Stichproben. Forschungsziele qualitativer Studien sind in erster Linie das Erkennen, Beschreiben und Verstehen psychologischer oder soziologischer Zusammenhänge. Qualitative Studien werden bei neuartigen oder schlecht strukturierten Problemen eingesetzt. Angestrebt wird weniger eine (statistische) Repräsentativität; vielmehr wird versucht, charakteristische Inhalte in Bezug auf das vorliegende Forschungsproblem herauszufiltern. Es werden dabei typischerweise „weiche“ Daten erzeugt. Es erfolgt zumeist keine Vorstrukturierung des Untersuchungsgegenstands, um eine möglichst große Unvoreingenommenheit des Forschers zu gewährleisten. Die Interaktion zwischen Auskunftsperson und Forscher ist dabei integratives Merkmal qualitativer Methoden (vgl. Kepper 2008, S. 177 f.). Qualitative Studien können dabei sowohl in Form einer Befragung als auch einer Beobachtung erfolgen. Die qualitative Beobachtung wird in Kap. 2 beschrieben. Aufgabenfelder qualitativer Marktforschung sind: Strukturierung des Untersuchungsfeldes durch Identifizierung und Erfassung relevanter Einflussfaktoren und Untersuchungsdimensionen; qualitative Prognose in Fällen, bei denen Zahlenmaterial fehlt, Diskontinuitäten zu erwarten sind oder der Prognosegegenstand durch hohe Unsicherheit, Komplexität und Langfristigkeit gekennzeichnet ist; Ursachenforschung, insb. dann, wenn die Ursachen sehr komplex, tabuisiert oder noch wenig bekannt sind; Ideengenerierung durch Nutzung des kreativen Potenzials der Befragten; Screening von Alternativen, z.B. Ideen oder Konzepte (vgl. Kepper 1996, S. 140 ff.). Im Vergleich zu quantitativen Ansätzen zeichnen sich qualitative Methoden durch einen meist höheren zeitlichen und finanziellen Aufwand pro Erhebungsfall und durch eine schwierigere Codierung und Auswertung der Informationen aus. Andererseits können einige Fragestellungen - z.B. Ideengenerierung, Ursachenforschung - nur mit Hilfe qualitativer Methoden angemessen bearbeitet werden. Darüber hinaus liefern Studien auf der Grundlage qualitativer Methoden häufig den Input für quantitative Studien. <?page no="357"?> 358 Qualitative Befragung 1.2 Methoden qualitativer Befragung Bei qualitativen Befragungsmethoden handelt es sich um Formen der persönlichen (Face-to-face)-Befragung; in der Regel sind sie nicht oder nur teilweise standardisiert und erfolgen bei einer vergleichsweise kleinen Anzahl an Probanden. Anders als quantitative Befragungen, welche unabhängig vom Medium eine relativ einheitliche Struktur aufweisen, handelt es sich bei qualitativen Befragungen um eine Vielzahl heterogener Formen, welche aus unterschiedlichen Forschungsrichtungen entstanden sind. Eingesetzt werden qualitative Befragungen insb. dort, wo durch Interaktion der Probanden mit einem Interviewer (bzw. untereinander) Einblicke in zugrunde liegende psychische oder soziale Prozesse gewonnen werden sollen. Ziel ist die Ermittlung einer unverzerrten, nicht prädeterminierten und möglichst vollständigen Sammlung von Informationen zu dem interessierenden Untersuchungsgegenstand (vgl. Kepper 2008, S. 180). Techniken qualitativer Befragung können nach der Art der Auskunftsperson in Expertenbefragung und Konsumentenbefragung unterteilt werden; nach der Anzahl der Befragten unterscheidet man zwischen Einzel- oder Gruppeninterviews. Abbildung 7.1 zeigt die verschiedenen Verfahren qualitativer Befragung im Überblick. Abb. 7.1: Methoden qualitativer Befragung Einzelinterviews Wesentliche Formen des Einzelinterviews sind zum einen das qualitative Interview, zum anderen Techniken der indirekten Befragung. Befragt wird pro Interview jeweils eine Auskunftsperson. Das qualitative Interview gehört zu den gängigsten Verfahren qualitativer Marktforschung und basiert auf einer möglichst offenen Gesprächsführung. Dies ermöglicht es den Befragten, eigene Schwerpunkte zu setzen und diese mit eigenen Worten zu äußern. Gewählt werden offene Fragen ohne Vorgabe einer festen Reihenfolge; aufgezeichnet werden die Gespräche i.d.R. mit Tonband- oder Videoaufzeichnungsgeräten. Die Dau- Qualitative Befragungsmethoden Qualitatives Interview Exploratives Interview Tiefeninterview Fokussiertes Interview Indirekte Befragung Projektive Verfahren Assoziative Verfahren Gelenkte Kreativgruppe Assoziative Verfahren Bisoziative synektische Verfahren Kombinatorische Verfahren Einfache Gruppendiskussion Kumulative Gruppendiskussion Kombinierte Gruppendiskussion Kontradiktorische Gruppendiskussion Mini Groups Delphi-Befragung Gruppendiskussion Einzelinterviews Gruppeninterviews <?page no="358"?> Methoden qualitativer Befragung 359 er eines qualitativen Interviews kann dabei mehrere Stunden umfassen. Grundlegende Varianten im Rahmen qualitativer Marktforschung sind: das explorative Interview, das Tiefeninterview und das fokussierte Interview. Explorative Interviews sind offene und weitgehend nichtstandardisierte Befragungsgespräche, im Rahmen derer der Interviewer den Ablauf des Gesprächs mitgestaltet. Aufgabe explorativer Interviews ist die Ermittlung subjektiv relevanter Informationen der Befragten (z.B. Wissen, Erfahrung, Einstellungen) zum Untersuchungsgegenstand und nicht die Analyse tiefliegender Bewusstseinsstrukturen (vgl. Kepper 2008, S. 182). Der Interviewer nimmt dabei die Rolle eines interessierten Zuhörers ein und sorgt so dafür, dass er eine möglichst umfassende und vollständige Sammlung von Informationen erhält. Im Rahmen explorativer Interviews können auch komplexe Fragestellungen analysiert werden. Die offene Art der Gesprächsführung erlaubt es, die Erlebniswelt des Probanden in seiner gesamten Breite zu erfassen. Häufig werden explorative Interviews im Rahmen von Expertenbefragungen eingesetzt. Als Techniken der Gesprächsführung haben sich u.a. das narrative und das problemorientierte Interview bewährt. Im Rahmen der narrativen Interviewtechnik liegt der Schwerpunkt auf dem freien Erzählen: Durch ungerichtete Aufmunterung seitens des Interviewers soll eine maximale Freiheit der Erzählung des Befragten gefördert werden. Meist verzichtet der Interviewer auf einen vorstrukturierten Leitfaden (vgl. ausführlich Mey/ Mruck 2011, S. 261 ff.). Auch bei der problemorientierten Interviewtechnik steht das Erzählprinzip im Vordergrund. Der Interviewer lenkt das Gespräch jedoch stärker und bezieht die Äußerungen des Probanden immer wieder auf die zugrunde liegende Problemstellung. Dadurch wird ein höheres Maß an Strukturierung erreicht (vgl. Kurz et al. 2009). Eine typische Anwendung explorativer Interviews ist die Strukturierung des Untersuchungsfeldes bei relativ neuen und unbekannten Forschungsproblemen. Auf diese Weise können relevante Dimensionen des Forschungsgegenstands identifiziert und wichtige Einflussfaktoren erfasst werden. Geeignet sind explorative Interviews auch für Prognosezwecke, insb. in Form von Expertenbefragungen. In diesem Zusammenhang spielen Projektionsverfahren eine wichtige Rolle. Das psychologische Tiefeninterview stellt die bekannteste Form qualitativer Interviews dar. Es handelt sich um ein relativ langes Interviewgespräch mit dem Ziel, unbewusste, verborgene oder nur schwer erfassbare Motive und Einstellungen des Befragten zu erfassen (vgl. Salcher 1995, S. 34). Geführt werden Tiefeninterviews von geschulten Psychologen, die das Gespräch nach eigenem Ermessen so steuern, dass sie möglichst tiefe Einblicke in die verborgenen Bereiche der Denkstruktur der Befragten gewinnen. Die aufgedeckten Zusammenhänge werden nachträglich vor dem Hintergrund bestimmter Theorien interpretiert. Ein typisches Anwendungsgebiet von Tiefeninterviews ist die Ursachenforschung. Insbesondere bei neuartigen oder sensiblen Untersuchungsgegenständen können die Ursachen für bestimmte Verhaltensweisen, Motive und Einstellungen ergründet werden. Als Beispiel kann die Entwicklung von markenspezifischen Kundenprofilen genannt werden, welche auf der Grundlage von psychologischen Interviews von Kernverwen- <?page no="359"?> 360 Qualitative Befragung dern einzelner Marken bzgl. ihrer Werte und Lebenseinstellungen erstellt werden können (vgl. Kaiser 2004, S. 6). Beim fokussierten Interview erfolgt eine qualitative Befragung in Verbindung mit der Präsentation bestimmter Stimuli mit dem Ziel, das Gespräch auf bestimmte Aspekte oder Problembereiche zu beschränken (vgl. hierzu Merton et al. 1990). Als Stimuli können Zeitungsausschnitte, Filme bzw. Filmausschnitte, Werbemittel und Ähnliches dienen. Im Anschluss an die Stimulusdarbietung erfolgt ein qualitatives Interview, das vom Interviewer jedoch im Vergleich zu den explorativen und Tiefeninterviews stärker gelenkt und auf bestimmte Aspekte fokussiert wird. Ziel ist die Analyse der Reaktion der Befragten auf den Stimulus. Im Marketing finden sich fokussierte Interviews u.a. im Rahmen der Werbewirkungsforschung oder im Rahmen von Konzepttests (vgl. die Ausführungen im fünften Teil). Von den projektiven und assoziativen Interviewtechniken, die ebenfalls mit Stimuli arbeiten, unterscheidet sich das fokussierte Interview durch eine direkte Fragestellung und die typische Gesprächssituation. Nützlich sind fokussierte Interviews für die Strukturierung des Untersuchungsproblems; aus den von den Befragten gewählten Inhalten, der Reihenfolge und der Art und Weise der Darstellung können relevante Beurteilungsdimensionen für die präsentierten Stimuli erfasst werden. Darüber hinaus können im Gespräch die Ursachen für die Reaktionen der Probanden erkundet werden (vgl. Kepper 2008, S. 185). Qualitative Interviews bieten eine ganze Reihe von Vorteilen (vgl. Chrzanowska 2002): Sie erlauben tiefe Einblicke in die Denkkategorien der Teilnehmer und lassen ihre Einstellungen, Meinungen und Wünsche erkennbar werden. Auch die nonverbalen Reaktionen der Probanden (Gestik, Mimik) können wichtige Informationen liefern. Es entsteht eine Vertrauensbasis zwischen Befragtem und Interviewer, die ein intensives Nachfragen und das Ansprechen auch sensibler Themenbereiche möglich macht. Demgegenüber sind jedoch auch einige Nachteile zu erwähnen (vgl. Salcher 1995, S. 29; Desai 2002, S. 3 f.): Qualitative Interviews sind nicht in der Lage, unbewusste Inhalte systematisch zu erfassen. Viele Verhaltensweisen sind automatisiert oder tief im Unterbewusstsein verankert, sodass sie vom Befragten nicht verbalisiert werden können. In der Interviewsituation kann es zur ungewollten Beeinflussung des Befragten durch den Interviewer kommen. Qualitative Interviews sind im Verhältnis zu anderen Erhebungsmethoden relativ teuer und zeitaufwändig. Beispiel 7.1: Im Rahmen einer qualitativen Studie sollte analysiert werden, nach welchen Kriterien erfolgreiche australische Unternehmen ihr internationales Engagement auswählen und ob sich bei der Marktselektion ein bestimmter Prozess identifizieren ließ. Zu diesem Zweck wurden insgesamt 12 Entscheidungsträger in international tätigen australischen Unternehmen in einer Serie von qualitativen Interviews befragt. Die Unternehmen wurden bewusst aus unterschiedlichen Branchen und Größenklassen <?page no="360"?> Methoden qualitativer Befragung 361 ausgewählt. Das erste Interview war vor allem explorativer Natur, um einen Gesamtüberblick zu erlangen; die anschließenden Interviews erfolgten durch die Gesprächstechnik des „laddering“, wodurch die Auskunftspersonen dazu angeregt wurden, den Prozess der Marktselektion und die entscheidenden Faktoren zum Ausdruck zu bringen. Ergebnis der Untersuchung war, dass für fast alle Unternehmen der erste Schritt auf ausländische Märkte eher ungeplanter Natur war (z.B. bedingt durch ausländische Kundenanfragen oder aufgrund einer Übernahme durch ausländische Investoren). Nur wenige Unternehmen waren auf das ausländische Engagement durch ein systematisches Auswahlverfahren adäquat vorbereitet; ein solches wurde meist erst mit zunehmender Erfahrung im internationalen Wettbewerb von den Unternehmen entwickelt. Ein weiteres Ergebnis der Studie war, dass sich der Marktselektionsprozess in zwei verschiedenen Stufen vollzieht. Zunächst wird die Marktgröße anhand relevanter Variablen beurteilt, erst dann werden weitere Aspekte einbezogen. Es zeigte sich auf der Basis der qualitativen Interviews, dass vor allem Märkte, die in ihrer Struktur zu der Unternehmensphilosophie bezüglich Wachstums- und Risikoaspekten passten, für ausländische Engagements ausgewählt wurden. Quelle: Rahman 2003 Techniken der indirekten Befragung versuchen, den interessierenden Sachverhalt mittels ablenkender Fragestellungen zu erfassen; dadurch soll der wahre Zweck der Fragen verschleiert werden und die Auskunftsperson zu einer wahrheitsgemäßen Beantwortung der Fragen verleitet werden. Indirekte Befragungstechniken werden auch in quantitativen Untersuchungen eingesetzt. Aufgrund ihres primär qualitativen, auf die Erkundung psychologischer Sachverhalte ausgerichteten methodischen Ansatzes werden sie jedoch an dieser Stelle behandelt. Bei indirekten Befragungstechniken handelt es sich durchweg um psychologische Tests; dazu gehören projektive Verfahren und assoziative Verfahren. Diese Techniken sind überwiegend fest definiert und strukturiert. Typischerweise ist die Befragung teilweise standardisiert, um eine Vergleichbarkeit der Ergebnisse bei verschiedenen Probanden zu ermöglichen; die Frageform kann sowohl offen als auch geschlossen sein. Projektive Verfahren beruhen darauf, dass Menschen eigene unangenehme und widerspruchsvolle Regungen oder aber affektgeladene, innere Wahrnehmungen nach außen bzw. auf andere Personen projizieren, um sich selbst zu entlasten (vgl. Salcher 1995, S. 56; Schub von Bossiatzky 1992, S. 102). Die Probanden werden vor bestimmte Aufgaben gestellt, im Rahmen derer mehrdeutige Stimuli präsentiert werden. Die Stimuli sind zum einen durch eine gewisse Unbestimmtheit charakterisiert, z.B. werden unklare Situationen dargestellt, die die Befragten auf der Grundlage ihrer eigenen Erfahrungen, Einstellungen und Wertvorstellungen interpretieren müssen. Zum anderen enthält die Aufgabe i.d.R. eine neuartige, spielerische Komponente, wodurch der Befragte motiviert, aber gleichzeitig vom eigentlichen Zwecke der Befragung abgelenkt wird (vgl. Kepper 2008, S. 197). Aus der Art und Weise, wie die Auskunftspersonen mit der Aufgabe umgehen, können Rückschlüsse auf ihre Überzeugungen, Motive usw. gewonnen werden. Geeignet sind projektive Verfahren dann, wenn zu erwarten ist, dass <?page no="361"?> 362 Qualitative Befragung die Auskunftspersonen zu bestimmten Fragestellungen nicht unmittelbar Stellung nehmen können oder wollen. Innerhalb der projektiven Verfahren lassen sich Ergänzungstechniken, Konstruktionstechniken und expressive Verfahren unterscheiden. Abb. 7.2: Beispiel für einen Satzergänzungtest Im Rahmen von Ergänzungstechniken werden die Auskunftspersonen gebeten, Anfänge von Sätzen oder auch Geschichten möglichst spontan und ohne bewusste Abwägung zu vervollständigen. Dadurch projiziert der Befragte eigene Meinungen und Einstellungen in die Sätze bzw. Geschichten, ohne das Gefühl zu haben, sich selbst bloßzustellen. Ein Beispiel für einen Satzergänzungstest findet sich in Abb. 7.2. Aus der Art der Ergänzung lässt sich auf die Einstellung des Probanden zum betreffenden Produkt schließen. Anwendungsbeispiele von Satzergänzungstests finden sich insbesondere in der Motiv- und Imageforschung wie auch in der Produkt- und Werbeforschung. Als problematisch kann sich bei Ergänzungstests erweisen, dass die Befragten versuchen, sich dem sprachlichen Niveau der Vorlage anzupassen. Darüber hinaus suggeriert die Unvollständigkeit des Satzes bzw. der Geschichte, dass „richtige“ oder „falsche“ Antworten existieren. Beides kann die Spontaneität und Unvoreingenommenheit der Probanden beeinträchtigen. Konstruktionstechniken beruhen darauf, dass bei Vorlage bestimmter - meist bildlicher - Stimuli die Testpersonen eine Aussage formulieren oder eine ganze Geschichte konstruieren sollen. Der Befragte ist dabei bzgl. Inhalt und Wortwahl völlig frei. Eine erste Gruppe innerhalb der Konstruktionstechniken bilden die sog. Drittpersonentechniken. Sie basieren darauf, dass einem Objekt bzw. einer Person bestimmte Eigenschaften zuge- Du kennst doch Luise. Seit sie sich vegan ernährt… <?page no="362"?> Methoden qualitativer Befragung 363 schrieben werden. Gängige Techniken sind dabei die folgenden (vgl. z.B. Salcher 1995, S. 71 ff.; Gröppel-Klein/ Königstorfer 2009, S. 541; Kirchmair 2011, S. 357 ff.): Personifizierung: Der Befragte wird gebeten, sich das betreffende Produkt bzw. die Marke als Person vorzustellen. Anschließend wird er gebeten, diese Person zu beschreiben. („Ist die Marke männlich oder weiblich? “ „Jung oder alt“? etc.) Einkaufslistentest: Dem Probanden werden fiktive Einkaufszettel vorgelegt. Anschließend muss der Befragte die Person beschreiben, welche diese Waren einkauft, oder aber er muss sich selbst für einen der Einkaufszettel entscheiden. Typischer Verwender: Der Proband muss beschreiben, wer aus seiner Sicht der typische Verwender eines bestimmten Produkts bzw. einer bestimmten Marke ist. Symbolzuordnungstest: Ähnlich wie bei der Personifizierung sollen dem Produkt bestimmte Symbole (z.B. Tiergattungen, Gegenstände, Farben) zugeordnet werden. Zitatzuordnungstest: Dem Probanden werden typische Äußerungen verschiedener Personen vorgelegt. Diese sollen dann als Verwender bzw. Nichtverwender vorgegebener Produkte eingeordnet werden. Familienbildung: Der Proband wird gebeten, Untersuchungsgegenstände (z.B. Produkte oder Marken) zu „Familien“ verwandter Produkte zu gruppieren. Auf dieser Grundlage werden wahrgenommene Ähnlichkeiten zwischen Objekten ersichtlich. Personenzuordnungstest: Dem Probanden werden Bilder verschiedener Personentypen vorgelegt. Der Befragte soll angeben, welche der abgebildeten Personen er als typische Verwender des Produkts ansieht (vgl. Abb. 7.3). Abb. 7.3: Beispiel für einen Personenzuordnungstest Wenn Sie einmal darüber nachdenken, wer Fair Trade Produkte kauft: Welche der unten abgebildeten Personen sehen Sie als typische Käufer an? B A D C F E H G <?page no="363"?> 364 Qualitative Befragung Der Ballontest (Cartoontest, Comic-Strip-Test) als zweite Variante innerhalb der Konstruktionstechniken geht auf den Picture Frustration Test zurück. Dem Probanden wird eine Situation in Form eines Cartoons vorgestellt, in welchem eine leere Sprech- oder Gedankenblase vorhanden ist (vgl. Abb. 7.4). Die Szene kann eine testobjektbezogene Konfliktsituation darstellen (z.B. mangelnde Produktleistung), sie muss aber nicht. Der Befragte wird gebeten, sich in die präsentierte Situation hineinzuversetzen und die leere Sprechblase auszufüllen. Es wird dabei vermutet, dass sich der Befragte mit der abgebildeten Person identifiziert und seine Antwort daher seine eigene Disposition widerspiegelt (vgl. Kepper 2008, S. 199). Anwendung findet der Ballontest dort, wo Persönlichkeitsmerkmale oder Verhaltenspositionen erfasst werden sollen, z.B. bei der Erstellung von Konsumententypologien. Abb. 7.4: Beispiel für einen Ballon-Test Beispiel 7.2: Produktpersonifizierung zur Ermittlung des Markenkerns Eine methodische Möglichkeit, die sog. „core values“ einer Marke zu erheben, stellt die Technik der Grabrede dar. In Kreativgruppen werden die Teilnehmer dazu aufgefordert, eine Grabrede für die „verstorbene“ Marke zu verfassen mit dem Ziel, Aussagen über und Begründungen für die Aktualität der Marke und den Grad der Kundenbindung zu gewinnen. Bei Anwendung dieser Technik können vor allem die positiven Aspekte, die mit einer Marke in Verbindung gebracht werden, gut erhoben werden, wobei für die Analyse auch Aussagen über die Qualität des Lebens mit der Marke, Ausdrücke der Zuneigung, Vorstellungen über das Leben ohne die Marke und vor allem der Grad an Überraschung über den Tod von besonderer Wichtigkeit sind. Die hier analysierte Marke ist eine Submarke einer großen etablierten und positiv belegten Marke, deren Submarken sich klar in Form und Nutzen unterscheiden. Die betreffende Submarke ist seit 15 Jahren auf dem Markt, besetzt eine Marktnische und wird wenig beworben. Die nachfolgende Abbildung zeigt Beispiele für Grabreden eines Markenverwenders (links) und eines ehemaligen Verwenders (rechts). Leider ist das Produkt erst in vier Wochen lieferbar. <?page no="364"?> Methoden qualitativer Befragung 365 Kurz vor der Untersuchung gab es eine innovative Markenausweitung mit einem Produkt, dessen Nutzen teilweise ähnlich erlebt wird. Dieses scheint sich sowohl bei den Verwendern als auch bei den ehemaligen Verwendern besonders auszudrücken. Während bei den Verwendern durchaus Trauer über den „Tod“ der Marke zum Ausdruck gebracht wird, welches von einer emotionalen Bindung zur Marke zeugt, fällt auch ihnen der Abschied verhältnismäßig leicht, da Ersatz in Sicht ist („XXX ist tot, es lebe XXX“). Für die ehemaligen Verwender kommt der Tod nicht verwunderlich, eine Auffassung von ungenügender „Performance“ der Marke und Aussagen über eine mangelnde Marktakzeptanz aufgrund von Schwächen in der Persönlichkeit sind zu erkennen. Auch hier kommt der Aspekt, dass Ersatz in Sicht ist, zum Ausdruck („Wir hoffen nun, dass sie in ihrer Tochter XXX weiterlebt und gesellschaftlich anerkannt wird.“). Es hat sich im Rahmen der gesamten Untersuchung gezeigt, dass der zentrale Produktvorteil der Marke zwar geschätzt wird, jedoch keine tiefe Markenbindung mehr besteht, da die Konkurrenz auf funktionaler Ebene zu merklichem Loyalitätsschwund geführt hat. Um dem entgegenzuwirken, müssten verstärkt werbliche Maßnahmen durchgeführt werden, die die Verbraucher wieder an das Produkt und seine Vorteile erinnern. Aus Mangel an Aktualisierungsmaßnahmen hat die Marke ihre ehemals ausgeprägte Modernität eingebüßt und wird inzwischen als „alt“ erlebt. An diesem Aspekt könnte z.B. durch eine Modernisierung der Verpackungsgestaltung gearbeitet werden. Quelle: Wegener Marktforschung 2004 <?page no="365"?> 366 Qualitative Befragung Als dritte Konstruktionstechnik ist schließlich der Bildererzähltest zu nennen, der auf dem Thematischen Apperzeptionstest (TAT) basiert. Der Testperson werden Bilder vorgelegt, die eine Situation um den Untersuchungsgegenstand darstellen, z.B. bestimmte Kauf- oder Konsumsituationen. Der Befragte hat die Aufgabe, zu den Bildern eine passende Geschichte zu erzählen bzw. die auf den Bildern dargestellte Situation zu erläutern (vgl. Gröppel-Klein/ Königstorfer 2009, S. 542 f.). Es wird dabei davon ausgegangen, dass durch die Charakterisierung der handelnden Personen und Ereignisse eigene Einstellungen, Werte und Verhaltensmuster einfließen. Beispielsweise stellen die Bilder eine Situation im Zusammenhang mit einem zu bewerbenden Produkt dar. Aus der Geschichte, die der Proband entwickelt, wird die Rolle des Produkts dann analysiert. Anwendung findet der Bildererzähltest u.a. im Bereich der Produkt- und Werbemittelforschung. Expressive Verfahren unterscheiden sich von den Konstruktionstechniken dadurch, dass neben verbalen auch nonverbale Ausdrucksformen erfasst werden. Darüber hinaus liegt das Interesse des Forschers nicht nur im Ergebnis selbst, sondern auch in der Art und Weise, wie das Ergebnis erzielt wurde. Wie bei den Konstruktionstechniken besteht die Aufgabe des Probanden darin, komplexe Sachverhalte selbstständig zu entwickeln und darzustellen (vgl. Kepper 1996, S. 106 f.). Im Rahmen expressiver Verfahren werden häufig Rollenspiele eingesetzt (vgl. hierzu Haimerl/ Roleff 2001, S. 111). Der Befragte wird gebeten, eine bestimmte Rolle zu übernehmen und nach kurzer Vorbereitungszeit eine oder mehrere Szenen zu spielen (Psychodramatechnik). Bei der Rolle kann es sich um den Befragten selbst in einer bestimmten Situation, um eine andere Person oder um ein Objekt - häufig ein bestimmtes Produkt - handeln. Es wird dabei erneut davon ausgegangen, dass die Probanden eigene Dispositionen und Verhaltensmuster in ihre Rolle einfließen lassen, sodass wesentliche Persönlichkeits- und Verhaltensmerkmale erfasst werden können. Beispiel 7.3: Auf Basis von Erkenntnissen aus der Psychodramatechnik versuchte Tetra-Pak ein „reframing“ seines Markenimages durchzuführen. Tetra-Pak gilt als moderne und „conveniente“ Verpackung, vom Verbraucher wird ihr aber nicht die gleiche hohe Wertigkeitswahrnehmung entgegengebracht wie z.B. Glas oder PET-Verpackungen. Aus diesem Grund betont Tetra-Pak vor allem den Schutz des Vitamingehalts durch die Kartonverpackungen gegenüber den durchsichtigen Behältnissen der Konkurrenz. Quelle: Haimerl/ Lebok 2004, S. 53 ff. Als weiteres expressives Verfahren ist das sog. Psychodrawing zu nennen (vgl. Kepper 1996, S. 106 f.). Die Testpersonen werden im Rahmen dieser Technik gebeten, zu einem bestimmten Thema eine Zeichnung anzufertigen. In der Marktforschung gebräuchlich sind z.B. das Zeichnen eines Produkts bzw. des Unternehmens als Ganzes, einer Verwendungssituation oder von Gefühlen und Erfahrungen im Zusammenhang mit einem Produkt. Aus der Art der Darstellung (Form- und Farbgebung, Bilddetails) können Rückschlüsse auf Gefühle, Einstellungen bzw. der Wichtigkeit von z.B. Produktmerkmalen gezogen werden. Zusätzliche Erkenntnisse können gewonnen werden, wenn der Befragte anschließend aufgefordert wird, seine Zeichnung zu erläutern. <?page no="366"?> Methoden qualitativer Befragung 367 Insgesamt betrachtet eignen sich projektive Techniken, um verborgene Meinungen und Einstellungen sichtbar zu machen, mögliche Antwortwiderstände (z.B. bei sensiblen Themen) zu umgehen und schwer verbalisierbare Sachverhalte zu erfassen (vgl. Kepper 2008, S. 202 f.). Dadurch können sie einen erheblichen Beitrag zur Strukturierung des Untersuchungsfelds leisten, da bisher unbekannte Dimensionen des Forschungsfelds zum Vorschein kommen. Auch kann die subjektive Bedeutung bestimmter Aspekte des Untersuchungsproblems zu Tage gefördert werden. Des Weiteren sind projektive Techniken in der Lage, auch komplexe, schwer erfassbare und sensible Themen ganzheitlich zu erfassen. Dadurch, dass projektive Verfahren Kontrollmechanismen des Probanden umgehen und auch unter- oder unbewusste Motive identifizieren können, eignen sie sich im besonderen Maße zur Ursachenforschung. Auf diese Weise wird es möglich, auch solche Motive, Einstellungen oder Erwartungen aufzudecken, welche die Ursache für bestimmte Verhaltensweisen darstellen aber der Proband nicht artikulieren kann oder will. Problematisch ist, dass solche Techniken - insb. die expressiven Verfahren - hohe Anforderungen an den Probanden stellen und auf gewisse Hemmschwellen stoßen können (vgl. Kepper 1996, S. 108). Beispiel 7.4: Vor dem Hintergrund der Liberalisierung des Briefmarktes wollte die Deutsche Post AG ihren Status der Markenwahrnehmung bei Geschäfts- und Privatkunden erheben, um darauf aufbauend einen Markensteuerungsprozess implementieren zu können. Zu diesem Zweck führte das Market Research Service Center, Marktforschungsdienstleister des Konzerns Deutsche Post AG, eine qualitative Studie durch, bei der verschiedene projektive Verfahren zum Einsatz kamen. Fokus der Studie war es, Erkenntnisse über den emotionalen Nutzen der Marke Deutsche Post AG zu gewinnen. Dabei wurde in einem ersten Schritt in Mini- Groups eine Produktpersonifizierung durchgeführt, bei denen die Teilnehmer die Marke Deutsche Post AG und ihre Konkurrenten auf dem Kommunikationsmarkt mit einer „Markenpersönlichkeit“ versehen sollten. Zu diesem Zweck erarbeiteten die einzelnen Gruppen die sozial relevanten Bedingungen (Alter, Geschlecht, Familie, Beruf), den Lebensstil (Gewohnheiten, Handlungen) sowie die zentralen Persönlichkeitsmerkmale und die Biographie der personifizierten Marke. In einem zweiten Schritt vertraten die Gruppen „ihre“ Marke mit den wahrgenommenen Persönlichkeitsmerkmalen in allgemeinen und produktspezifischen Rollenspielen, wobei durch die direkte Interaktion Stärken und Schwächen in der Persönlichkeitsausstattung unmittelbar erlebbar wurden. In einem dritten Schritt wurde dann das Entwicklungspotenzial aus Kundensicht in den Gruppen erhoben, wobei eine geeignete „Therapie“ für die Marke entworfen werden sollte, die einerseits zur Marke passt und andererseits ihr mehr Attraktivität im direkten Vergleich zu den Wettbewerbern verleihen sollte. Aus diesen Erkenntnissen konnten anschließend Möglichkeiten und Grenzen einer beabsichtigten Umpositionierung der Marke aufgezeigt und Strategien der Markenweiterführung am Markt erarbeitet werden. Quelle: Hensel/ Meixner 2004, S. 70 ff. <?page no="367"?> 368 Qualitative Befragung Indirekte Befragungen können auch mit Hilfe assoziativer Techniken durchgeführt werden. Unter einer Assoziation versteht man spontane, ungelenkte Verknüpfungen einzelner Gedächtnis- und Gefühlsinhalte (vgl. Salcher 1995, S. 70 ff.). Die Aufgabe assoziativer Verfahren besteht darin, spontane Reaktionen auf bestimmte Stimuli zu fördern und dadurch gedankliche Verknüpfungen, die der Proband möglicherweise nicht verbalisieren kann oder will, offen zu legen. Bekanntestes assoziatives Verfahren ist der sog. Wortassoziationstest (vgl. Daymon/ Holloway 2010, S. 223). Dem Probanden wird eine Liste untersuchungsrelevanter Reizwörter vorgelegt, wobei die Liste üblicherweise auch neutrale Reizwörter enthält, um den Untersuchungszweck zu verschleiern. Der Proband muss auf jedes Reizwort spontan mit einer Assoziation reagieren. In der Marktforschung wird dies Verfahren beispielsweise eingesetzt, um bei Produktnamens- und Werbebotschaftsentwicklungen festzustellen, was potenzielle Kunden mit bestimmten Wörtern verbinden. Weitere assoziative Techniken sind Techniken zur Bildung von Assoziationsketten. Dem Probanden wird ein verbaler oder bildlicher Stimulus präsentiert; die Testperson soll daraufhin so viele assoziative Verknüpfungen herstellen, wie ihr einfallen. Dadurch kann das spontane, unreflektierte Erlebnisumfeld des Untersuchungsgegenstandes (z.B. Produkt, Marke) erkundet werden, was wichtige Hinweise für die Motiv- und Imageforschung liefern kann (vgl. Kepper 2008, S. 201). Bei der Anwendung von Assoziationstechniken ist zwischen freier und gelenkter Assoziation zu unterscheiden (vgl. Kirchmair 2011, S. 353). Während im Rahmen einer freien Assoziation der Untersuchungsgegenstand nicht eingeschränkt wird und der Befragte Assoziationen zu allen möglichen Aspekten bilden kann, wird im Rahmen einer gelenkten Assoziation der Untersuchungsgegenstand eingeschränkt, sodass der Proband nur zu bestimmten interessierenden Aspekten Verknüpfungen herstellen muss. Ein Beispiel wäre „Gesundheit“ als ungelenktes Reizwort und „kalorienreduzierte Ernährung“ als gelenktes Reizwort. Assoziative Techniken können insbesondere zur Strukturierung des Untersuchungsgegenstandes beitragen, da die von Probanden geäußerten Verknüpfungen ein Bild über relevante Dimensionen des Untersuchungsobjekts schaffen können. Zu anderen Zwecken - z.B. Ursachenforschung - sind sie hingegen weniger geeignet. Demgegenüber steht der Vorteil eines flexiblen und unkomplizierten Einsatzes. Beispiel 7.5: Das ZDF hat u.a. mit Hilfe von Assoziationsketten versucht, den Informationsaufbau ihrer Websites zu überprüfen und die Assoziationen der Nutzer zu bestimmten Begriffen abgefragt und analysiert. Durch Assoziationen zu übergeordneten Kategorien konnten die Erwartungen der Testpersonen an die Website aufgenommen werden. Über die Assoziationen zu untergeordneten Kategorien konnte festgestellt werden, ob die Begriffe auch so verstanden wurden, wie sie gemeint waren, oder ob eine Umbenennung zweckmäßig wäre und zu mehr Klarheit führen würde. Auf Basis dieser Ergebnisse konnten die Informationsarchitektur der Website entscheidend verbessert und die Komplexität im Aufbau der Navigation reduziert werden. Quelle: Frees/ Bosenick 2004, S. 79 ff. <?page no="368"?> Methoden qualitativer Befragung 369 Gruppeninterviews Gruppeninterviews sind dadurch gekennzeichnet, dass mehrere Personen gleichzeitig an einer Befragung teilnehmen. In der Marktforschung werden sie eingesetzt, wenn aus der Interaktion der Gruppenmitglieder untereinander besondere Erkenntnisse erwartet werden können. Als wichtige Unterformen können die Gruppendiskussion und die gelenkte Kreativgruppe unterschieden werden. Im Rahmen einer Gruppendiskussion (Focus Group) wird eine Kleingruppe (meist 6-10 Personen) eingesetzt, die das vorliegende Forschungsproblem unter Leitung eines geschulten Moderators diskutiert. In der Regel werden für eine Gruppendiskussion 1 - 1 ½ Stunden angesetzt. Die Zusammensetzung der Gruppe sollte möglichst ausgewogen sein, um Positions- und Machtkämpfe zu vermeiden. Eine besondere Bedeutung kommt dabei dem Moderator zu (vgl. ausführlich Blank 2011, S. 300 ff.). Seine Aufgabe besteht darin, Wortbeiträge zu stimulieren und möglichst alle Beteiligten zu Äußerungen anzuregen; er steuert die Diskussion im Hinblick auf die konkrete Problemstellung, ohne aber den spontanen Gesprächsverlauf zu hemmen. Ein Diskussionsleitfaden gewährleistet eine gewisse Strukturierung des Diskussionsverlaufs. Die Aufzeichnung erfolgt in Form von Gesprächsprotokollen, Tonband- und Videoaufnahmen. Bei der anschließenden Analyse sind dabei nicht nur die verbalen Äußerungen der Teilnehmer von Bedeutung; für die Interpretation liefern auch der Prozess der Meinungsbildung, die Diskussionsschwerpunkte und die nonverbalen Reaktionen der Teilnehmer (Mimik, Gestik) wertvolle Hinweise. Mittlerweile können Gruppendiskussionen auch online durchgeführt werden - im einfachsten Fall über Skype -, sodass sich die Teilnehmer nicht am selben Ort aufhalten müssen. Neben der hier dargestellten Grundform einer Gruppendiskussion sind zahlreiche Varianten gebräuchlich, von denen die wichtigsten nachfolgend dargestellt werden sollten. Bei der kumulierten Gruppendiskussion werden mehrere, aufeinander aufbauende Gesprächsrunden mit jeweils unterschiedlichen Befragten durchgeführt. Dabei erhält jede Gruppe die Ergebnisse der vorherigen Gruppe(n) als Ausgangsbasis für die eigene Diskussion, sodass ein zusätzlicher Auseinandersetzungsprozess mit dem Untersuchungsproblem erreicht wird (vgl. Salcher 1995, S. 51). Ziel von kombinierten Gruppendiskussionen ist es, den Einfluss von Gruppenmeinungen auf den individuellen Meinungsbildungsprozess zu ermitteln (vgl. Salcher 1995, S. 52). Bei dieser Form der Gruppendiskussion steht dementsprechend weniger das Endergebnis in Form der Gruppenmeinung im Vordergrund, sondern der Fokus liegt vielmehr auf den Meinungsbildungsprozess, d.h. in welcher Art und Weise sich Meinungen im Verlaufe der Diskussion bilden und verändern (vgl. Zanger/ Sistenich 1996, S. 352 f.). Zu diesem Zweck werden vor der eigentlichen Gruppendiskussion mit allen Teilnehmern Einzelinterviews geführt, in welchen die ursprünglichen individuellen Ansichten bezüglich des Untersuchungsgegenstandes erhoben werden. In der nachfolgenden Gruppendiskussion wird festgehalten, wie und aufgrund welcher Argumente sich die einzelnen Meinungen durch den Gruppeneinfluss verändern. In abschließenden Einzelgesprächen wird dann die tatsächliche Abweichung von der ursprünglichen Auffassung überprüft und festgestellt, inwieweit die gemeinsame Diskussion dafür verantwortlich ist. Dieses Verfahren wird vor allem im Rahmen von Produkt- oder Werbekonzepttests eingesetzt, bei denen sowohl die Einzelmeinung als auch deren Veränderung im sozialen Umfeld von Interesse ist. <?page no="369"?> 370 Qualitative Befragung Bei der kontradiktorischen Gruppendiskussion wird ohne Wissen der Teilnehmer ein Mitarbeiter der Marktforschung in die Diskussionsrunde integriert mit der Aufgabe, einer zu schnellen Einigung durch provozierende Äußerungen und neue Aspekte entgegenzuwirken (vgl. Kepper 1996, S. 69). Ziel dieses Verfahrens ist es, die Stabilität einer erreichten Gruppenmeinung zu überprüfen. Des Weiteren eignet es sich auch dazu, konkrete, schon vorher identifizierte Stärken und Schwächen eines Untersuchungsgegenstandes, wie z.B. eines Produkt- oder Werbekonzepts, auf ihre Wichtigkeit hin zu überprüfen und die Reaktionen und Argumente der Teilnehmer bei Kenntnis dieser Stärken und Schwächen zu ermitteln (vgl. Salcher 1995, S. 55). Sogenannte Mini-Groups (4-6 Befragte) werden eingesetzt, wenn das Untersuchungsthema oder die Befragten selbst Besonderheiten aufweisen, die eine solche kleine Gruppe zulassen oder sogar erforderlich machen. Mini-Groups haben sich insb. bei sensiblen Themen, bei Expertenbefragungen oder bei Kindern in der Praxis bewährt (vgl. Kepper 2008, S. 189). Schließlich beinhaltet eine Delphi-Befragung eine mehrmalige, schriftliche Expertenbefragung auf der Grundlage eines standardisierten Fragebogens zu einem bestimmten Sachverhalt - häufig technologische Prognosen oder im Rahmen der Trendforschung. Die Aussagen der Experten werden statistisch ausgewertet, i.d.R. mit Hilfe des Medians und des Quartilabstands. Ziel ist dabei, eine Konvergenz zwischen den Expertenmeinungen zu erzielen. Gruppendiskussionen sind zur Strukturierung des Untersuchungsfelds besonders geeignet, da durch die gegenseitige Stimulation der Teilnehmer viele relevante Strukturen und Dimensionen offen gelegt werden. Zur Erstellung qualitativer Prognosen eignet sich insbesondere die Delphi-Befragung. Zur Ideengenerierung und Screening sind Gruppendiskussionen grundsätzlich ebenfalls geeignet (vgl. Kepper 2008, S. 191 f.). In der Marketing- Praxis finden Gruppendiskussionen insb. in der Einstellungsforschung, der Neuproduktentwicklung sowie bei Werbe- und Packungstests Anwendung. Gruppendiskussionen weisen im Vergleich zu Einzelinterviews eine ganze Reihe von Vorteilen auf: Während der Diskussion werden Hemmungen der Teilnehmer abgebaut, sodass sich die Teilnehmer gegenseitig zu Äußerungen anregen. Hierdurch wird ein breites Spektrum von Meinungen generiert. Die Diskussion erlaubt Einblicke in Meinungen, Verhaltensweisen, Einstellungen und Motive der Teilnehmer („Consumer Insights“) im Rahmen einer alltagsnahen Gesprächsituation. Der Forscher kann Einblicke in die Beeinflussungsmechanismen sowie in die verbalen und nonverbalen Ausdrucksweisen innerhalb der Gruppe gewinnen. Die ungezwungene Atmosphäre führt zu „ehrlicheren“ Verhaltensweisen und damit zu einer Reduzierung sozial erwünschten Verhaltens. Demgegenüber stehen jedoch auch einige Nachteile (vgl. Blank 2011, S. 295 f.): Es besteht die Gefahr, dass der Einzelne seine Meinung an die Gruppennorm oder an einem Meinungsführer orientiert, sodass abweichende Einschätzungen, die für das Problem relevant sein könnten, unterdrückt werden. <?page no="370"?> Methoden qualitativer Befragung 371 Der Erfolg einer Gruppendiskussion ist sehr stark von der Qualität der Moderation abhängig. Weniger geeignet ist die Gruppendiskussion bei sehr intimen oder tabuisierten Phänomenen und Sachverhalten. Beispiel 7.6: Das Marktforschungsinstitut Naether Marktforschung aus Hamburg erstellte im Jahr 2001 die Studie „Young Parents“, eine qualitative Studie, die sich mit den Werten und Einstellungen jungen Eltern befasste und welche das durch den neuen Lebensabschnitt gekennzeichnete Konsumverhalten und die Markenwahrnehmung unter die Lupe nahm. Im Rahmen von sechs Gruppendiskussionen mit jungen Eltern wurden dabei folgende Ergebnisse ermittelt: Auf dem Weg zum Elterndasein verändert sich das Konsumverhalten signifikant; ein Prozess vom unbedarften hin zum bewussten und aufgeklärten Konsumenten konnte festgestellt werden. Dabei spielt vor allem die Nutzung neuer Produktkategorien (Windeln, Babynahrung) eine Rolle. In allen Lebensbereichen konnte eine klare Tendenz zu Marken festgestellt werden, die von den jungen Eltern als besonders verlässlich und traditionell wahrgenommen werden und für Produkte mit guter Qualität stehen (Volkswagen, Daimler-Chrysler, Volvo). In diesem Zusammenhang wurden vor allem Marken genannt, die sich im internationalen Vergleich gegenüber kurzfristigen Trends profiliert haben und schon mit den eigenen Eltern in Verbindung gebracht wurden. Auch Aspekte wie Kinderfreundlichkeit und Kostengünstigkeit spielten bei der Markenwahrnehmung eine gesteigerte Rolle (IKEA, McDonald’s). Nach einer Phase des sehr kritischen Umgangs mit Marken und Produkten kommt es dann wieder zu einem Einstellungswandel in Richtung pragmatischer Lösungen, wobei vor allem Lebensmitteldiscounter wie ALDI und Lidl von diesem Trend profitieren können. Negativ wurden insb. Unternehmen wahrgenommen, deren Produkte als ungesund gelten (Marlboro) oder Unternehmen wie Microsoft, das als Inbegriff für den negativ belegten amerikanischen Kapitalismus steht und deren Produkte als überteuert gelten. Quelle: Naether Marktforschung 2001a und 2001b Eine Sonderform des Gruppeninterviews ist die sog. gelenkte Kreativgruppe. Hierbei werden im Rahmen einer Gruppendiskussion gezielt Kreativitätstechniken integriert. Die Gruppenmitglieder werden mit der Anwendung der einzelnen Kreativitätstechniken vertraut gemacht. Je nachdem, wie anspruchsvoll die jeweilige Technik ist, reicht dies von einer einfachen Anleitung bis hin zu einer vollständigen Schulung. Kreativitätstechniken werden eingesetzt, um neue Problemlösungen zu finden. Deren Anwendung beruht auf der Erkenntnis, dass innovative Lösungen besonderer - bewusster oder unbewusster - Denkoperationen bedürfen; durch Stimulierung und Lenkung des kreativen Potenzials der Teilnehmer erhöht sich die Fähigkeit der Befragten, strukturiert und fokussiert innovative Problemlösungen zu erbringen. Die gelenkte Kreativgruppe unterscheidet sich von der herkömmlichen Gruppendiskussion durch folgende Merkmale (vgl. Kepper 2008, S. 190): Es wird bewusst darauf verzichtet, eine alltagsnahe Gesprächssituation mit dem ihr innewohnenden spontanen Gesprächsverlauf zu erzeugen. Hingegen wird der Gesprächsverlauf stärker moderiert und fokussiert. <?page no="371"?> 372 Qualitative Befragung Die Erfassung des Prozesses der Meinungsbildung und Meinungsbeeinflussung - ein weiteres Merkmal der klassischen Gruppendiskussion - erfolgt im Rahmen einer gelenkten Kreativgruppe nicht. Durch den systematischen Einsatz strukturierter Techniken fallen die Befragten aus ihrer Rolle als „normale“ Konsumenten und werden in die Position von Kritikern mit Expertenwissen versetzt. Dies kann zu einer Verhaltensverzerrung führen. Wesentliche Aufgaben von Kreativitätstechniken sind (vgl. den Überblick bei Schlicksupp 1995): Verstärkung des kreativen Potenzials der Befragten, Überwindung von Denkblockaden und Erzielung von Synergieeffekten aus der Teamarbeit. Die verschiedenen Kreativitätstechniken lassen sich in drei Gruppen unterteilen: assoziative Verfahren, bisoziative (synektische) Verfahren und kombinatorische Verfahren. Assoziative Verfahren beruhen darauf, dass aufgrund einer schriftlich, bildlich oder verbal dargestellten Reizsituation die Teilnehmer zu Assoziationen angeregt werden. Es handelt sich um vergleichsweise einfache Methoden, die dazu geeignet sind, latente Problemlösungsansätze sichtbar zu machen; echte innovative Lösungen sind allerdings selten. Bekanntestes Verfahren ist dabei das Brainstorming (vgl. hierzu Osborn 1953). Eine Brainstorming-Gruppe setzt sich typischerweise aus vier bis sieben Personen aus unterschiedlichen Bereichen, jedoch aus derselben Hierarchiestufe zusammen. Das Team hat die Aufgabe, während einer festgelegten Zeitspanne (i.A. 15 bis 60 Minuten) möglichst viele Ideen zu produzieren. Zu beachten sind dabei folgende Grundregeln: Jegliche sachliche und persönliche Wertungen sollen unterbleiben, um den Ideenfluss nicht zu hemmen. Alle Teilnehmer sind aufgefordert, die Ideen anderer aufzugreifen und weiter zu entwickeln. Auch auf den ersten Blick als abwegig erscheinende Ideen sollen geäußert werden, da sie möglicherweise Anregungen für brauchbare Lösungsvorschläge liefern. Es sollen möglichst viele Ideen entwickelt werden, um die Wahrscheinlichkeit zu erhöhen, dass sich darunter brauchbare, innovative Vorschläge befinden. Weitere assoziative Verfahren sind (vgl. Schlicksupp 1995, Sp. 1294): Destruktiv-konstruktives Brainstorming: In einer ersten Phase werden ausführlich Mängel und Schwächen des vorgegebenen Sachverhalts behandelt; in einer zweiten Phase werden zu jedem aufgedeckten Mangel im Rahmen einer Brainstorming-Sitzung Verbesserungsmöglichkeiten gesucht. Methode 635: 6 Personen tragen in ein Formular je drei Lösungen ein. Die Formulare werden nacheinander an die anderen Teilnehmer weitergereicht, die jeweils drei neue oder drei Modifikationen bisheriger Lösungen eintragen müssen. <?page no="372"?> Methoden qualitativer Befragung 373 Kärtchen-Technik: Die Teilnehmer schreiben jeweils eine Idee auf ein Kärtchen, das anschließend an eine Pinnwand geheftet wird. Die so gesammelten Ideen sollen zu weiteren Lösungen anregen. Bisoziative oder synektische Verfahren beruhen darauf, dass Wissensbzw. Erfahrungselemente von einem Gebiet auf ein anderes, nicht artverwandtes übertragen werden sollen. Die Teilnehmer sollen sich vom ursprünglichen Problem entfernen (Verfremdung) und dadurch zu neuen Ideen angeregt werden. Solche Techniken sind deutlich aufwändiger als assoziative Techniken und erfordern i.d.R. eine gezielte Schulung. Bekanntestes Verfahren ist die Synektik (vgl. hierzu Gordon 1961). Tab. 7.1: Ablaufschritte der Synektik (Quelle: Schlicksupp 1995, Sp. 1300) Phasen des kreativen Prozesses Ablauf der Methode „Synektik“ Intensive Beschäftigung mit dem Problem Strukturierung Informationssuche Problemverständnis erhöhen Bemühen um Lösungen Problemanalyse und -definition Spontane Lösungen Neu-Formulierung Entfernung vom Problem Örtliche und zeitliche Verfremdung Wechsel der Tätigkeiten Körperliche Entspannung Bildung direkter Analogien, z.B. aus der Natur Persönliche Analogien, „Identifikationen“ Symbolische Analogien, „Kontradiktionen“ Direkte Analogien, z.B. aus der Technik Herstellung von Denkverbindungen unterbewusste, ungehemmte Denkprozesse Assoziationen Strukturübertragungen Analyse der direkten Analogien Übertragen auf das Problem - „Force-Fit“ Spontane Lösungsideen Illuminationen Geistesblitz Verifikation Überprüfung und Ausgestaltung der Idee Entwicklung von Lösungsansätzen Die Grundidee der Synektik besteht darin, den normalerweise unbewusst verlaufenden kreativen Prozess bewusst zu stimulieren. Eine Synektik-Gruppe besteht i.d.R. aus fünf bis sieben Teilnehmern, welche besonders geschult sind und häufig ein festes Team bilden. Eine Synektik-Sitzung kann bis zu drei Stunden dauern. Tab. 7.1 zeigt den grundlegenden Ablauf einer Synektik-Sitzung. Entscheidend ist im Rahmen der Synektik die Verfremdung vom Problem: Durch systematische Analogienbildung entfernt man sich immer weiter vom ursprünglichen Problem; im Anschluss an den Verfremdungsprozess soll sich die Synektikgruppe dann wieder auf das ursprüngliche Problem zurückbesinnen und dafür Lösungsansätze entwickeln. <?page no="373"?> 374 Qualitative Befragung Weitere bisoziative Techniken sind (vgl. Schlicksupp 1995, Sp. 1296 ff.; Schlicksupp et al. 2011, S. 449 ff.): Reizwort-Analyse: Per Zufall wird ein Gegenstand bestimmt, der gedanklich in Bausteine zerlegt wird. Die Denkelemente, die aus diesen „Bausteinen“ erzeugt werden, sollen auf das ursprüngliche Problem übertragen werden. Visuelle Synektik (Collage-Technik): Kleinere Bilder werden zu neuen, ungewohnten Zusammenhängen kombiniert. Schlüsselbegriffe werden in Form von Bildern erfasst und beliebig zusammengesetzt; die so entwickelten Collagen sollen Anregungen für neue Ideen liefern. TILMAG-Methode (Transformation idealer Lösungselemente in Matrizen für Assoziationen und Gemeinsamkeiten): Ausgehend von „idealen Lösungselementen“ werden gesteuerte Assoziationen aus fachfremden Gebieten generiert. Dadurch ist das Verfahren weniger abstrakt als die Synektik. Kombinatorische Verfahren beruhen darauf, dass ein Objekt systematisch analysiert wird. Es wird versucht, die Elemente eines Objekts zu neuartigen Kombinationen zusammenzufügen. Diese Verfahren eigenen sich insb. zur Verbesserung und Weiterentwicklung bereits existierender Objekte (z.B. Produkte), weniger zur Entwicklung echter innovativer Problemlösungen. Tab. 7.2: Morphologischer Kasten für eine Getränkeverpackung (Quelle: www.axel-schroeder.de) Parameter Ausprägungen Größe der Verpackung 0,1 l 0,5 l 1 l 5 l Art der Verpackung Tüte Kanister Flasche Dose Beutel Material der Verpackung Glas Alu Kunststoff Pappe Holz Art des Verschlusses Drehverschluss Sollbruchstelle Klettverschluss Druckknopf Bügelverschluss Material des Verschlusses Kork Kunststoff Metall Glas Pappe Bekanntestes Verfahren ist die Morphologische Methode (vgl. hierzu Zwicky 1966). Das Verfahren beruht auf einer systematischen Zerlegung des Problems in seine Elemente; diese Elemente werden anschließend zu neuen Problemlösungen zusammengefügt. Tabelle 7.2 zeigt ein Beispiel für einen morphologischen Kasten. Die Morphologische Methode vollzieht sich in folgenden Schritten: Umschreibung und Verallgemeinerung des Problems: Das Problem wird so allgemein wie möglich definiert, um das Spektrum möglicher Lösungen nicht unnötig einzuschränken. <?page no="374"?> Gestaltung qualitativer Befragungen 375 Bestimmung der Parameter: Das Problem wird in seine Elemente zerlegt (z.B. Produktbestandteile). Für die einzelnen Bestandteile (z.B. Verschluss) werden alle denkbaren alternativen Ausprägungen gesucht (z.B. Kork, Metall, Bügel usw.). Aufstellung des morphologischen Kastens: Parameter und Ausprägungen werden in Matrixform angeordnet; die Problemlösungen entstehen durch Verbindung je einer Ausprägung pro Parameter mittels Linienzügen (z.B. von Hand aufzuziehende Uhr mit Federmechanik etc). Analyse und Bewertung der Lösungsmöglichkeiten: Die resultierenden Lösungen werden auf ihre Realisierbarkeit hin überprüft und einer Bewertung unterzogen. Auswahl der weiter zu verfolgenden Lösungen: Die vielversprechendsten Alternativen werden ausgewählt. Weitere kombinatorische Techniken sind: Attribute-Listing: Es werden alle wichtigen Eigenschaften und Bestandteile einer bekannten Problemlösung aufgelistet (Schlüsselattribute). Darauf aufbauend wird versucht, Anregungen für Lösungsverbesserungen des konkreten Problems zu entwickeln. Progressive Abstraktion: Das Verfahren beruht auf einer systematischen Veränderung der Perspektive. Das Problem wird stufenweise in immer größeren Zusammenhängen betrachtet. Durch eine schrittweise Erhöhung des Abstraktionsniveaus werden die Kernfragen eines Problems aufgedeckt, woraus systematisch neue Lösungsvorschläge entwickelt werden können. Gelenkte Kreativgruppen finden ihren Einsatz im Bereich der Ideengenerierung. Typische Anwendungsfelder sind Produktinnovationen oder die Entwicklung von Werbekampagnen. Mit Einschränkungen können sie auch für das Screening eingesetzt werden, da die meisten Verfahren eine anschließende Beurteilung der entwickelten Ideen vorsehen. Allerdings ist zu beachten, dass die Teilnehmer eher eine Expertenperspektive und weniger die gewünschte Konsumentenperspektive vertreten (vgl. Kepper 2008, S. 192). Gelenkte Kreativgruppen können auch zur Strukturierung eines Problems beitragen. Insbesondere bei komplexen, neuartigen Problemen können wichtige Problemelemente und mögliche Ausprägungen identifiziert werden. Schließlich können Kreativgruppen auch zur Vorbereitung oder Strukturierung qualitativer Prognosen eingesetzt werden. 1.3 Gestaltung qualitativer Befragungen Die Vielzahl an Methoden qualitativer Befragungen geht mit einer besonderen Vielfalt an unterschiedlichen Anwendungstechniken einher; im Folgenden werden daher exemplarisch die wichtigsten Befragungstechniken bei qualitativen Erhebungen vorgestellt. Techniken für explorative Interviews Im Rahmen explorativer Interviews werden das narrative und das problemzentrierte Interview unterschieden. Das narrative Interview dient dazu, Wissen, Einstellungen oder Erfahrungen, die die Auskunftsperson mit bestimmten Objekten (z.B. Produkten) <?page no="375"?> 376 Qualitative Befragung verbindet, herauszufinden (vgl. Kepper 1996, S. 38). Es kann in folgende Phasen unterteilt werden (vgl. Lamnek 2010, S. 327 ff.): In der Erklärungsphase werden der Auskunftsperson Zweck und Hintergründe des Interviews erläutert, insb. der narrative Gedanke. Darüber hinaus werden die technischen Modalitäten besprochen. In der Einleitungsphase wird der grobe Rahmen der „Erzählung“ abgesteckt (Thematik, Abgrenzung u.a.). Des Weiteren wird der Auskunftsperson eine möglichst allgemeine Eingangsfrage gestellt, um den Erzählfluss in Gang zu setzen. In der eigentlichen Erzählphase soll die Auskunftsperson zur vorgegebenen Themenstellung ihre Gedanken frei äußern. Hier ist Zurückhaltung seitens des Interviewers gefordert, um den Erzähler nicht zu hemmen. Der Erzählphase folgt die Nachfragephase, in welcher Unklarheiten beseitigt bzw. spezielle Themen vertieft werden können. Daran schließt sich die Bilanzierungsphase an, in welcher durch direkte Fragen gemeinsam mit dem Befragten Motivationen und Intentionen erörtert werden, um der Erzählung eine Struktur zu geben und eventuelle Fehlinterpretationen zu vermeiden. Die Organisation des narrativen Interviews ist vergleichsweise einfach, ein Leitfaden wird i.d.R. nicht erstellt. Die Rolle des Interviewers beschränkt sich i.W. darauf, den Erzählfluss der Auskunftsperson in Gang zu halten. Meist erfolgt eine Audio- oder Videoaufzeichnung des Interviews. Im Unterschied zum narrativen Interview steht beim problemzentrierten Interview eine stärkere Problemorientierung im Vordergrund. Durch eine entsprechend provozierende Kommunikationsstrategie wird eine stärkere Thematisierung kritischer Inhalte erreicht. Der Interviewer nimmt hier eine aktive Haltung ein und versucht, durch eine offensive Kommunikationsstrategie Begründungen, Erklärungen, Urteile und Meinungen explizit zu provozieren (vgl. Kepper 1996, S. 45). Aus diesem Grunde ist es erforderlich, dass sich der Forscher im Vorfeld umfassende Informationen über den Forschungsgegenstand aneignet, um einen Leitfaden für die Erhebungsphase zu erstellen. Ein solcher Leitfaden reicht von einer stichwortartigen Checkliste über Mind Maps bis hin zu einem umfassenden Fragenkatalog (zu Einsatz und Erstellung von Leitfäden vgl. Mey/ Mruck 2011, S. 279). Ein problemzentriertes Interview vollzieht sich in folgenden Phasen (vgl. Lamnek 2010, S. 333 ff.). Einleitung: Hier werden den Probanden Zweck und Hintergründe des Interviews erläutert; der Rahmen der Untersuchung wird abgesteckt. Allgemeine Sondierung: In dieser Phase steuert der Interviewer den Erzählfluss des Befragten, damit dieser den Detaillierungsgrad und die inhaltliche Zielsetzung des Interviews besser erkennt. Dies kann mit Hilfe eines Erzählbeispiels erfolgen. Spezifische Sondierung: Hier sollen Erzählsequenzen, Darstellungsvarianten und stereotype Wendungen des Probanden nachvollziehbar und interpretierbar gemacht werden. Dies kann z.B. durch eine sog. Zurückspiegelung erfolgen, im Rahmen derer der Interviewer in eigenen Worten dem Befragten eine Interpretationsmöglichkeit anbietet, welche ggf. durch den Befragten korrigiert werden kann. Weiterhin sind Ver- <?page no="376"?> Gestaltung qualitativer Befragungen 377 ständnisfragen gebräuchlich. Eine dritte Möglichkeit besteht in der Konfrontation der Auskunftsperson mit Ungereimtheiten, Widersprüchen oder Unklarheiten. Die vierte Phase dient der Ergänzung. Hier wird durch gezielte Fragen versucht, Problembereiche zu thematisieren, welche die Auskunftsperson noch nicht angesprochen hat. Um die Auswertung zu erleichtern, sollte das Interview nach Möglichkeit per Tonband oder Video aufgezeichnet werden, um auch die nonverbalen Reaktionen des Probanden festzuhalten. Techniken für fokussierte Interviews Beim fokussierten Interview wird der Auskunftsperson ein Stimulus präsentiert, z.B. eine Werbeanzeige. Der Forscher beobachtet dabei die Reaktionen des Probanden. Aufgrund der Beobachtungsergebnisse in Verbindung mit den Strukturen und Elementen der Stimuli bildet der Forscher Hypothesen und einen Leitfaden für das sich anschließende Interview (vgl. Kepper 1996, S. 52 f.). Die aus der Verknüpfung von Beobachtung und Interview entstehende Komplexität erfordert spezifische Anweisungen an den Interviewer (vgl. Merton/ Kendall 1979, S. 186 ff.): Nichtbeeinflussung: Der Interviewer darf die Auskunftsperson in keiner Weise beeinflussen; insbesondere dürfen die zugrunde gelegten Forschungshypothesen nicht erwähnt werden. Spezifikation: Die Reaktionen auf den dargebotenen Stimulus sollen nicht nur erfasst, sondern auch interpretiert und miteinander in Verbindung gebracht werden (Explikation). Tiefgründigkeit der Interviewführung: Der Interviewer darf sich nicht mit dem Offenkundigen zufrieden geben, sondern muss in der Lage sein, durch gezielte Fragen auch verdeckte Strukturen und Bedeutungen offenzulegen (z.B. durch den Einsatz von Schlüsselwörtern). Der Ablauf ist dabei typischerweise wie folgt (vgl. Weller/ Grimmer 2004, S. 63 f.): In einer ersten Stufe (Shadowing) wird der Proband einer Alltagssituation ausgesetzt, z.B. Surfen auf einer Webseite oder Anschauen einer Werbesendung. Dabei wird er von einem geschulten Psychologen beobachtet, indem dieser in das Geschehen aktiv eingreift. In der nachfolgenden Phase des „lauten Denkens“ beschreibt die Testperson, womit sie sich gerade beschäftigt und was sie dabei denkt. Anschließend werden im Rahmen eines vertiefenden Interviews ergänzende Hintergrundinformationen eingeholt. Techniken für Tiefeninterviews Im Rahmen eines Tiefeninterviews hat der Forscher die Aufgabe, in einem zwanglosen Gespräch unbewusste, verborgene oder nur schwer erfassbare Motive und Einstellungen zutage zu fördern. Der Aufbau des Gesprächs und die Auswahl der Fragen liegen dabei im Ermessen des Interviewers. Im Hinblick auf die Strukturierung des Interviews können verschiedene Techniken zur Anwendung kommen (vgl. z.B. Salcher 1995, S. 37 ff.; Kepper 1996, S. 47 ff.). Im Rahmen der nichtdirektiven Technik wird auf einen Leitfaden verzichtet, d.h. die Vorgehensweise ist völlig unstrukturiert. Diese Methode bietet sich dann an, wenn ein sehr <?page no="377"?> 378 Qualitative Befragung breites Spektrum von Motiven und Einstellungen erfasst werden soll. Allerdings stellt sie an Testperson und Interviewer sehr hohe Anforderungen und erschwert die Vergleichbarkeit und Interpretation der Ergebnisse. Aus diesem Grunde wird in der Marktforschung überwiegend auf die semidirektive Interviewtechnik zurückgegriffen, bei welcher ein Leitfaden für die Interviews erstellt wird. Dadurch wird der Interviewer angehalten, richtungweisend einzugreifen, wenn die Auskunftsperson vom eigentlichen Befragungsthema abweicht. Auf diese Weise wird zumindest eine gewisse Vergleichbarkeit erreicht. Der psychologische Hintergrund dieser Interviewform lässt erkennen, dass psychologisch geschulte Fachleute für die Durchführung eines Tiefeninterviews notwendig sind. Schon während des Gesprächs sollte der Interviewer die Möglichkeit, auf tieferliegende Bewusstseinsebenen vorzudringen, erkennen und den Gesprächsverlauf diesbezüglich lenken. Zu diesem Zweck kann er sich verschiedener Fragetechniken bedienen: Durch das Hidden-Issue-Questioning sollen persönliche Werte und Wünsche der Interviewten mit Hilfe allgemein gehaltener Fragen ermittelt werden, durch welche verborgene Probleme und Grundhaltungen beleuchtet werden sollen. Bei der Technik des Laddering, auf die im Folgenden näher eingegangen werden soll, wird ausgehend von konkreten Produkteigenschaften durch gezieltes Nachfragen, warum bestimmte Eigenschaften eine besondere Wichtigkeit für den Befragten haben, ein Prozess angeregt, der bis hin zu den persönlichen Werten der Auskunftsperson geht. Im Rahmen der Symbolic Analysis wird versucht, die wahren Bedeutungen und Einschätzungen von Produkten durch die symbolische Erklärungskraft von Attributen und die Beschreibung ihrer Gegensätze zu ermitteln. Sollen im Rahmen des Interviews verschiedene Themen erforscht werden, stellt sich die Frage nach der Anordnung der Themen (vgl. Kepper 1996, S. 158 f.). Im Allgemeinen bieten sich sog. Trichterfragen an, d.h. zu Beginn der Erhebung wird auf eher allgemeine Themen eingegangen, die dann im weiteren Verlauf vertieft werden. Wird bei der Auskunftsperson ein eher geringes Involvement vermutet, bietet sich hingegen die umgekehrte Trichterfrage bzw. Tunnelfrage an, d.h. vom Speziellen zum Allgemeinen. Dadurch fällt es dem Probanden leichter, seine Standpunkte, Einstellungen und Erkenntnisse über bestimmte Zusammenhänge zu artikulieren. Die gewonnen Daten werden mit Hilfe der Inhaltsanalyse ausgewertet (vgl. Abschnitt 5.2). Das Ladderingverfahren Das Ladderingverfahren ist eine spezielle Form des Tiefeninterviews und basiert auf der Means-End-Theorie. Ihr Ziel ist die Ermittlung von Ziel-Mittel-Beziehungen zwischen Produkteigenschaften und Werten des Konsumenten (vgl. z.B. Baker 2000; Olson/ Reynolds 1983). Ausgangspunkt der Ziel-Mittel-Beziehungen ist das Produktwissen des Konsumenten; dabei bilden die Eigenschaften des Produkts und dessen Konsequenzen (Nutzen) die Mittel (Means), welche zur Erreichung von Werten (Ends) beitragen (vgl. Abb. 7.5). Die unterste Ebene des Modells sind die Produkteigenschaften, welche in physische, d.h. objektiv-konkrete Merkmale wie z.B. Farbe, und abstrakte, d.h. subjektive geprägte Attribute wie z.B. Design unterteilt werden können. Die zweite Ebene beinhaltet die Konsequenzen (Nutzenerwartungen), welche sowohl positiv (Benefits) als auch negativ (wahrgenommene Risiken) ausfallen können. Kon- <?page no="378"?> Gestaltung qualitativer Befragungen 379 sequenzen können zum einen funktionaler Natur sein, d.h. sie betreffen den Zweck, den das Produkt erfüllen soll (z.B. Bequemlichkeit); zum anderen können sie psychosozialer Natur sein, sie berühren also die Wirkungen, die die Nutzung eines Produkts auf die Psyche oder das soziale Umfeld des Konsumenten entfaltet. Abb. 7.5: Das Means-End-Modell Die dritte Ebene sind die Werte, d.h. die allgemeinen Ziele der Konsumenten, welche den Kauf bzw. die Nutzung eines Produkts als erstrebenswert oder nicht erstrebenswert erscheinen lassen. Sie können unterteilt werden in Endwerte, welche die grundlegenden Wünsche und Ziele des Konsumenten beinhalten, und instrumentelle Werte, welche dazu dienen, den Endwerten gerecht zu werden. Abbildung 7.6 erläutert die Zusammenhänge anhand eines Beispiels. Abb. 7.6: Means-End-Ketten für anabolische Nahrungsergänzungsmittel (Quelle: in Anlehnung an Eberhard/ Fantapié Altobelli 2014, S. 81) Mit Hilfe der Ladderingtechnik wird versucht, die Means-End-Kette empirisch zu ermitteln, wobei - wie Abb. 7.6 verdeutlicht - nicht unbedingt immer alle Teilebenen berührt werden müssen. Obwohl das Laddering zu den qualitativen Verfahren zählt, ist sein Ablauf mittlerweile vergleichsweise standardisiert. Durch gezielte Fragen versucht der Interviewer schrittweise von der Nennung der Produkteigenschaften über die Konsequenzen zu den jeweiligen Werten vorzustoßen. Im Kern handelt es sich um eine Sequenz von „Warum? “-Fragen, d.h. „Warum ist Ihnen diese Eigenschaft wichtig? “ bzw. „Warum ist dieser Nutzen für Sie wünschenswert? “. Die Befragung wird solange fortgeführt, bis der Befragte keine weiterführenden Aspekte mehr hervorbringt. Produkteigenschaften Konsequenzen Werte Konkrete Produkteigenschaften Abstrakte Produkteigenschaften Funktionale Konsequenzen Psychosoziale Konsequenzen Instrumentelle Werte Endwerte Preisgünstige Zufuhr von Nährstoffen Zeit und Geld sparen Ökonomischer Ressourcenverbrauch Nährstoffkonzentration Muskelregeneration verbessern Genuss Nährstoffqualität Muskelaufbau verbessern Ästhetik verbessern Selbst-bewusstsein <?page no="379"?> 380 Qualitative Befragung In diesem Zusammenhang kommt der Auswahl der zu untersuchenden Eigenschaften eine große Bedeutung zu. Diese können im Vorfeld des Interviews durch einen Fragebogen ermittelt werden, in welchem die Auskunftspersonen die Produktmerkmale niederschreiben und sie nach ihrer Wichtigkeit ordnen; alternativ können sie zu Beginn des Interviews erfragt werden. Das Ladderingverfahren bringt einige Anwendungsprobleme mit sich (vgl. Gaus et al. 1997, S. 10 f.). Die Datenerhebungssituation ist oftmals eine völlig andere als eine reale Kaufsituation; dadurch können während der Befragung unerwünschte kognitive Prozesse auftreten, z.B. die Herstellung von Verbindungen zwischen Eigenschaften und Werten, die für den Konsumenten sonst nicht relevant wären. Auch fehlt den Probanden oft das Wissen über mögliche Konsequenzen einer Eigenschaft. Es gibt jedoch eine ganze Reihe von Techniken, um diese Probleme abzuschwächen: Herstellung eines Situationsbezugs, d.h. der Proband beschreibt eine Situation, in der er das Produkt benutzt. Dadurch soll ihm die Eigenschaft bzw. Konsequenz bewusst werden. Beschreibung des Nichtvorhandenseins einer Eigenschaft. Dies erlaubt Aufschlüsse über die Wichtigkeit der betreffenden Eigenschaft für den Produktnutzen. Negatives Laddering: Die Auskunftsperson wird gefragt, warum sie bestimmte Dinge nicht tut. Alters-Regressions-Kontrast: Hier wird erfragt, ob und inwieweit sich das Verhalten des Probanden in einem bestimmten Zeitabschnitt verändert hat. Drittpersonentechnik: Der Befragte soll sich vorstellen, in welcher Situation und aus welchem Grund andere (z.B. Freunde und Bekannte) ein bestimmtes Produkt benutzen. Dadurch können auch sensible Themen angesprochen werden. Die Aufzeichnung erfolgt meist schriftlich, es können aber auch technische Geräte verwendet werden. Im Rahmen des Onlineladdering erfolgt die Aufzeichnung „automatisch“, da der Proband selbst seine Antworten niederschreibt. Ausgewertet werden die Aufzeichnungsprotokolle mit Hilfe der Inhaltsanalyse (vgl. Abschnitt 5.2). Anwendung findet das Ladderingverfahren z.B. zur Bewertung von Produkten und Marken, zur Marktsegmentierung und zur Bewertung von Werbemaßnahmen. Techniken für Gruppendiskussionen Gruppendiskussionen werden von einem Moderator geleitet, dessen Aufgabe es ist, für einen reibungslosen und zielgerichteten Diskussionsverlauf zu sorgen (vgl. Lamnek 2010, S. 402). Die Gruppendiskussion beginnt mit einer Eröffnungsphase, in welcher der Moderator die Aufgabe hat, anfängliche Hemmungen abzubauen und eine angenehme Gesprächsatmosphäre zu erzeugen. Hierzu gehören die individuelle Begrüßung, das gegenseitige Vorstellen der Diskussionsteilnehmer sowie die Aufklärung über den Zweck der Untersuchung. Wichtig ist in diesem Zusammenhang auch, dass der Moderator die Teilnehmer zu ernsthaftem Arbeiten motiviert, um eine „Kaffeeklatsch- Atmosphäre“ zu verhindern. Auch kann der Einstieg in die Diskussion durch das Beantworten einfacher Fragen, z.B. zu den Erfahrungen mit dem Produkt, erleichtert werden. Die sich anschließende Diskussionsphase erfordert seitens des Interviewers nur noch einen begleitenden Einsatz. Im weiteren Verlauf der Diskussion hat er lediglich die Aufgabe, die Diskussion in Gang zu halten und möglichst viele Teilnehmer zu Aussa- <?page no="380"?> Gestaltung qualitativer Befragungen 381 gen zu animieren. Hierzu bedient er sich verschiedener Techniken (vgl. Lamnek 2010, S. 405 f.), u.a.: Einfaches Nachfragen: Dadurch wird der Teilnehmer angehalten, seine Äußerung zu präzisieren und Unklarheiten zu beseitigen. Paraphrase: Eine bestimmte Aussage wird mit anderen Worten wiederholt, wodurch die Aussage verständlicher wird. Durch Übertreibung, Überspitzung oder Verschärfung kann die Aussage darüber hinaus provokativ formuliert werden und zu Gegenäußerungen animieren. Konfrontation: Der Moderator kann die Gruppe zu weiterem Nachdenken anregen, indem er gegensätzliche Meinungen gegenüberstellt oder die Gruppe mit den Auswirkungen einer Aussage konfrontiert. Eine weitere Aufgabe des Moderators besteht darin, zu verhindern, dass sich bestimmte Rollen in der Gruppenstruktur bilden bzw. verfestigen (vgl. Kepper 1996, S. 70). Das gilt insbesondere für die Rolle des „Schweigers“ und die des „Meinungsführers“. So kann der Moderator einerseits Wortmeldungen des Meinungsführers skeptisch gegenübertreten, andererseits einen Schweiger gezielt in die Diskussionsrunde integrieren. Abb. 7.7: Ablauf einer kumulierten Gruppendiskussion (Quelle: Salcher 1995, S. 51) Neben diesen allgemeinen Techniken zur Durchführung von Gruppendiskussionen haben sich einige besondere Anwendungstechniken herausgebildet (vgl. Salcher 1995, S. 50 ff.): kumulierte Gruppendiskussion, kombinierte Gruppendiskussion und kontradiktorische Gruppendiskussion. Thema: Polstermöbel Gruppe (1) Gruppe (2) Gruppe (3) Gruppe (4) Gruppe (5) Ergebnis (1) Ergebnis (2) Ergebnis (3) Ergebnis (4) Gesamtergebnis <?page no="381"?> 382 Qualitative Befragung Im Rahmen einer kumulierten Gruppendiskussion werden mehrere - i.d.R. 3 bis 5 - Gruppen gebildet. Die Diskussion innerhalb der ersten Gruppe verläuft nach dem üblichen Schema; in jeder weiteren Gruppe werden darüber hinaus die Ergebnisse der vorangegangenen Gruppe(n) diskutiert (vgl. Abb. 7.8). Dadurch kann zum einen eine Vielzahl an Meinungen, Ideen und Einstellungen gewonnen werden, zum anderen können die Attraktivität und die Tragfähigkeit einzelner Ideen eingeschätzt werden. Anwendung findet diese Methode insb. bei Konzepttests, z.B. im Rahmen der Produkt- oder Werbeforschung. Eine kombinierte Gruppendiskussion verbindet Einzelinterview und Gruppenbefragung. Zunächst erfolgen Einzelinterviews mit jedem Teilnehmer, um deren Individualmeinungen zu einem bestimmten Thema festzuhalten. Daran schließt sich die eigentliche Gruppendiskussion an. Anschließend werden alle Teilnehmer noch einmal zu einem abschließenden Einzelinterview gebeten. Auf diese Weise kann festgestellt werden, ob eine Veränderung der ursprünglichen Individualmeinung eingetreten ist und welche Argumente zu einer Meinungsänderung geführt haben. Die Meinungsänderungen werden in einem bestimmten Format protokolliert (vgl. Tab. 7.3). Auch diese Methode findet in der Produkt- und Werbeforschung Anwendung. Tab. 7.3: Protokoll zur Erfassung von Meinungsänderungen im Verlauf einer Gruppendiskussion (Quelle: in Anlehnung an Salcher 1995, S. 53) Probanden Änderungen im Meinungsprozess (innerhalb der Gruppe) Ausgangsmeinung Modifikation 1 Modifikation 2 Modifikation 3 Modifikation 4 Person A Person B Person C Person D Person E Person F Bei einer kontradiktorischen Gruppendiskussion wird ein Mitarbeiter des Marktforschungsinstituts als Teilnehmer getarnt in die Diskussionsrunde integriert. Seine Aufgabe besteht darin, der Gruppenmeinung kritisch gegenüberzutreten und die Gruppe mit gegenteiligen Argumenten zu konfrontieren. Dadurch kann die Standfestigkeit und Beeinflussbarkeit der Gruppenmeinung überprüft werden. Die Methode wird insb. im Rahmen der Produktforschung angewendet und dient vor allem der Abschätzung der Stärken und Schwächen einer Produktidee sowie der Identifikation von Gründen für Meinungsänderungen oder von Argumenten zur Aufrechterhaltung der Gruppenmeinung. <?page no="382"?> 2 Qualitative Beobachtung Wie auch schon bei den verschiedenen Formen der Befragung kann die Beobachtung entweder auf einem quantitativen oder aber einem qualitativen methodischen Ansatz beruhen; die Trennung ist allerdings nicht so eindeutig wie bei der Befragung, da eine Beobachtung in vielen Fällen „per se“ einige typische Merkmale qualitativer Studien enthält, etwa kleine Stichproben oder die subjektive Interpretation des Beobachtungsgeschehens seitens des Beobachters. Während quantitative Beobachtungen insb. im Rahmen von Zählungen und Bestandsaufnahmen zur Anwendung kommen, finden qualitative Beobachtungen typischerweise im Rahmen der Erhebung psychischer Zustände Anwendung, bei der also die Qualität des Verhaltens eine Rolle spielt (vgl. Ruso 2009, S. 527). Neben der „klassischen“ Verhaltensbeobachtung sind die folgenden weiteren Verfahren qualitativer Beobachtung zu nennen: Methode des lauten Denkens (vgl. Buber 2009): Die Probanden werden mit einer Aufgabe konfrontiert, z.B. Verwendung eines Produkts. Dabei sollen sie sämtliche in diesem Zusammenhang auftretenden Gedanken in Worte fassen und laut aussprechen. Auf diese Weise können Erklärungen für bestimmte Verhaltensweisen und mögliche Probleme gewonnen werden. Ethnographische Forschung (vgl. Mangold/ Kunert 2007, S. 344): Hier wird nicht nur die kognitiv-verbale Verhaltensebene der Probanden erfasst, sondern auch sein Lebensraum und Konsumumfeld. Hierdurch werden wertvolle ergänzende Informationen über die Persönlichkeit des Probanden gewonnen. Weblogs und Brand Communities (vgl. Hoffmann 2009, Schroiff 2009): Durch das Führen unternehmensinterner Blogs oder eigener Brand Communities können das Such- und Kommunikationsverhalten der Nutzer registriert werden, z.B. Kommentare, Diskussionsbeiträge, Empfehlungen. Dieses Monitoring liefert wertvolle Hinweise für das Marketing. Tab. 7.4: Merkmale quantitativer und qualitativer Beobachtung Merkmal Quantitative Beobachtung Qualitative Beobachtung Strukturierungsgrad der Untersuchung Vorwiegend standardisiert Unstandardisiert Beobachtungsumfeld Laborbeobachtung bevorzugt Feldbeobachtung Partizipationsgrad des Beobachters Sowohl teilnehmend als auch nichtteilnehmend Sowohl teilnehmend als auch nichtteilnehmend Durchschaubarkeit der Erhebungssituation Sowohl offen als auch verdeckt Sowohl offen als auch verdeckt Form der Datensammlung Sowohl persönlich als auch apparativ Persönlich <?page no="383"?> 384 Qualitative Beobachtung Die wesentlichen Unterschiede zwischen quantitativen und qualitativen Beobachtungstechniken lassen sich durch die Ausprägungen der einzelnen Klassifikationsmerkmale einer Beobachtung voneinander abgrenzen (vgl. Tab. 7.4). Betrachtet man das Kriterium Strukturierungsgrad der Untersuchung gilt, dass im Rahmen quantitativer Marktforschung die standardisierte, vorstrukturierte Beobachtung bevorzugt eingesetzt wird, da diese Vorteile im Hinblick auf die Kodierung und Auswertung aufweist. Im Rahmen qualitativer Beobachtung findet hingegen ausschließlich die unstandardisierte, nicht strukturierte Form Anwendung (vgl. Kepper 2008, S. 204). Es wird auf vorab bestimmte Kategorien verzichtet, um die Beobachtung möglichst umfassend, flexibel und situationsadäquat zu halten. Der Beobachter entscheidet damit de facto selbst, welche Beobachtungen für die Untersuchung relevant sind, was das Problem der nichtkontrollierbaren Informationsselektion aufwirft. Das Problem der Informationsselektion ist allerdings auch bei der strukturierten, quantitativen Beobachtung gegeben; die Informationsselektion wird hier der eigentlichen Beobachtung vorgelagert, indem von vornherein die relevanten Beobachtungskategorien vorgegeben werden. Geeignete Beobachtungskategorien können jedoch nur dann vorgegeben werden, wenn ein entsprechendes Vorwissen besteht, welche Sachverhalte relevant sind; die Wahl geeigneter Kategorien stellt daher hohe Ansprüche an den Forscher. Andererseits stellt die unstrukturierte Beobachtung ebenfalls hohe Anforderungen an den Beobachter, da dieser über die Relevanz der einzelnen Vorgänge zu entscheiden hat. Um dieses Problem zu mindern, werden bei einer unstrukturierten Beobachtung üblicherweise Beobachtungsleitfäden erstellt, welche die verschiedenen jeweils relevanten Dimensionen einer Beobachtungssituation enthalten. Dazu gehören z.B. (vgl. Kepper 2008, S. 205): Beschreibung der Teilnehmer, Schauplatz und sonstige situative Kontextfaktoren, Zweck der Untersuchung, Häufigkeit oder Dauer bestimmter Vorgänge. Diese Aspekte helfen dem Beobachter, bei der Erstellung der Beobachtungsprotokolle alle wichtigen Aspekte zu erfassen. Im Hinblick auf das Beobachtungsumfeld gilt, dass quantitative Beobachtungen bevorzugt als Laborbeobachtungen vorgenommen werden, um die Vorteile von Repräsentativität und Kontrollierbarkeit der interessierenden Faktoren in Anspruch nehmen zu können, wohingegen qualitative Studien oftmals die Feldbeobachtung vorziehen; der Grund ist darin zu sehen, dass qualitative Untersuchungen stets um die Beibehaltung möglichst alltagsnaher Kommunikationssituationen bemüht sind und das in Laborsituationen ggf. erzeugte atypische Verhalten (Beobachtungseffekt) zu verhindern suchen (vgl. Kepper 2008, S. 204). Im Hinblick auf den Partizipationsgrad des Forschers sind bei der quantitativen wie auch bei der qualitativen Beobachtung grundsätzlich sowohl die teilnehmende als auch die nichtteilnehmende Beobachtung möglich. Ob der Beobachter aktiv am Beobachtungsgeschehen teilnimmt, ist weniger eine Frage des methodischen Forschungsansatzes, als vielmehr des konkreten Untersuchungsproblems. Ähnliches gilt für die Durchschaubarkeit der Erhebungssituation. Sowohl quantitative als auch qualitative Analysen können grundsätzlich als offene oder verdeckte Beobachtung stattfinden. Bei quantitativen Studien, die auf der Grundlage einer Laborsituation durchgeführt werden, ist es allerdings einfacher, eine verdeckte Erhebungssituation zu <?page no="384"?> 385 erzeugen als bei qualitativen Beobachtungen, die fast immer als Felduntersuchungen stattfinden. Unterschiede weisen die beiden Forschungsansätze im Hinblick auf die Form der Datensammlung auf. Bei quantitativen Beobachtungen kommen sowohl die persönliche Datenerhebung durch den Beobachter als auch die Nutzung apparativer Verfahren zur Anwendung, die für Zählungen oder zur Messung psychophysiologischer Verhaltensindikatoren eingesetzt werden. Die Verwendung apparativer Hilfsmittel ist dabei typisch für Laborsituationen; häufig werden diese technischen Hilfsmittel eingesetzt, um bestimmte Stimuli gezielt zu präsentieren bzw. die Reaktionen der Probanden auf die Stimuli zu erfassen. Qualitative Studien sind hingegen bemüht, möglichst wenig in die Realität einzugreifen; aus diesem Grunde erfolgt die Aufzeichnung bei der qualitativen Beobachtung stets persönlich durch den Beobachter, d.h. es wird darauf verzichtet, durch gezielte Stimuli die beobachtete Person in ihrer natürlichen Reaktion zu beeinflussen (vgl. Kepper 2008, S. 204). Eingesetzt werden daher i.d.R. lediglich allgemeine Aufzeichnungsgeräte wie Tonband oder Video. Der besondere Nutzen qualitativer Beobachtungsmethoden für die Marktforschung liegt in der Möglichkeit, tatsächliches Verhalten aufzunehmen und als Basis für Interpretationen zu nutzen (vgl. Ruso 2009, S. 529). Durch die verschiedenen Formen der Beobachtung kann vor allem auch in durch soziale Normen geprägten Bereichen, wie z.B. persönliche Hygiene oder Ernährung, bzw. bei schwer verbalisierbaren Themen, die sich durch „low involvement“-Prozesse und automatisierte Aktionen kennzeichnen, tatsächliches Verhalten ermittelt werden. Da bei Beobachtungsmethoden nicht zwingend die Auskunftsbereitschaft und Auskunftsfähigkeit bestimmter Teilnehmer verlangt wird, können durch diese Methode auch schwer erreichbare Zielgruppen, wie z.B. bestimmte Jugendsegmente und spezielle „leading edge“-Konsumenten, erreicht werden, die gerade für die Trendforschung von besonderer Wichtigkeit sind (vgl. Desai 2002, S. 12 ff.). Es gibt einige klassische Einsatzfelder für qualitative Beobachtungsmethoden. Grundsätzlich eignen sie sich im besonderen Maße für die Strukturierung von Untersuchungsproblemen, da durch das wenig standardisierte Vorgehen die Möglichkeit besteht, relevante Informationen zur Aufdeckung wichtiger Untersuchungsdimensionen zu ermitteln (vgl. Kepper 2008, S. 209). Beobachtungsmethoden werden dabei oftmals im Methodenmix mit Befragungsmethoden gekoppelt, um tatsächliches Nutzungsverhalten von Produkten („In-home Interviewing“) oder Konsumverhalten („Accompanied Shopping“) in realitätsnahen Situationen zu erfassen. Methoden der qualitativen Beobachtung werden jedoch durch einige negative Aspekte begrenzt. Um aus dem beobachteten Verhalten Schlüsse auf die zugrunde liegenden Einstellungen und Motivationen zu ziehen, bedarf es einer eingehenden Interpretation. Bei dieser besteht jedoch das Problem, dass der Forscher aufgrund der nicht kontrollierbaren Informationsselektion zu einer sehr subjektiv gefärbten Analyse der beobachteten Sachverhalte kommt (vgl. Ruso 2009, S. 529). Mangelnde Distanz zum Beobachteten erschwert darüber hinaus die Interpretation im wesentlichen Maße, genauso wie die Überidentifikation mit den zu beobachteten Personen. Bei verdeckten Beobachtungen ergeben sich ethische und rechtliche Probleme durch den Eingriff in die Persönlichkeitsrechte der Teilnehmer. Nicht zu unterschätzen ist auch der Faktor, wie zeitintensiv die Vorbereitung, Erhebung und Analyse von <?page no="385"?> 386 Qualitative Beobachtung Beobachtungsdaten ist. Aus diesem Grund können Beobachtungen in Forschungsstudien, die einem sehr restriktiven Zeitplan unterstehen, zumeist nicht angewandt werden (vgl. Daymon/ Holloway 2010, S. 274 f.). Einige Beispiele aus der Praxis sollen die Bedeutung qualitativer Beobachtungsmethoden im Rahmen von Forschungsstudien illustrieren. Beispiel 7.7: Das Unternehmen Fisher Price betreibt in den USA eine Vorschule, um mögliche neue Produkte einem Feldtest zu unterziehen. Da Kleinkinder für andere Methoden der Marktforschung ansonsten nicht zugänglich sind, bietet hier die Beobachtung die einzige Möglichkeit, Erkenntnisse zu gewinnen. In einer Forschungsstudie vom Institut für Marktpsychologie, Mannheim, sollte das Kaufverhalten bei Haarpflegeprodukten am Point-of-Sale mittels Videoanalyse untersucht werden. Bei einer Stichprobe von 200 Beobachtungen zeigte sich, dass die Käufer in den meisten Fällen ein ganz bestimmtes Produkt suchen und nur ein geringer Anteil der Produktentscheidungen direkt am Regal getroffen wird. Für die Hersteller hat dieser Aspekt zur Konsequenz, dass Präferenzen für bestimmte Produkte bereits vor dem Kontakt am Point-of-Sale aufgebaut werden müssen und bei der Produktgestaltung die Marke und die jeweilige Sorte der Produktvariante eindeutig und prägnant identifizierbar sein müssen. In einer Studie unter Besuchern von Videotheken wurde festgestellt, dass Besucher zuerst den Film aussuchen und erst später auf dem Weg zur Kasse an Snacks und Getränken interessiert sind. Für die Betreiber ist es also zweckmäßig, ihre Videothek so einzurichten, dass zuerst die Filme präsentiert werden und Snacks und Getränke am Ende, z.B. an der Kasse angeboten werden, um sich den Kaufgewohnheiten der Konsumenten anzupassen. Quellen: http: / / www.fisher-price.com; Naderer 2000; Desai 2002, S. 19 f. <?page no="386"?> 3 Anforderungen an qualitative Messverfahren Der offene Charakter qualitativer Forschungsmethoden und der weitgehende Verzicht auf eine Standardisierung der Methodik bedingen, dass diese vielfach als subjektiv gelten. Auch die Durchführung traditioneller Reliabilitäts- und Validitätsüberprüfungen stellt sich eher schwierig dar. Dennoch werden auch an qualitative Forschungen Forderungen nach Objektivität, Reliabilität, Validität und Repräsentativität gestellt. Eine reine Übertragung des traditionellen, quantitativ geprägten Gütebegriffs kommt für die qualitative Marktforschung allerdings nicht in Frage, weil dessen Prüfkriterien mit den konstituierenden Merkmalen qualitativer Forschung unvereinbar sind. Nichtsdestotrotz sind auch qualitative Forscher bemüht, zuverlässige, gültige und generalisierbare Ergebnisse zu erzielen; aufgrund der weichen Datenstruktur und des offenen Charakters von Erhebung und Auswertung müssen hier jedoch teilweise andere Maßstäbe angesetzt werden. Objektivität im qualitativen Sinne bedeutet, dass die Durchführung der Erhebung sowie die Auswertung und Interpretation der Ergebnisse seitens des Forschers wertfrei und ohne subjektive Beeinflussung der Erhebungseinheiten zu erfolgen haben. Des Weiteren wird sowohl bei der Datenerhebung als auch bei der Datenauswertung und Interpretation Transparenz gefordert. Dies bedeutet, dass der Untersuchungsablauf sowie die Bedingungen von Aufbau und Ablauf der Erhebung explizit aufgezeichnet werden sollen. Die Objektivität der Ergebnisse lässt sich am Grad der Nachvollziehbarkeit durch Offenlegung der Analyseschritte und Transparenz der Interpretationsschritte erkennen. Auch ein multipersonaler Diskurs mehrerer Forscher oder eine voneinander unabhängige Auswertung und Interpretation können die Objektivität fördern (vgl. Kepper 1996, S. 203 f.). Als Kriterium der Objektivität wird darüber hinaus die Umfassendheit der Inhalte vorgeschlagen (vgl. Kepper 1995, S. 60). Ziel der qualitativen Vorgehensweise ist es u.a., das Spektrum an verschiedenen Problemdimensionen möglichst vollständig und ohne subjektive Prädetermination des Forschers zu erheben. Somit spiegelt sich die Objektivität einer Untersuchung auch im Grad der Umfassendheit der erhobenen relevanten Inhalte wider. Reliabilität betrifft die Genauigkeit der Messungen bei wiederholter Erhebung. Tabelle 7.5 zeigt gebräuchliche Reliabilitätskriterien bei qualitativen Untersuchungen. Aufgrund des offenen Charakters qualitativer Erhebungen lässt sich eine Messung meist nicht exakt wiederholen. Aus diesem Grunde lassen sich hierbei die quantitativen Prüfmethoden (Test-Retest, Parallel-Test, Split half) i.d.R. nicht anwenden, wenngleich sich gewisse Parallelen finden lassen. Gebräuchliche Prüfmethoden bei qualitativen Untersuchungen sind: Interkoderreliabilität (prozentuale Übereinstimmung der Kodierungen zweier parallel arbeitender Kodierer) Intrakoderreliabilität (prozentuale Übereinstimmung der Kodierungen eines einzigen Forschers zu zwei unterschiedlichen Zeitpunkten). <?page no="387"?> 388 Anforderungen an qualitative Messverfahren Tab. 7.5: Reliabilitätskriterien qualitativer Erhebungen Stabilität Die mehrmalige Anwendung eines Verfahrens führt zum selben Ergebnis. Reproduzierbarkeit Die Vorgehensbeschreibung einer Methode ist so präzise, dass ein anderer Forscher zu einem ähnlichen Ergebnis gelangen würde. Exaktheit Es wird angegeben, inwieweit eine Analyse einem bestimmten funktionellen Standard entspricht. Stimmigkeit Ziele und Methoden einer Forschungsarbeit müssen miteinander vereinbar sein. Validität betrifft die Genauigkeit, mit der ein Erhebungsinstrument das misst, was es zu messen vorgibt. Generell können qualitative Methoden als valide eingestuft werden, da sie - durch den Verzicht auf Standardisierung und Vorstrukturierung - die Kommunikationsmöglichkeiten eines Probanden nicht beschneiden. Dadurch kann die Erhebungsphase grundsätzlich als valide gelten. In der Auswertungsphase qualitativer Studien finden hingegen systematisierende, aggregierende und interpretierende Vorgänge statt, sodass eine Überprüfung der Validität in dieser Phase zweckmäßig ist. Tabelle 7.6 zeigt gängige Kriterien zur Überprüfung der Validität qualitativer Erhebungen (vgl. z.B. Mayring 2015, S. 125 ff.; Cropley 2008, S. 119). Tab. 7.6: Validitätskriterien qualitativer Erhebungen Semantische Validität Der Forscher interpretiert die Aussagen der Probanden richtig. Zur Überprüfung kann der Forscher z.B. Rücksprache mit den Probanden halten. Expertenvalidität Es werden verschiedene Forscher herangezogen, die die Gültigkeit der Vorgänge überprüfen. Korrelative Validität Die Ergebnisse werden mit den Resultaten ähnlicher Forschungen verglichen. Vorhersagevalidität Aus dem Datenmaterial lassen sich Prognosen für ähnliche Situationen ableiten. Konstruktvalidität Die Methode wurde bereits erfolgreich angewendet. Es handelt sich um bewährte Theorien und Modelle. Mit dem Untersuchungsgegenstand bestehen bereits ausreichende Erfahrungen. Ziel empirischer Erhebungen ist grundsätzlich die Gewinnung von Informationen über eine Gesamtheit von Erhebungseinheiten. Insofern kommt der Repräsentativität eine zentrale Rolle zu. Bei quantitativen Erhebungen wird Repräsentativität durch entsprechende Auswahlverfahren gewährleistet (vgl. Abschnitt 3.2.3 im 3. Teil). Statistische Repräsentativität beinhaltet, dass von einer Stichprobe ein Rückschluss auf die Grundgesamtheit möglich ist, wobei der Fehler quantifizierbar ist. <?page no="388"?> 389 Eine Repräsentativität im Sinne der mathematischen Statistik ist bei qualitativen Untersuchungen nicht möglich; versteht man Repräsentativität jedoch im Sinne von Generalisierbarkeit der Ergebnisse, so ist auch qualitative Forschung um verallgemeinerbare Ergebnisse bemüht. Das geschieht beispielsweise durch Suche nach „typischen“ Vertretern einer bestimmten Kategorie von Untersuchungseinheiten (zur typischen Auswahl vgl. Abschnitt 4 in diesem Teil), Anwendung anerkannter Theorien und Methoden, Systematisches Auffinden von Gemeinsamkeiten und Unterschieden aus den Einzelfällen, fortlaufende Erweiterung der Stichprobe gemäß der für die Theoriebildung wichtigen Überlegungen, Suche nach Generalisierungsmöglichkeiten aus den Einzelfällen, Herausfiltern der wesentlichen Ereignisse und Bedingungen, die den Untersuchungsgegenstand beeinflussen. Als Kriterien für das Vorliegen von Generalisierbarkeit i.S. externer Validität können Glaubwürdigkeit (d.h. die Befunde sind von einem Fachpublikum nachvollziehbar) und Nützlichkeit (die Befunde lassen sich praktisch einsetzen) angeführt werden (vgl. Cropley 2008, S. 119). <?page no="390"?> 4 Stichprobenbildung bei qualitativen Erhebungen Bei qualitativen Erhebungen steht die statistische Repräsentativität nicht im Vordergrund, sodass die Zufallsauswahl kaum eine Rolle spielt. Die qualitative Forschung bedient sich i.d.R. einer gezielten Stichprobenziehung i.S. der bewussten Auswahl. Ziel ist nicht die statistische Verallgemeinerbarkeit der Stichprobe, sondern die inhaltliche Verallgemeinerbarkeit. Die Stichprobe hat hier die Aufgabe, eine tiefergehende Analyse des zu untersuchenden Phänomens zu ermöglichen. Zentral ist daher nicht die Zahl der einbezogenen Fälle, sondern deren Eignung zur Beschreibung des Phänomens (vgl. Schreier 2011, S. 245). Qualitative Stichproben lassen sich unterscheiden in homogene oder heterogene Stichproben sowie daten- und theoriegesteuerte Stichproben. Während homogene Stichproben aus ähnlichen Fällen bestehen (z.B. Intensivverwender eines Produkts), versuchen heterogene Stichproben die gesamte Bandbreite eines Phänomens abzubilden (wodurch auch Nichtverwender in die Stichprobe gelangen würden). Die Unterscheidung zwischen daten-und theoriegesteuerten Verfahren resultiert hingegen aus dem Vorwissen über ein Phänomen. In beiden Fällen soll die Stichprobe so ausgewählt werden, dass Merkmale, die sich auf den Untersuchungsgegenstand auswirken, in der Stichprobe auch vertreten sind. Datengesteuerte Verfahren liefern dabei Wissen darüber, welche Merkmale für die Informationsgewinnung relevant sind; bei theoriegesteuerten Verfahren sind die erhebungsrelevanten Merkmale dagegen bereits bekannt. Tabelle 7.7 zeigt die gängigsten Verfahren qualitativer Stichprobenbildung. Tab. 7.7: Verfahren der qualitativen Stichprobenbildung Datengesteuerte Verfahren Theoriegesteuerte Verfahren „Theoretical Sampling“ bestätigende Fallauswahl kontrastierende Fallauswahl qualitative Stichprobenpläne gezielte Falltypenauswahl Unter dem irreführenden Begriff des Theoretical Sampling - tatsächlich handelt es sich hier um ein datengestütztes Verfahren - versteht man eine Methode, welche auf dem sog. „Constant Comparison“-Prinzip beruht (vgl. Schreier 2011, S. 247 f.). Auf der Grundlage einer ersten Vermutung, welche Gruppe von Personen von einem Phänomen besonders betroffen sein könnte (z.B. junge Alleinerziehende mit geringerem Einkommen als Nachfragerinnen von Mutter-und-Kind-Kuren), wird ein erster Fall erhoben und ausgewertet. Nach dem Prinzip der maximalen Ähnlichkeit wählt man anschließend eine weitere Frau aus derselben Personengruppe. Bestätigt das zweite Interview die ursprüngliche Vermutung, so wird in einem weiteren Schritt eine Person ausgewählt, die dem ersten Typus möglichst unähnlich ist (in der Erwartung, diese sei vom zu untersuchenden Phänomen weniger oder gar nicht betroffen). Durch wiederholte Anwendung der Prinzipien der maximalen und minimalen Ähnlichkeit lassen sich im Wege eines Trial and Error-Prozesses sukzessive diejenigen Merkmale identifizieren, die im Zusammenhang mit dem interessierenden Phänomen stehen. <?page no="391"?> 392 Stichprobenbildung bei qualitativen Erhebungen Im Rahmen einer bestätigenden Fallauswahl (Confirmatory Sampling) wird nur das Prinzip der maximalen Ähnlichkeit zugrunde gelegt: Es kommen gezielt solche Fälle in die Stichprobe, von denen erwartet wird, dass sie mit den bisherigen Ergebnissen in Einklang stehen, wodurch eine homogene Stichprobe entsteht. Hingegen werden im Rahmen einer Fallkontrastierung bewusst Fälle einbezogen, welche gerade eine gegenteilige Evidenz produzieren, d.h. es werden hier verschiedene Fälle einander gegenübergestellt, sodass eine heterogene Stichprobe resultiert (vgl. Kelle/ Kluge 1999, S. 40 ff.). Im Vergleich zum Theoretical Sampling sind die beiden letztgenannten Verfahren einfacher zu handhaben. Qualitative Stichprobenpläne ähneln einer Quotenstichprobe bei quantitativen Erhebungen und erfordern die folgenden Schritte (vgl. Kelle/ Kluge 1999, S. 46 ff.): Festlegung des Geltungsbereichs der Untersuchung, Identifikation der untersuchungsrelevanten Merkmale, Festlegung der Merkmalskombinationen des Plans (Zellen), Festlegung der zu erhebenden Zahl der Fälle pro Zelle, Fallauswahl. Tabelle 7.8 zeigt ein Beispiel für einen qualitativen Stichprobenplan für Alleinerziehende mit den Merkmalen „Schulbildung”, „Erwerbstätigkeit” und „Wohnort“. Die Zahl der Fälle repräsentiert dabei nicht eine wie auch immer geartete Merkmalsverteilung in der Grundgesamtheit, sondern eher die (vermutete) Relevanz bestimmter Untergruppen für das zu untersuchende Phänomen. Tab. 7.8: Beispiel für einen qualitativen Stichprobenplan Erwerbstätig Nicht erwerbstätig Stadt Land Stadt Land Volks- und Hauptschule 2 1 4 2 Realschule und Gymnasium 2 1 3 1 Ein gewisses Vorwissen ist auch bei der gezielten Falltypenauswahl erforderlich (kriterienorientiertes Sampling). Es werden hier gezielt solche Fälle ausgewählt, welche bestimmte Kriterien erfüllen, z.B. (vgl. Schreier 2011, S. 251 f.; Kepper 1996, S. 233 f.): Intensive Case Sampling: Auswahl von Fällen, die eine Eigenschaft in ausgeprägter Form aufweisen, z.B. häufige Nutzer eines bestimmten Produkts; Extreme Case Sampling: Auswahl von Fällen mit Extremausprägungen, z.B. Intensivverwender, aber auch Nichtverwender; Typical Case Sampling: Auswahl von Fällen, die besonders prägnant die Mehrheit der Untersuchungssubjekte repräsentieren; Critical Case Sampling: Auswahl von Fällen, die eine besonders problematische Untergruppe repräsentieren. Unabhängig von der Art der Stichprobenbildung können homogene Stichproben im Wege des Schneeballverfahrens gewonnen werden (vgl. Abschnitt 3.2.4 im 3. Teil). <?page no="392"?> 5 Aufbereitung und Auswertung qualitativer Daten 5.1 Überblick Qualitative Erhebungen produzieren vergleichsweise weiche Daten, welche sich i.A. nicht mit Hilfe quantitativer Verfahren auswerten lassen. Gelegentlich lassen sich die Ergebnisse sofort aus den Aufzeichnungen bzw. dem Gespräch ableiten; dies ist z.B. bei der Ideengenerierung möglich, etwa im Rahmen einer Gruppendiskussion zur Produktentwicklung. In den meisten Fällen erhält man jedoch aus einer qualitativen Erhebung eine Fülle an audiovisuellem und textlichem Material, welches transkribiert, geordnet und ausgewertet werden muss. Nach der Transkription des Datenmaterials liegen die Ergebnisse in schriftlicher Form vor. Zur Analyse von Textmaterial sind verschiedene Ansätze entwickelt worden: der quantitativ-statistische, der interpretativ-reduktive und der interpretativ-explikative Ansatz (vgl. Lamnek 2010, S. 367). Anfänglich wurde der Inhaltsanalyse ein quantitatives Methodenverständnis zugrunde gelegt; mit Hilfe von Häufigkeits-(Frequenz-) oder Kontingenzanalysen wurde Textmaterial quantitativ untersucht (vgl. Mayring 2015, S. 17 ff.). Hintergrund dieser Auffassung war, dass eine empirische Methode systematisch und intersubjektiv nachvollziehbar sein müsse, um als wissenschaftlich zu gelten. Es zeigte sich jedoch, dass quantitative Techniken für sozialwissenschaftliche Probleme nur eine begrenzte Aussagefähigkeit haben (vgl. Kepper 1996, S. 57). Mittlerweile besteht in der Sozialforschung die Tendenz, qualitative Daten interpretativ auszuwerten. Im Folgenden soll auf die qualitative Inhaltsanalyse als zentrale Methode für die Auswertung qualitativer Daten eingegangen werden. 5.2 Qualitative Inhaltsanalyse 5.2.1 Grundgedanke der qualitativen Inhaltsanalyse Definition Die qualitative Inhaltsanalyse stellt einen Ansatz empirischer, methodisch kontrollierter Auswertung qualitativer Daten dar. Gegenstand der qualitativen Inhaltsanalyse kann jede Art von aufgezeichneten Kommunikationsvorgängen sein (Dokumente, Audio- und Videobänder, Gesprächsprotokolle usw.). Dabei werden nicht nur der Inhalt, sondern auch die formalen Aspekte des Materials analysiert; die Auswertung erfolgt systematisch und nach bestimmten Regeln mit dem Ziel, die Methodik nachvollziehbar und die Ergebnisse verallgemeinerbar zu machen (vgl. Mayring 2000, o.S.). <?page no="393"?> 394 Aufbereitung und Auswertung qualitativer Daten Die Inhaltsanalyse stellt einen interdisziplinären Ansatz dar, welcher Elemente verschiedener Fachrichtungen enthält (vgl. Mayring 2015, S. 26 ff.): Kommunikationswissenschaften (Content Analysis). Hierbei handelt es sich grundsätzlich um einen quantitativen Ansatz; einige Aspekte lassen sich jedoch auf qualitative Inhaltsanalysen übertragen, etwa die systematische Vorgehensweise, die Einbettung des Materials in ein Kommunikationsmodell, die Anwendung eines Kategoriensystems sowie die intersubjektive Nachprüfbarkeit. Hermeneutik: Ziel der Hermeneutik ist es, eine Kunstlehre des Auslegens bzw. des Interpretierens nicht nur von Texten, sondern der sinnlich wahrnehmbaren Realität überhaupt zu entwickeln. Für die Entwicklung einer qualitativen Analyse sind hier die genaue Quellenkunde, die explizite Darstellung des Vorverständnisses (Fragestellung, theoretischer Hintergrund etc.) sowie die Suche nach latenten, verborgenen Sinngehalten hinter den sichtbaren Strukturen relevant. Qualitative Sozialforschung: Als typische Elemente qualitativer Sozialforschung, welche sich auf die qualitative Inhaltsanalyse übertragen lassen, gelten die wissenschaftliche Orientierung an Alltagssituationen, die Übernahme der Perspektive des Untersuchungssubjekts sowie die Möglichkeit der Re- Interpretation qualitativen Materials. Sprach- und Literaturwissenschaft als Theorie und Methodik systematischer Textanalyse: Wesentliche daraus abzuleitende Anforderungen an eine qualitative Inhaltsanalyse sind die Übernahme semiotischer Grundbegriffe in das zugrunde liegende Kommunikationsmodell, die Nutzung von Interpretationsregeln für die Textanalyse sowie die Zuordnung bestimmter Bedeutungsinhalte zu Begriffen nach vorgegebenen Regeln. Psychologie der Textverarbeitung, welche das Ziel hat, die psychischen Prozesse beim Verstehen, d.h. bei der Verarbeitung von Texten empirisch zu untersuchen. Für die qualitative Inhaltsanalyse lässt sich ableiten, dass das kognitive Schema des Textverständnisses offengelegt wird und dass das sprachliche Material systematisch zusammengefasst, d.h. nach bestimmten Regeln reduziert wird. Allgemein sind folgende Elemente typisch für eine qualitative Inhaltsanalyse (vgl. Mayring 2000, o.S.): Einordnung in ein Kommunikationsmodell: Hierzu gehören die Festlegung des Ziels der Analyse, Merkmale des Textproduzenten (wie Erfahrungen, Einstellungen, Gefühle), Entstehungssituation des Materials, soziokultureller Hintergrund, Wirkung des Textes. Regelgeleitetheit: Dies beinhaltet die Zerlegung des Materials in Analyseeinheiten und dessen schrittweise Bearbeitung nach einem genau definierten inhaltsanalytischen Ablaufmodell. Kategorisierung: Die einzelnen Analysedimensionen bzw. Variablen werden in Kategorien zusammengefasst, die präzise zu begründen und im Laufe der Auswertung zu überprüfen und ggf. zu überarbeiten sind. <?page no="394"?> Qualitative Inhaltsanalyse 395 Erfüllung von Gütekriterien: Das Verfahren soll intersubjektiv nachprüfbar sein, die Ergebnisse sollen vergleichbar gemacht und Reliabilitätsprüfungen sollen eingebaut werden. Der allgemeine Ablauf einer qualitativen Inhaltsanalyse besteht aus vier Phasen (vgl. Lamnek 2010, S. 367 ff.): Transkription, Einzelanalyse, generalisierende Analyse und Kontrolle. Die Transkription beinhaltet die Übertragung von Aufzeichnungen jeglicher Art in geschriebene Texte. Entscheidend ist dabei, dass eine Transkription sowohl die Äußerungen des Moderators bzw. des Interviewers wie auch deren unmittelbare Eindrücke enthält, da diese wertvolle Hinweise für die Interpretation der Aussagen der Auskunftspersonen liefern. Zudem ist zu berücksichtigen, dass auch bei qualitativen Interviews eine Fülle nonverbaler Daten anfällt (z.B. Körpersprache, Gestik, Mimik), welche ebenfalls dokumentiert werden müssen. Abb. 7.8: Ablaufmodell induktiver Kategorienbildung (Quelle: Mayring 2000, o.S.) Im Rahmen der Einzelanalyse werden die individuellen Fälle (Interviews, Beobachtungsprotokolle) im Detail untersucht. Hierzu kommen bestimmte Techniken zur Anwendung (Strukturierung, Explikation und Zusammenfassung), welche im nachfolgenden Abschnitt 5.2.2 beschrieben werden. Ziel ist es, den Text zu strukturieren und bestimmten Kategorien zuzuordnen. Im Mittelpunkt der Einzelanalyse steht dabei die Bildung von Kategorien als Grundlage für die Zuordnung des Materials. Hierbei sind folgende Ansatzpunkte gegeben (vgl. Mayring 2000): Gegenstand, Fragestellung Festlegung von Kategoriendefinition (Selektionskriterium) und Abstraktionsniveau für die induktive Kategorienbildung Überarbeitung der Kategorien nach ca. 10 - 50 % des Materials Auswertung, evtl. quantitative Analysen (z.B. Häufigkeiten) Formative Reliabilitätsprüfung Summative Reliabilitätsprüfung Schrittweise induktive Kategorienbildung aus dem Material heraus in Bezug auf Definition und Abstraktionsniveau; Subsumtion unter alte Kategorien oder Kategorienneubildung Endgültiger Materialdurchgang <?page no="395"?> 396 Aufbereitung und Auswertung qualitativer Daten induktive Kategorienentwicklung und deduktive Kategorienanwendung. Induktive Kategorienentwicklung bedeutet, dass die Kategorien direkt aus dem Material im Rahmen eines Verallgemeinerungsprozesses abgeleitet werden. Aus der Fragestellung der Studie wird ein Definitionskriterium festgelegt, welches bestimmt, welche Aspekte des Materials berücksichtigt werden sollen. Darauf aufbauend wird das Material schrittweise durchgearbeitet, um Kategorien zu bilden. Nach Zuordnung des Materials zu den Kategorien kann die eigentliche Auswertung erfolgen. Abbildung 7.8 zeigt den Ablauf einer induktiven Kategorienbildung. Im Rahmen der deduktiven Kategorienanwendung werden vorab festgelegte, theoretisch begründete Kategorien gebildet, welche zur Kategorisierung des Materials zugrunde zu legen sind. Der qualitative Analyseschritt besteht darin, die auf diese Weise deduktiv gewonnenen Kategorien methodisch abgesichert zu Textstellen zuzuordnen. Das Ablaufmodell ist in Abb. 7.9 enthalten. Zentrales Element ist hier die genaue Definition der anzuwendenden Kategorien und die Festlegung präziser inhaltsanalytischer Regeln, wann eine Textstelle einer bestimmten Kategorie zuzuordnen ist. Zu diesem Zweck empfiehlt sich die Anwendung eines Kodierleitfadens, in welchem explizite Definitionen, Ankerbeispiele und Kodierregeln formuliert werden. Steht das Kategoriensystem fest, wird das Einzelmaterial danach geordnet und strukturiert. Abb. 7.9: Ablaufmodell deduktiver Kategorienanwendung (Quelle: Mayring 2000, o.S.) Die Ergebnisse der Einzelanalyse bilden die Grundlage für die generalisierende Analyse. In dieser Phase werden Gemeinsamkeiten und Unterschiede zwischen den einzelnen Fällen herausgearbeitet; Gemeinsamkeiten können Grundtendenzen enthalten, welche für die Befragten als typisch angesehen werden können; andererseits zeigen die Unterschiede inhaltliche Differenzen auf, welche ebenso Ansätze zur Verhaltenserklärung bieten können. Auf dieser Stufe ist an kreativer Prozess seitens des Forschers erforderlich; dieser soll typische Muster erkennen und sie mit theoretischen Erkenntnissen in Gegenstand, Fragestellung Theoriengeleitete Festlegung der Strukturierungsdimensionen als Haupt- und evtl. Unterkategorien Überarbeitung der Kategorien und des Kodierleitfadens Auswertung, evtl. quantitative Analysen (z.B. Häufigkeiten) Formative Reliabilitätsprüfung Summative Reliabilitätsprüfung Theoriegeleitete Formulierung von Definitionen, Ankerbeispielen und Kodierregeln Zusammenstellung zu einem Kodierleitfaden Endgültiger Materialdurchgang <?page no="396"?> Qualitative Inhaltsanalyse 397 Verbindung bringen. Der Fokus liegt hier auf dem Aufzeigen von Interdependenzen zwischen den Einzelergebnissen und auf der Reflexion vor dem Hintergrund anerkannter theoretischer Zusammenhänge (vgl. Carson et al. 2001, S. 176 f.). Dies erlaubt die Erklärung der Phänomene im Zusammenhang mit der jeweiligen Fragestellung. Die letzte Phase ist die Kontrollphase. Aufgrund des interpretativen Ansatzes sind Fehlinterpretationen nicht ausgeschlossen, sodass es empfehlenswert ist, die Ergebnisse noch einmal zu kontrollieren. Dies kann durch Selbst- oder Fremdkontrolle geschehen. Im Falle von Widersprüchen oder Unschlüssigkeiten sollte der Bezug zum Original wieder hergestellt werden, um die Interpretation anhand des originären Datenmaterials zu überprüfen. Erfolgt die Auswertung in Gruppenarbeit, bietet es sich an, die Ergebnisse in der Gruppe zu diskutieren. Eine Kontrolle ist unerlässlich, soll die qualitative Inhaltsanalyse den Anforderungen an Objektivität, Reliabilität und Validität genügen (vgl. hierzu die Ausführungen in Abschnitt 3). 5.2.2 Techniken der qualitativen Inhaltsanalyse Die Grundtechniken qualitativer Inhaltsanalysen umfassen die Zusammenfassung, die Explikation und die Strukturierung. Die Zusammenfassung zielt darauf ab, aus dem häufig umfangreichen Grundmaterial eine reduzierte, überschaubare Form herzustellen, die dennoch ein ausreichend exaktes Abbild des Grundmaterials darstellt (vgl. ausführlich Mayring 2015, S. 69 ff.). Die Aufzeichnungen werden durchgesehen, irrelevante sowie wiederholte Textpassagen werden gestrichen. Irrelevante Passagen sind beispielsweise Füllwörter wie „Wissen Sie“, „meine ich“ u.Ä. Wiederholungen können zwar darauf hinweisen, dass der Proband einem bestimmten Aspekt eine besondere Bedeutung beimisst, sie sind jedoch entbehrlich, da sie zu keinen neuen Erkenntnissen führen (vgl. Cropley 2008, S. 128). Anschließend wird der Text in eine einheitliche Sprache umgewandelt, und die Sätze werden in eine grammatikalische Kurzform gebracht (Paraphrasierung). Beispiel 7.8: „Alles in allem kann ich nicht behaupten, dass dieses Produkt eine echte Verbesserung gegenüber der alten Variante darstellt“, wird zu: „keine echte Verbesserung“. Das aus der Paraphrasierung entstandene Material wird anschließend dadurch verallgemeinert, dass die einzelnen Aussagen auf die gleiche Abstraktionsebene gebracht werden, indem sie umformuliert werden. Dadurch können inhaltsgleiche Paraphrasen, d.h. vergleichbare Aussagemuster identifiziert werden, die anschließend einer Reduktion unterzogen werden können. Im Rahmen einer Reduktion werden aussagegleiche Paraphrasen gestrichen, lediglich die zentrale Aussage wird übernommen. In Einzelfällen sind weitere Reduktionsschritte erforderlich. Beispiel 7.9: Die Aussage: „Die am ursprünglichen Produkt vorgenommenen Änderungen sind nur teilweise gelungen“ kann zu „nur teilweise gelungen“ paraphrasiert werden. Diese Paraphrase kann als aussagegleich wie die aus Beispiel 7.8 angesehen und damit gestrichen werden. Die zentralen Aussagen bilden die Grundlage für eine fallübergreifende Sammlung bzw. Kategorisierung der Daten (vgl. den vorangegangenen Abschnitt 5.2.1). Das ent- <?page no="397"?> 398 Aufbereitung und Auswertung qualitativer Daten standene Kategoriensystem wird abschließend anhand des Ausgangsmaterials überprüft. Tab. 7.9: Beispiel für einen Kodierleitfaden (Quelle: Mayring 2000, o.S.) Kategorie Definition Ankerbeispiele Kodierregeln K1: hohes Selbstvertrauen Hohe subjektive Gewissheit, mit der Anforderung gut fertig geworden zu sein, d.h. Klarheit über die Art der Anforderung und deren Bewältigung, Positives, hoffnungsvolles Gefühl beim Umfang mit der Anforderung, Überzeugung, die Bewältigung der Anforderung selbst in der Hand gehabt zu haben. „Sicher hat’s mal ein Problemchen gegeben, aber das wurde dann halt ausgeräumt, entweder von mir die Einsicht, oder vom Schüler, je nachdem, wer den Fehler gemacht hat. Fehler macht ja ein jeder.“ (17, 23) Ja klar, Probleme gab’s natürlich, aber zum Schluss hatten wir ein sehr gutes Verhältnis, hatten wir uns zusammengerauft.“ (27,33) Alle drei Aspekte der Definition müssen in Richtung „hoch“ weisen, es soll kein Aspekt auf nur mittleres Selbstvertrauen schließen lassen. Sonst Kodierung „mittleres S“. K2: mittleres Selbstvertrauen Nur teilweise oder schwankende Gewissheit, mit der Anforderung gut fertig geworden zu sein. „Ich hab mich da einigermaßen durchlaviert, aber es war oft eine Gratwanderung.“ (3, 55) „Mit der Zeit ist es etwas besser geworden, aber ob das an mir oder an den Umständen lag, weiß ich nicht.“ (77, 20) Wenn nicht alle drei Definitionsaspekte auf „hoch“ oder „niedrig“ schließen lassen K3: niedriges Selbstvertrauen Überzeugung, mit der Anforderung schlecht fertig geworden zu sein, d.h. wenig Klarheit über die Art der Anforderung, negatives, pessimistisches Gefühl beim Umgang mit der Anforderung, Überzeugung, den Umgang mit der Anforderung nicht selbst in der Hand gehabt zu haben. „Das hat mein Selbstvertrauen getroffen; da hab ich gemeint, ich bin eine Null - oder ein Minus.“ (5, 34) Alle drei Aspekte deuten auf ein niedriges Selbstvertrauen, auch keine Schwankungen erkennbar Die zweite Grundtechnik, die Explikation (Kontextanalyse), wird insb. auf unverständliche Textpassagen angewandt, deren Bedeutung nicht unmittelbar erschließbar ist (vgl. Mayring 2015, S. 90 ff.). Solche Textstellen müssen weitergehend interpretiert werden, <?page no="398"?> Analyse nonverbaler Daten 399 was zusätzliche Informationen erfordert. Mögliche Informationsquellen sind der engere Kontext, das umliegende Textfeld und der weitere Kontext. Häufig müssen Informationen jedoch auch aus Quellen außerhalb des reinen Textes gewonnen werden. Beispielweise kann es erforderlich sein, dass einige Textpassagen vor dem sozialen Hintergrund des Probanden ausgelegt werden müssen. Von besonderer Bedeutung sind auch nonverbale Signale wie Tonfall, Lautstärke, Mimik und Gestik. Diese können die Ergebnisse der Interpretation präzisieren und z.B. Gefühle und Beziehungsaspekte verdeutlichen. Der durch die Explikation erweiterte Text kann anschließend durch Zusammenfassung erneut bearbeitet werden. Die Technik der Strukturierung eignet sich insbesondere bei großen Textmengen. Durch diese Technik werden inhaltliche Aspekte nach bestimmten Ordnungskriterien herausgefiltert und systematisiert. Dadurch entsteht ein Kodierleitfaden, der eine entsprechende Strukturierung und Systematisierung der relevanten Textstellen verspricht; hierzu muss das Kategoriensystem jedoch vorab festgelegt worden sein. Die Strukturdimensionen werden aus der untersuchungsspezifischen Fragestellung und theoretischen Vorüberlegungen abgeleitet. Nach dem ersten Materialdurchgang kann es erforderlich sein, das Kategoriensystem zu überarbeiten. Steht das Kategoriensystem endgültig fest, werden konkreten Textstellen prototypische Funktionen zugeordnet, d.h. sie dienen als Ankerbeispiele für bestimmte Kategorien. Tabelle 7.9 zeigt ein Beispiel für einen Kodierleitfaden. (Bei den Ankerbeispielen werden in Klammern die Nummer des Probanden und die jeweilige Textstelle angegeben). Auch die Strukturierung dient dazu, das vorhandene Material so zu ändern, dass es die Grundlage für fallübergreifende Vergleichsmöglichkeiten bietet. 5.2.3 Beurteilung der qualitativen Inhaltsanalyse Die qualitative Inhaltsanalyse erlaubt die Auswertung der in der Sozialforschung häufig vorkommenden „weichen“ Daten; gleichzeitig genügt sie den Standards eines methodisch kontrollierten Vorgehens, sodass die Ergebnisse der Analyse spezifischen Gütekriterien genügen (vgl. die Ausführungen in Abschnitt 1.4.2 im 3. Teil). Mit Hilfe qualitativer Inhaltsanalysen lassen sich auch größere Textmengen untersuchen. Unterstützt wird die Analyse mittlerweile durch eine ganze Reihe von Softwareprogrammen, welche Hilfestellung bei der qualitativen Arbeit mit Texten bieten (vgl. ausführlich Mayring 2015, S. 115 ff. sowie Klein 2013). Zu nennen sind z.B. ATLAS/ ti (www.atlasti.de), TextQuest und MAXqda (www.maxqda.de). Grenzen der qualitativen Inhaltsanalyse finden sich vor allem dort, wo der Untersuchungscharakter rein explorativ ist und die mit der qualitativen Inhaltsanalyse verbundene systematische, regelgeleitete Vorgehensweise nicht angemessen erscheint. Insbesondere bei schlecht strukturierten, offenen Untersuchungsgegenständen kann die Bildung und Nutzung fester Kategorien als einschränkend empfunden werden. 5.3 Analyse nonverbaler Daten Nonverbale Daten begleiten zum einen die Erhebung verbaler Daten im Rahmen qualitativer Interviews. Zum anderen entstehen sie im Zusammenhang qualitativer Beobachtungen. Im Rahmen der Erhebung verbaler Daten liefern Körpersprache, <?page no="399"?> 400 Aufbereitung und Auswertung qualitativer Daten Gestik oder Mimik wertvolle Kontextinformationen für die Analyse und Interpretation verbaler Aussagen der Probanden (vgl. Naderer 2011, S. 428). Aufschlussreich sind nonverbale Äußerungen aber auch dann, wenn sie im Widerspruch zu verbalen Aussagen stehen, da sie letztere relativieren können. Beispielsweise können eine verkrampfte Körperhaltung oder das Abwenden des Blickes eine vorgetragene Überzeugung durchaus abschwächen. Auch Beobachtungen können mit Hilfe der qualitativen Inhaltsanalyse ausgewertet werden. Die Analyse bezieht sich meist auf die beobachteten Personen und deren Verhaltensweisen. Soziale Beziehungen können nicht nur direkt, sondern auch mit Hilfe sog. Artefakte beobachtet werden, d.h. Spuren oder Gebrauchsgegenstände, denen die Probanden eine bestimmte Bedeutung zuordnen (vgl. Lueger 2000, S. 141 f.). Die Artefakteanalyse kann - zusätzlich zur Inhaltsanalyse - Aufschluss über soziale Zusammenhänge geben. Dabei wird angenommen, dass Artefakten aufgrund ihrer Integration in den Handlungskontext ein Sinn zugeordnet wird (vgl. Sayre 2001, S. 195). Artefakte können so oftmals einen zentralen Untersuchungsgegenstand darstellen. Ziel der Artefakteanalyse ist die Ermittlung des Wirkungszusammenhangs zwischen Kontext und Artefakt. Dieser beinhaltet zwei Richtungen: Zum einen die Wirkung des Kontextes auf das Artefakt, zum anderen die Wirkung des Artefakts auf den Kontext. Die Bedeutung des Artefakts und damit die Sinnstrukturen, die hinter der Verwendung stehen, müssen im Detail analysiert werden. Dabei ist die menschliche Vorstellungskraft entscheidend, da Artefakte erst zu Artefakten werden, wenn ihnen eine Bedeutung im sozialen Kontext zugeordnet worden ist. Oftmals ist die Bedeutung schon eindeutig vorgegeben (vgl. Lueger 2000, S. 147), z.B. bei Werkzeugen. Andere Gegenstände können unterschiedliche Bedeutungen haben: Beispielsweise ist ein Auto für einige ein Gebrauchsgegenstand, für andere ein Statussymbol. Wichtige Artefakte für die Marktforschung sind u.a. Gebrauchsgegenstände, Werkzeuge oder Statussymbole. Auch Einrichtungsstile können wichtige Auskünfte über die Untersuchungseinheiten geben (vgl. Sayre 2001, S. 195); aus diesem Grunde werden Teilnehmer an qualitativen Untersuchungen unabhängig vom Untersuchungsstandort oftmals zunächst in ihrer häuslichen Umgebung fotografiert. Zur besseren Dokumentation solcher visuellen Daten werden meist apparative Hilfsmittel eingesetzt (vgl. Naderer 2011, S. 429). Weiterführende Literatur Baker, S. (2000): Laddering: Making Sense of Meaning, in: Partington, D. (ed.): Essential Skills for Management Research, London, 226-253. Buber, R., Holzmüller, H. (Hrsg). (2009): Qualitative Marktforschung, 2. Aufl., Wiesbaden. Calteral, M., Maclaran, P. (1998): Using Computer Software for the Analysis of Qualitative Market Research, in: Journal of the Market Research Society, 40(3), 207-222. Collins, M., Kalian, G. (1980): Coding Verbatim Answers to Open Questions, in: Journal of the Market Research Society, 22 (Oct.), 239-247. <?page no="400"?> Analyse nonverbaler Daten 401 Daymon C., Holloway, I. (2010): Qualitative Research Methods in Public Relations and Marketing Communications, 2 nd ed., London, New York. Johnson, J.C. (1990): Selecting Ethnographic Informants, Newbury Park. Kepper, G. (1996): Qualitative Marktforschung: Methoden, Einsatzmöglichkeiten und Beurteilungskriterien, 2. Aufl., Wiesbaden. Klein. H. (2013): Computergestützte Textanalysen mit TextQuest. Eine Einführung in Methoden und Arbeitstechniken, Reihe: Sozialwissenschaftliche Forschungsmethoden, Band 6, München, Mering. Luyens, S. (1995): Coding Verbatims by Computers, in: Marketing Research: A Magazine of Management & Applications, 7(2), 20-25. Mayring, P. (2015): Qualitative Inhaltsanalyse. Grundlagen und Techniken, 12. Aufl., Weinheim. Naderer, G., Balzer, E. (2011) (Hrsg.): Qualitative Marktforschung in Theorie und Praxis, 2. Aufl., Wiesbaden. Salcher, E.F. (1995): Psychologische Marktforschung, 2. Aufl., Berlin u.a. Schub von Bossiatzky, G. (1992): Psychologische Marktforschung. Qualitative Methoden und ihre Anwendung in der Markt-, Produkt- und Kommunikationsforschung, München. <?page no="402"?> Teil 8: Ausgewählte Anwendungen der Marktforschung 1 Produktforschung 1.1 Gegenstand der Produktforschung Definition Produktforschung unterstützt zum einen die Entwicklung, Positionierung und Vermarktung neuer Produkte, zum anderen die Verbesserung bereits etablierter Produkte. Dauerhafte Wettbewerbsvorteile lassen sich nur dann erzielen, wenn das eigene Leistungsangebot den Bedürfnissen der Konsumenten begegnet. In Anbetracht der hohen Flopraten bei Produktneueinführungen - im Konsumgüterbereich bis zu 80 % - kommt der Produktforschung daher eine zentrale Rolle zu. Eine große Bedeutung hat die Produktforschung im Bereich der Produktentwicklung inne. So lassen sich durch geeignete Verfahren Ideen für Produktinnovationen oder variationen generieren, welche bestmöglich den Konsumentenbedürfnissen entsprechen. Hierzu werden in zunehmendem Maße Konsumenten in den Produktentwicklungsprozess eingebunden. Die Produktforschung spielt jedoch auch für die Produktbewertung eine zentrale Rolle. Im Rahmen von Produktinnovationen kann sie dazu beitragen, die beste Alternative aus einer Vielzahl von Produktvorschlägen zu identifizieren, die optimale Gestaltung einzelner Produktelemente (Name, Design etc.) herauszufinden, ein Produktkonzept in seiner Gesamtheit zu überprüfen, um dessen Marktchancen beurteilen zu können. Auch bereits auf dem Markt etablierte Produkte erfordern eine regelmäßige Überprüfung. Typische Zielsetzungen sind hier (vgl. Berekoven et al. 2009, S. 152): Ursachenanalyse bei unerwarteten Marktanteilsverlusten, Überprüfung von Produkteigenschaften und Produktimage im Vergleich zu Konkurrenzprodukten, Überprüfung der Anmutung und der Marktchancen eines Produkts bei Veränderung einer oder mehrerer Produkteigenschaften. Je nachdem, ob die Produktleistung oder die Durchsetzungsfähigkeit des Produkts am Markt bewertet werden, wird zwischen Produkttests und Testmarktuntersuchungen unterschieden. Da im Rahmen von Testmarktuntersuchungen auch andere Elemente des Marketingmix getestet werden, werden diese gesondert in Abschnitt 2 behandelt. <?page no="403"?> 404 Produktforschung 1.2 Produktentwicklung Die Entwicklung neuer Produkte oder Produktvarianten kann in vielfältiger Weise durch Marktforschung unterstützt werden. Hierbei werden oftmals auch die - aktuellen oder potenziellen - Kunden in den Innovationsprozess eingebunden. Auf sämtliche Aspekte der Innovationsmarktforschung kann an dieser Stelle nicht eingegangen werden. Im Folgenden sollen nur die folgenden Ansatzpunkte skizziert werden: Kreativitätstechniken, Gruppendiskussionen, Conjoint-Analyse sowie Online-Produktentwicklung. Der Einsatz von Kreativitätstechniken gehört zu den traditionellen Verfahren der Innovationsforschung. Es existiert ein breites Spektrum an Methoden, welche zur Generierung von Produktideen geeignet sind, beispielsweise Brainstorming, Brainwriting, Synektik als intuitiv-kreative Techniken sowie die Morphologische Methode, die Progressive Abstraktion und das Attribute Listing als kombinatorische Verfahren (vgl. die Ausführungen in Teil 7 sowie Schlicksupp et al. 2011). Generell gilt, dass Kreativitätstechniken durch gruppendynamische Effekte und anregende Rahmenbedingungen Blockaden abbauen und innovative Verknüpfungen fördern, wodurch der kreative Prozess unterstützt wird. Die unterschiedlichen Techniken erzielen dabei unterschiedliche Ergebnisqualitäten: Während die Morphologische Methode eher neue Kombinationen bekannter Merkmale erzeugt und damit für Produktvariationen geeignet ist, liefern die Synektik oder die TILMAG-Methode ungewöhnliche, innovative Ansatzpunkte. Im Rahmen von Gruppendiskussionen werden Kunden am Produktentwicklungsprozess beteiligt, indem sie im Rahmen einer Diskussion ihre Bedürfnisse und Produktanforderungen artikulieren. Auf diese Weise können Anregungen für neue Produkte oder für Verbesserungen bestehender Produkte gewonnen werden. Mit Hilfe der Conjoint-Analyse werden die Präferenzen bzw. Nutzenvorstellungen von Personen bezüglich alternativer Produktkonzepte untersucht. Es handelt sich dabei um ein Verfahren der indirekten Präferenzmessung, d.h. aus Globalurteilen bzgl. der zu bewertenden Produkte wird auf die relative Bedeutung von deren Eigenschaften und Präferenzen bzgl. einzelner Eigenschaftsausprägungen geschlossen. Zudem lässt sich der Preis als Produkteigenschaft ebenfalls einbeziehen, sodass die Methode auch Informationen über die Zahlungsbereitschaft für alternative Produktkonzepte liefert. Neuere Ansatzpunkte für die Produktentwicklung bietet die Online-Marktforschung. Unter den Stichworten „Co-Creation“, „Open Innovation“ und „User Generated Content“ werden verschiedene Ansatzpunkte zur Integration des Kunden in den Innovationsprozess diskutiert (vgl. z.B. Sincovicz et al. 2009; Schroiff 2009; Gable 2010; Sawhney et al. 2005). Die Grundidee besteht darin, das kreative Potenzial der Internetnutzer für den Innovationsprozess zu nutzen. Im Rahmen der sog. Netnography erfolgt eine systematische Analyse von Online-Communities. Die gewonnenen Erkenntnisse werden dann gemeinsam mit Produktentwicklern und Designern in neue Produktkonzepte umgesetzt. Beispielsweise greift Nivea im Bereich Selbstbräunung auf Diskussionsforen im Web zum Thema Bräunung zurück. Dort haben sich insb. Bodybuilder als <?page no="404"?> Produktentwicklung 405 Lead User herausgestellt (vgl. Bartl 2010, S. 24 f.). Mittels Crowdsourcing wird gezielt das kreative Potenzial der Massen mobilisiert, indem Unternehmen im Internet eine Plattform schaffen, auf welcher sich Nutzer austauschen und an einer festgelegten Aufgabenstellung zusammenarbeiten können. Die Ideen werden von der Community bewertet und in vielen Fällen auch vergütet. Beispielsweise können auf der Plattform LEGO Ideas LEGO-Fans ab 13 Jahren Ideen entwickeln, einstellen und die Produktideen anderer Community-Mitglieder bewerten. Erhält eine Idee innerhalb einer bestimmten Zeit 10.000 Stimmen, wird sie von einer LEGO Jury evaluiert und bei positivem Ausgang in einen neuen Baukasten umgesetzt. Schließlich beinhaltet Co-Creation die Möglichkeit, aktiv an der Produktgestaltung mitzuwirken, wie z.B. die Adidas-Plattform miadidas, in welcher individuell gestaltete Sportschuhe kreiert werden können, oder Spreadshirt zur Gestaltung und Vermarktung von T-Shirts. Auch in der Marktforschungspraxis werden Konsumenten zunehmend in den Innovationsprozess eingebunden; ein Beispiel ist SKOPOS Connect Open Innovation Network (vgl. Abb. 8.1). Abb. 8.1: Ablauf von SKOPOS Connect Open Innovation Network (Quelle: Eigene Darstellung nach https: / / www.skopos-connect.de/ , Abruf vom 28.3.2017) Open Innovation Network 3 Co-Creation Workshop Gemeinsam mit Verbrauchern aus der Insight Community werden neue Produktideen entwickelt 1 Insight Community Gewinnung von Insights aus Sozialen Medien, z.B. Verhalten, Vorlieben, Gewohnheiten in der digitalen Community 5 Konzepttest Die Konzepte werden Tests unterzogen; Ergebnis sind 3-5 Konzepte, die marktreif sind und umgesetzt werden können 4 Insight Workshop Mit ausgewählten Mitgliedern der Community und Experten werden aus den Ideen Produktkonzepte. Diese werden bewertet und priorisiert 2 Out and About Persönliche Gespräche (z.B. Einkaufsbegleitung, Einzel- und Gruppeninterviews) zur Konkretisierung der Insights <?page no="405"?> 406 Produktforschung Marktforschungsinstitute bieten zunehmend die Begleitung des gesamten Produktentwicklungsprozesses an - von der Ideenentwicklung bis hin zum Markttest bei Erreichen der Marktreife. Ein Beispiel ist Ipsos InnoQuest. Beispiel 8.1: Ipsos InnoQuest Das modular aufgebaute InnoQuest enthält fünf Tools entlang den einzelnen Phasen des Produktentwicklungsprozesses. Dadurch wird eine ganzheitliche und systematische Betrachtung des Innovationsprozesses ermöglicht: von der frühen Phase der Identifizierung vielversprechender Ideen über die Evaluierung und Optimierung von Produkten bis hin zur Modellierung und Prognose des Absatzvolumens. Die nachfolgende Tabelle enthält eine Kurzbeschreibung der einzelnen Tools. Fuzzy Front End In dieser Phase werden die vielversprechendsten Insights zu noch unbefriedigten Konsumentenbedürfnissen identifiziert und in konkrete Ideen übertragen. Diese werden anschließend evaluiert. Zudem hat das Kundenunternehmen die Möglichkeit, über die Online-Plattform Innoquest Cocreation die eigenen Abnehmer in die Ideenentwicklung einzubeziehen. Konzeptevaluierung Die vielversprechendsten Konzepte werden identifiziert und deren Potenzial wird mit Hilfe konkreter Verbesserungsvorschläge ausgeschöpft. Dabei wird auch das jeweilige Wettbewerbsumfeld in die Analyse eingebunden, um eine realitätsnahe Beurteilung zu gewährleisten. Mix-Optimierung Verschiedene Bausteine ermöglichen es, die eigentliche Produktleistung zu bestimmen und zu steigern, den Preis bzw. die Verpackung zu optimieren sowie Einblicke zu liefern, wie das Produktportfolio optimal gestaltet werden kann. Simulated Market Für die entwickelten Innovationen werden Absatzprognosen für das erste und zweite Jahr auf der Grundlage validierter Verfahren erstellt. Dabei wird eine Schätzgenauigkeit von ± 9% für Neueinführungen und ± 4% für Relaunches erreicht. Tracking Hier wird die Produkt-Performance nach der Markteinführung überwacht. Unternehmen haben schon wenige Monate nach dem Launch die Möglichkeit, Gründe für den Erfolg oder Misserfolg des neuen Produkts aufzudecken. Quelle: http: / / www.ipsos.de/ geschaeftsbereiche/ ipsos-innoquest/ ueber-ipsos-innoquest, Abruf vom 12.1.2017 1.3 Produkttests 1.3.1 Arten von Produkttests Produkttests werden zur Überprüfung der Produktleistung herangezogen, d.h. es werden die verschiedenen Produkteigenschaften bzw. Produktmerkmale überprüft und optimiert. Sie lassen sich nach verschiedenen Kriterien unterscheiden (vgl. Tab. 8.1). <?page no="406"?> Produkttests 407 Tab. 8.1: Arten von Produkttests Kriterium Varianten Testumfang Volltest Partialtest Form der Darbietung Blindtest identifizierter Test teilneutralisierter Test Testdauer Kurzzeittest Langzeittest Testort Home-Use-Test (Feldtest) Studiotest (Labortest) Zahl der Testprodukte monadischer Test nichtmonadischer Test Testinhalt Eindruckstest Präferenztest Diskriminanztest Deskriptionstest Evaluationstest Akzeptanztest Allgemein kann ein Produkt als ein Bündel von Merkmalen charakterisiert werden, welche geeignet sind, eines oder mehrere Bedürfnisse von Konsumenten zu befriedigen. Solche Merkmale umfassen neben der Grundfunktion des Produkts weitere Eigenschaften wie Design, Verpackung, Marke, Preis, Handling usw. Der Testumfang bezeichnet das Ausmaß, in welchem Produkteigenschaften getestet werden. Wird das Produkt in seiner Gesamtheit getestet, spricht man von einem Volltest, anderenfalls von einem Partialtest (z.B. Verpackungstest, Namenstest). Nach der Form der Darbietung wird zwischen Blindtest und identifiziertem Test unterschieden. Im Rahmen eines Blindtests werden den Testpersonen Produkte vorgelegt, bei welchen möglichst alle visuellen Elemente (z.B. Markenname, Markenlogo, typische Farben oder Formen) entfernt wurden. Dadurch erhofft man sich eine möglichst objektive Meinung bzgl. der zu testenden Eigenschaften. Blindtests werden im Rahmen sensorischer Produktforschung eingesetzt, insb. für Nahrungsmittel, Alkoholika, Zigaretten u.a. Im Rahmen eines identifizierten Tests werden einer Testperson die Produkte hingegen bewusst in markenüblicher Verpackung unter Offenlegung von Markenname und Markenlogo vorgelegt. Nicht selten weichen die Ergebnisse eines identifizierten Tests von denen eines Blindtests ab. Daraus wird die Bedeutung des Markenimage für die Produktbeurteilung deutlich. Neben den beiden genannten Testvarianten gibt es noch zahlreiche weitere Versuchsanordnungen, welche zwischen dem Blindtest und dem identifizierten Test anzusiedeln sind. Bei diesen sogenannten teilneutralisierten Tests werden nicht alle, sondern nur einige <?page no="407"?> 408 Produktforschung wenige äußere Merkmale entfernt, um deren Wirkung im Hinblick auf Produktwahrnehmung und -beurteilung zu überprüfen. In diesem Zusammenhang kann unterschieden werden zwischen Substitutionstest und Eliminationstest. Beim Substitutionstest werden einzelne Produktmerkmale sukzessive gegeneinander ausgetauscht, um die Kundenreaktionen auf die einzelnen Merkmale zu überprüfen. Hingegen werden beim Eliminationstest die verschiedenen Produktmerkmale nacheinander verdeckt. Das Produkt wird zunächst im Rahmen eines Volltests überprüft; anschließend werden sukzessive einzelne Produktkomponenten wie Marke, Packung, Preis etc. eliminiert, bis schließlich nur noch das anonymisierte Produkt mit ausschließlichem Grundnutzen verbleibt, d.h. der Test geht in einen Blindtest über. Erhält ein Produkt zu Beginn des Volltests z.B. noch 70% Zustimmung und später ohne Angabe der Marke 50%, so wird die Bedeutung des Markennamens und des Markenimages für die Produktbeurteilung deutlich. Nach der Testdauer kann zwischen Kurzzeittest und Langzeittest unterschieden werden. Kurzzeittests versuchen, durch eine sehr kurze Konfrontation mit einem Produkt beim Probanden erste Eindrücke zu ermitteln. In der Regel werden Kurzzeittests in einem Studio durchgeführt. Hingegen werden die Testpersonen im Rahmen eines Langzeittests über einen längeren Zeitraum mit dem Produkt konfrontiert. Ziel ist hier nicht die Ermittlung erster spontaner Eindrücke wie beim Kurzzeittest, sondern die Produktbeurteilung nach wiederholtem Gebzw. Verbrauch. Aus diesem Grunde erfolgen Langzeittests typischerweise als Home-Use-Test. Gelegentlich werden Kurz- und Langzeittests im Rahmen eines sog. Doppeltests kombiniert (vgl. Berekoven et al. 2009, S. 153). Nach dem Testort wird zwischen Studiotest und Home-Use-Test unterschieden. Bei einem Studiotest handelt es sich um ein Laborexperiment; die Probanden werden i.d.R. auf der Straße angesprochen und zur Mitarbeit eingeladen. Beliebte Testorte sind zentral gelegene Restaurants, Ausstellungsstände oder eigens dafür ausgestattete Fahrzeuge (Caravan-Test). Typischerweise erfolgt der Test in Form einer mündlichen Befragung oder aber als apparativ gestützte Beobachtung (z.B. Schnellgreifbühne; vgl. die Ausführungen in Abschnitt 2.2.2 des 3. Teils). Bei einem Home-Use-Test handelt es sich um einen Feldtest. Die Testpersonen nehmen das Testprodukt mit nach Hause (bzw. das Produkt wird ihnen per Post zugeschickt) und können es dort in gewohnter häuslicher Atmosphäre verwenden und bewerten. Die Erhebung erfolgt typischerweise auf der Grundlage eines schriftlichen Fragebogens, welcher den Testpersonen zusammen mit dem Produkt zugesendet wird. Nach Ablauf des Tests schicken die Testpersonen den Fragebogen an das Marktforschungsinstitut zurück. Gegenüber dem Studiotest mit einer künstlichen und häufig starren Atmosphäre stellt die häusliche Umgebung beim Home-Use-Test einen entscheidenden Vorteil dar, da die Testergebnisse aufgrund der Feldsituation realitätsnäher ist. Hinzu kommt die hohe Rücklaufquote, die bis zu 90% betragen kann. Nachteilig ist an dieser Testmethode die Tatsache, dass hinsichtlich des Testablaufs wie auch bezüglich des Ausfüllens des Fragebogens keinerlei Kontrollmöglichkeiten gegeben sind. So kann der Einfluss von Familienmitgliedern auf das Urteil des Probanden nicht ausgeschlossen werden; darüber hinaus ist nicht gewährleistet, dass der Fragebogen tatsächlich von der Testperson selbst ausgefüllt wird. Hinzu kommt, dass der Forscher nicht nachvollziehen kann, <?page no="408"?> Produkttests 409 aufgrund welcher Erlebnisse mit dem Produkt die Testpersonen zu ihren Urteilen gekommen sind. Bei einem Studiotest ist die Situation hingegen kontrollierbar, was die interne Validität erhöht, da Störgrößen ausgeschaltet werden können; zudem ist der Zeitaufwand geringer. Tabelle 8.2 zeigt zusammenfassend die Vor- und Nachteile des Home-Use-Tests im Vergleich zum Studiotest. Die Vor- und Nachteile des Studiotests ergeben sich entsprechend spiegelbildlich. Tab. 8.2: Vor und Nachteile des Home-Use-Tests im Vergleich zum Studiotest Vorteile Nachteile höhere Realitätsnähe aufgrund der Feldsituation Stichprobenauswahl i.d.R. repräsentativ auf der Grundlage eines umfangreichen Adressenpools hohe Rücklaufquote zeitaufwändig keine Kontrolle des Testablaufs keine Kontrolle der Fragebogenausfüllung Gebzw. Verbrauch des Produkts nicht beobachtbar keine Kontrolle von Störfaktoren Nach der Zahl der einbezogenen Testprodukte wird zwischen monadischem und nichtmonadischem Test unterschieden. Beim monadischen Test (Einzeltest, Solotest) wird der Testperson ein einziges Produkt (bzw. eine einzige Produktvariante) vorgelegt (vgl. Bauer 1981, S. 29). Der Test kann sowohl als Volltest als auch als Partialtest durchgeführt werden. Im Rahmen dieser Testanordnung hat der Proband keine Vergleichsmöglichkeiten zu anderen Produkten, sondern kann das Testobjekt lediglich anhand seiner Kenntnisse und Erfahrungen beurteilen. Der Einzeltest wird immer dann verwendet, wenn es sich um eine absolute Marktneuheit handelt und somit ein Vergleich mit Konkurrenzprodukten nicht vorgenommen werden kann. Gerade bei innovativen und technisch komplexen Gütern ist tatsächlich oftmals zunächst auch nur eine Variante der Produktneuheit verfügbar, sodass eine vergleichende Testanordnung von vornherein ausgeschlossen ist (vgl. Koppelmann 2001, S. 483). Im Rahmen eines nichtmonadischen Tests (Mehrfachtest, Vergleichstest) werden den Testpersonen mindestens zwei Produkte vorgestellt. Es kann sich dabei entweder um unterschiedliche Varianten desselben Produkts handeln, um festzustellen, welche Eigenschaften bzw. Eigenschaftsausprägungen von den Probanden präferiert werden, oder aber es wird das eigene Produkt gegenüber Konkurrenzprodukten getestet. Der Vergleich kann dabei simultan (paralleler Vergleichstest) oder aber unmittelbar nacheinander (sukzessiver Vergleichstest) erfolgen. Eine Variante stellt der sog. triadische Test dar, bei welchem drei Produkte (zwei davon identisch) im Blindtest getestet werden. Hierdurch kann ermittelt werden, ob sich das eigene Produkt eindeutig von den anderen abhebt. Nach dem Testinhalt wird unterschieden in Eindruckstest, Präferenztest, Diskriminanztest, Deskriptionstest, Evaluationstest und Akzeptanztest. <?page no="409"?> 410 Produktforschung 1.3.2 Ausgewählte Testanordnungen der Produktforschung Im Folgenden sollen ausgewählte Testanordnungen der Produktforschung dargestellt werden: Konzepttests, Produkttests i.e.S. sowie Partialtests. Konzepttest Der Konzepttest (in der Literatur auch als Konzeptionstest bezeichnet) wird zur Überprüfung eines Neuprodukts bzw. einer neuen Produktvariante vor der Realisierung eingesetzt, d.h. mittels eines Konzepttests werden Produktideen überprüft. Bei diesem Testverfahren kommt es darauf an, noch vor der eigentlichen Produktentwicklung zu testen, ob die geplante Gestaltung des Produkts die in sie gesetzten Ziele erfüllt (vgl. Koppelmann 2001, S. 472). Den Testpersonen werden hier nicht konkrete Produkte, sondern Produktideen bzw. Produktentwürfe vorgelegt; die Beurteilung erfolgt daher nicht aufgrund einer unmittelbaren Erfahrung, sondern auf der Basis eines subjektiven Eindrucks bzw. einer subjektiven Vorstellung. Grundlage für Konzepttests sind verbale Umschreibungen des Produkts, Reinzeichnungen (Layouts), computergestützte Abbildungen oder Modelle. Gerade im Internet lassen sich Produkttests auch ohne Vorhandensein eines Prototyps vornehmen, da eine realitätsnahe Darstellung sämtlicher visuell wahrnehmbarer Produkteigenschaften möglich ist. Darüber hinaus kann das Produkt aus allen möglichen Blickwinkeln betrachtet werden - inkl. einer Innenansicht, welche bei vielen realen Produkten ohne eine Produktzerstörung nicht möglich wäre (zu Produkttests im Internet vgl. ausführlich Arndt 2003). Ein weiterer Vorteil computergestützter Tests liegt in der Möglichkeit, innerhalb kürzester Zeit mehrere Konzeptvarianten und Entwürfe zu überprüfen. Eine Korrektur möglicher Konzeptmängel ist z.T. noch während der Erhebung möglich; ein verbessertes Konzept kann unverzüglich wieder am Bildschirm präsentiert und erneut überprüft werden. Je realitätsnäher und umfassender die Computerdarstellung ist, umso näher rückt ein Konzepttest an den Produkttest i.e.S. Eine Überprüfung von Produktkonzepten empfiehlt sich grundsätzlich nicht nur mit potenziellen Käufern, sondern auch mit Absatzhelfern oder Händlern. Dadurch können verschiedene Sichtweisen berücksichtigt und realistischere Einschätzungen über die Marktchancen generiert werden. Die Erhebung erfolgt in Form einer schriftlichen oder mündlichen Befragung, oft auch als Gruppendiskussion. Gerade für Neuproduktideen sind Fokusgruppen eine wichtige Quelle von Verbesserungsvorschlägen (vgl. Abschnitt 1.1 im 7. Teil). Aufgrund des frühzeitigen Kundenfeedbacks können Fehlentwicklungen schon vor Beginn der Produktentwicklung korrigiert werden, was spätere kostenintensive Produktmodifikationen vermeiden hilft. Allerdings erlaubt ein Konzepttest noch keinerlei Rückschlüsse auf das spätere Produkterlebnis, d.h. die Ergebnisse sind lediglich vorläufiger Natur. In späteren Phasen des Produktentwicklungsprozesses sind Produkttests i.e.S. erforderlich, um realistische Aussagen bzgl. der Akzeptanz eines Produkts erhalten zu können. <?page no="410"?> Produkttests 411 Beispiel 8.2: INNOFACT Konzepttest Auf der Grundlage einer Online-Befragung liefert das Unternehmen im Rahmen des Konzepttests Antworten auf die folgenden Fragen: Welche Produktideen lassen das höchste Verbraucherpotenzial erwarten (Overall Liking, Kaufbereitschaft)? Was genau spricht den Verbraucher an oder inwiefern besteht noch Optimierungsbedarf (Likes und Dislikes)? Als wie neu- und einzigartig werden die Produktideen wahrgenommen? Wie werden die Produktideen anhand verschiedener, zentraler Eigenschaften beurteilt (Eigenschaftsprofil)? Welches Verpackungsdesign oder welcher Produktname entfaltet die beste Verbraucheransprache und intendierte Produktwahrnehmung? Der Fragebogen wird an die spezifischen Bedürfnisse des Kundenunternehmens angepasst; für die Erhebung von wichtigen Kennwerten wie Overall Liking, Buying Intention und Uniqueness wird aber auf standardisierte Fragestellungen zurückgegriffen, um die Testergebnisse in die umfangreiche Benchmark-Datenbank des Unternehmens einzuordnen - zum Teil auch produktgruppenspezifisch. Quelle: http: / / web2.1a-8231.antagus.de/ index.php? id=70, Abruf vom 17.1.2017 Andere Konzepttestverfahren gehen weiter und optimieren nicht nur das Produktkonzept, sondern simulieren auch alternative Preis- und Marketingstrategien, z.B. CARES for Concepts von MW Research (www.mwresearch.de/ forschungsgebiete/ konzepttest/ ). 0 % 20 % 40 % 60 % 80 % 100 % 20 % 40 % 60 % 80 % 100 % ∅ -Wert Uniqueness: 63 % ∅ -Wert Buying Intention: 56 % Uniqueness (Top 2 Boxes) Buying Intention (Top 2 Boxes) <?page no="411"?> 412 Produktforschung Auf Basis einer Conjoint- Analyse werden sämtliche relevante Produktmerkmale und - varianten (Verpackung, Preis…) inkl. Insights, Benefits und Reason-to-Buy’s eingebunden. Diese Merkmale werden im Hinblick auf ihre jeweilige Bedeutung und Gewichtung für die spätere Kaufentscheidung bewertet (zur allgemeinen Methodik der Conjoint-Analyse vgl. Abschnitt 3.5.1 im 6. Teil). Durch die ganzheitliche Betrachtung und die kaufnahe Entscheidungssituation ermöglicht die Conjoint-Analyse valide Ergebnisse auch in frühen Phasen ders Produktentwicklungsprozesses. Produkttest i.e.S. Ein Produkttest i.e.S. kann als eine experimentelle Untersuchung bezeichnet werden, bei der eine nach bestimmten Kriterien ausgewählte Gruppe von Testpersonen kostenlos zur Verfügung gestellte Produkte ge- oder verbraucht, um anschließend das Produkt als Ganzes bzw. dessen Eigenschaften zu bewerten. Beim Produkttest wird die Produktleistung eines bereits entwickelten Produkts untersucht. Das Produkt muss hier zumindest als Prototyp vorliegen. Bei Marktneuheiten kann mit Hilfe eines Produkttests von den bei den Testpersonen ermittelten Einstellungen, Präferenzen, Kaufabsichten und Produktwahlverhalten auf den vermutlichen Markterfolg geschlossen werden. Bei bereits etablierten Produkten kann hingegen im Rahmen eines Produkttests geprüft werden, ob z.B. ein Absatzrückgang auf mangelhafte Produkteigenschaften oder auf veränderte Marktbedingungen zurückzuführen ist. Im Anschluss an die Analyse kann dann das Produkt markt- und verbrauchergerecht umgestaltet werden. Die Überarbeitung des Produktes kann sich dabei auf folgende Bereiche beziehen: Verschiebung des Stellenwerts der funktionalen und qualitativen Merkmale des Produkts aus Sicht der Kunden, Veränderung der Aufmachung des Produkts, der Anmutung, der Ästhetik und des Symbolwerts, evtl. Entwicklung eines veränderten Produktimages, verbesserte Abstimmung von Produkt und Verpackung. Im Idealfall bieten sich Produkttests als Präventivmaßnahme bereits dann an, wenn sich das Konkurrenzverhalten gravierend geändert hat, jedoch noch keine Absatzeinbußen eingetreten sind. Abzugrenzen ist der Produkttest vom Warentest, bei welchem lediglich objektive Produkteigenschaften bereits am Markt befindlicher Produkte überprüft werden. Es geht dort also nicht um die subjektive Wahrnehmung seitens potenzieller Konsumenten, sondern um eine vergleichende Untersuchung alternativer Marken im Hinblick auf verschiedene Qualitätsmerkmale. Produkttests existieren in verschiedenen Ausprägungen; im Folgenden werden die wichtigsten Formen dargestellt. Im Rahmen des Eindruckstests (Soforttest) wird der erste Eindruck der Testpersonen bei Vorlage des Testprodukts registriert. Der Test kann sehr aufschlussreich sein, wenn das Produkt über Stimuli verfügt, welche beim potenziellen Käufer eine Aktivierung bzw. eine Aufforderung zum Kauf hervorrufen sollen. Hier kann getestet werden, ob diese Stimuli tatsächlich in der Lage sind, die gewünschte Wirkung hervorzurufen (vgl. Koppelmann 2001, S. 484). Eindruckstests sind stets Kurzzeittests. Im Allgemeinen werden bei Kurzzeittests apparative Verfahren herangezogen, insb. Tachistoskop und Schnellgreifbühne (vgl. Kapitel 2 im 3. Teil). Beim Tachistoskop wird <?page no="412"?> Produkttests 413 das Produkt für eine sehr kurze Zeit sichtbar gemacht (bis 1/ 1000 s). Aufgrund der sehr kurzen Konfrontation mit dem Testobjekt können Rückschlüsse auf die bei der Testperson entstandenen Eindrücke und ihre unbewussten Reaktionen gewonnen werden. Bei der Schnellgreifbühne wird vom Probanden eine konkrete Entscheidung zwischen mehreren Testobjekten gefordert, welche für eine kurze Zeit (ca. 5 s) dem Probanden sichtbar gemacht werden. Auch hier können Rückschlüsse auf die Anmutung eines Produkts als Ganzes bzw. bestimmter Eigenschaften (z.B. Verpackung) gezogen werden. Im Gegensatz zum Eindruckstest handelt es sich bei den im Folgenden dargestellten Verfahren um Erfahrungstests, bei welchen den Testpersonen das Produkt zum probeweisen Ge- oder Verbrauch überlassen wird. Im Rahmen des Präferenztests soll die Testperson nach probeweisem Ge- oder Verbrauch eines Produkts entscheiden, ob sie das Produkt gegenüber einem oder mehreren Vergleichprodukten vorziehen würde. Zum Vergleich werden entweder alternative Produkte im Test selbst berücksichtigt, oder der Proband soll sich auf das Produkt beziehen, das er üblicherweise kauft. Beim ungerichteten Präferenztest wird lediglich nach dem Vorhandensein einer Präferenz gefragt; beim gerichteten Präferenztest werden zusätzlich das Ausmaß und die Gründe der Präferenz hinterfragt (vgl. Bauer 1981, S. 97). Zur Erfassung von Präferenzen können auch die Conjoint-Analyse sowie die Multidimensionale Skalierung eingesetzt werden (vgl. die Ausführungen in Abschnitt 3.5 im 6. Teil). Beim Diskriminanztest (Diskriminationstest, Unterscheidungstest) wird erhoben, ob die Testpersonen in der Lage sind, zwischen zwei oder mehreren Vergleichsprodukten zu differenzieren. Dies kann das Produkt als Ganzes oder bestimmte Eigenschaften betreffen. Üblicherweise erfolgt der Test dabei als Blindtest. Wie schon beim Präferenztest kann die Testanordnung gerichtet oder ungerichtet sein. Ziel ist die Feststellung, ob eine Testperson objektiv vorhandene Unterschiede zwischen den Testobjekten subjektiv wahrnimmt. Im Rahmen eines Deskriptionstests wird erfasst, welche Produkteigenschaften in welcher Ausprägung bzw. Intensität von den Probanden wahrgenommen werden. Zusätzlich kann nach der Wichtigkeit einzelner Produktmerkmale oder nach der Idealvorstellung bzgl. ausgewählter Merkmale gefragt werden. Beim Deskriptionsratingtest haben die Testpersonen hingegen die Produkte bzgl. der Ausprägung bestimmter vorgegebener Merkmale in eine Rangfolge zu bringen (vgl. Bauer 1981, S. 168). Evaluationstests haben den Zweck festzustellen, wie das Testprodukt als Ganzes oder bzgl. bestimmter relevanter Merkmale von den Probanden bewertet wird bzw. welche Preisvorstellungen der Proband mit dem Testprodukt verbindet. Mithin lassen sich der qualitätsbezogene und der preisbezogene Evaluationstest unterscheiden. Bei einem qualitätsbezogenen Evaluationstests wird die subjektive Bewertung des Produkts bzw. einzelner Produkteigenschaften untersucht; dabei wird das Testprodukt ggf. mit einem Idealprodukt verglichen. Auch hier kann die Testanordnung gewichtet oder ungewichtet sein. Beim preisbezogenen Evaluationstest werden die Probanden entweder im Rahmen eines Preisschätzungstests dazu aufgefordert, dem Testprodukt einen ihrer Meinung nach angemessenen Preis zuzuordnen, oder sie sollen im Rahmen eines Preisreaktionstests einen vorgegebenen Preis als günstig, angemessen oder teuer beurteilen (zu den verschiedenen Formen von Preistests vgl. ausführlich Kapitel 3 in diesem Teil). <?page no="413"?> 414 Produktforschung Anhand sog Akzeptanztests soll ermittelt werden, ob bei den Probanden bei Vorlage des Testprodukts eine potenzielle oder sogar eine aktuelle Kaufabsicht besteht. Zusätzlich zur Produktleistung können im Rahmen von Akzeptanztests also erste Rückschlüsse auf künftige Absatzzahlen gewonnen werden. Wie beim Evaluationstest wird auch hier zwischen qualitätsbezogenen und preisbezogenen Akzeptanztests unterschieden. Produktforschung gehört stets zum Portfolio eines Full-Service-Instituts. In der Praxis finden sich zahlreiche Erscheinungsformen von Produkttests, die allesamt ihr eigenes konkretes Ziel verfolgen und meist eine eigene Bezeichnung aufweisen, wenn auch die Versuchsanordnungen zum Teil sehr ähnlich gestaltet sind. Das typische Methodenspektrum von Marktforschungsinstituten im Bereich der Produktforschung umfasst Home-Use-Tests, Studiotests, Gruppendiskussionen, conjointanalytische Verfahren. Gerade die Conjoint-Analyse hat sich in der praktischen Marktforschung in den letzten Jahren verbreitet, da sie neben der Überprüfung der Produkteigenschaften auch Aussagen über die optimale Preisgestaltung ermöglicht (vgl. die ausführliche Darstellung in Abschnitt 4.4). Hinzu kommt die Möglichkeit der Verknüpfung ganzer Produkttests zu einer Kette von Testanordnungen; als Beispiel einer solchen Kombination soll hier der sog. Doppeltest dienen. Hier wird an die Durchführung eines Kurzzeittests ein Langzeittest gekoppelt. Diese Testfolge wählt man bei der Überprüfung völliger Marktneuheiten, wenn man befürchtet, dass die ersten Eindrücke bei einem Probanden von seinen späteren ausführlicheren Erfahrungen mit dem Produkt deutlich abweichen könnten. Für viele Produkte (z.B. Software) hat sich die Einbindung der Nutzer in Form sog. Beta-Tests etabliert (vgl. Dolan/ Matthews 1993). Nutzer testen eine vorläufige Produktvariante und können entsprechende Anregungen und Verbesserungsvorschläge formulieren, die vor der regulären Markteinführung berücksichtigt werden können. Beispiel 8.3: SKOPOS Produkt-Konfigurator Mit Hilfe des Produkt-Konfigurators können die Testpersonen auf Basis eines ausgewählten Grundmodells interaktiv (Zusatz-) Ausstattungen aussuchen, um sich individuell ihr Wunschprodukt zusammenzustellen. In diesem Prozess verändern sich mit jedem Auswahlverhalten die bisherige Produktkonfiguration und der Gesamtpreis des Produktes. Als Ergebnis erhält man für jeden Probanden ein Idealprodukt, welches Aufschlüsse über die Präferenzen der Zielgruppe wie auch ihre Zahlungsbereitschaft liefert. Methodisch basiert der Test auf einer Conjoint-Analyse. Das Verfahren hat folgende Vorteile: Geringe Limitierung auf die Anzahl von Merkmalen und Merkmalsalternativen; Berücksichtigung von Interaktionen zwischen Merkmalen auf „natürliche Weise“, indem die Abhängigkeiten zwischen dem Auswahlverhalten analysiert werden; Unterschiedliche Typen von Merkmalen, wie zum Beispiel Grundausstattungen und notwendige funktionale Merkmale sowie Zusatzausstattungen, werden im Vergleich zueinander betrachtet. Quelle: Skopos o.J.a, S. 6 <?page no="414"?> Produkttests 415 Partialtest Im Rahmen von Partialtests wird nicht nur die qualitativ-technische Produktleistung überprüft, sondern es werden auch sekundäre Eigenschaften wie Ästhetik, Verpackung, Markennamen oder Handling getestet. Die gebräuchlichsten Varianten von Partialtests sind: Sensorische Tests (Geschmackstest, Dufttest, Klangtest), Namenstest, Packungstest, Handlingtest. Preistests als weitere Form von Partialtests werden hier nicht dargestellt, da sie ausführlich in Kapitel 3 in diesem Teil behandelt werden. In der Lebensmittel- und der Tabakindustrie sind der Geschmacks- und der Dufttest gebräuchlich. Der Geschmackstest befasst sich nicht nur mit dem eigentlichen Geschmack, sondern auch mit Aspekten wie dem Gefühl auf der Zunge und in der Mundhöhle beim Zerbeißen und Herunterschlucken von Esswaren, der Konsistenz von Lebensmitteln und Getränken usw. Der Dufttest findet insb. bei Parfüms, Kosmetika, Lufterfrischern und Tabakwaren statt. Die Problematik von Geschmacks- und Dufttests liegt üblicherweise in der Schwierigkeit, den empfundenen Geschmack oder Duft verbal zum Ausdruck zu bringen. Eine valide Lösung wird z.B. von MW Research angeboten. Beispiel 8.4: SensUp® (MW Research) SensUp® ist ein spezielles Messverfahren zur Wahrnehmung von Sinneseindrücken. Es eignet sich für alle Produkte, die über sinnlich wahrnehmbare Eigenschaften verfügen, deren Ausprägungen mit klassischen Testverfahren nur sehr schwer messbar sind (Geruch, Geschmack, Haptik, Optik). Die Messung jeder Produkteigenschaft, z.B. Würzigkeit, erfolgt auf der Basis einer sog. Magnitude Estimation Scale, einer nach oben offenen Skala mit einem Nullpunkt und ohne Eingrenzung der Skalenwerte. Jeder Proband kann damit seine Bewertungen auf einer ganz individuellen Skala positionieren. Auf diese Weise können auch sehr feine Abstufungen vorgenommen werden. Die individuellen Skalen werden anschließend normiert. Erhoben werden für jede zu testende Eigenschaft sowohl das wahrgenommene Vorhandensein einer Ausprägung (z.B. „sehr würzig“) als auch dessen Bewertung im Sinne von „Gefallen“. Hierdurch wird erfasst, ob die wahrgenommene Ausprägungsstärke, also z.B. „sehr würzig“, akzeptiert bzw. gemocht wird oder nicht. Neben der Bewertung von Produkteigenschaften werden die für einen positiven Gesamteindruck wichtigsten Produktmerkmale identifiziert. Des Weiteren werden Ausprägung und Akzeptanz von Produkteigenschaften im Vergleich zu anderen Produkten, z.B. Konkurrenzmarken, ermittelt. Zudem werden die Probanden gebeten, die getesteten Produkte in Relation zum persönlichen Idealprodukt in der betreffenden Produktkategorie zu bewerten. Durch dieses Benchmarking ergeben sich wertvolle Hinweise für die Optimierung des eigenen Produkts. Quelle: http: / / www.mwresearch.de/ methoden/ sensup/ , Abruf vom 2.2.2017 <?page no="415"?> 416 Produktforschung Der Produkt- oder Markenname ist für das Branding von großer Bedeutung. Aus diesem Grund empfiehlt es sich, einen anvisierten Markennamen vorab im Rahmen eines Namenstests zu untersuchen. Untersucht werden dabei insb. Aspekte wie Merkfähigkeit und Assoziationsleistungen. Die Merkfähigkeit wird z.B. dadurch überprüft, dass den Testpersonen im Rahmen eines Folder-Tests eine Mappe mit Produktnamen und Produktbeschreibungen zur Durchsicht ausgehändigt wird; im Rahmen einer anschließenden Befragung wird überprüft, wie häufig unterschiedliche Produktnamen erinnert werden. Im Rahmen des Tests der Assoziationsleistung werden die Testpersonen gebeten, anzugeben, welche Assoziationen sie mit dem zu testenden Namen verbinden. Eine weitere Variante des Namenstests besteht darin, die Testpersonen zu bitten, passende Namen für das vorgelegte Produkt zu nennen. Beispiel 8.5: Namenstest Dr. Grieger & Cie (ab 2017 Splendid Research). In einem mehrstufigen Testdesign werden qualitative und quantitative Techniken herangezogen, um zuverlässige Informationen über die Wahrnehmung alternativer Markennamen durch relevante Konsumenten zu ermitteln. Der Test umfasst dabei drei verschiedene inhaltliche Schwerpunkte: Phonetische Begriffsattribute (Aussagefähigkeit, Einprägsamkeit/ Merkfähigkeit, Aussprechbarkeit, Verständlichkeit); Assoziationen (Emotionale Wahrnehmung, Reaktion, Attraktivität, Einordnung, Fit zur angebotenen Leistung); Position im Wettbewerbsumfeld (Eigenständigkeit, Differenzierbarkeit, Positionierungsadäquanz). Im Rahmen von Fokusgruppen werden zunächst Assoziationen zum Namen (allein und im Wettbewerbsumfeld) identifiziert. Die wichtigsten Dimensionen werden in einen Fragebogen übertragen (z.B. exklusiv, teuer, qualitativ hochwertig). In Einzelinterviews wird den Befragten Name und Produktgruppe genannt. Anschließend werden die vorher identifizierten Dimensionen anhand einer vierstufigen Skala (von „stimme voll zu“ bis „stimme gar nicht zu“) bewertet. Auf diese Weise wird nicht nur identifiziert, welche Assoziationen bestimmte Namen hervorrufen, sondern auch, wie stark diese Assoziationen bei der Zielgruppe sind. Darüber hinaus werden auch die phonetischen Begriffsattribute (z.B. Merkfähigkeit, Aussprechbarkeit) analysiert. Quelle: Dr. Grieger & Cie. 2014 Eine Packung ist untrennbar mit dem eigentlichen Produkt verbunden und wird vom Kunden zusammen mit dem Produkt als eine Verkaufseinheit angesehen (z.B. Parfümflaschen, Spraydosen etc.). Im Gegensatz dazu dient die Verpackung vor allem der Lagerung, dem Transport und dem Schutz des Produkts vor Beschädigung oder Verderb und ist vom Produkt abtrennbar. Während beim Verpackungstest vornehmlich technische Aspekte wie z.B. Haltbarkeit oder Stapelfähigkeit getestet werden, wird beim Packungstest insb. die Präsentationsfunktion bzw. die kommunikative Funktion getestet. Konkret wird beim Packungstest überprüft, ob die Packung beim Kunden die beabsichtigte Assoziation zum Produkt weckt, ob sie Kaufanreize setzt oder ob sich die Packung gegenüber den Packungen von Konkurrenzprodukten durchsetzen kann. Gebräuchlich sind dabei Store Tests oder der Einsatz apparativer Testverfahren wie z.B. die Schnellgreifbühne oder Eye Tracking (vgl. die Ausführungen in Abschnitt 2.3.3 im 2. Teil.). Darüber hinaus können Verpackungen auch im Rahmen von Con- <?page no="416"?> Produkttests 417 joint-Analysen getestet werden. Die Wahl der Methoden ist dabei vom konkreten Untersuchungsziel abhängig. Beispiel 8.6: Packungstest bei MW Research Das Marktforschungsinstitut MW Research GmbH führt Packungstests mit Hilfe verschiedener Testanordnungen durch: Regaltest: Es wird ein Einkaufsregal simuliert, in welchem den Probanden verschiedene Produktpackungen vorgestellt werden (inkl. der zu testenden Packung). Anstelle realer Studiotests werden zunehmend virtuelle Regalsimulationen eingesetzt. Getestet wird die Durchsetzungsfähigkeit der Packung im Wettbewerbsumfeld. Anschließend wird die zu testende Packung einzeln, also ohne Wettbewerbsumfeld vorgelegt. Erhoben werden Likes und Dislikes, zudem werden Einzelaspekte (Logo, Farben, Abbildungen, Lesbarkeit, Verständnis, Produkterwartung, Imagewirkung und Kaufeinstellung) durch die Probanden bewertet. In einem dritten Schritt werden mit Hilfe impliziter Messverfahren die emotionale Markenwirkung und der Markenfit gemessen, wodurch unbewusste Wirkungen der Packung erfasst werden können. Eye Tracking: Hier wird analysiert, ob die wesentlichen Informationen einer Packung, also Wiedererkennung der Marke oder Informationsgehalt, ausreichend und zügig wahrgenommen werden. Cares for Packages: Im Rahmen einer Conjoint-Analyse wird der Beitrag der einzelnen Gestaltungsmerkmale am Gesamtbild der Packung erhoben. Dies erfolgt dadurch, dass den Testpersonen verschiedene Packungskonzepte zur Bewertung vorgelegt werden. Auf der Basis der Gesamtbewertung wird auf den Nutzen der verschiedenen Merkmalsausprägungen geschlossen. Quelle: www.mwresearch.de/ forschungsgebiete/ packungstest/ , Abruf vom 14.1.2017 Wie der Geschmacks- und der Dufttest gehört auch der Klangtest zur sog. sensorischen Produktforschung. In der Automobilindustrie hat er schon eine lange Tradition - etwa um den „richtigen“ Klang beim Schließvorgang von Autotüren oder den erwünschten Sound von Motor und Auspuffanlage zu finden. In der Lebensmittelindustrie wird er hingegen bisher eher selten eingesetzt. Beispiel 8.7: Bahlsen Klangtest Die Firma Bahlsen hat eigens für die Entwicklung und Überprüfung von Süßgebäck wie z.B. „Leibnitz Butterkekse“ und „Russisch Brot“ einen Test entwickelt, um zu untersuchen, ob das Knackgeräusch des Gebäcks dieselben Qualitätsanforderungen wie Design oder Geschmack erfüllen kann. Insbesondere soll das Geräusch Frische signalisieren und zum Verzehr animieren. Im hauseigenen Texture Analyzer werden Kekse abgebrochen bzw. abgebissen und dabei Druck und Zeit gemessen. Inzwischen werden neben den Abbeißgeräuschen auch die Kaugeräusche erfasst. Dabei werden zwei Mikrofone so im Ohr platziert, dass sie das Kaugeräusch authentisch erfassen. Analysiert werden durch den Klangtest Knusprigkeit, Klangfarbe, Lautstärke, Konsistenz und Struktur. Darüber hinaus wird auch die subjektive Wahrnehmung erhoben, etwa wie eigentümlich oder anregend ein Keks schmeckt. Quelle: Höfinghoff 2005, S. 120; Gräfe 2011, o.S. <?page no="417"?> 418 Produktforschung Im Rahmen eines Handlingtests wird die Handhabung des Produkts überprüft, d.h. das Produkt wird beim Ge- und Verbrauch getestet, um herauszufinden, ob das Handling den Anforderungen entspricht (z.B. ob es leicht zu öffnen oder leicht zu dosieren ist, ob die Packung wiederverschließbar ist oder ob die Oberflächenbeschaffenheit, Festigkeit, Gewicht, Gewichtsverteilung etc. den Vorstellungen der Kunden entsprechen). <?page no="418"?> 2 Testmarktuntersuchungen Definition Testmarktuntersuchungen werden vor einer nationalen Markteinführung neuer oder veränderter Produkte eingesetzt. Hierbei wird nicht nur das Produkt als solches getestet, sondern der gesamte Marketing-Mix. Im Rahmen von Testmarktuntersuchungen werden damit nicht die eigentlichen Produkteigenschaften, sondern die Durchsetzungsfähigkeit der Produkte am Markt getestet, d.h. unter Berücksichtigung des Wettbewerbsumfelds. Ziel ist die Ermittlung zuverlässiger Absatz- und Marktanteilsprognosen sowie die Aufdeckung etwaiger Schwächen in der Marketingkonzeption, um das Floprisiko zu reduzieren (vgl. Högl et al. 2016, S. 290). Die wichtigsten Varianten von Testmarktuntersuchungen sind: Regionaler Markttest, Testmarktsimulation, kontrollierter Markttest (Store-Test) und elektronischer Testmarkt. 2.1 Regionaler Markttest Im Rahmen eines regionalen Markttests wird das Produkt unter realen Bedingungen in einen regional abgegrenzten Markt unter Einsatz ausgewählter oder sämtlicher Marketinginstrumente getestet. Damit handelt es sich um ein Feldexperiment. Der regionale Markttest erlaubt es daher, die gesamte Marketingkonzeption zu testen, da neben dem Produkt als solches auch die übrigen Marketinginstrumente überprüft werden können. Angewendet wird ein regionaler Markttest insb. im Vorfeld einer Neuprodukteinführung. Voraussetzung für die Aussagefähigkeit der Testmarktergebnisse ist allerdings, dass der Testmarkt für den Gesamtmarkt repräsentativ ist. Darüber hinaus sollte der Testmarkt vor allem im Hinblick auf den gezielten Einsatz der Marketinginstrumente isolierbar sein. Mittlerweile ist die Bedeutung regionaler Markttests stark zurückgegangen. Hierfür sind u.a. folgende Gründe zu nennen (vgl. Hüttner/ Schwarting 2002, S. 392 f.; Erichson 2007, S. 410 f.): Die Durchführung einer regionalen Testmarktuntersuchung ist sehr teuer und zeitaufwändig (mindestens 10 Monate). Eine Geheimhaltung vor der Konkurrenz ist nicht möglich, sodass das Produkt bereits während der Testphase von der Konkurrenz imitiert werden kann. Häufige Nutzung ein und desselben Gebiets führt zu Testeffekten (ähnlich wie der Paneleffekt, vgl. Abschnitt 3.2 im 4. Teil) bei den beteiligten Verbrauchern und Händlern. Eine repräsentative Zufallsauswahl der Testmärkte ist nicht möglich. <?page no="419"?> 420 Testmarktuntersuchungen Der Handel ist oftmals nicht oder nur gegen Vergütung bereit, das neue Produkt regional zu listen. Die Überregionalität der Medien macht eine gezielte Werbestreuung im Testmarkt oftmals unmöglich. Die teilweise noch gravierenden Unterschiede zwischen Ost- und Westdeutschland erfordern zumindest zwei regionale Testmärkte. Die Validität der Testmarktergebnisse kann durch Störmaßnahmen der Konkurrenz beeinträchtigt werden. Aus den genannten Gründen haben die Marktforschungsinstitute eine Reihe sog. Testmarkt-Ersatzverfahren entwickelt, welche im Folgenden dargestellt werden. 2.2 Testmarktsimulation Verfahren der Testmarktsimulation finden als Studiotests statt, d.h. unter Laborbedingungen. Kombiniert wird der Studiotest mit einem Home-Use-Test. Das erste deutsche Testmarktsimulationsverfahren wurde von der GfK im Jahre 1980 entwickelt. Mittlerweile bieten alle großen Institute, z.B. A.C. Nielsen, Ipsos, Kantar TNS entsprechende Verfahren an. Das grundlegende Vorgehen bei einer Testmarktsimulation ist wie folgt: Anwerben der Testpersonen, Durchführung der Simulation und Hochrechnung der Testergebnisse auf den Gesamtmarkt. In dem hier darzustellenden GfK Volumetric TESI (vgl. im Folgenden GfK o.J.b sowie Högl et al. 2016) werden i.d.R. 300 Verwender der betreffenden Produktkategorie angeworben. Im Rahmen der Simulation erfolgt zunächst eine Vorbefragung, um den relevanten Markt der Probanden abzubilden. Unter anderem werden das Relevant Set (Set der in Frage kommenden Marken) ermittelt und für diese Kaufpräferenzen, Eigenschaftsbeurteilungen und Verwendungsintensität erhoben. Im Anschluss an die Vorbefragung werden die Testpersonen mit Werbemaßnahmen für das Testprodukt und die wichtigsten Konkurrenzprodukte konfrontiert. Die Testpersonen haben anschließend die Aufgabe, aus einem im Studio aufgebauten Regal ein Produkt ihrer Wahl einzukaufen. Nach dem Kauf wird der Proband gefragt, welche Marke er gekauft hätte, wenn die gewählte nicht verfügbar gewesen wäre. Dies wird solange wiederholt, als Marken im Relevant Set sind. Abschließend beurteilen die Probanden das Image des neuen Produkts (nach Werbemittel- und Regalkontakt). Im Anschluss an den Studiotest erfolgt ein Home-Use-Test, d.h. das Testprodukt und das bevorzugte Produkt werden in häuslicher Umgebung erprobt. Anschließend werden Nachkaufinterviews geführt, um die Verwendungserfahrungen festzustellen. Kauffrequenz- und Einstellungsmessung werden analog zum Hauptinterview wiederholt, um Daten zur Prognose des Wiederkaufverhaltens zu generieren. Methodisch basiert Volumetric TESI auf dem Parfitt-Collins-Modell (vgl. die Ausführungen in Abschnitt 4.3.2 im 4. Teil). Prognostiziert werden Erstkauf, Wiederkauf und Marktanteil des Produkts für die ersten 24 Monate nach Produkteinführung. Im Ver- <?page no="420"?> Testmarktsimulation 421 gleich zu regionalen Testmarktuntersuchungen sind Testmarktsimulationen deutlich günstiger. Die Zeitdauer ist begrenzt (ca. 8-12 Wochen). Ein weiterer Vorteil ist die Möglichkeit der Geheimhaltung. Als nachteilig kann sich insb. die geringe externe Validität aufgrund der Laborsituation erweisen; allerdings ist nach Aussage der GfK Volumetric TESI sehr zuverlässig (Abweichung des prognostizierten vom tatsächlichen Marktanteil nach dem 1. Jahr ± 10 %; vgl. Högl et al. 2016, S. 307). Neue Impulse erhält die Testmarktsimulation durch den Einsatz sog. virtueller Regaltests. Hierbei handelt es sich um 3D-Darstellungen simulierter Geschäfte mittels spezieller Software, die eine wirklichkeitsgetreue Einkaufstour am PC ermöglichen. Ein Beispiel ist der Online-Regaltest von Harris Interactive (vgl. Abb. 8.2). Abb. 8.2: Online-Regaltest von Harris Interactive AG Hamburg (Quelle: http: / / harris-interactive.de/ virtuelle-regaltests/ , Abruf vom 5.2.2017) Wesentliche Vorteile eines virtuellen Regaltests sind (vgl. Burke 1996, S. 111; Harris Interactive 2017, o.S.): Durch die 3D-Darstellung wird die Einkaufssituation realistischer nachgebildet als bei anderen Labortechniken; Testparameter wie Sortiment, Produktverpackungen, Verkaufsförderungsmaßnahmen, Regalgestaltung usw. können schnell und flexibel verändert werden; Einfache und intuitiv verständliche Bedienung des Online-Regals; schnelle und fehlerfreie Datenerfassung durch die Software; Elimination eines Großteils der in Feldversuchen auftretenden Störfaktoren und Möglichkeit zum Test neuer Konzepte, ohne Herstellungs- oder Werbekosten zu verursachen. <?page no="421"?> 422 Testmarktuntersuchungen 2.3 Kontrollierter Markttest Im Rahmen eines kontrollierten Markttests (Store-Test) wird das Produkt unter kontrollierten Bedingungen in ausgewählten Einzelhandelsgeschäften getestet. Das beauftragte Marktforschungsinstitut übernimmt für die Dauer des Tests die Lieferung, die Bestandskontrolle, die Preisgestaltung und die Abrechnung für das betreffende Testprodukt. Angeboten werden Store-Tests u.a. von GfK und Nielsen. Beispiel 8.8: GfK Store Test 360° Im Rahmen des GfK Store Test 360° werden die geplanten Marketingmaßnahmen im Vorfeld der nationalen Umsetzung in einem realen Umfeld überprüft. Die Maßnahmen werden während eines Zeitraums von mehreren Wochen in ausgewählten Geschäften des Lebensmitteleinzelhandels getestet. Der 360° Blickwinkel integriert Informationen aus mehreren Informationsquellen: Verkaufspotenzial (Prognose auf der Basis von Scannerdaten), Shopper Akzeptanz (Verbraucherkennzahlen wie Käuferreichweite, Kauffrequenz u.a.), Shopper Insights (z.B. Kaufgründe, Kaufbarrieren, Beurteilung von PoS- Maßnahmen) auf Basis von PoS-Interviews und PoS-Beobachtung sowie Handelsfeedback: persönliche Interviews mit Handelsexperten zur Bewertung von Produktneuheiten aus Sicht des Handels, geschätzte Erfolgswahrscheinlichkeit beim Konsumenten u.a. In einem ersten Schritt erfolgt eine Vorauswahl repräsentativer Testgeschäfte. Im zweiten Schritt erfolgt eine Sensitivitätsanalyse, um Anzahl der Testgeschäfte und Testdauer zu bestimmen, welche für eine möglichst exakte Messung der Wirkung der geplanten Maßnahmen erforderlich sind. Die ausgewählten Geschäfte werden anschließend einer Geomarketing-Analyse unterzogen, um zu gewährleisten, dass Test- und Kontrollgruppe eine gleiche Ausgangslage haben (nach Kaufkraft, Einzugsgebiet, Kategorie- und Markenentwicklung). Durch die Geomarketing-Analyse hebt sich das Testdesign von anderen Storetests ab. Quelle: Högl et al. 2016, S. 301 ff. Auch Store-Tests weisen im Hinblick auf Testdauer, Testkosten und Geheimhaltung gegenüber regionalen Markttests Vorteile auf. Darüber hinaus ist im Vergleich zu Labortests die Validität höher, da sie unter Feldbedingungen erfolgen. Als nachteilig erweisen sich insb. die folgenden Punkte: Es wird lediglich die Kaufsituation im Laden betrachtet, d.h. es liegen keine Informationen über die individuellen Kaufentscheidungen der einzelnen Verbraucher oder über die Wirkung von Werbemaßnahmen vor. Die gemessene Nachfrage nach dem Testprodukt kann nicht wie bei der Testmarktsimulation nach Erst- und Wiederholungskäufen differenziert werden, worunter die prognostische Qualität des Verfahrens leidet. Die Repräsentativität ist bei nur wenigen eingbezogenen Testgeschäften gering. <?page no="422"?> Elektronischer Testmarkt 423 2.4 Elektronischer Testmarkt Elektronische Testmärkte (Mini-Testmarktpanels) kombinieren einen regionalen Testmarkt mit einem elektronischen Panel. In Deutschland befindet sich nach der Einstellung von Nielsen Telerim lediglich das 1985 eingeführte GfK BehaviorScan auf dem Markt (vgl. GfK o.J.c). Testmarkt bei BehaviorScan ist Haßloch in der Pfalz. Dort waren bereits 1985 über 90% der Haushalte kabelfähig (mittlerweile 100%), da die Stadt im Einzugsgebiet des Kabelpilotprojekts Ludwigshafen lag. Durch Kooperationsvereinbarungen mit dem lokalen Handel konnte ein Einzelhandelspanel mit - je nach Warengruppe - bis zu 95% Marktabdeckung (Coverage) gewonnen werden. Abb. 8.3: Die Struktur von GfK BehaviorScan (Quelle: nach Högl et al. 2016, S. 293) Die Stichprobe besteht aus derzeit 3.400 repräsentativen Testhaushalten, aufgesplittet in eine 2.400 Haushalte umfassende Testgruppe mit Kabelanschluss, welche die TV- Testwerbung erhalten, und eine Kontrollgruppe aus 1.000 Haushalten, welche die reguläre Werbung im nationalen Fernsehprogramm erhalten. Die Testhaushalte werden gezielt mit präparierten Medien konfrontiert (TV-Sender, Printmedien, Plakate etc.), welche Werbemaßnahmen für das getestete Produkt enthalten. Testspots werden synchron mit dem Erscheinen regulärer Spots über einen speziellen Kabelkanal ausgestrahlt und sind für die teilnehmenden Haushalte als solche nicht erkennbar. In den Testgeschäften werden die Einkäufe der Probanden elektronisch per Scannerkasse erfasst, wobei sich die Teilnehmer mittels einer Identifikationskarte ausweisen müssen. Auf diese Weise können auf experimentellem Wege die Wirkungen alternativer Marketingmaßnahmen (z.B. Werbemittel, Preis) auf ökonomische Zielgrößen wie Absatz oder Umsatz des zu testenden Produkts ermittelt werden (vgl. Högl et al. 2016, S. 292). Abbildung 8.3 zeigt die Struktur des GfK BehaviorScan im Überblick. Testprodukt Distribution, Preis und Platzierung durch GFK Testrealisation und Kontrolle durch GFK Testgeschäfte 90-95% Umsatzbedeutung/ LEH Kassen / Scanner Geschäftsinformationen Verkaufsdaten Single-Source-Daten Haushaltsinformationen Reales Einkaufsverhalten TV-Werbung (Überblendungsmöglichkeit auf reichweitenstarken Sendern) Printwerbung/ Online-Werbung Verkaufsförderung Mailing/ Inhome- Sampling/ Couponing Identifikationskarte Haushalte mit Werbeüberblendung 3400 repräsentative Testhaushalte Verkaufsförderung am PoS S Haushalte ohne Werbeüberblendung <?page no="423"?> 424 Testmarktuntersuchungen Der wesentliche Vorteil von BehaviorScan besteht im Einsatz von Targetable TV, wodurch die Testhaushalte gezielt und individuell mit Werbespots angesteuert werden können. Dadurch wird die Werbewirkung isolierbar. Ein weiterer Vorteil liegt in der Konzeption als Panelerhebung, wodurch sowohl Erstals auch Wiederholungskäufe erfasst werden können und eine Prognose nach dem Parfitt-Collins-Modell möglich ist. Tab. 8.3: Testmarktalternativen im Vergleich Testverfahren Regionaler Markttest Kontrollierter Markttest Testmarktsimulation Elektronischer Testmarkt Kennzeichnung Feldexperiment Probeweiser Verkauf von Produkten unter kontrollierten Bedingungen in einem räumlich abgegrenzten Markt bei Einsatz ausgewählter oder aller Marketinginstrumente Feldexperiment Probeweiser Verkauf von Produkten unter kontrollierten Bedingungen in ausgewählten Handelsgeschäften Laborexperiment Nach Vorführung von Werbemaßnahmen werden Käufe der Testpersonen in einem künstlich aufgebauten Supermarkt registriert i.d.R. anschließend Nachkaufinterviews Feldexperiment Test- und Kontrollgruppe werden mit unterschiedlichen Marketingmaßnahmen (insb. Werbung) konfrontiert (Targetable TV) Käufe per Scannerkasse erfasst Beurteilung Testdauer 10-16 Monate 1-6 Monate 8-12 Wochen Ca. 6 Monate Kosten Relativ hoch Relativ gering Gering Relativ gering Kontrollmöglichkeiten Gering; Gefahr von Störeinflüssen hoch Relativ gering; Gefahr von Störeinflüssen hoch Sehr gut; kaum Störeinflüsse Gut; geringe Störeinflüsse Geheimhaltung Nicht gegeben In Grenzen gegeben Uneingeschränkt gegeben i.d.R. gegeben Prognosemöglichkeiten i.d.R. hohe Repräsentativität und große Realitätsnähe Erst- und Wiederholungskäufe erfassbar Realitätsnähe hoch Eingeschränkte Repräsentativität aufgrund geringer Zahl an Testgeschäften Erst- und Wiederholungskäufe nicht getrennt erfassbar Eingeschränkte Realitätsnähe Repräsentativität hängt vom Auswahlverfahren ab Erst- und Wiederholungskäufe erfassbar Hohe Realitätsnähe, aber ggf. Testeffekt Mittlere bis hohe Repräsentativität Erst- und Wiederholungskäufe erfassbar Isolierbarkeit einzelner Maßnahmen gering gering hoch hoch <?page no="424"?> Elektronischer Testmarkt 425 Problematisch sind zum einen die z.T. nicht unerheblichen Kosten. Darüber hinaus ist eine Geheimhaltung nur eingeschränkt möglich. Zudem besteht die Gefahr der Überlastung des Testgebiets. Im Hinblick auf die Eignung von Produkten als Testobjekte sind darüber hinaus folgende Restriktionen zu berücksichtigen (vgl. Berekoven et al. 2009, S. 163 f.): Die Zahl der potenziellen Käufer darf nicht zu gering sein, um aussagekräftige und projizierbare Ergebnisse zu erlangen. Die Länge des Kaufzyklus darf nicht so groß sein, dass in einem angemessenen Zeitraum nicht mit der Stabilisierung der Wiederkaufrate zu rechnen ist. Es darf sich nicht um regionale Marken oder Spezialitäten handeln. Der Umsatz der Warengruppe darf nicht zu einem übermäßigen Teil über solche Distributionskanäle abgewickelt werden, in denen er für den Test nicht zu erfassen ist (z.B. Wochenmärkte). Tabelle 8.3 zeigt zusammenfassend die wichtigsten Vor- und Nachteile der dargestellten Testmarktalternativen im Vergleich. Nach Abschluss der Testmarktuntersuchung sind die Testergebnisse auf den Gesamtmarkt hochzurechnen. Abbildung 8.4 zeigt die gebräuchlichsten Projektionsverfahren für Testmarktdaten im Überblick. Ermittlung des Hochrechnungsfaktors β Einfache Bevölkerungsprojektion evölkerung Testmarktb g Bevölkerun nationale = Marktanteilsmethode Testmarkt im ppe Produktgru der Umsatz t Gesamtmark im ppe Produktgru der Umsatz = Umsatzverhältnismethode Testmarkt im sprodukts Vergleich des Umsatz t Gesamtmark im sprodukts Vergleich des Umsatz = Kaufkraftindexmethode Testgebiet im Einkommen Einkommen nationales = Abb. 8.4: Projektionsverfahren für Testmarktdaten (Quelle: In Anlehnung an Sander 2011, S. 404) Umsatz auf dem Gesamtmarkt Umsatz im Testgebiet Hochrechnungsfaktor β Korrekturfaktor × × = Absatz auf dem Gesamtmarkt Anzahl gekaufter Einheiten pro Wiederkäufer pro Jahr Anzahl der Einwohner im Gesamtmarkt × = × Anzahl der Wiederkäufer im Testmarkt Anzahl der Einwohner im Testmarkt <?page no="426"?> 3 Werbeforschung 3.1 Gegenstand der Werbeforschung Die Werbeforschung ist ein weites Gebiet mit einer Vielzahl an Methoden und Testdesigns. In Abhängigkeit vom Objekt der Werbeforschung wird in Werbeträger- und Werbemittelforschung unterschieden. Während die Werbeträgerforschung primär auf die Messung der Reichweite der einzelnen Medien zielt, befasst sich die Werbemittelforschung schwerpunktmäßig mit der Wirkung von Werbemitteln auf psychologische und ökonomische Zielgrößen. Grundsätzlich bezeichnet die Werbewirkung den Beziehungszusammenhang zwischen den werblichen Stimuli und der Reaktion der Rezipienten. Dabei wird unterschieden zwischen ökonomischer Werbewirkung (Wirkung auf ökonomische Werbeziele wie Absatzmenge, Umsatz, Gewinn, Marktanteil), psychologischer Werbewirkung (z.B. Wahrnehmung, Markenbekanntheit, Erinnerung, Kaufabsicht) und streutechnischer Werbewirkung (z.B. Reichweite, Kontakte). Die Werbewirkung bzgl. ökonomischer Zielvariablen wird auch als Werbeerfolg bezeichnet. Abbildung 8.5 zeigt die Zusammenhänge im Überblick. Abb. 8.5: Zielkategorien der Werbewirkung Werbewirkungsforschung beinhaltet die Überprüfung des Zielerreichungsgrades der Werbung. Voraussetzung für eine fundierte Werbewirkungsforschung ist damit eine klare und eindeutige Festlegung der Werbeziele nach Inhalt, Ausmaß und zeitlichem Bezug. Des Weiteren ist zu klären, ob die Werbeziele unmittelbar und ausschließlich durch Werbung beeinflussbar sind (dies gilt für die psychologischen und streutechnischen Werbeziele), oder ob sie auch von anderen Faktoren abhängen, etwa Preis- und Distributionspolitik, wie dies bei den ökonomischen Zielen der Fall ist. Die Ermittlung der Werbewirkung bei ökonomischen Zielen erfordert eine Isolierung der Werbung als Beeinflussungsfaktor. Hierzu ist es erforderlich, Zielerreichungsgrade der Branche bzw. der Konkurrenten als Vergleichsgrößen heranzuziehen, um allgemeine Einflussfaktoren, die die Branche als Ganzes betreffen, herauszufiltern. In der Praxis ist aber eine Isolierung der ökonomischen Werbewirkung äußerst schwierig. Leichter zu erheben und unmittelbar auf Werbemaßnahmen zurückzuführen ist die Ermittlung der psychologischen Werbewirkung. Je nach Zeitpunkt der Werbewirkungsforschung wird dabei zwischen Pretests und Posttests unterschieden. Im Prinzip können hierfür sämtliche Verfahren der Marktforschung Anwendung finden; gängige Bruttoreichweite Nettoreichweite Wahrnehmung Werbeerinnerung Emotionale Reaktion Markenbekanntheit Markenpräferenz Kaufabsicht … Absatz Umsatz Marktanteil … Streutechnische Werbewirkung Psychologische Werbewirkung Ökonomische Werbewirkung <?page no="427"?> 428 Werbeforschung Messgrößen sind die Erinnerung (Recall-Test) und die Wiedererkennung (Recognition- Test). Des Weiteren sind Verfahren zur Einstellungsmessung sowie explorative und projektive Verfahren gebräuchlich. Die streutechnische Werbewirkung lässt sich auf der Grundlage von Mediaanalysen bewerten. Erfolgt die Überprüfung der Zielgrößen am Markt kontinuierlich, so spricht man von Werbetracking. Sogenannte Stufenmodelle der Werbewirkung unterstellen eine Abfolge der verschiedenen Wirkungskategorien, die im Allgemeinen mit der Wahrnehmung der Werbung beginnt und mit der konkreten Kaufhandlung endet; dazwischen werden verschiedene psychologischen Stufen nacheinander durchlaufen. Bekanntestes Stufenmodell der Werbewirkung ist die AIDA-Regel. Diese besagt, dass ein Werbeadressat beim Kontakt mit einer Werbebotschaft nacheinander die Wirkungsstufen Attention (Aufmerksamkeit), Interest (Interesse), Desire (Kaufabsicht) und Action (Kaufhandlung) durchläuft; eine Kaufhandlung findet also erst statt, wenn der Rezipient die vorangegangenen psychologischen Prozesse durchlaufen hat. Phasenabgrenzung und -abfolge sind jedoch umstritten. Die einzelnen Wirkungskategorien sind Ausdruck verfolgter Werbeziele und eignen sich daher als Zielgrößen für die Werbewirkungsmessung. 3.2 Werbeträgerforschung 3.2.1 Gegenstand der Werbeträgerforschung Definition Ziel der Werbeträgerforschung (Mediaforschung) ist die Analyse der verschiedenen Werbeträger im Hinblick auf deren Beitrag zur Erreichung von Werbezielen. Kern der Mediaforschung ist die Mediaanalyse. Eine Mediaanalyse basiert auf primärstatistischen Erhebungen von Kontaktmenge und Kontaktqualität der einzelnen Werbeträger und ermittelt eine Vielzahl von Kennzahlen der Werbeplanung. Ergänzend werden demographische und psychographische Merkmale wie auch das Medien- und Konsumverhalten der Nutzerschaft erhoben. Die Ergebnisse der Mediaforschung liefern wichtige Hinweise für die Werbestreuplanung. Zu den bekanntesten Mediaanalysen in Deutschland zählen die Mediaanalyse der Arbeitsgemeinschaft Media-Analyse sowie die Allensbacher Markt- und Werbeträger- Analyse. Die Allensbacher Markt- und Werbeträger-Analyse (AWA) ist eine jährlich veröffentlichte Dokumentation der Mediaforschung des Instituts für Demoskopie Allensbach. Die AWA enthält zum einen Daten über die Reichweite von Zeitschriften, Zeitungen, Hörfunk, Fernsehen, Kino und Außenwerbung, zum anderen auch Angaben über die soziodemographische und psychographische Struktur der Mediennutzer sowie über das Verbraucherverhalten der Zielgruppen. Die Arbeitsgemeinschaft Media-Analyse e.V. (AG.MA) ist ein Zusammenschluss von Werbeträgern, Werbeagenturen und Werbetreibenden zu Zwecken der Mediaforschung. Die Ergebnisse werden jährlich in der Media-Analyse publiziert. Die Media- Analyse ist die umfassendste Medienanalyse und die größte Erhebung des Mediennutzungsverhaltens in Deutschland. <?page no="428"?> Werbeträgerforschung 429 Die Zuschauerforschung ist der Teilbereich der Mediaforschung, der sich mit der Analyse der Struktur und Nutzungsgewohnheiten - insb. Einschaltquoten - der TV-Zuschauer befasst. Die Erhebung erfolgt mittels automatischer Erfassungsgeräte bei Panel- Haushalten oder durch Befragungen. Erhoben werden u.a. folgende Kennzahlen: Seher pro halbe Stunde, Seher pro Tag, Zuschauer je Werbeblock. Die Ergebnisse der Zuschauerforschung bilden die Grundlage zur Ermittlung von Zuschauermarktanteilen und liefern wichtige Hinweise für die Mediaplanung. Da auf die Fernsehforschung ausführlich in Abschnitt 1.4 des 4. Teils eingegangen wurde, soll die Thematik an dieser Stelle nicht weiter vertieft werden. Bei einer Leseranalyse handelt es sich um eine repräsentative Erhebung zur Feststellung der Reichweiten der Printmedien, der Leserstruktur wie auch der Lesegewohnheiten. Eine Leseranalyse liefert die Grundlage zur Berechnung einer ganzen Reihe von Kennzahlen wie z.B. Leser pro Nummer, Leser pro Ausgabe, Leser pro Exemplar. Darüber hinaus kann die Kontaktwahrscheinlichkeit (Kontaktchance) ermittelt werden, d.h. die Wahrscheinlichkeit, dass eine durchschnittliche Ausgabe eines Mediums genutzt wird. Sie ergibt sich als Durchschnitt aller individuellen Kontaktwahrscheinlichkeiten der befragten Stichprobenmitglieder und ist eine Kennziffer für die durchschnittliche Reichweite eines Titels. Zu den Lesegewohnheiten werden erhoben: Lesedauer (Gesamtzeit über alle Lesevorgänge, in der eine Person eine Ausgabe eines Printmediums nutzt); Lesehäufigkeit (Anzahl der Ausgaben eines Printmediums, die eine Person innerhalb eines bestimmten Zeitraums liest); Leseintensität (Nutzungsintensität eines Printmediums); Lesemuster (Leseverhalten, das sich anhand der Kriterien Lesehäufigkeit, Leseort und Anzahl der Lesetage beschreiben lässt). Die Ergebnisse der Leseranalyse liefern wichtige Hinweise für den Einsatz von Printmedien in der Werbung. Zu erwähnen ist darüber hinaus die Leseranalyse bei Entscheidungsträgern in Wirtschaft und Verwaltung (LAE), eine zielgruppenspezifische Leseranalyse der Arbeitsgemeinschaft Leseranalyse Entscheidungsträger. Die LAE ist die wichtigste Markt-Media-Studie für die B2B-Kommunikation. Neben Print und TV werden durch die Arbeitsgemeinschaft Media-Analyse auch die übrigen Mediengattungen im jährlichen Rhythmus untersucht: zu nennen sind hier ma Radio, ma Plakat, ma Online. 3.2.2 Kennziffern der Werbeträgerforschung Kennziffern der Werbeträgerforschung werden im Rahmen der Mediaforschung ermittelt und stellen wichtige Maßzahlen zur Beurteilung von Medien bzw. Mediaplänen dar. Tabelle 8.4 zeigt wichtige Kennziffern der Werbeträgerforschung im Überblick. Eine ausführliche Beschreibung sämtlicher Kennziffern der Mediaplanung wie auch grundsätzlicher Begriffe der Werbeforschung findet sich insb. bei Koschnik 2003. <?page no="429"?> 430 Werbeforschung Tab. 8.4: Wichtige Kennziffern der Werbeträgerforschung (Quelle: In Anlehnung an Fantapié Altobelli 2011) Kennziffer Beschreibung Affinität Kennzahl zur Bewertung der Kontaktqualität. Sie gibt an, in welchem Ausmaß die Nutzer eines Werbeträgers den Zielgruppen der Werbung entsprechen. Als Prozentsatz berechnet sich die Affinität als 100 lkerung Gesamtbevö der in Reichweite absolute Zielgruppe der in Reichweite absolute × Den Indexwert erhält man, indem der Prozentsatz durch den Anteil der Zielgruppe an der Gesamtbevölkerung dividiert wird. Ein Indexwert >1 (<1) bedeutet, dass die Zielgruppe in der Nutzerschaft des Mediums über-(unter-)repräsentiert ist. Durchschnittskontakt Durchschnittliche Anzahl der Kontakte mit einem Werbeträger bezogen auf alle Personen, welche vom Werbeträger erreicht wurden, also (mindestens einen) Kontakt mit dem Werbeträger hatten. Einschaltquote Kennziffer, welche von der GfK im Auftrag der sieben größten Fernsehsender ermittelt wird. Die Einschaltquote besagt, wieviel Prozent der Fernsehhaushalte in Deutschland eine bestimmte Sendung über die gesamte Sendezeit gesehen haben. Gross Rating Points (GRP) Addierte Zahl der Kontakte (ohne Überschneidungen), ausgedrückt als Prozentwert einer Zielgruppe. Die Kennziffer dient der Bewertung des relativen Werbedrucks. Kontakthäufigkeit Durchschnittliche Anzahl der Kontakte der Zielpersonen bzw. Zielgruppen mit einem oder mehreren Werbträgern oder Werbemitteln. Sie wird auch als Kontaktfrequenz bezeichnet. Leser pro Ausgabe (LPA) Rechnerisch ermittelte Zahl der Leser einer durchschnittlichen Ausgabe eines Printmediums. Für ein bestimmtes Erscheinungsintervall resultiert der LPA-Wert als Quotient aus der Summe der Leser-pro-Nummer-Werte der in diesem Zeitraum erschienenen Exemplare und der Anzahl der erschienenen Exemplare. Leser pro Exemplar (LPE) Zahl der Personen, die ein Exemplar eines Printmediums lesen. Der LPE-Wert wird nicht direkt erhoben, sondern resultiert als Quotient aus Leser und verbreiteter Auflage im Erscheinungsintervall. Leser pro Nummer (LPN) Zahl der Personen, die eine bestimmte Ausgabe eines Printmediums genutzt haben und damit einen Werbeträgerkontakt hatten. Die Ermittlung erfolgt durch Feststellung des letzten Lesevorgangs. Leser-Blatt-Bindung Intensität der Bindung eines Lesers an einen bestimmten Titel. Die Ermittlung beruht auf der Vermutung, dass diese die Intensität des Werbemittelkontakts beeinflusst. Die Messung erfolgt meist auf der Grundlage von Statements, welche Wertschätzung, empfundene Verzichtbarkeit u.Ä. seitens des Lesers zum Ausdruck bringen. <?page no="430"?> Werbeträgerforschung 431 Tab. 8.4 (Forts.): Kennziffer Beschreibung Leserstruktur Erhebung im Rahmen einer Leseranalyse. Folgende Variablen werden erhoben: Weitester Leserkreis (Personen, die in den letzten 12 Erscheinungsintervallen mindestens eine Ausgabe eines Printmediums genutzt haben); Fluktuation der Leserschaft (personenmäßige Veränderung im Leserkreis eines Printmediums bei gleichbleibender Gesamtzahl der Leser); Leser pro Ausgabe, Leser pro Nummer, Leser pro Exemplar (s.o.); Leser pro Seite (Zahl der Kontakte einer oder mehrerer Personen mit einer bestimmten Seite eines Printmediums als Indikator für die Wahrscheinlichkeit eines Werbemittelkontakts). Medienakzeptanz Qualitatives Kriterium der Medienbewertung. Einflussfaktoren der Medienakzeptanz sind u.a. Glaubwürdigkeit, Informationswert, Unterhaltungswert, Nutzerbindung. Medien-Kontakt-Einheit (MKE) Die MKE bildet die Grundlage für die Berechnung der Nutzungswahrscheinlichkeit von Werbeträgern. Bei Printmedien beträgt die MKE eine Ausgabe, beim Hörfunk eine Stunde, beim Fernsehen 30 Minuten und beim Kino eine Woche. Ziel ist es, die Kontakte verschiedener Werbeträger vergleichbar zu machen. Nutzungswahrscheinlichkeit Die Nutzungswahrscheinlichkeit ermittelt sich als Quotient aus der Nutzerschaft pro Ausgabe (bzw. pro Sendetag) und dem weitesten Nutzerkreis (Personen, die im Referenzzeitraum mindestens eine Ausgabe des Mediums genutzt haben); sie gibt die Wahrscheinlichkeit an, dass ein Mediennutzer Kontakt mit einer durchschnittlichen Ausgabe eines Mediums hat. Reichweite Zentrale Kennzahl der Werbeplanung. Sie beschreibt das Ausmaß, in welchem die Werbeadressaten erreicht werden. Reichweiten können nach verschiedenen Kriterien klassifiziert werden: Bruttoreichweite (Zahl der erzielten Kontakte mit einem Werbeträger oder einem Werbemittel, unabhängig von der Zahl der erreichten Personen) und Nettoreichweite (Zahl der erreichten Personen, die mindestens einen Kontakt hatten); Werbeträgerreichweite (Zahl der erzielten Werbeträgerkontakte bzw. der durch einen Werbeträger erreichten Personen) und Werbemittelreichweite (Zahl der durch ein Werbemittel erreichten Personen bzw. erzielten Werbemittelkontakte); Quantitative Reichweite (Zahl der insgesamt erreichten Personen) und qualitative Reichweite (Anzahl der erreichten Personen der Zielgruppe). <?page no="431"?> 432 Werbeforschung 3.3 Werbemittelforschung 3.3.1 Überblick Definition Die Werbemittelforschung befasst sich mit der Überprüfung der Wirksamkeit eines Werbemittels. Sie misst, inwieweit die festgelegten Werbeziele durch das zu testende Werbemittel erfüllt werden. Tabelle 8.5 enthält einen Überblick über die Systematisierungskriterien von Werbemitteltests. Tab. 8.5: Systematik von Werbemitteltests Kriterium Varianten Zeitpunkt der Durchführung Pretest Posttest Ort der Durchführung Labortest Feldtest Zu testende Variable Test zur Messung von momentanen Reaktionen dauerhaften Gedächtnisreaktionen finalen Verhaltensreaktionen Wissensstand der Testpersonen Versteckte Versuchsanordnung Offene Versuchsanordnung Zu testendes Werbemittel Anzeigentest Plakattest Spot-Test Website-Test etc. Stadium der Erstellung des Werbemittels Konzepttest Gestaltungstest Nach dem Zeitpunkt der Durchführung wird zwischen Pretests und Posttests unterschieden. Bei einem Pretest handelt es sich um einen Werbetest, der vor Schaltung einer Werbemaßnahme durchgeführt wird, um ihre voraussichtliche Werbewirkung auszuloten. Ein Pretest bildet die Grundlage für die Bewertung und Auswahl eines Werbemittels im Hinblick auf die erreichbare Werbewirkung, d.h. er dient der Werbewirkungsprognose. Hingegen ist ein Posttest ein Werbetest zur nachträglichen Bewertung der Wirksamkeit einer Werbekampagne, d.h. zur Werbeerfolgskontrolle. Ein Posttest ermöglicht somit die Ermittlung der Zielerreichung einer Werbekampagne und liefert <?page no="432"?> Werbemittelforschung 433 Anhaltspunkte für künftige Werbemaßnahmen. Gebräuchliche Posttest-Verfahren sind der Recall-Test, der Recognition-Test, der Copy-Test und der Impact-Test. Das Kriterium der zu testenden Variable beinhaltet eine Unterscheidung in Messung momentaner Reaktionen, Messung dauerhafter Gedächtnisreaktionen und Messung finaler Verhaltenswirkungen (vgl. hierzu Steffenhagen 1999). Damit zielt das Kriterium auf die Wirkung des Werbemittels auf psychologische und ökonomische Zielgrößen. Momentane Reaktionen sind Vorgänge, welche sich im unmittelbaren Anschluss an den Werbemittelkontakt beim Rezipienten abspielen. Dazu gehören z.B. Aktivierung, Aufmerksamkeit, Wahrnehmung, Anmutungen. Dauerhafte Gedächtnisreaktionen sind Inhalte des Langzeitgedächtnisses, welche aufgrund des Kontakts mit einem Werbemittel geprägt bzw. verändert werden. Dazu gehören Variablen wie Wissen, Interesse, Einstellung, Kaufabsicht. Schließlich beinhalten finale Verhaltensreaktionen das Informations-, Kauf- und Verwendungsverhalten. Die wichtigsten psychologischen Zielgrößen der Werbung sollen hier der Vollständigkeit halber kurz skizziert werden (vgl. ausführlich z.B. Trommsdorff/ Teichert 2011; Kroeber-Riel/ Weinberg/ Gröppel-Klein 2013, S. 55 ff.): Aktivierung: Erregungszustand des Zentralnervensystems, durch den der Organismus mit Energie versorgt und in einen Zustand der Leistungsfähigkeit und Leistungsbereitschaft versetzt wird. Die Aktivierung ist eine Voraussetzung für die Aufmerksamkeit eines Individuums gegenüber einem bestimmten Reiz (z.B. einer Werbebotschaft). Aufmerksamkeit: Vorübergehende Erhöhung der Aktivierung, wodurch das Individuum gegenüber bestimmten Reizen sensibilisiert wird. Aufmerksamkeit führt bei simultanem Auftreten mehrerer Stimuli zur Reizauswahl; aus diesem Grunde muss Werbung Stimuli bieten, die Aufmerksamkeit erzielen, da sie ansonsten unbeachtet bleibt. Wahrnehmung: Kognitiver Prozess der Informationsgewinnung durch Aufnahme bestimmter Reize. Die Wahrnehmung erfolgt subjektiv, d.h. die objektiven Reize werden vom Individuum verarbeitet und interpretiert. Zudem erfolgt die Wahrnehmung selektiv, d.h. es werden nur solche Reize wahrgenommen, welche zuvor Aufmerksamkeit erregt haben. Involvement: Wahrgenommene Wichtigkeit eines Stimulus bzw. persönliche Bindung eines Individuums gegenüber einem Stimulus. Involvement ist mit einem inneren Zustand der Aktivierung verbunden und besitzt eine verhaltensanregende Kraft. Das Involvement ist stets auf einen bestimmten Reiz gerichtet (z.B. Produkt, Person, Situation, Aufgabe, Verhalten etc.). Hohes Involvement bedeutet eine besonders intensive innere Beteiligung des Konsumenten und ist verbunden mit aktiver Informationssuche, aktiver Auseinandersetzung, hoher Verarbeitungstiefe, stark verankerter Einstellung, hoher Gedächtnisleistung sowie Ansprechbarkeit durch rationale Argumentation. Den Regelfall in Werbung und Marketing bildet allerdings Low- Involvement, d.h. eine nur geringe innere Beteiligung der Werbeadressaten; aus diesem Grunde ist in den meisten Fällen eine eher emotionale kommunikative Ansprache der Zielpersonen angebracht. <?page no="433"?> 434 Werbeforschung Einstellung: Relativ stabile, gelernte innere Bereitschaft eines Individuums, auf bestimmte Stimuli konsistent positiv oder negativ zu reagieren. Die einstellungsbildende Wirkung medialer Angebote hängt von zahlreichen Variablen ab, u.a. von der Glaubwürdigkeit, Aufmachung und Überzeugungskraft des Mediums, aber auch vom Involvement des Rezipienten. Nach dem Wissensstand der Testpersonen wird zwischen offenen und verdeckten Versuchsanordnungen unterschieden (vgl. hierzu auch die Ausführungen in Abschnitt 2.1 im 3. Teil). Während bei einer offenen Versuchsanordnung den Testpersonen die Untersuchungssituation bewusst ist, wird im Rahmen einer verdeckten Versuchsanordnung die Untersuchungssituation verschleiert, sodass ein Beobachtungseffekt vermieden wird. Nach dem zu testenden Werbemittel wird z.B. zwischen Anzeigentest, TV-Spot-Test, Plakattest usw. unterschieden. Die Unterscheidung ist insofern bedeutsam, als die Versuchsanordnungen je nach Gegenstand des Tests z.T. modifiziert werden müssen. Schließlich beinhaltet das Kriterium des Stadiums der Erstellung des Werbemittels eine Unterscheidung in Konzepttest und Gestaltungstest. Während Konzepttests in einem frühen Stadium der Werbemittelentwicklung auf der Grundlage von Layouts oder Storyboards erfolgen, werden Gestaltungstests auf der Basis fertig gestellter Werbemittel durchgeführt. Im Allgemeinen bieten Marktforschungsinstitute den Auftraggebern ein Gesamtportfolio an Verfahren an, sodass ein Werbemittel von der ersten Konzeption bis zum Posttest evaluiert werden kann. Abbildung 8.6 zeigt das Werbemitteltest- Spektrum am Beispiel von Kantar TNS (vormals: TNS Infratest). Abb. 8.6: Das Werbemitteltest-Portfolio von Kantar TNS (Quelle: TNS Infratest 2010) 3.3.2 Werbemittelpretests Pretests werden vor Einsatz des Werbemittels durchgeführt; damit handelt es sich durchweg um Labortests. Pretests umfassen Konzepttests und Gestaltungstests und Entwicklungsprozess Kampagnenschaltung Phase Optimierung Controlling Aufgabe Werbemittel (-konzept) Gesamtkampagne Stimulus Angebotspositionierung Positionierung mit kreativer Inszenierung Kampagnen- Medieneffizienz Kontinuierliche Wirkung Überprüft Argumentations-/ Ideen-Screening Kommunikations- Konzept-Test Pre-Test Media-Kontaktpunkt- Optimierung Marken- und Werbetracking / Post-Test Methode AdEval TM -System AdEffect TM / MCA TM BPO Tracking TM TNS Tool Verknüpfung der Wirkungsanalysen durch AdEval TM -Skala <?page no="434"?> Werbemittelforschung 435 können sowohl mit offener als auch mit versteckter Versuchsanordnung durchgeführt werden. Pretests werden auch als Copy-Tests bezeichnet. Grundsätzlich werden in Pretests unterschiedliche Aspekte eines Werbemittels überprüft. Hierzu werden die Probanden in ein Teststudio eingeladen, und es wird ihnen das zu testende Werbemittel - ggf. in Verbindung mit weiteren Werbemitteln - dargeboten. Zunehmend erfolgen Werbemitteltests aber auch in Form von Online-Befragungen. Konzepttests werden nicht mit fertigen Werbemitteln, sondern mit Entwürfen durchgeführt. Nach Vorlage des Entwurfs werden die Probanden befragt, ob z.B. die Besonderheiten des Produkts klar, prägnant und überzeugend kommuniziert werden. Vielfach werden auch einzelne Elemente getestet, z.B. Anzeigenmotiv oder Slogan. Üblicherweise werden dabei Scribbles oder Storyboards zugrunde gelegt. Gestaltungstests werden mit fertigen Werbemitteln durchgeführt. Im Rahmen von Gestaltungstests werden Verfahren der explorativen Analyse (mit offener Versuchsanordnung) und Verfahren mit verdeckter Versuchsanordnung unterschieden. Bei explorativen Testverfahren werden die einzelnen Elemente des Werbemittels detailliert analysiert. Typischerweise wird das Werbemittel den Probanden zunächst kurzzeitig vorgelegt, um erste spontane Eindrücke und Anmerkungen zu erfahren. Anschließend wird das Werbemittel erneut auf Dauer vorgelegt; die Probanden werden detailliert nach den einzelnen Elementen des Werbemittels gefragt, nach dem Verständnis der Werbebotschaft, den ausgelösten Emotionen und Assoziationen usw. Typischerweise werden folgende Zielgrößen erfasst: Durchsetzungsstärke (Wahrnehmung im Vergleich zu Werbemaßnahmen von Wettbewerbern, Aufmerksamkeitspotenzial), Ermittlung spontaner „Likes“ und „Dislikes“, Verständnis der Werbebotschaft, Erinnerung (Anzeigenerinnerung, Produkterinnerung, Markenerinnerung, Erinnerung an einzelne Elemente des Werbemittels, (spontane) Attraktivität des Werbemittels (Gefallen), Emotionale Wirkung des Werbemittels (Eindruck, Sympathie), Spontane Assoziationen, Glaubwürdigkeit des Inhalts / der Botschaft, Markenimage, Identifikationspotenzial mit der Marke, Generierung von Interesse für die Marke, Motivierung (z.B. Kauf- oder Nutzungsabsicht). Darüber hinaus erfolgt eine allgemeine Beurteilung des Werbemittels anhand z.B. einer Notenskala, die Erstellung eines Profils mit Hilfe eines Polaritätenprofils u.a. Auch kann das Werbemittel im Konkurrenzumfeld getestet werden. Abbildung 8.7 zeigt die an die AIDA-Regel orienterte Grundstruktur des Werbemitteltests bei Hopp Marktforschung. Unterstützt werden explorative Testanordnungen durch apparative Verfahren (vgl. ausführlich die Darstellung in Abschnitt 2.2.2 im 3. Teil). Gebräuchliche technische <?page no="435"?> 436 Werbeforschung Hilfsmittel sind Hautwiderstandsmessung, Tachistoskop und Blickaufzeichnung. Zunehmend bieten Unternehmen auch Facial Coding und implizite Messverfahren an. Abb. 8.7: Werbewirkungsmodell und Auswertungslogik bei Hopp Marktforschung (Quelle: https: / / www.hopp-marktforschung.de/ loesungen/ werbung/ werbemitteltest/ ) Die Hautwiderstandsmessung (elektrodermale Reaktion, GSR) ist ein Verfahren zur Messung der Aktivierung. Das Verfahren beruht darauf, dass auf bestimmte Reize (z.B. Kontakt mit einem Werbemittel) die Schweißdrüsen von Händen und Fußsohlen reagieren, was zu einer Veränderung des Hautwiderstands führt. Erfasst wird die Spannungsverschiebung mittels angebrachter Elektroden. Das Verfahren basiert darauf, dass die ausgelösten Aktivierungen des Zentralnervensystems, welche sich in der elektrodermalen Reaktion zeigen, registriert werden. Die zu testenden Werbematerialien können dadurch in Abhängigkeit von der ausgelösten Aktivierungswirkung im Hinblick auf Anregungswirkung, Aufnahmebereitschaft und Verarbeitung von Informationen erfasst werden (vgl. ifuma 2004a, o. S.). Bei Werbemitteln mit zeitlicher Ausdehnung, also insb. Fernseh- oder Hörfunkspots, kann die Aktivierung eindeutig auf bestimmte Sequenzen zurückgeführt werden, wodurch Ansatzpunkte für die Verbesserung des Spots ersichtlich werden. Beim Anstieg der mit GSR gemessenen Aktivierung wird gleichzeitig die Bereitschaft zur Aufnahme und Verarbeitung einer Information erhöht. Da das Verfahren nur das Niveau der Aktivierung messen kann, nicht aber, ob es sich um eine positive oder negative Reaktion handelt, ist es sinnvoll, das Verfahren in Kombination mit anderen Methoden zu verwenden. Im Anschluss an die experimentelle Erhebung erfolgt daher meist zusätzlich eine Befragung, um spontane Eindrücke, Anmutungen, Emotionen und Assoziationen, welche vom Werbemittel ausgelöst werden, zu eruieren. Durchsetzungsstärke Spontane Attraktivität Aufmerksamkeitsstärke im Umfeld Aufmerksamkeitsverteilung Erinnerung Erinnerungsleistung Erinnerungsqualität Zugeschriebene Produkteigenschaften Beurteilung Gesamtgefallen Gefallensmerkmale Missfallensmerkmale Präferiertes Motiv Aktivierung Emotionale Eigenschaften Weiterempfehlungsbereitschaft Motivierung Nutzungsabsicht Für jeden der fünf Leistungsbereiche wird ein Indexwert ermittelt. Die Bewertung der Bereiche erfolgt immer relativ zum Benchmark. Die Gesamtbewertung ist der Mittelwert aller fünf Indizes. Für jedes Testmotiv werden Indizes je Leistungsbereich und ein Gesamtindex angegeben Gesamtbeurteilung eines Testmotivs = Mittelwert der 5 Leistungsbereiche <?page no="436"?> Werbemittelforschung 437 Ein Tachistoskop ist ein Projektionsgerät, mit dem es möglich ist, im Rahmen eines Werbemitteltests die Darbietungszeit von Werbemitteln auf bis zu 0,0001 Sekunden zu verkürzen. Durch stufenweise Verlängerung der Darbietungszeit und anschließende Befragung der Testpersonen kann festgestellt werden, welche Elemente des Werbemittels jeweils wahrgenommen werden (vgl. ausführlich Dabic et al. 2008). Dies erlaubt Rückschlüsse auf die ersten Anmutungen eines Werbemittels bei der in der Realität häufig anzutreffenden sehr kurzen Betrachtungsdauer von Werbemitteln (bei einer Anzeige durchschnittlich 2 s). Beispiel 8.9: Ergebnisse einer tachistoskopischen Untersuchung Anzeigen, die bei längerer Betrachtungsdauer positive Anmutungen hervorrufen, können bei sehr kurzer Darbietungszeit gegenteilige Wirkungen hervorrufen. Während beispielsweise eine tachistoskopische Untersuchung der abgebildeten anonymisierten Marlboro-Anzeige ergab, dass immerhin 50 % der Probanden schon bei kurzer Darbietungszeit die Anzeige korrekt der Marke Marlboro zuordneten, waren die ersten Eindrücke bei der Lancôme-Anzeige eher verwirrend. Beispielsweise wurde das Lippenmotiv von 20 % der Probanden fälschlicherweise als Schlange erkannt, was für die Marke eher schädlich sein dürfte. Quelle: Dabic/ Schweiger/ Ebner 2008 Bei der Blickaufzeichnung (Blickregistrierung, Eye Tracking) handelt es sich um ein apparatives Testverfahren zur Feststellung des Blickverlaufs bei der Betrachtung eines Werbemittels. Hierdurch kann ermittelt werden, welche Elemente wie lange und in welcher Reihenfolge betrachtet werden. Die Blickaufzeichnung erfolgt mit Hilfe einer Spezialbrille, welche den Blickverlauf anhand der Pupillenbewegungen registriert, oder mit Hilfe einer versteckten Kamera. Darüber hinaus besteht die Möglichkeit, eine Kamera in einem PC-Bildschirm zu integrieren, sodass die Augenbewegungen beim Betrachten eines Spots, einer Anzeige oder einer Website exakt, aber völlig unauffällig für den Probanden erfasst werden können. Die Intensität der Betrachtung wird i.d.R. mittels <?page no="437"?> 438 Werbeforschung sog. Heatmaps visualisiert, bei welchen besonders intensiv (z.B. > 200 ms) betrachtete Bereiche eines Werbemittels rot dargestellt werden, kaum beachtete blau. Neben der Reihenfolge und Intensität wird auch erfasst, welche Anteile der Probanden welche Anzeigenelemente wahrgenommen haben. Im Rahmen von Blickaufzeichnungen werden sog. Sakkaden und Fixationen ermittelt. Sakkaden zeigen die Blickbewegung, d.h. Sprünge zwischen den einzelnen Elementen eines Werbemittels (Headline, Bild, Bodycopy, Markenname etc.). Hierdurch wird die Reihenfolge deutlich, in welcher die einzelnen Elemente betrachtet werden. Zwischen den Sakkaden ruht das Auge für ca. ½ Sekunde auf den einzelnen Elementen (Fixationen). Solche Fixationen sind das eigentlich interessierende Kriterium der Blickaufzeichnung, da nur während einer Fixation werbliche Informationen aufgenommen werden können (vgl. Schweiger/ Schrattenecker 2017, S. 379). Unter anderem kann hierdurch ermittelt werden, welcher Anteil der Probanden den Markennamen oder das Produkt tatsächlich wahrgenommen hat. Darüber hinaus liefert die Gesamtheit der Fixationen für eine Anzeige Hinweise für Interesse oder Involvement der Probanden (vgl. ifuma 2004b, o.S.). Abb. 8.8: Ergebnisse eines Anzeigentests mittels Eye Tracking (Quelle: interne Ergebnisse) Abbildung 8.8 zeigt die Ergebnisse eines Tests der Kampagne der Bundeswehr 2016/ 2017. Die Ergebnisse zeigen, dass männliche wie weibliche Probanden den Slogan und das Bundeswehrlogo wahrnehmen. Der Hubschrauber wird nur von den männlichen Probanden beachtet. Auch die abgebildeten Personen (Arzt und Patient) Frauen Männer <?page no="438"?> Werbemittelforschung 439 erhalten von Frauen weniger Aufmerksamkeit als von Männern. Dies zeigt insgesamt, dass die Motivwahl Männer eher anspricht als Frauen. Durch Facial Coding ist es möglich, Emotionen zu erfassen, die für die Bewertung von Werbestimuli eine große Bedeutung haben, über explizite Verfahren aber nur schwer zu erheben sind. Beim Facial Coding werden kleinste Bewegungen in den Gesichtsmuskeln, die mit dem Gefühlszustand einer Person verbunden sind, gemessen und interpretiert. Diese Facial Expressions spiegeln den Gefühlszustand einer Person wider und lassen dadurch Rückschlüsse auf damit verbundenes Verhalten und Einstellungsänderungen zu. Die Grundlage für die Messung sind die folgenden sieben Basisemotionen: happiness, sadness, disgust, fear, anger, contempt und surprise. Diese werden auf einer Skala mit einem Wert zwischen 0 und 1 gemessen, wobei 0 die Abwesenheit der Emotion und 1 das vollkommene Vorhandensein der jeweiligen Emotion repräsentiert. Die eigentliche Messung der Facial Expressions wird über sogenannte Action Units vorgenommen. Es gibt 44 Action Units, die mit den 27 Gesichtsmuskeln zusammenhängen. Die Bewegung jedes einzelnen Punkts wird analysiert und zu einem Gesamtbild der Emotion zusammengelegt. Durch Kombination der verschiedenen Action Units lassen sich so Tausende unterschiedlicher Gesichtsausdrücke beschreiben (vgl. ausführlich McDuff et al. 2014). Zur Erfassung der Imagewirkung von Werbemitteln werden zunehmend implizite Messverfahren eingesetzt. Mittels impliziter Befragung können Entscheidungen des Gehirns erfasst werden, die automatisch entstehen, ohne dass der Proband diese bewusst steuert. Um Einstellungen und Werte von Probanden zu ermitteln bieten sich reaktionszeitbasierte Verfahren an (vgl. Abschnitt 2.2.2 im 3. Teil), bei denen der Befragte schnell und spontan reagieren soll. Beispielsweise werden Imageattribute in Verbindung mit der beworbenen Marke präsentiert, und der Proband muss per Tastendruck angeben, ob das Attribut zur Marke passt oder nicht. Dies ist vor allem dann sinnvoll, wenn teils unbewusste und nicht reflektierte Assoziationen abgefragt werden sollen. Implizite Verfahren erlauben die Erfassung von Meinungen und Empfindungen, die über die bewussten expliziten Aussagen der Befragten hinausgehen und somit tiefere Einblicke in deren Sichtweisen ermöglichen. Ein weiterer Vorteil ist, dass die Ergebnisse nicht durch soziale Erwünschtheit oder andere Verzerrungsfaktoren beeinflusst werden. Verdeckte Versuchsanordnungen der Werbemittelforschung umfassen quasi-biotische und biotische Versuchsanordnungen und beinhalten insb. Verfahren wie Foldertest, Illustriertenversandtest und Wartezimmertest. Im Rahmen eines Foldertests wird dem Probanden eine Mappe mit ca. 15 - 20 Anzeigen vorgelegt, in welcher auch die zu testende Anzeige enthalten ist. Im Anschluss daran werden insb. Anzeigen- und Markenerinnerung erfragt. Bei einem Illustriertenversandtest werden den Testpersonen präparierte Exemplare einer Zeitschrift geschickt, in welchen die zu testende Anzeige enthalten ist. Die anschließende Befragung erfolgt analog. Schließlich erfolgt im Rahmen eines Wartezimmertests eine verdeckte Leseverhaltensbeobachtung (Compagnon-Verfahren). Die Testperson wird mit Hilfe einer versteckten Kamera beim Lesen einer Zeitschrift beobachtet. Die Kamera erfasst die Zeitschrift, die auf einem Glastisch liegt, und das Gesicht der Testperson, das eine bestimmte Anzeige betrachtet und sich in der Tischplat- <?page no="439"?> 440 Werbeforschung te spiegelt. Im Anschluss daran kann im Rahmen eines Recall-Tests die Erinnerung der Testperson an die Anzeige überprüft werden (vgl. Bruhn 2015, S. 556). Weitere Verfahren mit - zumindest teilweise - verdeckter Versuchsanordnung versuchen, im Studio die Situation beim Fernsehen zu simulieren, um die Wirksamkeit von Werbespots zu überprüfen. Diese werden in ein redaktionelles Umfeld eingebunden, um die Testsituation zu verschleiern. 3.3.3 Werbemittelposttests Werbemittelposttests werden zur Erfolgskontrolle von Werbekampagnen eingesetzt. Sie erfolgen üblicherweise als Feldtests. Die Werbewirkung wird anhand verschiedener Kriterien gemessen, z.B.: Erinnerung des Werbemittels, Markenerinnerung bzw. Markenbekanntheit, Einstellung zum Produkt, Kaufabsicht. Am gebräuchlichsten ist die Messung der Erinnerungswirkungen eines Werbemittels; hierbei wird zwischen Recall- und Recognition-Tests unterschieden (vgl. Schweiger/ Schrattenecker 2017, S. 395 f.). Ein Recall-Test ist ein Verfahren zur Feststellung der Erinnerung der Werbeadressaten an eine Werbemaßnahme. Beim Unaided Recall (ungestützt) werden die Testpersonen danach gefragt, an welche Werbemittel (z.B. Anzeigen im zuletzt genutzten Exemplar einer Zeitschrift) sie sich spontan erinnern; beim Aided Recall (gestützt) erfolgt eine Unterstützung z.B. durch Vorlage der Marken, die im Werbeträger beworben wurden. Zur Überprüfung von Fernsehspots wird häufig der sog. Day-After-Recall eingesetzt, im Rahmen dessen die Testpersonen am Tag nach der Ausstrahlung danach befragt werden, ob sie sich an den Spot erinnern und wenn ja an welche Elemente. Eine Sonderform des ungestützten Recall-Tests ist der Impact-Test. Beim Impact-Test handelt es sich um einen Werbetest zur Messung des Werbeeindrucks beim Rezipienten nach Stärke und Intensität. Folgende Fragestellungen sind Gegenstand eines Impact-Tests: Welche Werbeobjekte in einem Werbeträger beworben wurden, Beschreibung der bei der Testperson erinnerten Werbemittel, Eindrücke der vermittelten Werbebotschaft. Der Recognition-Test ist hingegen ein Verfahren zur Messung der Wiedererkennung eines Werbemittels insb. im Printbereich. Der Testperson wird ein Werbemittel mit der Frage vorgelegt, ob sie es schon einmal wahrgenommen hat. Beim kontrollierten Recognition-Test werden in einem Folder sowohl publizierte als auch nicht publizierte Anzeigen vorgelegt, um die Täuschungsquote aufzudecken. Zur Messung der Einstellung können die verschiedenen, in Abschnitt 1.4.3 des 3. Teils dargestellten Skalierungsverfahren herangezogen werden. Die Messung der Kaufabsicht kann ebenfalls durch Befragung ermittelt werden. Relevante Kennziffern der Werbeerfolgskontrolle sind darüber hinaus der Share of Mind und der Share of Voice (vgl. Fantapié Altobelli 2011, S. 559): <?page no="440"?> Werbemittelforschung 441 Der Share of Mind bezeichnet den Anteil der vom eigenen Streuplan erzielten Kontakte pro Zielperson an den von den Streuplänen der Mitbewerber erzielten Kontakten pro Zielperson. Diese Kennziffer misst die Effizienz des eigenen Streuplans im Vergleich zur Konkurrenz. Der Share of Voice ist ebenfalls eine Kennziffer für die Effizienz der eigenen Werbemaßnahmen. Er errechnet sich als erreichte Zielgruppenkontakte der eigenen Marke in Relation zu den Gesamtkontakten der Branche für die betreffende Produktkategorie. Wird die Werbewirkung laufend erhoben und den Werbeaufwendungen gegenübergestellt, liegt ein Werbetracking vor. In regelmäßigen Abständen werden Wellenerhebungen auf Grundlage repräsentativer Stichproben durchgeführt, um die zentralen Werbewirkungsgrößen im Zeitablauf zu erfassen. Dadurch können rechtzeitig Korrekturen vorgenommen werden. Seit Herbst 2015 bietet die GfK mit der Plattform „Experience Effects On Demand“ ihren Kunden auch die Möglichkeit, selbstständig und in Echtzeit auf Daten zugreifen können, um bereits während der Kampagnenlaufzeit Informationen zu Wahrnehmung und Effektivität der Kampagne abrufen zu können. Mit Hilfe intuitiver Dashboards und Visualizer können die Kunden die Daten eigenständig analysieren (vgl. GfK 2015). <?page no="442"?> 4 Preisforschung 4.1 Gegenstand der Preisforschung Definition Preisforschung beinhaltet die systematische Sammlung, Aufbereitung und Interpretation von Informationen als Grundlage für Preisentscheidungen. Im Mittelpunkt der Preisforschung stehen Analysen von Preiswahrnehmungen und Reaktionen von Kunden auf Preisänderungen. Grundsätzlich kann die Preisbestimmung kostenorientiert, wettbewerbsorientiert sowie nachfrageorientiert erfolgen. Eine valide und fundierte Preispolitik ist dabei ausschließlich durch die dritte Variante möglich, da nur eine nachfrageorientierte Preisbestimmung die Zahlungsbereitschaft der Kunden in angemessener Weise berücksichtigen kann. An der nachfrageorientierten Preisbestimmung setzt die Preisforschung an. Zentrale Fragestellungen in der Preisforschung sind (vgl. Wildner 2003, S. 5): Ermittlung der Akzeptanz von Preisen; Ermittlung von Reaktionen auf Preisänderungen (Preiselastizitäten, Preisabsatzfunktionen); Ermittlung der Preisbereitschaft für alternative Produktausstattungen (conjointbasierte Verfahren). Methodisch steht der Preisforschung das gesamte Spektrum der Marktforschung zur Verfügung: Befragung, Beobachtung, Panelerhebungen, Experimente. Im Folgenden werden für die einzelnen Fragestellungen der Preisforschung ausgewählte methodische Ansätze vorgestellt. 4.2 Ermittlung der Akzeptanz von Preisen Die erste Fragestellung der Preisforschung besteht in der Ermittlung akzeptabler Preise für ein gegebenes Produkt, d.h. von Preishöhen, welche von einer Mehrheit der (potenziellen) Konsumenten als angemessen betrachtet werden. Anwendung finden diese Verfahren häufig im Rahmen der Preisfindung für Neuprodukte. Üblicherweise erfolgt die Ermittlung akzeptabler Preise auf der Grundlage sog. Preistests. Hierbei wird unterschieden zwischen (vgl. Lange 1972, S. 128 ff.): Preisbereitschaftstest, Preisschätzungstest, <?page no="443"?> 444 Preisforschung Preisklassentest und Preisreaktionstest. Ziel eines Preisbereitschaftstests (auch: preisbezogener Akzeptanztest) ist die Ermittlung der Bereitschaft der Probanden, das Produkt zu einem vorgegebenen Preis zu kaufen. Da die dokumentierte Kaufbereitschaft und die tatsächliche Kaufhandlung häufig abweichen, wird im Rahmen der Befragung ein zeitlicher Bezug der Kaufentscheidung durch Fragezusätze wie z.B. „in nächster Zeit“ hergestellt, um eine realitätsnähere Abbildung zu gewährleisten (vgl. Lange 1972, S. 121). Die Realitätsnähe kann zusätzlich gesteigert werden, indem die Probanden in eine tatsächliche Kaufentscheidungssituation versetzt werden. Den Probanden wird in diesem Fall das Testprodukt probeweise überlassen; anschließend wird im Rahmen eines Labortests ermittelt, ob und ggf. in welcher Stückzahl das Produkt zu einem vorgegebenen Preis von den Testpersonen erworben wird (vgl. Bauer 1981, S. 207 ff.). In der Praxis hat sich die Abfrage der Preisbereitschaft nach dam Gabor-Granger-Modell durchgesetzt (vgl. Gabor/ Granger 1964). Die Methode basiert auf einer direkten Preisbfrage. Beispielhafte Fragen sind (vgl. Adler 2003, S. 6): Wie viel wären Sie bereit, für dieses Produkt maximal zu zahlen? Bei welchem Geldbetrag wäre es Ihnen gleichgültig, ob Sie das Produkt kaufen oder das Geld behalten? Abb.8.9: Beispielhafter Preistest nach dem Gabor-Granger-Modell (Quelle: Intervista AG o.J., o.S.) Den Probanden werden verschiedene Preispunkte vorgelegt und sie müssen angeben, ob sie das Produkt zum jeweiligen Preis kaufen würden oder nicht. Um strategisches Verhalten zu vermeiden wird dabei empfohlen, pro Proband nur wenige Preispunkte 0 % 20 % 40 % 60 % 80 % 100 % CHF 5.90 CHF 4.90 CHF 3.90 78 % 22 % 13 % 65 % 22 % 34 % 31 % 22 % 13 % 31 % sind nicht bereit, das Produkt für den niedrigsten Preis zu kaufen Das Potenzial für das Premium Pricing liegt bei 22 % CHF 5.90 CHF 3.90 CHF 4.90 Keine Zahlungsbereitschaft <?page no="444"?> Ermittlung der Akzeptanz von Preisen 445 abzufragen. Abbildung 8.9 zeigt das Ergebnis eines Preisbereitschaftstest beim Schweizer Marktforschungsinstitut Intervista AG. Andere Institute wie z.B. Ipsos nehmen eine zusätzliche Dimension auf, z.B. die Packungsgröße, wodurch die Probanden in eine realistischere Entscheidungssituation versetzt werden, da sie keine isolierten Preise, sondern Preis-Mengen-Kombinationen bewerten. Ziel eines Preisschätzungstests ist die Ermittlung der subjektiven Preisvorstellungen der Konsumenten. Den Befragten wird zunächst das Produkt vorgelegt - je nach Phase des Produktentwicklungsprozesses entweder das fertiges Produkt, die Verpackung oder eine Zeichnung (ggf. am Computerbildschirm). Anschließend werden die Probanden gebeten, den Preis für das Produkt zu schätzen. Die Preisvorstellungen der Befragten werden schließlich mit den realen bzw. anvisierten Preisen verglichen. Schätzen die Probanden z.B. den Preis höher ein, als er tatsächlich verlangt wird, ist dies ein Hinweis auf unausgeschöpfte Preisspielräume. Im Rahmen eines Preisklassentests wird das Produkt den Testpersonen probeweise überlassen. Anschließend werden die Probanden danach gefragt welchen Preis sie höchstens für das Produkt zu zahlen bereit wären, und welcher Preis zumindest zu fordern ist, damit die Probanden nicht an der Qualität des Produkts zweifeln. Auf diese Weise resultiert für jeden Probanden eine Preisspanne, innerhalb derer er bereit ist, das Produkt zu kaufen. Der angemessene Preisbereich für den Gesamtmarkt resultiert durch Aggregation der individuellen Preisspannen. Abbildung 8.10 zeigt mögliche Ergebnisse eines (fiktiven) Preisklassentests. Preis Personen, für die der Preis von € … den höchsten annehmbaren Preis darstellt Personen, für die der Preis von € … den niedrigsten noch annehmbaren Preis darstellt Anteil der potenziellen Käufer in € % % kumul. % % kumul. % 4,49 0 0 4 4 4 4,99 0 0 26 30 30 5,49 3 3 45 75 75 5,99 21 24 15 90 87 6,49 45 69 7 97 73 6,99 28 97 3 100 31 7,49 3 100 0 100 3 Abb. 8.10: Beispiel für einen Preisklassentest Bei einem Preis von € 6,49 sind 97 % der Käufer der Meinung, der Preis sei nicht zu niedrig; allerdings ist dieser Preis für 24 % der Käufer zu hoch. Die Differenz der beiden Werte (73 %) gibt den Anteil der Auskunftspersonen an, welche das Produkt zu diesem Preis kaufen würden. Im Beispiel hat der Preis von 5,99 die höchste Akzeptanz, da 87% der Käufer diesen Preis zahlen würden. Im Rahmen von Preisreaktionstests hat sich insb. der Price Sensitivity Meter nach Van Westendorp (1976) bewährt (vgl. Wildner 2003, S. 6 ff.). Das Produkt wird zunächst den <?page no="445"?> 446 Preisforschung Probanden vorgestellt. Anschließend werden die Befragten gebeten, die folgenden vier Preise zu nennen: Preis, der gerade noch als günstig wahrgenommen wird; Preis, der als relativ hoch, aber noch vertretbar bewertet wird; Betrag, ab dem der Preis zu hoch wird; Betrag, ab dem der Preis so niedrig ist, dass Zweifel an der Qualität entstehen. Abb. 8.11: Preisreaktionstests nach Van Westendorp Die Auswertung erfolgt in kumulierter Form (vgl. Abb. 8.11). Der Preisreaktionstest führt zu folgenden Ergebnissen: Preisuntergrenze (Point of Marginal Cheapness): Diese resultiert als Schnittpunkt der Kurven „zu billig“ und „relativ hoch”. Eine Preissenkung unterhalb dieses Preises ist zu vermeiden, da der Anteil der Probanden, die das Angebot als zu billig beurteilen, über den Anteil derjenigen steigt, welche den Preis als zu hoch empfinden. Preisobergrenze (Point of Marginal Expensiveness): Sie resultiert als Schnittpunkt der Kurven „noch günstig” und „zu teuer”. Eine Preiserhöhung über diesen Punkt hinaus hat zur Folge, dass der Anteil derjenigen, welche das Produkt für zu teuer halten, über den Anteil derjenigen steigt, die es als noch günstig erachten. Akzeptabler Bereich: Der akzeptable Bereich liegt zwischen der Preisober- und der Preisuntergrenze. Preise innerhalb dieses Bereichs werden von einer breiten Mehrheit der Verbraucher akzeptiert. Anteil der Befragten (%) 100 50 75 25 2 4 Preis in € Point of marginal cheapness Point of marginal expensiveness Zu billig (Frage 4) Noch günstig (Frage 1) Relativ hoch (Frage 2) Zu teuer (Frage 3) 6 Akzeptabler Bereich <?page no="446"?> Ermittlung von Reaktionen auf Preisänderungen 447 An den hier dargestellten Verfahren wird vor allem kritisiert, dass sich der Proband in einer künstlichen Entscheidungssituation befindet; häufig besteht daher eine hohe Diskrepanz zwischen angegebener Zahlungsbereitschaft und tatsächlichem Kaufverhalten. Darüber hinaus sind diese Tests meist monadisch angelegt, wodurch Vergleichsmöglichkeiten mit z.B. Konkurrenzprodukten fehlen. Schließlich erlauben die Verfahren lediglich Aussagen darüber, ob bestimmte Preise durchsetzungsfähig sind. Die absatz- oder umsatzmäßigen Auswirkungen auf Preisveränderungen (Preiselastizitäten) können durch solche Verfahren nicht ermittelt werden. 4.3 Ermittlung von Reaktionen auf Preisänderungen Zur Prognose der Auswirkungen von Preisänderungen auf den Absatz werden verschiedene Verfahren eingesetzt, welche die Ermittlung von Preiselastizitäten und Preisabsatzfunktionen zum Gegenstand haben. Grundlage hierfür sind die individuellen Zahlungsbereitschaften der Konsumenten. Eine Preisabsatzfunktion erhält man durch die Aggregation der individuellen Zahlungsbereitschaften (vgl. ausführlich Adler 2003, S. 27 ff.). Hierzu stehen folgende Verfahren zur Verfügung (vgl. Abb. 8.12): Schätzung auf der Grundlage von Kaufdaten, Schätzung auf der Grundlage von Befragungen und Schätzung auf der Grundlage von Kaufangeboten. Abb. 8.12: Verfahren zur Ermittlung individueller Zahlungsbereitschaften 4.3.1 Ermittlung auf der Grundlage von Kaufdaten Kaufdaten (revealed preference data) bilden die Datenbasis für die Modellierung des Zusammenhangs zwischen Preishöhe und Absatzwirkung. Ist dies erfolgt, so kann für jede Preisänderung im untersuchten Preisbereich ihre Wirkung auf die Absatzmenge prognostiziert werden. Die erforderliche Datenbasis kann einerseits durch Vergangenheitsdaten (i.d.R. Scannerdaten) geliefert werden, andererseits durch eigens durchgeführte Preisexperimente. Bei Vergangenheitsdaten handelt es sich üblicherweise um Paneldaten, welche kontinuierlich von Marktforschungsinstituten erhoben werden (vgl. zu Panels ausführlich Teil 4). Die in der Vergangenheit geforderten Preise und die zugehörigen Absatzmengen lassen sich in ein Preis-Mengen-Diagramm eintragen. Durch die resultierende Punktewolke kann mit Hilfe der Regressionsanalyse (vgl. Abschnitt 3.4.1 im 6. Teil) eine Regressionsgerade angepasst werden (vgl. Abb. 8.13). Verfahren zur Ermittlung der Zahlungsbereitschaft der Nachfrager Kaufdaten Vergangenheitsdaten Preisexperimente Kaufangebote Auktionen Lotterien Expertenbefragungen Konsumentenbefragungen Befragungen <?page no="447"?> 448 Preisforschung Abb. 8.13: Preisabsatzfunktion auf der Basis von Vergangenheitsdaten Für eine valide Schätzung der Preisabsatzfunktion ist darauf zu achten, dass die in der Vergangenheit geforderten Preise eine ausreichende Streuung aufweisen. Ansonsten können die beobachteten Veränderungen der Absatzmenge nicht zuverlässig auf Preisänderungen zurückgeführt werden. Aus diesem Grunde werden die Paneldaten nicht in aggregierter Form zugrunde gelegt (z.B. Gesamt und nach Geschäftstypen gegliedert), sondern sie werden nach sog. Subsegmenten weiter differenziert. Dadurch kann eine höhere Streuung des Preises erhoben werden. Entscheidend für die Modellierung ist weiterhin, dass möglichst alle relevanten Variablen in die Analyse einbezogen werden (insb. Konkurrenzpreise und Sonderpreisaktionen des Handels für das eigene Produkt sowie für Konkurrenzprodukte). Da die Modelle mit zunehmender Variablenzahl tendenziell instabil werden, hat es sich in der Praxis bewährt, mehrere Variablen zu sog. Metavariablen zusammenzufassen (vgl. Wildner 2003, S. 9 ff.). Vorteilhaft an dieser Methode sind die hohe externe Validität, die Schnelligkeit der Auswertung (ca. 4 Wochen) sowie die niedrigen Kosten (ca. 20.000 € zzgl. Datenbezug). Nachteilig sind die i.d.R. geringe Variationsbreite des Preises sowie die Beschränkung auf solche Produkte, für welche regelmäßig Paneldaten erhoben werden (vor allem Konsumgüter des täglichen Bedarfs). Mit Hilfe von Preisexperimenten werden die Auswirkungen von Preisänderungen auf die Absatzmenge untersucht. Häufig erfolgen Preisexperimente im Rahmen von Store- Tests, wobei zwischen Längsschnittanalysen und Querschnittanalysen unterschieden werden kann. Im Rahmen von Längsschnittanalysen wird der Preis im Zeitablauf (z.B. in einem Supermarkt) systematisch variiert und es werden die resultierenden Absatzmengen erfasst. Hingegen werden im Rahmen von Querschnittsanalysen in verschiex p 200 100 1000 2000 <?page no="448"?> Ermittlung von Reaktionen auf Preisänderungen 449 denen Testgeschäften zum selben Zeitpunkt unterschiedliche Preise getestet. Die daraus resultierenden Preis-Mengen-Daten können wie Vergangenheitsdaten regressionsanalytisch ausgewertet werden. Als vorteilhaft ist hier zum einen die reale Feldsituation zu nennen; darüber hinaus lässt sich i.A. eine größere Bandbreite an Preisen untersuchen als bei Vorliegen von Vergangenheitsdaten. Allerdings wird die Variationsbreite der zu testenden Preise i.d.R. durch die einbezogenen Handelsunternehmen begrenzt; insb. der Test von Preiserhöhungen scheitert an der mangelnden Kooperationsbereitschaft des Handels, da er negative Auswirkungen auf das Image bei seinen Kunden fürchtet. Aus diesem Grunde wurden alternative Verfahren entwickelt, welche (teilweise) als Laboruntersuchungen stattfinden. Dazu gehört beispielsweise GfK*PriceChallenger. Beispiel 8.10: Der GfK*PriceChallenger Der GfK*PriceChallenger beruht darauf, dass die Probanden Markenwahlentscheidungen unter Berücksichtigung der Preishöhe treffen müssen, wodurch versucht wird, eine reale Kaufsituation zu simulieren. Zunächst wird für jeden Befragten bei der betreffenden Produktkategorie der Relevant Set ermittelt, d.h. die Produkte, die für einen Kaufgrundsätzlich in Frage kommen. Mit den Produkten des Relevant Set erfolgt anschließend eine Preissimulation, d.h. für unterschiedlich kombinierte Preisstufen der ausgewählten Produkte muss der Befragte angeben, welches bzw. welche Produkte er in dieser Situation kaufen würde. Die Daten werden zur Ermittlung von Kaufwahrscheinlichkeiten auf der Grundlage eines multinominalen Logit-Choice-Modells herangezogen. Die Wahrscheinlichkeit, dass der Befragte i das Produkt j kauft, P ij lässt sich wie folgt schätzen: ≠ − + − ⋅ β + = j k )] p p ( ) u u [( ij j k ik ij e 1 1 P mit u ij u ik = Nutzen des Produkts j bzw. k für Person i, p j , p k = Preis für Produkt j bzw. k, β = Parameter, der die Form der Preisabsatzfunktion steuert und die generelle Preiselastizität in der betrachteten Produktkategorie widerspiegel