Phonetik und Phonologie
Ein Lehr- und Arbeitsbuch
0814
2023
978-3-8233-9337-5
978-3-8233-8337-6
Gunter Narr Verlag
Felicitas Kleber
10.24053/9783823393375
Dieses Buch führt in die Lehre sprachlautlicher Kommunikation auf phonetischer und phonologischer Ebene ein. Neun Kapitel beschreiben Form und Funktion von Einzellauten und Silben aus artikulatorischer, akustischer, perzeptiver und phonologischer Sicht, ebenso die Prozesse, denen sie auf Wort- und auf Phrasenebene unterliegen. Neben dem deutschen Lautsystem werden auch Laute anderer Sprachen und sprachübergreifende Aspekte besprochen sowie Schnittstellen mit anderen sprachwissenschaftlichen Gebieten thematisiert.
Das Lehr- und Arbeitsbuch richtet sich an Studierende der Phonetik, Sprachwissenschaft und einzelner Philologien sowie an Studierende anderer Fächer, die einen Einblick in das Forschungsgebiet bekommen möchten. Übungsaufgaben, Besprechungen klassischer Experimente und signalphonetische Beispielanalysen mit ausgewählten Sprachverarbeitungstools und anhand eines Übungskorpus machen es gerade für das Selbststudium zu einem wertvollen Begleiter. Ergänzt wird das Buch durch online verfügbare Audiobeispiele, zusätzliche Kapitel, phonetische Analysen und Musterlösungen.
<?page no="0"?> Mit Zusatzmaterial ISBN 978-3-8233-8337-6 Dieses Buch führt in die Lehre sprachlautlicher Kommunikation auf phonetischer und phonologischer Ebene ein. Neun Kapitel beschreiben Form und Funktion von Einzellauten und Silben aus artikulatorischer, akustischer, perzeptiver und phonologischer Sicht, ebenso die Prozesse, denen sie auf Wort- und auf Phrasenebene unterliegen. Neben dem deutschen Lautsystem werden auch Laute anderer Sprachen und sprachübergreifende Aspekte besprochen sowie Schni�stellen mit anderen sprachwissenschaftlichen Gebieten thematisiert. Das Lehr- und Arbeitsbuch richtet sich an Studierende der Phonetik, Sprachwissenschaft und einzelner Philologien sowie an Studierende anderer Fächer, die einen Einblick in das Forschungsgebiet bekommen möchten. Übungsaufgaben, Besprechungen klassischer Experimente und signalphonetische Beispielanalysen mit ausgewählten Sprachverarbeitungstools und anhand eines Übungskorpus machen es gerade für das Selbststudium zu einem wertvollen Begleiter. Ergänzt wird das Buch durch online verfügbare Audiobeispiele, zusätzliche Kapitel, phonetische Analysen und Musterlösungen. Kleber Phone�k und Phonologie Phone�k und Phonologie Ein Lehr- und Arbeitsbuch Felicitas Kleber 18337_Umschlag_bel.indd 1-3 18337_Umschlag_bel.indd 1-3 14.07.2023 10: 00: 28 14.07.2023 10: 00: 28 <?page no="1"?> Dr. Felicitas Kleber ist wissenschaftliche Mitarbeiterin am Institut für Phonetik und Sprachverarbeitung der Ludwig-Maximilians-Universität München und hält Seminare und Vorlesungen im Bereich Phonetik, Phonologie und Sprachperzeption. 18337_Umschlag_bel.indd 4-6 18337_Umschlag_bel.indd 4-6 14.07.2023 10: 00: 28 14.07.2023 10: 00: 28 <?page no="2"?> narr STUDIENBÜCHER <?page no="4"?> Felicitas Kleber Phonetik und Phonologie Ein Lehr- und Arbeitsbuch <?page no="5"?> DOI: https: / / doi.org/ 10.24053/ 9783823393375 © 2023 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetztes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikro‐ verfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor: innen oder Herausgeber: innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor: innen oder Herausgeber: innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich. Internet: www.narr.de eMail: info@narr.de CPI books GmbH, Leck ISSN 0941-8105 ISBN 978-3-8233-8337-6 (Print) ISBN 978-3-8233-9337-5 (ePDF) ISBN 978-3-8233-0269-8 (ePub) Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. www.fsc.org MIX Papier aus verantwortungsvollen Quellen FSC ® C083411 ® <?page no="6"?> 7 9 1 13 1.1 13 1.2 22 1.3 32 1.4 35 1.5 44 2 49 2.1 49 2.2 59 2.3 62 2.4 72 3 77 3.1 77 3.2 90 3.3 99 3.4 102 4 119 4.1 119 4.2 121 4.3 154 4.4 180 4.5 183 4.6 189 5 197 5.1 197 5.2 210 Inhalt Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hinweise zur Lektüre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einführung und Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Was ist Phonetik? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Was ist Phonologie? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Phonetische Form und phonologische Funktion . . . . . . . . . . . . . . . . . . Transkription: Vom Laut zur Schrift und zurück . . . . . . . . . . . . . . . . . . Zwei Disziplinen, ein Buch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Artikulation und Phonation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anatomie und Physiologie des Sprechapparats . . . . . . . . . . . . . . . . . . . Artikulationsstellen und -organe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Luftstrommechanismen, Phonation und Stimmqualität . . . . . . . . . . . . Artikulatorische Phonologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sprachakustik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grundlagen der Sprachakustik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Akustische Phonetik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Akustische Phonologie? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Werkzeuge der Sprachverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Konsonanten und Vokale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pulmonale Konsonanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vokale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Approximanten (Halbvokale) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Koartikulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distinktive Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Merkmale und natürliche Klassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vollspezifikation und Unterspezifikation . . . . . . . . . . . . . . . . . . . . . . . . <?page no="7"?> 5.3 213 5.4 217 6 221 6.1 221 6.2 231 6.3 243 6.4 247 6.5 252 7 255 7.1 255 7.2 259 7.3 262 7.4 278 7.5 279 8 285 8.1 285 8.2 292 8.3 298 9 327 9.1 327 9.2 332 9.3 342 357 379 Distinktive Merkmale des Deutschen . . . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Silbenphonologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Autosegmentale Repräsentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Prinzip der Onset-Maximierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Sonoritätsprinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Phonologische Prozesse und Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Notation phonologischer Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Phonologische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lexikalische und postlexikalische Prozesse . . . . . . . . . . . . . . . . . . . . . . Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sprachperzeption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anatomie und Physiologie des Gehörs . . . . . . . . . . . . . . . . . . . . . . . . . . Psychoakustik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Auditive Sprachwahrnehmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prosodie und Intonation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wortprosodie und Wortbetonung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Satzprosodie und Intonation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Register . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Inhalt <?page no="8"?> Vorwort Das vorliegende Buch ist nach mehrjähriger Lehrtätigkeit am Institut für Phonetik und Sprachverarbeitung (IPS) der LMU München entstanden, die u. a. eine Einfüh‐ rungsvorlesung und Begleitübung in die Phonetik und Phonologie umfasst. An den Veranstaltungen nehmen bis heute neben Hauptfachstudierenden des BA-Studien‐ ganges Phonetik und Sprachverarbeitung auch Studierende der Sprachwissenschaft, Sprachtherapie und diverser philologischer Fächer teil, d. h. Studierende sehr un‐ terschiedlich geprägter Fächer. Während die Phonetik eine eigenständige Disziplin darstellt, ist die Phonologie Teil der Sprachwissenschaft. Dies ist ein Grund, aus dem häufig getrennt in die beiden Disziplinen eingeführt wird, wobei man nie ganz ohne die jeweils andere auskommt. In beide Disziplinen zusammen eingeführt wird hingegen oftmals im Rahmen einzelsprachlicher, philologischer Betrachtungen, wobei dort dann naturgemäß bestimmte Phänomene der Sprache oder Sprachfamilie im Vordergrund stehen und in phonetische und phonologische Teilgebiete nicht vertiefend eingeführt wird. Ziel des Buches ist es, beide Disziplinen sprachunabhängig und vertiefend, aber parallel vorzustellen (wenn auch aus Sicht einer Phonetikerin), deren Wechselbeziehungen Einsteiger: innen darzulegen und die Einführung durch viele Übungen zu ergänzen. Aufgrund der durchgängig parallelen Einführung ergeben sich Schwerpunkte einerseits in der linguistisch orientierten (deskriptiven) Phonetik und andererseits in der sogenannten Laborphonologie - vertiefende signalverarbeitende Analysen und formalphonologische Ansätze stehen nicht im Fokus dieses Buches. Das Buch richtet sich sowohl an Studierende der Phonetik, Linguistik und anderer neusprachlicher Fächer mit linguistischem Anteil als auch an Studierende anderer Fä‐ cher wie Psychologie, Pädagogik, Kognitionswissenschaften, die einen ersten Einblick in das Forschungsgebiet der gesprochenen Sprache bekommen möchten. Es handelt sich um ein Einführungsbuch, das als Begleitbuch zu einer Vorlesung genutzt, aber auch im Selbststudium durchgearbeitet werden kann. Abschnitte zur Vertiefung sind entsprechend gekennzeichnet (siehe hierzu die Hinweise zur Lektüre). Das Buch wäre nicht ohne die fortwährende Unterstützung meiner Kolleg: innen aus dem IPS und der Forschungsgemeinde sowie von Freunden und Familie entstanden, die in vielfältiger Weise die Infrastruktur gelegt und das Umfeld geprägt haben. Den Teilnehmer: innen der Lehrveranstaltungen danke ich für ihre kritischen Nachfragen, insbesondere zu den verwendeten Lehr- und Übungsmaterialien, die Eingang in das vorliegende Buch gefunden haben. Namentlich bedanken möchte ich mich hier insbesondere bei all jenen, die erste Versionen des Buches in Auszügen gelesen und kommentiert haben (in alphabetischer Reihenfolge): Lia Saki Bučar Shigemori, Matthias Feldmann, Dorothee Kleber, Markus Jochim, Peter-Arnold Mumm, Oliver Niebuhr, Marianne Pouplier, Jasmin Rimpler, Stephan Schmid, Katharina Thon, Jürgen <?page no="9"?> Trouvain. Alle verbliebenen Fehler und Schwächen gehen natürlich auf die eigene Kappe. Ganz besonders bedanke ich mich zudem bei Dorothee Kleber für die Anfertigung der zahlreichen anatomischen Skizzen in diesem Buch sowie bei Tillmann Bub und Mareike Wagner für die Begleitung und Betreuung in der Entstehungsphase des Buches seitens des Verlages. München, im Februar 2023 Felicitas Kleber 8 Vorwort <?page no="10"?> Hinweise zur Lektüre Gemäß dem Ziel parallel in die Phonetik und Phonologie einzuführen, sind die neun Kapitel des Buches nicht in zwei Teile untergliedert, in der erst das eine und anschließend das andere Gebiet vorgestellt werden. Stattdessen wird im ersten Kapitel in beide Gebiete grundlegend und anschließend in verschiedene phonetische und phonologische Teilbereiche im Detail eingeführt. Die Reihenfolge hat dabei einen größ‐ tenteils aufbauenden Charakter, wobei in jedem der Kapitel sowohl auf phonetische als auch auf phonologische Aspekte eingegangen wird, auch wenn einzelne Kapitel Schwerpunkte in einem der beiden Gebiete haben. Die Reihenfolge der Kapitel ist in der Infobox zur Struktur des Buches dargelegt. Struktur des Buches: Kapitel 2 und 3 führen in artikulatorische und akustische Grundlagen und damit in zwei von drei phonetischen Teilgebieten ein, um zunächst die Basis für die artikulatorische und akustische Beschreibung der Sprachlaute in Kapitel 4 zu ermöglichen, die dort deren phonologische Einordnung ergänzt. Aber auch für die artikulatorischen und akustischen Definitionen der in Kapitel 5 vorgestellten distinktiven Merkmale sind artikulatorische und akustische Kenntnisse notwen‐ dig. Mit den distinktiven Merkmalen wird in Kapitel 5 ein vielen phonologischen Theorien zugrunde liegendes Klassifikationssystem präsentiert, das neben dem in den ersten vier Kapiteln eingeführten Internationalen Phonetischen Alphabet eine wichtige Rolle spielt. Distinktive Merkmale dienen nicht nur der Beschreibung einzelner Sprachlaute und Sprachlautklassen, sondern darüber hinaus auch der Notation allgemeiner phonologischer Regeln und Prozesse, die im Zentrum von Kapitel 7 stehen. Viele dieser Prozesse operieren auf der Silbenebene, die daher im vorausgehenden Kapitel 6 eingeführt wird. Aufgrund seines vertiefenden Charakters findet sich die Einführung in den dritten phonetischen Teilbereich, die auditive Sprachperzeption, erst in Kapitel 8, wobei viele der dort vorgestellten Sprachperzeptionstheorien phonologisch bedeutsam sind. Das Buch schließt mit einer Einführung in prosodische Aspekte gesprochener Sprache, die ihrerseits phonetisch und phonologisch analysiert werden können, und sich auch auf Einzellaute auswirken, die in den ersten Kapiteln im Vordergrund stehen. Trotz der aufbauenden Reihenfolge finden sich bereits ab dem zweiten Kapitel Unter‐ kapitel, die der Vertiefung dienen. Ihre Verortung im Buch ergibt sich aus der thema‐ tischen Zugehörigkeit. Diese gekennzeichneten, vertiefenden Unterkapitel sind so ge‐ schrieben, dass ein Verständnis auch dann möglich ist, wenn man das Buch in der hier getroffenen Kapitelreihenfolge liest. Denkbar ist aber auch, diese Unterkapitel (noch‐ <?page no="11"?> mal) zu lesen, nachdem die nicht vertiefenden Unterkapitel, insbesondere in Kapitel 1- 4, durchgearbeitet worden sind. Vertiefende Unterkapitel wie etwa das zur Artikula‐ torischen Phonologie (2.5) sind v. a. für das Verständnis der Silbe (Kapitel 6) sowie einiger Exkurse in Kapitel 7 wichtig. An den jeweiligen Stellen finden sich entspre‐ chende Querverweise, die ein gezieltes Lesen einzelner Abschnitte ermöglichen. Im Buch wird zudem an mehreren Stellen auf kurze Onlinekapitel verwiesen, die in der eLibrary des Verlages zur Verfügung stehen und die ebenfalls weiterführenden Charakter haben, sowie auf Audiodateien zum Anhören verschiedener im Buch aufge‐ führter Sprachbeispiele. Alle Zusatzmaterialien sind im Buch mit einem eindeutigen Hinweis am Seitenrand und einer Zusatzmaterialien-ID gekennzeichnet. Im eBook genügt ein Klick auf die ID, um auf die Zusatzmaterialien zugreifen zu können. Leser: innen des gedruckten Buchs erhalten mit ihrem Gutscheincode auf der zweiten Umschlagseite kostenfreien Zugriff auf das eBook und die Zusatzmaterialien zum Buch. Dort befinden sich des Weiteren begleitende Farbabbildungen, die in der Printversion schwarz-weiß gedruckt sind. Jedes Kapitel beginnt mit einem Abschnitt zu den Zielen, in dem in das Kapitel ein- (Kap. 1) bzw. übergeleitet (Kap. 2-9) wird und die jeweiligen Lernziele formuliert sind, und endet mit Übungsaufgaben sowie weiterführenden und vertiefenden Litera‐ turverweisen. Die Lösungen zu den Übungsaufgaben sind ebenfalls über entsprechende Zusatzmaterialien-IDs in der eLibrary abrufbar. Innerhalb der Kapitel finden sich außerdem symbolisch gekennzeichnete Definitionen, wobei besonders wichtige Begriffsdefinitionen durch Kästen hervorge‐ hoben sind, Merkboxen, in denen ausgewählte Lerninhalte zusammengefasst sind, Aufgaben, durch die bestimmte Aussagen durch Selbsttests überprüft werden können, Exkurse zur Vertiefung, die wiederum durch Kästen hervorgehoben sind. Neben Verweisen auf Fachliteratur, darunter für die beiden Gebiete wegweisende Klassiker, finden sich in den einzelnen Kapiteln auch immer Verweise auf andere Lehr‐ bücher. Gründe für die Querverweise auf andere Einführungsbücher sind einerseits die Annahme eines parallelen Arbeitens mit Einführungsbüchern und andererseits die Auseinandersetzung mit bestehenden theoretischen Annahmen anstelle der Präsenta‐ tion einer Theorie. Eine Einführung in die Phonetik und Phonologie lebt auch von vielen verschiedenen Sprachbeispielen. Da das Verständnis phonetischer und phonologischer Konzepte im 10 Hinweise zur Lektüre <?page no="12"?> Vordergrund steht, werden in dieser deutschsprachigen Einführung möglichst viele Beispiele aus dem Deutschen präsentiert. Diese werden um Beispiele aus anderen Spra‐ chen, insbesondere des europäischen Sprachraums ergänzt, um bestimmte Konzepte zu erklären sowie phonetisch-phonologische Parallelen und Unterschiede zwischen Sprachen aufzuzeigen. Den Sprachbeispielen sind in der Regel Verschriftungen der Aussprache und Übersetzungen beigefügt. Bei Beispielen aus dem Englischen, dessen Kenntnis vorausgesetzt wird, wird nur die Ausspracheverschriftung angegeben und bei Beispielen aus dem Deutschen findet sich nur in bestimmten Fällen eine Ausspra‐ cheverschriftung. Die im Buch beispielhaft genannten Sprachen und regionalen Varietäten (z. B. Mittel‐ bairisch oder amerikanisches Englisch) sind im Index gelistet, zusammen mit anderen einschlägigen Begriffen, die größtenteils nicht dem Inhaltsverzeichnis zu entnehmen sind. Bei seltenem Vorkommen werden alle Seiten genannt, auf denen die Sprache oder ein Begriff erwähnt wird. Bei häufigem Vorkommen wird hingegen nur die Seite mit der Ersterwähnung genannt. Deutsch und Englisch werden (mit Ausnahme der o. g. regionalen Varietäten) aufgrund ihres besonders häufigen Vorkommens nicht im Index gelistet, ebenso wie andere Begriffe, die sehr häufig im Buch vorkommen, z. B. Phonetik oder Phonologie (es sei denn im Kontext einer Theorie). Dem Inhaltsverzeichnis kann man die entsprechenden Seitenverweise entnehmen, in denen die Begriffe definiert sind. Hinweise zur Lektüre 11 <?page no="14"?> 1 Einführung und Grundlagen Einleitung und Ziele Gilt es eine schnelle Antwort auf die Frage zu finden, was denn Phonetik und Pho‐ nologie überhaupt seien, hilft - wie so oft - die Klärung der Begriffsbedeutung und Wortetymologie. Beide Wörter enthalten das altgriechische Wort phōnḗ (φωνή) für „Laut, Stimme, Klang, Ton“, das sich in abgewandelter Form in bekannten Wörtern wie Telefon oder Grammophon wiederfindet. Das Wortglied logie leitet sich von dem altgriechischen Wort lógos (λόγος) für „Lehre“ ab. Der Begriff Phonologie kann also mit Lautlehre übersetzt werden. Phonetik kann direkt aus dem altgriechischen Wort phōnētikós (φωνητικός) abgeleitet werden, das „zum Tönen, Sprechen gehörig“ bedeutet. Phonetik und Phonologie beschäftigen sich beide mit sprachlautlicher Kommunikation, aber - wie wir in diesem Kapitel feststellen werden - unter anderen Gesichtspunkten und unter Verwendung unterschiedlicher Herangehensweisen. Die konkreten Ziele des ersten Kapitels sind: • Einführung in die Gebiete der Phonetik und Phonologie und Definition grundlegender Fachbegriffe aus beiden Bereichen, • Aufzeigen von Unterschieden zwischen Phonetik und Phonologie und dem jeweiligen Bezug zum gemeinsamen Untersuchungsgegenstand, • Hinweise zur Transkription und zur Beziehung zwischen Sprachlauten und Buchstaben. Mit diesen Zielen wird einerseits eine erste Einführung in die Phonetik und Pho‐ nologie verfolgt, um so andererseits den Grundstock für die darauf aufbauenden nachfolgenden Kapitel zu legen. 1.1 Was ist Phonetik? Manche verbinden den Begriff Phonetik, der im Deutschen seit Beginn des 19. Jahr‐ hunderts belegt ist (vgl. „Phonetik“ in Pfeifer et al. 1993), vielleicht mit der korrekten Aussprache von Wörtern, die durch Verschriftung (Transkription) mit den Symbolen des Internationalen Phonetischen Alphabets (IPA) repräsentiert werden kann (s. 1.4). Sehr wahrscheinlich hat jede: r schon einmal die Zeichen des IPA, die in eckigen Klammern [] angegeben werden, in einem Wörterbuch gesehen. Um die IPA-Symbole eindeutig dekodieren zu können, ist phonetisches Wissen notwendig. Beides lernen wir im Verlauf dieses Buches kennen. Der Untersuchungsgegenstand der Phonetik umfasst jedoch weit mehr als nur die Beschreibung der Aussprache, zumal der korrekten. <?page no="15"?> Denn in der Phonetik muss zunächst einmal deskriptiv (= beschreibend) vorgegangen werden, bevor man dann in der angewandten Phonetik und Phonologie mitunter auch präskriptiv (= vorschreibend) arbeitet, z. B. im Fremdsprachenunterricht oder in der Sprachtherapie. Im Rahmen phonetischer Forschung wird also nicht unbedingt an Vorschriften für eine korrekte Aussprache von Wörtern einer Sprache gearbeitet, son‐ dern beispielsweise die Aussprache von Wörtern in zwei Dialekten einer Sprache oder die einzelner Laute in zwei Sprachen beschrieben. Eine alphabetisierte Gesellschaft stützt sich zwar oft auf eine normierte Schreibung, nicht aber unbedingt auf eine normierte Aussprache (trotz einiger Bestrebungen in diesem Bereich). Dies zeigt sich auch daran, dass der Begriff Orthoepie (= korrekte Aussprache) im Gegensatz zum Begriff Orthographie (= korrekte Schreibweise) sprachwissenschaftlichen Laien kaum bekannt ist. Ein Grund hierfür ist der Fokus auf die Schreibung in der schulischen Ausbildung; die Aussprache wird hingegen kaum thematisiert. Oft ist die Aussprache das Produkt der häufigsten Verwendung, die sich in einer Sprechergemeinschaft durch‐ setzt. Eine solche Verwendungsvariante kann sich dabei durchaus an prestigereichen Aussprachen, wie der von Nachrichtensprecher: innen orientieren, oft bleiben aber regionale Spuren in sprecherindividuellen Aussprachevarianten zurück, die sich teils deutlich von der orthoepischen Form unterscheiden. Auf Orthoepie wird in diesem Buch selten eingegangen, auf die nachfolgend definierten Begriffe synchron, diachron und Typologie dagegen öfter. Beschreibt man den Ist-Zustand einer Sprache und ihres Lautsystems zu einem Zeitpunkt spricht man von einer synchronen Betrachtung. Diachrone Betrach‐ tungen zeigen Änderungen innerhalb eines Sprachsystems, die Aussprache ein‐ geschlossen, über mehrere Jahre oder Generationen auf. Im Forschungsgebiet der (Sprach-)Typologie werden die Strukturen von Sprach- bzw. Lautsystemen synchron und diachron verglichen. Die phonetische Beschreibung kann dabei auf drei Ebenen erfolgen, der artikulato‐ rischen, akustischen und auditiven, und alle Laute, die in den Sprachen der Welt vorkommen und zum Sprechen verwendet werden, umfassen. Darüber hinaus werden Hypothesen geprüft, die beispielsweise helfen sollen, • die Ursachen für den diachronen Wandel von gesprochener Sprache über die Zeit (z.-B. Ohala 1993), • die Natur von Versprechern (z.-B. Pouplier & Hardcastle 2005), • Gründe für die Häufigkeit bzw. Seltenheit bestimmter Sprachlaute in den Sprachen der Welt (z.-B. Lindblom & Engstrand 1989; Stevens 1989) besser zu verstehen. Kurzum, die Phonetik erforscht ganz grundsätzlich alle Aspekte sprachlautlicher Kommunikation. Der Phonetiker Klaus J. Kohler definiert Phonetik wie folgt: 14 1 Einführung und Grundlagen <?page no="16"?> Der Gegenstand der Phonetik ist das Schallereignis der sprachlichen Kommunikation in allen seinen Aspekten, d. h. die Produktion, die Transmission und die Rezeption von Sprachschall einschließlich der psychologischen und soziologischen Voraussetzungen in der Kommunikationssituation zwischen Sprecher und Hörer, wobei sowohl symbolals auch meßphonetische Betrachtungsweisen dieses Objekt prägen. (Kohler 1995: 22) 1.1.1 Die Sprachkette Der erste Teil der in 1.1 nach Kohler zitierten Definition von Phonetik lässt sich auch gut durch die sogenannte Sprachkette (Engl. speech chain) in Abb. 1 darstellen, ein Begriff, der auf den gleichnamigen englischen Titel des Buches von Denes und Pinson (1973) zurückgeht. Sie bildet die grundlegenden Voraussetzungen für eine ungestörte und erfolgreich lautsprachliche Kommunikation ab, die da sind: 1. Eine sprechende Person, die aufgrund a. erlernten sprachlichen Wissens zunächst eine lautsprachliche Äußerung plant und diese mittels b. anatomisch-physiologischer und neuronal-muskulärer Voraussetzungen des Sprechapparates produziert, 2. wobei der sich daraus resultierende Sprachschall in Form akustischer Schallwellen über das Medium Luft ausbreitet und die 3. von mindestens einer hörenden Person wiederum aufgrund von a. anatomisch-physiologischen, neuronal-muskulären Voraussetzungen des Gehörs empfangen und b. erlernten sprachlichen Wissens dekodiert werden können. Die Sprachkette deckt damit auch die drei großen Teilgebiete der Phonetik ab, die sich jeweils mit einem der o. g. Punkte 1-3 der Sprachkette beschäftigt und die wir in diesem Buch u.-a. kennenlernen werden. Die artikulatorische Phonetik untersucht Fragen der Sprachproduktion, die akustische Phonetik Fragen der Schallübertragung und die auditiv-perzeptive Phonetik Fragen der Sprachwahrnehmung. 1.1 Was ist Phonetik? 15 <?page no="17"?> Abb. 1: Die Sprachkette mit einer sprechenden (links) und zwei hörenden Personen, von denen eine gleichzeitig die sprechende ist. Das Modell der Sprachkette weist Parallelen mit anderen Kommunikationsmodellen auf, wie z. B. dem Organon-Modell (Bühler 1934) oder dem Sender-Empfänger-Modell (Shannon & Weaver 1949). Im Gegensatz zu allgemeineren Kommunikationsmodellen liegt der Fokus hier jedoch auf den biologischen und physikalischen Grundlagen ge‐ sprochener Sprache. Gibt es in so einem lautsprachlich ungestörten Szenario nur eine hörende Person, so ist dies in der Regel zunächst der oder die Sprecher: in selbst; laut‐ sprachliche Kommunikation, so wie sie für uns selbstverständlich ist und unseren All‐ tag prägt, lebt vom auditiven Feedback, das man als Sprecher: in und zugleich Hörer: in erhält. Die Evolution gesprochener Sprache ist stark geprägt von diesem auditiven Feedback, denn hören wir uns selbst beim Sprechen nicht oder nicht gut genug, dann stört dies eine erfolgreiche Kommunikation (Hockett 1960; MacNeilage 2008). Diese Aussage kann man leicht prüfen, indem man sich einmal selbst beim Sprechen in einer lauten Umgebung beobachtet: in der Regel sprechen wir dann ebenfalls lauter (Lom‐ bard-Effekt), um besser verstanden zu werden - von unserem Gegenüber, vor allem aber auch von uns selbst. Auch wenn die Sprachkette mit einer hörenden Person funk‐ tioniert, so sind mindestens zwei Hörende die Regel in einer normalen lautsprachlichen Kommunikationssituation. Die Sprachkette symbolisiert zudem die dem Untersuchungsgegenstand inhärente Dynamik: Bei jedem Sprechvorgang, sei es bei einer Einlautäußerung wie einem erstaunten Oh! oder der Äußerung eines längeren Satzes, wird die gesamte Sprachkette in Bewegung gesetzt. Jeder Sprechvorgang ist daher grundsätzlich zeitgebunden, d. h. durch einen Beginn und ein Ende charakterisiert. Dies ist in Abb. 2 anhand eines akustischen Sprachsignals der Äußerung Oh! dargestellt. 16 1 Einführung und Grundlagen <?page no="18"?> Abb. 2: Segmentiertes und transkribiertes Sprachsignal der Äußerung Oh! . Die Intervalle können sich dabei natürlich deutlich unterscheiden, auch weil man sie auf unterschiedlichen Ebenen messen kann, so z. B. auf der Ebene der Gesamtäußerung (wie in Abb. 2) oder auf der Ebene einer einzelnen Artikulationsbewegung, die nur einen kleinen Teil zur Gesamtäußerung beiträgt (s. 2.4). Dies kann man wiederum leicht selbst testen, in dem man die Äußerung Oh! einmal wie in Zeitlupe äußert und dabei nur auf die Lippenbewegung achtet. Selbst bei einer so kurzen Äußerung müssen wir zu einem bestimmten Zeitpunkt damit beginnen, die Lippen bis zu einem gewissen Grad vorzustülpen und zu einem späteren Zeitpunkt wieder in die neutrale Ausgangs‐ lage zu bringen. Eine solche Geste ist dabei nur eine von vielen, die die unterschiedli‐ chen Organe des sogenannten Sprechapparates (s. 2.1) ausführen müssen, um diese Äußerung zu realisieren, egal ob nun langsam wie bei dieser kleinen Übung oder schnell wie bei normaler Sprechgeschwindigkeit. 1.1.2 Lautstrom und Sprachlaute Gesprochene Sprache ist durch einen komplexen Bewegungsprozess charakterisiert, dessen Produkt ein kontinuierlicher Lautstrom ist. Der Bewegungsprozess ist auch über die einzelnen Laute eines Wortes und sogar über die einzelnen Wörter eines Satzes hinaus kontinuierlich. Hängen wir beispielsweise an unser oh aus Abb. 2 noch ein ja an und produzieren beide Wörter abermals laut und langsam, so kann man wiederum leicht an sich selbst beobachten, wie graduell der Übergang zwischen den Lauten und in diesem Fall sogar Wörtern ist. Diese Beobachtung lässt sich verallgemeinern: Auch längere und komplexere Wörter und Sätze weisen ohne abrupte Grenzen zwischen den Lauten eine kontinuierliche Bewegung des Sprechapparates auf. Erst Pausen, egal wie lang, setzen dem Bewegungsfluss Grenzen. Diese Kontinuität zwischen Pausen kann man auch in der Darstellung der Sprachsignale in Abb. 3 erkennen, die die Äußerung oh ja genau einmal ohne Pause und einmal mit Pause vor genau zeigt. 1.1 Was ist Phonetik? 17 <?page no="19"?> Abb. 3: Segmentiertes und transkribiertes Sprachsignal der Äußerung Oh ja, genau. ohne (links) und mit (rechts) Pause vor genau. Auf der Website zum Buch kann man sich beide Äußerungen auch anhören. Wenn man zudem nur kleinere, mit den Einzellauten korrespondierende Abschnitte aus den Au‐ diodateien abspielt (z. B. mit den in 3.4 vorgestellten Programmen), wird man feststel‐ len, dass die Umgebungslaute immer etwas mitklingen (s. auch Onlinekapitel ‚Akus‐ tische Segmentierung‘). Auch diese visuellen und akustisch-auditiven Beobachtungen verdeutlichen die Kontinuität, die jeder Sprechbewegung zugrunde liegt. Um uns des kontinuierlichen Bewegungsprozesses bewusst zu werden, haben wir uns bislang auf langsame Sprechbewegungen konzentriert. In der Regel führen wir diese Bewegungen sehr viel schneller aus, auch bei normaler Sprechgeschwindigkeit. Die Sprechgeschwindigkeit hängt u. a. von äußeren Umständen ab, unter denen ein Sprechvorgang stattfindet. Ein markanter Unterschied besteht beispielsweise zwischen vorgelesener Sprache (= Lesesprache), die oft viele, relativ gleichmäßgig realisierte Wörter zwischen Atempausen umfasst und spontanen Äußerungen (= Spontan‐ sprache), die sowohl durch sehr schnelle als auch sehr langsame Sprechgeschwindig‐ keit charakterisiert sein kann (z. B., wenn wir während der Lautproduktion zögern). Phonetische Untersuchungen und Beschreibungen basieren oft auf Lesesprache, die man kontrolliert im Labor erheben kann. Gleichzeitig birgt Lesesprache die Gefahr, dass Schlussfolgerungen bezüglich der Phonetik auf einer überdeutlichen Aussprache basieren, die nur bedingt repräsentativ für die viel öfter genutzte Spontansprache sind. Beide Formen gesprochener Sprache haben jedoch gemeinsam, dass sie durch einen kontinuierlichen Lautstrom charakterisiert sind. Erst auf der Ebene der auditiven Wahrnehmung untergliedern wir als Hörende den Lautstrom, der in der Regel deutlich länger ist als das eben genannte oh-Beispiel, in einzelne Segmente unterschiedlicher Lautqualität. Kurzum, wir segmentieren den Lautstrom in Sprachlaute, die wiederum auch Buchstaben oder anderen Schriftsymbolen, wie etwa denen des IPA, zugeordnet werden können (s. 1.4). Die sogenannte Segmentierung und Etikettierung (letztere auch Annotation) von Sprachlauten 18 1 Einführung und Grundlagen <?page no="20"?> 1 Am Wortende wird der Buchstabe ⟨g⟩ als [k] realisiert, s. 4.2.1.2 und Auslautverhärtung in 7.3.1. kann sowohl auditiv als auch akustisch wie in Abb. 2 bzw. Abb. 3 erfolgen (s. Online‐ kapitel ‚Akustische Segmentierung‘). Ein Sprachlaut muss - ähnlich wie ein Wort auch - vier Bedingungen erfüllen: Ein Sprachlaut muss von den Sprecher: innen einer Sprechergemeinschaft erstens als solcher erkannt (Identifikation), zweitens von anderen Lauten unterschieden (Diskrimination) und drittens reproduziert (Reproduktion) werden können. Viertens muss er mit anderen Sprachlauten kombinierbar sein (Kombinierbar‐ keit). Anhand des folgenden Beispiels sei die Kombinierbarkeit von Sprachlauten erläutert. Für den Moment können dabei IPA-Symbole und Buchstaben als identisch betrachtet werden (s. aber 1.4.1). Das sprachlautliche System des Deutschen enthält u. a. die Laute [t], [a], [l], [ɡ] und [k]. Diese lassen sich wie folgt zu eindeutig identifizierbaren Wörtern des Deutschen kombinieren: alt [alt], kalt [kalt], Talg [talk] 1 und glatt [ɡlat]. Die mit bestimmten Lautkombinationen verknüpften Wortbedeutungen sind insofern arbiträr (d. h. willkürlich), als dass sich eine Bedeutung nicht direkt aus den Zeichen er‐ gibt, sondern die Verknüpfung sprachabhängig erlernt werden muss (s. Arbitrarität bei de Saussure 1916). Auch die Anordnung von Sprachlauten wirkt oft arbiträr, unterliegt aber bestimmten phonetischen Bedingungen und sprachspezifischen Regeln. Zu den phonetischen Bedingungen gehört etwa, dass eine Artikulation in einer bestimmten Zeit ausführbar und das daraus resultierende akustische Signal dekodierbar sein muss. Sprachspezifische Regeln, die etwa das Vorkommen einer Lautkombination in einer Sprache, nicht aber in einer anderen erfassen, sind u. a. Gegenstand der Phonologie (s. 1.2). Im Exkurs ‚Sprachlaute vs. nichtsprachliche Laute‘ werden Unterschiede zwischen verschiedenen Lauttypen dargelegt; im Verlauf des Buches wird der Begriff ‚Laut‘ dann synonym mit der Bedeutung ‚Sprachlaut‘ verwendet. Sprachlaute vs. nichtsprachliche Laute Sprachlaute sind ein Ergebnis der sprachlichen Evolution, bei dem der vom Menschen produzierte Lautstrom in einzelne Abschnitte untergliedert und kate‐ gorisiert wurde. Es handelt sich hierbei um jene Laute, die der Mensch zum Sprechen verwendet und die (1) identifizierbar, (2) diskriminierbar und (3) re‐ produzierbar sein müssen. Bedingungen (1) und (2) erfüllen auch andere von Menschen produzierbare Laute, wie etwa Husten, Grunzen, Niesen, Stöhnen, die einerseits (wieder)erkennbar und andererseits unterscheidbar sind. Mitunter trifft auch Bedingung (3) auf nichtsprachliche Laute zu, da sie in gewisser Weise repro‐ 1.1 Was ist Phonetik? 19 <?page no="21"?> 2 Die orthographische Repräsentation oh stellt in gewisser Weise auch eine symbolphonetische Repräsentation der Aussprache dieser Äußerung dar (s. aber 1.4.2). duzierbar sind, wenn auch nicht zu jedem Zeitpunkt und in ähnlich klingender Form. Die fehlende Steuerbarkeit nichtsprachlicher Laute stellt damit einen ersten Unterschied zu Sprachlauten dar. Ein weiterer entscheidender Unterschied besteht darin, dass nur Sprachlaute, die zunächst bedeutungslos sind, unterschiedlich kombiniert und somit vielfältige Wortbedeutungen eindeutig zum Ausdruck gebracht werden können. Genau darin liegt eine Besonderheit menschlicher Sprache und ein wichtiger Unterschied zu Kommunikationsformen, die andere Lebewesen entwickelt haben (s. hierzu auch Duality in Patterning bei Hockett 1960). 1.1.3 Symbolphonetik versus Signalphonetik Im zweiten Teil der in 1.1 genannten Definition verweist Kohler auf zwei Betrachtungs‐ weisen, die das Untersuchungsobjekt und das Fachgebiet der Phonetik prägen. Die Verwendung des IPA zur Transkription von Äußerungen kann als ein Beispiel für die Symbolphonetik genannt werden. Bei dieser Methode wird ein komplexer pho‐ netischer Vorgang, wie er in der Sprachkette skizziert ist, zu einem phonetischen Ereignis reduziert (Tillmann & Mansell 1980). Das gilt für die auditive Segmentierung eines längeren Lautstroms in einzelne Segmente genauso wie für die symbolphoneti‐ sche Transkription eines Einzellautes. Schlägt man oh in einem Aussprachewörterbuch (z. B. Krech et al. 2009) nach, so findet sich dort die Transkription oː wieder, wobei das erste Symbol o die Gesamtheit aller Gesten repräsentiert, die ein: e Sprecher: in ausführen muss um den Laut zu produzieren und das zweite Symbol ː darauf verweist, das die Dauer dieses Lautes lang ist. 2 Diese Reduktion erfolgt zudem oftmals durch eine hörende Person, die Sprache grundsätzlich subjektiv und damit mitunter auch etwas anders als eine andere hörende Person wahrnimmt, ungeachtet dessen, ob sie zuvor ein phonetisches Training erhalten hat oder nicht (vgl. Cucchiarini 1996). Dieses Vorgehen wird auch als Ohrenphonetik bezeichnet. Findet die ohrenphonetische Methode Anwendung, ist es grundsätzlich ratsam, die Übereinstimmung zwischen Transkribierer: innen auszuwerten, nicht nur um mögliche Fehler in einer Transkription aufzuspüren, sondern um die natürliche Variation zwischen subjektiv wahrnehmenden Personen herauszufiltern. Ohrenphonetik und das Problem der subjektiven Wahrnehmung Zweifelsohne führt ein phonetisches Training dazu, auch feine Unterschiede in der Aussprache wahrzunehmen. Es wird jedoch nicht verhindern können, dass selbst zwei Hörer: innen, die dasselbe phonetische Training erhalten haben, 20 1 Einführung und Grundlagen <?page no="22"?> 3 Die Beziehung zwischen subjektiver Wahrnehmung und objektiver Messung (akustischer) Signale wird in 8.2 näher vorgestellt. sich in der Wahrnehmung und sogenannten feinen phonetischen Transkription mehrerer Wörter (s. 1.4) zumindest leicht unterscheiden werden. Gründe hierfür sind sowohl biologisch-anatomische als auch biographische Unterschiede zwi‐ schen Hörer: innen, die die auditive Wahrnehmung prägen. Alle, die einen Kurs in phonetischer Transkription belegen, werden diese Erfahrung leicht selbst ma‐ chen. Aber auch der Blick auf andere Sinneswahrnehmungen wie die visuelle Farbwahrnehmung oder die taktile Druckempfindung verdeutlicht die Tatsache, dass Wahrnehmung an sich subjektiv ist. 3 Denn auch die Grenzen zwischen Farb‐ kategorien und Schmerzempfindung sind fließend, obwohl es natürlich auch ein‐ deutige Kategorien gibt. In ganz ähnlicher Weise können auch die Grenzen z. B. zwischen einem a und einem o fließend sein. Man denke dabei nur einmal an die sehr wahrscheinlich unterschiedlich ausfallende Einordung bairischeneines a-Lautes z.-B. durch eine dialektkompetente Hörerin aus Oberbayern, für die der Laut a-artiger klingen wird, im Vergleich zu Plattdeutschsprecherineiner aus Norddeutschland, für die sich derselbe Laut o-artiger anhören wird. Messphonetische Betrachtungsweisen kennzeichnen hingegen die sogenannte Signal‐ phonetik (auch Mess-, Instrumental- oder Experimentalphonetik), wobei z.B. • auf Seiten der Sprachproduktion die Zungenbewegung während eines Sprechvor‐ gangs, • auf akustischer Ebene Sprachsignale, wie sie in Abb. 2 dargestellt sind, und • auf Seiten der Sprachperzeption die Stimulation im Gehirn von Hörer: innen oder auch deren Reaktionszeit bei der Erkennung von Sprachlauten gemessen wird. Durch solch signalphonetische Messungen können nicht nur phonetisch-physikalische Vorgänge entlang der unterschiedlichen Bereiche des sogenannten signalphoneti‐ schen Bandes ganzheitlich erfasst werden (also neuronal, motorisch, (psycho-)akus‐ tisch, etc., vgl. Tillmann & Mansell 1980, Pompino-Marschall 2009: 14); sie ermöglichen auch die Loslösung vom wahrnehmenden Subjekt. Beide Methoden haben ihre Vorteile: Die symbolphonetische Methode eignet sich insbesondere für die phonologische Beschreibung von Lautsystemen oder erste explo‐ rative phonetische Untersuchungen. Für weiterführende Fragestellungen im Bereich der Sprachproduktion, -akustik und -perzeption eignet sich eher die signalphonetische Methode, da die Symbolphonetik feine phonetische Details aufgrund der Reduktion von Vorgängen zu Ereignissen und der subjektiven Variation nicht immer erfasst. Signalphonetische Methoden kommen in der Experimentalphonetik, aber auch in der sogenannten Laborphonologie zum Einsatz. 1.1 Was ist Phonetik? 21 <?page no="23"?> 1.2 Was ist Phonologie? Phonologie ist das Teilgebiet der Linguistik, d. h. der Sprachwissenschaft, das das systematische Vorkommen von Sprachlauten in einer bestimmten Sprache (s. 1.2.1), die regelhafte phonologische Variation in der Aussprache dieser Sprachlaute (s. 1.2.2) sowie die Kombinationsmöglichkeiten der Sprachlaute in dieser Sprache (s. 1.2.3) untersucht (für einen Überblick über andere linguistische Teilgebiete s. Abb. 7). Um dies zu untersuchen, orientiert man sich vor allem am realen Wortschatz einer Sprache oder auch eines Dialektes, der im sogenannten mentalen Lexikon der Sprecher: innen dieser Sprache bzw. dieses Dialektes organisiert ist, das für die Sprachverarbeitung entscheidend ist. Selbst wenn ein Wort (noch) keinen Wörterbucheintrag hat, können wir Wörter ganz oder zumindest teilweise erkennen und deuten. Mittels der in einer Sprache vorkommenden Sprachlaute können aber auch neue Wörter gebildet werden. Dies geschieht einerseits durch Produktivität, wonach mittels bestimmter Wortbildungselemente neue Wörter gebildet werden. Die Neubildung von Verben mit -en z. B. bei aus einer Fremdsprache entlehnten Wörter wie chatten ist ein Beispiel dafür. Andererseits können auch Wörter gebildet werden, die keinen Sinn ergeben (z. B. tass). Mit diesen auch als Logatome bezeichneten Nicht- oder Nonsens-Wörter können ebenfalls die Kombinationsmöglichkeiten von Sprachlauten sowie deren pho‐ nologische Variation in der Aussprache untersucht werden. Die drei nachfolgenden Abschnitte führen anhand von Zielformulierungen in die drei großen Bereiche der Phonologie ein. Die Ziele sind dabei nicht immer primär phonologisch; auch für phonetische, d. h. artikulatorische, akustische und auditive Beschreibungen ist das sprachabhängige systematische Vorkommen von Sprachlauten relevant. Die systemische Beschreibung eines sprachlautlichen Systems erfolgt jedoch in der Regel mittels phonologischer Konzepte. Der Linguist Andrew Spencer definiert Phonologie wie folgt: Phonology is concerned with the linguistic patterning of sounds in human languages. This means phonologists will be interested in all those aspects of sound production and perception which can be controlled (albeit unconsciously) by a mature native speaker in order to achieve a particular linguistic effect. It also means that phonologists are concerned with those abstract patterns in the sound systems of languages that have to be learned by a child (or indeed adult) acquiring the language. In this respect phonology is concerned with something psychological, mental, or in contemporary terms, cognitive. (Spencer 1996: 2) Insbesondere der letzte Punkt verdeutlicht zudem die Rolle der Phonologie in der auditiven Sprachwahrnehmung, mit der wir uns in Kapitel 8 beschäftigen. 1.2.1 Lautinventar, Opposition, Repräsentation Ein primäres Ziel der Phonologie ist es, das minimale Lautinventar einer Sprache zu bestimmen. Eine Sprache weist immer nur eine Teilmenge der Gesamtheit aller 22 1 Einführung und Grundlagen <?page no="24"?> 4 Aufgrund der Biografie weist jede: r Sprecher: in unterschiedliche sprachliche Erfahrungen auf, die sich auch auf die individuelle Aussprache auswirkt. Sprachlaute auf, die in den Sprachen der Welt zu finden sind. Eine phonologische Untersuchung eines sprachspezifischen Sprachlautsystems schließt daher auch das Nichtvorkommen von Sprachlauten mit ein. Um das systematische Vorkommen von Sprachlauten in einer Sprache zu erfassen, gilt es einerseits entscheidende Schalleigen‐ schaften aus dem kontinuierlichen und sprecherabhängigen Lautstrom zu extrahieren und dabei andererseits phonetische Variation zu filtern, die für eine systematische Sprachlautbeschreibung irrelevant ist. Das akustische Sprachsignal enthält Informationen, die für die Phonetik interes‐ sant, für die Phonologie hingegen redundant, d.-h. überflüssig, ist. Zur phonetischen Variation zählen sprecherspezifische oder situationsbedingte Aus‐ spracheunterschiede (s. den gleichnamigen Exkurs unten). Diese Form der Variation ist inhärenter Bestandteil phonetischer, nicht aber phonologischer Untersuchungen: Denn der Produktion unendlich vieler phonetisch unterschiedlicher Sprachlaute steht die auditive Identifikation und Diskrimination einer begrenzten Menge phonologischer Einheiten gegenüber. Für die Beschreibung des Lautsystems überflüssige Informatio‐ nen, Redundanzen, gilt es in der Phonologie herauszufiltern. Phonologisch modelliert werden muss allein sprachabhängige Variation; diese Form der phonologischen Varia‐ tion wird in 1.2.2 erklärt. Phonetische Variation Jeder Lautstrom ist hochgradig variabel. Selbst wenn sich hinter einem Lautstrom dieselbe Äußerung und derselbe Sprecher verbergen, so wird es doch Unterschiede in der konkreten Artikulation und infolgedessen der akustischen Ausprägung geben. Menschen sind grundsätzlich nicht in der Lage, ein und denselben Laut in identischer phonetischer Form zu reproduzieren, da es selbst bei sonst gleichen Umständen (z. B. Zeit, Kontext, Situation) immer zu leichten Unterschieden zwischen den in die Sprachlautproduktion involvierten Bewegungsabläufen ei‐ nerseits und dem komplexen Zusammenspiel aller an der Produktion beteiligten Organe kommen wird (s. Kap. 2). Zu diesen Intrasprecherunterschieden kommen noch Intersprecherunterschiede hinzu. Offenkundige Sprecherunter‐ schiede sind nicht nur zwischen Kindern und Erwachsenen oder Frauen und Männern zu beobachten, sondern auch innerhalb ansonsten homogener Spreche‐ rgruppen (z. B. bezüglich Geschlecht, Dialekt, etc.), allein schon aufgrund der sprecherspezifischen Anatomie und Biografie 4 , die jede: n Sprecher: in einzigartig 1.2 Was ist Phonologie? 23 <?page no="25"?> macht. Intersprecherunterschiede umfassen sowohl auffällige stimmliche Unter‐ schiede etwa in der Tonhöhe als auch mitunter weniger deutliche Unterschiede in der Aussprache. Keine dieser Unterschiede sind jedoch für die systematische Sprachlautbeschreibung relevant: Sie sind entweder nicht wahrnehmbar oder erwartbar bis vorhersagbar. Letztere dienen etwa der Sprechererkennung. Wir erkennen nicht nur bekannte Stimmen (am Telefon, im Radio, von Synchronspre‐ cher: innen), sondern sind auch bei unbekannten Stimmen in der Lage sogenannte indexikalische Informationen, die sowohl biologischer als auch sozialer Natur sein können, zu dekodieren (z. B. Geschlecht, Alter, Emotionen, etc.). Diese Informationen gelten in vielen phonologischen Theorien als redundant. Eine Ausnahme bilden hier exemplarbasierte phonologische Theorien, die in Kapitel 8 vorgestellt werden, da sie indexikalischen Informationen in der Worterkennung eine große Bedeutung beimessen. Mehrere Möglichkeiten sind denkbar, um herauszufinden, welche Sprachlaute eine Sprache systematisch verwendet: • In einem signalbasierten bottom-up-Ansatz, der bei unbekannten Sprachen in Frage kommt, könnte man den zunächst schwer zu segmentierenden Lautstrom in kleinere, auditiv unterscheidbare und reproduzierbare Abschnitte zerlegen und Folgendes prüfen: - Identifizieren Muttersprachler: innen dieser Sprache bei diesem Lautab‐ schnitt einen Sprachlaut, der in einem Wort vorkommt? Diese Frage zu beantworten, kann schwerfallen, da aus dem Kontext geschnittene Sprach‐ laute oft seltsam klingen (vgl. 1.1.2, s. 3.4) und die Kenntnis über das Sprachlaut-Konzept bei Laien nicht vorausgesetzt werden kann. - Ähneln diese akustischen Signalabschnitte bekannten Sprachlauten aus der eigenen Muttersprache? Problematisch ist dabei, dass große lautliche Unterschiede zwischen der eigenen Muttersprache und der Untersuchungs‐ sprache zu falschen oder fehlenden Sprachlautbestimmungen führen können und man letztendlich nicht weiß, wie diese Sprache die vermeintlichen Sprachlaute nutzt. Bei fremden Lauten fällt zudem deren artikulatorische Beschreibung schwer, wenn man über keine phonetischen Kenntnisse ver‐ fügt. • In einem systembasierten top-down-Ansatz, der die Kenntnis der Wörter einer Untersuchungssprache voraussetzt, kann man gezielt nach der in 1.1.2 genannten vierten Bedingung suchen, die ein Sprachlaut erfüllen muss, der Kombinierbarkeit mit anderen Sprachlauten. Geprüft wird dann, ob ein Austausch oder eine Kombi‐ nationsänderung zu neuen Wörtern führt. Dieser Ansatz ist in der Phonologie weit verbreitet und wird nachfolgend genauer erklärt. Dabei arbeiten wir hier und im Folgenden mit einer vereinfachten Definition des Konzeptes Wort. 24 1 Einführung und Grundlagen <?page no="26"?> Ein Wort ist eine selbstständige bedeutungstragende Einheit, das sich in der Regel aus mehreren Sprachlauten zusammensetzt. Ziel ist es, Wörter zu finden, die sich nur in einem Sprachlaut unterscheiden und somit ein Minimalpaar bilden (z. B. Bass vs. Pass). Die unterschiedlichen Sprachlaute (/ b/ und / p/ in unserem Beispiel) haben den Status eines Phonems, der kleinsten bedeutungsunterscheidenden und elementaren Einheit der Phonologie. Phoneme kor‐ respondieren auch mit den nicht vorhersagbaren, aber identifizierbaren, diskriminier‐ baren und reproduzierbaren Schalleigenschaften des Lautstroms (s. 3.3), stellen aber eine rein abstrakte bzw. mentale Einheit dar. Sie ist einerseits für die Beschreibung von Sprachsystemen und andererseits für die auditive Sprachwahrnehmung wichtig (s. Kap. 8). Die konkrete Realisierung bzw. materielle Umsetzung eines Phonems wird als Phon bezeichnet; jegliche phonetische Variation materialisiert sich erst im Phon. Das Phon wird mitunter auch als kleinste unterscheidbare Lauteinheit eines Lautstroms definiert und in der Psychoakustik stellt es eine Maßeinheit dar (s. 8.2). Mittels des o. g. signalbasierten bottom-up-Ansatzes könnte man demnach durchaus die Phone einer Sprache ermitteln, ohne dabei auf deren Funktion zur Bedeutungsunterscheidung in dieser Sprache einzugehen. Ein Phonem ist eine abstrakte Repräsentation eines Sprachlauts mit bedeutungs‐ unterscheidender (auch distinktiver) Funktion in einer Sprache. Phoneme werden zwischen Schrägstrichen / / angegeben. Phone sind die konkreten Realisierungen eines Phonems und werden in eckigen Klammern [] angezeigt. Phone weisen phonologisch irrelevante Variation auf. Erste - noch phonetische - Definitionen des Phonems als psychischer Einheit im Gegensatz zum (Sprach-)Laut finden sich bei Baudouin de Courtenay (1895) und seinem Schüler Kruszewski (1881). Unter anderem in den Arbeiten von Trubetzkoy (1939) wird das Phonem-Konzept um die funktionale Definition der Distinktivität (s. auch Kap. 5) bzw. Bedeutungsunterscheidung erweitert. Der unendlichen Anzahl tatsächlich produzierter Phone steht eine endliche, vergleichsweise niedrige Anzahl abstrakter Phoneme gegenüber, die Menschen auditiv identifizieren und diskriminieren können. Die phonologische Minimalpaaranalyse ist eine weit verbreitete Methode zur Bestimmung der einzelnen Phoneme einer Sprache (s. 1.4.1 für eine andere Mini‐ 1.2 Was ist Phonologie? 25 <?page no="27"?> malpaaranalyse). Beispielsweise entsprechen die Wörter fassen und Tassen einem phonologischen Minimalpaar, da sie sich nur in den Sprachlauten zu Beginn der Wörter unterscheiden. Mit diesem Minimalpaar kann einerseits die Existenz der Phoneme / f/ und / t/ im Deutschen und andererseits eine phonologische Opposition zwischen den beiden Phonemen in dieser Sprache belegt werden. Beide Phoneme ließen sich auch mit anderen Minimalpaaren ermitteln, in denen diese auch an anderer Position vorkommen können, z. B. voll vs. toll, laufen vs. lauten oder Ruf vs. ruht. Für die phonologische Minimalpaarbildung ist allein die Lautung der Wörter ausschlaggebend; Wortform oder Orthographie spielen hingegen keine Rolle. Ein phonologisches Minimalpaar ist ein Wortpaar, das sich in nur einem Phonem unterscheidet. Eine Minimalpaarreihe (auch Minimalreihe) ist eine Erweiterung des Minimalpaars um mindestens eine weiteres Wort, dass sich wiederum in einem Phonem an gleicher Position und ansonsten gleicher Lautung unterscheidet. Entscheidend ist jeweils allein die Lautung der Wörter. Mit der phonologischen Minimalpaaranalyse lassen sich alle Phoneme einer Sprache ermitteln. Diese bilden das Phoneminventar einer Sprache. Dabei können bisweilen viele Phoneme (1), jedoch nicht alle ausgetauscht werden: (1) Pein - kein - mein - nein - fein - sein - Hain - jein Die mittels der (unvollständigen) Minimalreihe in (1) erfassten Phoneme / p, k, m, n, f, s/ sind auch am Wortende phonologisch zu finden, wie die Minimalpaare bzw. Minimalpaar-Reihen in (2) zeigen. (2) schlapp - Schlamm - Lack - Lamm - lang - Reim - rein - Reif - Reis / h/ und / j/ kommen im Deutschen hingegen auf Phonemebene nicht am Wortende vor, dafür ein anderes Phonem, das wiederum nicht am Wortanfang phonologisch repräsentiert ist: Der letzte Sprachlaut im Wort lang aus Beispiel (2), der orthographisch durch zwei Buchstaben und im IPA durch / ŋ/ repräsentiert wird. Auch dieses Beispiel zeigt, dass man sich bei der Phonembestimmung mittels phonologischer Minimalpaar‐ analyse nicht von Orthographie leiten lassen darf. Für den Moment werden Buchstaben durch spitze Klammern ⟨⟩ angezeigt (s. aber 1.4.1 für eine leichte Revision dieser Notation). 26 1 Einführung und Grundlagen <?page no="28"?> Eine phonologische Opposition beschreibt die paradigmatische Beziehung zwi‐ schen Sprachlauten. Sind sie austauschbar und führen zu Bedeutungsunterschie‐ den, handelt es sich um Phoneme. Phoneme, die in einer Sprache nicht in allen Positionen eines Wortes - genauer genommen einer Silbe (s. Kap. 6) - vertreten sind, weisen eine defektive Verteilung (Engl. defective distribution) in dieser Sprache auf. Zwei Phoneme mit jeweils defek‐ tiver Verteilung können dann kein Minimalpaar bilden, wenn sie jeweils nur in der anderen Position vorkommen können, also im Deutschen / h/ und / ŋ/ , im Gegensatz zu / h/ und / j/ . Opposition und Kontrast Im europäischen Strukturalismus (s. Onlinekapitel ‚Wissenschaftsgeschichte‘) ist der Begriff Opposition nicht nur wie oben definiert, sondern bildet zudem einen Gegensatz zum Begriff Kontrast. Ein phonologischer Kontrast beschreibt dem‐ nach eine sogenannte syntagmatische Beziehung zwischen den Phonemen ei‐ nes Wortes, z. B. zwischen / f/ , / a/ , / s/ etc. in fassen. Die begriffliche Unterschei‐ dung verdeutlicht, dass in der gesprochenen Sprache einerseits der Kontrast zwischen benachbarten Elementen ausreichend sein muss, um beide Elemente rekonstruieren zu können (also z. B. / f/ vs. / a/ in fassen) und andererseits die Op‐ position zu anderen Wörtern zu verdeutlichen (also z. B. / f/ vs. / t/ in fassen vs. Tassen). Die Begriffe Opposition und Kontrast werden mitunter aber auch syn‐ onym im Sinne von Opposition verwendet. 1.2.2 Allophonie: Phonologische Variation Trubetzkoy, der als der Begründer der Phonologie als eigenständigem Teilgebiet der Linguistik gilt, unterscheidet in seinem Buch Grundzüge der Phonologie (1939) zunächst zwischen • distinktiven Sprachlauten wie / p/ , / f/ , oder / t/ , die vertauschbar sind und • indirekt distinktiven Sprachlauten, die nicht vertauschbar sind wie etwa / h/ und / ŋ/ . Beide Kategorien konstituieren jeweils Phoneme. Darüber hinaus gilt es eine dritte Kategorie zu berücksichtigen, laut Trubetzkoy (1939) die der • nicht distinktiven Sprachlaute, die nicht vertauschbar und phonetisch deutlich unterschiedlich sind, wie etwa am Wortende von dich und Dach. Der auch als ich-Laut bekannte Sprachlaut, im IPA durch / ç/ repräsentiert, kommt am Wortanfang vor Vokalen und am Wortbzw. Silbenende nach Vokalen wie ⟨i⟩ oder ⟨e⟩ 1.2 Was ist Phonologie? 27 <?page no="29"?> 5 Ähnlich den zwei Bedeutungen des Begriff Phon, so wird auch der Begriff Allophon mitunter anders verwendet. So sind etwa bei Bußman ( 3 2002) Allophone als Realisierungen von Phonemen definiert. vor, z. B. China, dich, oder Pech, der analog benannte ach-Laut, im IPA durch / x/ mit‐ unter auch durch / χ/ repräsentiert, nur nach Vokalen wie ⟨a⟩, ⟨o⟩ oder ⟨u⟩ (z.-B. Dach, doch, Buch). Welche Rolle Vokale in der Phonetik und Phonologie spielen und wie genau die Laute realisiert werden, die durch die unterschiedlichen IPA-Symbole repräsentiert werden, wird in Kapitel 2 und 4 eingehend thematisiert. Für den Moment genügt allein die Vorstellung der Lautung, die wir mit diesen Buchstaben im Deutschen verbinden, sowie die Beobachtung, dass zwei deutlich unterschiedliche Sprachlaute in bestimmten Sprachlautkontexten vorkommen. Die Kontexte sind in den Bezeichnungen ichvs. ach-Laut Teil der Lautbeschreibung, obwohl damit jeweils nur der Laut erfasst werden soll, der orthographisch durch ⟨ch⟩ repräsentiert wird. Aufgrund der kontextbedingten Verteilung handelt es sich bei den beiden Sprachlauten nicht um Phoneme, sondern um sogenannte komplementär verteilte Allophone. Eine komplementäre Verteilung oder auch Distribution (Engl. complementary distribution) trifft dabei ausschließlich auf jene Allophone zu, die nicht austauschbar sind. Allophone selbst lassen sich - unabhängig davon, ob sie austauschbar sind oder nicht - wie folgt definieren. Die Beziehung zwischen Phonem, Allophon 5 und Phon ist in Abb. 4 dargestellt. Ein Allophon ist eine phonetische Variante eines Phonems. Weist ein Phonem mehr als ein Allophon auf, dann ist es entweder komplementär oder frei verteilt. Allophone werden in eckigen Klammern angegeben, nehmen aber einer Zwi‐ schenstellung zwischen der abstrakt-phonologischen und konkret-phonetischen Ebene ein. Hier werden sie der abstrakten Ebene zugeordnet, da Allophone oft phonologisch, mit Blick auf ihre Rolle innerhalb eines Lautsystems analysiert und definiert werden. Allophonie beschreibt eine weitere Form der vorhersagbaren Variation, die jedoch phonologisch, und damit sprachabhängig ist und sich daher deutlich von der phone‐ tisch vorhersagbaren Variation wie etwa die der sprecherabhängigen unterscheidet (vgl. Exkurs ‚Phonetische Variation‘ auf S. 23f.). Nicht komplementär verteilte Allophone werden als freie Varianten eines Pho‐ nems bezeichnet. Zu ihnen zählen im Deutschen die verschiedenen Allophone des Phonems, das durch den Buchstaben ⟨r⟩ repräsentiert wird, z. B. am Wortanfang von Reim. Manche von uns ‚rollen‘ das ⟨r⟩, andere jedoch nicht und am Wortende wie in Meer, mir oder Meier wird es in der Regel zum Vokal. In Abb. 4 sind diese verschiedenen Allophone durch die entsprechenden IPA-Symbole gekennzeichnet. Diese lernen wir in Kapitel 4 kennen. Freie Variation bezieht sich hier auf das Lautsystem, nicht unbedingt auf das Individuum. Ein: e Sprecher: in wird für ⟨r⟩ am Anfang von Reim immer auf 28 1 Einführung und Grundlagen <?page no="30"?> 6 Genau genommen können auch phonetische Unterschiede zwischen den Phonen eines Allophons bei genauem Hinhören wahrnehmbar sein (insbesondere bei wiederholtem Abspielen kürzerer Signalabschnitte z. B. mit den in 3.4 vorgestellten Werkzeugen der Sprachverarbeitung) und mit zusätzlichen Zeichen des IPA transkribiert werden (s. 1.4). In der Erkennung der Phoneme spielen sie aber keine Rolle. dasselbe Allophon zurückgreifen, also nicht variieren. Die Variation entsteht erst dadurch, dass ein: e andere: r Sprecher: in auf ein anderes Allophon für die Realisierung von ⟨r⟩ am Wortanfang zurückgreift. Anders formuliert: Freie Variation entsteht auf der Ebene der Sprechergemeinschaft, die dasselbe Phonemsystem verwendet. Abb. 4: Darstellung der Beziehung zwischen Phonem, Allophon und Phon auf den gleichnamigen Re‐ präsentationsebenen. Unterstrichene Buchstaben in den Beispielwörtern entsprechen den jeweiligen Allophonen. | zwischen Mehrfachnennungen verweist auf die freie Variation zwischen Allophonen. Zu den drei oben genannten Kategorien kommt also noch eine vierte hinzu, die der • nicht distinktiven Sprachlaute, die vertauschbar und phonetisch deutlich unterschiedlich sind. An dieser Stelle mag man sich fragen, weshalb es zur Beschreibung der letzten beiden Kategorien, den Zusatz ‚phonetisch deutlich unterschiedlich‘ bedarf: Grund hierfür ist, dass mit den vier Kategorien nur Phoneme und Allophone erfasst werden, nicht aber Phone. Der Zusatz ermöglicht die eindeutige Zuordnung der Beschreibung zum Allophon-Konzept im Gegensatz zum Phon-Konzept: Auch zwei konkrete Phon-Rea‐ lisierungen eines Phonems mit nur einem Allophon, wie z. B. eine zweimalige Wie‐ derholung von / n/ als [n] und [n], sind nicht distinktiv, vertauschbar, und phonetisch grundsätzlich leicht unterschiedlich (s. o.). Diese phonetischen Unterschiede sind aber im Gegensatz zu den Phon-Realisierungen unterschiedlicher Allophone desselben Phonems bei Weitem nicht so deutlich, was sich auch in der fehlenden Differenzierung bei den IPA-Symbolen zeigt. 6 1.2 Was ist Phonologie? 29 <?page no="31"?> Jedem Allophon liegt ein Phonem zugrunde, das wiederum in Opposition zu anderen Phonemen steht wie in Abb. 4 dargestellt. Im Falle von [ç] und [x] wird häufig / ç/ als Phonem angenommen. Die Bestimmung des Phonems im Falle der orthographisch durch ⟨r⟩ repräsentierten Allophone variiert stärker. In Abb. 4 wird der Einfachheit halber zunächst dasselbe Symbol für das Phonem verwendet, das wir aus der Orthographie kennen. Nachdem wir die konkreten Artikulationen, die mit einem Symbol verbunden sind und die Sprachlaute des Deutschen näher kennengelernt haben, werden wir aber von einem anderen zugrunde liegenden Phonem ausgehen. Dass zwei oder mehr Allophonen ein gemeinsames Phonem zugrunde liegt, wird auch in der Orthographie deutlich, wo die unterschiedlichen Allophone durch dieselben Buchstaben repräsentiert werden, in diesem Fall ⟨ch⟩ bzw. ⟨r⟩. Allophone werden mitunter als subphonemische Einheiten bezeichnet, da sie einem - wenn man so will - übergeordneten Phonem zugeordnet werden können. Dass Phoneme aber auch in anderer Form in subphonemische Einheiten zerlegt werden können, wird in 2.4 und in Kapitel 5 gezeigt. Insbesondere anhand dieser Fälle von Allophonie wird deutlich, dass der in 1.1.2 eingeführte Begriff Sprachlaut zwar durchaus ein wichtiges Konzept darstellt, z. B. zur Unterscheidung sprachlicher und nicht-sprachlicher Laute, dass er jedoch nicht nuanciert genug die diversen Repräsentationsebenen erfasst. Im Folgenden wird der Begriff Sprachlaut allgemein verwendet, um die in einer Sprache vorkommenden Sprachlaute zu beschreiben, ohne dabei explizit auf eine der drei oben genannten Repräsentationsebenen einzugehen. Alle Sprachlaute sind im IPA erfasst und lassen sich Phonemen, Allophonen und Phonen zuordnen. Der Begriff ‚zugrunde liegend‘ wurde bereits mehrmals verwendet. Er hat in der Phonologie eine besondere Bedeutung, da viele phonologische Theorien in der Tradition der generativen Phonologie (Chomsky & Halle 1968) davon ausgehen, dass Phoneme einer zugrunde liegenden Form oder Repräsentation (Engl. underlying form/ representation) und Allophone und Phone den Oberflächenformen oder -reali‐ sierungen (Engl. surface realization) entsprechen. Die Oberflächenrealisierung wird demnach durch Ableitung bzw. Derivation generiert, die über eine phonologische Regel erfasst wird. So wird etwa die Oberflächenrealisierung des ach-Lautes durch die Anwendung der phonologischen Regel in (3) erzeugt: (3) Das / ç/ -Phonem - die zugrunde liegende Form - wird an der phonetischen Oberfläche zu [x], wenn unmittelbar davor im Wort ein Vokal vorkommt, der orthographisch u.-a. durch ⟨a⟩, ⟨o⟩ oder ⟨u⟩ repräsentiert wird. Ein zweites Ziel vieler phonologischer Theorien ist es, alle Regeln einer Sprache zu erfassen, die diese Form der vorhersagbaren allophonischen Varianz beschreibt. Notiert werden diese Regeln wie in (4) dargestellt, d. h. in einer ganz bestimmten Form, die zudem sehr viel kürzer ist als die Regelformulierung in (3). Um die richtige Lesart zu 30 1 Einführung und Grundlagen <?page no="32"?> gewährleisten, werden aber auch Regelnotationen wie in (4) oftmals noch durch Sätze wie in (3) ergänzt. (4) / ç/ → [x] / ___ In den Kapiteln 5 und 7 lernen wir Merkmale kennen, mit denen man bestimmte Lautklassen, wie etwa eine Teilmenge von Vokalen erfasst, sowie die formale Notation phonologischer Regeln wie in (4) angegeben. Auch wenn einflussreiche Konzepte wie zugrunde liegende Formen, Regeln oder Derivation in einigen neuen phonologischen Theorien wie der Optimalitätstheorie (McCarthy & Prince 1994; Prince & Smolensky 2004) keine tragende Rolle mehr spielen, so ist deren Einführung wichtig, auch weil sich hier die Beziehung zwischen Phonetik und Phonologie besonders gut verdeutlichen lässt. Zudem bauen Konzepte wie das der Constraints auf das der phonologischen Regeln auf. Zugrunde liegende Repräsentationen und Oberflächenrealisierungen werden auch in anderen Teildisziplinen der Linguistik angenommen, wie z. B. der Morphologie, die die Struktur von Wörtern untersucht. Die kleinste Einheit der Morphologie ist das Morphem. Ein Morphem ist definiert als die kleinste bedeutungstragende Einheit; es besteht aus einem oder mehreren Phonem(en). Ein Morphem kann, muss aber keine selbstständige Einheit sein. Sogenannte mono‐ morphemische Wörter wie etwa Drama und Hals bestehen aus nur einem Morphem, das damit - im Sinne der o. g. Wortdefinition - auch eine selbstständige bedeutungs‐ tragende Einheit darstellt. Um den Genitiv dieser Singularformen zu bilden, wird jeweils ein weiteres Morphem angehängt: im Falle von Drama ⟨s⟩, im Falle von Hals ⟨es⟩. ⟨s⟩ und ⟨es⟩ in den nun heteromorphemischen Wörtern Dramas und Halses bilden somit Varianten bzw. Allomorphe eines zugrunde liegenden Morphems, das die Bedeutung der Genitivform kodiert, aber keine selbstständige Einheit ist. Der lautliche und orthographisch repräsentierte Unterschied zwischen beiden Allomorphen lässt sich phonetisch-phonologisch erklären: Endet ein Wort auf / s/ wird dem Genitiv-s ein ⟨e⟩ vorangestellt, das wie das ⟨e⟩ in bitte realisiert wird. Der Prozess der Vokaleinfügung geschieht systematisch, wenn man so will, um die Aussprache zu erleichtern und wird in 7.3.3 näher erläutert. Ähnlich wie sich allophonische Oberflächenformen durch phonologische Regeln wie denen in (3) bzw. (4) ableiten lassen, so kann man auch phonologische Regeln formulieren, die die phonologischen Kontextbedingungen für Allomorphe beschreiben. Die enge Verzahnung von Phonologie und Morphologie hat zu dem Begriff der Morphonologie geführt (Trubetzkoy 1931), der konkret 1.2 Was ist Phonologie? 31 <?page no="33"?> 7 Hier und im Folgenden sind Beispiele, die in einer Sprache nicht erlaubt sind durch ein vorangestelltes * markiert. die phonologische Analyse von Allomorphen beschreibt. In 7.3 wird ein weiteres Allomorphie-Beispiel im Kontext phonologischer Prozesse vorgestellt. 1.2.3 Phonotaktik Die in Regel (3) beschriebene allophonische Variation erfasst auch eine sprachabhän‐ gige Kombinationsmöglichkeit von Lauten, die so z. B. nicht im Englischen vorkommt, schon allein deswegen nicht, weil / ç/ kein Bestandteil des englischen Phoneminventars ist. Die Kombination von Vokal plus Konsonant in einem einsilbigen Wort ist ansonsten aber auch im Englischen erlaubt, was wiederum nicht für andere Sprachen gilt (z. B. Hawaiianisch, s. Kap. 6). Aber auch Phoneme wie / n/ , die sowohl am Wortanfang vor Vokalen und am Wortende nach Vokalen vorkommen können (vgl. die Beispiele in (1) und (2)), unterliegen Restriktionen hinsichtlich ihrer Kombinierbarkeit mit anderen Konsonanten, wie die Beispiele in (5) zeigen. (5) nie - Knie - *nkie 7 / n/ kann am Anfang eines einsilbigen Wortes zwar nach / k/ vorkommen, nicht aber vor / k/ . Die Untersuchung der erlaubten und nicht erlaubten Lautkombinationen ist ein drittes Ziel der Phonologie, genauer gesagt der Phonotaktik. Die Phonotaktik untersucht die Kombinatorik von Phonemen und Allophonen in einer Sprache. Gerade der Bereich der Phonotaktik suggeriert, dass in der Phonologie Laute nach‐ einander zu größeren Einheiten verknüpft werden. Sogenannte lineare Repräsenta‐ tionen von Lautketten sind aber nicht die einzigen Repräsentationsformen. In Kapitel 6 werden wir im Rahmen der Silbenphonologie auch nicht lineare phonologische Repräsentationen kennenlernen. 1.3 Phonetische Form und phonologische Funktion Die Beziehung zwischen Phonetik und Phonologie lässt sich auch durch folgenden kurzen Merksatz beschreiben. 32 1 Einführung und Grundlagen <?page no="34"?> Phonetik beschreibt die Form von Sprachlauten allgemein oder speziell in einer Sprache, Phonologie deren Funktion in einer Sprache. Sprachen unterscheiden sich dabei oftmals in der Form-Funktionsbeziehung von Sprachlauten - und zwar in mehrerer Hinsicht: So kann ein Sprachlaut a. in einer Sprache funktional genutzt werden und in einer anderen Sprache nicht, b. in zwei Sprachen funktional genutzt werden, aber unterschiedliche Formen auf‐ weisen. In 1.2.3 wurde bereits darauf hingewiesen, dass das Deutsche / ç/ wie am Ende von ich funktional nutzt, das Englische hingegen nicht. Die funktionale Nutzung besteht darin, dass / ç/ ein Phonem des Deutschen ist, das z. B. mit / n/ wie am Ende von in eine phonologische Opposition bildet. Das Englische nutzt zwar nicht / ç/ , dafür aber / n/ funktional, wie das Minimalpaar in vs. ill zeigt. Dieser Sprachvergleich sei exemplarisch für eine Form-Funktions-Beziehung wie unter a. genannt. Anhand von / l/ wiederum, das sowohl im Englischen als auch im Deutschen funktional genutzt wird (s. in vs. ill im Englischen und Bann vs. Ball im Deutschen), lässt sich zudem ein Form-Funktionsunterschied illustrieren, wie in b. beschrieben. Abb. 5: Ausgewählte Form-Funktionsbeziehungen im Deutschen und Englischen. Die entsprechenden Sprachlaute sind in den Belegwörtern (darunter Lehnwörter) unterstrichen. / ç/ ist kein Phonem des Englischen, / θ/ kein Phonem des Deutschen. Sowohl im Englischen als auch im Deutschen wird / l/ durch den Buchstaben ⟨l⟩ repräsentiert. Im Gegensatz zum Deutschen kennt das Englische aber zwei komple‐ mentär verteilte Allophone von / l/ : Am Wortgenauer am Silbenbeginn wird / l/ als [l] realisiert, ähnlich dem Laut, den wir aus dem Deutschen kennen, z. B. lead 1.3 Phonetische Form und phonologische Funktion 33 <?page no="35"?> [lid]. Am Silbenende wird / l/ im Englischen jedoch mit einer anderen Zungenstellung realisiert, die zu einem anderen Klang und einer Transkription mittels eines ande‐ ren IPA-Symbols / ɫ/ führt, z. B. deal [diɫ]. Die unterschiedlichen Oberflächenformen von / l/ behandeln wir genauer in 4.2.6. Für den Moment ist allein die unterschiedliche Form-Funktionsbeziehung im Englischen im Vergleich zum Deutschen entscheidend, denn im Deutschen wird / l/ sowohl am Wortanfang als auch am Wortende einsilbiger Wörter ähnlich ausgesprochen und ohne Einschränkung mit demselben IPA-Symbol [l] repräsentiert (z.-B. [l] in Lied oder dem aus dem Englischen entlehnten Deal). Darüber hinaus weisen Sprachen auch unabhängig von komplementär distribuierten Allophonen wie [ç] und [x] im Deutschen oder [l] und [ɫ] im Englischen Form-Funk‐ tionsunterschiede wie in b. auf. So ist / s/ sowohl Teil des standarddeutschen als auch des kastilisch-spanischen Phoneminventars und beide Sprachvarietäten kennen jeweils nur eine Allophon-Variante. Die Phon-Realisierungen unterscheiden sich in beiden Sprachen jedoch deutlich, z. B. Sohle im Deutschen vs. sola [s̺ola] ‚allein’ im Spanischen (vgl. Kohler 1999 für Deutsch und Martínez-Celdrán et al. 2003 für Kastilisch). Auch auf dieses Beispiel sei hier zunächst nur mit Blick auf Form-Funktionsunterschiede zwischen Sprachen eingegangen; einige Leser: innen können sich die Unterschiede aufgrund vorhandener Spanisch-Kenntnisse möglicherweise besser vorstellen, alle anderen seien auf Kapitel 2 und 4 für detaillierte Erklärungen zur Artikulation verwiesen. Typologische Sprachvergleiche zeigen Form-Funktions-Unterschiede zwischen Sprachen auf. Jede Sprache, aber auch jeder Dialekt weist ein phonologisches System auf, in dem bestimmte phonologische Regeln angewendet werden. In diesem Buch wird haupt‐ sächlich in die Phonetik und Phonologie anhand von Beispielen aus normierten Stan‐ dardvarietäten, wie etwa die im Duden kodifizierte bundesdeutsche überregionale Standardaussprache (Kleiner & Knöbl 2015) eingeführt und nachfolgend als Stan‐ darddeutsch abgekürzt. Diese Ausspracheform wird gemeinhin als Hochdeutsch be‐ zeichnet, aber kaum jemand spricht es ganz ohne regionale Einflüsse (Spiekermann 2007: 123) und die Datengrundlage für die Kodifizierung (Aufnahmen von Nachrich‐ tensprecher: innen) wurde vielfach kritisiert (Lameli 2003: 499-500). Hier und da wird auch explizit auf regionale Varietäten verwiesen. Den sprachabhängigen phonologi‐ schen Systemen steht in der Regel deren sprachunabhängige phonetische Beschreibung gegenüber. Sprachabhängige (Allo-)Phone werden sprachunabhängig phonetisch beschrieben. 34 1 Einführung und Grundlagen <?page no="36"?> Innerhalb eines standardisierten und sprachübergreifenden phonetischen Beschrei‐ bungsrahmen wie dem des IPA können alle Sprachlaute, die in den Sprachen der Welt funktional genutzt werden, phonetisch mit Blick auf deren Artikulation und auditiver Wahrnehmung beschrieben werden. 1.4 Transkription: Vom Laut zur Schrift und zurück In der Linguistik versteht man unter Transkription a. die Übertragung eines Schriftsystems in ein anderes, etwa aus dem Kyrillischen ins lateinische Alphabet (z.-B. Russisch Пpивет → Privet ‚Hallo‘); b. die Verschriftung einer Lautung durch phonetische Umschrift (im Falle des in a. genannten Beispiels [prʲɪ.ˈvʲet]). Transkriptionen sowohl im Sinne von a. als auch von b. orientieren sich an der Aussprache und sollen diese erleichtern. In der Transkription nach a) werden Zeichen und Zeichenkombinationen verwendet, die den Leser: innen aus der orthographischen Repräsentation ihrer Muttersprache bekannt sind, um die Wörter der Fremdsprache besser lesen zu können. In der Transkription nach b. werden hingegen teils (un)be‐ kannte Zeichen aus anderen Alphabeten, Sonderzeichen und teils bekannte, aber andere Laute repräsentierende Zeichen verwendet, um eine Annäherung an eine be‐ stimmte Aussprache zu ermöglichen bzw. diese zu rekonstruieren. Dies setzt wiederum die Kenntnis des neuen Zeichensystems voraus. Als Leser: innen des Deutschen sind wir sowohl mit der Aussprache von Wörtern als auch deren orthographischer Repräsentation vertraut. b.-Transkriptionen, die die Aussprache eines Wortes phonetisch z. B. mittels der Zeichen des IPA verschriften, finden sich u. a. in Aussprachewörterbüchern. Manche dieser Zeichen lassen sich dabei vermeintlich leichter lesen als andere, insbesondere dann, wenn man die Symbole aus der Orthographie kennt. Aber auch in den Fällen, in denen IPA-Symbole und sprachspezifische Buchstaben deckungsgleich scheinen, ist ein korrekter Rückschluss auf die Aussprache nicht garantiert, wie die phonetische Transkription in Beispiel (6) zeigt. Man achte in diesem Beispiel insbesondere auf die mögliche phonetische Transkription der Buchstaben ⟨d⟩, ⟨b⟩ und ⟨s⟩. (6) Das Bild ist sehr schön. - [tas pɪlt ɪst zeːɐ ʃøːn] Die IPA-Symbole sind unabhängig von Buchstaben zu lesen; man muss die zugrunde liegende Artikulation kennen, um die Symbole korrekt zu dekodieren. Die Erklärung der Symbol-Aussprache-Korrespondenz anhand von Beispielwörtern, wie man sie häufig in Wörterbüchern findet, ist besonders bei Fremdsprachen problematisch, da 1.4 Transkription: Vom Laut zur Schrift und zurück 35 <?page no="37"?> es hier zu falschen Zuordnungen zwischen Sprachlauten aus der Fremd- und der Muttersprache kommen kann. Dennoch arbeiten wir auch in diesem Buch immer wieder mit Belegwörtern, da die entsprechenden IPA-Symbole und die durch sie repräsentierten Artikulationen erst nach und nach eingeführt werden (s. Kap. 2 und 4). Im Folgenden wird der Begriff Transkription nur noch mit der unter b. angegeben Definition verwendet. Lautschriften oder phonetische Umschriften werden so‐ wohl zum Anzeigen einer (normierten) Aussprache in Wörterbüchern als auch zur Verschriftung von etwas tatsächlich Gesprochenem angefertigt. Letzteres erfolgt oft rein ohrenphonetisch und nicht unter Verwendung von Sprachaufnahmen zur späteren signalphonetischen Analyse. Die enge Transkription erfasst phonetische Aussprachedetails, die breite (auch weite) Transkription hingegen oft nur die distinktiven Eigenschaften (auch phonemische Transkription). Enge Transkriptionen werden zwischen eckigen Klammern platziert, breite können - je nach Bezugsebene - sowohl zwischen Schrägstrichen (Phonologie) als auch zwischen eckigen Klammern (phonet. Aus‐ sprache, aber keine Details) eingebettet sein. Egal, ob eng oder breit, jede Tran‐ skription stellt eine Abstraktion des Gesprochenen dar. Lautschriften gibt es viele. In der Phonetik und Phonologie wird - wie auch im vorlie‐ genden Buch - vor allem mit dem IPA gearbeitet. In anderen Disziplinen werden auch andere Transkriptionssysteme verwendet (z. B. Teuthonista in der Germanistischen Dialektologie). Das Ziel ist jedoch immer das gleiche: eindeutige Rückschlüsse auf die Aussprache zuzulassen. In diesem Buch markieren in Schrägstrichen angegebene IPA-Symbole immer zu‐ grunde liegende Phoneme; auch phonologische Sprachlautkategorien, die Hörer: innen wahrnehmen, werden zwischen Schrägstrichen platziert (s. Kap. 8). Wird hingegen die Aussprache von Wörtern, insbesondere von Fremdwörtern, transkribiert, so werden die IPA-Symbole grundsätzlich zwischen eckigen Klammern angegeben, unabhängig davon, ob es sich um eine breite oder enge Transkription handelt. 1.4.1 Das Internationale Phonetische Alphabet Das IPA ist das am weitesten verbreitete, international genutzte und standardisierte phonetische Lautschriftsystem zur Transkription der Aussprache von Sprachlauten und Wörtern in den Sprachen der Welt. Es wurde von der International Phonetic Association entwickelt und wird von ihr bis heute verwaltet. 1886 gründete eine Gruppe französischer und britischer Fremdsprachenlehrer um Paul Passy die Phonetic Teacher‘s Association (ab 1897 International Phonetic Associa‐ 36 1 Einführung und Grundlagen <?page no="38"?> 8 Die Abkürzung IPA bezieht sich in diesem Buch ausschließlich auf das Alphabet. Verweise auf den Verband, der die älteste Organisation für Phonetiker: innen ist, erfolgen grundsätzlich ohne Abkürzung. 9 Für eine Übersicht der frühen Versionen des IPA s.: https: / / www.internationalphoneticassociation.o rg/ IPAcharts/ IPA_hist/ IPA_hist_2018.html (abgerufen am 08.04.2022, 16: 45 Uhr). tion) mit dem Ziel, Konventionen zur Aussprachetranskription festzulegen (s. Online‐ kapitel ‚Wissenschaftsgeschichte‘), eben weil einzelne Alphabete wie das lateinische • Ausspracheunterschiede nicht ausreichend oder nur indirekt erfassen (man benö‐ tigt mehr Zeichen), • allzu oft mit sprachabhängigen Aussprachen verbunden werden. So wird z. B. der Buchstabe ⟨b⟩ im Französischen anders realisiert als im Deutschen (vgl. Beispiel (6) oben; mehr dazu unten und in 4.2.1.2). 1888 wurde die erste Version des IPA 8 durch die International Phonetic Association veröffentlicht, das seither stetig vom Verband überarbeitet und ergänzt wird; die revidierte Version des IPA in Abb. 6 wurde 2020 veröffentlicht. 9 Unter folgendem Link steht ein interaktives IPA zur Verfügung, in dem man die Einzellaute für weitere Informationen zur Beschreibung und Kodierung und v. a. zum Anhören der Aussprache anklicken kann: https: / / www.internationalphoneticassociation.org/ IPAcharts/ inter_c hart_2018/ IPA_2018.html (abgerufen am 08.04.2022, 16: 45 Uhr). Ruft man die letztgenannte Website auf und hört sich nun die Aufnahmen bekannter Phonetiker: innen von [p] und [t] an, kann man feststellen, dass • Phonetiker: innen - wie jede: r andere Sprecher: in auch - in ihrer Aussprache variieren und • die Lautproduktionen von John Esling und Peter Ladefoged die Transkription von Das Bild als [tas pɪlt] in Beispiel (6) rechtfertigen. Hört man sich im Vergleich dazu [b] und [d] an, bekommt man eine Vorstellung davon wie ⟨b⟩ und ⟨d⟩ im Französischen ausgesprochen werden. 1.4 Transkription: Vom Laut zur Schrift und zurück 37 <?page no="39"?> p b t d æ ÿ c ï k g q G / m µ nr = − N Ð õ R i | Ç F B f v T D s z S Z § ½ J x V X å © ? h H ñ L à ¨ Õ j ÷ l ð ´ K y u e o a é Ö … « Ï ì { Y U ‚ ¿ ê ¯ O À P A È ó ä è ú Ó Œ ë ¸ º íç w - E > I Ä Â ù < ø² p' t' k' s' ' a» b» eÑ e~ ¦ Í e@ › e! e_ e& eÞ ‹ e% Ì e$ e# ž™�‰ •Ÿ‘Š ts kp ® foUn« " tIS«n ¨i . Ïkt ɘ ɞ ù . * eÉ eò e* ¥ ¡ 9 n9 d9 » t 1 d1 s 3 t 3 b0 a0 tî dî £ t £ d £ t 4 d4 7 O7 tW dW ) e) O¦ tÆ d Æ dö uª t× d× d 2 e2 t³ d³ } d} eá : e + e6 ` n` e¤ e8 e5 - a± e° "® Éò Å Á B¤ ¤ 1 t Á dÁ 4 W 0 3 î ö Æ × ¨ 6 6 ª á + ³ 5 8 ° ± ̴ ⱱ Plosive Nasal Trill Tap or Flap Fricative Lateral fricative Approximant Lateral approximant Bilabial Labiodental Dental Alveolar Postalveolar Retroflex Palatal Velar Uvular Pharyngeal Glottal Bilabial Dental/ alveolar Palatal Velar Uvular Bilabial Dental (Post)alveolar Palatoalveolar Alveolar lateral Examples: Bilabial Dental/ alveolar Velar Alveolar fricative Clicks Voiced implosives Ejectives Breathy voiced Creaky voiced Linguolabial Labialized Palatalized Velarized Pharyngealized Velarized or pharyngealized Raised Lowered Advanced Tongue Root Retracted Tongue Root Voiceless Voiced Aspirated More rounded Less rounded Advanced Retracted Centralized Mid-centralized Syllabic Non-syllabic Rhoticity Dental Apical Laminal Nasalized Nasal release Lateral release No audible release ( = voiced alveolar fricative) ( = voiced bilabial approximant) or or THE INTERNATIONAL PHONETIC ALPHABET (revised to 2020) 2020 IPA CONSONANTS (PULMONIC) Symbols to the right in a cell are voiced, to the left are voiceless. Shaded areas denote articulations judged impossible. CONSONANTS (NON-PULMONIC) OTHER SYMBOLS DIACRITICS Some diacritics may be placed above a symbol with a descender, e.g. ŋ̊ VOWELS Where symbols appear in pairs, the one to the right represents a rounded vowel. SUPRASEGMENTALS TONES AND WORD ACCENTS LEVEL CONTOUR Voiceless labial-velar fricative Voiced labial-velar approximant Voiced labial-palatal approximant Voiceless epiglottal fricative Voiced epiglottal fricative Epiglottal plosive Alveolo-palatal fricatives Voiced alveolar lateral flap Simultaneous ʃ and x Affricates and double articulations can be represented by two symbols joined by a tie bar if necessary. Primary stress Secondary stress Long Half-long Extra-short Minor (foot) group Major (intonation) group Syllable break Linking (absence of a break) Extra high High Mid Low Extra low Downstep Upstep Rising Falling High rising Low rising Risingfalling Global rise Global fall Close Close-mid Open-mid Open Front Central Back Abb. 6: Tabelle des IPA Stand 2020 (http: / / www.internationalphoneticassociation.org/ IPAcharts/ IPA_chart_ orig/ pdfs/ IPA_Kiel_2020_full.pdf, available under a Creative Commons Attribution-Sharealike 3.0 Unported License. Copyright © 2020 International Phonetic Association, abgerufen am 16.05.2023, 13: 35 Uhr). 38 1 Einführung und Grundlagen <?page no="40"?> 10 Auch das Trema in der deutschen Orthographie bei ⟨ä⟩, ⟨ö⟩ und ⟨ü⟩ entspricht einem diakritischem Zeichen. Das Symbolsystem des IPA wurde entwickelt, um alle Sprachlaute, die in den Sprachen der Welt vorkommen und funktional genutzt werden, sprachunabhängig mit Bezug auf deren Artikulation zu repräsentieren. Dabei werden verschiedene artikulatorische Parameter berücksichtigt, die sich je nach Lautklasse unterscheiden: Für die Beschrei‐ bung von Konsonanten müssen beispielsweise die Artikulationsstelle (z. B. bilabial oder alveolar) und die Artikulationsart (z. B. Plosiv vs. Frikativ) benannt werden (s. 2.2, 2.3.2); Vokale werden getrennt von Konsonanten und mit eigenen Parametern beschrieben (s. Kap. 4). Um das Alphabet dechiffrieren zu können, sind Vorkenntnisse insbesondere in der artikulatorischen Phonetik notwendig. Alle Symbole des IPA können in eckigen Klammern angegeben werden, um auf die phonetische Ebene der Aussprache hinzuweisen, oder auch in Schrägstrichen, um den Phonemstatus eines Lautes in einer Sprache anzuzeigen. Verglichen mit früheren Lautschriften ist das IPA leichter erlernbar, da es Symbole des griechischen und lateinischen Alphabets verwendet, wenn auch in teils abgewan‐ delter Form. Mittels Schriftzeichenzusätzen, den sog. Diakritika 10 (z. B. [kʰ]) können feine phonetische Unterschiede in der Artikulation und auditiven Wahrnehmung eng transkribiert werden (vgl. 1.3). Alle im IPA symbolisch repräsentierten Sprachlaute sind in den Sprachen der Welt belegt. Vorschläge für neue Symbole können anhand von Sprachdaten eingebracht werden und müssen vom Führungsgremium der International Phonetic Association bestätigt werden, um Teil des offiziellen IPA zu werden (s. 4.3.2 für ein Beispiel). In den sogenannten Illustrations of the IPA wird in einem vorgegebenen Format über die jeweilige phonetische Struktur einer Sprache oder Sprachvarietät knapp berichtet: Neben einer getrennten Beschreibung des Konsonanten- und Vokalinventars beinhalten sie teils enge und breite Transkriptionen einer Audioaufnahme eines/ einer Referenzsprecher: in. Gelesen wird immer eine Übersetzung der äsopschen Fabel ‚Der Nordwind und die Sonne‘ in der jeweiligen Sprache. Im Rahmen dieser Berichte werden in der Regel auch einige Informationen zum/ zur Referenzsprecher: in angegeben; dies geschieht vor dem Hintergrund möglicher sprecherspezifischer Aussprachemuster, auch wenn die Modellsprecher: innen als repräsentativ für die jeweilige Sprachvarietät gelten. Stand März 2021 liegen insgesamt 185 Illustrations vor, teilweise auch für unterschiedliche Varietäten einer Sprache. So finden sich etwa für das Deutsche Berichte zum (nördlichen) Standarddeutsch (Kohler 1999), zur Chemnitzer Varietät des Obersächsischen (Khan & Weise 2013), zur österreichischen Standardvarietät (Moosmüller et al. 2015) oder zum Zürcher Dialekt (Fleischer & Schmid 2006). Auf das System von Kohler (1999) wird in diesem Buch mehrmals Bezug genommen, insbesondere im Rahmen der Vokalbeschreibung in 4.3.2. Im Handbook of the International Phonetic Association (International Phonetic Asso‐ ciation 1999) finden sich Handreichungen zur Verwendung des IPA in linguistischen 1.4 Transkription: Vom Laut zur Schrift und zurück 39 <?page no="41"?> 11 Bei der wissenschaftlichen Erforschung von Sprache verhält es sich hingegen umgekehrt: Das Studium sehr alter Schriftquellen ist der Analyse konservierter Sprachsignale in Form von Audioauf‐ namen zeitlich vorangestellt. Analysen sowie Informationen zu den einzelnen Symbolen, z. B. zur Gültigkeit, zur Symbolbezeichnung auf Englisch oder zur IPA-Symbolnummer. Drei Beispiele: Sowohl [ɡ] (opentail G, IPA-Nr. 110) als auch [g] (looptail G, IPA-Nr. 210) repräsentieren denselben Sprachlaut (d. h. beide Symbole dürfen verwendet werden), nicht aber [a] (lower-case A, IPA-Nr. 304) und [ɑ] (script A, IPA-Nr. 305); [ɩ] (Iota, IPA-Nr. 399) und [ɪ] (small capital I, IPA-Nr. 319) wiederum verweisen zwar auf denselben Sprachlaut, aber [ɩ] wurde 1989 durch [ɪ] ersetzt und wird nicht länger verwendet. Welche Sprachlaute durch diese Symbole kodiert sind, wird in Kapitel 4 beantwortet. Über die Verwendung und Form der Symbole entscheidet das Führungsgremium der International Phonetic Association. Lernt man die Symbole des IPA, gilt es - wie bei jedem Alphabet - auch auf Über- und Unterlängen der Symbole zu achten. 1.4.2 Phonem versus Graphem Ziel dieses Abschnittes ist eine kurze Vorstellung möglicher Beziehungen zwischen Phonemen und deren Repräsentation in der Orthographie. Grund hierfür ist der immer wieder zu beobachtende erste Impuls seitens alphabetisierter Gruppen wie Studierenden, Sprachlaute zunächst über die Buchstaben des Alphabets definieren zu wollen. Aber: Buchstaben sind keine Sprachlaute. Der Satz mag trivial klingen; dies explizit zu betonen, erscheint jedoch gerade dann wichtig, wenn zwischen Lautung und Schreibung Überlappungen bestehen, so wie im Falle von Alphabetschriften. Buchstaben repräsentieren Phoneme, aber auch andere Informationen. So wird der Unterschied zwischen dem Verb fliegen und dem gleichlautenden Substan‐ tiv Fliegen durch Groß- und Kleinschreibung markiert. Aufgrund der phonologischen Gleichlautung handelt es sich um sogenannte Homophone. In gewisser Weise entspricht auch das orthographische Regelwerk des Deutschen auf der Grundlage des lateinischen Alphabets einem Transkriptionssystem, da • durch die Verschriftung Sprache kodiert wird, die auch gesprochen wird, • das Lesen einer orthographischen Verschriftung - egal ob laut oder still - Rück‐ schlüsse auf die Aussprache der Sätze, Wörter und kleinerer Einheiten zulässt. Dass es sich bei der Orthographie um eine schriftliche Repräsentation gesprochener Sprache handelt und nicht umgekehrt, spiegelt auch wider, dass gesprochene Sprache der Schriftsprache zeitlich vorangestellt ist - sowohl in der Sprachevolution als auch im Erstspracherwerb im Kleinkindalter. 11 Dennoch stellt die Orthographie kein reines 40 1 Einführung und Grundlagen <?page no="42"?> Transkriptionssystem im Sinne einer reinen Lautumschrift dar, da die Schreibung eben mehr als nur die Lautung kodiert, z. B. grammatikalische Kategorien wie Substantive oder Morpheme (vgl. Fuhrhop & Peters 2013: 181). Mit der Normierung der Schriftsprache im 19. Jh. hat sich im Deutschen die sogenannte gemäßigte phonetische Richtung durchgesetzt (vgl. Nübling et al. 2017: 243). Die Rechtschreibung folgt dem morphophonemischen Prinzip (auch tiefe Orthographie), wonach Morpheme in der Orthographie auch dann identifizierbar bleiben, wenn sich deren Aussprache grammatikalisch bedingt ändert (z. B. Fall - Fälle). In anderen Sprachen wie dem Finnischen oder auch dem in Kastilien gesprochenen Spanischen gilt das phonemische Prinzip mit Buchstaben-Phonem-Beziehungen, die zumindest in der Lautung der Hochsprache oder Standardvarietät eine direkte Beziehung zwischen Buchstaben und Phonemen aufweisen (auch flache Orthogra‐ phie). Dennoch gibt es auch im Deutschen eine Reihe einfacher Korrespondenzen zwischen Phonemen und deren schriftlicher Repräsentation (s. u.). Beim Erlernen des Schriftsystems der Muttersprache lernt man diese mit den Rechtschreibregeln; Diskrepanzen bzw. komplexere Beziehungen zwischen Lautung und Schreibung fallen im Anschluss daran mitunter nicht länger ins Auge (im Gegensatz zu Fremdsprachen, bei denen die Beziehung zwischen Lautung und Orthographie oft unbekannt ist). Bislang haben wir auf Buchstaben als einem allgemein bekannten Konzept verwie‐ sen, ohne diese näher zu definieren. Es gilt jedoch zwischen Buchstaben und sogenann‐ ten Graphemen zu unterscheiden. Diese sind in der Graphematik, der Wissenschaft von Schriftsystemen und ihren Einheiten, wie folgt definiert (vgl. Fuhrhop & Peters 2013: 191-192, 202, 205): Buchstaben sind aus Buchstabensegmenten wie Strichen oder Bögen zusam‐ mengesetzt und bilden in dieser Form die kleinste selbstständige Einheit schrift‐ sprachlicher Systeme. Grapheme sind die kleinsten distinktiven Einheiten in der geschriebenen Sprache. Grapheme oder auch Graphemverbindungen werden in spitzen Klammern ⟨⟩ angegeben und können einzelnen Buchstaben oder auch Buchstabenkombinationen entsprechen. So wie die Phonologie das Lautsystem einer Sprache unabhängig von deren Ortho‐ graphie untersucht, so untersucht die Graphematik zunächst ebenfalls unabhängig vom Lautsystem einerseits und der Orthographie andererseits das Schriftsystem einer Sprache. So weisen etwa die mit den Graphemen ⟨b⟩ und ⟨h⟩ korrespondierenden Buchstaben beide einen langen Strich auf. Dieser sogenannte lange Kopf ist für die schriftsprachliche Analyse von Bedeutung (Furhop & Peters 2013: 192-194), nicht aber für die Phonetik oder Phonologie, sieht man einmal vom IPA ab, das jedoch ebenfalls einem Schriftsystem entspricht. Gerade aber zwischen Phonologie und Graphematik gibt es auch viele Bezugspunkte: Phoneme wie auch Grapheme sind grundsätzlich sprachabhängig zu ermitteln und beiden ist die distinktive Funktion eigen. Wenn man 1.4 Transkription: Vom Laut zur Schrift und zurück 41 <?page no="43"?> 12 In der Graphematik werden Buchstaben zwischen geraden Strichen || angegeben. Diese Notation spielt für dieses Buch aber keine Rolle. also nach Korrespondenzen zwischen Lauten und deren Schreibung sucht, dann auf der Phonembzw. Graphem-Ebene. Mit der Definition oben revidieren wir nun auch die in 1.2.1 eingeführte Notationsre‐ gel, wonach bislang Buchstaben in spitzen Klammern angezeigt wurden. 12 Alle bislang genannten Einzelbuchstaben entsprachen auch sogenannten einfachen Graphemen im Deutschen: ⟨i⟩, ⟨e⟩, ⟨a⟩, ⟨o⟩, ⟨u⟩, ⟨b⟩, ⟨d⟩, ⟨s⟩ und ⟨r⟩. Gleiches gilt für die in 1.2.2 ge‐ nannte Buchstabenkombination ⟨ch⟩, die im Deutschen einem komplexen Graphem aus zwei Buchstaben entspricht. Dabei kann ⟨h⟩ auch einem einfachen Graphem entsprechen, ⟨c⟩ jedoch nicht, da dieses nicht frei mit anderen Graphemen kombiniert werden kann. Die Allophone des Phonems / ç/ werden also nicht nur durch dieselben Buchstaben, sondern - präziser - durch dasselbe Graphem repräsentiert (vgl. 1.2.2). Die ebenfalls in 1.2.2 genannte Buchstabenkombination ⟨es⟩ in Halses besteht hingegen aus einer Verbindung aus zwei einfachen Graphemen; Graphemverbindungen wie diese können ebenfalls innerhalb einer spitzen Klammer angegeben werden. Die Grapheme einer Sprache können wiederum mittels einer Minimalpaaranalyse wie in (7) bestimmt werden. (7) Minimalpaar Phonem-Beleg Graphem-Beleg - Mann - Bann / m/ - / b/ ⟨m⟩ - ⟨b⟩ - Bann - Bach / n/ - / ç/ ⟨n⟩ - ⟨ch⟩ - Bach - Fach / b/ - / f/ ⟨b⟩ - ⟨f⟩ - Bann - Bahn / a/ - / aː/ ⟨n⟩ - ⟨h⟩ - Felle - Fälle keine Opposition ⟨e⟩ - ⟨ä⟩ - wachst - wachst / ç/ - / k/ keine Opposition Die Beispiele in (7) entsprechen größtenteils sowohl phonologischen als auch gra‐ phemischen Minimalpaaren. Handelt es sich auf einer der beiden Ebenen um kein Minimalpaar, so ist dies durch ‚keine Opposition‘ gekennzeichnet; auf Ebene der Phonologie führt dies zu Homophonen, auf der Ebene der Graphematik zu sogenannten Homographen (s. u.). Mittels derselben Minimalpaare kann man sowohl eindeutige Phonem-Graphem-Korrespondenzen wie in Mann - Bann, Bach - Fach oder auch Bann - Bach aufzeigen als auch weniger eindeutige Korrespondenzen. So belegt man mit Bann - Bahn zunächst unterschiedliche Phoneme und Grapheme, auch wenn diese auf Ebene der Orthographie wieder in einer Beziehung stehen (s. u.). Wieder andere Minimalpaare belegen nur auf einer Ebene entweder ein Phonem oder ein Graphem. 42 1 Einführung und Grundlagen <?page no="44"?> Eisenberg (2020: 317-318) stellt empirisch ermittelte Graphem-Phonem-Korrespon‐ denzregeln auf, wonach / b/ primär mit ⟨b⟩ (z. B. Bach, Bann) oder / f/ primär mit ⟨f⟩ (z. B. Fach, fiel) korrespondiert. Sekundär kann / f/ aber auch mit ⟨v⟩ übereinstimmen wie in viel. ⟨v⟩ korrespondiert also mit zwei Phonemen des Deutschen: / f/ und / v/ . Gleichzeitig korrespondiert das Phonem / v/ mit zwei Graphemen: primär mit ⟨w⟩ wie in Wasser und sekundär mit ⟨v⟩ wie in Vase. Diese komplexen Beziehungen werden mit folgenden Begriffen erfasst; Tab. 1 listet für jeden Begriff Beispiele: • Homographie: Ein Graphem repräsentiert verschiedene Phoneme. • Heterographie: Verschiedene Grapheme repräsentieren ein Phonem. • Plurigraphie: Graphemverbindungen wie ⟨ph⟩ oder komplexe Grapheme wie ⟨ch⟩ repräsentieren ein Phonem. • Haplographie: Ein Graphem repräsentiert eine Phonemfolge. Beziehung Graphem (-verbindung) Phonem (-verbindung) Beispielwort Homographie ⟨v⟩ / f/ / v/ Vater, vom Vase, Vatikan Heterographie ⟨f⟩ ⟨v⟩ / f/ Ferse, fiel Verse, viel ⟨w⟩ ⟨v⟩ / v/ Wasser Vase ⟨e⟩ ⟨ä⟩ / ɛ/ Felle Fälle Plurigraphie, hier Di‐ graphie ⟨ph⟩ / f/ Philosoph ⟨ch⟩ / ç/ Chemie, dich Haplographie ⟨x⟩ / ks/ Hexe, Haxe Tab. 1: Beispiele für unterschiedliche Beziehungen zwischen Graphem(verbindungen) und Pho‐ nem(verbindungen). In den Beispielen zu Homobzw. Heterographie sind die primären Korresponden‐ zen nach Eisenberg (2020) jeweils oben, in der ersten Zeile genannt. Auch für Vokale lassen sich Eisenberg (2020: 319) zufolge einfache Graphem-Pho‐ nem-Korrespondenzregeln aufstellen, auch wenn deren Beziehung nicht immer ein‐ eindeutig ist. Gerade mit Blick auf den phonologischen und phonetischen Vokallän‐ genunterschied wie in Bann - Bahn oder Stadt - Staat (vgl. 4.3) zeigen sich vielfältige Möglichkeiten der orthographischen Repräsentation. So verweist ein Doppelkonso‐ nant in der Regel auf die phonologische und damit einhergehend phonetische Kürze des vorangehenden Vokals hin, nicht aber auf eine doppelte oder gelängte Aussprache des Konsonanten, da diese im Deutschen nicht phonologisch ist (vgl. 4.2.1.2 und 4.3.2). Die Schreibung eines Doppelvokals (z. B. Moos) hingegen verweist genau darauf, nämlich 1.4 Transkription: Vom Laut zur Schrift und zurück 43 <?page no="45"?> die phonologische und damit einhergehende phonetische Länge des Vokals. Dies stellt zwar eine Regel dar, ist aber keinesfalls die einzige Möglichkeit auf die Aussprache von sogenannten Langvokalen zu verweisen; die deutsche Rechtschreibung nutzt dafür u. a. auch das sogenannte Dehnungs-h (z. B. Sohle), das Dehnungs-e (z. B. Sieb) oder verzichtet auf ein zusätzliches Symbol (z. B. Soße). Am Wortanfang wiederum repräsentiert ⟨h⟩ durchaus den Sprachlaut / h/ , z.-B. in (ich) hole, Hieb oder Hose. Die oben genannten Beispiele verdeutlichen, dass Phoneme und Grapheme trotz der Annahme einfacher Korrespondenzen wie in Eisenberg (2020) nicht immer direkt ableitbar sind. Mit dem Erstspracherwerb erlernen wir die Aussprache von Wörtern, mit dem Schriftspracherwerb die regelhafte Repräsentation dieser Aussprache in der Orthographie. In der Lautlehre und lautsprachlichen Analyse müssen diese beiden Ebenen nun wieder getrennt werden. 1.5 Zwei Disziplinen, ein Buch Die Erforschung von gesprochener Sprache begann lange vor der Gründung der Inter‐ national Phonetic Association Ende des 19. Jahrhunderts, wenn auch noch nicht im Rahmen getrennter und als Phonetik und Phonologie bezeichneter Wissenschaftsdis‐ ziplinen, die in der Form vergleichsweise jung sind. Das Onlinekapitel ‚Wissenschafts‐ geschichte‘ gibt einen Überblick über die historische Entwicklung der wissenschaftli‐ chen Auseinandersetzung mit gesprochener Sprache von der Antike bis in die jüngste Vergangenheit. Im Folgenden wird nur sehr kurz die Entwicklung der beiden Diszipli‐ nen im 20. Jh. skizziert. Dabei werden auch die Namen derjenigen Forscher: innen ge‐ nannt, deren Arbeiten und Theorien in den nächsten Kapiteln immer wieder Erwäh‐ nung finden. Die Trennung zwischen den Disziplinen Phonetik und Phonologie folgt u. a. der konzeptuellen Trennung zwischen Langue (Frz. für Sprache) und Parole (Frz. für Spre‐ chen), die der Begründer der modernen Sprachwissenschaft Ferdinand de Saussure (1916) einführte. Die Parole entspricht dabei der konkreten Realisierung eines abstrak‐ ten Sprachgebildes, z. B. bei der Realisierung eines Phons, dem ein Phonem zugrunde liegt (vgl. 1.3). Die Parole gilt demnach als Untersuchungsgegenstand der Phonetik, die Langue als der der Phonologie. Die Phonetik entwickelte sich Ende des 19. Jh. als eigenständiges, aber stark inter‐ disziplinäres Fach mit Anbindungen u. a. an die Medizin, Biologie, Musikforschung, Physik, Elektrotechnik und später an die Informatik. Mit der Jahrhundertwende vom 19. zum 20. Jh. bildete sich aufgrund technischer Fortschritte die Signalphonetik heraus; Sprachaufnahmen ermöglichten es seitdem, Sprachschall zu konservieren und wieder‐ holt abzuspielen und Artikulationsbewegungen und Sprachsignale sichtbar zu machen (s. Kap. 2 und 3). Trotz der Interdisziplinarität und einiger anfänglicher Bestrebungen, gesprochene Sprache ausschließlich instrumentell und mit naturwissenschaftlichen Methoden zu untersuchen (s. Onlinekapitel ‚Wissenschaftsgeschichte‘), stehen bis 44 1 Einführung und Grundlagen <?page no="46"?> 13 Dass diese getrennte Zuordnung problematisch ist, zeigt sich nicht zuletzt darin, dass auch die Untersuchungsgegenstände und -methoden der Linguistik an der Schnittstelle zwischen Geistes- und Naturwissenschaften liegen. heute allgemeine sprachwissenschaftliche Fragestellungen z.-B. zur synchronen Form und Funktion von Sprachlauten und deren Entwicklung in den Sprachen der Welt im Zentrum phonetischer Forschungen. Die Einführung in die verschiedenen Bereiche der Phonetik und Sprachlautbeschreibung in den nachfolgenden Kapiteln baut u. a. auf die Arbeiten der Phonetiker Daniel Jones (London), Peter Ladefoged (Los Angeles), Björn Lindblom (Stockholm), Klaus Kohler (Kiel) und John Ohala (Berkeley), des Psychologen Alvin Liberman (Yale) und der Elektroingenieure Gunnar Fant (Stockholm) und Ken‐ neth Stevens (MIT) auf. Anknüpfend an de Saussure etablierten Roman Jakobson (Prag, Harvard/ MIT), Nikolai Trubetzkoy (Wien) und andere Vertreter der sogenannten Prager Schule zu Beginn des 20. Jh. die Phonologie als Teildisziplin der Sprach- und damit Geisteswis‐ senschaft, die sich von der von ihnen in der Naturwissenschaft verorteten Phonetik unterscheidet (Trubetzkoy 1939). 13 Noam Chomsky und Morris Halle (beide MIT) führten die Trennung zwischen Langue und Parole in der sogenannten generativen Phonologie in Form der Konzepte Kompetenz und Performanz fort und etablierten - aufbauend auf Ideen von Trubetzkoy und Jakobson - das Konzept der distinktiven Merkmale, subphonemischen Einheiten, die in Kapitel 5 vorgestellt werden. In Folge der generativ-phonologischen Tradition haben sich eine Reihe weiterer phonologische Theorien entwickelt, von denen in diesem Buch jedoch nur in autosegmentale Ansätze eingeführt wird (Kap. 6 und 9; auf die Optimalitätstheorie wird nur am Rande verwiesen). Mit Blick auf die Phonologie des Deutschen lernen wir Analysen von Tracy Alan Hall (Bloomington) und Richard Wiese (Marburg) kennen. Darüber hinaus wird in Kapitel 2 die Artikulatorische Phonologie, die auf Cathe‐ rine Browman und Louis Goldstein (beide Yale) zurückgeht, und in Kapitel 8 ein exemplarbasiertes Modell zur Sprachwahrnehmung, zu dem Janet Pierrehumbert (Northwestern/ Oxford) wichtige Beiträge geleistet hat, vorgestellt. Die beiden theore‐ tischen Ansätze können der sogenannten Laborphonologie zugerechnet werden, in der u. a. phonetische Vorgänge auf Grundlage signalphonetischer Daten anstelle von symbolphonetischen Ereignissen phonologisch modelliert werden (vgl. 1.1.3) und die damit der strikten Trennung von Phonetik und Phonologie entgegenwirkt. Auch wenn es sich bei der Phonetik und Phonologie um getrennte Disziplinen handelt, so ist eine Kenntnis beider Gebiete unabdingbar, nicht zuletzt aufgrund • desselben Untersuchungsgegenstands: das System gesprochener Sprache, • ähnlicher Fragestellungen: z. B. den Gründen für sprachübergreifend häufige bzw. seltene Lautkombinationen, • vielfacher Schnittstellen: z.-B. der Beschreibung phonetischer Form und phonolo‐ gischer Funktion von Sprachlauten. 1.5 Zwei Disziplinen, ein Buch 45 <?page no="47"?> 14 Natürlich weisen auch die anderen hier aufgelisteten linguistischen Disziplinen Schnittstellen mit anderen Wissenschaftsgebieten auf, wie z.-B. der Sprachtherapie, Psychologie und Statistik. Die Verortung der Phonetik und Phonologie im Kontext anderer Wissenschaftsbereiche ist in Abb. 7 skizziert. Die Schnittstellenanbindung wurde dabei bewusst auf die Grenze zwischen Phonetik und Phonologie gesetzt. 14 Abb. 7: Phonetik und Phonologie im Kontext anderer Wissenschaftsgebiete. Übungsaufgaben 1. Ergänzen Sie die unter (1) genannte Minimalreihe (s. S. 26) um weitere Phoneme des Deutschen. 2. Wie viele Sprachlaute, die im Deutschen vorkommen fallen Ihnen ein? Wie viele davon sind Phoneme? 3. Welche Sprachlaute fallen Ihnen ein, die kein Phonem des Deutschen, aber einer anderen Sprache sind? 4. Welches Graphem des Deutschen entspricht einem weiteren Beispiel für eine haplographische Beziehung? 46 1 Einführung und Grundlagen <?page no="48"?> Weiterführende Literatur Als deutschsprachige Einführung in die Phonetik im Allgemeinen bietet sich das gleich‐ namige Buch von P OM P IN O -M A R S CHALL (2009) an, als deutschsprachige Einführung in die Phonologie das ebenfalls gleichnamige Buch von H ALL (2011). Beide führen jeweils vertiefend in ihren Bereich ein, besprechen viele sehr unterschiedliche Sprachbeispiele und sind für Einsteiger: innen gut geeignet. Ebenfalls deutschsprachig ist die „Einführung in die Phonetik des Deutschen“ von K OHL E R (1995); dieses Standardwerk in Bezug auf die Beschreibung des phonetischen Systems des Standarddeutschen bietet sich für Fortgeschrittene an, die an einer umfassenden phonetischen Analyse des Deutschen mit vielen Anknüpfungen zur Phonologie interessiert sind. Von Richard W I E S E liegt die 1996 erschienene englischsprachige Phonologie des Deutschen („The Phonology of German“) vor, ebenfalls ein Standardwerk in Bezug auf die Beschreibung des phonologischen Systems des Deutschen. Eine für Einsteiger: innen sehr empfehlenswerte englischsprachige Einführung in die Phonetik im Allgemeinen ist „A Course in Phonetics“ von L AD E F O G E D & J OHN S ON (2011). Ungeachtet vieler Bezüge zum Englischen, liefert das Buch viele Beispiele aus anderen Sprachen und sehr leicht zugängliche Erklärungen insbesondere im Bereich der artikulatorischen und akustischen Phonetik. Wer mehr über die Verbreitung und Verwendung der überregionalen Standardaus‐ sprache im Vergleich zu regionalen Varianten erfahren möchte, dem sei das kurze Kapitel zur Standardaussprache des Deutschen in der Einführung zur 6. Auflage des Duden-Aussprachewörterbuchs von K L E IN E R & K NÖB L (2015) inklusive weiterer Literaturhinweise empfohlen sowie das Buch „Sprachdynamik: Eine Einführung in die moderne Regionalsprachenforschung“ von S CHMIDT & H E R R G E N (2011). Für eine ausführlichere Beschreibung der Beziehung von Sprachlauten und Buch‐ staben s. die „Einführung in die Phonologie und Graphematik“ von F UH R HO P & P E T E R S (2013). Ebenfalls empfehlenswert als Einführung in diese Thematik, die zudem die Brücke zur Gebärdensprache schlägt, ist die Einleitung zum „Handbuch Laut, Gebärde, Buchstabe“ von D OMAH S & P R IMU S (2016). Ausführlichere Informationen zur historischen Entwicklung des Wissenschaftsge‐ bietes finden sich u.-a. in K OHL E R (2000) und in H AẞL E R & N E I S (2009). Als allgemeine Einführung in die Sprachwissenschaft empfiehlt sich Y U L E (1996) und hier insbesondere die Seiten 19-31 zu den Eigenschaften von Sprache und den Unterschieden zu anderen Kommunikationsformen im Tierreich. Für die Klärung von Begriffsdefinition stehen diverse sprachwissenschaftliche Lexika und Enzyklopädien zur Verfügung, z. B. das „Lexikon der Sprachwissenschaft“ von B UẞMANN (2002, inzwischen in vierter Auflage erschienen), das Metzler Lexikon Sprache von G LÜC K & R ÖD E L (2016), die vierbändige „International Encyclopedia of Linguistics“ von F R AWL E Y (2003) sowie die „Cambridge Encyclopedia of Language“ und „A dictionary of Linguistics and Phonetics“ von C R Y S TAL (2010, 2011). 1.5 Zwei Disziplinen, ein Buch 47 <?page no="50"?> 2 Artikulation und Phonation Überleitung und Ziele Artikulation beschreibt die Produktion von Sprachlauten mit dem Sprechapparat. Einführungen in die Phonetik behandeln im Rahmen der artikulatorischen Pho‐ netik recht detailliert die Anatomie (= Aufbau) und Physiologie (= Funktion) des Sprechapparats (z. B. Pompino-Marschall 2009). Sprachwissenschaftliche Einführungen z. B. in die Phonologie beschreiben die Grundlagen der Phonetik mitunter fast ausschließlich mit Blick auf die Artikulation (z. B. Hall 2011). Dies ist u. a. mit der historisch bedingt größtenteils artikulatorisch basierten symbolphonetischen Sprachlautbeschreibung zu erklären wie auch mit der Rolle des Sprechenden in der Phon-Erzeugung. Breit gefächerte Untersuchungen zur Akustik und auditiven Perzeption gesprochener Sprache begannen erst, als Phonetik und Phonologie schon getrennte Disziplinen waren. Auch wenn der ohrenphonetisch-artikulatorische Zugang zur Phonetik bis heute der einfachste und am weitesten verbreitete ist, so gilt es dennoch, sorgfältig zwischen der arti‐ kulatorisch-deskriptiven Phonetik, mit der phonetische Einheiten wie Sprachlaute artikulatorisch beschrieben werden, und einer sprachphysiologisch orientierten artikulatorischen Phonetik zu unterscheiden, die sich u. a. gezielt mit Artiku‐ lationsabläufen in der Sprachlautproduktion beschäftigt (z. B. dem zeitlichen und muskulären Ablauf der (Stimm-)Lippenschließung). Zentrale Themen dieses Kapitels sind • die Anatomie und Physiologie des Sprechapparates, • die sich daraus ergebenden artikulatorischen Beschreibungseinheiten (rele‐ vant für die Sprachlautbeschreibung mittels des IPA in Kap. 4), • Luftstrommechanismen, Stimmqualität und Phonation, • nicht pulmonale Sprachlaute, • die auf Grundlage artikulatorisch-signalphonetischer Untersuchungen her‐ vorgegangene Artikulatorische Phonologie. 2.1 Anatomie und Physiologie des Sprechapparats Um Sprachlaute, wie sie in 1.1.2 definiert worden sind, zu produzieren, ist ein kom‐ plexes Zusammenspiel verschiedener Körperteile erforderlich, wobei es insbesondere auch auf ein genaues Timing der Körperteilbewegung ankommt. Zu den Körperteilen gehören z. B. die Lunge, der Kehlkopf, die Zunge und die Zähne. Sie alle sind Teil des menschlichen Sprechapparates, werden aber nicht ausschließlich zum Spre‐ <?page no="51"?> chen genutzt, sondern erfüllen eine Reihe anderer wichtiger Funktionen wie Atmen, Kauen, Schmecken oder Beißen. Der Sprechapparat kann grob in den sogenannten subglottalen Raum unterhalb der im Kehlkopf befindlichen Stimmlippen und in den darüber liegenden supraglottalen Raum, der auch als Vokaltrakt bezeichnet wird, unterteilt werden (s. Abb. 8). Eine solche Unterteilung, die auch der Gliederung in untere (subglottal) und obere Atemwege (supraglottal) entspricht, ist nicht nur wegen der sich anbietenden getrennten Beschreibung der beiden Hauptkomponenten Kehlkopf und Vokaltrakt, wie sie hier vorgenommen wird, sinnvoll, sondern aus phonetischer Sicht auch aufgrund der für die Tonerzeugung wichtigen Druckunter‐ schiede in den zwei Räumen (s. 2.3). Die Sprachlauterzeugung ist in der Regel nur im Zusammenspiel sub- und supraglottaler Komponenten denkbar (s. 2.3.2) und nicht allein durch die veränderbare Form des Vokaltraktes. In den beiden nachfolgenden Unterkapiteln werden die relevanten Körperteile von unten und innen nach oben und außen beschrieben, da dies den Weg des für die Sprachlauterzeugung so wichtigen ausströmenden Luftstroms sowie der Schallerzeugung (Phonation) und -modifikation (Artikulation) widerspiegelt. Für die anatomische Beschreibung sind dabei folgende Ebenen und Achsen des Körpers wichtig: frontal Blick von vorn, stirnseitig sagittal Seitenansicht transversal Horizontalebene, Blick von oben/ unten dorsal Rückseitig gelegen ventral bauchseitig gelegen Zusätzlich zu den deutschen Begriffen werden in Klammern jeweils auch die lateini‐ schen Termini für die entsprechenden Körperteile eingeführt; im Textverlauf werden dann aber für eine bessere Verständlichkeit soweit wie möglich die deutschen Begriffe verwendet. Auf die Innervation wird nur vereinzelt und auch nur am Rande einge‐ gangen. Die Begriffe und deren Beschreibungen orientieren sich am Pschyrembel Klinischen Wörterbuch ([Anon.] 1998). 50 2 Artikulation und Phonation <?page no="52"?> 2.1.1 Subglottaler Raum und Kehlkopf Abb. 8: Skizze des menschlichen Sprechapparats mit Lunge, Luftröhre, Kehlkopf, Mund- und Nasen‐ höhle. Neben der Unterteilung in sub-, intra- und supraglottalen Raum sind deren wichtigste Funktionen im Sprachproduktionsprozess benannt. Ausgangspunkt für die Produktion der überwiegenden Mehrheit aller Sprachlaute ist die Generierung eines Luftstroms durch Ausatmung (Exspiration), wobei Luft aus den in den zwei weit verzweigten Hauptbronchien der Lunge (Pulmo) befindlichen Lungenalveolen (alveolus pulmonis) ausströmt und über die Luftröhre (Trachea) in Richtung Kehlkopf (Larynx) geleitet wird (vgl. Abb. 8, s. 2.3 zur Beschreibung von Luftstrommechanismen). Die Anatomie der Lunge soll an dieser Stelle nicht genauer beschrieben werden. Entscheidend für das Verständnis ihrer Funktion im Rahmen des 2.1 Anatomie und Physiologie des Sprechapparats 51 <?page no="53"?> 15 Mit dem Begriff wird vereinfacht die Gruppe der Neuronen des zentralen Nervensystems beschrie‐ ben, die aktiv oder passiv eine Steuerung der Atemmuskulatur mitbewirkt. Sprechvorgangs ist zunächst lediglich, dass (1) Atmung neuronal durch das Atemzent‐ rum 15 und muskulär durch Atemmuskeln gesteuert und (2) Ausatmung durch einen intrapulmonalen Überdruck ausgelöst wird, der durch Einatmen (Inspiration) entsteht. Während (1) und (2) jedoch auch grundsätzlich für die lebenswichtige physiologische Atmung zutreffen, ist die Sprechatmung dadurch gekennzeichnet, dass (3) die Exspi‐ rationsphase während des Sprechvorgangs durch gleichzeitige Innervierung einiger Inspirationsmuskeln verlangsamt wird. Die Aktivierung der Einatmungsmuskeln bremst also die Sprech-Ausatmung, die es uns ermöglicht, über einen längeren Zeit‐ raum viele Sprachlaute in einer einzigen Atemphase (Engl. breath group) zu produzie‐ ren. Das kann man leicht testen, indem man einmal bei dem Versuch die Zeit stoppt, so viele Wörter einer längeren Textpassage wie möglich in einem Atemzug laut zu lesen, solange bis man wieder einatmen muss. Diese Zeit wird mit Sicherheit deutlich über der liegen, die man für ein langes Ausatmen ohne Sprechen braucht. Ein erstes Merkmal der Sprachproduktion, insbesondere längerer Äußerungen, ist also, dass sie durch den Wechsel von vergleichsweise schnellen und tiefen Inspirationsphasen (auch wenn uns diese nicht immer bewusst sind) und viel langsameren und flacheren Exspi‐ rationsphasen gekennzeichnet ist. Infolgedessen weist Sprechatmung im Vergleich zu physiologischer Atmung weniger Atemzyklen pro Minute auf (s. Werner et al. 2021). Bei der Sprechatmung wird die Exspiration durch Aktivierung der Inspirations‐ muskulatur gebremst und dadurch die Exspirationsphase gelängt. Die 10-12 cm lange Luftröhre besteht aus 16-20 hufeisenförmigen Knorpelspangen und verbindet die Hauptbronchien mit dem Kehlkopf. Sie dient der Weiterleitung des Luftstroms sowohl beim Ein- als auch beim Ausatmen. 52 2 Artikulation und Phonation <?page no="54"?> Abb. 9: Schematische Darstellungen des Kehlkopfes von dorsal mit Muskeln (links), sagittal mit Knor‐ peln (Mitte) und sagittal mit Muskeln (rechts) nach Netter (2015: Tafeln 79, 80). Beide Sagittalschnitte zeigen von dorsal (links) nach ventral (rechts). Beschriftet sind die für den Sprechvorgang wichtigen Knorpel (Cart. mit Fortsätzen Proc.) und Muskeln (M.). Der Kehlkopf ist der Sitz der für die Tonerzeugung wichtigen Stimmlippen und stellt allgemein eine Pforte zwischen den oberen und den unteren Atemwegen dar. Es handelt sich dabei um ein u. a. durch Bänder (Ligamente) verbundenes Knorpelge‐ rüst, dessen Beweglichkeit durch Kehlkopfmuskeln gesteuert wird (s. Abb. 9). Der Ringknorpel (Cartilago cricoidea) liegt ringförmig auf der Luftröhre auf und ist dorsal höher als ventral. In diesem hinteren Bereich sind jeweils seitlich die zwei Platten des größten Kehlkopfknorpels, dem Schildknorpel (Cartilago thyroidea), verankert, die nach vorne spitz zulaufen und sich an der Vorderseite des Halses gut ertasten lassen. Bei Männern verdickt sich der Schildknorpel im vorderen Bereich während der Pubertät; diese Vorwölbung des Schildknorpels ist unter dem Namen Adamsapfel bekannt und auch von außen gut sichtbar. Ebenfalls im dorsalen und höheren Bereich des Ringknorpels sitzen zudem die zwei Stellknorpel (auch Aryknorpel, Cartilago Arytaenoida) mit den beiden Fortsätzen (Processus) Proc. muscularis und Proc. vocalis auf. Zwischen den Proc. vocalis der Stellknorpel und der Rückfläche des Schildknorpels befinden sich die Stimmlippen (auch Stimmfalte, Plicae vocales, Engl. vocal folds; s. Abb. 10). Es handelt sich dabei um zwei Falten aus elastischem Gewebe, die Stimmband (Ligament vocale) und Stimmmuskel (Musculus vocalis) enthalten. Die Stimmlippen sind nicht nur mit den o. g. Kehlkopfknorpeln, sondern auch seitlich fest verbunden. Aufgrund dieser Form und des dadurch bedingten Schwingungsverhaltens wird in der phonetischen Literatur eher der Begriff Stimmlippen verwendet als der Begriff 2.1 Anatomie und Physiologie des Sprechapparats 53 <?page no="55"?> Stimmbänder. Der Raum zwischen den Stimmlippen wird als Glottis (auch Stimmritze) bezeichnet. Liegen die Stimmlippen aneinander an, so ist die Glottis geschlossen; berühren sich die Stimmlippen hingegen nicht, so ist die Glottis geöffnet. Abb. 10: Transversalansicht des Kehlkopfes von oben mit geöffneter Glottis und Stimmlippen während der Einatmung (links) und den Mm. vocales et thyroarytaenoidei bei angenäherten Stimmbändern (rechts) nach Netter (2015: Tafeln 80, 81). Beide Ansichten zeigen von dorsal (unten) nach ventral (oben). Die Pfeile markieren die Möglichkeit zum Verkürzen und Erschlaffen der Stimmlippen. Bei physiologischer Atmung ist die Glottis in der Regel vergleichsweise weit geöffnet, sodass ein Luftstrom ungehindert entweichen kann. Für die Tonerzeugung im Rahmen des Sprechvorgangs bringen wir jedoch die Stimmlippen immer wieder zum Schwin‐ gen. Dies geschieht u. a. durch die Kehlkopfmuskulatur. Zwei Muskeln fungieren als Stimmbandspanner: Zum einen wird das Stimmband durch eine Annäherung des Schildknorpels an den Ringknorpel gespannt. Diese wird durch den Musculus cricothyroideus bewirkt, der den oberen Rand des Ringknorpels mit dem unteren Rand des Stellknorpels verbindet. Zum anderen werden die Stimmlippen durch den sogenannten Musculus vocalis, genauer Musculus thyroarytaenoideus, der vom Schildknorpel ausgehend zu den beiden Stellknorpeln verläuft, gespannt und zusätzlich verengt. Die Verengung wird auch Adduktion genannt, da eine Stimmlippe an die Körperlängsachse herangezogen wird. Die dafür zuständigen Muskeln werden als Adduktoren bezeichnet. Die eigentlichen Adduktoren der Kehlkopfmuskulatur, die zur Schließung der Glottis führen (daher auch Stimmritzenverenger), sind aber der Musculus cricoarytaenoideus lateralis, der vom Ringknorpel zu den Stellknorpeln führt und den vorderen Bereich der Glottis schließt, sowie der Musculus arytaenoi‐ deus obliquus und der Musculus arytaenoideus transversus, die beide jeweils zwischen den Stellknorpeln verlaufen und den hinteren Bereich der Glottis schließen. 54 2 Artikulation und Phonation <?page no="56"?> Abduktoren wie der Musculus cricoarytaenoideus posterior, der wiederum vom Ringzum Stellknorpel führt, bewirken hingegen eine Bewegung weg von der Körper‐ mitte und in diesem Fall die Öffnung der Glottis (daher auch Stimmritzenerweiterer). Bei der Adduktion werden die Stellknorpel in einer gleitenden Rotationsbewegung nach innen gekippt, sodass sie sich annähern, bei der Abduktion nach außen, sodass sie sich voneinander entfernen (mehr dazu in 2.3.1). Die Verbindung zwischen den Kehlkopfknorpeln und -muskeln sowie deren Zusammenspiel ist in Abb. 11 schema‐ tisch dargestellt. Abb. 11: Schematische Darstellung des anatomisch-physiologischen Zusammenspiels der Kehlkopf‐ muskulatur. Die wichtigste Funktion der Stimmlippen im Rahmen des Sprechvorgangs ist die als Phonation bezeichnete Grundtonerzeugung durch Stimmlippenschwingung, bei der sich die Glottis bis zu mehrere hundert Mal pro Sekunde öffnet und schließt. Das Schwingungsverhalten wird u. a. im Rahmen der Sprachakustik in 3.2.1 genauer erklärt. Neben der muskulären Anspannung hängt es auch von anatomischen Eigenschaften wie Länge und Masse der Stimmlippen ab, die alters- und geschlechtsbedingt variieren (s. 3.2.3). Während Abduktion v. a. für die Atmung wichtig ist, spielt die Adduktion für die Phonation eine große, wenn auch nicht die alleinige Rolle. Was es neben Adduktion zur Phonation bedarf, wird in 2.3 beschrieben. 2.1 Anatomie und Physiologie des Sprechapparats 55 <?page no="57"?> Abschließend sei der Vollständigkeit halber noch auf zwei weitere, oftmals in Darstellungen des Kehlkopfes angedeutete Körperteile hingewiesen, die jedoch für das Verständnis des Sprechvorgangs keine entscheidende Rolle spielen (s. Abb. 12): Mit dem Kehldeckel (Epiglottis) wird der Kehlkopf beim Schlucken teilweise verschlossen. Das Zungenbein (Os hyoideum) ist ein kleiner, nur an Muskeln und Bändern aufgehängter Knochen zwischen Kehlkopf und Unterkiefer, der zur Beweglichkeit der einzelnen Komponenten des Sprechapparates beiträgt. 2.1.2 Vokaltrakt (supraglottaler Raum) Oberhalb des Kehlkopfes schließt sich der mit Schleimhaut ausgekleidete Rachenraum (Pharynx) an, der sich in Laryngopharynx (Schlundrachen), Oropharynx (Mund‐ rachen) und Nasopharynx (Nasenrachen) untergliedern lässt. Untermittelbar ober‐ halb des Kehlkopfes schließt zunächst der Laryngopharynx an, der nach unten durch die Epiglottis begrenzt ist und sich weiter oben in Mund- und Nasenrachen verzweigt (s. Abb. 12). Der Mundrachen öffnet sich nach vorne hin weiter zur Mundhöhle, der Nasenrachen zur Nasenhöhle. Pharynx, Mund- und Nasenhöhle bilden zusammen den Vokaltrakt, der v. a. unter akustischen Gesichtspunkten mitunter auch als Ansatzrohr bezeichnet wird, da dieser Bereich im Rahmen des Sprechvorgangs als Resonator fungiert (s. 3.2.2). Die Mundhöhle wird grob nach oben durch den unbeweglichen Oberkieferknochen (Maxilla), nach unten durch den beweglichen Unterkieferknochen (Mandibula) und nach vorne und seitlich durch den oberen und unteren Zahnbogen bzw. die Lippen und Wangen begrenzt. Die Nasenhöhle (Engl. nasal cavity) ist paarig angelegt: Linke und rechte Nasenhöhle werden durch die Nasenscheidewand getrennt und bestehen jeweils aus drei durch knöcherne Nasenmuscheln gestützte Nasengänge. Der untere Nasengang (Meatus nasi inferior) bildet die Verbindung zum Nasopharynx und zählt zu den oberen Atemwegen. Im Rahmen des Sprechvorgangs wird die Nasenhöhle als zusätzlicher Resonator genutzt. 56 2 Artikulation und Phonation <?page no="58"?> Abb. 12: Sagittalschnitt durch den Pharynx mit Kehlkopf, Mund- und Nasenhöhle und Beschriftung der wichtigsten Komponenten des Kehlkopfes und des Vokaltraktes nach Netter (2015: Tafel 64). Zur Un‐ terteilung der Zunge s. 2.2. Die Verzweigung in Mund- und Nasenhöhle erfolgt am beweglichen Velum (kurz für lat. Velum palatinum, auch Gaumensegel), dem weichen Teil des Gaumens, den wir gerade noch mit der Zungenspitze ertasten können, wenn wir diese weit nach hinten biegen. Wird das Velum angehoben, ist der Zugang zur Nasenhöhle verschlossen. Bei gesenktem Velum ist der Zugang zum Nasenraum offen. In Richtung Laryngopharynx geht das Velum in die Uvula über, das Gaumenzäpfchen, das bei geöffnetem Mund und Frontalansicht gut sichtbar ist. Das Velum selbst ist eine Fortsetzung des harten Teils des eigentlichen Gaumens, dem Palatum (auch harter Gaumen). Das Palatum setzt sich aus Knochenteilen des Oberkiefers und des Gaumenbeins, einem weiteren Schädelknochen, zusammen. Vor dem Palatum befindet sich der Alveolarfortsatz, ein Knochenbogen des Oberkieferknochens, in dem sich die Alveolen (Zahnfächer, Alveoli 2.1 Anatomie und Physiologie des Sprechapparats 57 <?page no="59"?> dentales) befinden. Auch der Unterkiefer weist einen solchen Alveolarfortsatz mit Alveolen auf. Während jedoch der Alveolarfortsatz des Oberkiefers für die Produktion bestimmter Sprachlaute sehr wichtig ist, trägt der Alveolarfortsatz des Unterkiefers nur zur allgemeinen Form des Vokaltrakt-Resonators bei. Für die Einzellautproduktion spielt er keine Rolle (s. 2.2 und 4.2). In diesem Buch bezieht sich daher der Begriff Alveolarfortsatz ausschließlich auf den Alveolarfortsatz des Oberkiefers. Auch die im Oberkiefer verankerten Zähne, und hier insbesondere die oberen Schneide- und Eckzähne, sowie die Ober- und Unterlippe werden für die Sprachlautproduktion funktional genutzt. Die Lippen markieren gleichzeitig das Ende des Ansatzrohrs. Neben dem Velum sind auch Lippen, Zähne, Alveolarfortsatz und Palatum gut zu ertasten, z.-B. mit der Zungenspitze, und vergleichsweise einfach von außen untersuchbar. Auf dem Boden der Mundhöhle befindet sich die Zunge (Lingua), die insbesondere bei Ruhestellung und geschlossenem Kiefer den Großteil der Mundhöhle einnimmt. Bei der Zunge handelt es sich um einen aus mehreren Muskeln bestehenden Muskelkörper, der wie auch der Rest der Mundhöhle (mit Ausnahme der Zähne) von Schleimhaut über‐ zogen und sehr beweglich ist. Mittels der auf der Zunge befindlichen entsprechenden Sinnesorgane nutzen wir die Zunge einerseits zum Tasten und anderseits zum Schme‐ cken. Darüber hinaus ist die Zunge das zentrale Organ für die Sprachlauterzeugung, das an der Produktion sehr vieler Sprachlaute beteiligt ist. Aufgrund ihrer Dehnbarkeit trägt sie während des Sprechens zur ständigen Formveränderung des Vokaltraktes bei. Das Zusammenspiel der extrinsischen und intrinsischen Zungenmuskulatur ist dabei sehr komplex und soll hier nicht näher beschrieben werden (s. aber z. B. Pompino-Marschall 2009). Nur so viel: Von den extrinsischen Zungenmuskeln M. genioglossus (vom Kinn zur Zunge verlaufend, auch Zungenherausstrecker) und M. hyoglossus (vom Zungenbein zur Zunge verlaufend) wird die Zunge nach vorne und unten bzw. hinten und unten gezogen. Durch intrinsische Zungenmuskeln wird die Zunge verformt (z.-B. Verlängern durch Verschmälern). Anatomisch untergliedert wird die Zunge in die Zungenspitze (Apex linguae), den Zungenkörper (Dorsum linguae) und den Zungengrund (auch Zungenwurzel, Radix linguae), der bis zur Epiglottis reicht. Der Begriff Zungendorsum beschreibt einerseits die Oberseite der Zunge, andererseits und insbesondere in der Phonetik aber vor allem den hinteren (und oberen) Bereich des Zungenkörpers. Die Beweglichkeit der Zunge nimmt von ihrer Spitze nach hinten hin deutlich ab, was eine wichtige Rolle beim zeitlichen Zusammenspiel der Körperteile während des Sprechvorgangs spielt. Mit Blick auf die Rolle der Zungenform für die Beschreibung der Sprachlautartikulation bietet es sich an, die Zunge noch feiner zu unterteilen, auch wenn die Grenzen nicht eindeutig bestimmbar sind: Unmittelbar hinter der vorderen Zungenspitze schließt auf der Zungenoberseite das Zungenblatt an, das wiederum an den prädorsalen Bereich angrenzt. Analog hierzu lässt sich auch ein postdorsaler Bereich zwischen Zungenrücken und Zungengrund beschreiben. Vor allem die Zungenspitze und alle Teile des Zungenrückens sind für viele Sprachlaute von zentraler Bedeutung. Der Zungengrund ist zwar ebenfalls an der Artikulation mancher Laute beteiligt, im 58 2 Artikulation und Phonation <?page no="60"?> Vergleich zu Zungenspitze und Zungenkörper jedoch seltener. Auch die Unterseite der Zungenspitze kann für die Sprachlauterzeugung relevant sein; die artikulatorische Beschreibung der Sprachlauterzeugung bezieht sich aber in den meisten Fällen auf die Zungenoberseite. 2.2 Artikulationsstellen und -organe Bei der artikulatorischen Beschreibung der Sprachlautproduktion gilt es nun einerseits das aktive Artikulationsorgan zu benennen, das an oder in Richtung einer ansonsten passiven Artikulationsstelle (auch Artikulationsort) bewegt wird und somit dem Vokaltrakt eine lautabhängige charakteristische Form verleiht. Während in vielen Fäl‐ len die Zunge bzw. ein bestimmter Zungenteil als aktives Artikulationsorgan benannt werden kann, so entsprechen die Körperteile, die die Mundhöhle nach oben begrenzen in vielen Fällen der Artikulationsstelle. Ein Beispiel: Beim ersten Laut des Wortes dein berührt die Zungenspitze den Alveolarfortsatz. Da bei dieser Sprachlautartikulation die flexible Zungenspitze zum unbeweglichen Alveolarfortsatz geführt wird, handelt es sich (1) bei der Zungenspitze um das Artikulationsorgan, (2) beim Alveolarfortsatz um die Artikulationsstelle und (3) bei einer genauen artikulatorischen Beschreibung des Sprachlautes um einen alveolo-apikalen Verschlusslaut. Die Artikulationsstelle ist einer der Hauptparameter im IPA um Konsonanten artikulatorisch zu beschreiben (vgl. 2.1.2). Mittels des Attributs apikal wird in unserem Beispiel genau der Bereich des Artikulationsorgans beschrieben, der die aktive Bewegung ausführt, in diesem Fall die Zungenspitze. Daneben sind vier weitere Attribute in der Phonetik und Phonologie gebräuchlich, um die Bereiche • des Zungenblatts (laminal), • der Vorderzunge (koronal, d.-h. laminal und apikal zusammen), • des Zungenrückens (dorsal) und • der Zungenwurzel (radikal) zu benennen. Für die Beschreibung der anderen drei möglichen Artikulationsorgane Unterlippe, Uvula und Stimmlippen sind keine zusätzlichen Attribute notwendig. Stellt man Sprachlaute mittels der Parameter dar, die das IPA vorgibt, so werden nicht grundsätzlich Artikulationsorgan und -stelle genannt (vgl. 1.4.1, s. Kap. 4). In vielen Fällen genügt die Benennung der Artikulationsstelle, da eine zusätzliche Be‐ schreibung des Artikulationsorgans als redundant erachtet wird. Im Falle des alveola‐ ren Verschlusslautes [d] im Deutschen gilt sowohl die Zungenspitze (Pompino-Mar‐ schall 2009) als auch das Zungenblatt (Krech et al. 2009) als mögliches Artikulationsorgan. Im Schwedischen werden ebenfalls durch das Graphem ⟨d⟩ reprä‐ sentierte Laute (z. B. in dop ‚Taufe‘) eher lamino-denti-alveolar artikuliert, d. h. mit dem Zungenblatt als Artikulationsorgan gegen den vorderen Teil des Alveolarfortsatz, so‐ 2.2 Artikulationsstellen und -organe 59 <?page no="61"?> dass die Zungenspitze auch die Zähne berührt (Engstrand 1999). Produziert man an‐ hand dieser Darstellung einmal einen apiko-alveolaren, lamino-alveolaren und einen lamino-denti-alveolaren Verschlusslaut, merkt man, dass die drei Laute recht ähnlich klingen. Das IPA unterscheidet daher - trotz der Unterschiede in der Artikulation - auch nicht zwischen diesen Artikulationsformen, sondern verwendet für die breite Transkription dasselbe Symbol. In einer engen Transkription kann mittels des ent‐ sprechenden Diakritikums das Artikulationsorgan benannt werden (z.-B. apikal = [d̺], laminal = [d̻]); im interaktiven IPA kann man sich beide Varianten anhören (s. Link auf S. 37). Bei der Lautklasse der Frikative, zu denen die jeweiligen Anfangslaute der Wörter Wein und sein zählen, führt eine Artikulation an der dentalen Artikulationsstelle durchaus zu hörbaren Unterschieden. Das IPA nutzt daher unterschiedliche Symbole zur breiten Transkription der dentalen und der alveolaren Artikulationsstelle, um zum Beispiel den phonemischen Unterschied zwischen den Anfangslauten des englischen Minimalpaars thing [θɪŋ] (dental) vs. sing [sɪŋ] (alveolar) zu markieren. Im Gegensatz zum Verschlusslaut wird hier das aktive Artikulationsorgan nur sehr nah an die Artikulationsstelle bewegt, ohne diese dabei zu berühren. Auch wenn das Artikulati‐ onsorgan, die Zunge, bei dieser Lautklasse wiederum leicht anders geformt ist - sowohl im Vergleich zur Artikulation des Verschlusslautes an gleicher Stelle als auch zur Artikulation des Frikativs an anderer Stelle -, so bleibt im Falle eines dentalen und alveolaren Frikativs die Benennung des Artikulationsorgans in der Regel redundant, solange die Artikulationsstelle explizit benannt wird. Beim Anfangslaut von Wein hingegen ist es wiederum notwendig, auch das Artikulationsorgan zu benennen, das in diesem Fall die Unterlippe ist, die sich den oberen Schneidezähnen annähert und diese leicht berührt. Diesen Sprachlaut klassifiziert das IPA direkt als labiodental. Auch in anderen Fällen werden Artikulationsstellen namentlich genauer spezifi‐ ziert, auch wenn es sich bei einem solchen Zusatz nicht grundsätzlich um das Artikulationsorgan handelt (z. B. bei retroflex). Insgesamt unterscheidet das IPA elf Artikulationsstellen, wobei der Begriff in diesem Kontext breiter gefasst ist als oben definiert, d. h. manchmal, aber nicht immer, ist das Artikulationsorgan Bestandteil der Artikulationsstellenbenennung. Die elf IPA-Artikulationsstellen sind in Tab. 2 anhand von Beispielwörtern, wenn möglich aus dem Standarddeutschen, aufgeführt, wobei das einen Laut repräsentierende Graphem unterstrichen ist. Zudem wird das Artikulationsorgan benannt, das in Richtung der Artikulationsstelle bewegt wird, wobei es diese nicht berühren muss. Die Zunge ist in dieser Übersicht nur grob bzw. anatomisch in den vorderen Teil der Zungenspitze und den hinteren Teil des Zungenrückens unterteilt (vgl. 2.1.2). 60 2 Artikulation und Phonation <?page no="62"?> 16 r-gefärbte Vokale werden auch als retroflexe Vokale bezeichnet. Viele Sprecher: innen amerika‐ nisch-englischer Varietäten weisen jedoch keine retroflexen Laute in ihrer Aussprache auf, im Gegensatz zu Sprecher: innen indisch-englischer Varietäten (s. Ladefoged & Johnson 2011: 94, 165.) 17 Der vordere Bereich, mitunter auch der hintere Bereich des Zungenblatts. 18 Rues et al. (2007) beschreiben das Vorkommen von Pharyngalisierung, durch [ˤ] gekennzeichnet, in der alemannisch-schwäbischen Umgangssprache, z. B. Lehrer [lˤëːʁ̞ɐˤ], wobei sowohl das ⟨l⟩ als auch die ⟨er⟩-Endung pharyngalisiert werden (die anderen IPA-Symbole spielen für uns keine Rolle). Diesem Beispiel wird hier aus Gründen einer breiteren Verständlichkeit der Vorzug gegenüber einem Beispiel aus einer arabischen Varietät gegeben, die pharyngale Laute als Phoneme kennen. Um einen Eindruck einer pharyngalisierten ⟨er⟩-Endung zu bekommen, spricht man Wörter wie Lehrer oder Vater aus und zieht beim letzten Laut die Zunge weit nach hinten; so wird die pharyngale Enge zwischen Zungenwurzel und Oropharynx gebildet. IPA-Bezeich‐ nung Organ Stelle Beispiel bilabial Unterlippe Oberlippe Bein labiodental Unterlippe obere Schneidezähne Wein dental Zungenspitze vorderer Bereich des Alve‐ larfortsatzes oder Zähne Engl. thing alveolar Zungenspitze Alveolarfortsatz oder -blatt dein, sein postalveolar Zungenspitze oder -blatt hinterer Bereich des Alve‐ olarfortsatzes Schein retroflex Unterseite der Zungen‐ spitze hinterer Bereich des Alve‐ olarfortsatzes Amer. Engl. 16 fur palatal Zungenrücken 17 Palatum weich velar Zungenrücken Velum wach uvular Zungenrücken Uvula rein pharyngal Zungenwurzel Oropharynx Schwäbisch Lehrer 18 glottal Stimmlippen Stimmlippen oder Kehl‐ kopfgerüst harter Vokalein‐ satz in ein Tab. 2: Übersicht über die elf im IPA unterschiedenen und für die Konsonantenproduktion relevanten Artikulationsstellen mit Angabe des Artikulationsorgans, der Artikulationsstelle und eines Beispielwor‐ tes. Die in Tab. 2 beispielhaft aufgeführten Laute werden zusammen mit anderen pulmo‐ nalen Sprachlauten in Kapitel 4 genauer und unter Bezugnahme dieser elf IPA-Artiku‐ lationsstellen beschrieben. Was man unter pulmonalen Sprachlauten versteht, wird in 2.3.1 erklärt; nicht pulmonale Sprachlaute werden in 2.3.2 vorgestellt. 2.2 Artikulationsstellen und -organe 61 <?page no="63"?> Die Angabe der Artikulationsstelle im IPA erlaubt - zusammen mit anderen artiku‐ latorischen Beschreibungsparametern, die in 2.3 eingeführt werden - einen Rück‐ schluss auf die Artikulation eines Sprachlautes. Die Artikulationsstellen kann man sich dabei als eine Art Artikulationsziel vorstellen, bei dem das Artikulationsorgan selten länger verharrt; insbesondere im Kontext von Silben und Wörtern gilt es, schnell die darauffolgenden Artikulationsziele zu erreichen und mintunter werden Artikulations‐ ziele sogar verfehlt (s. 4.5). Dies verdeutlichen insbesondere signalphonetische Analy‐ sen, die nicht nur die Untersuchung der Sprechdynamik, sondern auch eine exaktere Beschreibung des Artikulationsziels und der Form des Artikulationsorgans ermögli‐ chen. Der Exkurs ‚Artikulatorische Signalphonetik‘ unten stellt zwei Methoden vor; das Onlinekapitel ‚Artikulatorisch-sprechphysiologische Signalphonetik‘ weitere. Artikulatorische Signalphonetik Die artikulatorische Signalphonetik untersucht mithilfe verschiedener Methoden Artikulationsvorgänge. Schon früh nach der Entdeckung der Röntgenstrahlen (Engl. X-rays) wurden Röntgenaufnahmen von Sprechern während der Sprach‐ produktion angefertigt. Diese und ähnliche Aufnahmen ergeben ein vollstän‐ digeres Bild von der Form und Position der Artikulationsorgane und der dy‐ namischen Veränderung des Vokaltraktes beim Sprechvorgang. Bei der X-ray Microbeam-Methode werden Goldpellets auf der Zungenoberfläche, den Lippen und dem Kiefer angebracht, um deren Bewegung während des Sprechvorgangs mittels gezielter Bestrahlung zu verfolgen (z. B. Browman & Goldstein 1995). Bei der elektromagnetischen Artikulographie werden hingegen Elektroden auf denselben Artikulationsorganen angebracht. Während der Sprachaufnahme ist man von einem elektromagnetischen Wechselfeld mit einer sehr geringen magnetischen Flussdichte umgeben, über das die sich während des Sprechens verändernde Position der Elektroden aufgezeichnet werden, inzwischen im drei‐ dimensionalen Raum (Hoole & Nguyen 1999). Im Gegensatz zu anderen Verfahren wird bei beiden Methoden die Zungenbewegung nicht ganzheitlich, sondern nur punktuell durch drei bis vier entlang der medianen Sagittalebene der Zunge angebrachten Sensoren erfasst. Durch Interpolation zwischen den Punkten wird die Zungenoberfläche zumindest teilweise rekonstruiert. Die Erkenntnisse, die mit diesen Methoden gewonnen wurden, haben maßgeblich zur Entwicklung der Artikulatorischen Phonologie beigetragen, die in 2.4 vorgestellt wird. 2.3 Luftstrommechanismen, Phonation und Stimmqualität Der Einfachheit halber wurde im Rahmen der anatomisch-physiologischen Beschrei‐ bung des Sprechapparats zunächst nur die aus der Lunge ausströmende Luft als Ener‐ giequelle für die Generierung eines Quellsignals an den Stimmlippen, dem Grundton, 62 2 Artikulation und Phonation <?page no="64"?> der dann im Vokaltrakt zu einem bestimmten Sprachlaut modifiziert wird, angespro‐ chen. Grund dafür war, dass die überwiegende Mehrheit der Sprachlaute pulmonal egressiv gebildet wird, und daher der Produktionsbeginn in der Lunge seinen Ausgang nimmt. Die Lunge markiert daher unbestritten einen Endpunkt des Sprechapparats. Auf der anderen Seite können Sprachlaute aber auch mit einer ingressiven Luft‐ stromrichtung, bei der Luft in den Vokaltrakt einströmt, sowie mit einer anderen Luftstromquelle erzeugt werden, d. h. nicht pulmonal. Catford (1977, 1988) unter‐ scheidet insgesamt sechs Luftstrommechanismen bzw. Initiationstypen, die sich aus der Kombination der zwei möglichen Luftstromrichtungen und insgesamt drei mögli‐ chen Quellen ergeben. Davon kommen vier in den Sprachen der Welt vor: pulmonal egressiv, velar ingressiv, glottal ingressiv und glottal egressiv. Pulmonal ingressiv und velar egressiv sind zwar möglich, kommen aber nur selten vor und werden funktional nicht genutzt. Auch kann die Stimmlippenschwingung im Tonbildungsprozess pulmonal egressiv produzierter Laute nicht allein durch Exspiration und Muskelkontraktion der Stimm‐ lippen erklärt werden. Es handelt sich vielmehr um ein komplexes Zusammenspiel der oben beschriebenen anatomischen Komponenten einerseits und aerodynami‐ scher Prozesse andererseits. Diese werden im folgenden Abschnitt zu pulmonalen Sprachlauten genauer beschrieben werden. Im Anschluss wird die Produktion nicht pulmonaler Sprachlaute behandelt. 2.3.1 Pulmonale Sprachlaute Bei pulmonalen Sprachlauten wird die für die Erzeugung eines Tons notwendige Luft‐ strömung pulmonal erzeugt. In der Regel ist die Richtung des Luftstroms egressiv, d. h. mit der Ausatmung aus dem Körper geleitet. Sprachlaute, die mit diesem Luft‐ strommechanismus und mit dieser Luftstromrichtung realisiert werden, bezeichnet man als pulmonal egressiv - dazu zählen alle bislang angesprochenen Beispiellaute. Es ist jedoch möglich, dieselben Laute auch während der Einatmung, also pulmonal in‐ gressiv, zu produzieren. Das kann man sehr leicht selbst ausprobieren, in dem man während des Einatmens z. B. von eins bis zehn zählt. Dabei fällt v. a. auf, dass die Wörter weit weniger gut hörbar sind und die Sprachproduktion auf Dauer sehr anstrengend ist. Ein Vorteil pulmonal egressiv erzeugter Sprachlaute im Vergleich zu pulmonal in‐ gressiv erzeugten Sprachlauten liegt in der Möglichkeit, die Ausatmungsphase wäh‐ rend der Sprechatmung deutlich zu längen (vgl. 2.1.1). Aufgrund dieser Vorteile werden in den Sprachen der Welt nur pulmonal egressive Sprachlaute funktional genutzt. Die Benennung der Luftstromrichtung ist daher im Kontext eines pulmonalen Luftstrom‐ mechanismus nicht zwingend notwendig. Auch wenn pulmonal ingressiv erzeugte Sprachlaute in den Sprachen der Welt vorkommen, so stellen sie grundsätzlich eine in der Regel situativ bedingte Aussprachevariante des eigentlich pulmonal egressiv er‐ zeugten Sprachlautes dar (z.-B. beim Ausdruck von Überraschung). 2.3 Luftstrommechanismen, Phonation und Stimmqualität 63 <?page no="65"?> Bis auf eine Ausnahme können alle mit einem pulmonal egressiven Luftstromme‐ chanismus realisierten Sprachlaute - egal ob Vokal oder Konsonant - mit Stimmlip‐ penschwingung produziert werden. Im Falle dieser sogenannten stimmhaften Laute wird bei Modalstimme (Engl. modal voice), d. h. der normalen Stimmqualität (Engl. voice quality, auch phonation type), der Grundton durch Stimmlippenschwingung erzeugt. Ein Teil der Konsonanten kann allerdings auch systematisch mit geöffneten und nicht schwingenden Stimmlippen erzeugt werden (vgl. Abb. 10 in 2.1.1), so etwa die Anfangslaute der Wörter fein, Pein oder Schein. Das für die auditive Wahrnehmung notwendige Quellsignal, das im Vokaltrakt modifiziert wird, entsteht bei diesen soge‐ nannten stimmlosen Lauten nicht an der Glottis, sondern erst im Vokaltrakt (s. auch 3.2.2 und 4.2). Systematisch bezieht sich hier auf die funktionale Nutzung stimmloser Laute als Phoneme in den Sprachen der Welt (vgl. 1.3). Im Deutschen gibt es z. B. neben dem stimmlosen / f/ wie in fein auch das stimmhafte Gegenstück / v/ wie im Anlaut, d. h. zu Beginn, von Wein. Der Sprachlaut, der grundsätzlich nur stimmlos realisiert werden kann, ist der Glottalverschluss / ʔ/ , der im Deutschen ganz zu Beginn von Silben und Wörtern mit anlautendem Vokal wie etwa in ein [ʔaɪn] vorkommt und zum sogenannten harten Vokaleinsatz führt. Beim Glottalverschluss sind die Stimmlippen zunächst adduziert, bevor der Stimmlippenverschluss plötzlich gelöst wird. Erst danach setzt die Stimmlippenschwingung der stimmhaften Vokale ein (mehr dazu in 4.2.1). Diese Ausnahme impliziert jedoch nicht, dass jene Konsonanten, die in ihrer stimmlosen Realisierung funktional genutzt werden, seltener sind als ihre stimmhaften Gegenstücke. Im Gegenteil, es gibt eine Vielzahl an Sprachen, in denen - im Gegensatz zum Deutschen (s. 4.2.1.2 bzw. 4.2.4.) - die konsonantische Stimmhaftigkeitsopposition fehlt und die nur die stimmlose Variante des Konsonanten funktional nutzen; unter diesen Sprachen finden sich insbesondere australische Sprachen, aber auch das Kan‐ tonesische oder das Koreanische (vgl. Maddieson 2013c). Die Modalstimme ist durch Stimmlippenschwingung bei stimmhaften Lauten gekennzeichnet. Stimmlose Sprachlaute werden mit abduzierten Stimmlippen und geöffneter Glottis realisiert. Beim Glottisverschluss sind die Stimmlippen zunächst adduziert, bevor der Verschluss gesprengt wird. Aber auch die stimmhaften Laute, zu denen es auf phonologischer Ebene in der Regel kein stimmloses Gegenstück gibt, wie etwa Vokale oder auch der Konsonant / l/ wie im Anlaut von Leim, werden mitunter ohne Stimmlippenschwingung realisiert, z. B. wenn wir flüstern. Beim Flüstern sind zwar die Stimmlippen adduziert, allerdings ist die Glottis nicht vollständig geschlossen. Aufgrund der Adduktion durch Kontraktion der Mm. cricoarytenoidei laterales werden die Stellknorpel so nach innen gekippt, dass eine Öffnung, das sogenannte Flüsterdreieck, bestehen bleibt (s. Abb. 13 rechts). Der pul‐ monal egressive Luftstrom muss nun beim Flüstern durch diese kleine Öffnung, was 64 2 Artikulation und Phonation <?page no="66"?> 19 Aufgrund der Unterlänge des Symbols wird das Diakritikum oberhalb des Symbols platziert. die besondere Stimmqualität ausmacht. Daneben gibt es eine Reihe weitere Stimm‐ qualitäten wie etwa die der Knarrstimme (Engl. creaky voice), die durch das Diakri‐ tikum [ ̰] angezeigt wird, oder der behauchten Stimme (Engl. breathy voice), die al‐ lesamt aufgrund eines charakteristischen (Nicht-)Schwingungsverhaltens zu einem auditiv wahrnehmbaren Unterschied zur Modalstimme führen (s. Laver 1980). Auch die funktionale Nutzung von Stimmqualitäten kommt in einer Reihe von Sprachen der Welt vor. So weist etwa Hausa eine phonologische Opposition zwischen / j/ und / j̃/ 19 auf, wobei ersterer mit modaler Stimmhaftigkeit realisiert wird, ähnlich dem Anlaut von ja im Deutschen, und letzterer mit Knarrstimme, bei der die Stellknorpel eng bei‐ einander sind und die Stimmlippen hauptsächlich im vorderen Bereich schwingen: z. B. ya [jaː] ‚er‘ vs. ’ya [j̃aː] ‚Tochter‘ (aus Ladefoged & Johnson 2011: 150). Die funktionale Nutzung von Stimmqualitäten ist allerdings weniger weit verbreitet als die von stimm‐ haften und stimmlosen Sprachlauten, die in jeder Sprache vorhanden sind, wenn auch nicht unbedingt in Form einer phonologischen Stimmhaftigkeitsopposition bei Kon‐ sonanten (vgl. Maddieson 2013c). Abb. 13: Schematische Darstellung der Muskelaktionen zur Stimmlippen-Abduktion (links, geöffnete Glottis für stimmlose Laute) und Stimmlippen-Adduktion (Mitte, kurze Glottisschließung während des Phonationsprozesses für stimmhafte Laute; rechts, Glottisschließung mit Flüsterdreieck) nach Netter (2015: Tafel 81). Alle Darstellungen zeigen von dorsal (unten) nach ventral (oben). Beschriftet sind die jeweils aktiven Muskeln (Mm.). 2.3 Luftstrommechanismen, Phonation und Stimmqualität 65 <?page no="67"?> 20 Hierbei handelt es sich um eine Faustregel. Wie alle anderen artikulatorischen Vorgänge auch, weicht die konkrete Anzahl der Stimmlippenverschlüsse pro Sekunde u. a. in Abhängigkeit der sprechenden Person, der Sprechsituation und der konkreten Äußerung von diesem Richtwert teils erheblich ab. Die Faustregel zeigt neben ungefähren Richtwerten insbesondere auch die Geschlechter- und Altersunterschiede auf (s. 3.2.3). Im Falle eines normalen Phonationsprozesses bei Modalstimme sind es hingegen die Mm. Arytaenoidei transversus et obliquus, die eine Adduktion der Stimmlippen durch Nachinnenkippen der Stellknorpel hervorrufen (vgl. auch Abb. 9). Die Proc. vocalis der Stellknorpel zeigen dabei jedoch in ventrale Richtung und verlaufen parallel zueinander. Doch obwohl die Kehlkopfmuskeln eine Öffnung und Schließung der Stimmlippen bewirken, sind sie nicht allein in der Lage, die Stimmlippenschwingung im Rahmen des Sprechvorgangs und der Grundtonerzeugung zu steuern. Dafür folgen die Öffnungs- und Schließzyklen, die die Schwingung charakterisieren, in zu kurzen Abständen aufeinander. Für den Moment genügt es, sich zunächst einmal vorzustellen, dass sich bei normaler Sprechlage die Stimmlippen von Männern durchschnittlich einhundertmal, die von Frauen durchschnittlich zweihundertmal und die von Kindern durchschnittlich dreibis vierhundertmal pro Sekunde öffnen und schließen (s. 3.2.1). 20 Diese Schwingungsfrequenz ist selbst bei Männern zu hoch, als dass sie allein durch Muskelaktivität gesteuert werden könnte. Stattdessen scheinen vielmehr aerodyna‐ misch-myoelastische Prozesse, bei denen insbesondere der subglottale Luftdruck und die kontinuierliche Aktivität der Schließmuskeln eine entscheidende Rolle spielen, die hohe Frequenz der Stimmlippenschwingung zu bewirken. Die Muskeln zum Öffnen der Stimmlippen spielen hingegen bei der Sprechatmung kaum eine Rolle. Diese Theorie der Stimmlippenschwingung wird als aerodynamisch-myoelastische Theorie bezeichnet. Sie geht auf van den Berg (1958) zurück (vgl. Titze 2006) und hat sich u. a. gegenüber der neuro-muskulären (neuro-chronaxischen) Theorie von Husson (1950; Engl. Neurochronaxic theory of phonation) durchgesetzt, wonach allein Muskelaktivität Stimmlippenschwingung bewirkt (z. B. Rubin 1960; Titze 2006; s. auch Reetz 2003). 66 2 Artikulation und Phonation <?page no="68"?> 21 Benannt nach Robert Boyle (1627-1691) und Edme Mariotte (~1620-1684), die unabhängig vonein‐ ander herausfanden, dass der Druck p idealer Gase in proportional umgekehrtem Verhältnis zum Volumen V stehen. Vergrößert sich V, so sinkt p, verkleinert sich V so steigt p. Die Gesetzmäßigkeit trifft auf viele reale Gase zu, darunter die Luft. Abb. 14: Ablauf des Öffnungs- und Schließzyklus innerhalb der Stimmlippenschwingung eines pulmonal egressiv erzeugten Tons. Der Ablauf eines Öffnungs- und Schließzyklus innerhalb der Phonation, der auch in Abb. 14 dargestellt ist, kann dabei wie folgt beschrieben werden: Die Kontraktion der zwischen den Stellknorpeln verlaufenden Muskeln Arytaenoidei transversus et obliquus bewirkt zunächst eine Adduktion der Stimmlippen. Aufgrund des Boyle-Ma‐ riotte-Gesetzes 21 steigt bei einem pulmonal egressiven Luftstrom der subglottale Luft‐ druck an, der wiederum die Sprengung des Stimmlippenverschlusses und infolgedessen ein plötzliches Entweichen der angestauten Luft herbeiführt. Die Geschwindigkeits‐ 2.3 Luftstrommechanismen, Phonation und Stimmqualität 67 <?page no="69"?> 22 Benannt nach Daniel Bernoulli (1700-1782); der Effekt besagt, dass der Druck abfällt, wenn sich z. B. ein Gas beschleunigt. 23 Die zur Druckangabe verwendete Maßeinheit Meter Wassersäule (mH 2 O, auch mWS) wird u. a. in der medizinisch-maschinellen Beatmung verwendet, entspricht aber nicht dem internationalen Einheitensystem. Umgerechnet entspricht 0,02-mH 2 O einem Druck von 196,13-Pa (s. auch 3.1.1). beschleunigung der ausströmenden Luft an der Glottis zieht gemäß des Bernoulli- Effektes 22 ein Absinken des subglottalen Luftdrucks nach sich, was wiederum das Zusammenziehen der Stimmlippen befördert (Sogwirkung). Während des Phonationsprozesses schließen sich die Stimmlippen aufgrund eines Zusammenspiels von Druckabfall und Druckanstieg im subglottalen Raum und des Bernoulli-Effektes. Neben dem bereits erwähnten subglottalen Druck spielen auch der supraglottale und der intraglottale Druck eine wichtige Rolle in der gesprochenen Sprache. Letztere entspricht wie in (8) angegeben der Differenz zwischen dem subglottalen und dem supraglottalen Luftdruck. (8) p intraglottal = p subglottal - p supraglottal Untersuchungen haben gezeigt, dass P transglottal größer 0,02-mH 2 O sein muss, damit der Phonationsprozess wie oben beschrieben nicht zum Erliegen kommt (Stevens 1998). 23 Ist p supraglottal hoch, so steigt die Wahrscheinlichkeit, dass p transglottal gleich oder sogar kleiner 0,02 mH 2 O ist und damit die Stimmlippenschwingung unterbrochen wird (s. auch Entstimmung von Frikativen in 4.2.4). 2.3.2 Nicht pulmonale Sprachlaute Im Gegensatz zu pulmonalen Sprachlauten ist die Benennung der Luftstromrichtung bei nicht pulmonal erzeugten Lauten nicht optional. Was die Luftstromquelle betrifft, so unterscheidet das IPA nur pulmonale und nicht pulmonale Konsonanten; die Luftstromquelle der nicht pulmonalen Laute wird also zunächst nicht explizit benannt. Stattdessen werden die nicht pulmonal erzeugten Laute im IPA in die drei Lautkatego‐ rien Schnalzlaute (auch Klicks, Engl. clicks), stimmhafte Implosive (Engl. voiced implosives) und Ejektive (Engl. ejectives) unterteilt, denen jedoch unterschiedliche Luftstrommechanismen zugrunde liegen. Bevor wir diese genauer beschreiben, ist zunächst eine Bemerkung zur Artiku‐ lationsstelle und -art notwendig. Nicht pulmonale Laute können an den diversen Artikulationsstellen realisiert werden, die in 2.2 bereits eingeführt worden sind. Einige dieser Artikulationsstellen werden in diesem Abschnitt erwähnt; alle weiteren können 68 2 Artikulation und Phonation <?page no="70"?> der Tabelle zu nicht pulmonalen Konsonanten im IPA entnommen werden. Ebenfalls in 2.2 wurden die zwei Lautklassen bzw. Artikulationsarten (auch und im Folgenden Konstriktionstypen) Verschlusslaut (Plosiv) und Frikativ grob eingeführt. Darüber hinaus gibt es weitere Konstriktionstypen, die alle funktional genutzt werden können und erst in 4.2 unten genauer beschrieben werden. Für den Moment genügt es zu wissen, dass es sich bei den drei nicht pulmonalen Lautkategorien meistens um plosivartige Laute handelt, bei denen es zu einem vollständigen Verschluss zwischen einem der in 2.2 beschriebenen Artikulationsorgane und Artikulationsstellen kommt, wodurch im supraglottalen Raum eine luftgefüllte Kammer entsteht. Dieser Verschluss, der nachfolgend genauer beschrieben wird, dient nun aber nicht (ausschließlich) der Artikulation, wie im Falle der meisten pulmonal egressiv realisierten Laute, sondern der Initiation eines Luftstroms. Der Verschluss benennt also die Luftstromquelle. Artikulationsart und Konstriktionstyp Auch wenn der Begriff Artikulationsart weiterverbreitet ist, so beschreibt der Be‐ griff Konstriktionstyp treffender das für eine Artikulationsart charakteristische Zusammenziehen (= Konstriktion) von Artikulationsorgan und Artikulations‐ stelle im Vokaltrakt. Bei der Artikulationsart Vokal wie [a] ist die Konstriktion klein, bei einem Frikativ wie [s] größer und bei einem Plosiv wie [t] am größten, da es zu einem vollständigen Verschluss zwischen Zungenblatt und Alveolarfort‐ satz kommt. Alle Beispiellaute kommen in Rast vor. Produziert man das Wort einmal langsam, kann man gut an der eigenen Artikulation beobachten, wie die Konstriktion von [a] zu [t] zunimmt. Schnalzlaute werden mit einem Verschluss zwischen Zungenrücken und Velum und einem weiteren Verschluss weiter vorne im Mundraum gebildet, also bilabial oder mit der Zungenspitze dental oder alveolar. Vergrößert man nun die Luftkammer so, dass am vorderen Verschluss eine Saugwirkung entsteht, wird aufgrund des fallenden Drucks der vordere Verschluss gesprengt und Luft kann einströmen (s. Abb. 15). Auf‐ grund des obligatorischen velaren Verschlusses und der einströmenden Luft wird der Luftstrommechanismus als velar ingressiv bezeichnet. Schnalzlaute kommen in fast allen Sprachen der Welt vor, wenn auch häufig nicht als Phonem, sondern nur als Laut mit paralinguistischer Bedeutung. So finden sich etwa im Deutschen alveolare Schnalz‐ laute als Ausdruck der Verärgerung. Dass es sich hierbei um nicht pulmonale Laute handelt, kann man testen, indem man eine Reihe alveolarer Schnalzlaute bei angehal‐ tenem Atem produziert. Produziert man hingegen ein [t] wie in Tag, also einen alve‐ olaren Verschlusslaut, mit angehaltenem Atem, so klingt dieser sehr schwach - eben nicht wie ein ‚richtiges‘ [t], das üblicherweise pulmonal egressiv produziert wird. Als Phoneme kommen Schnalzlaute in einigen wenigen Sprachen des südlichen Afrikas vor, wie etwa der Bantusprache Zulu (Catford 1988). Darüber hinaus können Schnalzlaute aber auch innerhalb von Konsonantensequenzen in europäischen Spra‐ 2.3 Luftstrommechanismen, Phonation und Stimmqualität 69 <?page no="71"?> chen auftreten, wie Analysen spontansprachlicher Äußerungen und Zungenbrecher im Deutschen zeigten (Simpson 2007, Fuchs & Rodgers 2013). Allerdings werden diese z.T. schwachen Schnalzlaute als Begleiterscheinungen betrachtet, die z. B. in Sequenzen wie [m+k] wie in am Kanal oder [t+k] wie in Rotkraut auftreten können (Fuchs & Rodgers 2013: 330-332). In diesen Fällen können Schnalzlaute als Oberflächenrealisierung einer zugrunde liegenden Form mit einem pulmonal-egressiven Luftstrommechanismus betrachtet werden (vgl. 1.2.2). Abb. 15: Schematische Darstellung der drei Phasen (1-3) in der Produktion eines dentalen Schnalzlau‐ tes (aus Catford 1988: 29). Deutsche Beschriftungen (kursiv) der Körperteile unter 1 nachträglich hinzugefügt. Auch bei Implosiven ist die Luftstromrichtung ingressiv, der hintere Verschluss erfolgt jedoch an der Glottis. Da der hintere Verschluss sich nun am Ende des supra‐ glottalen Raums befindet, kann der vordere Verschluss der supraglottalen Luftkammer an sehr viel mehr Artikulationsstellen gebildet werden als bei Schnalzlauten. Entspre‐ chend groß ist also die Kammer bei einem bilabialen Implosiv und verhältnismäßig klein bei einem uvularen Implosiv. Unabhängig von der artikulationsstellenabhängigen Ausgangsgröße kann 1. das Volumen der Kammer durch eine nach unten gerichtete Bewegung des Kehlkopfes vergrößert und infolgedessen für 2. einen Druckabfall, 3. eine Sprengung des vorderen Verschlusses und 4. in die Kammer einströmende Luft gesorgt werden. 70 2 Artikulation und Phonation <?page no="72"?> 24 Zur Segmentierung von Buchstaben in Kopf und Koda s. Fuhrhop & Peters (2013): 191-200. Implosive kommen - wie der Name schon andeutet - nur als Plosiv vor. Als Phonem findet man sie zudem in den Sprachen der Welt nur stimmhaft vor (z. B. im Vietname‐ sischen oder der Sprache der Massai, vgl. Maddieson 2013c), weswegen sich im IPA auch der vorangestellte Zusatz stimmhaft findet. Eine stimmlose Produktion ist möglich, aber sehr selten (Catford 1988). In indo-europäischen Sprachen können Implosive wiederum als Oberflächenrealisierung zugrunde liegender pulmonal egressiver Plosive auftreten (vgl. Simpson 2007). Bei einem glottalen Verschluss als Luftstrominitiator kann die Luftstromrichtung jedoch auch egressiv sein. Unter sonst gleichen Umständen wie bei Implosiven macht der Kehlkopf bei Ejektiven jedoch eine Aufwärtsbewegung, sodass das Volumen der supraglottalen Kammer kleiner und der vordere Verschluss aufgrund des zwangsläu‐ figen Druckanstiegs gesprengt wird (s. Abb. 16). Infolgedessen strömt anschließend die Luft auswärts. Die mit einem glottal egressiven Luftstrommechanismus produzierten Ejektive kommen etwas häufiger in den Sprachen der Welt vor als stimmhafte Implo‐ sive (Maddieson 2013c), so etwa in der im Südwesten der USA gesprochenen Apa‐ che-Sprache Navaho, in kaukasischen Sprachen wie Georgisch, afrikanischen Sprachen wie Hausa und in der ostasiatischen Sprache Koreanisch (Catford 1988). Einige wenige Sprachen wie Hausa nutzen sowohl Implosive als auch Ejektive. Abb. 16: Schematische Darstellung der drei Phasen in der Produktion eines velaren Ejektivs (aus Catford 1988: 23). Während das IPA für Schnalzlaute Symbole wie das Bull’s eye (ʘ = bilabialer Klick) oder den senkrechten Strich (ǀ = dentaler Klick) nutzt, werden für Ejektive und Implosive dieselben Symbole wie für Plosive (bzw. in wenigen Fällen Frikative) verwendet. Im Falle von Implosiven werden diese mit einem nach rechts gerichteten Haken am oberen Ende des Buchstabenkopfes 24 (z. B. ɓ = bilabialer stimmhafter Implosiv, Engl. hooktop B) und im Falle von Ejektiven mit einem Apostroph nach dem jeweiligen IPA-Symbol (z. B. 2.3 Luftstrommechanismen, Phonation und Stimmqualität 71 <?page no="73"?> pʼ = bilabialer Ejektiv) versehen. Auch das Vorkommen von Ejektiven im Deutschen dokumentiert Simpson (2007), wobei diese v. a. am Ende von Wörtern auftreten. In einer Folgestudie beschreibt er zudem die Zunahme von Ejektiven im Englischen, die er jedoch nicht allein als simple Begleiterscheinung sieht (Simpson 2014), was auch deren Status als Allophon in Frage stellt (vgl. 1.2.2). Beide seiner Studien wie auch die von Fuchs und Rodgers (2013) werfen zudem Fra‐ gen bezüglich der zugrunde liegenden Luftstrommechanismen auf, die bislang als gül‐ tig angenommenen worden sind. Mittels der hier beschriebenen Stufen in der Produk‐ tion nicht pulmonaler Laute, die als direkte Anleitung und in längerer Form in Catford (1988: 23-9) zu finden sind, lassen sich Laute produzieren, die wir auditiv als Schnalz‐ laute, Implosive und Ejektive wahrnehmen. Ob diese tatsächlich immer mit diesen Mechanismen produziert werden, ist inzwischen wieder eine offene Frage, die aufgrund der hier geschilderten genauen Beschreibungen vielleicht nicht offensichtlich ist und möglicherweise auch gerne übersehen wird. Hinweise auf die tatsächlichen aerody‐ namischen Mechanismen in der Produktion gesprochener Sprache können artikulato‐ risch-signalphonetische Methoden geben, die im Onlinekapitel ‚Artikulatorischsprechphysiologische Signalphonetik‘ vorgestellt werden (z. B. MRT). Die akus‐ tisch-auditive Identifikation nicht pulmonaler Muster in gesprochener Spontansprache wie in Simpson (2007), die nur schwer bis gar nicht mit den teils invasiven Methoden der artikulatorischen Signalphonetik zu erheben ist, bietet jedoch ihrerseits Wege, neben der phonologisch-funktionalen auch die pragmatisch-funktionale Nutzung nicht pulmonaler Laute in den Sprachen der Welt zu untersuchen. 2.4 Artikulatorische Phonologie Aufbauend auf den Ergebnissen signalphonetischer Experimente, die z. B. die X-ray Microbeam-Technologie nutzten, und vor dem Hintergrund des Task Dynamics-Mo‐ dells, einem zunächst allgemeinen Modell zu erlernten motorischen Bewegungsabläu‐ fen (z. B. der Hände, Saltzman & Kelso 1987), entwickelten Catherine Browman und Louis Goldstein in den 1980er Jahren in den Haskins Laboratories die sogenannte Artikulatorische Phonologie (Articulatory Phonololgy), eine Theorie, in der die artikulatorische Geste die kleinste Einheit phonologischer Repräsentation ist (für einen Überblick s. Browman & Goldstein 1992, Pouplier 2020). Phoneme könnten demzufolge in noch kleinere, subphonemische Einheiten zerlegt werden, da sie sich aus mehreren Gesten zusammensetzen (vgl. auch die Zerlegung von Graphemen in Buchstaben in 1.4.2). Gesten als phonologische Einheiten hingegen sind nicht weiter zerlegbar. Auch bei ihnen handelt es sich um abstrakte Einheiten, da sie keine tatsächlichen Bewegungsabläufe der Artikulatoren wie der Zunge oder der Unterlippe, sondern abstrakte Bewegungsparameter zu linguistisch relevanten Zielen beschreiben. Sie werden über die folgenden fünf (Vokal-)Traktvariablen definiert, wobei a. - c. jeweils ein Set aus zwei Dimensionen bilden. 72 2 Artikulation und Phonation <?page no="74"?> a. Lippen (LIPS) Öffnungs- und Wölbungsgrad b. Zungenspitze (TT = Tongue Tip) Konstriktionsort und -grad c. Zungenrücken (TB = Tongue Body) Konstriktionsort und -grad d. Velum (VEL) Öffnungsgrad e. Glottis (GLO) Öffnungsgrad Die Lippengeste muss hinsichtlich Öffnungsgrad (aperture) und Rundung bzw. Vor‐ wölbung (protrusion) spezifiziert werden, die Zungenspitze und der Zungenrücken mit Blick auf Ort und Grad der Konstriktion (constriction location and degree). Anders formuliert: Wo genau befindet sich die Verengung im Vokaltrakt und wie groß ist sie. Bei den Traktvariablen VEL und GLO ist lediglich die Absenz bzw. Präsenz von Öffnung (bei letzterem auch der Grad) zu bestimmen, um etwa Stimmlosigkeit oder die Zuschaltung des Nasenraums anzuzeigen. Mittels einer Traktvariable wird ein einem Phonem zugrunde liegendes Konstriktionsziel im Vokaltrakt parametrisiert. Bei einem / b/ wie in aber [aːbɐ] ist das Konstriktionsziel die Lippenschließung bzw. deren Öffnung. An der tatsächlichen Konstriktion wiederum können mehrere Artikulatoren beteiligt sein. So tragen beispielsweise Oberlippe, Unterlippe und Unterkiefer zur Traktvariable Lippenöffnung bei. Ungeachtet ihrer abstrakten Natur sind Traktvariablen als dynamisches System definiert. Der zeitlich-räumliche Verlauf von Sprechbewegungen (vgl. 1.1.2) sind inhä‐ rente Bestandteile der phonologischen Geste, da diese als physikalische Ereignisse in Raum und Zeit definiert sind (Browman & Goldstein 1992: 160). Im Gegensatz zu linearen Ansätzen in der Phonologie (vgl. 1.2) ist es der Artikulatorischen Phonologie somit möglich, nicht nur phonologische Oppositionen, sondern auch die für gespro‐ chene Sprache typische zeitliche Überlappung der Bewegungsabläufe zu modellieren. Beides wird in Abb. 17 anhand zweier sogenannter schematischer Gestenpartituren (gestural scores) für die englischen Wörter bad [bæd] und ban [bæn] illustriert. Die Balken markieren in der Abbildung den zeitlichen Bereich der Gestenaktivierung mit Bezug auf eine der fünf Traktvariablen, wobei die Zeit schematisch entlang der horizon‐ talen Achse dargestellt ist (Abstände entlang der vertikalen Achse sind bedeutungslos). Innerhalb der Balken sind je nach Traktvariable Grad und Ort bestimmt. Die Kurven in der rechten Abbildung stellen zusätzlich und exemplarisch die durch ein Modell generierten Bewegungen der Traktvariablen dar. Das Modell berücksichtigt dabei u. a. die Dauer der Gestenaktivierung. Vertikal nach unten verlaufende Bewegungen zeigen Schließung an, nach oben verlaufende Bewegungen Öffnung. 2.4 Artikulatorische Phonologie 73 <?page no="75"?> Abb. 17: Vereinfachte schematische Gestenpartituren für bad (links) und ban (rechts). S. S. 73 für detailierte Erklärungen. Gestenpartituren bilden das Zusammenwirken verschiedener Gesten über die Zeit für be‐ stimmte sprachlautliche Sequenzen ab, z. B. für Wörter. Die schematischen Partituren in Abb. 177 zeigen zunächst, dass sich beide Wörter jeweils durch die dem Vokal / æ/ zu‐ grunde liegenden Zungenrückengeste (mehr dazu in 4.3), der dem / b/ zugrunde liegenden Lippengeste und der / d/ und / n/ zugrunde liegenden Zungenspitzengeste (s. 4.2) zusam‐ mensetzen. Da beide Wörter durchweg zugrunde liegend stimmhaft sind (s. Kap. 4), ent‐ fällt zudem die Spezifikation der Dauer für die Glottisöffnung. Aus dem gleichen Grund fehlt auch die Angabe der Velumsöffnung in bad: In diesem Wort wird zu keinem Zeit‐ punkt der Nasenraum zugeschaltet; das Velum bleibt angehoben. Ganz anders bei ban; für / n/ wird das Velum gesenkt und der Nasenraum zugeschaltet. Dies kann man mit fol‐ gender Übung leicht prüfen: Spricht man / d/ und / n/ mehrmals hintereinander laut aus und hält dabei die flache Hand mit der Innenfläche zum Boden zeigend zwischen Oberlippe und Nase, so spürt man nur bei / n/ aus der Nase ausströmende Luft am Zeigefinger. Die Akti‐ vierung der Velumsgeste für / n/ muss in der Gestenpartitur daher entsprechend spezifi‐ ziert werden. Mit Blick auf phonologische Oppositionen unterscheidet sich das Minimal‐ paar bad-ban in dieser Theorie also in erster Linie nicht in den Phonemen / d/ vs. / n/ , sondern in der Absenz bzw. Präsenz der Velumsgeste. Mit Blick auf zeitliche Überlappungen zeigen die schematischen Partituren in Abb. 17 zudem, dass v. a. die Aktivierung der Zungenrückengeste für den Vokal über einen sehr langen Zeitraum ausgedehnt ist. Sie beginnt gleichzeitig mit der Aktivierung der Lippengeste und dauert bis zum Ende der Aktivierung der Zungenspitzengeste. Auch die Dauer der Aktivierung der Velumsgeste in ban ist vergleichsweise lang. Weder Dauerunterschiede zwischen Gesten noch damit einhergehende zeitliche Überlappun‐ gen werden in den linearen phonemischen Transkriptionen / bæd/ und / bæn/ erfasst; sie suggerieren vielmehr eine lineare Reihenfolge (s. auch 6.2). Die zeitlich ausgedehnte Aktivierung von Gesten und deren Überlappung mit anderen Gesten muss nicht zwangsläufig dazu führen, dass einer der Sprachlaute an der Oberfläche auditiv nicht mehr wahrnehmbar ist. In unserem Beispiel ‚stört‘ z. B. die zeitgleiche Aktivierung der 74 2 Artikulation und Phonation <?page no="76"?> Zungenrückengeste die Lippengeste nicht. Das kann man leicht selbst ausprobieren, in dem man recht schnell die Sequenzen ibi und ubu laut ausspricht und dabei v. a. auf die Zungenposition achtet. In beiden Fällen lassen sich die Lippen für [b] schließen ohne dabei die anderen Artikulatoren wie die Lippen oder die Zunge groß in ihrer Position zu verändern. Diese unterscheidet sich nur in Abhängigkeit von [i] und [u]. In anderen Fällen kann es durchaus vorkommen, dass der Grad der zeitlichen Über‐ lappung von Gestenaktivierung zu auditiv wahrnehmbaren Veränderungen der Ober‐ flächenform führen. Das ist aber kein Nachteil dieser Theorie; im Gegenteil, einige der in Kapitel 7 vorgestellten phonologischen Prozesse, können - wie wir sehen werden - im Rahmen der Artikulatorischen Phonologie erklärt werden, da diese Theorie das Überlappungspotential einzelner Gesten aufdeckt. Symbolisch definierte Phoneme können hingegen per se nicht überlappen. Werden die Gestenpartituren in ein Computermodell eingespeist, können die Bewe‐ gungsmuster der Traktvariablen und somit die artikulatorischen Verläufe generiert (vgl. Abb. 17) und die Äußerung ggf. mittels einer sogenannten artikulatorischen Sprachsynthese künstlich erzeugt werden. Browman und Goldstein waren nicht die Ersten, die artikulatorische Gesten als abstrakte Einheiten in den Fokus der Phonologie rückten. Auch in anderen, teils früheren Theorien der Sprachwahrnehmung, die in den Haskins Laboratorien aufgestellt wurden, spielen sie eine zentrale Rolle (s. 8.3). Browman und Goldstein etablierten sie jedoch als kleinste phonologische Repräsentationseinheit in einer Sprachproduktionstheorie. Während Pho‐ netiker: innen die Integration der Faktoren Raum und Zeit in der phonologischen Model‐ lierung begrüßten (z. B. Kohler 1992), lehnten einige Phonolog: innen dies explizit ab, da dadurch der abstrakte Charakter phonologischer Einheiten aufgeweicht und zu viele Details modelliert werden würden (z. B. Clements 1992). Unabhängig von der Artikulatorischen Phonologie werden aber auch in anderen phonologischen Theorien, wie etwa der der distinktiven Merkmale (s. Kap. 5), auch auf phonologischer Ebene Phoneme noch weiter zerlegt, um so beispielsweise bestimmte phonologische Prozesse (s. Kap. 7) zu modellieren. Im Kontext dieser Prozesse sowie des Silbenkonzeptes (s. Kap. 6) werden wir die Theorie der Artikulatorischen Phonologie erneut aufgreifen. Übungsaufgaben 1. Nennen Sie unter Berücksichtigen von Tab. 2 (s. S. 61) drei Organ-Stellen-Kombi‐ nationen, die physiologisch nicht umsetzbar sind. 2. Welche Organe außer den Stimmlippen können durch einen pulmonal egressiven Luftstrommechanismus zum Schwingen gebracht werden? 2.4 Artikulatorische Phonologie 75 <?page no="77"?> 3. Mit welchem Artikulationsorgan werden folgende Sprachlaute des Deutschen produziert? - [h] (wie wortinitial in hasse) ____________________________ - [m] (wie wortinitial in Masse) ____________________________ - [l] (wie wortinitial in lasse) ____________________________ 4. An welcher Artikulationsstelle werden folgende Sprachlaute des Deutschen pro‐ duziert? - [s] (wie wortmedial in nasse) ____________________________ - [f] (wie wortinitial in fasse) ____________________________ - [k] (wie wortinitial in Kasse) ____________________________ Weiterführende Literatur Eine detaillierte Einführung in die Anatomie und Physiologie des Sprechapparates findet sich in P OM P INO -M A R S CHALL (2009). Darin wird beispielsweise recht ausführlich in die Zungenmuskulatur eingeführt. Einen ausführlichen Überblick über die Rolle der Atmung in gesprochener Sprache, etwa wie sich Atmung an Sprache anpasst und andersherum, erhält man in F U CH S & R O CH E T -C A P E LLAN (2021) und in W E R N E R E T AL . (2021). Eine umfassende Einführung in verschiedene Stimmqualitäten bietet L AV E R (1980). R E E TZ (2003) präsentiert weitere Theorien zur Stimmlippenschwingung. Untersu‐ chungen zur Beziehung von Luftdruckverhältnissen und Phonationsprozess finden sich z. B. in S O LÉ (1999) und O HALA (1997); diese Artikel sind für Fortgeschrittene geeignet. 76 2 Artikulation und Phonation <?page no="78"?> 3 Sprachakustik Überleitung und Ziele Oft ist der Aufwand zu hoch und es fehlt die Apparatur, um die Produktion von Sprachlauten physiologisch zu analysieren (vgl. Exkurs ‚Artikulatorische Signalphonetik‘, S. 62), weswegen wir diese auf einer auditiven Analyse basierend mit artikulatorischen Parametern beschreiben. Akustische Analysen hingegen können auditive Analysen relativ einfach ergänzen, da mit ihnen akustische Charakteristika von Sprachlauten herausgearbeitet und feine Unterschiede zwi‐ schen Phonen desselben Allophons sichtbar gemacht werden können. Während bei ohrenphonetischen Analysen Schwankungen in der Transkription nicht zu vermeiden sind (vgl. den Exkurs zur Ohrenphonetik auf S. 20f.), können diese in replizierbaren akustischen Analysen minimiert werden, vorausgesetzt man kennt die entsprechenden akustischen Grundlagen. Als Einsteiger: in in das Fach begegnet man der akustischen Phonetik oft zuerst im Rahmen erweiterter symbolphonetischer Analysen, bei denen Sprachschall mit einem Computerpro‐ gramm visualisiert und wiederholt abgespielt wird, bevor dieser dann in diesem Programm wiederum auditiv transkribiert wird. Ziel dieses Kapitels ist es, in die wichtigsten Grundlagen der Sprachakustik einzuführen, um einerseits Sprachsig‐ nale selbst signalphonetisch auf Grundlage des akustischen Signals analysieren zu können und andererseits die akustischen Beschreibungen der Sprachlaute in Kapitel 4 zu verstehen. Die zentralen Fragen dieses Kapitels sind daher: • Was kann ich aus einem visualisierten Sprachsignal ablesen, was muss ich dabei beachten? • Welche akustischen Parameter sind für die signalphonetische Interpretation besonders wichtig? • Mit welchen Werkzeugen kann ich Sprachsignale akustisch analysieren? 3.1 Grundlagen der Sprachakustik Akustik ist das Teilgebiet der Physik, das die Ausbreitung von Schall untersucht (daher auch Schalllehre). Während der Begriff Akustik auf Griechisch akūstikós (ἀκουστικός) u. a. ,hörend‘ und der Begriff Schall auf das mittelhochdeutsche Wort schal für ‚lauter Ton‘ zurückgeht (vgl. „Schall“ in Pfeifer 1993), beschäftigt sich die akustische Phonetik nur bedingt damit, das akustische Signal hörerseitig im Rahmen einer ohrenphonetischen Analyse zu interpretieren. Vielmehr geht es um die direkte akustische Signalverarbeitung (Engl. signal processing). Dennoch werden die Begriffe <?page no="79"?> akustisch und auditiv oft zusammengefasst, eben weil Sprachschall per definitionem auditiv wahrnehmbar ist. In diesem Kapitel wie auch in Kapitel 8 werden wir jedoch sehen, dass Akustik und auditive Perzeption unabhängig voneinander beschrieben werden müssen, auch weil die Beziehung zwischen ihnen weder direkt noch linear ist. Schall ist eine mechanische Schwingung, die sich in einem elastischen Medium als Longitudinalwelle, d. h. in Ausbreitungsrichtung, bewegt. Eine Schwingung (Oszillation) ist eine über die Zeit wiederkehrende Änderung einer physikalischen Größe; in der akustischen Phonetik handelt es sich in der Regel um den zeitlichen Verlauf einer Luftdruckschwankung, die sich schnell und nur über eine kurze Distanz von wenigen Metern ausbreitet. Es gibt eine Reihe physikalischer Größen zur genauen Beschreibung von Schall wie etwa Schalldruck, Schalldruckpegel, Schallintensität u. v. m. In den Abschnitten dieses Kapitels werden nur die für die akustische Phonetik wichtigsten Größen vorgestellt. Für die auditive Wahrnehmung von Schall durch Menschen ist zunächst entschei‐ dend, dass sich die Schwingungen zwischen minimal 16 bis maximal 20.000 Mal pro Sekunde wiederholen. Schwingungen im Bereich dieser Schwingungsfrequenz liegen im Hörfeld (Engl. hearing area) des Menschen, Schwingungen mit einer niedrigeren Frequenz im Bereich des Infraschalls und Schwingungen mit einer höheren Frequenz im Bereich des Ultraschalls. Auf das Hörfeld wird in 8.2 noch genauer eingegangen, auf Frequenz in 3.1.1. Die Geschwindigkeit mit der sich Schall ausbreitet, hängt wiederum von Größen wie etwa dem Ausbreitungsmedium oder der Temperatur ab. Mit Blick auf Sprachschall kann man von einer durchschnittlichen Schallgeschwindigkeit von 344-Metern pro Sekunde ausgehen; dies entspricht der allgemeinen Schallgeschwindigkeit in trockener Luft und bei Zimmertemperatur. Die Wellenlänge variiert bei Sprachschall zwischen 17 mm und 20 Metern; die Ausbreitungsdistanz von Sprachschall ist im Vergleich zu anderen Schallarten vergleichsweise kurz. Die akustische Phonetik untersucht die Schallwellen, die • von einer menschlichen Schallquelle ausgelöst werden, • sich über die Luft ausbreiten, • von einer menschlichen Schallsenke rezipiert werden. In 2.3 wurden bereits unterschiedliche Druckverhältnisse im sub- und supraglottalen Raum und ihre Rolle in der Stimmlippenschwingung diskutiert. Der so in Gang gesetzte Phonationsprozess stellt eine wichtige Schallquelle in der gesprochenen Sprache dar. Wenn wir ein [o] wie in oh! produzieren, dann können wir die Schallquelle taktil mit dem Finger am Kehlkopf wahrnehmen. Auditiv nehmen wir jedoch nicht nur die Schallquelle, sondern einen komplexeren Klang wahr, der das akustische Resultat der Wellenausbreitung im supraglottalen Raum und der Abstrahlung an Mund und Nase ist. 78 3 Sprachakustik <?page no="80"?> Wenn wir ein [s] wie in Bus produzieren befindet sich die Schallquelle im supraglottalen Raum zwischen Zungenblatt und Alveolarfortsatz. Auch eine angeschlagene Stimmgabel ist eine Schallquelle. Wie sich deren Schall‐ wellen über die Luft ausbreiten ist in Abb. 18 skizziert. Schallwellen, die sich über die Luft ausbreiten sind als minimale, messbare Luftdruckschwankungen zu beobachten. Die Luftdruckschwankungen entstehen aufgrund von Über- und Unterdruck zwischen den Luftmolekülen, die sich jeweils pendelartig bewegen. Der Fokus der akustischen Phonetik liegt auf der Untersuchung des Sprachschalls wie er im supraglottalen Raum geformt wird und sich als atmosphärische Luft‐ druckschwankung fortpflanzt. Abb. 18: Ausbreitung von Schwallwellen im Raum (horizontal) über die Zeit (vertikal) ausgelöst durch eine angeschlagene Stimmgabel (s. Zeitachse für deren Ruhezustand und gegenläufige Bewegung). Luftmoleküle im Ruhezustand (-) werden bewegt durch Über- (→) und Unterdruck (←; aus Ladefoged 1996: 6). 3.1 Grundlagen der Sprachakustik 79 <?page no="81"?> Auch die akustischen Eigenschaften der unmittelbaren Umgebung wirken sich auf die Ausbreitung und Form von (Sprach-)Schall aus. Man denke dabei nur an die deutliche Schallreflektion etwa durch Wände leerer Räume, die draußen auf einer weiten Ebene gänzlich fehlt. Die Auswirkungen unterschiedlicher Umgebungen auf Ausbreitung und Form von Sprachschall schränkt sprachliche Kommunikation in Fällen zu großer räumlicher Distanz oder zu starker Umgebungsgeräusche ein. Für akustische Analysen steht seit etwas mehr als hundert Jahren die Methode der Sprachaufnahme und dauerhaften Speicherung in Form von Audiosignalen zur Verfügung. Eine gespeicherte Aufnahme kann im Gegensatz zum flüchtigen Sprachschall eines Sprechers oder einer Sprecherin in identischer Form beliebig oft wiedergegeben werden. Bei einer Sprachaufnahme werden die durch gesprochene Sprache ausgelösten Luftdruckschwankungen von einem Mikrofon aufgezeichnet, der Schallsenke, und das akustische Signal in ein elektrisches umgewandelt. Ein als Audiodatei vorliegendes Sprachsignal kann mit einer Vielzahl von Programmen abgespielt und angezeigt werden (mehr dazu in 3.4). Zwei Arten von Visualisierung sind für uns relevant: die Oszillogramm- und die Sonagrammdarstellung. Bevor in diese Visualisierung von Sprachschall genauer eingeführt wird, sollen jedoch die Kenngrößen zur Beschreibung einfacher wie auch komplexer Signale beschrieben werden. 3.1.1 Akustische Kenngrößen und Signaltypen Es werden periodische und aperiodische Schwingungen unterschieden, die beide in weitere Untertypen untergliedert werden können. Bevor wir uns in den nachfolgenden Kapiteln echte Sprachsignale anschauen, sollen hier zunächst anhand einer einfachen periodischen Schwingung die zwei für uns wichtigsten Kenngrößen zur Beschreibung von Schwingungen vorgestellt werden: • Die Frequenz beschreibt die Anzahl der Schwingungswiederholungen pro Se‐ kunde und wird in der Einheit Hertz (Hz) angegeben. In älteren Publikationen ist noch die frühere Bezeichnung cycles per second zu finden (CPS, s. z. B. 8.3.1). Der fürs menschliche Hören relevante Frequenzbereich liegt zwischen 20 Hz und 20.000-Hz. Letzteres wird in der Regel abgekürzt als 20-kHz. • Die Amplitude beschreibt die maximale Auslenkung einer Schwingung und wird u. a. in Pascal (Pa) angegeben. Im Kontext der Akustik ist es genauer der Schalldruck, der in Pa angegeben wird. Die Amplitude korreliert teilweise mit Intensität und Lautstärke (s. 3.1.2.2). Abb. 19 (a) zeigt einen knapp 7 ms großen Ausschnitt (= Zeitfenster) einer einfachen periodischen bzw. harmonischen Schwingung mit einer Frequenz von 440 Hz und einer Amplitude von 0,5 Pa. Eine harmonische Schwingung entspricht auditiv einem Ton. Sie kann durch eine Sinusfunktion beschrieben werden und wird daher auch Sinuston genannt. Eine Periode entspricht dem zeitlichen Verlauf einer Schwingung, 80 3 Sprachakustik <?page no="82"?> auch Periodendauer genannt. Die Dauer einer Periode in Abb. 19 beträgt also etwas mehr als 2 ms. Die Wellenlänge wiederum beschreibt den räumlichen Abstand zwischen zwei Punkten entlang des Schwingungsverlauf. Abb. 19: (a) Die ersten drei Perioden eines harmonischen Sinustons mit einer Frequenz von 440 Hz und einer Amplitude von 0,5 Pa (Grundton); (b) die zweite Harmonische bei 880 Hz; (c) die dritte Harmo‐ nische bei 1320 Hz; (d) Komplexe Schwingung aus Grund- und Obertönen (a) - (c). In Abb. 19 (b) und (c) sind die zweite und dritte Harmonische (bzw. die ersten beiden Obertöne) der in (a) dargestellten einfachen periodischen Schwingung - dem Grundton - gezeigt. Das unterste Diagramm zeigt das komplexe periodische Signal, das sich aus dem Grundton und seinen Harmonischen zusammensetzt. Harmonische sind ganz‐ 3.1 Grundlagen der Sprachakustik 81 <?page no="83"?> zahlige Vielfache des Grundtons und ebenfalls einfache harmonische Schwingungen. Komplexe periodische Signale werden als Klang bezeichnet. Weder einfache noch komplexe periodische Schwingungen kommen in der gespro‐ chenen Sprache vor. Die Kenngrößen zur Beschreibung einfacher Schwingungen sind aber auch für die Beschreibung von Sprachschall wichtig. Für die akustische Analyse in diesem Buch ist neben der Frequenz und der Amplitude insbesondere die Periodendauer von Bedeutung. In der gesprochenen Sprache kommen quasi-periodische Schwingungen und aperiodische Signale vor. In gesprochener Sprache beobachten wir stattdessen quasi-periodische Signale und aperiodische Signaltypen, wie etwa im Beispielwort Kompass in Abb. 20. Schwingungs‐ vorgänge sind in der gesprochenen Sprache zudem gedämpft, d. h. die Amplitude nimmt über die Zeit grundsätzlich ab. Dies ist ebenfalls in Abb. 20 am Ende eines jeden Phons zu erkennen. Quasi-periodische Signale ähneln periodischen Signalen insofern, als dass kom‐ plexe Schwingungen in einem regelmäßigen Abstand wiederkehren, auch wenn sich Periodendauer und Maximalamplitude von Schwingung zu Schwingung leicht unterscheiden. Die Frequenz des Grundtons und der Harmonischen lassen sich den‐ noch bestimmen. Quasi-periodische Signale entsprechen in der Akustik Geräuschen. Stimmhafte Sprachlaute wie die Vokale [ɔ] (= ⟨o⟩) und [a] in Kompass und das [m] im selben Wort sind durch quasiperiodische Schwingungen charakterisiert (s. den Schwingungsverlauf innerhalb der Sequenz [ɔm] links unten in Abb. 20). Bei aperiodischen Signalen kann hingegen keine Frequenz spezifiziert werden. Vielmehr überlagern sich viele Schwingungen unterschiedlicher Frequenzen und Amplituden zu einem Rauschen. Frikative wie das [s] am Ende von Kompass weisen aperiodisches bzw. stochastisches, d. h. vom Zufall abhängiges Rauschen auf (zu Frikativen vgl. 2.2 und s. 4.2.4). Selbst wenn man wie in Abb. 20 rechts unten nur einen 10 ms großes Zeitfenster betrachtet, sind keine Regelmäßigkeiten im Schwingungsver‐ halten zu erkennen. Die Aperiodizität entsteht durch Luftverwirbelungen infolge einer turbulenten Strömung. Auch bei der Ausatmung wird ein stochastisches Rauschen erzeugt. Im Unterschied zum kontinuierlichen Rauschen beginnt bei einem Impulssignal der aperiodische Schwingungsvorgang nach einer Phase akustischer Stille ohne Luftdruckschwankungen plötzlich und mit einer hohen Amplitude, die dann über die Zeit abnimmt. Akustisch betrachtet handelt es sich bei einem Impulssignal um einen Knall. Im Beispielwort Kompass entsprechen die beiden Plosive [k] und [p] je einem Impulssignal (zu Plosiven vgl. 2.2 und s. 4.2.1). Die aperiodische Schwingung nach dem ‚Knall‘ kann man nicht nur auditiv wahrnehmen, sondern auch als Behauchung 82 3 Sprachakustik <?page no="84"?> spüren, wenn man Kompass laut ausspricht und sich dabei die Handinnenfläche vor den Mund hält; sie wird mittels des Diakritikums [ʰ] transkribiert (mehr dazu in 4.2.1). Auch beim Klatschen oder Schmatzen erzeugen wir Impulssignale (zur Unterteilung der Signaltypen s. auch Reetz 2003: 48). Abb. 20: Segmentiertes und etikettiertes Oszillogramm der Äußerung Kompass von einer Sprecherin (oben, Gesamtdauer: ~880-ms) sowie Oszillogrammausschnitte des quasi-periodischen Signalab‐ schnitts [ɔm] (unten links, 165 ms) und eines aperiodischen Signalabschnittes aus dem mittleren Be‐ reich von [s] (unten rechts, 10-ms). 3.1.2 Visualisierung des Sprachschalls - 3.1.2.1 Oszillogramm Die Darstellung des zeitlichen Verlaufs quasi-periodischer Schwingungen und aperi‐ odischer Signale in Abb. 20 entspricht einem sogenannten Oszillogramm. Ein Oszillo‐ gramm bildet die von einem Mikrofon empfangenen und in ein elektrisches Signal umgewandelten Luftdruckschwankungen direkt ab, wenn auch in Abhängigkeit der gewählten Mikrofonverstärkung. Das Oszillogramm und die dazugehörige Segmentie‐ rung und Etikettierung in Abb. 20 wurden mit dem Programm Praat erzeugt (s. 3.4). 3.1 Grundlagen der Sprachakustik 83 <?page no="85"?> Bei einem Oszillogramm handelt es sich um eine direkte zweidimensionale Darstellung der Amplitude der Luftdruckschwankung als Funktion der Zeit. Die in 3.1.1 eingeführten akustischen Signaltypen lassen sich grundsätzlich gut im Os‐ zillogramm erkennen, vorausgesetzt man wählt ein passendes Zeitfenster. Betrachtet man in Abb. 20 oben das in diesem Fall knapp 880 ms große Zeitfenster, das alle Phone des Wortes Kompass enthält, so erkennt man deutlich die Impulssignale von [kʰ] und [pʰ] mit der jeweils vorangehenden akustischen Stille, gefolgt vom Impuls, der dann in ein kontinuierliches aperiodisches Rauschen übergeht. Stochastisches Rauschen ist im Oszillogramm grundsätzlich an der starken Schwärzung gut zu erkennen, die auf die sehr eng beieinander liegenden, unregelmäßigen Schwingungen zurückzuführen ist. Für signalphonetische akustische Analysen bedeutet dies, dass Unterschiede in der Stimmhaftigkeit und zwischen einigen Konstriktionstypen wie Plosiven, Frikativen oder Vokalen gut im Oszillogramm zu erkennen sind. Dass es sich beim ersten Plosiv in Kompass um ein [kʰ] und nicht um ein [pʰ], beim zweiten Vokal um [a] wie in was und kein [o] wie in wo und beim Frikativ um ein [s] wie am Ende von Reis und kein [ç] wie am Ende von reich handelt, kann man hingegen nicht an einem Oszillogramm wie in Abb. 20 ablesen. Detailliertere Informationen zur • Artikulationsstelle eines Konsonanten (z.-B. [kʰ] vs. [pʰ]), • zur Vokalqualität (z.-B. [a] vs. [o]) oder • zum Konstriktionstyp von Konsonanten, deren Signaltypen jeweils quasi-peri‐ odisch sind (z.-B. [m] zu Beginn von meinen und [l] zu Beginn von Leinen), lassen sich erst auf der Grundlage einer dreidimensionalen Darstellung des Sprach‐ signals treffen. Eine solche Darstellung wird im Deutschen gemeinhin Sonagramm genannt. 84 3 Sprachakustik <?page no="86"?> 3.1.2.2 Sonagramm Abb. 21: Segmentiertes und etikettiertes Sonagramm zur selben Äußerung des Wortes Kompass wie in Abb. 20. Abb. 21 zeigt ein Sonagramm, das aus derselben Äußerung des Wortes Kompass abgeleitet wurde, die dem Oszillogramm in Abb. 20 zugrunde lag. Das Sonagramm und die dazugehörige Segmentierung und Etikettierung wurden wiederum mit dem Computerprogramm Praat erzeugt (s. 3.4). Entlang der Abszissenachse (x-Achse) ist wiederum die Zeit in Sekunden dargestellt; entlang der Ordinatenachse (y-Achse) ist nun die Frequenz in Hertz abgebildet. Als dritte Dimension kommt die frequenzabhän‐ gige Amplitude hinzu, die in Form des Schwärzungsgrads bzw. der Grauschattierung gezeigt wird. Die frequenzabhängigen Graustufen unterscheiden sich von Laut zu Laut und verraten uns auch etwas über die Artikulationsstelle oder die Vokalqualität: so weisen der Frikativ am Ende des Wortes eine stochastische Schwärzung im oberen Frequenzbereich und die Vokale, Nasale sowie Teile der Plosive dickere schwarze horizontale Streifen in unterschiedlichen Frequenzlagen im niederfrequenten Bereich auf; diese akustischen Unterschiede sind das Resultat unterschiedlicher Bewegungen der Artikulationsorgane (z. B. Lippenschließung für [pʰ] aber nicht für [kʰ]). In Kapitel 4 schauen wir uns solche akustischen Unterschiede z. B. zwischen einzelnen Plosiven oder verschiedenen Vokalen anhand von Sonagrammen genauer an. Bis zu einem gewissen Grad kann man das Lesen von Sonagrammen erlernen, sodass ein visualisiertes Sprachsignal teilweise auch ohne Ton zu dekodieren ist. Ziel dieses und des nächsten Abschnittes ist es, in den Aufbau von Sonagrammen und die wichtigsten Komponenten zur signalphonetischen Analyse einzuführen. Im Deutschen hat sich der Begriff Sonagramm für Signaldarstellungen wie der in Abb. 21 durchgesetzt. Ursprünglich handelt es sich dabei aber um einen Eigennamen für das ausgedruckte Resultat einer mit dem Sona-Graphen der Firma Kay Elemetrics 3.1 Grundlagen der Sprachakustik 85 <?page no="87"?> durchgeführten spektrographischen Analyse (s. Onlinekapitel ‚Wissenschaftsge‐ schichte‘). Genau genommen handelt es sich bei Sonagrammen um Spektrogramme (Engl. spectrogram), d. h. um graphische Darstellungen mehrerer aneinandergereihter, zeitlich geordneter akustischer Kurzzeitspektren. Ein akustisches Kurzzeitspektrum zeigt die Amplitude des Schalldruckpegels in Dezibel (dB) in Abhängigkeit einer Frequenz (Hz) über ein bestimmtes, grund‐ sätzliches kurzes Zeitfenster an (s. Abb. 22). Der Schalldruckpegel beschreibt das logarithmierte Verhältnis eines bestimmten Schalldrucks zu einem Referenzpunkt und spiegelt die Stärke eines Schallereignisses wider. Jedes einzelne Kurzzeitspektrum ist das Ergebnis einer Fourier-Transformation, bei der eine komplexe Schwingung in ihre spektralen Komponenten zerlegt wird. Die Fourier-Transformation wird hier nicht weiter erklärt (s. hierzu z. B. Reetz 2003: 52-63). Da das Resultat der Transformation aber in Abhängigkeit der gewählten Größe des Zeitfensters unterschiedlich ausfällt, soll in den nachfolgenden Abschnitten neben dem Sonagramm-Aufbau auch auf den Einfluss der Fenstergröße auf das resultierende Kurzzeitspektrum eingegangen werden. Denn wenn man für eine signalphonetische Analyse auf ein Sonagramm zurückgreift, dann liegt dieser Darstellung (wie z. B. denen in Abb. 22 und Abb. 23) immer auch eine Parametereinstellung bezüglich der Fenster‐ größe zugrunde. Ungeachtet dieser Variation in der Fenstergröße, handelt es sich dabei immer um kurze Zeitfenster, weshalb nachfolgend der Begriff Kurzzeitspektrum mit Spektrum abgekürzt wird. Das Sonagramm ist eine dreidimensionale Darstellung der frequenzabhängigen Amplitude des Schalldruckpegels eines akustischen Signals als Funktion der Zeit. Es handelt sich um eine indirekte Abbildung des Signals, die von Parametern wie der Länge des Zeitfensters abhängt. Die Parameter sind für die vorausgehende Be‐ rechnung von Kurzzeitspektren notwendig, die im Sonagramm zeitlich geordnet aneinandergereiht werden. 86 3 Sprachakustik <?page no="88"?> Abb. 22: Segmentiertes und etikettiertes Oszillogramm und Breitbandsonagramm (oben) des Wortes Maiers aus der Äußerung ‚Die Nacht haben Maiers gut geschlafen‘ einer Sprecherin sowie je zwei Spektren über 5 ms große Zeitfenster im Bereich von [a] (2 s - 2,005 s; links unten) und [ɪ] (2,108 s - 2,113-s; unten rechts). Im Gegensatz zu Oszillogrammen bilden Sonagramme das Sprachsignal nicht direkt ab. Selbst wenn wir uns eine Audiodatei mit einem Programm wie Praat anschauen, ohne aktiv Einstellungen vorzunehmen, so nutzen wir doch die vom Programm gesetzten Standardeinstellungen. Das Sonagramm in Abb. 21 ist größtenteils das Resultat der Standardeinstellungen in Praat. Die für uns wichtigsten Parameter sind die Größe des Analysefensters und die zugehörige Bandbreite. Das dem in Abb. 22 oben dargestellten Sonagramm zugrunde liegende Analysefens‐ ter entspricht einem kurzen Zeitfenster von 5 ms. Bei dieser Einstellung wird für aufeinanderfolgende Signalabschnitte von 5 ms jeweils ein Spektrum berechnet, das nicht nur in Abhängigkeit der Fensterlänge, sondern auch des akustischen Signaltyps unterschiedlich ausfällt (s. hierzu z. B. Reetz 2003: 64). Abb. 22 zeigt zwei Spektren innerhalb der Äußerung Maiers, die im Rahmen eines Satzes von einer Sprecherin produziert wurde: einmal für einen 5 ms langen Signalabschnitt innerhalb von [a] und einmal für einen 5 ms langen Abschnitt innerhalb von [ɪ]. [a] und [ɪ] gehören in diesem 3.1 Grundlagen der Sprachakustik 87 <?page no="89"?> Falle zu einem einzigen Phonem. Realisiert man dieses Phonem, das z. B. auch in Eile vorkommt, dann kann man eine lautliche Veränderung über die Zeit beobachten: Zu Beginn ähnelt das Phon eher einem [a] wie in an, zum Ende hin eher einem [ɪ] wie in in. (s. 4.3). Die Gesamtdauer von [aɪ] beträgt 208 ms. Das links unten dargestellte Spektrum aus dem [a]-Bereich weist einen ersten Gipfel im Kurvenverlauf des Schalldruckpegels bei 200 Hz und einen zweiten Gipfel bei 1000 Hz auf. Der Schalldruckpegel liegt hier beide Male deutlich über 20 dB, bevor er dann in den höheren Frequenzbereichen deutlich abfällt. Das rechts unten dargestellte Spektrum aus dem [ɪ]-Bereich weist einen ersten Gipfel bei rund 215 Hz und zwei weitere Gipfel bei 850 Hz und 2500 Hz auf. Auch wenn die Amplitude des Schalldruckpegels nun unter 20 dB liegt, sind die Gipfel im Kurvenverlauf immer noch deutlich erkennbar. Diese Gipfel lassen sich signalphonetisch interpretieren; wie genau, wird in 3.2 erklärt. Oftmals erfolgt diese Interpretation auch nicht anhand von Einzelspektren, sondern anhand von Sonagrammen. Für ein Sonagramm wie in Abb. 22 wird die Fläche unterhalb des frequenzabhängigen Kurvenverlaufs in Abhängigkeit des Schalldruck‐ pegelwertes schattiert, wobei die Schwärzung intensiver ausfällt, je höher der Schall‐ druckpegel ist. Die Frequenz kann nun wieder entlang der Ordinatenachse dargestellt werden. Die zeitliche Dimension wird rekonstruiert, indem im Sonagramm viele Einzelspektren gedreht und zeitlich geordnet aneinandergereiht werden (vgl. Reetz 2003: 78). Auch wenn sich der Schalldruckpegel in der Sonagrammdarstellung nur noch grob bestimmen lässt - im Gegensatz zu den beiden anderen Dimensionen Zeit und Frequenz, so ist dies für viele phonetische Analysen ausreichend (s. 3.2.2 und Kap. 4). Aufgrund des gewählten Analysefensters von 5 ms beträgt die Bandbreite 260 Hz im Sonagramm von Abb. 22. Als Band versteht man einen Frequenzbereich, in dem nicht zwischen Amplituden der unterschiedlichen Frequenzen unterschieden wird. Dies führt zu einer bestimmten, in diesem Falle gröberen Unterteilung der Frequenz-Achse, da innerhalb der so ermittelten Spektren in einem 260 Hz umfassenden Bereich kein Unterschied in der Schwärzung gemacht wird, selbst wenn es Unterschiede in der Am‐ plitude gibt. Dadurch entstehen die vertikal vergleichsweise breiten Bänder, die zu der Bezeichnung von Sonagrammen wie dem in Abb. 22 als Breitbandsonagramm ge‐ führt hat. Vergrößert man das Analysefenster auf z.-B. 30-ms, verkleinert sich die Bandbreite, in diesem Fall auf 43 Hz. Abb. 23 zeigt ein sogenanntes Schmalbandsonagramm derselben Äußerung wie in Abb. 22 und wiederum zwei Spektren, die nun für 30 ms große Signalabschnitte berechnet wurden. Der Beginn der größeren Analysefenster stimmt dabei jeweils mit dem entsprechenden Beginn der kürzeren Analysefenster in Abb. 22 überein. Das 30 ms große Analysefenster liefert sehr viel mehr Informationen über frequenzabhängige Schalldruckunterschiede, wie in Abb. 23 an den vielen spitzen Gipfeln in den beiden Spektren und an den dementsprechend vertikal schmäleren Bändern im Sonagramm zu erkennen ist. Die Schalldruckpegelgipfel liegen hier in den Bereichen 200, 400, 600 und 800 Hz bzw. 220, 440, 660 und 880 Hz (mehr dazu in 3.2). Während die Frequenzauflösung beim Schmalbandsonagramm im Vergleich zum 88 3 Sprachakustik <?page no="90"?> Breitbandsonagramm höher ist (d.-h. genauere Auflösung entlang der y-Achse), so ist die Zeitauflösung jedoch grundsätzlich niedriger (d. h. gröbere Auflösung entlang der x-Achse); dies führt zu unschärferen Grenzen zwischen einzelnen Phonen, wie z. B. bei der Äußerung Maiers in Abb. 23. Abb. 23: Segmentiertes und etikettiertes Oszillogramm und Schmalbandsonagramm (oben) derselben Äußerung Maiers wie in Abb. 22 sowie je zwei Spektren über 30-ms große Zeitfenster im Bereich von [a] (2-s - 2,03-s; links unten) und [ɪ] (2,108-s - 2,138-s; unten rechts). Aufgrund der kurzen Fensterlänge und hohen Bandbreite ist bei Breitbandsonagrammen die Zeitauflösung hoch und die Frequenzauflösung niedrig. Eine größere Fensterlänge und niedrige Bandbreite führt zu einer niedrigeren Zeit- und höheren Frequenzauflösung bei Schmalbandsonagrammen. Zeit- und Frequenzauflösung sind immer von der gewählten Größe des Analysefensters abhängig. Man entscheidet sich entweder für eine höhere Frequenzauflösung bei nied‐ rigerer Zeitauflösung oder umgekehrt für eine niedrigere Frequenzauflösung bei hö‐ herer Zeitauflösung. In phonetischen Analysen spielt die Trennschärfe zwischen 3.1 Grundlagen der Sprachakustik 89 <?page no="91"?> Sprachlauten eine wichtige, wenn auch nicht unumstrittene Rolle (s. Onlinekapitel ‚Akustische Segmentierung‘). Details zur Frequenzauflösung sind hingegen oftmals weniger informativ, insbesondere wenn es darum geht, einzelne Phone bestimmten Phonemen anhand akustischer Informationen zuzuordnen. Aus diesen Gründen kommt in der akustischen Phonetik häufiger das Breitbandsonagramm zum Einsatz. Die Bedeutung der Bänder für die phonetische Analyse wird in 3.2 erklärt. Die Mög‐ lichkeiten der akustischen Segmentierung des Lautstroms anhand von Oszillogramm und Sonagramm sind im Onlinekapitel ‚Akustische Segmentierung‘ beschrieben. 3.2 Akustische Phonetik Das akustische Sprachsignal entspricht einem gefilterten Signal, das sich aus dem Spek‐ trum eines Quellsignals und dem Spektrum des Vokaltraktfilters zusammensetzt und an Mund und Nase abgestrahlt wird. Den Zusammenhang zwischen Quell- oder Anregungssignal und den Resonanzfrequenzen des Vokaltraktfilters untersucht die Quelle/ Filter-Theorie (Engl. Source/ filter theory, Fant 1960, vgl. auch Ladefoged 1996). Das Quellsignal kann im Kehlkopf oder im supraglottalen Raum erzeugt werden, die Qualität des akustischen Sprachsignals ergibt sich aufgrund des als Filter fungierenden und modifizierbaren Ansatzrohrs. 3.2.1 Grundfrequenz Bei pulmonal egressiv erzeugten und stimmhaften Sprachlauten wie [m] oder [aɪ] entsprechen die schwingenden Stimmlippen der Schallquelle (vgl. 2.3). Aufgrund des pulmonalen Luftstroms und der sich schnell öffnenden und schließenden Stimmlippen entstehen an der Glottis Luftstöße (auch glottale Impulse, Engl. glottal pulses), wodurch die Luftmoleküle im supraglottalen Bereich in Schwingung versetzt werden und sich als Welle ausbreiten. Bei stimmhaften Sprachlauten wird der Grundton durch die Stimmlippenschwin‐ gung erzeugt. Dieses auch als Grundfrequenz (abgekürzt f0) bezeichnete Quell- oder Anregungssignal wird auditiv als Tonhöhe wahrgenommen (s. auch 8.2). Die f0 ergibt sich aus dem Kehrwert einer Periodendauer. Beträgt diese 5 ms, so ergibt sich eine f0 von 200 Hz. Die f0 quasiperiodischer Signale lässt sich anhand eines Oszillogramms leicht berechnen. Da sich die Dauern der einzelnen Quasiperioden jedoch in der Regel leicht unterscheiden, bietet es sich an, die f0 aufgrund der mittleren Periodendauer über ein größeres Zeitfenster zu bestimmen, in dem sich die Perioden noch gut erkennen lassen. 90 3 Sprachakustik <?page no="92"?> Auch im Sonagramm bzw. den zugrunde liegenden Spektren ist die f0 zu erkennen. So korrespondieren die jeweils ersten Gipfel des frequenzabhängigen Schalldruckpe‐ gelgipfels im Frequenzbereich von 200 und 215 in Abb. 22 bzw. 200 Hz und 220 Hz in Abb. 23 mit der Grundfrequenz. Im Schmalbandsonagramm ist die f0 anhand des untersten horizontal verlaufenden schmalen Bandes gut zu erkennen. Im Breit‐ bandsonagramm ist dieses unterste Band im niederfrequenten Bereich breiter. Dieses Band, das sich in Maiers [maɪɐs] von [m] bis [ɐ] erstreckt (vgl. Abb. 22, Abb. 24), wird auch als voice bar bezeichnet. Im Breitbandsonagramm spiegeln zudem die vertikalen schwarzen Linien die wiederkehrende Öffnung der Stimmlippen während der Phonation wider (vgl. 2.3.1). Die f0 ist im Breitbandsonagramm einerseits in Form vertikaler schwarzer Linien und andererseits in Form des ersten horizontalen Balkens im niederfrequenten Bereich zu erkennen. In den oben genannten Beispielen wurde die f0 für sehr kurze Signalabschnitte zwi‐ schen 5 ms und 30 ms abgeleitet. Dennoch kam es je nach Signalabschnitt zu Variatio‐ nen. Ein Grund für diese Variation ist wiederum der jeweils betrachtete Signalabschnitt: Ändert sich der Abschnitt in Länge oder Größe, so ändert sich auch das Spektrum bzw. die berücksichtigte Dauer der Quasiperioden und damit die ermittelte Grundfrequenz. Die Variation zwischen dem 5 ms (Abb. 22) und dem 30 ms (Abb. 23) großen Signalab‐ schnitt fällt aber mit 215 Hz bzw. 220 Hz recht gering aus. Größer ist sie zwischen den mit je 5 ms gleich langen, aber unterschiedlichen Signalabschnitten aus dem [a] und [ɪ]-Bereich in Abb. 22: Ein möglicher Grund für diesen Unterschied von 15 Hz ist die sogenannte intrinsische f0, zu der man mehr im Onlinekapitel ‚Mikroprosodie‘ erfährt (s. auch Abb. 35 in 3.4.2.2). 3.2 Akustische Phonetik 91 <?page no="93"?> Abb. 24: f0-Verläufe (weiß) über dem segmentierten und etikettierten Sonagramm derselben Äußerung wie in Abb. 22 (links) und über der gleichen, aber von einer anderen Sprecherin und mit fallender f0 produzierten Äußerung (rechts). Die Skala links der Sonagramme gibt den Frequenzbereich des Sona‐ gramms an, die Skala rechts der Sonagramme den Frequenzbereich der Grundfrequenz. Ein anderer Grund für eine Änderung in der f0 über einen größeren Zeitabschnitt ist die sprecherseitige Möglichkeit, die Tonhöhe aktiv zu steuern. Als Sprecher: in haben wir die Wahl, höher oder tiefer, monoton oder variabel zu sprechen. Die Sprecherin unserer Beispieläußerung produziert das Wort Maiers in der Tat mit einem leicht steigenden f0-Verlauf. Hört man sich die Äußerung Maiers isoliert auf der Website zum Buch an, so kann man diese mit ihrer über die Zeit steigenden Tonhöhe als Frage deuten. Realisiert man Maiers als neutrale Aussage, so fällt die f0 vom Beginn zum Ende des Wortes ab. Die unterschiedlichen f0-Verläufe über das Wort Maiers und damit über die Zeit sind in Abb. 24 über den zugrunde liegenden Sonagrammen dargestellt; zu beachten ist vor allem der jeweilige globale f0-Verlauf; kleinere lokale Ausschläge wie am Übergang von [m] zu [aɪ] können ignoriert werden (s. hierzu 9.1). Damit wir die f0 über die Zeit ansteigen oder abfallen lassen können, ändern wir u. a. die Schwingungsfrequenz der Stimmlippen durch Kontraktionen der Kehlkopfmuskeln M. cricothyroideus und M. thyroarytaenoideus (vgl. 2.1.1). Das akustische Resultat einer erhöhten Schwingungsfrequenz der Stimmlippen ist eine erhöhte Grundfrequenz. Die sprechergewollte, sogenannte makroprosodische f0-Variation steht im Vordergrund von Kapitel 9. In den meisten Programmen kann man sich den f0-Verlauf einzeln oder auch über einem Sonagramm wie in Abb. 24 anzeigen lassen. Wir müssen also die f0 in der Regel nicht selbst berechnen, obwohl dies anhand von Oszillogramm (und Sonagramm) möglich wäre. 3.2.2 Der Vokaltrakt als Resonanzraum Die Ausbreitung der durch die Schallquelle ausgelösten Schallwelle wird im Falle gesprochener Sprache durch den als Resonanzraum fungierenden Vokaltrakt begrenzt 92 3 Sprachakustik <?page no="94"?> und - aufgrund des weichen Gewebes im supraglottalen Raum - gedämpft. In diesem Kontext empfiehlt sich auch die alternative Bezeichnung Ansatzrohr für Vokaltrakt, weil die Ausbreitung des Sprachschalls in einer ersten, simplifizierten Annäherung akustisch mittels einfacher Rohrmodelle (Engl. tube models) modelliert werden kann (s. z.-B. Ladefoged & Johnson 2011). Abb. 25: Schematische Darstellung der Wellenausbreitung im Ansatzrohr (nach https: / / www.phonetik. uni-muenchen.de/ studium/ skripten/ AP/ APKap2.html, abgerufen am 25.05.2022, 12: 10 Uhr). Man kann sich das Ansatzrohr zunächst wie in Abb. 25 dargestellt als einseitig geschlossenes Rohr vorstellen. Die Glottis entspricht dabei dem (immer wieder) geschlossenen Ende des Ansatzrohrs, die Lippen dem offenen Ende. Der durch den Grundton in Schwingung versetzte Resonanzraum erzeugt wiederum verschiedene Resonanzfrequenzen, die nicht Teil des Quellsignals, sondern Teil der Ansatzrohrform sind. Die Resonanzfrequenzen des Ansatzrohres können 1. nicht nur durch die Stimmlippenschwingung hörbar gemacht werden, 2. sich je nach Artikulationsstelle (Ansatzrohrkonfiguration) ändern. Punkt 1 kann man leicht selbst überprüfen, in dem man einmal lautlos [i] wie in sie produziert und dabei gleichmäßig den Zeigefinger von der Daumenkuppe gegen die Unterseite des Kinns schnippt. Das so erzeugte Geräusch entspricht einer Resonanz‐ frequenz des Vokaltrakts; die Schallquelle ist in diesem Fall die impulsartige Bewegung des Fingers gegen das Kinn. Punkt 2 kann man ebenfalls leicht selbst überprüfen, in dem man die Übung fortsetzt, nun aber die Artikulation von [i] zu [a] und [o] wie in sah und so ändert, also den Vokaltrakt neu konfiguriert. Das Ergebnis ist eine auditiv wahrnehmbare Änderung der Resonanzfrequenz. Bei Sprachlauten ist das Anregungssignal aber natürlich kein schnippender Finger, sondern in vielen Fällen die niederfrequente Grundfrequenz der Stimmlippenschwin‐ gung und deren höherfrequente Harmonische. 3.2 Akustische Phonetik 93 <?page no="95"?> 3.2.2.1 Stimmhafte Sprachlaute Dass auch bei stimmhaften Sprachlauten f0 und Resonanzfrequenzen unabhängig von‐ einander sind, verdeutlicht folgende Beobachtung, die man wiederum leicht selbst aus‐ probieren kann: Bei einem gleichbleibenden Quellsignal wie einem monoton gesun‐ genen Ton können wir allein durch Veränderungen in der Artikulation und damit im Vokaltrakt auditiv unterscheidbare Sprachlaute wie [i], [a] und [o] produzieren. Um‐ gekehrt kann natürlich genauso gut die Frequenz des Quellsignals, also die wahrge‐ nommene Tonhöhe geändert werden, ohne dabei die Vokaltraktkonfiguration zu mo‐ difizieren. Die Resonanzfrequenzen werden durch den sich als stehende Welle ausbreitenden Sprachschall, die Wellenlänge und die Schallgeschwindigkeit bestimmt, wobei mehrere Resonanzfrequenzen zeitgleich auftreten und sich überlagern. Liegen die Frequenzen der Harmonischen dicht an den Resonanzfrequenzen des Vokaltraktes zu einer be‐ stimmten Konfiguration (z. B. [i] oder [a]), werden diese nicht so stark gedämpft wie die übrigen Frequenzen. Im Sonagramm sind sie infolgedessen als Schwärzung bzw. in den zugrunde liegenden Spektren als Amplitudenmaxima zu erkennen. Die schwarzen Energieschwerpunkte im Sonagramm werden Formanten genannt. Formanten sind Resonanzfrequenzbänder des Vokaltraktes, die sich bei ähnlichen Frequenzen der Harmonischen als Energieschwerpunkte im Spektrum herausbil‐ den. Im Breitbandsonagramm sind sie an den horizontalen schwarzen Balken oberhalb der Grundfrequenz zu erkennen. Die erste und niedrigste Formantfrequenz wird mit F1 abgekürzt, die zweite und nächsthöhere mit F2, usw. Höhere Frequenzen werden mit Ausnahme von F3 in diesem Buch nicht behandelt, auch weil sie - wiederum mit Ausnahme von F3 - für die Sprachlautcharakteristik eine untergeordnete Rolle spielen. Grundsätzlich gilt: Je höher die Nummerierung, desto höher die Frequenz, wobei die Nummerierung der Formantfrequenzen nicht als Fortzählung von f0 missverstanden werden darf, da Formantfrequenzen und f0 Teil unterschiedlicher Spektren sind. Die als Formanten bezeichneten Resonanzfrequenzbänder sind der Beschaffenheit des menschlichen Vokaltraktes geschuldet, der im Gegensatz zu einem einfachen einseitig geschlossenen Rohr den sich ausbreitenden Schall dämpft. Obwohl man es daher nie mit einzelnen konkreten Resonanzfrequenzwerten zu tun hat, wie man sie für ein einseitig geöffnetes Rohr berechnen kann, und die Programmalgorithmen Formanten immer nur schätzen, werden in der akustischen Phonetik dennoch konkrete Formantfrequenzwerte ange‐ geben; diese entsprechen in der Regel der Mittenfrequenz, bei der der Schalldruckpegel am höchsten ist (unter Berücksichtigung der jeweiligen Bandbreite, vgl. 3.1.2.2). Für den sogenannten Neutralvokal, der ähnlich dem Vokal am Ende des Wortes bitte mit neutraler Ansatzrohrkonfiguration (der sog. Indifferenzlage) produziert wird, können anhand von Berechnungen für ein einfaches Rohrmodell mit einer Ansatzrohr‐ 94 3 Sprachakustik <?page no="96"?> länge von ca. 17 cm folgende erste drei Formantfrequenzwerte hergeleitet werden: F1 ≈ 500 Hz, F2 ≈ 1500 Hz und F3 ≈ 2500 Hz (s. Pompino-Marschall 2009: 107 f.; Ladefoged & Johnson 2011: 189). Je tiefer die f0 und damit ihre Harmonischen, desto wahrscheinlicher ist es, dass eine Resonanzfrequenz in der Nähe einer Harmonischen liegt und dementsprechend verstärkt wird. Bei einer f0 von 100 Hz und den Harmonischen von 200 Hz, 300 Hz, 400 Hz, 500 Hz usw. werden Frequenzen von 500 Hz bzw. 1500 Hz aufgrund der F1-Frequenz von 500 Hz und der F2-Frequenz von 1500 Hz gut verstärkt. Bei einer f0 von 200 Hz und den Harmonischen 400 Hz, 600 Hz, 800 Hz usw. fällt die Verstärkung im Bereich von F1 schon deutlich schwächer aus, da die Frequenzen der zweiten und dritten Harmonischen deutlich weiter von der Resonanzfrequenz entfernt sind. Dies führt dazu, dass Vokale, die sich vor allem in den Resonanzfrequenzen unterscheiden, bei hohen Stimmen, wie z. B. denen von Kindern, schlechter erkannt werden als bei tiefen Stimmen. Ändern wir eine Artikulationsstellung vom Neutralvokal z. B. zu [ɪ], der auch in Maiers vorkommt, dann ändern sich mit der veränderten Ansatzrohrform auch dessen Resonanzfrequenzen. Die Ansatzrohrform wird dabei nun - grob dargestellt - in einen hinteren und einen vorderen Resonanzraum unterteilt, wie in Abb. 26 für dem [ɪ]-ähnlichen Laut [i] skizziert. Der hintere Resonanzraum streckt sich von der Glottis zu einer Enge im Ansatzrohr aus (a-b in Abb. 26), der vordere von besagter Enge bis zu den Lippen (c-d in Abb. 26). Die beiden Resonanzräume sind akustisch gekoppelt, d. h. die Resonanzfrequenzen beider Resonanzräume zusammen weichen von denen ab, die jeder Resonanzraum für sich betrachtet aufweist. Zusammen mit der Verengung (b-c in Abb. 26) formt der hintere Resonanzraum einen sogenannten Helmholtz-Resonator (s. Ladefoged 1996). Ein vielleicht bekannterer Helmholtz-Resonator ist eine Flasche; je nach Luftvolumen - das man z. B. durch unterschiedliche Flüssigkeitsstände ändern kann - wird der Ton anders klingen, wenn man an der Öffnung des Flaschenhalses durch leichtes Blasen ein Quellsignal erzeugt. Ebenso wie das nicht unterteilte Rohr‐ modell, entspricht auch das unterteilte Ansatzrohrmodell einer stark vereinfachten Abstraktion; doch die akustischen Eigenschaften einiger Vokale, die in 4.3 beschrieben sind, lassen sich mit Modellen wie diesen recht gut schätzen (s. Johnson 2011). Abb. 26: Schematische Darstellung der [i]-Artikulation im Vokaltrakt (links) und als Rohrsystem (rechts, aus Ladefoged 1996: 127). 3.2 Akustische Phonetik 95 <?page no="97"?> Bei der komplexeren Form des Ansatzrohrs bestimmen auch die unterschiedlichen Rohrlängen, die sich u. a. aus der Unterteilung ergeben, die verschiedenen Reso‐ nanzfrequenzen. Die Frequenz von F1 hängt insbesondere davon ab, wie stark der Zungenrücken gesenkt bzw. angehoben ist. Eine Senkung des Zungenrückens geht mit einer größeren Enge im pharyngalen Bereich einher und damit einer Verkürzung des hinteren Resonanzraums und der Gesamtrohrlänge (a-d in Abb. 26). Die F2-Fre‐ quenz variiert vor allem in Abhängigkeit der Engeposition im Ansatzrohr, die die Länge des vorderen Resonanzraums im Vergleich zum hinteren beeinflusst (auch bei gleichbleibender Gesamtrohrlänge). Grundsätzlich gilt: Je kürzer die Länge eines Rohrs, desto höher dessen Resonanzfrequenz aufgrund einer kürzeren Wellenlänge. Die Zusammenhänge zwischen Rohrlänge und Frequenz, Quellsignal und Filter lassen sich auch gut an Musikinstrumenten beobachten: Der Resonanzraum einer Posaune kann stufenlos verlängert werden, wodurch bei einem gleichbleibenden Quellsignal - in diesem Fall die Lippenschwingung - die Resonanzfrequenz sinkt. Der grobe Zusammenhang zwischen den einzelnen Rohrabschnitten und Forma‐ ntfrequenzlagen sei hier wiederum anhand von [aɪ] in Maiers erläutert. Die Formantla‐ gen anderer Vokale werden in 4.3 vorgestellt. Bei Vokalen wie [i] (z. B. bieten s. Abb. 26) oder auch [ɪ] (z. B. bitten oder eben Maiers) ist die Gesamtrohrlänge aufgrund der hohen Zungenposition vergleichsweise lang, die Verengung weit entfernt von der Glottis und die erste Formantfrequenz F1 dementsprechend tief. Bei einem [a] ist die Verengung näher an der Glottis, F1 ist folglich höher. Bei F2 verhält es sich andersherum: Hier ist im Vergleich zu [a] bei [ɪ] der vordere Resonanzraum kürzer und F2 demnach höher (s. Abb. 26). Auch in Abb. 27 ist das Abfallen der F1-Frequenz bzw. das Ansteigen der F2-Frequenz von [a] zu [ɪ] in Maiers gut zu erkennen. Abb. 27: Verläufe der ersten vier Formantfrequenzen (gepunktete Linien) und der f0 (durchgezogene Linie) über einem Sonagrammausschnitt derselben Äußerung Maiers wie in Abb. 22. 96 3 Sprachakustik <?page no="98"?> Die Formanten waren in den dem Breitbandsonagramm zugrunde liegenden Spektren in Abb. 22 an den Schalldruckpegelgipfeln um 1000 Hz im [a]-Bereich und um 850 Hz bzw. 2500 Hz im [ɪ]-Bereich zu erkennen. Im [a]-Bereich ließen sich F1 und F2 aufgrund nah beieinander liegender Formantfrequenzen und des breiten Bandes im Spektrum nicht gut trennen, im [ɪ]-Bereich hingegen schon. In den Spektren des Schmalbandsonagramms in Abb. 23 sind die einzelnen Amplitudenmaxima hingegen den Harmonischen zuzuordnen. Aber auch dort erkennt man den erhöhten Schall‐ druckpegel einzelner Gipfel, die wiederum im jeweiligen Bereich der Resonanzfrequenz der Vokaltraktform für ein [a] bzw. für ein [ɪ] liegen (s. z. B. den elften Gipfel bei ca. 2,6-kHz im rechten Spektrum von Abb. 23). Für die Modellierung von Nasalen wie [m] in Maiers bedarf es verzweigter Rohr‐ modelle, da diese durch die Zuschaltung des Nasenraums und damit einen weiteren Resonanzraum charakterisiert sind. Die akustischen Eigenschaften von Nasalen wer‐ den in 4.2.2 vorgestellt. - 3.2.2.2 Stimmlose Sprachlaute Abb. 28: Segmentiertes und etikettiertes Sonagramm zur selben Äußerung des Wortes Kompass wie in Abb. 21 mit markierten Bereichen stochastischen Rauschens. Bislang sind wir immer nur von der Stimmlippenschwingung als Quellsignal ausge‐ gangen. Bei stimmlosen Lauten wird das Quellsignal jedoch weiter oben an einer bestimmten Artikulationsstelle im Ansatzrohr erzeugt. Bei einem Frikativ wie [s] oder Plosiven wie [k] und [p], die alle in Kompass vorkommen (s. Abb. 28), kommt es hinter der Engebildung (Frikativ) bzw. nach der Verschlusslösung (Plosiv) zwischen dem artikulierenden Organ und der Artikulationsstelle zu einer turbulenten Luftströmung, 3.2 Akustische Phonetik 97 <?page no="99"?> die aperiodisch ist und als stochastisches Rauschen visuell (s. Abb. 28) bzw. auditiv perzipierbar ist. Auch dieses Signal wird dann vom Filter des vorderen Resonanzraums, der sich von der Stelle der Enge bzw. des Verschlusses bis zu den Lippen erstreckt, geformt. Dabei gilt auch hier: umso kürzer das vordere Rohr, desto höher der Fre‐ quenzbereich, in dem sich das stochastische Rauschen konzentriert und einen im Sonagramm deutlich sichtbaren Frequenzschwerpunkt bildet (s. 4.2.4). Da [s] mit der Zungenspitze am Alveolarfortsatz und damit relativ weit vorne im Ansatzrohr gebildet wird, liegt der schwärzer eingefärbte Frequenzschwerpunkt in einem recht hohen Frequenzbereich, von über 6 kHz. Der Frequenzschwerpunkt verlagert sich nach unten, je weiter hinten im Vokaltrakt ein stimmloser Laut realisiert wird, d. h. je länger der vordere Resonanzraum ist. Das stochastische Rauschen nach der Verschlusslösung von [kʰ] und [pʰ] ähnelt einem [h] wie zu Beginn von Haus. In aperiodischen Signalen wie diesen ist die Resonanzfrequenz des Vokaltraktes auch anhand formantähnlicher Strukturen zu erkennen. Die Erklärung von f0 und Formanten anhand von Rohrmodellen ist - wie so oft - stark vereinfacht. Der Vokaltrakt entspricht weder einem einfachen noch einem einfach verzweigten Rohrmodell und f0 und Formanten sind auch nicht ganz unab‐ hängig voneinander. Für den Moment genügt es, sich das Ansatzrohr als ein einseitig geöffnetes Rohr vorzustellen, dass die Qualität des Quellsignal modifiziert. Welche Auswirkungen auf den Roschall diese Art von Filter in Abhängigkeit eines bestimmten Konstriktionstypen und einer speziellen Artikulationsstelle in der Realität haben kann, schauen wir uns in Kapitel 4 anhand von konkreten Beispielen genauer an. 3.2.3 Sprecherunterschiede Der Zusammenhang zwischen der Länge der Stimmlippen bzw. des Ansatzrohrs und der Frequenz lässt sich besonders gut auch an alters- und geschlechtsspezifischen Un‐ terschieden erkennen. Erwachsene haben eine tiefere f0 als Kinder, da die Stimmlippen der Erwachsenen länger und schwerer sind als die von Kindern, was sich auf das Schwingungsverhalten der Stimmlippen auswirkt (s. Abb. 35 in 3.4.2.2). Längere und schwerere Stimmlippen schwingen langsamer und mit niedrigerer Frequenz. Die f0 und damit die Tonhöhe nimmt daher mit zunehmendem Alter ab. Die gleiche Erklärung trifft auch auf den f0-Unterschied zwischen Männern und Frauen zu: Die im Durchschnitt tieferen Grundfrequenzen bei Männern im Vergleich zu Frauen gehen auf die im Durchschnitt längeren und schwereren Stimmlippen bei Männern zurück (s. Abb. 35 in 3.4.2.2). Auch bei den Resonanzfrequenzen beobachten wir tiefere Formantfrequenzwerte bei Männern im Vergleich zu Frauen und bei Frauen im Vergleich zu Kindern. Grund hierfür sind aber nicht die Längenunterschiede bei den Stimmlippen, sondern Unter‐ schiede in der Ansatzrohrlänge: Kinder haben ein kürzeres Ansatzrohr als Erwachsene und damit höhere Resonanzfrequenzen als Erwachsene; Frauen haben in der Regel ein kürzeres Ansatzrohr als Männer und daher im Vergleich zu Männern höhere 98 3 Sprachakustik <?page no="100"?> Resonanzfrequenzen (s. Abb. 60 in 4.3.2). Für diese drei Gruppen gelten die akustischen Unterschiede recht zuverlässig. Auf der Ebene des Individuums muss man mit solchen Generalisierungen vorsichti‐ ger sein, da auch andere Faktoren einen Einfluss auf die Sprachakustik haben. So stehen etwa Körpergröße und Ansatzrohrbzw. Stimmlippenlänge nur in einem mittelbaren Verhältnis zueinander, d. h. ein kleinerer Sprecher kann eine tiefere f0 haben als ein größerer Sprecher, muss es aber nicht. Unterschiede in der Gewebebeschaffenheit wir‐ ken sich genauso auf die Sprachakustik aus wie andere Faktoren, die den persönlichen Hintergrund betreffen (z.-B. Kulturkreis, Alter, Rauchen u.v.m.). Inter- und Intrasprecher-Unterschiede sind omnipräsent in akustischen Sprachsig‐ nalen. Die akustischen Unterschiede zwischen Sprecher: innen und innerhalb eines Individuums ergeben sich auch aufgrund verschiedener Sprechsituationen. Manche der Unterschiede sind uns als Sprecher: innen bewusst, z. B. wenn wir gegenüber Babys und Kleinkindern in einer höheren Tonlage, d. h. mit einer erhöhten f0 sprechen. Manche Veränderungen geschehen hingegen unbewusst, wenn auch nicht immer zufällig, z. B. wenn eine Sprecherin bei einer Rede vor Publikum gezielt, aber unbewusst, etwas tiefer spricht. Trotz der individuell und situativ bedingten Variation, ermöglichen akustische Analysen von Sprachsignalen Generalisierungen im Rahmen allgemeiner und sprach‐ spezifischer phonetischer Beschreibungen, da die Oberflächenformen desselben zu‐ grunde liegenden Phonems zueinander doch Ähnlichkeiten und im Vergleich zu den Oberflächenformen anderer Phoneme charakteristische Unterschiede aufweisen. Die Verläufe der ersten beiden Formantfrequenzen in den beiden Maiers-Äußerungen von zwei unterschiedlichen Sprecherinnen in Abb. 24 weisen im Bereich von [aɪ] zwar Unterschiede, aber auch große Ähnlichkeiten auf. Sprecherunterschieden wie diesen gilt es in signalphonetischen Analysen also Rechnung zu tragen, will man Generalisierungen für eine Sprache ableiten. Dies erreicht man am besten, indem man sich die akustischen Sprachsignale von vielen Sprecher: innen einer sonst homogenen Gruppe anschaut (d.-h. gleiches Alter, gleicher Dialekt o.ä., etc.). In bestimmten Anwendungsbereichen wie etwa der forensischen Phonetik stehen hingegen gerade die sprecherspezifischen akustischen Unterschiede im Fokus, da sie bis zu einem gewissen Grad Stimmenvergleiche und die Erkennung von Individuen ermöglichen. In diesem Kontext gewinnen auch höhere Formantfrequenzlagen wie die von F4 an Bedeutung, da diese recht sprecherspezifisch ausgeprägt sind. 3.3 Akustische Phonologie? Legt man zugrunde, dass sich die Phonologie nicht mit der Form von Sprachlauten beschäftigt, mag es widersprüchlich erscheinen, von akustischer Phonologie zu spre‐ chen. Auf der anderen Seite haben wir in 2.4 die Theorie der Artikulatorischen Phonologie kennengelernt. Auch wenn es noch keine vergleichbar bekannte Theorie 3.3 Akustische Phonologie? 99 <?page no="101"?> der akustischen Phonologie gibt, so finden sich in der Literatur durchaus Bestrebungen danach (z. B. Carré et al. 2017). Forscher: innen, die sich intensiv mit der akustischen Analyse gesprochener Sprache beschäftig haben, taten dies oftmals auch mit Blick auf explizite phonologische Fragestellungen, also nicht allein mit Blick auf die phonetische Form akustischer Sprachsignale. Ein zentrales Thema war dabei lange Zeit die Suche nach akustisch unveränderlichen Komponenten im Sprachsignal; man war sich der Inter- und Intrasprechervarianz bewusst, glaubte aber an eine invariante Komponente innerhalb von Phonen, die die eindeutige Zuordnung zum zugrunde liegenden Phonem erlaubt. Da Untersuchungen auf diesem Gebiet eng mit der auditiven Sprachwahr‐ nehmung verknüpft sind, werden diese erst in Kapitel 8 genauer vorgestellt. An dieser Stelle sollen nur zwei Theorien kurz vorgestellt werden, die phonologische Fragestellungen mittels akustischer Analysen zu beantworten suchen. Der Adaptive Dispersion Theory (Liljencrants & Lindblom 1972; Lindblom 1986, 1990) zufolge werden in einer Sprache insbesondere solche Laute funktional genutzt, die mit ausreichendem akustischem Kontrast produziert werden, sodass sie auch auditiv gut unterscheidbar sind. Die Begriffe im Namen der Theorie beschreiben einerseits die grundsätzliche artikulatorische Anpassungsfähigkeit (= adaptiv) von Sprecher: innen an die Bedürfnisse von Hörer: innen, um gut verstanden zu werden (s. 7.1, 8.3.3.2) und andererseits die Verteilung (= Dispersion) von Lauten in einer Sprache (s. Kap. 4). Nutzt eine Sprache Laute funktional, die sich akustisch ähnlich sein können - so wie z. B. im Deutschen der palatale Frikativ / ç/ wie in wichen und der postalveolare Frikativ / ʃ/ wie in wischen -, so darf dieser Theorie zufolge die artikulatorische Variabilität auf Seiten der Phone nicht groß sein, damit der akustische Kontrast auditiv wahrgenommen werden kann. In anderen Worten: Es bedarf größerer artikulatorischer Präzision, um die entsprechende phonologische Opposition akustisch deutlich hervorzuheben.. Fehlt die Präzision, kann die phonologische Opposition synchron und diachron verloren gehen. In einer Sprache, in der nur / ʃ/ Bestandteil des Phoneminventars ist, nicht aber / ç/ (z. B. Englisch), können die verschiedenen [ʃ]-Phone artikulatorisch und akustisch wiederum variabler ausfallen. Auch mit der Quantaltheorie (Engl. Quantal theory, Stevens 1972, 1989) sollen Fra‐ gen wie die Folgende beantwortet werden können: Weshalb können viele unterschied‐ liche Phone auf der auditiv-mentalen Ebene nur einer endlichen und vergleichsweise geringen Anzahl an Phonemen zugeordnet werden? Einen Grund hierfür sieht Stevens in der nicht linearen Beziehung zwischen Artikulation und Akustik. Demnach führen kleine Änderungen in der Vokaltraktkonfiguration oftmals nur zu geringen, kaum wahrnehmbaren akustischen Änderungen bis plötzlich eine vergleichbar kleine Änderung in der Artikulation zu einer großen akustischen Änderung führt. Dieser Zusammenhang ist in Abb. 29 dargestellt. 100 3 Sprachakustik <?page no="102"?> Abb. 29: Schematische Darstellung einer akustischen Änderung als Funktion einer artikulatorischen Änderung (aus Stevens 1989: 4). Artikulatorische Bereiche mit großen akustischen Änderungen werden als Quantal‐ sprung-Bereiche bezeichnet, artikulatorische Bereiche mit kleinen akustischen Än‐ derungen als stabile Quantalgebiete. Entscheidend ist, dass die Gebiete der Quantal‐ sprünge kleiner sind als die der stabilen Quantalgebiete. Stabile Quantalgebiete können mit Phonemen in Verbindung gebracht werden, d. h. Quantalgebiet I könnte etwa mit einer Vokaltraktkonfiguration für ein [s] wie in Reis korrespondieren und Quant‐ algebiet III mit der Vokaltraktkonfiguration für ein [ç] wie in reich. Im Bereich eines stabilen Quantalgebiets realisierte Phone werden eindeutig dem jeweiligen Phonem zugeordnet. Der Bereich des Quantalsprungs (Quantalgebiet II in Abb. 29) markiert der Theorie zufolge den artikulatorischen Bereich, in dem sich eine Lautgrenze befindet, wie etwa der zwischen [s] und [ç]. Folglich können Sprecher: innen also in ihrer Artikulation durchaus etwas variieren, ohne dabei große akustische Änderungen hervorzurufen. Nur im Bereich eines möglichen Quantalsprungs läuft man Gefahr, dass das Phon einem falschen Phonem zugeordnet wird (was in der sprachlichen Realität ja durchaus auch vorkommen kann). Die Beziehung zwischen Artikulation und Akustik ist nicht linear. Das bedeutet, dass nicht jede Änderung in der Vokaltraktkonfiguration mit einer akustischen Änderung einhergeht, die auf phonologischer Ebene mit einem anderen Phonem korrespondiert. Artikulatorisch wie akustisch gibt es einen gewissen Toleranzbe‐ reich, der für erfolgreiche Kommunikationssysteme notwendig ist. Der akustische Quantalsprung geht der Theorie zufolge einher mit einer abrupten Änderung in der auditiven Wahrnehmung und Phonemzuordnung. In Kapitel 8 werden 3.3 Akustische Phonologie? 101 <?page no="103"?> wir sehen, dass auch die Beziehung zwischen Akustik und auditiver Wahrnehmung nicht linear ist. In Kapitel 5 lernen wir eine phonologische Theorie kennen - die der distinktiven Merkmale -, die von großer Bedeutung für die Quantaltheorie war. Gene‐ rell zeichnet sich die Quantaltheorie gerade durch die Kombination phonologischer und signalbasierter Ansätze aus. 3.4 Werkzeuge der Sprachverarbeitung Die in diesem Kapitel gezeigten Abbildungen wurden basierend auf vorliegenden Audiosignalen mit dem Computer-Programm Praat (Boersma & Weenink 2018) erstellt. Auch einige Audiosignale wurden in Praat aufgenommen, andere mithilfe des Pro‐ gramms SpeechRecorder (Draxler & Jänsch 2004). Alle Aufnahmen wurden mit einem Mikrofon über einen Kanal (mono) aufgenommen. Die Abtastrate (Engl. sampling frequency), die die Häufigkeit beschreibt, mit der ein Signal pro Sekunde gemessen bzw. abgetastet wird, betrug jeweils 44,1 kHz. Sowohl Praat als auch SpeechRecorder stehen zum freien Download zur Verfügung. • http: / / www.fon.hum.uva.nl/ praat/ (abgerufen am 13.05.2022, 9: 50 Uhr) • https: / / www.bas.uni-muenchen.de/ Bas/ software/ speechrecorder/ (abgerufen am 13.05.2022, 9: 50 Uhr) Im Onlinekapitel ‚Praat‘ wird kurz in das erste Arbeiten mit Praat anhand einer einzigen, nur eine kurze Äußerung umfassenden Signaldatei eingeführt. Darüber hinaus gibt es viele Onlineanleitungen zu Praat (z.-B. https: / / www.fon.hum.uva.nl/ praat/ manual/ Intro, abgerufen am 13.05.2022, 10: 45 Uhr) und der programmeigenen Skriptsprache, die für die quantitative Analyse von Sprachdaten mit Praat notwen‐ dig ist. Im Folgenden werden zwei andere, ebenfalls kostenlose Programme zur akustischen Analyse vorgestellt: das EMU Speech Database Management System (Winkelmann et al. 2017), kurz EMU-SDMS, und die Programmiersprache R, die in Kombination eine schnelle signalbasierte Analyse und statistische Auswertung zulassen. Grund für die Einführung ist die Nutzung einer kleinen Übungsdatenbank im EMU-SDMS-For‐ mat in den nachfolgenden Kapiteln, um phonetisch-phonologische Phänomene auf Grundlage reeller Sprachaufnahmen zu untermauern. Alle Datenbankabfragen und dazugehörigen signalphonetischen Analysen und Abbildungen wurden in R erstellt. Die nachfolgende Einführung in diese beiden Werkzeuge der Sprachverarbeitung dient daher dem besseren Verständnis der Begleitanalysen in den nachfolgenden Kapiteln. Zudem soll anhand einer weiteren, in 3.4.1 näher vorgestellten Datenbank folgende Fragestellung mit Bezug auf dieses Kapitel beantwortet werden: Unterscheiden sich Kinder, Frauen und Männer in der f0 der Vokale [aː], [iː] und [uː]? Das EMU-SDMS kombiniert mehrere Softwaretools, mit denen Sprachdatenbanken erstellt, strukturiert und analysiert werden können (s. Abb. 30). Die EMU-webApp, 102 3 Sprachakustik <?page no="104"?> emuR und wrassp werden weiter unten vorgestellt. Auch EMU-SDMS bietet - wie etwa Praat - u. a. die Möglichkeit zur Segmentierung und Etikettierung von Sprach‐ daten, wobei in der Regel die Transkription einzelner Signalabschnitte (z. B. Wörter, Phone) und deren zeitlicher Beginn und Ende im Sprachsignal in einer separaten Text‐ datei, nachfolgend Annotationsdatei genannt, gespeichert werden können. Öffnet man eine Audiodatei und die dazugehörige Annotationsdatei, deren Format programmab‐ hängig ist, wird die mit dem Sprachsignal zeitlich synchronisierte Segmentierung und Etikettierung des Lautstroms dargestellt. Allein in diesem Kapitel finden sich viele Beispiele für solche Darstellungen: Den in Praat segmentierten und etikettierten Os‐ zillogrammen und Sonagrammen liegen Annotationsdateien im sogenannten Text‐ Grid-Format zugrunde (vgl. z. B. S. 83, Abb. 20 und S. 97, Abb. 28, s. Onlinekapitel ‚Praat‘); ein Beispiel für eine im EMU-SDMS erstellte Annotation ist in Abb. 32 auf S. 108 zu sehen. Im Gegensatz zu Praat ist der Zugang zur Arbeit mit diesem Software-Pa‐ ket jedoch etwas komplexer. Will man sich einige wenige Sprachdaten ‚nur mal kurz‘ anschauen, so ist Praat sicherlich das geeignetere Instrument. Die Vorzüge von EMU-SDMS liegen u. a. in der - wie der zweite Teil des Namens schon sagt - Daten‐ bankverwaltung, die ein strukturiertes Arbeiten mit einer Sammlung zusammengehö‐ riger Sprachdaten erlaubt. Abb. 30: Übersicht über die Komponenten des EMU-SDMS. 3.4.1 EMU-SDMS Verzeichnisstruktur Eine Datenbank im EMU-SDMS-Format ist ein Verzeichnis (durch abschließenden / ge‐ kennzeichnet), dessen Name auf _emuDB endet und folgende Dateien und Ordner enthalten muss (s. Abb. 31): • Unterordner, der auf _ses endet (Session-Ordner), in dem sich wiederum auf _bndl endende Unterordner befinden (Bundle-Ordner), 3.4 Werkzeuge der Sprachverarbeitung 103 <?page no="105"?> 25 JSON steht für JavaScript Object Notation. Dateien in diesem Format können mit jedem Text-Editor geöffnet werden und sind vergleichsweise einfach lesbar. • eine JSON-Datei 25 , deren Name auf _DBconfig endet. Abb. 31: Verzeichnisstruktur der Sprachdatenbank Datenbank_1_emuDB im EMU-SDMS Format. Vor dem Unterstrich befinden sich jeweils die frei wählbaren Namen der • Datenbank (d.-h. vor _emuDB/ und _DBconfig.json), • Sessions (vor _ses, z.-B. ein Probandenkürzel), • Bundles (vor _bndl, z.-B. der Name der Äußerung). 104 3 Sprachakustik <?page no="106"?> In der Datei, die auf _DBconfig.json endet, ist die Datenbank-Konfiguration beschrie‐ ben, auf die hier nicht näher eingegangen wird (s. hierzu Winkelmann et al. 2017). In den Bundle-Ordnern sind folgende Dateien enthalten: • die Audiodatei, • die dazugehörige Annotationsdatei im JSON-Format, die auf _annot.json endet, • aus der Audiodatei abgeleitete Signaldateien, z.-B. zu f0 oder Formanten. Alle Dateien in einem Bundle-Ordner sind einer als Audiodatei gespeicherten Sprach‐ aufnahme zugeordnet. Sie müssen denselben Dateinamen tragen und unterscheiden sich nur in der Dateiendung. Die obligatorische Sortierung einzelner Audiodateien und zugehöriger Annotationsdateien in einzelne Unterordner verdeutlicht die übersichtli‐ che Struktur dieses Systems. Dateien, die auf _annot.json enden, enthalten die Informationen über Segment‐ grenzen und Etikettierungen, entsprechen also in Praat den Annotationsdateien im TextGrid-Format, auch wenn sie noch andere Informationen, zudem in einem anderen Format enthalten. So werden z. B. linguistische Hierarchien wie der zwischen Wort und Phon explizit modelliert, die es einem erlauben bestimmte Phone zu analysieren, die in einem bestimmten Wort vorkommen (d.-h. von ihm ‚dominiert‘ werden). In diesem Buch arbeiten wir mit zwei Datenbanken im EMU-SDMS-Format, um verschiedene Aussagen im Text empirisch zu untermauern. Anhand der ersten Daten‐ bank, Datenbank_1_emuDB soll • in das Arbeiten mit EMU-SDMS und R sowie in einfache signalphonetische Analysen eingeführt und • die zu Beginn dieses Abschnitts gestellte Frage zu Intra- und Intersprecher-Unter‐ schieden geprüft werden. Datenbank_1_emuDB enthält je sechs Aufnahmen von acht Sprecher: innen. Bei den sechs Aufnahmen handelt es sich um je zwei Wiederholungen der drei Wörter Rabe, Tiger, Tube, bei den acht Sprecher: innen um vier Erwachsene (zwei Männer, zwei Frauen) im Alter von 21 bis 24 Jahren und vier fünfjährige Kinder (zwei Mädchen, zwei Jungen). Alle Sprecher: innen stammen aus München und Umgebung und sprechen eine süddeutsche Variante des Standarddeutschen. Die Sprachaufnahmen der Erwachsenen fanden 2018, die der Kinder 2016 statt und umfassten jeweils noch weitere Sprachmaterialien. Während die Kinder die Zielwörter Rabe, Tiger, und Tube in einer Bildbenennungsaufgabe geäußert haben, haben die Erwachsenen Sätze gelesen, in denen diese Wörter vorkamen. Mit Zielwörtern werden die Wörter bezeichnet, mit denen eine Forschungsfrage beantwortet werden soll; die restlichen Wörter des sogenannten Trägersatzes sind irrelevant. Abb. 31 zeigt die Verzeichnisstruktur von Datenbank_1_emuDB. Die Namen der Session-Ordner enthalten pseudonymisierte, aber eindeutige Probandenkürzel, die sich aus der Kodierung für Altersgruppe (E = Erwachsener, K = Kind), Geschlecht (m = männlich, w = weiblich) und Probandennummer (01 = Sprecher: in 1, 02 = Sprecher: in 3.4 Werkzeuge der Sprachverarbeitung 105 <?page no="107"?> 26 SAMPA steht für Speech Assesment Methods Phonetic Alphabet und übersetzt viele IPA-Symbole in ASCII-Zeichen (s. Onlinekapitel ‚Akustische Segmentierung‘). 2) ergibt (z. B. E_m_01 = erster Sprecher in der Gruppe männlicher Erwachsener). Jeder Session-Ordner enthält sechs Bundle-Ordner. Die Namen der einzelnen Bundle-Ordner setzen sich aus dem Zielwort und der Wiederholungsnummer zusammen. Die Datei Rabe_01.wav enthält immer die erste Wiederholung des Zielwortes Rabe; befindet sich der Ordner Rabe_01_bndl im Ordner E_m_01_ses, so wurde das Zielwort im Trägersatz Ich soll doch Rabe lesen geäußert. Die Datei Rabe_01_annot.json enthält die Informa‐ tionen zur Segmentierung und Etikettierung, die hier mit den SAMPA-Zeichen 26 er‐ folgte; die Dateien Rabe_01.f0 und Rabe_01.fms enthalten die berechneten bzw. ge‐ schätzten Werte zur f0 und den Formanten (fms = formants). 3.4.2 Das R-Paket emuR Liegt ein Verzeichnis dieses Formats vor, kann auf die Datenbank über die R-Program‐ miersprache (Version 4.0.5, R Core Team 2021) und das R-Paket emuR (Version 2.2.0, Winkelmann et al. 2021) zugegriffen werden. R ist eine Programmiersprache für statistische Analysen und grafische Darstellungen. Sie ist frei verfügbar und findet in sehr vielen Bereichen der Datenanalyse Anwendung. Die Arbeit mit EMU-SDMS erfolgt in R und ggf. in einem Browser. Der Einfachheit halber arbeiten wir hier nur mit R und nicht mit der Benutzeroberfläche RStudio IDE (RStudio Team 2020), die jedoch für das längerfristige Arbeiten mit R sehr zu empfehlen ist. Das Programm R steht zum Download zur Verfügung unter https: / / ftp.fau.de/ cran/ (abgerufen am 25.05.2022, 12: 15 Uhr). Auf den folgenden Seiten werden einige wenige Funktionen anhand beispielhafter Codezeilen vorgestellt, mit denen man Daten in der EMU-webApp öffnet und in R analysieren kann. Die hier genannten Codezeilen können als Vorlage für eigene Analysen in R dienen. Nach dem Download und ersten Öffnen von R installiert man einmalig das R-Paket emuR mit Anschließend oder beim nächsten Öffnen von R muss emuR nur noch mit der Funktion library() geladen werden, bevor auch die Datenbank mit der Funktion load_emuDB() geladen werden kann: Man muss also nach der Funktion load_emuDB() in den Klammern nur den Pfad zu dem Ordner angeben, der auf _emuDB/ endet, und der die relevanten Ordner und 106 3 Sprachakustik <?page no="108"?> 27 Über http: / / ips-lmu.github.io/ EMU-webApp/ (abgerufen am 25.05.2022, 13: 00 Uhr) ist das Öffnen von Bundles auch mittels drag&drop möglich, wobei die Annotationsdatei sogar im TextGrid-Format vorliegen kann. Funktionen wie Speichern stehen dann jedoch nicht zur Verfügung. Dateien enthält, die dem EMU-SDMS-Format entsprechen. Das R-Paket emuR enthält eine Reihe von Funktionen wie load_emuDB(), mit denen man eine Datenbank im EMU-SDMS-Format • in der EMU-webApp öffnen und bearbeiten, • in R abfragen und signalphonetisch analysieren kann. Einige wenige Funktionen werden wir hier kennenlernen. - 3.4.2.1 Die EMU-webApp Um die Datenbank in der EMU-webApp zu öffnen, verwendet man die Funktion serve(), also z.B. Wir nehmen hier Bezug auf den Variablennamen DB1, der oben vergeben wurde, und schließen die Verwendung des Viewers explizit aus, da wir nicht mit RStudio arbeiten. Die EMU-webApp lädt die Datenbank dann im Standardbrowser, unabhängig davon, ob man online oder offline ist (s. Abb. 32). 27 Mittels der EMU-webApp können Sprachsignale und abgeleitete akustische Signale wie etwa Formant- oder Grundfrequenzverläufe visuell dargestellt, explorativ analy‐ siert sowie akustisch segmentiert und etikettiert werden. Wählt man in der Seitenleiste ein Bundle aus einem Session-Ordner aus, so wird das Oszillogramm und darunter das Sonagramm mit den überlagerten Formanten dargestellt. Unterhalb des Sonagramms wird - aufgrund unserer Datenbankkonfiguration - der f0-Verlauf angezeigt und darunter die Segmentierung und Etikettierung dargestellt. Während einige Änderun‐ gen, wie etwa die Farbeinstellungen für die Sonagrammdarstellung, direkt in der EMU-webApp unter settings vorgenommen werden können, gilt dies für viele andere Änderungen nicht. So muss etwa die Darstellung abgeleiteter Signale, wie die in Abb. 32 dargestellten Formant- und Grundfrequenzverläufe, explizit in der Konfigurationsdatei der Datenbank kodiert sein und kann nicht einfach wie in anderen Programmen durch das Setzen eines Häkchens aktiviert werden. Aufgrund des standardmäßig eingestellten Dunkelmodus, gilt zudem für die Interpretation des Sonagramms: je weißer, desto höher der Schalldruckpegel. 3.4 Werkzeuge der Sprachverarbeitung 107 <?page no="109"?> Abb. 32: Ansicht eines Bundles aus Datenbank_1_emuDB in der EMU-webApp. Unter der Segmentierung und Etikettierung sieht man in Abb. 32 das Oszillogramm der ganzen Äußerung (hier den Trägersatz inkl. Pausen davor und danach) mit dem ausgewählten Zoombereich (hier das Zielwort Rabe). Auf die Segmentierung von Au‐ diosignalen soll hier nicht näher eingegangen werden (s. hierzu die Onlinekapitel ‚Akustische Segmentierung‘ und ‚Praat‘). Nur so viel: Segmentierungen und Etikettie‐ rungen sind auf mehreren Ebenen, sogenannten levels, möglich, die vom Typ item, segment oder event sein können. Während auf einer segment-Ebene zwei Zeitpunkte gesetzt werden müssen, um den zeitlichen Beginn und das zeitliche Ende z. B. eines Phons oder eines Wortes zu markieren, wird auf einer event-Ebene nur ein Zeitpunkt gesetzt, z. B. um den Zeitpunkt eines Minimums oder eines Maximums im f0-Verlauf festzuhalten (für Beispiele s. Kap. 9). Der Typ item enthält keine Zeitpunkte (s. u.). Datenbank_1_emuDB enthält zwei Ebenen: Phon (segment) und Wort (item). In Abb. 32 wird aufgrund der Datenbankkonfiguration nur die Ebene Phon angezeigt. Beide Ebenen kann man sich mit einem Klick auf das mit hierarchy beschriftete Dreieck in der oberen blauen Menüleiste in einem neuen Fenster in Form der hierarchischen Be‐ ziehung anzeigen lassen (s. Abb. 33). 108 3 Sprachakustik <?page no="110"?> Abb. 33: Anzeige hierarchischer Beziehungen zwischen Ebenen in der EMU-webApp. Die zeitlose Ebene Wort dominiert in unserem Fall die Segmentebene Phon. Informatio‐ nen über die Wortdauer lassen sich über die Segmente, die ein Wort enthält, eindeutig bestimmen. Im Falle von Rabe ergibt sich diese aus den Zeitmarken für den Beginn von [r] (= ⟨r⟩) und dem Ende von [@] (= ⟨e⟩). An dieser Stelle verlassen wir die EMU-webApp, in dem wir das Browserfenster schließen und kehren zu R zurück. - 3.4.2.2 Abfragen und signalphonetische Analysen Wiederum unter Bezug auf den Variablennamen DB1 können wir die in R geladene Datenbank mit der Funktion query() gezielt nach Etikettierungen abfragen, um diese signalphonetisch zu analysieren. In dieser Beispielanalyse suchen wir mit der emuR-Funktion query() nach den Vokalen [aː], [iː] und [uː], die in den Wörtern Rabe, Tiger, und Tube vorkommen und speichern das Ergebnis der Suchanfrage unter einem neuen Variablennamen Vokal.sl ab (wobei sl für Segmentliste steht, s.-u.). 3.4 Werkzeuge der Sprachverarbeitung 109 <?page no="111"?> Die Parameter, die in den Klammern spezifiziert werden müssen, sind einerseits die Datenbank, die abgefragt werden soll (emuDBhandle), und andererseits die eigentliche Abfrage (query). Bei der Abfrage wird nach Etikettierungen (labels) gesucht, die auf bestimmten Ebenen vorkommen. In unserem Beispiel werden bestimmte Labels auf der Phonebene mittels == gesucht (man beachte die in SAMPA verwendeten Doppelpunkte für das Längenzeichen), die zudem von bestimmten Labels auf der Wortebene hierarchisch dominiert werden. Die Dominanzbeziehung wird mittels ^ abgefragt; | steht für ODER. Voraussetzung für Abfragen, die sich auf mehrere Ebenen beziehen, ist immer die Existenz einer Definition der hierarchischen Beziehung in der Datenbankkonfiguration. Das Ergebnis der Abfrage wird in Form einer Tabelle (tibble) ausgegeben. Hier und nachfolgend wird funktionsabhängiger R-Output im Gegensatz zu den blauen Codezeilen in schwarz dargestellt. Die ersten Zeilen und den Umfang dieser sogenannten Segmentliste (seglist) können mit folgenden Funktionen und unter Bezug auf die Variable Vokal.sl angezeigt werden. Über diese Funktionen erfahren wir, dass das Ergebnis eine Segmentliste mit 48 Zeilen und 16 Spalten ist, deren erste 6 Zeilen (s. Nummerierung) und 6 Spalten wie folgt ausschauen: Der Kopf der Segmentliste zeigt über den ersten Zeilen Informationen zu 110 3 Sprachakustik <?page no="112"?> • Format (hier tibble) und angezeigten Zeilen und Spalten (hier 6 x 6), • Spaltennamen (hier labels, start, end, etc.) • Datentyp (<chr> = character, <dbl> = double (= Kommazahl mit sogenannter doppelter Genauigkeit), etc.) In den Zeilen der Segmentliste unterhalb des Segmentlistenkopfes werden Informatio‐ nen zu jedem Label aufgelistet, nach dem gesucht und das in der Datenbank gefunden wurde. In der ersten Spalte namens labels werden die Informationen zum Label (hier a: , i: oder u: ) aufgeführt, in der zweiten und dritten Spalte Zeitinformationen zu den Segmentgrenzen (start = zeitlicher Beginn eines Segments, end = zeitliches Ende eines Segments), in der fünften und sechsten Spalte namens session und bundle die Namen des Sessionbzw. Bundle-Ordners, in der das Segment gefunden wurde. Dass die Anzahl der Tabellenzeilen in der Segmentliste Vokal.sl mit der Anzahl der Bundles in Datenbank_1_emuDB übereinstimmt, ist der Abfrage geschuldet. Würden wir mit folgenden Befehlen nur nach [aː] in Rabe oder nur nach [iː] ohne Bezug zu einem übergeordneten Wort suchen, so bekämen wir im Falle der Suche nach [aː] eine 16 Zeilen umfassende Segmentliste und im Falle der Suche nach [iː] eine 32 Zeilen umfassende Segmentliste. 16 entspricht genau dem Drittel der Daten, die auch in der Variable Vokal enthalten sind. Suchten wir hingegen einfach nur nach [iː], so erhielten wir eine Tabelle mit 2 unterschiedlichen Wörtern × 2 Wiederholungen × 8 Sprecher: innen = 32 Zeilen, da [iː] nicht nur in Tiger, sondern auch im Trägersatz von Tube vorkommt (Er will die Tube nehmen.), der auf der Phonebene vollständig segmentiert und etikettiert wurde. Die EMU Query Language bietet vielfältige Möglichkeiten gezielt nach Etikettierun‐ gen zu suchen. Ein Verweis auf eine entsprechende Übersicht findet sich unter dem Punkt Weiterführende Literatur am Ende dieses Kapitels (s. S. 118). Hat man durch query() eine Segmentliste erzeugt, kann man mithilfe anderer Funktionen weitere Abfragen stellen, z.-B. mit • requery_seq() zu vorangehenden und nachfolgenden Segmenten, • requery_hier() zu Segmenten auf überbzw. untergeordneten Ebenen. 3.4 Werkzeuge der Sprachverarbeitung 111 <?page no="113"?> Diese Abfragen beziehen sich dann nicht mehr auf die gesamte geladene Datenbank, sondern nur auf die entsprechende Segmentliste. Welche Parameter bei einer Funktion benannt werden müssen, erfährt man in der R-Hilfe zur jeweiligen Funktion. Für unsere Beispielanalyse spielen die beiden requery-Funktionen keine Rolle. Liegt eine Tabelle wie die Segmentliste Vokal.sl vor, die im Übrigen nicht aus einer Datenbank erzeugt werden muss, sondern auch als lokal gespeicherte Textdatei mit read.table() in R eingelesen werden kann, können mit Bezug auf die einzelnen Spalten der Tabelle z. B. die Anzahl der Vokale tabelliert oder auch die Vokaldauern graphisch dargestellt werden. Die Tabelle, die wir hier mit with() erzeugt haben, zeigt pro Vokallabel (Reihe) und Session-Kürzel (Spalte) die Anzahl der realisierten Vokale. Dass jedes Wort zweimal pro Vokalkategorie und Sprecher: in vorkommt, ist bei dieser kleinen Datenbank nicht überraschend; bei größeren Datenbanken ist die Funktion table() durchaus sehr nützlich. Mit boxplot(), einer weiteren basis-Funktion von R, die unabhängig von emuR ist, können wir eine Boxplot-Darstellung wie die in Abb. 34 erzeugen. Abb. 34: Einfache Boxplot-Darstellung über die Vokaldauer (in Millisekunden) als Funktion des zugrunde liegenden Vokals. Pro Vokalkategorie wurde ein Boxplot über 16 Messwerte erstellt. Pfeile und Anmer‐ kungen darüber bzw. darunter zum Aufbau des Boxplots wurden nachträglich hinzugefügt. Im Verlauf dieses Buches werden wir Boxplots immer wieder begegnen. Ein Boxplot besteht aus fünf Datenpunkten, die über einen Datensatz ermittelt werden (s. u.). In diesem Beispiel haben wir den eigentlichen Datensatz von n = 48 in drei Datensätze zu je 1 (Wort) × 2 (Wiederholungen) × 8 (Sprecher: innen) = 16 Werten unterteilt, da wir in diesem Beispiel die Vokaldauer als Funktion der zugrunde liegenden Vokalkategorie abbilden. Jeder der drei Datensätze besteht aus den Vokaldauern, die sich aus der 112 3 Sprachakustik <?page no="114"?> Differenz zwischen Start- und Endzeit eines Segments ergeben (s. Spalten 2 und 3 in Vokal.sl). Die Darstellung der Verteilung von Messwerten einer sogenannten abhängigen Variable (hier der Vokaldauer) als Funktion einer unabhängigen Variable (hier der Kategorie Vokal) wird mittels der Tilde zwischen den beiden Spaltennamen der Segmentliste im o.-g. R-Befehl erreicht. Abb. 34 zeigt also für jede Vokalkategorie einen Boxplot, der sich aus dem Rechteck der Box, dem durch eine dickere horizontale Linie markierten Median und zwei Antennen zusammensetzt. Im Gegensatz zu Mittelwerten und Standardabweichun‐ gen vermittelt diese Diagrammform, aus der man neben dem Median vier weitere Streuungsmaße ablesen kann, einen Eindruck von der Datenverteilung innerhalb des Datensets. Die mittleren 50 % der Werte liegen im Bereich der Box, die nach unten im Wertebereich (hier der y-Achse) durch das untere Quartil und nach oben im Wertebereich durch das obere Quartil begrenzt wird. Die Antennenenden markieren die zwei Extremwerte im Datensatz, das untere Ende den niedrigsten, das obere den höchsten. Je nach zugrundliegender Berechnung können die Antennenenden begrenzt werden, sodass einige Extremwerte als Ausreißer betrachtet und als solche in Form von Punkten ober- und unterhalb des jeweiligen Antennenbereichs dargestellt werden (s. z. B. S. 130, Abb. 41). 50 % der Messpunkte eines Datensatzes liegen unterhalb des Medians und 50-% darüber. Anhand von Abb. 34 können wir also z. B. ablesen, dass 50 % der Vokaldauern in der Kategorie [aː] unterhalb von ca. 175 ms liegen, wobei die 50 % der Messwerte oberhalb dieses Wertes über einen größeren Wertebereich streuen als die 50 % der Messwerte unterhalb des Medians. Des Weiteren zeigt der Boxplot in Abb. 34, dass sich die Vokaldauern in dem hier untersuchten Datenset nicht deutlich als Funktion der zugrunde liegenden Vokalkategorie unterscheiden, sieht man einmal von einer leichten Tendenz zu höheren Vokaldauern bei [aː] ab (s. hierzu aber 4.3 und Abb. 54). Auf eine statistische Prüfung dieser Beobachtung verzichten wir hier. Denkbar wäre zudem, die Abhängigkeit der Vokaldauer als Funktion der Altersgruppe abzubilden, um zu prüfen, ob Kinder längere Segmentdauern aufweisen (s. Aufgabe 5 am Ende dieses Kapitels, S.-118). Hat man eine Segmentliste mit Bezug auf eine Datenbank im EMU-SDMS-Format erzeugt, so kann man mittels wrassp (wrapper R for advanced speech signal processor) Signaldateien in R einlesen oder Berechnungen wie die der f0 direkt in R durchführen. Um die zu Beginn von 3.4 gestellte Frage nach den f0-Unterschieden zwischen Män‐ nern, Frauen und Kindern zu beantworten, lesen wir die zuvor berechneten Dateien mit der Funktion get_trackdata() ein, wobei wir wiederum auf bereits bestehende Variablennamen Bezug nehmen. 3.4 Werkzeuge der Sprachverarbeitung 113 <?page no="115"?> Mit dem Parameter cut = 0.5 begrenzen wir zudem die f0-Werte auf nur einen Messwert pro Segment, und zwar den f0-Wert zum mittleren Zeitpunkt eines jeden Vokals. Das Ergebnis dieses emuR-Befehls ist wiederum ein tibble mit 48 Zeilen und nunmehr 21 Spalten. In der letzten Spalte namens T1 erscheinen die jeweiligen f0-Werte. Informa‐ tionen zu dieser Tabelle könnten wir wie oben für Vokal.sl beschrieben erhalten. Um eine Grafik wie die in Abb. 35 zu erzeugen, verwenden wir ein weiteres R-Paket namens tidyverse (Wickham et al. 2019), das vor der ersten Anwendung installiert und vor jeder weiteren geladen werden muss. Aus diesem Paketset verwenden wir die Funktion ggplot(). 114 3 Sprachakustik <?page no="116"?> Abb. 35: f0-Werte getrennt nach Sprecher: in und Vokal. Für dieses Streudiagramm, dass die 48 f0-Werte in der letzten Spalte von Vokal.f0 in Abhängigkeit von Sprecher: in und Vokalkategorie zeigt, hätte eigentlich der Code bis einschließlich geom_point() gereicht. Darin wird auf den Datensatz Vokal.f0 Bezug genommen und die Darstellung der abhängigen Variable f0 (y = T1) als Funktion von Sprecher: in (x = session) und Vokal (shape = labels) in Form eines Streudiagramms (geom_point()) spezifiziert. Die Codezeilen danach, die jeweils durch + zu einer langen Befehlskette verknüpft werden, dienen nur der grafischen Aufbereitung des Diagramms, wie sie für Publikationen angemessen ist (z. B. Änderung der Achsenbe‐ schriftung, etc.) Anhand der Darstellung in Abb. 35 können wir folgende vier Beobachtungen machen, die dieses Kapitel abschließen sollen: Die f0 • ist niedriger bei - Erwachsenen im Vergleich zu Kindern, - Männern im Vergleich zu Frauen, - a im Vergleich zu i und u (vgl. intrinsische f0 in 3.2.1), • variiert zwischen und innerhalb von Sprecher: innen. Wir hätten auch hier wieder auf den oben vorgestellten Boxplot zurückgreifen können. Doch das Streudiagramm zeigt uns genauer die Verteilung der f0-Werte in Abhängig‐ keit von Sprecher: in und Vokalkategorie. Für diese kleine signalphonetische Analyse waren letztendlich nur vier Funktionen notwendig: load_emuDB(), query(), get_trackdata() und ggplot(). Alle anderen hier 3.4 Werkzeuge der Sprachverarbeitung 115 <?page no="117"?> vorgestellten Funktionen haben weitere Möglichkeiten eines einfachen Zugriffs auf eine vorliegende Datenbank im EMU-SDMS Format in R aufgezeigt. Signalphonetische Analysen wie diese werden uns im Verlauf des Buches begleiten, auch wenn nur noch das grafische Ergebnis dieser Analysen präsentiert wird, ohne die jeweiligen vorangehenden Schritte näher zu erklären. Die meisten Analysen der nach‐ folgenden Kapitel basieren dabei auf einer zweiten Datenbank, Datenbank_2_emuDB, die im Aufbau der ersten Datenbank entspricht (vgl. 3.4.1), aber umfangreicher ist. Die Datenbank ist in den letzten Jahren am IPS in München im Rahmen des Seminars ‚Akustische Segmentierung‘ entstanden. Seit 2011 haben jedes Jahr Studierende der Phonetik im zweiten Fachsemester in einem Seminarprojekt eigenständig nach Anlei‐ tung im Aufnahmestudio des IPS Wörter aufgenommen, die sich in phonologischen Oppositionen des Deutschen unterscheiden und teils Minimalpaaren angehören (z.-B. bieten, beten, baten, wissen, wichen, wischen). Die Datenbank umfasst inzwischen Daten von mehr als 70 Sprecher: innen. Die Gruppe der Sprecher: innen ist mit Blick auf die Muttersprache bzw. den dialektalen Hintergrund jedoch recht heterogen; außerdem sind die Sprecherinnen in der großen Überzahl. Deshalb wurden aus der Datenbank insgesamt nur zehn monolinguale Sprecher: innen (davon fünf Männer), die eine süddeutsche Standardvarietät sprechen, für Datenbankabfragen und signalphonetische Anaylsen ausgewählt. Übungsaufgaben 1. Segmentieren Sie folgendes Oszillogramm in quasi-periodische und aperiodische Signalabschnitte und ordnen Sie die Abschnitte dem entsprechenden akustischen Signaltyp zu, indem Sie die Abschnitte mit Q für quasi-periodisch, R für Rauschen und K für Knall etikettieren. 2. Folgende Darstellung zeigt den segmentierten Sonagrammausschnitt Susi traf schon aus der Äußerung Susi traf schon heute ein. 116 3 Sprachakustik <?page no="118"?> a. Zeichnen Sie die ersten zwei Formantfrequenzen in den mit V gekennzeich‐ neten Vokalabschnitten ein (wie für den ersten Vokal vorgegeben). b. Markieren Sie die Schwerpunktuntergrenze in der stochastischen Schwär‐ zung in den mit F markierten Frikativen (wie für den ersten Frikativ vorgegeben). 3. Arbeiten Sie das Onlinekapitel ‚Praat‘ durch und lösen Sie die dazugehörigen Auf‐ gaben, die u. a. Fragen zur Berechnung von f0 und zur Schätzung von Formantfrequenzen in Praat umfasst. 4. Laden Sie die auf der Website zur Verfügung stehenden Dateien Spr01_S06.wav und Spr01_S06.TextGrid herunter und öffnen Sie diese in der EMU-webApp unter http: / / ips-lmu.github.io/ EMU-webApp/ per Drag+Drop (abgerufen am 25.05.2022, 12: 15 Uhr). a. Machen Sie sich mit den Funktionen der EMU-webApp vertraut, in dem Sie Segmentgrenzen verschieben, hinzufügen, löschen und Etikettierungen ändern. Welche Shortcuts dafür genutzt werden können, erfährt man, wenn man rechts oben auf das Emu-Icon und anschließend auf Keyboard Shortcuts klickt. b. Ändern Sie das Breitbandsonagramm unter settings in ein Schmalbandsona‐ gramm. 3.4 Werkzeuge der Sprachverarbeitung 117 <?page no="119"?> 5. Welche Variable müsste in der boxplot()-Funktion, mit der Abb. 34 (s. S. 112) erzeugt wurde, geändert werden, um die folgende Abbildung zu erzielen und wie müsste zuvor Segmentliste Vokal.sl modifiziert werden? Weiterführende Literatur Als deutschsprachige Einführung in das Forschungsfeld Akustik empfiehlt sich R E E TZ (2003), der insbesondere auch die allgemeinen Grundlagen der Phonetik sehr gut beschreibt. Weitere ebenfalls deutschsprachige und vertiefende Einführungen in die Grundlagen der akustischen Phonetik bieten N E P P E R T & P ÉTU R S S O N (1992), P OM P INO -M A R S CHALL (2009) und T ILLMANN & M AN S E LL (1980). Es handelt sich hierbei um Einführungsbücher in die Phonetik, die für Einsteiger: innen geeignet sind, die sich intensiver mit den akustischen Grundlagen in der Phonetik beschäftigen wollen. Sehr anschauliche und ebenfalls vertiefende englischsprachige Einführungen finden sich in L AD E F O G E D (1996), J OHN S ON (2011) und H A R R IN G T ON (2013). Das Buch von S T E V E N S (1998) führt umfassend in das Gebiet der Akustischen Phonetik ein. Diejenigen, die sich in die hier vorgestellten Werkzeuge einarbeiten wollen, seien auf die sehr ausführlichen, online verfügbaren Hilfeseiten verwiesen: • https: / / www.fon.hum.uva.nl/ praat/ manual/ Intro.html (abgerufen am 25.05.2022, 12: 10 Uhr) • https: / / ips-lmu.github.io/ The-EMU-SDMS-Manual/ index.html (abgerufen am 25.05.2022, 12: 10 Uhr) Einführungen in Analysen phonetischer Corpora in EMU finden sich in H A R R IN G T ON (2010), Beispielabfragen mittels der EQL unter https: / / ips-lmu.github.io/ The-EMU-S DMS-Manual/ chap-querysys.html#eql-the-emu-query-language-version-2 (abgerufen am 25.05.2022, 12: 15 Uhr). 118 3 Sprachakustik <?page no="120"?> 4 Konsonanten und Vokale Überleitung und Ziele In diesem Kapitel wird nun ganz konkret die Produktion einzelner Sprachlaute anhand artikulatorischer Parameter beschrieben und die lautspezifischen akus‐ tischen Charakteristika anhand von Sonagrammdarstellungen einzelner Beleg‐ wörter aufgezeigt. Auf Basis von Datenbank_2_emuDB (vgl. 3.4.2.2) werden zudem sprachlautabhängige akustische Charakteristika signalphonetisch quantifiziert. Ne‐ ben der akustisch-artikulatorischen Beschreibung der phonetischen Form eines Sprachlautes wird andererseits auch dessen phonologische Funktion in einer Sprache thematisiert. Dabei stehen die im Deutschen funktional genutzten Sprach‐ laute im Vordergrund; es wird aber auch auf Sprachlaute Bezug genommen, die in anderen Sprachen Phonemstatus besitzen. Viele der in diesem Kapitel behandelten Punkte sind jedoch zunächst sprachunabhängig zu verstehen, z.B. • die getrennte Beschreibung von Konsonanten und Vokalen im IPA, • die Beziehung zwischen der Produktion und der Akustik von Sprachlauten, • die Realisierung von Sprachlauten im Kontext von Wörtern, die zu Koartiku‐ lation führt. Dieses Kapitel geht nicht explizit auf alle Laute ein, die im IPA in den entspre‐ chenden Tabellen zu Konsonanten bzw. Vokaltrapez aufgeführt sind und in den Sprachen der Welt vorkommen. Es stellt vielmehr die wichtigsten Beschreibungs‐ parameter vor, mithilfe derer sich die Sprachlaute interpretieren lassen und erläutert diese anhand von Beispielen. Der Fokus liegt nun allein auf Sprachlauten, die mit einem pulmonalen egressiven Luftstrommechanismus realisiert werden. Wo immer Diakritika und andere Symbole des IPA eingeführt werden, so werden diese in [] angezeigt. 4.1 Einführung Die Begriffe Konsonanten und Vokale sind auch Laien geläufig. Im Zusammenhang mit dem Schriftspracherwerb haben wir die Konzepte in der Schule kennengelernt und für den Moment genügt zunächst die Vorstellung der uns bekannten Vokal- und Konsonan‐ tengrapheme (vgl. 1.4.2), um sich die Konzepte Vokal und Konsonant zu vergegenwärti‐ gen. Phonetische Definitionen werden weiter unten präsentiert. Bereits diese allgemein bekannte begriffliche Dichotomie, d. h. Zweiteilung, deutet an, dass Konsonanten und Vokale getrennt behandelt und beschrieben werden müssen. Noch deutlicher wird die <?page no="121"?> Dichotomie in den ebenfalls allgemein bekannten Synonymen Selbstlaut für Vokal und Mitlaut für Konsonant (womit auch gleich eine Vorabdefinition geliefert wäre). Der Blick auf das IPA zeigt, dass auch in der Phonetik Konsonanten und Vokale getrennt dargestellt werden. Aber ist dies zwingend notwendig? Denkt man daran, dass sowohl Konsonanten als auch Vokale im Ansatzrohr mit den gleichen Artikulationsor‐ ganen realisiert werden, sollte eine Beschreibung mit ähnlichen Maßstäben theoretisch auch möglich sein. In 2.3.2 wurde der Unterschied in den Konstriktionstypen von [a], [s] und [t] (wie sie in Rast vorkommen) als ein Unterschied in der Konstriktion von Artikulationsorgan und -stelle beschrieben. Als Artikulationsstelle könnte man bei Vokalen ungefähr den Bereich zwischen Palatum und Velum ausmachen, in deren Richtung das artikulierende Organ, der Zungenrücken, artikuliert. Dennoch ließen sich die einzelnen Vokale insbesondere bei Sprachen mit vielen Vokalen wie dem Deutschen (s. 4.3.2) mit diesen rein artikulatorischen Parametern nur sehr schwer genau bestimmen. Ein Grund hierfür ist, dass die introspektive Analyse der Produktion aufgrund eines geringeren haptischen und propriozeptiven (z. B. durch Muskeln) Feedbacks weniger intuitiv nachvollziehbar ist. Bei Plosiven können wir den Verschluss z. B. besonders gut spüren und daher artikulatorisch gut nachvollziehen. Aber wie könnte man die Position der Zunge bei Vokalen beschreiben, wenn man bei sich selbst einmal beobachtet, wie man ein [i] wie in bieten oder [e] wie in beten produziert? Da dies schwieriger ist, nutzt man für die Vokalbeschreibung stärker auditive Informationen über die Unterscheidbarkeit verschiedener Vokalqualitäten, bevor man diese dann mit artikulatorischen Mitteln beschreiben kann. Dies wird in 4.3 genauer erklärt. Dass eine gemeinsame Beschreibung mittels derselben Parameter möglich wäre, wird in 4.6 gezeigt; sie ist aber nicht sonderlich praktikabel. Des Weiteren unterscheiden sich Konsonanten und Vokale in der Silbenposition, in der sie jeweils auftreten. Auch ohne die Silbe an dieser Stelle genauer zu definieren, können wir mittels eines rudimentären Silbenkonzeptes Wörter in Silben untergliedern und dabei feststellen, dass Konsonanten eher am Rand und Vokale in der Mitte einer Silbe vorkommen, z. B. Vo.kal oder Kon.so.nant (wobei der Punkt jeweils die Silbengrenze markiert). Bei der Definition von Konsonanten und Vokalen werden daher auch phonologisch-phonotaktische Kriterien berücksichtigt. Demnach bilden Vokale laut Kohler (1995: 237) [d]iejenige Phonemklasse, die die [sog.] offenen Vokoide […] enthält und deren Elemente sich nur mit großen Einschränkungen untereinander, jedoch weitgehend frei mit den Konsonanten zu Wörtern verbinden können, Vokale können auch für sich allein Wörter bilden (phonologische Einheit). Der phonologischen Einheit Vokal steht dabei die phonetische Einheit Vokoid gegen‐ über, ein Begriff der auf Kenneth L. Pike (1943) zurückgeht und von Kohler (1995: 237) wie folgt definiert wird: Ein oraler, nicht-lateraler Resonant (friktionsloser Dauerlaut) (= phonetische Einheit). 120 4 Konsonanten und Vokale <?page no="122"?> Lateral bedeutet im Allgemeinen seitlich und in der Phonetik im Besonderen das seitli‐ che Absenken der Zungenränder bei einem zentralen Verschluss, z. B. der Zungenspitze mit dem Alveolarfortsatz, wie in [l] zu Beginn von lesen. Ein Vokoid darf also keinerlei Verschluss oder Enge zwischen Artikulationsorgan und -stelle aufweisen. Analog zu Vokoiden lässt sich auch die Gruppe der Kontoide als phonetische Einheit definieren, zu der alle Laute zugeordnet werden, die nicht in die Gruppe der Vokoide fallen und damit alle in 4.2 unten beschriebenen Konsonanten. Die Trennung in eine phonetische und eine phonologische Einheit wird vor allem aufgrund der Kategorie der Approximanten, zu der im Deutschen der Anlaut von ja zählt, notwendig. Phonetisch haben Approximanten viel Ähnlichkeit mit Vokalen, weshalb sie auch Halbvokale genannt werden. Unter anderem mit Blick auf die Silbenposition, verhalten sie sich aber eher wie Konsonanten. Im IPA werden sie im Rahmen der pulmonalen Konsonanten aufgeführt. Der Einfachheit halber werden im Folgenden vornehmlich die Begriffe Vokal und Konsonant anstelle von Vokoid und Kontoid verwendet. Allerdings werden Approximanten getrennt und erst in 4.4 nach der Vorstellung phonetisch und phono‐ logisch eindeutiger Konsonanten (4.2) und Vokale (4.3) vorgestellt. Vokoide weisen im Gegensatz zu Kontoiden weder eine Enge noch einen Verschluss zwischen Artikulationsorgan und -stelle im Vokaltrakt auf. Die meisten, aber nicht alle phonetisch definierten Vokoide bzw. Kontoide entsprechen phonologisch definierten Vokalen bzw. Konsonanten. Vokale und Konsonanten können als pho‐ nologische Einheiten gelten, wenn ihre Definitionen Kombinationsmöglichkeiten von Sprachlauten und deren Position innerhalb von Silben berücksichtigen. 4.5 behandelt darüber hinaus das Thema der Koartikulation von Konsonanten und Vokalen in der gesprochenen Sprache. 4.2 Pulmonale Konsonanten In diesem Abschnitt werden mit Ausnahme der Approximanten (s. 4.1) nacheinander die wichtigsten Konstriktionstypen vorgestellt, ausgehend von den Plosiven in der ersten Zeile der Tabelle für pulmonale Konsonanten im IPA, die die stärkste Konstrik‐ tion aufweisen, bis zu den Lateralapproximanten in der letzten Zeile, die nur noch eine geringe Konstriktion aufweisen (s. Abb. 36, in der der Konstriktionsgrad von oben nach unten abnimmt). Innerhalb der Konstriktionstypen werden dann in diesem Abschnitt (1) die Produktion ausgewählter Sprachlaute in Abhängigkeit der Artikulationsstelle anhand von Sagittalschnitten, die die Produktion zu einem Zeitpunkt skizzieren, sowie (2) die Akustik anhand von Sonagrammen beschrieben. Auch dabei folgen wir jeweils der in der Tabelle vorgegebenen Reihenfolge der Artikulationsstellen in den Spalten von links nach rechts (s. Abb. 36), ausgehend von weiter vorne (z. B. bilabial) 4.2 Pulmonale Konsonanten 121 <?page no="123"?> bis weiter hinten im Vokaltrakt gebildeten Sprachlauten (z. B. glottal). Neben den beiden konsonantenspezifischen Hauptbeschreibungsparametern Konstriktionstyp und Artikulationsstelle wird jeweils auf den dritten obligatorischen Parameter Phonation eingegangen. Weitere optionale Parameter wie Nasalierung oder Quantität werden nur am Rande erwähnt. Konsonanten werden mit drei Hauptparametern artikulatorisch beschrieben: Der Konstriktionstyp gibt die Enge zwischen Artikulationsorgan und Artikulations‐ stelle im Vokaltrakt an. Die Enge kann im Vokaltrakt an einer bestimmten Ar‐ tikulationsstelle lokalisiert werden. Mittels des Phonationsparameters wird die Stimmhaftigkeit des Sprachlautes beschrieben. Abb. 36: Tabelle aus dem IPA mit Symbolen für alle pulmonal (egressiv) realisierten Konsonanten, geordnet nach Artikulationsstelle (Spalten) und Konstriktionstyp (Reihe). Leere, weiße Zellen markieren artikulatorisch mögliche, aber in den Sprachen der Welt nicht belegte Lautproduktionen, leere, graue Zellen artikulatorisch unmögliche Lautproduktionen. 4.2.1 Plosive Plosive (auch Okklusive oder orale Verschlusslaute, Engl. oral stops) werden im Mund‐ raum durch einen vollständigen Verschluss zwischen dem Artikulationsorgan und einer Artikulationsstelle gebildet (vgl. Abb. 36). Ihre Produktion lässt sich grundsätzlich in drei Phasen untergliedern: die Verschlussbildung, die Verschlussphase, sowie die Verschlusslösung (s. Abb. 37 und Abb. 38). Nicht nur im Mundraum muss es zu einem vollständigen Verschluss kommen, auch der Zugang zum Nasenraum muss für diesen Konstruktionstypen verschlossen sein. Dies erfolgt durch das Anheben des Velums. Aufgrund beider Verschlüsse kann die pulmonal ausströmende Luft nicht entweichen und staut sich im Vokaltrakt, was wiederum zu einem Anstieg des supraglottalen Drucks führt (vgl. Kap. 2). Erst nach Lösung des Verschlusses entweicht die Luft, wodurch plötzlich sehr viele Luftmoleküle aperiodisch in Bewegung gesetzt werden. Plosive entsprechen daher akustisch einem Impulssignal und auditiv einem Knall (vgl. 122 4 Konsonanten und Vokale <?page no="124"?> 3.1.1). Dieser ist insbesondere dann gut wahrnehmbar, wenn der Plosiv oral gelöst wird, die Luft also ungehindert über den Mundraum entweichen kann. Insbesondere bei Wörtern wie raten / ʁaːtən/ oder Nadel / naːdəl/ , die jeweils einen Plosiv in der Wortmitte aufweisen und in denen bei einer weniger deutlichen Aussprache der zweite Vokal häufig wegfällt (s. 7.3.3), also [ʁaːtn̩] bzw. [naːdl ̩], kann der Plosiv auch nasal bzw. lateral gelöst werden (zum Diakritikum [ ̩], das silbische Konsonanten markiert, s. 6.2.4). Bei einer mittels des Diakritikums [ⁿ] transkribierten nasalen Lösung, wird nicht der orale Verschluss gelöst, sondern das Velum gesenkt, sodass die angestaute Luft durch den Nasenraum entweichen kann: [ʁaːtⁿ]. Bei einer mittels des Diakritikums [ˡ] transkribierten lateralen Lösung, wird der orale Verschluss lateral gelöst, d. h. durch Absenken der Zungenränder; der zentrale Verschluss zwischen Zungenspitze bzw. -blatt und Alveolarfortsatz bleibt bestehen: [naːdˡ]. Der Konstriktionstyp Plosiv lässt sich im Sonagramm insbesondere an der soge‐ nannten akustischen Stille erkennen, die das Resultat der Verschlussphase ist und im Vergleich zu den anderen Phasen wie der ebenfalls sichtbaren Verschlusslösung deutlich länger ist (s. Abb. 38). In vielen Fällen wird ein Plosiv erst mit der Verschluss‐ lösung, egal ob oral oder nicht oral, auditiv wahrnehmbar. Diese - wenn man so will - Zeitverzögerung in der Lauttransmission von Plosiven verdeutlicht einmal mehr, dass es sich bei der Sprachlautproduktion um dynamische, zeitgebundene phonetische Vorgänge handelt (vgl. 1.1.2, 1.1.3). Bis auf den Verschluss sind nicht alle dieser Phasen zwingend notwendig: Plosive am Ende einer Äußerung etwa bleiben mitunter ungelöst (vgl. zu Englisch: Cruttenden 2001: 157 f.). Etwas Ähnliches gilt für die Realisierung von Plosiven vor anderen Plosi‐ ven wie etwa in siebzehn [ziːptseːn] (s. Abb. 37), wo der Verschluss zwar artikulatorisch gelöst, oftmals aber durch die Verschlussbildung des nachfolgenden Plosivs überlagert und damit akustisch-auditiv maskiert wird. Das Fehlen einer Verschlusslösung wird durch das Diakritikum [ ̚ ] gekennzeichnet. Auch der Zeitpunkt der Verschlussbildung ist mitunter nicht zu bestimmen, nämlich dann, wenn ein Plosiv zu Beginn einer Äußerung vorkommt, der akustischen Stille des obligatorischen Verschlusses also eine nicht-sprachliche akustische Stille, z.-B. einer Pause, vorangeht. Abb. 37: Segmentiertes Oszillogramm des Zahlwortes siebzehn mit (links) und ohne (rechts) Ver‐ schlusslösung nach [p]. In der rechten Abbildung ist die Grenze zwischen [p] und [t] willkürlich gesetzt, da der Übergang zwischen beiden Plosiven weder sichtbar noch hörbar ist. 4.2 Pulmonale Konsonanten 123 <?page no="125"?> 4.2.1.1 Artikulationsstellen Der vollständige Verschluss wird in den Sprachen der Welt laut IPA an sieben unterschiedlichen Stellen gebildet; drei davon nutzen wir funktional im Deutschen. Dabei handelt es sich um die Artikulationsstellen bilabial (z. B. laben), alveolar (z. B. laden) und velar (z. B. lagen). Auch glottal kann ein Verschlusslaut gebildet werden. Der sogenannte Glottalverschluss (Engl. glottal stop) kommt im Deutschen vor, allerdings wird ihm hier in der Regel kein Phonemstatus zugeschrieben. In 4.2.1.3 wird der Glottalverschluss näher beschrieben. Abb. 38: Schematische Darstellung der Artikulation eines bilabialen (links), alveolaren (Mitte) und ve‐ laren (rechts) Plosivs nach Cruttenden (2001: 161, 163, 167; obere Reihe). 300 ms lange Oszillogramm- und dazugehörige Sonagrammausschnitte jeweils aus der Mitte der Äußerungen laben (links), laden (Mitte) und lagen (rechts) von einer Sprecherin mit Markierung der F2-Position am Vokal-Plosiv-Über‐ gang (Pfeile; untere Reihe). • Bei bilabialen Plosiven formen Unter- und Oberlippe einen vollständigen Ver‐ schluss. Die Artikulation ist relativ unabhängig von der Zunge (s. 4.5). • Für alveolare Plosive müssen Zungenspitze oder Zungenblatt einen vollständi‐ gen Verschluss mit dem Alveolarfortsatz bilden. • Bei velaren Plosiven erfolgt der Verschluss zwischen dem Zungenrücken und dem Velum. Die Artikulationen der Plosive sind in der oberen Reihe von Abb. 38 schematisch dargestellt; die in der unteren Reihe dargestellten vergleichbaren artikulationsstelle‐ 124 4 Konsonanten und Vokale <?page no="126"?> nabhängigen akustischen Resultats solcher Plosivartikulationen werden weiter unten beschrieben. Bei retroflexen, palatalen und uvularen Plosiven, die in anderen Sprachen funktional genutzt werden, kann die Artikulation gleichermaßen beschrieben werden (vgl. hierzu Tab. 2 in 2.2). Bilabiale und velare Plosive können oral (z. B. Mappe [mapʰə], Sage [zaːɡə]) und nasal (z. B. Mappen [mapⁿ], Sagen [zaːɡⁿ]) gelöst werden (vgl. 4.2.1). Das Diakritikum [ʰ] zeigt nicht nur eine Behauchung nach der Verschlusslösung an (vgl. 3.1.1), sondern auch eine orale Lösung; folgt das Diakritikum hingegen nicht auf den Plosiv, kann es sich trotzdem um einen oral gelösten Plosiv handeln. Warum dem so ist, wird in 4.2.1.2 näher beschrieben. Bei einer nasalen Lösung ist die Artikulationsstelle des Lösungsnasals grundsätzlich homorgan, d. h. sie weist dieselbe Artikulationsstelle auf wie der vorangehende Plosiv. Um dies explizit in der Transkription anzuzeigen, wird oftmals statt des Diakritikums [ⁿ] das entsprechende Nasalsymbol verwendet, also [mapm̩] bzw. [zaːɡŋ] (s. 4.2.2, 6.2.1). Alveolare Plosive können oral (Mitte [mɪtʰə]), nasal (mitten [mɪtⁿ], [mɪtn̩]) und lateral (Mittel [mɪtˡ], [mɪtl̩]) gelöst werden. Die so unterschiedlich produzierten Plosive unterscheiden sich akustisch v. a. in den sog. (Formant-)Transitionen, also in den Lautübergängen, die wiederum besonders gut in den Formanten angrenzender Laute zu Tage treten, wie in der unteren Reihe von Abb. 38 deutlich zu sehen ist. Formanttransitionen sind Formantänderungen über einen kurzen Zeitraum, die die sich graduell ändernden akustischen Eigenschaften des sich in Bewegung befindenden Ansatzrohrs widerspiegeln. Anhand der Formanttransition lässt sich somit der Weg zu bzw. weg von einer bestimmten Artikulationsstelle ablesen, den die Artikulatoren zurücklegen. Der sogenannten Lokus-Theorie (Delattre et al. 1955) zufolge entsprechen Lokusfrequenzen dabei den Resonanzfrequenzen des Ansatzrohrs zum Zeitpunkt der Plosivartikulation und reflektieren die akustische Ziel- (z.-B. ab) bzw. Ausgangsposition (z.-B. da) eines Plosivs. Insbesondere der Richtungsverlauf der F2-Frequenz hin zu einer artikulationss‐ tellentypischen Lokusfrequenz ist relevant: Während eine F2-Lokusfrequenz von 720 Hz charakteristisch für einen bilabial gebildeten Plosiv ist, so weist ein F2-Lokusfrequenz von 1800 Hz auf eine alveolare Artikulationsstelle hin. Die F2-Lokusfrequenz velarer Plosive variiert in Abhängigkeit der angrenzenden Vokale und ist der F3-Lokusfrequenz ähnlich (Zusammenlaufen von F2 und F3). Die velare Variation wird ausführlicher im Rahmen der Koartikulation in 4.5 unten beschrieben. Die Idee solch stabiler Lokusfrequenzen geht (1) auf frühe Forschungs‐ ergebnisse basierend auf Sonagrammen aus den 1940er Jahren (Potter et al. 1966) und (2) auf Perzeptionsexperimente mit akustisch synthetisierten sprachlichen Stimuli aus den 1950er Jahren (Liberman et al. 1954) zurück, die in einer Zeit entstanden sind, in der die Frage nach dem invarianten Gehalt von Sprachsignalen eine große 4.2 Pulmonale Konsonanten 125 <?page no="127"?> Rolle spielte (vgl. 3.3 und s. Kap. 8). Obwohl viele darauffolgende Studien nahelegten, dass F2-Lokusfrequenzen variabler sind als zunächst vermutet (s. 4.5), so bilden die F2-Transitionen zu einer solchen Lokusfrequenz dennoch weiterhin eines der wichtigsten akustischen Merkmale einer bestimmten Artikulationsstelle. Abb. 39 zeigt einen zunächst vergleichbaren F2-Verlauf für [aː] im Minimalpaar laben-laden bevor dieser dann in Abhängigkeit des nachfolgenden Plosivs deutlich auseinander geht: Vor einem [d] ist die F2-Transition durch einen deutlichen Frequenzanstieg Richtung einer F2-Lokusfrequenz von 1800 Hz, vor [b] durch einen Abfall Richtung einer F2-Lokusfrequenz von 720 Hz gekennzeichnet. Die Lokus-Positionen müssen dabei nicht erreicht werden, entscheidend ist der Richtungsverlauf. Auch die artikulationsstellenabhängigen Transitionen verdeutlichen einmal mehr die oben bereits angesprochene Zeitgebundenheit und damit auch die grundsätzliche lautinherente Dynamik der Sprachlautrealisierung. Dies gilt ganz generell für alle Konstriktionstypen und für „Mitlaute“ wie Plosive ganz besonders. Anders formuliert: Transitionen bieten bei allen Konstriktionstypen einen Hinweis auf die Artikulati‐ onsstelle (oder auch Vokalqualität, s. u.); die hohe F2-Position zu Beginn von [aː] in Abb. 39 hängt beispielsweise mit der Artikulationsstelle von [l] zusammen. Bei Plosiven sind die Transitionen aber ganz besonders informativ, da der Parameter der akustischen Stille nur einen Hinweis auf den Konstriktionstypen, nicht aber auf die Artikulationsstelle geben kann. Abb. 39: Mittlere F2-Verläufe über die zeitnormalisierte Dauer von [a: ] in laben (durchgezogene Linie) und laden (gestrichelte Linie) je dreimal geäußert von fünf männlichen (links) und fünf weiblichen (rechts) Sprecher: innen des Standarddeutschen. 126 4 Konsonanten und Vokale <?page no="128"?> In der Umgebung nicht-vokalischer Laute (z. B. Pflanze) können die Formanttransiti‐ onen jedoch mitunter stark maskiert sein. Dann werden andere akustische Merkmale wie etwa die Intensität einer Verschlusslösung oder deren spektrale Eigenschaften für die Lauterkennung bedeutsam. - 4.2.1.2 Phonation, Voice Onset Time, Quantität Dieser Abschnitt behandelt drei verschiedene phonetische Möglichkeiten, mit denen der Konstriktionstyp Plosiv an einer Artikulationsstelle unterschiedlich produziert werden kann. Viele Sprachen nutzen eine dieser Möglichkeiten, um das funktional genutzte Sprachlautspektrum zu erweitern. Der phonetische Parameter, der in der Konsonantentabelle des IPA durch unter‐ schiedliche Symbole repräsentiert wird, ist die Phonation. Er beschreibt die Präsenz oder Absenz von Stimmlippenschwingung während einer bestimmten Sprachlautpro‐ duktion. Mit Ausnahme der glottalen können Plosive an allen Artikulationsstellen sowohl stimmhaft als auch stimmlos realisiert werden. Die Unterscheidung im IPA ist eine phonetische, wonach stimmhafte Plosive im Gegensatz zu stimmlosen Plosiven während der Verschlussphase Stimmlippenschwingung aufweisen. In vielen Sprachen, darunter das Deutsche, kommen allerdings solche phonetisch stimmhaften Plosive nur in der Position vor, mit der wir uns in diesem Abschnitt bislang beschäftigt haben, nämlich zwischen zwei stimmhaften Segmenten wie Vokalen (und dort auch nicht immer). In anderen Wortpositionen, z. B. am Wortanfang, sind sie phonetisch stimmlos. Dennoch werden im Deutschen auch am Wortanfang auf phonemischer Ebene nicht nur die drei o. g. Artikulationsstellen unterschieden, sondern innerhalb der Artikulationsstellen zwei Phonationstypen. Das Deutsche kennt also sechs Plosivpho‐ neme, denen jeweils ein Graphem entspricht (s. Tab. 3) Die phonologische Opposition wird im Deutschen aber besser mit dem Begriffspaar fortis (stark) und lenis (sanft) beschrieben, denn es ist v. a. die artikulatorische Stärke, die Parameter wie Dauer und Intensität einschließt, die das entscheidende Kriterium für die Unterscheidung zwischen den zwei funktional genutzten Plosiven innerhalb einer Artikulationsstelle ist (vgl. Kohler 1984). Am Wortende kommen ausschließlich Fortisplosive vor, wie die Belegwörter in Tab. 3 zeigen (mehr dazu in 7.3.1). 4.2 Pulmonale Konsonanten 127 <?page no="129"?> 28 Im Deutschen kommen labiale und velare Fortisplosive in der Regel nach kurzen Vokalen (wie in Stadt) und labiale und velare Fortisplosive nach langen Vokalen (wie in Staat) vor. Die Möglichkeit zur Minimalpaarbildung ist daher eingeschränkt. Artikulationsstelle Phonationstyp Wortposition initial medial 28 final bilabial fortis Pass Mappen Kap lenis Bass laben - alveolar fortis Tasse Latten satt lenis dass laden - velar fortis Kasse Laken Sack lenis Gasse lagen - Tab. 3: Belegwörter für Fortis- und Lenisplosive im Deutschen getrennt nach Artikulationsstelle und Wortposition. Abb. 40: 500-ms lange, segmentierte Oszillogrammausschnitte der Belegwörter mit initialen Fortis- (untere Reihe) und Lenisplosiven (obere Reihe) aus Tab. 3. Um den Beginn der Verschlussphase be‐ stimmen zu können, wurde jedem Wort der unbestimmte Artikel ein: e vorangestellt. Zur Transkription s. auch die Beispiele in (9) auf S. 131. 128 4 Konsonanten und Vokale <?page no="130"?> Ein akustisch messbares Merkmal der artikulatorischen Stärke ist die Dauer der As‐ piration, die bei phonetisch stimmlosen Plosiven auf die Verschlusslösung folgt. In der Phonetik versteht man darunter die in 3.1.1 bereits eingeführte Behauchung von Plo‐ siven, die durch eine teilweise geöffnete Glottis, aber noch nicht schwingende Stimm‐ lippen entsteht. Die Behauchung entspricht zudem einem lokal gebildeten Frikativ (vgl. Kohler 1995: 158); die Turbulenz entsteht auch aufgrund der plötzlich entweichenden, zuvor angestauten Luft. Im Oszillogramm ist die Behauchung als aperiodisches Rau‐ schen sichtbar (s. Abb. 40). Darüber hinaus ist sie taktil (vgl. 3.1.1) und auditiv wahr‐ nehmbar. Für letzteres muss die Aspirationsdauer einen bestimmten Schwellwert über‐ schreiten. Erst wenn dies der Fall ist, wird das Diakritikum [ʰ] verwendet um einen aspirierten Plosiv anzuzeigen. Im Deutschen und vielen anderen Sprachen wird eben diese Aspirationsdauer systematisch variiert und so funktional genutzt, wie akustische Messungen und Perzeptionsexperimente zeigen (z.-B. Kohler 1977; Jessen 1998). Eine Aspirationsdauer von über 20 ms signalisiert im Deutschen einen mit größerer artikulatorischer Stärke realisierten Fortisplosiv. Eine Aspirationsdauer unter 20 ms kennzeichnet hingegen einen mit geringer artikulatorischer Stärke produzierten Lenisplosiv. Im Deutschen werden also genau genommen stimmlos nicht-aspirierte Plosive wie zu Beginn von danken und stimmlos aspirierte Plosive wie zu Beginn von tanken unterschieden. Diese Werte können mittels einer Datenbankabfrage selbst für Plosive in medialer Position bestätigt werden. Abb. 41 zeigt, dass in Datenbank_2_emuDB der Großteil der Belegwörter für Fortisplosive aus Tab. 3 eine deutlich längere Aspirationsdauer aufweist als der Großteil der Belegwörter für Lenisplosive. Ferner zeigt die Abbildung, dass es einige, wenn auch wenige Realisierungen der Belegwörter gibt, in denen die Aspirationsdauer eines Fortisplosivs mit der eines Lenisplosivs überlappen kann und vice versa. In diesen Fällen ist der Plosiv entweder nicht eindeutig als fortis oder lenis klassifizierbar oder aber der Sprecher bzw. die Sprecherin nutzt andere akustische Merkmale, um die Opposition zu realisieren (z.-B. die Verschlussdauer, s. S. 135). 4.2 Pulmonale Konsonanten 129 <?page no="131"?> Abb. 41: Verteilung der in Datenbank_2_emuDB gemessenen Aspirationsdauern in den Wörtern Mappe, Matte, und Macke (fortis) sowie laben, laden und lagen (lenis) gesprochen je dreimal von zehn Sprecher: innen des Standarddeutschen (davon 5 Männer) getrennt nach zugrunde liegendem Phona‐ tionstypus. Artikulationsstellenabhängige (Aspirations-)Dauer Die Aspirationsdauer variiert insbesondere bei Fortisplosiven auch als Funktion der Artikulationsstelle: je weiter hinten im Vokaltrakt sich diese befindet, desto länger ist in der Regel die Aspirationsdauer. So liegen in Datenbank_2_emuDB die Mediane der Aspirationsdauer von [pʰ] in Mappe bei 44 ms und von [tʰ] in Matte bei 65 ms. Bei der Verschlussdauer verhält es sich umgekehrt: je weiter hinten im Vokaltrakt die Artikulationsstelle, desto kürzer die Verschlussphase. In Datenbank_2_emuDB liegt der Median der Verschlussphase von [pʰ] bei 101 ms, der von [tʰ] bei 93 ms. Die Tendenz zu einem solch reziproken Verhältnis zwischen artikulationsstellenabhängiger Aspirationsdauer und artikulationsstel‐ lenabhängiger Verschlussdauer lässt sich sprachübergreifend beobachten (vgl. Cho & Ladefoged 1999, Maddieson 1997). Erklärt wird das Dauerverhältnis mit der Größe des hinteren Resonanzraums und dem Anstieg des supraglottalen Luftdrucks über die Zeit, der von der Raumgröße abhängt, (vgl. Kap. 2 und 3.2.2): Da der Raum hinter einem alveolaren Verschluss kleiner ist als hinter einem bilabialen Verschluss, kann im Vergleich zu letzterem bei ersterem zeitlich früher ein höherer supraglottaler Luftdruck erreicht werden, was zu einer zeitlich früheren Verschlusslösung führen kann. Ein höherer supraglottaler Luftdruck braucht wiederum längere Zeit, um den intraglottalen Druckpegel zu erreichen, der für die Stimmlippenschwingung des nachfolgenden Sprachlauts notwendig ist (vgl. 2.3.1), was zu einer längeren Aspirationsdauer führt. Es handelt sich hierbei 130 4 Konsonanten und Vokale <?page no="132"?> um einen sprachunabhängigen Zusammenhang, der in der signalphonetischen Analyse oft zu beobachten ist und auch in der Sprachlauterkennung eine Rolle zu spielen scheint. Abschließend zum Thema Aspiration noch eine Anmerkung zu deren Transkription. Da wir aus der Orthographie des Deutschen das Graphemset ⟨p b t d k g⟩ kennen, das die phonemische Unterscheidung beispielsweise zwischen den in Tab. 3 genannten Wörtern graphemisch abbildet, ist es nur naheliegend, dieselben Symbole aus dem IPA auch für die Transkription deutscher Sprachbeispiele zu verwenden. Transkribiert man z. B. auf phonemischer Ebene breit, ist dies durchaus vertretbar (vgl. 1.4.1). Möchte man aber die tatsächliche phonetische Realisierung im Deutschen transkribieren, müssen in vielen Wortpositionen Diakritika verwendet werden, so wie in den Beispielen in (9). Für die Transkription phonemisch stimmhafter Plosive gibt es dabei zwei Optionen: Entweder zeigt man die fehlende Aspiration eines stimmlosen Plosivs durch Weglassen des Diakritikums [ʰ]an (s. auch Beispiel (6) auf S. 35) oder man verweist mittels des Diakritikums [ ̥] auf die Entstimmung eines stimmhaften Plosivs. (9) Pass / pas/ [pʰas] - - Bass / bas/ [pas] [b̥as] - Tasse / tasə/ [tʰasə] - - das / das/ [tas] [d̥as] - Kasse / tasə/ [kʰasə] - - Gasse / ɡasə/ [kasə] [ɡ̊asə] Prävs. Postaspiration Spricht man von Aspiration handelt es sich streng genommen um Postaspiration, also um eine Behauchung nach dem Verschluss, da die Behauchung im Kontext von Plosiven auch vor der Verschlussbildung produziert werden kann. Das aperiodische Signal entsteht dann bei kurzzeitig geöffneter Glottis vor der Ver‐ schlussbildung (Stevens & Hajek 2007). Für die Transkription von Präaspiration wird das Diakritikum [ʰ] vor das Plosivsymbol gesetzt. Sprachen bzw. regionale Varietäten dieser Sprachen, in denen Präaspiration vorkommt, sind zum Beispiel das andalusische Spanisch, wo etwa pasta, ‚Nudeln‘ als [paʰta] realisiert wird (vgl. Ruch & Harrington 2014; Torreira 2012) oder das Schottisch-Gälische (vgl. Ladefoged et al. 1998; Nance & Stuart-Smith 2013). Präaspiration wird dabei an der phonetischen Oberfläche realisiert, scheint jedoch in keiner bekannten sprach‐ lichen Varietät relevant für die Bildung phonologischer Oppositionen zu sein (Ladefoged & Maddieson 1996: 73). Da in den Sprachen der Welt Postaspiration 4.2 Pulmonale Konsonanten 131 <?page no="133"?> sehr viel häufiger vorkommt und darüber hinaus funktional bedeutsam ist, bezieht sich der Begriff Aspiration in der Regel auf Postaspiration (so auch in diesem Buch, wenn nicht anders angegeben). Ein anderer, teils eng mit der Aspiration verbundener Parameter ist die sogenannte Voice Onset Time, kurz VOT, die die Zeit von der Verschlusslösung bis zum Einsetzen der Stimmlippenschwingung angibt (Lisker & Abramson 1964; Abramson & Whalen 2017). In Sprachen wie dem Deutschen, in denen zwischen stimmlos aspirierten und stimmlos nicht aspirierten Plosiven unterschieden wird, kann die Dauer der VOT und die der Aspiration identisch sein, da der Beginn der Stimmhaftigkeit mit dem Ende der Aspiration zusammenfällt. Ein aspirierter Plosiv weist eine lange Verzögerung der Stimmhaftigkeit (Engl. long lag) und damit einen hohen VOT-Wert auf. Ein nicht-aspirierter Plosiv hingegen ist durch eine kurze Verzögerung (Engl. short lag) und einen niedrigen VOT-Wert kennzeichnet. Dass die VOT aber keinesfalls mit der Aspiration gleichzusetzen ist, verdeutlicht der Blick auf phonetisch stimmhafte Plosive, wie sie etwa im Französischen (Fougeron & Smith 1999) oder Niederländischen (Gussenhoven 1999) in vielen Wortpositionen vorkommen: sie weisen Stimmlippenschwingung während der Verschlussphase und damit auch vor der Verschlusslösung auf. Dieser vorzeitige Stimmtoneinsatz (Engl. voicing lead) führt zu negativen VOT-Werten; die Stimmhaftigkeit ist als voice bar im Sonagramm sichtbar (vgl. Abb. 42 für ein Beispiel aus dem Deutschen). Entscheidend ist hier, dass diese sogenannten true voicing languages (Kirby & Ladd 2016), die keine Aspiration aufweisen, dennoch eine phonologische Opposition mittels VOT bilden: Im Gegensatz zu / b d ɡ/ , die in diesem Fall negative VOT-Werte aufweisen, liegt die VOT bei nicht aspirierten / p t k/ entweder bei null oder nur sehr leicht darüber. 132 4 Konsonanten und Vokale <?page no="134"?> Abb. 42: 150-ms lange, segmentierte Oszillogramm- und dazugehörige Sonagrammausschnitte der Äußerung ein Bass mit [p] (links), teilweise entstimmtem [b̥] (Mitte) und [b] (rechts). Die Stimmhaf‐ tigkeit während der Verschlussphase ist im Oszillogramm anhand der periodischen Schwingung und im Sonagramm anhand der voice bar im niederfrequenten Bereich zu erkennen. VOT im phonologischen Sprachvergleich Ursprünglich wurde VOT von Lisker und Abramson (1964) als das entscheidende Maß für den phonemischen Stimmhaftigkeitsunterschied in initialer Position im Sprachvergleich eingeführt, in einer Position also, in der die Verschlussphase als akustisches Merkmal fehlen kann. Die funktionale Rolle der Phonation innerhalb einer Sprache lässt sich ihnen zufolge sprachübergreifend akkurater und einheitli‐ cher anhand des temporalen Maßes der VOT klassifizieren als mittels des Schwin‐ gungsverhalten der Stimmlippen. VOT ist einerseits ein experimentalphonetisch quantifizierbares Maß, das andererseits effektiv Stimmhaftigkeitsoppositionen bei Plosiven in den Sprachen der Welt abbildet - und zwar unabhängig von der konkreten phonetischen Realisierung innerhalb einer Sprache. Sprachen, die mittels eines phonologischen VOT-Unterschiedes die lexikalische Produktivität erhöhen, unterscheiden zwischen zwei (z. B. Französisch: voicing lead vs. short lag, Deutsch: short lag vs. long lag) oder drei VOT-Kategorien (z. B. Hindi: voicing lead, / bɑl/ ‚Haar‘, vs. short lag / pɑl/ ‚großziehen‘, vs. long lag, / pʰɑl/ ‚Mes‐ serklinge‘). Es ist keine Sprache bekannt, die mehr als drei Kategorien funktional unterscheidet (vgl. Cho & Ladefoged 1999: 226). Die Quantität sei an dieser Stelle als letzter Parameter zur phonemischen Oppositions‐ bildung innerhalb einer Artikulationsstelle und eines Konstriktionstypen genannt. Der Parameter beschreibt die Dauer eines Sprachlautes oder auch nur eines Sprachlautteils, und dies zunächst unabhängig des Konstriktionstypen (s. 4.3.2). Die Quantität von 4.2 Pulmonale Konsonanten 133 <?page no="135"?> 29 In anderen Quellen zum Schweizerdeutschen wird die phonologische Opposition als eine zwischen Lenis- und Fortisplosiven beschrieben, die sich primär in der Verschlussdauer unterscheiden (Ladd & Schmid 2018). Plosiven, genauer von Verschlussdauern, spielt im Standarddeutschen keine primäre Rolle, da die phonemische Opposition mittels eines binären VOT-Unterschiedes pho‐ netisch implementiert wird. Im Finnischen (taka ‚Hinter‘ (Präfix) - takka ‚Kamin‘) und auch im Schweizerdeutschen (Huupe ‚Haube‘ - huuppe ‚hupen‘) hingegen wird die Plosivquantität insofern funktional genutzt, als dass nicht VOT, sondern die Dauer der Verschlussphase für die phonetische Implementierung der phonologischen Opposition entscheidend ist (vgl. Finnisch: Suomi et al. 2013; Schweizerdeutsch: Kraehenmann 2001). 29 Abb. 43 zeigt Sonagramme einer Huupe und huuppe-Realisierung. Abb. 43: Segmentierte Sonagramme der Wörter Huupe (links) und huuppe (rechts) eines Sprechers des Schweizerdeutschen. Der einfache Konsonant [p] (links) und die Geminate [pː] (rechts) weisen beide eine marginale Aspiration von ~20-ms auf. Der Unterschied in der Verschlussdauer beträgt 135-ms (Singleton: 58-ms, Geminate: 193-ms). Orthographisch durch Doppelkonsonanz repräsentierte Wörter enthalten Plosive mit langer Verschlussphase, sogenannte Geminaten, und werden in der Transkription mit dem Längensymbol [ː] angezeigt; Wörter mit nur einem medialen Konsonanten weisen Plosive mit einer kurzen Verschlussphase auf und entsprechen einem einfachen Kon‐ sonanten (mitunter auch Singleton genannt, s. hierzu aber Kap. 6). Quantitätssprachen wie das Finnische nutzen primär die Segmentdauer um phonologische Oppositionen innerhalb eines Konstriktionstypen und einer Arti‐ kulationsstelle zu markieren. Geminaten weisen dabei eine deutlich längere Verschlussphase auf als einfache Konsonanten. 134 4 Konsonanten und Vokale <?page no="136"?> Als sekundäres Merkmal spielt die Quantität auch im Standarddeutschen eine Rolle: Die Verschlussdauer von Fortisplosiven ist in der Regel länger als die von Lenisplosiven. So liegt der Median der Verschlussdauern aller 90 Fortisplosiv-Realisierungen in Datenbank_2_emuDB (3 Belegwörter × 3 Wiederholungen × 10 Sprecher: innen) bei 99 ms und der für Lenisplosive bei 55 ms. Der Unterschied in der Verschlussdauer zwischen Lenis- und Fortisplosiven fällt mit einem Verhältnis von 2: 1 aber geringer aus als etwa in den beiden in Abb. 43 gezeigten Beispielwörtern; dort beträgt das Verhältnis zwischen der Geminate und dem einfachen Konsonanten 3: 1. Der Quantitätsparameter wird zudem oft durch proportionale Dauerunterschiede verstärkt, wobei das Verhältnis eines Segments zu einem anderen entscheidender ist als die absolute Dauer des Einzelsegments (vgl. 4.5 unten). So ist in Abb. 43 die phonetische Dauer des Vokals vor [p] 35-ms länger als vor [pː], wodurch der einfache Konsonant noch kürzer wirkt als die Geminate. Die Möglichkeit zur Bildung phonemi‐ scher Oppositionen mittels bestimmter Segmentdauerverhältnisse wird besonders am Beispiel des Estnischen deutlich, das funktional gleich zwischen drei Quantitätsstufen unterscheidet: kurz [kɑpi] ‚Huf ‘, lang [kɑpːi] ‚des Schranks‘ und überlang, [kɑpːːi] ‚(in) den Schrank‘. - 4.2.1.3 Der Glottalverschluss Wie bereits in 4.2.1.1 oben erwähnt, kann der Verschluss auch an der Glottis erfolgen. Die in der Regel nur kurz, aber fest verschlossenen Stimmlippen hindern den Luftstrom für kurze Zeit am Entweichen. Akustisch ist das daraus resultierende Impulssignal im Sonagramm an einer sehr kurzen Verschlussdauer und der Verschlusslösung zu erkennen. Eine stimmhafte Realisierung des sogenannten Glottalverschlusses ist nicht möglich. Der Glottalverschluss wird mit dem Symbol [ʔ] transkribiert und kommt im Deutschen vor Vokalen am Wortbzw. Silbenanfang vor (z. B. Ast), was zu einem sogenannten harten Vokaleinsatz führt. Diese Bezeichnung bezieht sich v. a. auf den auditiven Eindruck, der mit wortinitialen Vokalen einhergeht, ist aber im akustischen Signal auch visuell zu erkennen. Der harte, abrupte Vokaleinsatz beim Buchstaben A in Abb. 44 links tritt vor allem im Vergleich zum sanften Abfall der Periodizität am Ende derselben Äußerung deutlich hervor. Oft folgen auch mehrere glottalverschlussähnli‐ che Signalabschnitte aufeinander (vgl. Abb. 44 Mitte); dies wird als Glottalisierung bezeichnet und mit dem Diakritikum für Knarrstimme [ ̰] transkribiert. Auditiv kann Glottalisierung als leichtes Knarren hörbar sein, wobei auch eine Konstriktion an der Glottis anstelle eines vollständigen Verschlusses ausreichend ist (vgl. Stimmqualität und Knarrstimme in 2.3.1). 4.2 Pulmonale Konsonanten 135 <?page no="137"?> Abb. 44: Segmentierte Oszillogramm- und dazugehörige Sonagrammausschnitte aus den Phrasen Das ist ein A. (links), ein Aasfresser (Mitte) und eine Nase (rechts). Unterstreichungen markieren den jeweils dargestellten Ausschnitt. Der phonemische Status des Glottalverschlusses ist immer wieder Diskussionsgegen‐ stand (vgl. z. B. Kohler 1995: 100-102). Einerseits ist es möglich, das Minimalpaar verreisen vs. vereisen zu bilden, andererseits ist sein Vorkommen vor wortinitialen Vokalen vorhersagbar und sein Auftreten innerhalb eines Worts an eine Silbengrenze gekoppelt. Der Glottalverschluss innerhalb des dreisilbigen Wortes vereisen, signali‐ siert die Grenze zwischen der ersten Silbe ver- und der zweiten Silbe -ei. Anders formuliert: Weil der Vokal der zweiten Silbe mit einem harten Vokaleinsatz beginnt, wird dadurch auch der Beginn einer neuen Silbe angezeigt. Der Vorhersagbarkeit und Funktionalität als Grenzsignal wird in der Diskussion oftmals die größere Bedeutung beigemessen als der Minimalpaarbildung (Kohler 1995), weshalb der Glottalverschluss in der Regel nicht als Phonem des Deutschen betrachtet wird. Wiese (1996: 58) nennt als weiteres Argument gegen den Phonemstatus, dass das Fehlen eines [ʔ] bei Muttersprachler: innen des Deutschen nicht zur Wahrnehmung einer falschen Aussprache führt (s. hierzu den Exkurs ‚Ist [ʔ] ein Phonem des Deutschen oder nicht? ‘). Ist [ʔ] ein Phonem des Deutschen oder nicht? Kohler (1995) schlägt ein kleines Experiment vor, um zu untermauern, dass der Glottalverschluss kein Phonem des Deutschen sei. Bei diesem Experiment sollen das Wort ein, einmal mit [ʔaɪn] und einmal ohne Glottalverschluss [aɪn], und das Wort Hain [haɪn] unterschieden werden. Seine Hypothese ist, dass Hörer: innen mit Deutsch als Muttersprache zwar Hain durchweg von den anderen beiden Wörtern, aber die beiden ein-Varianten untereinander nicht konsistent 136 4 Konsonanten und Vokale <?page no="138"?> unterscheiden können. Auch wenn das experimentelle Vorgehen anders war als von Kohler vorgeschlagen, so konnten Mitterer & Reinisch (2015) jedoch in einem Hörtest zeigen, dass das Entfernen sowohl von [h] als auch von [ʔ] einen ver‐ gleichbaren Effekt in der auditiven Wahrnehmung bei Hörer: innen mit Deutsch als Muttersprache verursachte. Vor dem Hintergrund dieses Ergebnisses und der Position, die beide Laute innerhalb von Wörtern und Silben einnehmen können (nur initial), schlugen die Autor: innen vor, auch / ʔ/ als Phonem des Deutschen zu betrachten. In einem Experiment mit Sprecher: innen, deren Muttersprache Italienisch war, zeigten Eger et al. (2019), dass sowohl [h] als auch [ʔ], die in dieser Form beide nicht im Italienischen vorkommen, gleichermaßen gut erlernt werden, unabhängig davon, ob der Sprachlaut durch ein Graphem in der Zielsprache repräsentiert ist oder nicht. In anderen Sprachen wie dem Maltesischen gilt der Glottalverschluss nicht nur als Phonem, sondern wird im Gegensatz zum Deutschen auch als Graphem kodiert. Phonologischer Status und orthographische Repräsentation können in einem sehr engen Verhältnis stehen (zumindest zum Zeitpunkt der orthographischen Normierung), sollten jedoch nicht als Beweis für eine phonologische Wertung herangezogen werden (vgl. Mitterer & Reinisch 2015). 4.2.2 Nasale Nasale (Engl. nasal stops) sind ebenfalls durch einen vollständigen Verschluss im Mundraum charakterisiert. Im Unterschied zu Plosiven ist bei der Produktion von Nasalen das Velum jedoch gesenkt, sodass der Luftstrom durch den Nasenraum entweichen kann. Insbesondere in der englischsprachigen Literatur werden sie auch als nasale Verschlusslaute bezeichnet. Wie bei Plosiven, lässt sich auch die Produktion von Nasalen grundsätzlich in drei Phasen untergliedern: die Verschlussbildung, die Verschlussphase, sowie die Verschlusslösung. Die Verschlusslösung von Nasalen ist aber nicht mit einer Sprengung wie bei Plosiven zu vergleichen, da zuvor keine Luft angestaut wurde. Sie ist im Sonagramm daher auch nicht stark auszumachen. Nasale sind in der Regel stimmhaft, weswegen das IPA keine Symbole für stimmlose Nasale aufweist (vgl. Abb. 36). Es gibt aber Sprachen, in denen auch Nasale entstimmt werden können, z. B. im Isländischen (myndin [mɪntin] ,das Bild‘ vs. myntin [mɪn̥tin] ‚die Münze‘). Auch im Deutschen werden Nasale mitunter entstimmt realisiert, z. B. wenn wir flüstern (vgl. 2.3.1). Nasale können an sieben verschiedenen Artikulationsstellen gebildet werden. Das Deutsche nutzt drei Artikulationsstellen funktional: bilabial, alveolar und velar. Es handelt sich also um dieselben Artikulationsstellen wie bei den Plosiven und auch die Artikulationsorgane sind dieselben. 4.2 Pulmonale Konsonanten 137 <?page no="139"?> Mit Ausnahme der Stellung des Gaumensegels gleicht die Produktion der drei Nasale der der entsprechenden Plosive: für den bilabialen Nasal [m] siehe [b], für den alveolaren Nasal [n] siehe [d], für den velaren Nasal [ŋ] siehe [ɡ]. Der Weg zur bzw. weg von der oralen Verschlussbildung spiegelt sich daher auch bei Nasalen akustisch in artikulationsstellenabhängigen Transitionen wider, wobei natürlich aufgrund der gleichen Produktion auch die Transitionsverläufe denen der Plosive ähneln (vgl. Abb. 45). Abb. 45: Schematische Darstellung der Artikulation eines bilabialen (links), alveolaren (Mitte) und ve‐ laren (rechts) Nasals nach Cruttenden (2001: 196, 198 f.; obere Reihe). 200-ms lange Oszillogramm- und dazugehörige Sonagrammausschnitte aus den Äußerungen rammen (links), rannen (Mitte) und rangen (rechts) von einer Sprecherin (untere Reihe). Da Nasale aufgrund des zugeschalteten Nasenraums keine akustische Stille aufweisen, zeigt das Sonagramm während der Phase des oralen Verschlusses auch eine gewisse Amplitudenstärke. Aufgrund des in Mund- und Nasenraum verzweigten Ansatzrohrs weist das Sonagramm Nasalformanten auf. Die Schwärzung ist allerdings sehr viel schwächer als in den angrenzenden Vokalen. Generell sind Nasale - unabhängig der Artikulationsstelle - im Sonagramm durch eine starke Schwärzung bis etwa 500 Hz und oberhalb dieser Frequenzen durch ein abgeschwächtes Spektrum gekennzeichnet. Die Gründe für die Schwächung oberer Frequenzen sind einerseits der orale Verschluss 138 4 Konsonanten und Vokale <?page no="140"?> und andererseits sogenannte Antiformanten, die das Ergebnis der Ansatzrohrver‐ zweigung in den Mundraum sind (vgl. 3.2.2.1) und einen Teil der Energie absorbieren. Artikulationsstelle Phonationstyp Wortposition initial medial final bilabial stimmhaft Macht rammen Kamm, Lamm alveolar stimmhaft Nacht rannen kann velar stimmhaft - rangen lang Tab. 4: Belegwörter für Nasale getrennt nach Artikulationsstelle und Wortposition. Auch funktional gibt es einige Unterschiede zwischen Plosiven und Nasalen. Neben den fehlenden Möglichkeiten eine Phonationsopposition zu bilden, kommt der velare Nasal im Deutschen nur postvokalisch vor, nicht aber am Wortanfang. Das in Tab. 4 dargestellte positionsabhängige Set der Nasalphoneme ist also viel kleiner als das der Plosivphoneme. Kontextabhängige Realisierungen dieser Phoneme weisen jedoch eine allophonische Vielfalt auf, die zeigt, dass im gesprochenen Deutsch fünf der laut IPA sieben möglichen Artikulationsstellen vorkommen. Vergleiche hierzu neben den breiten auch die engen Transkriptionen in (10). (10) labiodental fünf / fʏnf/ [fʏɱf] - palatal Anja / anja/ [aɲja] 4.2.3 Taps und Vibranten Bei Taps und Vibranten (Engl. trills) handelt es sich um unterschiedliche Konstrikti‐ onstypen, die in der IPA als solche separat gelistet sind. Hier werden einige dieser Laute jedoch aufgrund gewisser Ähnlichkeiten in der Produktion und ihres begrenz‐ ten Vorkommens im Deutschen zusammengefasst dargestellt. Wo sie im Deutschen vorkommen, erfüllen sie aber sehr unterschiedliche Funktionen. Der alveolare Tap kommt als Allophon des alveolaren Plosivs in norddeutschen Varietäten vor, die beiden Vibranten sind Allophone des im Deutschen durch ⟨r⟩ repräsentierten Phonems (s. u.). In einigen norddeutschen Varietäten werden alveolare Plosive mitunter als alveolare Taps, durch [ɾ] im IPA kodiert, realisiert. Ein Beispiel hierfür ist Vater, das als [faɾɐ], d. h. mit einem kurzen [a] wie in Stadt und einem intervokalischen Tap, produziert werden kann (s. z. B. Barry 1997). Im Gegensatz zu einem Plosiv ist die Verschlussphase bei einem Tap sehr kurz; die Zungenspitze schlägt letztendlich nur gegen den Alveo‐ larfortsatz und wird sofort wieder zurückgezogen. Im IPA wird einerseits zwischen den Konstriktionstypen Tap und Flap unterschieden; andererseits werden beide Arten 4.2 Pulmonale Konsonanten 139 <?page no="141"?> in einer Zeile zusammengefasst und mittels derselben Symbole repräsentiert. Taps gelten eher als getippt, Flaps als geschlagen (s. Barry 1997; Pompino-Marschall 2009). In amerikanischen Varietäten des Englischen können beide Arten vorkommen, z. B. als Allophone eines / t/ . Taps finden sich in intervokalischer Position wie in butter [bʌɾɚ] und Flaps in Wörtern wie dirty [dɝːɾi], d. h. in Wörtern, die vor dem Flap einen ⟨r⟩-gefärbten Vokal enthalten (vgl. 2.2 und Ladefoged & Johnson 2011: 176). Vibranten wiederum weisen mehrere solcher „Schläge“ eines Artikulationsorgans gegen eine Artikulationsstelle auf, wobei die Schläge nicht durchgängig aktiv durch das Organ ausgeführt werden, sondern durch Luftdruckunterschiede und aerodynamische Prozesse entstehen (McGowan 1992, ähnlich dem in 2.3.1 beschriebenen Mechanismus, der der Stimmlippenschwingung zugrunde liegt). Die Artikulation von Vibranten ist an drei Stellen möglich: bilabial, alveolar und uvular. Der bilabiale Vibrant [ʙ], bei dem die Unterlippe gegen die Oberlippe schlägt, hat im Deutschen keine linguistische Funktion. Er kommt aber im paralinguistischen Kontext vor, z. B. um anzuzeigen, dass man friert (Brrr). Während beim alveolaren Vibranten [r] die Zungenspitze mehrmals gegen den Alveolarfortsatz schlägt, ist die Uvula beim uvularen Vibranten [ʀ] das eigentlich artikulierende Organ, das gegen den gehobenen Zungenrücken artikuliert (vgl. 2.2). Die einzelnen Schläge resultieren in Öffnungs- und Verschlussphasen. Letztere sind im Sonagramm anhand von sehr kurzen Abschnitten akustischer Stille zu erkennen, erstere anhand der Schwärzung insbesondere in höheren Frequenzlagen (s. Abb. 46 für eine [r]-Realisierung). Abb. 46: Segmentiertes und etikettiertes Sonagramm der Äußerung Ara [aːra] einer Sprecherin. Sowohl der alveolare als auch der uvulare Vibrant kommen in regionalen Varietäten des Deutschen als frei variierende Allophone des orthographisch durch ⟨r⟩ repräsentierten Lautes vor (vgl. 1.2.2, Abb. 4; mitunter auch als gerollte r-Laute bezeichnet). In einer regionalen Varietät kommt jedoch in der Regel nur eines der beiden Allophone vor, das die Sprecher: innen dieser Varietät dann ausschließlich verwenden. Auch zugrunde liegende alveolare Vibranten können im Deutschen an der Oberfläche als alveolare Taps realisiert werden, nämlich dann, wenn sie nur einen Schlag aufweisen (Barry 1997). 140 4 Konsonanten und Vokale <?page no="142"?> Im kastilischen Spanisch hingegen bilden alveolare Taps und alveolare Vibranten eine phonemische Opposition wie folgendes Minimalpaar verdeutlicht: pero [peɾo] ‚aber‘ vs. perro [pero] ‚Hund‘. Der alveolare Vibrant [r] entsprach lange Zeit der Realisierung von ⟨r⟩ in der soge‐ nannten Bühnenaussprache (einer normierten Standardaussprache, die Ende des 19. Jh. in einem Aussprachewörterbuch veröffentlicht wurde, s. Onlinekapitel ‚Wissen‐ schaftsgeschichte‘). Heute ist er aber eher Merkmal einer süddeutschen Standardaus‐ sprache bzw. süddeutscher Dialekte. Im Standarddeutschen entspricht die Realisierung von ⟨r⟩ in vielen Wortpositionen eher einem Frikativ; Belegwörter für das Deutsche finden sich daher in 4.2.4. Aus diesem Grund bietet sich auch nicht die Verwendung des IPA-Symbols [r] für die Transkription des zugrunde liegenden Phonems im Stan‐ darddeutschen an. 4.2.4 Frikative Frikative (auch Reibelaute, Engl. fricatives) werden mittels einer Enge zwischen dem Artikulationsorgan und der Artikulationsstelle gebildet, durch die der zunächst laminare Luftstrom zwar entweichen kann, aber nicht ungehindert. Aufgrund der Enge (dem Hindernis) kommt es zu einer turbulenten Luftströmung im vorderen Resonanzraum, also zwischen der Enge und den Lippen. Diese Turbulenzen führen zu einem aperiodischen Signal, das als Geräusch wahrnehmbar und im Sonagramm gekennzeichnet ist durch stochastische Schwärzung im höheren Frequenzbereich (zwischen 3 und 11 kHz) und einen frequenzspezifischen Schwerpunkt (Engl. centre of gravity, für dessen und alternative Analysen in Frikativen des Deutschen vgl. Jannedy & Weirich 2016). Bei Frikativen handelt es sich um den einzigen Konstriktionstyp, an dem an jeder Artikulationsstelle ein Laut realisiert werden kann, der in einer Sprache der Welt vorkommt. Auch das Deutsche unterscheidet innerhalb dieses Konstriktionstyps mit Blick auf die Artikulationsstelle die meisten Phoneme, wie die Belegwörter in Tab. 5 zeigen. Die Anzahl phonemischer Oppositionen wird zudem durch die funktionale Nutzung des Parameters Phonation erhöht. Im Gegensatz zu Plosiven nutzen wir im Deutschen die Möglichkeit zur Doppelnutzung von Artikulationsstellen mittels Phonationsoppo‐ sition aber nicht bei allen, sondern nur bei einigen Artikulationsstellen und auch nur in bestimmten Wortpositionen (vgl. Tab. 5). Bevor die einzelnen Frikative nach Artikulationsstelle beschrieben werden, soll zunächst auf die wichtigsten Aspekte der Phonationsunterscheidung in dieser Lautklasse eingegangen werden. 4.2 Pulmonale Konsonanten 141 <?page no="143"?> Artikulations‐ stelle Phonation Wortposition initial medial final labiodental stimmlos fein Waffe Haff stimmhaft Wein - - alveolar stimmlos - Wasser, wissen Hass stimmhaft sein Vase, Wiese - postalveolar stimmlos Schein, Schemel waschen, wischen rasch stimmhaft - Garage - palatal stimmlos chemisch wichen Scheich stimmhaft - - - velar stimmlos - wachen (wach) uvular stimmhaft rein - - glottal stimmlos Heim - - Tab. 5: Belegwörter für stimmhafte und stimmlose Frikative getrennt nach Artikulationsstelle und Wortposition. Eingeklammerte Wörter verweisen auf den Allophonstatus des Frikativs. Stimmhafte Frikative weisen im Vergleich zu ihren stimmlosen Gegenstücken und im Gegensatz zu Plosiven phonetische Stimmhaftigkeit auf (Beckman et al. 2009). Darüber hinaus sind sie in der Regel kürzer und die stochastische Schwärzung kann aufgrund einer abgeschwächten Intensität weniger stark ausgeprägt sein (s. Abb. 47). Aber gerade die phonetische Stimmhaftigkeit einiger Frikative, im Sonagramm wiederum durch die voice bar gekennzeichnet, ist aus artikulatorisch-akustischer Sicht nicht leicht zu realisieren, weshalb es auch bei dieser Lautklasse Tendenzen zur Entstim‐ mung gibt. Grund hierfür sind unterschiedliche Anforderungen an die intraglottalen und supraglottalen Luftdruckverhältnisse für stimmhafte Sprachlaute einerseits und Frikative andererseits: ein hoher supraglottaler Luftdruck im hinteren Resonanzraum (d. h. zwischen Glottis und Enge) ist wichtig für jede Frikativproduktion; steigt jedoch der supraglottale Luftdruck stark an, dann kann dies die Stimmlippenschwingung aufgrund eines zu niedrigen intraglottalen Luftdrucks zum Erliegen bringen (vgl. Formel (8), S. 68). Auch das akustische Signal stimmhafter Frikative ist im Vergleich zur in 3.1.1 vorgestellten Signaltypen-Klassifikation hybrid, da das aperiodische Rauschen den quasiperiodischen Grundton überlagert (s. Abb. 47). 142 4 Konsonanten und Vokale <?page no="144"?> Abb. 47: 250-ms lange, segmentierte und etikettierte Oszillogramm- und dazugehörige Sonagrammausschnitte aus den Äußerungen reisen (links) und reißen (rechts) von einer Sprecherin. Darunter je zwei 20 ms lange Oszillogrammausschnitte (aus dem durch den Pfeil markierten Bereich) aus dem stimmhaften (links) und dem stimmlosen (rechts) alveolaren Frikativ. Nachfolgend werden nun v. a. ortsabhängige Artikulation und akustische Eigenschaf‐ ten der Frikative beschrieben, die im Standarddeutschen funktional genutzt werden. Wenn nicht explizit erwähnt, entsprechen die Sprachlaute Phonemen. Auf allopho‐ nische Variantenen eines Phonems wird explizit hingewiesen. Auf die bilabialen, retroflexen und pharyngalen Frikative wird an dieser Stelle nicht weiter eingegangen. Alle Frikative sind aber im anklickbaren IPA nachzuhören (s. Link auf S. 37) und die Artikulation lässt sich analog zu den folgenden Beschreibungen, unter Berücksichti‐ gung von Artikulationsorgan und -stelle ableiten (vgl. Tab. 2, S. 61). Im Folgenden wird bis auf die drei am weitesten hinten im Vokaltrakt gebildeten Frikative - analog zum IPA - immer zuerst das Symbol für den stimmlosen Frikativ aufgeführt, gefolgt vom Symbol für das stimmhafte Pendant. • Die labiodentalen Frikative [f, v] werden mit der Unterlippe und den oberen Schneidezähnen produziert. Die Unterlippe entspricht dabei dem Artikulationsor‐ gan, die oberen Schneidezähne der Artikulationsstelle. Beide können sich bei der Produktion berühren; etwas Luft kann dennoch durch die Zähne entweichen. Im Deutschen kommen sowohl stimmlose als auch stimmhafte labiodentale Frikative vor (z. B. [f] vier vs. [v] wir). Aufgrund des geringen Volumens des vorderen Resonanzraums zwischen Enge und Lippen liegt der Frequenzschwerpunkt im sehr 4.2 Pulmonale Konsonanten 143 <?page no="145"?> hohen Frequenzbereich um die 10 kHz; in den darunterliegenden Frequenzberei‐ chen fällt die stochastische Schwärzung sehr hell aus (vgl. Abb. 48 links). • Die dentalen Frikative [θ, ð] kommen im Deutschen nicht vor, wir kennen sie aber aus dem Englischen, wo sie durch ⟨th⟩ repräsentiert werden (vgl. 1.4.2). Sie werden mit der Zungenspitze produziert, die eine Enge mit den oberen Schneide‐ zähnen bildet. Das Englische unterscheidet stimmlose (z. B. thanks [θæŋks], thigh [θaɪ]) und stimmhafte dentale Frikative (z.-B. father [fɑːðəɹ], thy [ðaɪ]). Abb. 48: Schematische Darstellung der Artikulation eines labiodentalen (links), alveolaren (Mitte) und postalveolaren (rechts) Frikativs (obere Reihe) nach Cruttenden (2001: 182, 186, 189). Oszillogramm- und dazugehörige Sonagrammausschnitte (untere Reihe) aus den Wörtern fein (links), sein (Mitte, mit einem stimmlosen [s]) und Schein (rechts). Die Ausschnitte umfassen die Gesamtdauer des Frikativs plus die ersten 10-% des nachfolgenden Vokals und variieren in der Länge in Abhängigkeit der Frika‐ tivdauer. • Auch die wiederum im Deutschen vorkommenden alveolaren Frikative [s, z], unterscheiden sich in der Stimmhaftigkeit, wie das Minimalpaar reißen - reisen zeigt. Für die Produktion alveolarer Frikative muss das Artikulationsorgan, die Zungenspitze bzw. das Zungenblatt, sehr nah an die Artikulationsstelle, den Alveolarfortsatz, geführt werden. Dabei bildet sich zentral eine kleine Rille, durch die der Luftstrom entweichen kann. Im Sonagramm weisen alveolare Frikative eine intensive, stochastische Schwärzung im oberen Frequenzbereich zwischen 6 und 8 kHz auf (s. Abb. 48 Mitte). Im normierten Standarddeutsch kommen am Wortanfang - mit Ausnahme von Lehnwörtern - nur stimmhafte alveolare Frikative vor (z. B. sehen [zeːən]). In vielen Dialekten (z. B. Mittelbairisch) und selbst in der süddeutschen Standardvarietät wird der alveolare Frikativ aber auch 144 4 Konsonanten und Vokale <?page no="146"?> initial stimmlos realisiert (so wie in Abb. 48 untere Reihe Mitte) oder zumindest teilweise entstimmt (vgl. z.-B. Pouplier & Hoole 2016: 56). • Für die Produktion der postalveolaren Frikative [ʃ, ʒ] wird das Zungenblatt (Artikulationsorgan) in Richtung des hinteren Bereichs des Alveolarfortsatzes (Artikulationsstelle) gezogen, wobei es eine längere Rille bildet, durch die der pulmonale Luftstrom geleitet wird. Im Vergleich zu alveolaren und v. a. auch pala‐ talen Frikativen werden postalveolare Frikative im Deutschen mit (unterschiedlich starker) Lippenrundung realisiert (s. Sekundärartikulation in 4.2.6 und 4.5). Das kann man leicht an der eigenen Artikulation von sie und Ski beobachten. Egal ob der alveolare Frikativ entstimmt ist oder nicht, die Lippen sind vor einem [iː] gespreizter als bei einem [ʃ]. Im Deutschen sind postalveolare Frikative meistens stimmlos ([ʃ]); die stimmhafte Variante [ʒ] kommt nur in Lehnwörtern vor (vgl. Tab. 5). Aufgrund der Lippenrundung, durch die das Volumen des vorderen Mundraums verlängert wird, ist der akustische Schwerpunkt bei postalveolaren Frikativen deutlich weiter unten, im Bereich von 2,5 bis 7 kHz, als bei alveolaren und palatalen Frikativen (s. Abb. 48 rechts). Abb. 49: Schematische Darstellung der Artikulation eines palatalen (links) und uvularen (Mitte) Frikativs (obere Reihe) nach Pompino-Marschall (2009; obere Reihe). Oszillogramm- und dazugehörige Sona‐ grammausschnitte (untere Reihe) aus den Wörtern chemisch (links), Reim (Mitte) und Heim (rechts). Die Ausschnitte umfassen die Gesamtdauer des Frikativs plus die ersten 10 % des nachfolgenden Vo‐ kals und variieren in der Länge in Abhängigkeit der Frikativdauer. 4.2 Pulmonale Konsonanten 145 <?page no="147"?> 30 Krech et al. (2009: 30) gehen zwar von einer weiteren Verbreitung des stimmhaften velaren Frikativs [ɣ] aus, verwenden aber aufgrund der größeren symbolischen Nähe zu ⟨r⟩ ebenfalls [ʁ] für die Transkription. • Die palatalen Frikative [ç, ʝ] werden mit ungerundeten Lippen und dem hinte‐ ren Bereich des Zungenblatts bzw. dem vorderen Bereich des Zungenrückens (Artikulationsorgan) produziert, das im Bereich des harten Gaumens eine Enge im Vokaltrakt bildet (s. Abb. 49 links). Im Deutschen kommt in Abhängigkeit von Wortposition und Kontext nur stimmloses [ç] vor, das in folgenden Positionen dorsal realisiert wird: - prävokalisch wie in China, Chemie oder der Diminutivform -chen wie in Frauchen, - postkonsonantisch wie in Milch, Mönch oder Pferch, - postvokalisch nach sogenannten vorderen Vokalen wie riechen, Richter, Rechen (s. 4.3). • Dem palatalen Frikativ wird im Deutschen oftmals (aber nicht immer) der Status des Phonems eingeräumt, das in wenigen anderen Kontexten als den o. g. an der phonetischen Oberfläche nicht als palataler Frikativ realisiert wird (s. u., vgl. 1.2.2 und Hall 2011: 64-65). Einfachheitshalber folgen wir hier dieser Analyse; es sei aber darauf hingewiesen, dass z. B. Kohler (1995, 1999) von zugrunde liegendem / x/ ausgeht und Wiese (1996) in einer komplexeren phonologischen Analyse unter Berücksichtigung von distinktiven Merkmalen (s. Kap. 5) und phonologischen Regeln (s. Kap. 7) auf die Wahl eines zugrunde liegenden Phonems verzichtet. In der Struktur des Sonagramms ähnelt der palatale Frikativ mit einer intensiven Schwärzung im oberen Frequenzbereich der von alveolaren und postalveolaren Frikativen, wobei die für die palatale Artikulationsstelle charakte‐ ristische Schwerpunktuntergrenze der stochastischen Schwärzung im Bereich von 5 kHz liegt, also zwischen der für alveolare Frikative einerseits und postalveolare Frikative andererseits (s. Abb. 49 links). • Nach hinteren und offenen Vokalen (mitunter auch dunkle Vokale genannt) wie ⟨u, o, a⟩ wird / ç/ als [x], also als stimmloser velarer Frikativ, mitunter auch als [χ], d. h. als stimmloser uvularer Frikativ realisiert, z. B. Suche, Sucht, hoch, Loch, stach, Dach. Bei velaren Frikativen erfolgt die Engebildung zwischen dem Zungenrücken und dem Velum, bei uvularen Frikativen zwischen dem Zungenrücken und der Uvula. Auditiv und akustisch unterscheidet sich der velare Frikativ deutlich von [ç]. Im Gegensatz zu [ç] weisen [x] bzw. [χ] strukturiertere Sonagramme auf, d. h. Resonanzfrequenzen werden sichtbarer. Ein Schwerpunkt ist im Bereich von etwa 3-kHz zu erkennen. • Der stimmhafte uvulare Frikativ [ʁ] kommt im Deutschen als überregional verbreitete Variante des orthographisch durch ⟨r⟩ repräsentierten Lautes vor und wird inzwischen als Phonem des bundesdeutschen Standarddeutsch gewertet (vgl. z. B. Kohler 1999, Krech et al. 2009, s. aber Hall 2011). 30 Auch professionelle 146 4 Konsonanten und Vokale <?page no="148"?> Sprecher: innen wie Nachrichtensprecher: innen realisieren ⟨r⟩ beispielsweise in prävokalischer Position als [ʁ] (vgl. Kleiner & Knöbl 2015; z. B. Rat). Die oben beschriebenen Vibranten [r] und [ʀ] sind also als Allophone von / ʁ/ anzusehen. In Sonagrammen ist [ʁ] wiederum an den blassen Resonanzfrequenzen zu erkennen (s. Abb. 49 Mitte). • Die Produktion des sogenannten stimmlosen glottalen Frikativs [h] weicht von der anderer Frikative aufgrund der fehlenden Engebildung bei geöffneter Glottis ab und wird in einigen Einführungsbüchern im Rahmen der Approximanten be‐ schrieben (z. B. Ladefoged & Johnson 2011). Ein Grund für die Zuordnung zur Kategorie der Frikative ist das auditiv wahrnehmbare Geräusch, das bei der Pro‐ duktion dieses Sprachlautes erzeugt wird. Artikulatorisch ließe sich [h] besser als geflüsterter oder behauchter Approximant beschreiben (Laver 1994: 304 f., vgl. 2.3.1, s. 4.4), dessen akustische Eigenschaften stark von der des angrenzenden Lau‐ tes abhängt, wie folgender Selbsttest verdeutlicht. Spricht man die deutschen Wör‐ ter Hieb und Hub sehr langsam aus, unterscheiden sich die Geräusche der [h]-Phone deutlich, da wir bei der Artikulation bereits die Produktion der folgen‐ den Vokale im Blick haben (s. 4.5). Infolgedessen weist das [h] vor ⟨ie⟩ mehr Ähn‐ lichkeiten mit einem geflüsterten [i] auf und das vor ⟨u⟩ mehr Ähnlichkeiten mit einem geflüsterten [u]. Im Deutschen kommt [h] in prävokalischer Position am Wortanfang vor, z. B. heute, mitunter auch in wortmedialer Position, z. B. sehen. Die wortmediale Realisierung entspricht allerdings nicht der normierten Ausspra‐ che (Duden: / zeːən/ ) und entsteht auch nur bei überdeutlicher Aussprache von zwei deutlich trennbaren Silben (hier se.hen). In Sonagrammdarstellungen weist der glottale Frikativ bereits die schwach erkennbaren Resonanzfrequenzen der an‐ grenzenden Vokale auf (s. Abb. 49 rechts). Die hier beschriebenen und in Abb. 48 bzw. Abb. 49 gezeigten artikulationsstellenab‐ hängigen Unterschiede zeigen sehr deutlich den Zusammenhang zwischen Artikulati‐ onsstelle und akustischer Ausprägung. Folgender Merksatz fasst dies zusammen. Je größer das Volumen des vorderen Resonanzraums desto tiefer der Frequenz‐ schwerpunkt und desto strukturierter das Sonagramm in Form von sichtbaren Resonanzfrequenzen. 4.2.5 Affrikaten Nachdem wir nun sowohl Plosive als auch Frikative kennengelernt haben, können wir uns dem Konzept der Affrikaten annehmen. 4.2 Pulmonale Konsonanten 147 <?page no="149"?> Phonetisch gesehen sind Affrikaten Plosive, die unmittelbar in ihren homorganen Frikativ übergehen. Kohler (1995: 61) stellt den Begriff im Rahmen der unterschiedlichen Plosivlösungsty‐ pen vor, wonach Plosivlösungen oral, nasal, lateral (vgl. 4.2.1) oder eben in Form von Affrikaten realisiert werden können. Während jedoch bei der Aspiration nach einer oralen Verschlusslösung die Friktion lokal durch die plötzlich entweichende angestaute Luft entsteht, so werden bei Affrikat-Frikativen die Turbulenzen durch einen anhal‐ tenden hohen Luftdruck zwischen Glottis und Enge, der nach der Plosivlösung entsteht, generiert. Homorgan schließt hier auch breiter gefasste Artikulationsstellen ein. So zählen zu den im Deutschen vorkommenden Affrikaten neben der Konsonantenverbindung [ts] wie in Zeit auch die Verbindung [pf] wie in Pferd. Entscheidend ist hier die gemeinsame labiale Artikulationsstelle, unabhängig davon, ob diese bilabial oder labiodental ist. Darüber hinaus kennt das Deutsche weitere „Affrikaten und ähnliche Konsonanten‐ verbindungen“ (Rues et al. 2007: 19), auch wenn sich hierzu unterschiedliche Angaben finden: Neben den beiden oben genannten führen • Rues et al. (2007: 18-19) noch [ps] wie in Klops, [kv] wie in Quelle und [ks] wie in Keks an, • Kohler (1995: 61) hingegen [tʃ] wie in Tschüss und [kx] (vermutlich) wie in kriechen (vgl. Kohler 1995: 166, bei Krech et al. 2009: 30 beispielhaft als / kʁ/ angeführt) und • Kleiner und Knöbl (2015: 50) ebenfalls / tʃ/ und daneben noch / dʒ/ wie in Dschungel. Die bei Rues et al. (2007) zusätzlich genannten Plosiv-Frikativ-Sequenzen müssen der von den Autor: innen als „ähnliche Konsonantenverbindungen“ bezeichneten Gruppe zugeordnet werden, da die Konsonanten einer Verbindung keine homorgane Artikulationsstelle teilen. Die bei Kohler (1995) sowie Kleiner und Knöbl (2015) zusätzlich angeführten Sequenzen können hingegen als Affrikaten im phonetischen Sinne betrachtet werden, auch wenn diese nie Teil der Debatte um einen möglichen monophonematischen Status von Affrikaten waren (s. Exkurs ‚Der phonematische Wertungsstreit‘, S.-151). Der Grund für die gesonderte Beschreibung von Affrikaten in einem eigenen Abschnitt ist die immer wieder thematisierte Frage, ob das besondere Merkmal der Affrikate, eine Einheit zu formieren, Anlass genug sei, Affrikaten als zusätzliche Einzelphoneme zu werten (ähnlich der von Diphthongen wie in Ei, s. 4.3; Rues et al. 2007: 18). In der Konsonantentabelle des IPA sind Affrikaten nicht als eigenständiger Konstriktionstyp aufgeführt. Stattdessen wird die Verwendung des Ligaturbogens [ ͡ ] über den beiden Bestandteilen der Affrikate vorgeschlagen, um eine enge Lautverbin‐ 148 4 Konsonanten und Vokale <?page no="150"?> 31 Keine der in diesem Abschnitt genannten Quellen verwendet jedoch den Ligaturbogen und auch in diesem Buch wird darauf verzichtet. dung anzuzeigen. 31 Allerdings finden sich im Handbuch zum IPA (International Pho‐ netic Association 1999) einige Sprachbeschreibungen, in denen Affrikaten als Teil der Konsonantentabelle mit aufgeführt werden (z. B. amerikanisches Englisch, Polnisch, Ungarisch, nicht aber Deutsch), was auf einen monophonematischen Status dieser dann „echten Affrikaten“ (Werner 1972: 51) in einigen Phoneminventaren hindeutet. Dabei muss es nicht um sämtliche in einer Sprache vorkommenden Kombinationen aus Plosiv und homorganem Frikativ gehen: Im Englischen etwa gelten / tʃ/ und / dʒ/ wie in church [tʃɜːtʃ] und judge [dʒʌdʒ] als Affrikaten, nicht aber / ts/ wie in cats [kæts] (Ladefoged & Johnson 2011: 67); im Deutschen hingegen konzentriert sich die Diskussion um echte Affrikaten in erster Linie auf / ts/ und / pf/ . Ein mögliches phonetisches Argument für die Klassifikation von Affrikaten als eigenständige Kategorie ist etwa die jeweils kürzere Realisierung der beiden Segmente sowie die fehlende oder nur sehr schwach ausgeprägte Verschlusslösung sowie die fehlende Aspiration in Affrikat-Realisierungen (z.-B. in Zeit) im Vergleich zu Realisie‐ rungen einzelner Plosive und Frikative (s. Abb. 50). Darüber hinaus verweist eine deutlich sichtbare schräg verlaufende Schwerpunktuntergrenze der stochastischen Schwärzung auf eine gleitende artikulatorische Bewegung hin, die auf eine stärkere Zusammengehörigkeit der beiden Segmente hinweist. Ähnliche Beobachtungen listen Ladefoged und Johnson (2011: 37-38) für / tʃ/ im Englischen anhand von Wortpaaren wie why choose [waɪ tʃuːz] vs. white shoes [waɪt ʃuːz] auf. Problematisch an all diesen Vergleichen ist, dass auch andere Gründe wie Segmentlängung in bestimmten Wortbzw. Satzpositionen einen Einfluss auf die phonetische Form haben können (s. finale Längung in Kap. 9). Auf der anderen Seite ist die Beobachtung, dass sich Plosiv und Frikativ in der Sonagrammdarstellung rein visuell gut in die jeweiligen Bestandteile zerlegen lassen, aus zwei Gründen ebenfalls kein Argument für eine biphonematische Wertung der Affrikate: Eine akustisch-visuelle Trennung 1. in Verschluss- und Aspirationsphase ist auch bei monophonematisch gewerteten aspirierten Plosiven möglich (vgl. Abb. 40), 2. ist auch bei eindeutig biphonematischen Lautverbindungen nicht immer möglich (vgl. z.-B. siebzehn in Abb. 37). Die oben gemachten Beobachtungen zu akustischen Besonderheiten von Affrikatpro‐ duktionen können also möglicherweise auch nur das Resultat von Koartikulation sein (s. 4.5). 4.2 Pulmonale Konsonanten 149 <?page no="151"?> 32 Ein Grund hierfür mag auch in der lange Zeit gültigen Annahme liegen, der zugrunde liegende r-Laut sei in der Standardlautung ein Vibrant und kein Frikativ. 33 Im Falle einer biphonematischen Wertung entspräche zwar Putsch-Putz weiterhin einem Minimal‐ paar, das sich dann in den Phonemen / ʃ/ und / s/ unterscheidet, nicht aber latschen-lagen, da sich latschen in diesem Fall in mehr als einem Phonem von lagen unterscheidet. Abb. 50: 500 ms lange, segmentierte und etikettierte Sonagrammausschnitte aus den Äußerungen die Teile (links), die Seiten (Mitte, mit stimmlosem Frikativ im Anlaut) und die Zeiten (rechts) von einer Sprecherin. So wichtig phonetische Argumente sind, sie reichen allein natürlich grundsätzlich nicht für die sprachabhängige Interpretation des phonologischen Status eines Sprachlauts aus. Die Frage muss vielmehr lauten, ob die phonetische Form der Affrikate eine besondere Funktion in einer Sprache erfüllt, die sich deutlich von der Funktion der Einzellautphoneme in dieser Sprache unterscheidet. Mit Blick auf / ts/ und / pf/ im Deutschen wurde die jahrzehntelang diskutierte Frage Werner (1972: 51) zufolge „weitgehend verneint“. Einige der Argumente für das Pro und Kontra einer monopho‐ nematischen Wertung können im Exkurs ‚Der phonematische Wertungsstreit‘ auf S. 151 nachgelesen werden. An dieser Stelle seien stattdessen nur die Anmerkungen zweier bekannter Aussprachewörterbücher zur Wertung von Affrikaten im Deutschen genannt, die diese Diskussion in gewisser Weise kurz und bündig abschließen. • Im Deutschen Aussprachewörterbuch behandeln Krech et al. (2009: 30) Affrikaten als Sequenz aus zwei Einzelphonemen, da - die einer Affrikate ähnlichen Verbindung [kʁ] nie monophonematisch ge‐ wertet worden sei 32 und - auch die Phonem-Graphem-Zuordnung nicht eindeutig ist (Haplographie bei ⟨z⟩ → / ts/ , nicht aber bei ⟨pf⟩) und sich somit „die Sonderstellung »ein Sprachlaut« nicht zweifelsfrei begründen lässt“. • Kleiner und Knöbl (2015) wiederum merken im Vorwort zum Duden-Aussprache‐ wörterbuch - ungeachtet der o.-g. akustischen Unterschiede völlig zu Recht - an, dass im Deutschen die phonematische Wertung „für die Aussprache irrelevant“ sei (S. 50), führen aber vor dem Hintergrund einer möglichen monophonematischen Wertung auch Minimalpaare wie Putsch vs. Putz und latschen vs. lagen an (S. 42). 33 150 4 Konsonanten und Vokale <?page no="152"?> Im Polnischen hingegen spielt die Möglichkeit zur Minimalpaarbildung eine bedeuten‐ dere Rolle, da Polnisch auch auf der Ebene der Phonologie zwischen homorganen Pho‐ nemsequenzen aus Plosiv und Frikativ einerseits und monophonematischen Affrikaten andererseits unterscheidet, z. B. wieczny [vjet͡ʃnɨ] ‚ewig‘ vs. wietrzny [vjetʃnɨ] ,win‐ dig‘ (vgl. Jassem 2003). Im Gegensatz zu diesem polnischen Beispiel lassen sich im Deutschen die einzelnen Bestandteile einer Affrikate in der Regel in Minimalpaaren austauschen (z. B. Pfeil-feil, Schuss-Schutz-Schutt, Werner 1972: 52; vgl. auch S. 150, Fußnote 33). Zudem lassen sich im Polnischen im Gegensatz zum Englischen oder Deutschen direkte Aussprachevergleiche anstellen und Ausspracheunterschiede finden: So werden etwa sprecherübergreifend signifikant kürzere Frikativdauern in Affrikaten beobachtet (Zagórska Brooks 1964). Der phonematische Wertungsstreit Schon Trubetzkoy (1935) nannte die im Deutschen vorkommenden Affrika‐ ten / ts/ und / pf/ als Beispiele für Lautverbindungen, die monophonematisch als Einzelphonem gewertet werden könnten. Zu seinen Proargumenten gehören neben phonetischen Bedingungen wie Gleitbewegungen zwischen homorganen Artikulationsstellen auch die Erfüllung bestimmter phonotaktischer Bedingungen wie der Zugehörigkeit beider Teilsegmente zur selben Silbe (s. Kap. 6). Da aber auch andere Konsonantenverbindungen in einer Silbe vorkommen können (z. B. Platz, Trog), ist das Argument der Silbenzugehörigkeit für sich allein genommen nicht stichhaltig. Es kommt vielmehr auf die Kombination aller Bedingungen an, die für eine monophonematische Wertung von Affrikaten erfüllt sein müssten. Andere Autoren nennen als weitere Proargumente (nach Werner 1972) etwa die diachrone Entwicklung der Plosive zu Affrikaten während der althochdeut‐ schen Lautverschiebung (s. z. B. Schmidt 2000), die fehlende Opposition zwi‐ schen / pʰ/ und */ pʰf/ oder die fehlende Möglichkeit, Konsonantenverbindungen vom Wortanfang am Wortende zu spiegeln (z. B. Trab vs. Bart, aber Pfad vs. Kopf). Das letzte Argument zeigt jedoch schon, dass manche dieser Bedingungen nur auf eine der beiden Affrikaten zutreffen: Während es im Deutschen kein Wort und keine Silbe gibt, die auf */ fp/ endet, so ist / st/ im Auslaut alles andere als selten, z. B. Rest, fast, ist. Generell gibt es wenig Einigkeit darüber, welche Plosiv+Frikativ-Sequenzen überhaupt als echte phonetische Affrikaten gelten können. So sind etwa Morciniec (1959) zufolge nur / ts/ , nicht aber / pf/ und laut Kohler (1995) nur / pf/ , nicht aber / ts/ echte Affrikaten. Einig sind sich beide jedoch darin, dass die monophonematische Analyse nur einer Affrikate für die grund‐ sätzliche Annahme von phonologischen Affrikaten im Deutschen nicht ausreicht. Kohler (1995: 166-169) zufolge verkompliziert eine monophonematische Wertung von Affrikaten die phonotaktischen Kombinationsmöglichkeiten im Deutschen, auch weil es dann mehr Phoneme im Phoneminventar zu berücksichtigen gilt. 4.2 Pulmonale Konsonanten 151 <?page no="153"?> 4.2.6 Laterale Laterale werden mit einem teilweisen Verschluss des Artikulationsorgans an einer Artikulationsstelle gebildet. Der typische, weltweit am weitesten verbreitete Lateral [l] (Maddieson 2013a) wird mit einem zentralen Verschluss der Zungenspitze im dentalen bzw. alveolaren Bereich gebildet, die Zungenränder liegen nicht an. Dadurch kann die Luft lateral (seitlich) entweichen. Wie Nasale so gelten auch Laterale grundsätzlich als stimmhaft. In bestimmten Kontexten können sie teilweise entstimmt realisiert werden, etwa nach Plosiven wie in Platz, wenn die Stimmlippenschwingung deutlich nach der Verschlusslösung, während des Laterals einsetzt. Einige Sprachen nutzen entstimmtes / l̥ / auch funktional, z. B. Isländisch hlíf [l̥ iːf] ‚Schutz‘ (Asu et al. 2015). Von vier möglichen Artikulationsstellen nutzt das Standarddeutsche nur die alveo‐ lare funktional. Der alveolare Lateral, laut IPA genauer Lateralapproximant, kommt wortinitial, -medial und -final vor: z.B. las, sollen und Saal (zu Approximanten s. 4.4). In der akustischen Ausprägung sind Laterale einerseits Nasalen, andererseits Vokalen recht ähnlich, da es sich ebenfalls um periodische Signale handelt und sich dement‐ sprechend die Resonanzeigenschaften des Ansatzrohrs im Sonagramm als Formanten wiederfinden. Das Sonagramm ist im Bereich oberhalb von 500 Hz abgeschwächt. Im Vergleich zu Nasalen fällt die Schwärzung im Bereich der Abschwächung aber etwas stärker aus, s. Abb. 51. Die allophonische Variation in der [l]-Realisierung fällt im Standarddeutschen ver‐ hältnismäßig gering aus - im Gegensatz zur Oberflächenrealisierung von / ʁ/ und zur Standardvarietät des britischen Englisch, das kontextabhängig zwischen sogenanntem hellem (Engl. clear) [l] und dunklem (Engl. dark) [ɫ] unterscheidet (vgl. z. B. Cruttenden 2001: 200-203). In 1.3 wurde die komplementäre Verteilung der [l]-Allophone in der britisch-eng‐ lischen Standardvarietät bereits als ein Beispiel für sprachabhängige Form-Funkti‐ ons-Beziehungen genannt. Vor Vokalen und / j/ (wie zu Beginn von yes bzw. ja im Deutschen, s. 4.4) wird im britischen Englisch - sowohl innerhalb eines Wortes (z. B. luck [lak], please [pliːz], really [rɪəli]) als auch über Wortgrenzen hinweg (z. B. fill out [fɪl aʊt], until yesterday [ʌntɪl jestədeɪ]) - / l/ als [l] realisiert, ähnlich wie im Deutschen. In allen anderen Kontexten hingegen, z. B. nach Vokalen, wird / l/ in der britisch-englischen Standardvarietät velarisiert oder sogar pharyngalisiert, worauf das Tilden-Diakritikum verweist (z. B. real [rɪəɫ], all [ɔːɫ], cool [kuːɫ], help [heɫp]). Bei der velarisierten Realisierungsform wird während der zentralen Verschlussbildung im vorderen Bereich zusätzlich der Zungenrücken zurückgezogen und teils angehoben (vgl. Sproat & Fujimura 1993); es handelt sich hierbei um eine Sekundärartikulation. 152 4 Konsonanten und Vokale <?page no="154"?> Abb. 51: Segmentierte und etikettierte Oszillogramm- und dazugehörige Sonagrammdarstellung der Äußerungen sollen (links) und sonnen (rechts). Sekundärartikulation beschreibt in der Phonetik die parallele, jedoch schwächer ausgeprägte Beteiligung eines zweiten Organs an der Artikulation eines Sprach‐ lauts. Neben der parallelen Anhebung des Zungenrückens (Velarisierung, [ ̰] bzw. [ˠ]) ist u. a. auch die des Zungenblatts möglich (Palatalisierung, [ʲ]), das Zurück‐ ziehen der Zungenwurzel (Pharyngalisierung, [ˤ]) sowie die Rundung der Lippen (Labialisierung, [ʷ], vgl. 4.2.4, s. 4.5). Sprachen mit hellem und dunklem / l/ scheinen zudem auch zu Unterschieden beim Ort des Zungenspitzenverschlusses zu neigen: während der Verschluss bei der hellen Variante oft am Alveolarfortsatz gebildet wird, so ist er bei der velarisierten Variante oft etwas weiter vorn im dentalen Bereich (Recasens & Espinosa 2005). In anderen Varietäten des Englischen wiederum, wie etwa die amerikanische Standardvarietät (Engl. General American English), ist die velarisierte Variante dominanter und kann in allen Positionen vorkommen (Cruttenden 2001: 204; Wells 1982: 490). Auch im deut‐ schen Sprachraum ist die velarisierte Oberflächenrealisierung eines / l/ anzutreffen: im Wiener Dialekt hat sich die komplementäre Verteilung aufgrund des Sprachkontakts zu tschechischen Varietäten herausgebildet (Moosmüller et al. 2016). Obgleich die tschechische Standardvarietät nur den hellen alveolaren Lateral kennt, so kommt die velarisierte Variante in einer Reihe tschechischer Dialekte vor (Dankovičová 1999). 4.2 Pulmonale Konsonanten 153 <?page no="155"?> Kategoriale vs. graduelle Unterschiede Inwiefern die Unterscheidung zwischen den Allophonen [l] und [ɬ] in diesen Varietäten kategorial (wie bei [ç] und [x] im Deutschen) oder graduell ist, wurde immer wieder diskutiert. Experimentalphonetische Studien haben gezeigt, dass der Unterschied eher graduell und vor allem phonetisch vorhersagbar ist (z. B. Sproat & Fujimura 1993): Aufgrund zeitlicher Unterschiede in der Sekundärartiku‐ lation (Browman & Goldstein 1995) und der Koartikulation mit Umgebungslauten dominiert die velarisierte Realisierung in postvokalischer Position (mehr dazu in 4.5). Dabei kann während der Produktion die Zungenspitzengeste gänzlich von der Zungenrückengeste überlagert werden (Scobbie & Pouplier 2010, vgl. 2.4). Das kann wiederum zur Vokalisierung des / l/ führen, so etwa im Mittelbairischen, wo das deutsche Wort Tal als [dɔɪ] realisiert wird, d. h. mit einem Vokal am Wortende anstelle eines Laterals (Wiesinger 1990). Das Albanische weist eine typologisch seltene phonologische Opposition zwischen dem alveolaren und dem velarisierten Lateral auf, z. B. pula [pula] ‚Hühner‘ vs. pulla [puɫa] ‚Briefmarken‘ (Moosmüller et al. 2016). Es gilt dabei zu beachten, dass es sich auch im Albanischen nicht um einen velaren Lateral, sondern um einen velarisierten alveolaren Lateral handelt. Eine Sprache, in der der velare Lateral vorkommt, ist die Trans-Neuginea-Sprache Melpa, z. B. [paʟa] ‚Zaun‘ (Ladefoged 2005). Velare Laterale gelten aber als selten. Als Beispiel für eine weitere Artikulationsstelle innerhalb dieses Konstriktionstypen sei der palatale Lateral / ʎ/ genannt, der u. a. in mehreren romanischen Sprachen vorkommt und eine phonemische Opposition mit dem alveolaren Lateral bildet (z. B. Italienisch: figlio [fiʎʎo] ‚Sohn‘, wobei der Lateral geminiert ist, vgl. 4.2.1.2). 4.3 Vokale Vokale werden mit Stimmlippenschwingung und ohne Enge im Ansatzrohr gebildet, sodass der Luftstrom ungehindert entweichen kann und in quasiperiodischen Signalen resultiert. 154 4 Konsonanten und Vokale <?page no="156"?> Abb. 52: Vokaltrapez des IPA mit Beschreibung der Parameter Zungenhöhe bzw. Öffnungsgrades (ver‐ tikal) und Zungenposition (horizontal). Unter ansonsten gleichen Bedingungen werden Vokale rechts eines Punktes mit Lippenrundung und Vokale links eines Punktes ohne Lippenrundung produziert. Im IPA werden Vokale getrennt von den Konsonanten im sogenannten Vokaltrapez (auch Vokalviereck oder Vokaldreieck, Engl. vowel quadrilateral) dargestellt. Auch wenn das Vokaltrapez des IPA zur Beschreibung von Vokalen inzwischen etabliert ist, so darf die artikulatorische Lokalisierung von Vokalen innerhalb dieses abstrakten, geometrischen Artikulationsrahmens nur als idealisierte Annäherung des Bereichs im Vokaltrakt betrachtet werden, in dem ein Vokal realisiert wird (s. auch Ladefoged & Johnson 2011: 220). Mitunter entscheidender ist die auditive Qualität eines Vokals. Das Vokaltrapez des IPA umspannt in abstrakter Form die peripheren Punkte des Raumes im Vokaltrakt (International Phonetic Association 1999: 11 f.), innerhalb dessen wir Vokale produzieren bzw. Laute als Vokale auditiv wahrnehmen. Die Akustik-Arti‐ kulations-Beziehung wird in 4.3.1 unten näher beschrieben; für den Moment können wir uns diesen Raum durch die Begrenzung der Vokale / i/ wie in die, / u/ wie in du und / a/ wie in da, auch Eckvokale genannt, vorstellen. Bewegt man die Zunge bei gleichzeitiger und monotoner Grundtonerzeugung (vgl. 2.3.1, 3.2.1) innerhalb dieses artikulatorischen Raumes kontinuierlich hin und her, erzeugt man graduelle, auditiv wahrnehmbare Vokalunterschiede. Ein solch gradueller Übergang zwischen Lautka‐ tegorien ist bei vielen Konsonanten auch innerhalb eines Konstriktionstyps nicht möglich (z. B. bei Plosiven). Der Zusammenhang zwischen der Form des Vokaltrapezes und der Artikulation einerseits sowie der auditiven Perzeption andererseits wird in diesen Abschnitten genauer behandelt. 4.3 Vokale 155 <?page no="157"?> Ungeachtet der unterschiedlichen Präsentationsform werden auch Vokale mithilfe von drei Hauptbeschreibungsparameter klassifiziert, die sich jedoch von denen der Konsonantenbeschreibung unterscheiden. Diese sind im IPA Zungenhöhe bzw. Öffnungsgrad entlang der vertikalen Achse des Vokaltrapezes, Zungenposition entlang der horizontalen Achse und Lippenrundung mittels Links-/ Rechts-Plat‐ zierung eines Symbols um einen Punkt im abstrakten zweidimensionalen Vokal‐ raum (Zungenhöhe × Zungenposition). Vokale sind - abgesehen von den üblichen Möglichkeiten zur Entstimmung - grund‐ sätzlich stimmhaft, weswegen der Parameter der Phonation bei der Vokalbeschreibung redundant ist. Das bedeutet: Wenn nicht anders angegeben, gilt ein Vokal als stimmhaft. Lippenrundung hingegen, die in der Konsonantenbeschreibung optional ist (vgl. (post-)alveolare Frikative in 4.2.4), wird nun obligatorisch. Insbesondere im Deutschen spielt die Lippenrundung eine besonders wichtige funktionale Rolle. Doch schauen wir uns zunächst die beiden anderen Parameter an. Abb. 53: Schematische Darstellung der Artikulation eines [i] wie in die (links), eines [u] wie in du (Mitte) und eines [aː] wie in da (rechts) nach MRT-Aufnahmen einer Sprecherin (obere Reihe). Sonagramm‐ darstellungen der Vokale, jeweils als Einzellaut von einer Sprecherin produziert (untere Reihe). Die Pfeile markieren die Position von F1 (unterer Pfeil) und F2 (oberer Pfeil). Die Zungenhöhe beschreibt die vertikale Position der Zunge im Vokaltrakt während der Vokalproduktion (s. Abb. 53). Die Vertikallage lässt sich auch in Form des Öffnungsgrades zwischen Zunge und Oberkiefer beschreiben, wobei der Öffnungsgrad größer ist, wenn die Zungenhöhe niedrig ist. 156 4 Konsonanten und Vokale <?page no="158"?> Diese artikulatorische Definition ist weitverbreitet, aus phonetisch-artikulatorischer Perspektive jedoch problematisch, da die Zungenvertikallage artikulatorisch variieren und die Zungenhöhe insbersondere bei Berücksichtigung vieler zugrundeliegender Vokalphoneme wie im Deuschen (s. 4.3.2) nur annähernd bestimmt werden kann (z. B. Ladefoged 1971, Kohler 1995: 66). Ladefoged & Johnson (2011: 220) ziehen daher den Begriff Vokalhöhe (anstelle von Zungenhöhe) vor, der die im Vergleich zur Artikulation auditiv-akustisch besser erfassbare Vokalqualität beschreibt (s. u. und 4.3.2). Aufgrund der möglicherweise überzogenen Kritik an (Fischer-Jørgensen 1985: 81) und der ohnehin weiten Verbreitung der artikulatorischen Definition, auch in Büchern, auf die hier immer wieder Bezug genommen wird (z. B. Jones 1969, Pompino-Marschall 2009, Hall 20011, Kleiner & Knöbl 2015), folgen wir jedoch der Einfachheit halber in diesem Buch ebenfalls der artikulatorischen Definition. Zungenhöhe kovariiert zudem mit dem Öffnungsgrad des Unterkiefers (Lindblom & Sundberg 1969), auch wenn der Grad der Kovarianz umstritten und immer wieder Ge‐ genstand empirischer Untersuchungen ist (vgl. Mooshammer et al. 2007: 146). Generell gilt, je weiter der Kiefer geöffnet, desto niedriger liegt auch die Zunge im Mundraum. Bei [i] und [u] ist der Zungenrücken wie auch der Unterkiefer angehoben, bei [a] hingegen nicht. Bereits Sweet (1890) verwies jedoch darauf, dass Zungenhöhe und Kieferöffnung nicht zwangsläufig gekoppelt sein müssen und voneinander abhängig sind. Dies zeigen auch zahlreiche sogenannte Beißblockexperimente (z. B. Lindblom et al. 1979), die mit folgender Übung zudem leicht nachgemacht werden können: Fixiert man den Zeigefin‐ ger einer geballten Faust (der Beißblock-Ersatz) mit den Ober- und Unterzähnen und pro‐ duziert dann währenddessen die Vokale [i], [u] und [a], so muss man u.-a. sehr viel stär‐ ker mit der Zunge arbeiten, um auditiv ähnliche Lautkategorien zu artikulieren. Das IPA verwendet Begriffe, die den Öffnungsgrad (in diesem Fall zwischen Zunge und Oberkiefer) und nicht die Zungenhöhe beschreiben: geschlossen (Engl. close), halbgeschlossen (Engl. close-mid), halboffen (Engl. open-mid) und offen (Engl. open). Für jede dieser Kategorien gibt es die folgenden Entsprechungen, die sich auf die Zungenhöhe beziehen. Demnach sind • geschlossene Vokale = hohe Vokale, • halbgeschlossene Vokale = halbhohe Vokale, • halboffene Vokale = halbtiefe Vokale, • offene Vokale = tiefe Vokale. Öffnungsgrad und Zungenhöhe sind also bedeutungsgleich. Im Folgenden werden bis auf wenige gezielte Ausnahmen der Begriff Zungenhöhe und die dazugehörigen Attribute (hoch, tief, etc.) verwendet, auch weil die Attribute teils als distinktive Merkmale genutzt werden (s. 5.1.4.1). Ein akustischer Effekt, der von der Zungenhöhe abhängt, ist die intrinsische Vokaldauer: Je tiefer die Zungenhöhe, desto länger die Vokaldauer (s. Abb. 54). Die Gründe hierfür sind u. a. physiologisch: Für die Artikulation tiefer Vokale wird im Vergleich zu hohen Vokalen mehr Zeit benötigt. 4.3 Vokale 157 <?page no="159"?> Abb. 54: Verteilung der in Datenbank_2_emuDB gemessenen Vokaldauern in ausgewählten Wörtern mit zugrunde liegenden hohen ([iː], [yː], [uː]), halbhohen ([eː], [øː], [oː]), halbtiefen ([ɛː]) und tiefen ([aː]) Vokalen (jeweils der erste Vokal), je dreimal produziert von 10 Sprecher: innen des Standarddeut‐ schen. Zur Vokallänge und Verwendung von [ː] s. S. 175f. Die Zungenposition oder auch -lage beschreibt die horizontale Position des höchsten Punktes der Zunge, genauer des Zungenrückens, im Mundraum, wobei drei Positionen bestimmt werden können: vorne wie bei [i], zentral wie bei [a] im Deutschen und hinten wie bei [u] (vgl. Abb. 52). Auch diese artikulatorische Definition ist umstritten, da der höchste Punkt der Zunge nicht immer zu identifizieren ist und damit auch nicht dessen horizontale Position im Vokaltrakt (vgl. z. B. Kohler 1995: 66). Aber auch hier folgen wir aus den o. g. Gründen der artikulatorischen Definition, die insbesondere mit Blick auf die wenigen und sehr unterschiedlichen Eckvokale in Abb. 53 nachvollziebar ist. Bei vorderen Vokalen ist der höchste Zungenpunkt im prädorsalen Bereich nahe des Palatums zu verorten, bei hinteren Vokalen befindet sich der höchste Zungenpunkt ebenfalls nahe des Palatums, allerdings bildet hier nun der postdorsale Bereich den höchsten Punkt. Bei Zentralvokalen wie [a] im Deutschen liegt der höchste Zungenpunkt entlang dieser horizontalen vorne-hinten-Dimension dazwischen. Allerdings lässt sich bei einer tieferen Zungenhöhe der höchste Zungenpunkt noch schwerer lokalisieren als bei einem hohen Vokal (vgl. Abb. 53 und Ladefoged 1972), was einmal mehr die problematische Vokallokalisation anhand artikulatorischer Parameter aufzeigt. Die Eckvokale des Deutschen lassen sich also phonetisch wie in (11) gezeigt mit den beiden bereits eingeführten primären IPA-Parametern für Vokale klassifizieren: 158 4 Konsonanten und Vokale <?page no="160"?> 34 Siehe z.-B. International Phonetic Association (1999: 11) oder unter http: / / www.coli.uni-saarland.de/ elau t/ vokale.htm (abgerufen am 05.04.2022, 17: 15 Uhr). (11) [i] hoher, vorderer Vokal - [u] hoher, hinterer Vokal - [a] tiefer, zentraler Vokal An dieser Stelle sei darauf verwiesen, dass in (11) explizit die orthographisch durch ⟨a⟩ repräsentierten Laute des Standarddeutschen beschrieben werden (s. 4.3.2 Abb. 60). Der im Vokaltrapez des IPA angegebene Laut [a] entspricht hingegen einem offenen, vorderen Vokal. Auch die tiefen, zentralen Sprachlaute des Deutschen fallen in die Kategorie Eckvokal, da, wie wir in 4.3.2 sehen werden, der Vokalraum des Deutschen eher einer Dreiecksform als einem Trapez ähnelt. Auf die zwischen den hohen und tiefen Eckvokalen liegenden halbgeschlossenen bzw. halboffenen Vokale wird in 4.3.1 genauer eingegangen. In vielen Lehrmaterialen findet sich zum besseren Verständnis des Zusammenhangs zwischen der Vokalbeschreibung des IPA und der Vokalartikulation eine überlagerte Darstellung des Vokaltrapezes vor dem Hintergrund des Vokaltraktes mit verschiedenen Zungenpositionen, die gleichzeitig die Eckvokale markieren. Auf eine solche Darstellung 34 wird hier bewusst verzichtet, da nicht der Eindruck vermittelt werden soll, es handele sich um eine direkte Abbildung der Vokalartikulation im Vokaltrapez. Das Vokaltrapez repräsentiert den Vokalraum nur abstrakt und die Beziehung zwischen der Artikulation und Akustik ist nicht linear. Realisiert man die im Vokaltrapez angegeben Vokale und markiert die Lage des höchsten Zungenpunktes in einem zweidimensionalen - je nach Methode - akustischen oder artikulatorischen Raum, so wird man feststellen, dass diese Punkte sich nicht in der gleichen Linearität und mit den gleichen Abständen über den Vokalraum verteilen, wie es im Vokaltrapez angedeutet ist. Wie es zu den gleichen Abständen in der Trapez-Darstellung kommt, wird in 4.3.1 besprochen; wie eine Verteilung im akustischen Raum ausschauen kann, wird in 4.3.2 gezeigt. Stattdessen soll hier der Zusammenhang zwischen den beiden bisher eingeführten Vokalbeschreibungsparametern und deren akustischer Ausprägung aufgezeigt werden, wie wir sie mittels Rohrmodellen annähernd schätzen können (vgl. 3.2.2) und wie sie in der unteren Reihe von Abb. 53 dargestellt ist. Auf der akustischen Ebene korreliert die Zungenhöhe mit der ersten Formantfrequenz F1 und die Zungenposition mit der zweiten Formantfrequenz F2, wobei es sich jeweils um eine inverse Korrelation handelt: Je tiefer die Zungenhöhe desto höher F1, je weiter vorne die Zungenposition desto höher F2. Während für hohe, vordere Vokale daher ein tiefer F1, ein hoher F2 und in der Folge eine große F1/ F2-Distanz charakteristisch ist, liegen bei einer hohen, aber hinteren Zungenposition sowohl F1 als auch F2 im niederfrequenten Bereich und sind mitunter nur schwer zu trennen. Ein hoher F1, dessen Band sich gut von der voice bar abhebt, ist charakteristisch für einen tiefen Vokal. 4.3 Vokale 159 <?page no="161"?> Zungenhöhe und Zungenposition sind invers mit den ersten beiden Formantfre‐ quenzen korreliert: F1 steigt mit abnehmender Zungenhöhe, F2 mit Vorverlagerung der Zungenposition. Akustische Analysen von Vokalen, in denen diese in einem F1 × F2-Raum abgebildet werden (s. z. B. Abb. 60), untersützen die Klassifikation der Vokale im Vokaltrapez des IPA entlang der beiden Dimensionen Höhe und Position, was ebenfalls zu deren weiten Verbreitung beiträgt. Mitunter weisen ähnliche Vokale (d. h. nicht die Eckvokale) jedoch eine niedrigere akustische Höhe auf, nicht aber eine niedrigere artikulatorische Zungenhöhe, weswegen Ladefoged & Johnson (2011: 220) den Begriff Vokalhöhe vorziehen. Die artikulatorischen Beschreibungsparameter sind daher nicht als artiku‐ latorisch im engeren Sinne zu betrachten. Auch das Verhältnis der Formantfrequenzen F2 und F3 kann Rückschlüsse über einen Vokal zulassen; dieses Verhältnis wird hier der Einfachheit halber nicht berücksichtigt. Grundsätzlich gilt: Je zentraler der Vokal - sowohl mit Blick auf Zungenposition als auch Zungenhöhe - desto gleichmäßiger ist der Abstand zwischen den ersten drei Formantfrequenzen. Wenden wir uns nun wieder weiteren Vokalbeschreibungsparametern zu: Zur eindeu‐ tigen Beschreibung der Eckvokale und in Sprachen mit verhältnismäßig wenigen Vokalen (z.-B. Spanisch) sind die beiden Parameter Zungenhöhe und Zungenposition ausreichend. Während vordere Vokale (neben o.-g. [i] z.-B. auch [e] wie in Reh) in den meisten Sprachen der Welt mit gespreizten Lippen produziert werden, weisen hintere Vokale (neben o. g. [u] z.-B. auch [o] wie in roh) ebenfalls in den meisten Sprachen der Welt Lippenrundung auf. Die Lippenrundung in [u] ist auch in Abb. 53 gut an den leicht vorgestülpten Lippen zu erkennen. Die Kovariation von Zungenposition und Lippenrundung ist jedoch nicht stark ausgeprägt: Alle Vokale können unabhängig der Zungenhöhe und der Zungenposition mit der jeweils anderen Lippenrundung produziert werden. Aufgrund der daraus resultieren‐ den akustisch-auditiven Unterschiede kann pro Zungenhöhen-Zungenposition-Kombina‐ tion eine weitere Vokalkategorie abgeleitet werden, die in einigen Sprachen, wie etwa dem Deutschen, funktional genutzt wird. Produziert man den Eckvokal [i] nicht mit gespreizten, sondern mit gerundeten Lippen, so entsteht ein Vokal, der etwa dem ⟨ü⟩ in müde entspricht und der im IPA durch [y] repräsentiert wird. Es bedarf daher des dritten Parameters der Lippenrundung. Lippenrundung beschreibt die Form der Lippen während der Vokalproduktion. Auf der akustischen Ebene bewirkt Lippenrundung aufgrund der Ansatzrohrver‐ längerung u.-a. eine Absenkung von F2 (s. Abb. 55). 160 4 Konsonanten und Vokale <?page no="162"?> 35 Der Einfluss der visuellen Wahrnehmung auf Lautunterschiede im Allgemeinen ist nicht zu unterschätzen und wird in Kapitel 8 Sprachperzeption näher beschrieben. Die o. g., im Deutschen vorkommenden Vokale [i, y, u] werden also genauer wie in (12) dargestellt, unter Berücksichtigung von drei primären IPA-Parametern für Vokale: (12) [i] hoher, vorderer, ungerundeter Vokal - [y] hoher, vorderer, gerundeter Vokal - [u] hoher, hinterer, gerundeter Vokal Alle Vokale, die sich innerhalb dieser drei Parameter unterscheiden, werden im IPA durch ein eigenes Symbol repräsentiert. Links angeordnete Symbole verweisen auf Vokale, die mit gespreizten Lippen, rechts angeordnete Symbole auf Vokale, die mit Lippenrundung artikuliert werden. Laut der eigentlichen IPA-Klassifikation in (13) ist / a/ demnach ein: (13) [a] tiefer, vorderer, ungerundeter Vokal Mit abnehmender Zungenhöhe fällt der phonetische Unterschied zwischen gerundeten und ungerundeten Vokalen jedoch geringer aus. Dies kann man sehr leicht etwa beim eigenen Spiegelbild beobachten: Bei einem weiter geöffneten Unterkiefer wie bei tiefen Vokalen ist der artikulatorische Unterschied in der Lippenrundung nicht nur akustisch, sondern auch optisch 35 weniger gut wahrnehmbar als bei hohen bzw. geschlossenen Vo‐ kalen, weswegen viele Sprachen bei tiefen Vokalen keine phonemische Opposition in der Lippenrundung aufweisen und die Lippenrundung nicht näher spezifizieren (s. 5.2). Abb. 55: Sonagrammdarstellung des hohen, vorderen, ungerundeten [i] und des hohen, vorderen, ge‐ rundeten [y] geäußert von einer Sprecherin. Die Lage der ersten beiden Formantfrequenzen ist durch Pfeile angezeigt. 4.3 Vokale 161 <?page no="163"?> Auditiv nehmen wir Änderungen entlang der drei artikulatorischen Dimensionen als Änderungen in der Vokalqualität wahr. Auch bei der Platzierung der Vokale im IPA-Vokaltrapez spielen auditive Kriterien eine außerordentlich große Rolle, obwohl die Vokale mittels der drei oben eingeführten artikulatorischen Parameter beschrieben werden. Dies ist in Abschnitt 4.3.1 unten genauer erklärt. Zur eindeutigen Bestimmung weiterer funktional genutzter Vokalkategorien bedarf es neben den drei vokalischen Hauptbeschreibungskriterien weitere Parameter, die je nach Sprache und Funktion obligatorisch sind und durch Diakritika in der Transkrip‐ tion angezeigt werden. Im Deutschen gilt dies etwa für die Vokalquantität. Den Konsonanten ähnlich (vgl. 4.2.1.2) können sich auch Vokale allein in ihrer segmentalen Dauer unterscheiden. Unter sonst gleichen Artikulationsbedingungen (d. h. hinsicht‐ lich der drei o. g. Parameter) kann der tiefe, zentrale Vokal im Deutschen entweder lang wie in Staat / ʃtaːt/ oder kurz wie in Stadt / ʃtat/ sein. Die phonemische Opposition liegt hier allein in der Quantität (vgl. Kohler 1999; Wiese 1996: 21-22), wobei die Länge - wie auch bei Konsonanten - durch das Längensymbol [ː] angezeigt wird. Anhand des deut‐ schen / a/ -Lautes bekommt man eine gute Vorstellung des Quantitätsparameters; bei anderen Vokalen des Deutschen lässt sich neben des Quantitätsunterschieds zusätzlich ein Qualitätsunterschied feststellen, so etwa beim jeweils ersten Vokal im Minimalpaar Miete [miːtə] - Mitte [mɪtə] (vgl. auch Engl. beat [biːt] vs. bit [bɪt]). Im Vergleich zu dem bereits eingeführten langen / i/ ist / ɪ/ im Deutschen (und Englischen) nicht nur kürzer (angezeigt durch die Absenz des Längensymbols), sondern wird auch mit einer etwas tieferen Zungenhöhe und einer leicht zentralisierten Zungenposition realisiert. Dieser Unterschied in der Vokalqualität wird wiederum durch das Kapitälchen / ɪ/ , also einem eigenen Symbol, angezeigt. Die mit der Quantitätsänderung einhergehende Qualitätsänderung wird in der Literatur zur deutschen oder englischen Phonetik und Phonologie oftmals mit dem Parameter Gespanntheit (Engl. tensity oder tenseness) erfasst, wonach ungespannte Vokale wie [ɪ] in bitten mit einer kürzeren Dauer sowie einer zentralisierten Zungenposition und Zungenhöhe realisiert werden als gespannte Vokale wie [i] in bieten. Zentralisiert bedeutet in diesem Fall, dass sich die Position eines Vokals im zweidi‐ mensionalen Vokalraum (Zungenhöhe × Zungenposition) leicht von der Peripherie weg Richtung Zentrum verändert (s. Abb. 58). Darüber hinaus wurde der bis heute kontrovers diskutierte Gespanntheits-Parameter immer wieder mit einer größeren Muskelspannung in Verbindung gebracht, wofür es allerdings nur bedingt empirische Evidenz gibt (vgl. z. B. Raphael & Bell-Berti 1975 für Englisch und Waltl & Hoole 2008 162 4 Konsonanten und Vokale <?page no="164"?> für Deutsch; zur Methode s. Onlinekapitel ‚Artikulatorisch-sprechphysiologische Sig‐ nalphonetik‘). Auf die Bedeutung der Vokalquantität im Standarddeutschen wird in 4.3.2 sowie in Kapitel 6 noch genauer eingegangen. Sprachen mit einer reinen Vokalquantitätsopposition sind wiederum Finnisch (kota [kota] ‚Samenkapsel (bot.), Samenzelt’ vs. koota [koːta] ‚zusammenstellen, versammeln’) und Estnisch (vilu [vilu] ,kühl’ vs. viilu [viːlu] ,der Scheibe‘ (Sg. Genitiv), wobei die graphemische Doppelung wie auch bei Konsonanten Länge anzeigt und das Estnische wiederum die dritte überlange Quantitätsstufe aufweist (viilu [viːːlu] ‚die Scheibe‘, Sg. Partitiv), um zusätzliche grammatikalische Funktionen zu markieren (vgl. Asu & Teras 2009: 370). Mit Blick auf germanische Sprachen wie Deutsch oder Englisch werden die Parameter Quantität und Gespanntheit aufgrund der Kovariation von Quantität und Qualität mitunter synonym verwendet, auch wenn diese - wie wir in 4.3.2 unten sehen werden - nicht zwangsläufig gekoppelt sein müssen. Unter Berücksichtigung dieser beiden zusätzlichen Parameter lautet die IPA-Klassifikation für die folgenden sprachunabhängigen IPA-Symbole demnach wie in (14) gezeigt: (14) [i] hoher, vorderer, ungerundeter, gespannter Vokal - [iː] hoher, vorderer, ungerundeter, gespannter, langer Vokal - [ɪ] hoher, vorderer, ungerundeter, ungespannter Vokal Es gilt also die im Vokaltrapez aufgelisteten Vokale zunächst mit einer einheitlichen Dauer zu lesen, auch wenn einem das als Sprecher: in einer Sprache wie dem Deutschen womöglich ungewöhnlich erscheint (s. 4.3.1). Ein ebenfalls an die Dauer gekoppelter Vokalparameter beschreibt die mögliche dynamische Veränderung der Vokalqualität über die Zeit. Die bislang beschriebenen Vokale entsprechen sogenannten Monophthongen, die ungeachtet der segmentalen Dauer (und Koartikulation, s. 4.5) eine auditiv gleichbleibende Vokalqualität aufweisen. Monophthonge können kurz (z. B. in Mitte, Stadt) oder lang (z. B. in Miete, Staat) sein. Innerhalb der Lautklasse der Langvokale kann es aber auch sogenannte Diphthonge geben, deren Vokalqualität sich im Verlauf der Vokaldauer akustisch-auditiv deutlich ändert. In Wörtern wie Streit [ʃtʁaɪ̯t] oder meiden [maɪ̯dən] etwa geht der (erste) Vokal von einer zu Beginn tiefen, zentralen Vokalqualität in eine höhere, vordere Vokalqualität über, wie auch an den deutlich sichtbaren Formantfrequenzänderungen im Diphthong in Abb. 56. zu erkennen (vgl. auch das Beispielwort Maiers in 3.1.2.2). Monophthonge weisen eine gleichbleibende Vokalqualität auf, Diphthonge eine sich verändernde Vokalqualität. 4.3 Vokale 163 <?page no="165"?> 36 Aufgrund der über die Zeit abnehmenden Vokalstärke werden diese Diphthonge auch als fallend bezeichnet. Dem gegenüber stehen die typologisch selteneren sogenannten steigenden Diphthonge, z. B. Rumänisch / be̯at/ ,betrunken‘. Im Rahmen der Beschreibung steigender Diphthonge wird jedoch immer wieder diskutiert, ob es sich dabei wirklich um Diphthonge handelt (Chitoran 2002). Abb. 56: Die Monophthonge [iː] in mieden (links) und [aː] in Maden (Mitte) sowie der Diphthong [aɪ] in meiden (rechts) mit den nachgezeichneten Formantfrequenzen F1 (unten) und F2 (oben). Entscheidend ist, dass sich die Änderung innerhalb eines Lautes vollzieht, es sich also nicht um zwei aufeinanderfolgende Vokale handelt, auch wenn wie hier in den deutschen Beispielen die Änderung in der Vokalqualität durch zwei Grapheme repräsentiert wird. Ähnlich den Affrikaten (vgl. 4.2.5) wurde immer wieder diskutiert, ob es sich bei den Diphthongen des Deutschen um ein oder zwei Laute handelt (vgl. Werner 1972: 32-35). Im Gegensatz zu Affrikaten werden sie inzwischen jedoch in der Regel nicht nur als phonetische, sondern auch phonologische Einheit betrachtet, auch wenn das IPA für Diphthonge zwei Symbole verwendet. Das erste Symbol markiert dabei den Ausgangspunkt und das zweite den Zielpunkt. Die Zusammengehörigkeit wird mittels des Diakritikums [ ̯] unter dem Symbol angezeigt, das die weniger dominante Vokalqualität markiert. In der Regel ist dies der zweite Teil des Diphthongs. 36 Da sich die Dominanz eines Vokalteils nicht immer eindeutig bestimmen lässt, wird das Diakritikum in der Transkription mitunter weggelassen oder die segmentale Zusammengehörigkeit durch den beide Vokalsymbole überspannenden Ligaturbogen [ ͡ ] angezeigt. Bei [aɪ̯] handelt es sich darüber hinaus um einen sogenannten schlie‐ ßenden Diphthong, da der Öffnungsgrad während der Vokalrealisierung abnimmt (d. h. die Zungenhöhe nimmt zu). Bei öffnenden Diphthongen hingegen wird der Öffnungsgrad größer, d. h. die Vokalqualität ändert sich von einer hohen zu einer tiefen Zungenhöhe wie etwa in der britischen Standardaussprache des englischen Wortes ear [ɪə̯]. Die artikulatorischen Zielpositionen werden dabei nicht ganz erreicht, und auch die Ausgangspositionen entsprechen in der Regel nicht ganz den monophthongalen Gegenstücken (s. 4.3.2). Einschließlich dieses Parameters lauten die präzisen Vokalklas‐ sifikationen für die folgenden Vokale des Deutschen also wie in (15) angegeben: 164 4 Konsonanten und Vokale <?page no="166"?> (15) [iː] hoher, vorderer, ungerundeter, gespannter, langer Monophthong - [aː] tiefer, zentraler, ungerundeter, gespannter, langer Monophthong - [aɪ̯] von einer zentralen zu einer vorderen Zungenposition schließender Di‐ phthong Die Benennung der Quantität ist bei Diphthongen i. d. R. redundant, da sie häufig Langvokalen entsprechen. Viele Sprachen nutzen auch diesen Parameter funktional; Beispiele für deutsche Minimalpaare, die sich nur hinsichtlich der Absenz bzw. Präsenz von Diphthongierung unterscheiden finden sich in Abschnitt 4.3.2 unten. Eine Sprache mit sehr vielen Diphthongen (genauer elf) ist Kantonesisch (Zee 1999). Entscheidend für die Klassifikation von Lauten als Diphthong ist immer die Zuge‐ hörigkeit beider Vokalabschnitte zu einer Silbe wie etwa in Streit (s. Kap. 6). Werden wie in Ruin [ruʔiːn] zwei vokalische Segmente durch eine Silbengrenze unterbrochen, im Deutschen durch den Glottalverschluss markiert, handelt es sich um einen Hiat(us), einen Zusammenstoß entweder zweier Monophthonge (z. B. Theater) oder auch eines Diphthongs mit einem Monophthong (z.-B. Bauer). Ein weiterer Parameter zur Vokalklassifikation ist die Nasalierung, die die Position des Velums während der Vokalartikulation beschreibt. Vokale können grundsätzlich immer dann nasaliert werden, wenn sie bei ansonsten gleichen Bedingungen für die Vokalproduktion mit gesenktem Velum realisiert werden. Das Diakritikum, das in der Transkription für Nasalierung verwendet wird, ist die Tilde [~]. Französisch (z. B. mode [mɔd] ‚Mode‘ - monde [mɔ̃d] ‚Welt‘) und Portugiesisch (z. B. sou [so] ‚ich bin‘ - som [sõ] ‚Laut‘) sind nur zwei Beispielsprachen, in denen Vokalnasalierung funktional genutzt wird, wie die jeweiligen Minimalpaare zeigen. Auch im Deutschen kommt Nasalierung vor, z.-B. in französischen Lehnwörtern wie Restaurant [rɛstorɑ̃ː], Balkon [balkɔ̃ː], Cousin [kuzɛ̃ː], aber auch in deutschen Wörtern wie Mann oder nun, in denen der Vokal zwischen Nasalen eingebettet ist. Während die Nasalierung in Lehnwörtern aber bei entsprechender Realisierung noch auditiv wahrnehmbar ist, so hören wir sie in Wörtern wie Mann oder auch Realisierungsformen wie [balkɔŋ] aufgrund der fehlenden phonemischen Funktionalität im Deutschen nicht heraus. Sowohl die artikulatorischen Gründe für die kontextuell bedingte Nasalierung in deutschen Wörtern als auch unsere „Taubheit“ dafür werden in 4.5 und in 8.3.2.3 näher erläutert. 4.3 Vokale 165 <?page no="167"?> Abb. 57: Segmentierte Sonagramme der Äußerungen nun (links) und tut (rechts) von einer Sprecherin. Die durchgehende Nasalierung in nun ist gut am abgeschwächten Spektrum oberhalb des stark aus‐ geprägten F1 zu erkennen. In tut hingegen ist F2 ähnlich stark ausgeprägt wie F1. Darüber hinaus gibt es weitere Parameter zur Vokalbeschreibung, z. B. zur Notation von r-Färbung von Vokalen in englischen Varietäten (z. B. amerikanisches Englisch, vgl. Ladefoged & Johnson 2011) oder zu bestimmten Stimmqualitäten wie Knarrstimme oder Behauchung, die in einigen Sprachen auch funktional genutzt werden (vgl. 2.3.1). 4.3.1 Das System der Kardinalvokale Ein Großteil der im IPA-Vokaltrapez dargestellten Vokale entspricht sogenannten Kardinalvokalen (daher auch Kardinalvokalsystem). Das System der Kardinalvokale geht auf den englischen Phonetiker Daniel Jones (1881-1967) zurück, der sich dem schon früher etablierten Konzept der Kardinalpositionen bediente und sie durch Modellrealisierungen zusammen mit der heute gängigen Vokalbeschreibung mittels der in Abschnitt 4.3 vorgestellten Parameter ab 1917 etablierte und weiterentwickelte. Modellrealisierung bedeutet, dass die von Daniel Jones eingesprochenen Kardinalvo‐ kale seit mehr als 100 Jahren der phonetischen Ausbildung dienen, ohne die die heutige Beschreibung von Vokalen undenkbar wäre. Diese Modellrealisierung spielt insofern eine entscheidende Rolle, da Kardinalvokale einerseits sprachunabhängigen Referenz‐ vokalen entsprechen und andererseits zunächst auditiv ermittelt werden müssen, bevor sie in einem zweiten Schritt mit den in 4.3 vorgestellten artikulatorischen Parametern beschrieben werden können. Die in den Sprachen der Welt tatsächlich vorkommenden Vokale werden dann mit Bezug auf diese Kardinalvokale klassifiziert. Ein Beispiel dafür ist etwa die Beschreibung der Vokale des Deutschen in 4.3.2. Einzelne sprachspezifische Vokale können dabei Kardinalvokalen durchaus akustisch-auditiv ähneln, auch wenn der Grad der Ähnlichkeit teilweise unterschiedlich bewertet wird. Entscheidend ist, dass man die Vokale einer Sprache nur mit Bezug auf die Kardinalvokale beschreiben kann, wenn man die auditive Qualität der Referenzvokale kennt. Dabei darf man sich nicht von den Vokalen der eigenen Muttersprache leiten lassen. Die Beschreibung von Vokalen mittels des Kardinalvokalsystem ist vielfach kritisiert worden (vgl. den Überblick in Fischer-Jørgensen 1985). Da es aber der Vokalbeschreibung im IPA 166 4 Konsonanten und Vokale <?page no="168"?> 37 Ungerundet bezieht sich sowohl auf die Lippenstellung gespreizt als auch neutral (International Phonetic Association 2010: 306), da bei tiefen Vokalen der Lippenrundungskontrast schwächer ausfällt als bei hohen Vokalen (vgl. 4.3). zugrundeliegt und dementsprechend weitverbreitet ist, soll es hier genauer vorgestellt werden, auch unter Bezugnahme von Zitaten aus Jones (1969). Das System der Kardinalvokale umfasst zunächst acht sogenannte primäre Kar‐ dinalvokale (im Kontext bestimmter Vokale nachfolgend mit KV abgekürzt): [i] (KV1), [e] (KV2), [ɛ] (KV3), [a] (KV4), [ɑ] (KV5), [ɔ] (KV6), KV7 [o] (KV6) und [u] (KV8). Ein Teil der Symbole wurde in 4.3 der besseren Verständlichkeit halber bereits mit Bezug auf das Deutsche beschrieben. Von diesem Sprachbezug gilt es sich jedoch mit Blick auf die akustisch-auditive Qualität der Kardinalvokale zu lösen. So unterscheidet sich die Vokalqualität des ersten Vokals in Vater stark von der Vokalqualität des KV4, obwohl dieser zur Transkription des offenen Vokals im Deutschen herangezogen wird (s. 4.3.2). Auch hinsichtlich des Parameters Quantität sind Vergleiche mit dem Deut‐ schen nicht zielführend: Es handelt sich bei den primären Kardinalvokalen weder um dezidiert lange noch um kurze Vokale. Entscheidend sind zunächst nur die Parameter Zungenhöhe, Zungenposition und Lippenrundung. KV1-KV4 entsprechen vorderen, KV5-KV8 hinteren Vokalen, KV1-KV5 ungerundeten und KV6-KV8 gerundeten Vokalen. KV5 bildet also eine Ausnahme mit Blick auf die Kombination von Zungen‐ position und Lippenrundung. 37 Grund hierfür ist, dass die Lippenstellung der primären Kardinalvokale der entspricht, die häufiger mit einer bestimmten Zungenposition und -höhe einhergehen (International Phonetic Association 2010: 306; Cruttenden 2001: 35). Nur zwei der primären Kardinalvokale werden artikulatorisch bestimmt: KV1 und KV5 ( Jones 1969: 31). Bei KV1 ist die Zunge so hoch wie möglich und der höchste Punkt der Zunge so weit vorne wie möglich, ohne dass bei der Lauterzeugung Reibung entsteht (International Phonetic Association 1999: 10, 12); die Lippen sind gespreizt. Dies kommt nah an eine extreme Realisierung des / iː/ im Standarddeutschen wie in Biene heran ( Jones 1969: 35). Bei KV5 ist die Zungenposition weitest möglich hinten und die Zungenhöhe am tiefsten (International Phonetic Association 1999: 11, 12); die Lippen sind ungerundet. Auf der akustisch-auditiven Ebene kommt die Realisierung von ⟨a⟩ wie in Saat und satt in der österreichischen Aussprache des Standarddeutschen nah an KV5 heran (vgl. Moosmüller et al. 2015: 342). 4.3 Vokale 167 <?page no="169"?> 38 Während Jones (1969: 32) von akustischer Trennung spricht, bezeichnen Kohler (1995) sowie Ladefoged und Johnson (2011) die Abstände als äquidistant auf der auditiven Ebene. Entscheidend ist, dass die Kardinalvokale nicht auf der Grundlage akustischer Messungen der ersten beiden Formantfrequenzen, sondern ohrenphonetisch festgelegt werden. Dass die auditiv ermittelten äqui‐ distanten Schrittbreiten aber durchaus mit akustischen äquidistanten Schrittbreiten übereinstimmen können, haben frühe Syntheseexperimente gezeigt (z. B. Delattre et al. 1951; vgl. auch Kohler 1995: 68-69). Die artikulatorisch ermittelten KV1 und KV5 kann man sich nun als Endpunkte eines akustisch-auditiven Kontinuums vorstellen, das man selbst produzieren kann, in dem man ausgehend von KV1 die Zungenhöhe zusammen mit dem Unterkiefer absenkt und dabei automatisch auch die Zungenposition kontinuierlich leicht rückverlagert bis man die Position von KV5 erreicht. Die Lippenstellung ändert sich dabei ebenfalls leicht von einer gespreizten zu einer ungerundeten Stellung (vgl. auch Figure 9.4 in Ladefoged & Johnson 2011: 223). Entlang eines artikulatorisch-akustischen Kontinuums von KV1-5 werden die KV2-4 in akustisch-auditiv 38 äquidistanten Schritten platziert. KV6-8 werden dann ausgehend von KV5 ebenfalls in akustisch-auditiv äquidistanten Schritten entlang eines Kontinuums von tiefen zu hohen Hinterzungenvokalen platziert. Laut Jones (1969) sind dabei die Abstände zwischen KV1-4 einerseits und zwischen KV5-8 andererseits gleich, die Abstände zwischen den hinteren Kardinalvokalen aber insgesamt etwas kleiner als zwischen den vorderen (S. 32), was er mit dem zusätzlichen Einfluss unterschiedlicher Lippenrundungsgrade bei KV5-8 erklärt (S. 33). Während KV1-5 ungerundet sind, nimmt die Lippenrundung von KV6-8 zu (International Phonetic Association 1999: 13). Die acht primären Kardinalvokale markieren die Grenzen des Vokaltrapezes, inner‐ halb dessen die Vokale realisiert werden, die in den Sprachen der Welt vorkommen. KV1 und KV5 werden artikulatorisch ermittelt, die anderen Kardinalvokale auditiv. Die Beschreibung aller Kardinalvokale erfolgt jedoch mit artikulatorischen Para‐ metern. Nach der akustisch-auditiven Bestimmung dieser sechs primären Kardinalvokale wurden diese mittels der in 4.3 oben eingeführten artikulatorischen Parameter Zungen‐ höhe, Zungenposition und Lippenrundung beschrieben, weil einerseits Röntgen-Auf‐ nahmen und daraus abgeleitete Skizzen des Vokaltraktes von Daniel Jones während der Kardinalvokalproduktion vorliegen und weil man laut Jones (1969: 32) das Absenken der Zunge bei der Produktion der KV1-5 introspektiv deutlich bemerken kann. Beide Argumente wurden später unter Berücksichtigung signalphonetischer Analysen von 168 4 Konsonanten und Vokale <?page no="170"?> weiter entwickelten Röntgenaufnahmen teils stark kritisiert; andere Phonetiker: innen betrachteten die Kritik hingegen als überzogen (vgl. Fischer-Jørgensen 1985: 80-85). Es bietet sich an, neben den Konsonanten auch die Vokale artikulatorisch zu beschreiben, weil • Vokale schließlich mit denselben Komponenten des Sprechapparats produziert werden wie Konsonanten, • diese im Gegensatz zur Vielfalt graduell wahrgenommener Vokalunterschiede in wenigen klaren Beschreibungskategorien erfolgen kann (hoch, halbhoch, etc.). Dennoch ist die Überführung von auditiv ermittelten Kategorien in artikulatorische nicht unproblematisch. Einige Gründe erfährt man im Exkurs ‚Kardinalvokale: Äqui‐ distanz in Artikulation und Akustik? ‘ (S. 171). Beim Erlernen der primären Kardinal‐ vokale kann man sich zudem nicht allein auf ihre artikulatorischen Beschreibungen verlassen. The values of cardinal vowels cannot be learnt from written descriptions; they should be learnt by oral instruction from a teacher who knows them. The teacher will impart them to the student by means described in [chapter VII How to learn and describe vowels. …] The student who has not access to a teacher familiar with the cardinal vowels may learn them with fair accuracy by listening over and over again to the [gramophone recordings of the cardinal vowels.]. ( Jones 1969: 34) Von den acht primären Kardinalvokalen werden in einem zweiten Schritt acht weitere sogenannte sekundäre Kardinalvokale abgeleitet, die sich von den primären nur durch die entgegengesetzte Lippenstellung unterscheiden. Bei den sekundären Kardinalvokalen handelt es sich um [y] (KV9), [ø] (KV10), [œ] (KV11), [ɶ] (KV12), [ɒ] (KV13), [ʌ] (KV14), [ɤ] (KV15) und [ɯ] (KV16). KV9 wird also mit exakt der gleichen Zungenhöhe und -position, jedoch mit gerundeten Lippen realisiert. Da KV1 artikulatorisch bestimmt wird, lässt sich auch KV9 gut allein aufgrund der artikulatorischen Beschreibung produzieren. Realisiert man nun KV9 etwa zu Beginn des deutschen Wortes Übung, so bekommt man einen ersten Eindruck von der möglichen Differenz zwischen Kardinalvokalen einerseits und tatsächlich in einer Sprache vorkommenden Sprachlauten andererseits. Im Deutschen ist die Reali‐ sierung von ⟨ü⟩ zentralisierter als die von KV9 (s. 4.3.2). Hört sich der erste Laut in Übung so an, wie man es für eine standarddeutsche Realisierung erwarten kann, dann entspricht diese Realisierung nicht KV9 und man sollte noch einmal KV1 wie oben beschrieben produzieren, bevor man davon ausgehend nur noch die Lippen rundet. Daneben gibt es zwei weitere sekundäre KV, die mit hoher Zunge und zentraler Zungenposition realisiert werden: [ɨ] (KV17, ungerundet) und [ʉ] (KV18, gerundet). Laut Jones (1969: 36) besteht auch die Möglichkeit noch weitere Kardinalvokalpo‐ sitionen im unteren zentralen Bereich des Vokaltrapezes anzusetzen. In den 1949 4.3 Vokale 169 <?page no="171"?> veröffentlichten Principles of the International Phonetic Association, die Jones herausgab, heißt es, für die Transkription einer bestimmten Sprache sei - soweit dies möglich ist - die Verwendung der Symbole für die 18 Kardinalvokale empfohlen. Mittels des zusätzlichen Symbols / ə/ soll jeder ungerundete Vokal beschrieben werden, der sich mittig im Vokaltrapez befindet (International Phonetic Association 2010: 306). Der auch als Schwa bekannte Neutralvokal [ə] wird mit neutraler Vokaltraktkon‐ figuration realisiert und weist laut Jones (1969: 30) eine unbestimmte Vokalqualität auf (z. B. Vokale [vokaːlə]). Per definitionem ist die Distanz jedes Kardinalvokals zu Schwa so groß wie möglich ( Jones 1969: 37). Dass es darüber hinaus zur Beschreibung der in den Sprachen der Welt vorkommenden Vokale ergänzender Vokalkategorien bzw. Vokalsymbole bedarf (auch für das Deutsche, s. 4.3.2), zeigt ein Blick auf das aktuelle Vokaltrapez im IPA in Abb. 52. 1999 wurden zusätzliche Symbole wie etwa [ɪ] und [ʊ] zur Beschreibung ungespannter hoher Vokale in das Vokaltrapez integriert; diese werden jedoch nicht als Kardinalvokale bezeichnet (International Phonetic Association 1999: 13). Ihre Position wird mit ‚nah an hoch‘ bzw. ‚nah an vorne/ hinten‘ beschrieben Auch die Rasterform des Vokaltrapezes wurde im Laufe der Zeit mehrmals revidiert (Ashby 1989). Kardinalvokale dienen der Beschreibung von sprachabhängigen Vokalphonemen; sie selbst sollten nur im Ausnahmefall und unter Berücksichtigung einer sehr kritischen Herangehensweise anhand von Beispielwörtern erklärt werden. [T]o attempt to describe cardinal vowels by means of key-words is to put the cart before the horse. It is the vowels of the ‘key-words’ that should be described with reference to the cardinal vowels. ( Jones 1969: 35) Sprachlaute in Beispielwörtern können u. a. und im Gegensatz zu Kardinalvokalen diachronem Lautwandel unterliegen, sodass sie über die Zeit ihre Rolle als Schlüssel‐ wort verlieren können. Gerade die britische Standardvarietät des Englischen unterlag im ausgehenden 20. Jh. stärkeren diachronen Vokaländerungen (s. z. B. Hawkins & Midgley 2005), sodass sich die von Jones gewählten Beispielwörter möglicherweise heute nicht mehr als Beispielwörter anbieten. Für den Fall, dass man nicht mit den Kardinalvokalen vertraut ist, schlagen Ladefo‐ ged und Johnson (2011: 224) die Verwendung von Vokalen, die in bekannten Sprachen oder auch Dialekten einer Sprache vorkommen, als Referenzpunkte vor, mit denen dann regionale oder auch diachrone Variation mit Bezug auf eine Vergleichssprache beschrieben werden kann. Letztendlich aber ist die Kenntnis der lautlichen Qualität der Kardinalvokale für das phonetische und phonologische Arbeiten unabdingbar. Am Ende des Kapitels findet sich daher ein Link zu online verfügbaren Audioaufnahmen der Kardinalvokale (s. S. 195). 170 4 Konsonanten und Vokale <?page no="172"?> Kardinalvokale: Äquidistanz in Artikulation und Akustik? Ging man zunächst davon aus, dass die auditiv ermittelten Kardinalvokale auch die entsprechende artikulatorische Beschreibung widerspiegelten, so weiß man inzwischen, dass die auditiv äquidistanten Schrittbreiten zwischen den Kardi‐ nalvokalen zwar akustisch äquidistanten Schrittbreiten entsprechen können, nicht aber unbedingt artikulatorischen, zumindest mit Blick auf die Hinterzun‐ genvokale (vgl. Ladefoged 1971: 69). Die nicht lineare Beziehung zwischen der artikulatorischen und der akustisch-auditiven Beschreibungsebene ist typisch für gesprochenen Sprache und steht im Zentrum der Quantaltheorie (vgl. 3.3). Die artikulatorische Beschreibung der auditiv ermittelten Kardinalpositionen im Vokaltrapez des IPA suggeriert jedoch eine Linearität zwischen Artikulation und Akustik, die es so nicht gibt. Kohler (1995: 70) nennt die „Gleichsetzung [artiku‐ latorischer und auditiver Parameter] eine Fiktion“, wenn auch „eine nützliche […] in der praktischen Arbeit des Ohrenphonetikers“. 4.3.2 Die Vokale des Standarddeutschen Beschreibt man die Vokalkategorien einer Sprache, so tut man das unter Ver‐ wendung der im Vokaltrapez am nächsten liegenden bzw. am ähnlichsten klin‐ genden Kardinalvokale und durch Benennung der phonologisch entscheidenden Beschreibungsparameter. Im Deutschen sind dies: Zungenhöhe, Zungenposition, Lippenrundung und Quantität/ Gespanntheit. Lippenrundung ist im Deutschen nur bei nicht tiefen, vorderen Vokalen distinktiv. Aufgrund einer starken Kovarianz zwischen den Parametern Quantität und Gespannt‐ heit ist im Deutschen die Spezifikation eines Parameters ausreichend - vorausgesetzt die genaue Zungenhöhe wird angegeben (vgl. 4.3, s. 5.3). Parameter wie Nasalierung oder Pharyngalisierung müssen nur in bestimmten Fällen benannt werden. Die Vokale einer Sprache werden oftmals direkt im Raster des Vokaltrapezes des IPA platziert. Für das Standarddeutsche liegen u. a. Vokalplatzierungen von Kohler (1995: 174) sowie Kleiner und Knöbl (2015: 34) vor. 4.3 Vokale 171 <?page no="173"?> Abb. 58: Platzierung der Vokale des (nördlichen) Standarddeutsch nach Kohler (1995: 174; links) und nach Kleiner und Knöbl (2015: 34; rechts). Ein Blick auf diese beiden in Abb. 58 dargestellten Systeme verrät, dass sich solche Vokalklassifikation teils deutlich unterscheiden können. Auffällig in Kohlers System ist zunächst die Verortung der im Standarddeutschen vorkommenden Vokale [ɛː] und [oː] auf den entsprechenden Kardinalvokalpositionen. Auch Kleiner & Knöbl (2015) platzieren viele Vokale nah an der Peripherie des Referenzsystem, jedoch in allen Fällen mit einem leichten Abstand. Dies spiegelt wider, dass • die Vokale des Deutschen in der Tat sehr peripher realisiert werden, • Unklarheit darüber herrscht, wie ähnlich die Vokale des Deutschen den Kardinal‐ vokalen akustisch-auditiv in Wirklichkeit sind. Weitere Unterschiede finden sich in der Platzierung der grundsätzlich zentraleren Kurzvokale: Während etwa Kohler [œ] wie in Götter im Vergleich mit KV11 als tiefer als halbtief einstuft, so klassifizieren Kleiner und Knöbl denselben Vokal als etwas höher als halbtief. Trotz teils deutlich unterschiedlicher Platzierungen im Vokaltrapez, verwenden die Autoren jedoch dieselben Symbole des IPA für Vokale (s. z. B. [ʊ]). Mit einer Ausnahme gehen die Autoren beider Beschreibungen von denselben 16 Monophthongen aus; Kleiner und Knöbl (2015) führen lediglich den auch als a-Schwa oder Tiefschwa bezeichneten Vokal [ɐ] wie am Ende von Güter zusätzlich in ihrem System auf. Dessen phonologischer Status sowie der anderer Monophthonge wird im Folgenden noch diskutiert. Eine erneute Platzierung der Vokale des Standarddeutschen im Vokaltrapez des IPA wird in diesem Buch nicht vorgenommen. Stattdessen werden in Abb. 60 gemittelte F1- und F2-Werte für 16 Monophthonge aus der Übungsdatenbank Datenbank_2_emuDB präsentiert; diese werden dann mit den Vokalplatzierungen in Abb. 58 verglichen. 172 4 Konsonanten und Vokale <?page no="174"?> Grundsätzlich gilt es bei der Interpretation jeder Vokalverteilung im Vokaltrapez zu bedenken, dass es sich • bei Platzierungen von Vokalphonemen um Annäherungen an eine oft ohrenpho‐ netisch basierte, teils introspektiv gewonnene Generalisierung und • bei datenbasierten Graphiken um Momentaufnahmen einer Population, die auch von technischen Aspekten abhängt, handelt. Bei offensichtlichen Analyseunterschieden gilt es zu versuchen, die Daten entsprechend zu interpretieren und nicht unbedingt darum, die Fehler in einer Analyse zu finden. Eine mögliche Interpretation der deutlich unterschiedlichen Platzierung von / œ/ in Abb. 58 wäre etwa die Annahme einer größeren Variation, mit der dieser Vokal im Standarddeutschen realisiert werden kann. Bevor jedoch die Vokalanalysen verglichen werden, soll zunächst der Phonemstatus der Monophthonge behandelt werden. Die Zahl der für das Deutschen angenommenen Monophthongphoneme variiert teils stark (vgl. Staffeldt 2010: 87). Lässt man dabei rein phonologische Betrachtungen außer Acht, die Unterschiede in der Quantität/ Gespanntheit unberücksichtigt lassen (z. B. Becker 1998: 162; s. hierzu auch 6.2.3), so schwankt die Zahl um 16, wobei Systeme mit 16 Vokalphonemen am häufigsten sind. Belegwörter für die 16 Monoph‐ thongphoneme, die sowohl Kohler als auch Kleiner und Knöbl auflisten, sind getrennt nach Vokalquantität in Tab. 6 (Langvokale) und Tab. 7 (Kurzvokale) aufgeführt und entsprechend der verwendeten Symbole den jeweiligen artikulatorischen Parametern Zungenhöhe und -position zugeordnet. Alle Belegwörter sind Teil eines Minimalpaares oder einer Minimalreihe (auch tabellenübergreifend), um die Distinktivität der vier o.-g., für das Deutsche relevanten Vokalparameter zu verdeutlichen. - vorne zentral hinten hoch / iː/ bieten, vielen / yː/ Güter, fühlen - - - / u/ guter, booten halb‐ hoch / eː/ beten / øː/ böten, Höhle - - - / o/ boten, hole halbtief / ɛː/ bäten - - - tief - - / aː/ baten, raten - - Tab. 6: Belegwörter für Langvokale (unterstrichen) des Deutschen. Linke Spalten innerhalb einer Zungenpositionskategorie enthalten Belegwörter für ungerundete Vokale, rechte Spalten innerhalb derselben Kategorie Belegwörter für gerundete Vokale. 4.3 Vokale 173 <?page no="175"?> (nah an) vorne zentral (nah an) hinten nah an hoch / ɪ/ bitten, ritten / ʏ/ füllen, Mütter - - / ʊ/ Mutter / ə/ Güte halbtief / ɛ/ betten, retten / œ/ Götter, Hölle - / ɔ/ Botten, Rotten tief - - / a/ Ratten - - Tab. 7: Belegwörter für Kurzvokale (unterstrichen) des Deutschen. Zur Spaltenbelegung innerhalb einer Zungenpositionskategorie s. Tab. 6. Die Bezeichnung ‚nah an‘ trifft auf alle IPA-Symbole zu, für die es keinen Kardinalvokal als Referenzpunkt gibt. / ə/ nimmt eine Sonderstellung ein und ist mit den anderen Kurzvokalen nicht gleichzusetzen. Der Vergleich beider Tabellen zeigt, dass Lang- und Kurzvokale größtenteils Paare darstellen. Nur der Zentralvokal [ə] wird ohne Langvokal-Pendant unter den Kurzvo‐ kalen aufgeführt, obwohl er diesen nicht gleichgesetzt werden darf. Grund für diese Zuordnung ist, dass [ə] ausschließlich in nicht betonten Silben (s. 9.2) vorkommt und daher zur Kürzung neigen sollte (s. aber Abb. 59). Bevor wir einen Blick auf weitere Unterschiede zwischen Lang- und Kurzvokalen werfen, sei anhand von Abb. 59 aufgezeigt, dass im Deutschen zugrunde liegende Langvokale mit einer deutlich längeren Vokaldauer realisiert werden als zugrunde liegende Kurzvokale, vorausge‐ setzt sie weisen beide Wortbetonung auf (so wie [iː] und [ɪ] in bieten vs. bitten, s. Exkurs ‚Quantität und/ oder Gespanntheit‘, S. 176). Dass die Dauern der beiden Schwa-Vokale [ə] und [ɐ] im Schnitt deutlich länger ausfallen, hebt den Unterschied zu den Kurzvokalen hervor und ist in diesem Fall mit der Position zu erklären, in der die beiden Schwas stehen. Die hier analysierten Wörter aus Datenbank_2_emuDB wurden isoliert, d. h. ohne Kontext produziert, sodass [ə] und [ɐ] nicht nur in wort-, sondern auch in äußerungsfinaler Position standen. In dieser Position werden - wie wir in Kapitel 9 sehen werden - Sprachlaute gelängt. Im Deutschen gibt es eine Kovariation zwischen Quantität und Gespanntheit bzw. Zungenhöhe. Darüber hinaus werden nur mit Ausnahme des halbtiefen, vorderen Vokals [ɛ] und des tiefen, zentralen Vokals [aː] die sogenannten Kurzvokale grundsätzlich mit einer anderen Zungenhöhe (und -position) realisiert als die sogenannten Langvokale, was sich anhand der jeweils unterschiedlichen Vokalsymbole ablesen lässt. Die beiden Ausnahmen wiederum zeigen, dass Quantität und Gespannt‐ heit nicht grundsätzlich gekoppelt sein müssen. Mittels der Parameter Zungen‐ höhe, -position, Lippenrundung und Vokalquantität können im Deutschen alle 174 4 Konsonanten und Vokale <?page no="176"?> Abb. 59: Verteilung der in Datenbank_2_emuDB gemessenen Vokaldauern in Wörtern mit zugrunde‐ liegendem Kurzvokal, Langvokal (jeweils erster Vokal) oder einem der beiden Schwa-Laute (jeweils zweiter Vokal), je dreimal produziert von 10 Sprecher: innen des Standarddeutschen. 16 Monophthongphoneme erfasst werden, wie die Klassifikation nach dem IPA von fünf Vokalphonemen in (16) zeigt. (16) / eː/ halbhoher, vorderer, ungerundeter, langer Monophthong - / ɛː/ halbtiefer, vorderer, ungerundeter, langer Monophthong - / ɛ/ halbtiefer, vorderer, ungerundeter, kurzer Monophthong - / aː/ tiefer, zentraler, langer Monophthong - / a/ tiefer, zentraler, kurzer Monophthong Daher wird hier von Lang- und Kurzvokalen anstelle von gespannten und ungespann‐ ten Vokalen gesprochen. In 5.3 werden wir ein phonologisches System kennenlernen, dass beide Parameter berücksichtigt. Im Exkurs ‚Quantität und/ oder Gespanntheit‘ (S. 176) werden Argumente beschrieben, weshalb hier der Quantität der Vorrang gegeben wird. In seiner Sprachbeschreibung des Deutschen hat Kohler (1999) im Gegensatz zum System in Abb. 58 auf die Verwendung des Längensymbols bis auf die Ausnahmen für / ɛː/ und / aː/ verzichtet, da sich im Deutschen die Vokalquantität aus den jewei‐ ligen Symbolen ableiten lässt. Auch wenn die Verwendung von [ː] in gewissem 4.3 Vokale 175 <?page no="177"?> 39 Die betonte Silbe ist in der orthographischen Repräsentation durch Unterstreichung und in der Transkription durch die voran- und hochgestellte vertikale Linie [ˈ] markiert. Grenzen zu nicht betonten Silben sind mittels des Symbols [.] gekennzeichnet. Mehr dazu in Kapitel 6 und 9. Maße als redundant betrachtet werden kann, so kennzeichnet das Längensymbol unmissverständlich den Unterschied zwischen den sprachabhängigen Langvokalen zu den quantitätslosen Kardinalvokalen und wird im Folgenden für alle Langvokale verwendet. Quantität und/ oder Gespanntheit Gespanntheit erfasst kombinierte Quantitäts- und Qualitätsunterschiede. Vo‐ kalqualität lässt sich jedoch nicht immer durch Vokalquantität vorhersagen, weswegen oft beide Parameter zur Beschreibung der Vokale im Deutschen herangezogen werden. Qualität geht dann in dem Begriff Gespanntheit auf und / ɛː/ sowie / aː/ werden mitunter als ungespannte Langvokale klassifiziert (z. B. Hall 2011, vgl. 5.3). Die Beobachtung, dass gespannte Vokale nur in betonter, nicht aber in unbetonter Position lang sind (z. B. Tenor [ˈteː.noːɐ̯] vs. Tenor [teˈnoːɐ̯], 39 suggeriert ferner, Qualität sei der entscheidende Parameter, in dem sich die Vokale in Tab. 6 und Tab. 7 unterschieden. Die betonungsbedingte Kürzung ist jedoch vorhersagbar und damit phonetischer Natur, weswegen man weiterhin von einer Quantitätsanstelle einer Qualitätsopposition ausgehen kann. Aus fol‐ genden Gründen wird hier Quantität als der entscheidende Parameter betrachtet: (1) Gespanntheit ist phonetisch schwer definierbar (vgl. 4.3); (2) phonemische Langvokale in betonter Position sind phonetisch deutlich länger als phonemische Kurzvokale in betonter Position (s. Abb. 59); (3) Qualitätsunterschiede lassen sich über den vierstufigen Zungenhöhenparameter erfassen; (4) Quantität ist der primäre Parameter in der Unterscheidung der beiden tiefen, zentralen Vokale; (5) auf die Benennung der Gespanntheit kann - im Gegensatz zur Benennung der Quantität bzw. der Zungenhöhe - verzichtet werden. Bislang wurde von 16 Monophthongphonemen ausgegangen. Der Phonemstatus von / ɛː/ ist jedoch umstritten, insbesondere für die norddeutsche Standardvarietät (vgl. z. B. Wiese 1996). Wörter wie Käse werden oft als [keːzə] realisiert und nicht als [kɛːzə]. Der Phonemstatus von / ə/ ist in der Literatur ebenfalls umstritten (vgl. Wiese 1996). So nimmt etwa Becker (1998: 115) die diversen orthographisch durch ⟨e⟩ repräsentier‐ ten Laute als zugrunde liegende Form eines Allophons [ə] an. Aufgrund der größeren Anzahl an Grammatiken, die Schwa Phonemstatus zuweisen, kann man jedoch den Schluss ziehen, dass ein Schwa-Phonem weniger umstritten ist als etwa / ɐ/ (vgl. hierzu Staffeldt 2010, Hall 2011: 70-71). 176 4 Konsonanten und Vokale <?page no="178"?> Weder Kleiner und Knöbl (2015) noch Kohler (1995) räumen [ɐ] den Status eines Phonems ein, auch wenn erstere den Laut in ihrem System mit aufführen. Zwar kann man Minimalpaare wie Güte [ɡyːtə] - Güter [ɡyːtɐ] bilden, aber schon bei der Beschreibung des Glottalverschlusses haben wir gesehen, dass die Möglichkeit zur Minimalpaarbildung allein nicht ausreicht, um einem in einer Sprache vorkommen‐ den Laut den Status eines Phonems zu verleihen (vgl. 4.2.1.3). [ɐ] lässt sich zudem als Allophon einem Phonem zuordnen: / ʁ/ wird in postvokalischer, silbenfinaler, nicht betonter Position im Deutschen vokalisiert; die Oberflächenform [ɐ] tritt dann zutage, wenn ein / ʁ/ auf ein / ə/ folgt, so wie in Güter (vgl. 1.2.2, 4.2.4, s. auch Diphthonge auf S. 179). Laut der Systeme in Abb. 58 werden die Vokale / a, aː/ im Deutschen mit einer ähnli‐ chen zentralen Zungenposition wie [ɐ], aber mit einer tieferen Zungenhöhe artikuliert. Ihr Phonemstatus ist unstrittig; die symbolische Kodierung bedarf jedoch eines Kom‐ mentars. Das Kardinalvokalsystem selbst kennt keine tiefen, zentralen Vokale, auch weil der Artikulationsspielraum entlang der vertikalen Zungenpositionsdimension im tiefen Zungenhöhenbereich kleiner ausfällt und Sprachen in diesem Bereich weniger Phoneme unterscheiden als es bei nicht tiefen Vokalen der Fall ist. Die Einführung eines zusätzlichen Symbols für einen tiefen, zentralen Vokal wurde zwar immer wieder diskutiert, bislang aber abgelehnt (vgl. Barry & Trouvain 2008). Stattdessen bietet es Symbole für eher vorne (KV4, KV12) und eher hinten (KV5, KV13) realisierte tiefe Vokale. Für die Beschreibung der Vokalqualität der beiden tiefen Vokale im Deutschen wird das Symbol von KV4 verwendet. Mit Blick auf Alternationen verhalten sich / a, aː/ aber eher wie hintere Vokale, so z. B. bei der Realisierung von / ç/ als [x] in Wörtern wie Bach (vgl. 1.2.2). Beide Vokale werden daher auf Ebene der Phonologie zu den hinteren Vokalen gezählt (s. 5.3). Mitunter werden die beiden tiefen Vokale auch durch unterschiedliche Symbole repräsentiert, um neben dem Quantitätsunterschied einen Unterschied in der Zungenposition zu kennzeichnen. So klassifiziert Wängler (1981) den Langvokal als tiefen, hinteren, ungerundeten Vokal und ordnet ihm das Symbol von KV13 zu. Einen solchen Unterschied für das derzeitige standardsprachliche System anzunehmen scheint aber mit Blick auf Abb. 60 (rechts) nicht gerechtfertigt, die die Verteilung der deutschen Monophthonge von fünf um 1990 geborene Sprecherinnen des Standarddeutschen im akustischen F1 × F2-Vokalraum zeigt. Neben der zentralen Zungenposition der beiden tiefen Vokale entsprechen die Realisierungen in Abb. 60 einer Reihe weiterer Punkte des Systems von Kleiner & Knöbl (2015): So weisen etwa [ʊ] einen höheren und [œ] einen niedrigeren F1-Wert auf als [oː] bzw. [ɛ], was auf eine jeweils tiefere bzw. höhere Zungenhöhe verweisen könnte. Ein möglicher Grund für die Ähnlichkeiten zwischen den Vokalverteilungen ist, dass Kleiner und Knöbl (2015) ihre Verteilung nicht nur auditiv, sondern auch akustisch begründen. Auffällig in Abb. 60 (rechts) ist der leicht niedrigere mittlere F2-Wert für [iː] im Vergleich zu [eː], der bei den Sprecherinnen auf eine leicht zentralisiertere Zun‐ genposition bei [iː] als bei [eː] hindeuten könnte. Davon abgesehen ist die Verteilung der Vokale im F1 × F2-Raum für Männer und Frauen sehr ähnlich; die niedrigeren For‐ 4.3 Vokale 177 <?page no="179"?> Abb. 60: Gemittelte F1- und F2-Werte zum jeweils zeitlichen Mittelpunkt derselben Vokale in denselben Wörtern je dreimal produziert von denselben Sprecher: innen wie in Abb. 59, getrennt nach Sprechern (links) und Sprecherinnen (rechts). Realisierungen von baten waren nur von Sprecherinnen verfügbar. mantfrequenzen sind den bekannten Geschlechtsunterschieden geschuldet (vgl. 3.2.3) und für die Beschreibung des phonologischen Vokalsystems irrelevant (vgl. Exkurs ‚Phonetische Variation‘, S. 23f.). Der Zentralvokal Schwa wiederum deutet mit Blick auf beide gemittelten F2-Werte in Abb. 60 auf eine leicht vorverlagerte Zungenposition hin, was an dem vorangehenden [t] liegen kann (s. 4.5). Einige der halbhohen und halbtiefen, vorderen Vokale, die sich in der Lippenrundung unterscheiden (z. B. [ɪ] und [ʏ]), liegen im F1 × F2-Raum sehr dicht beieinander; berücksichtigte man hier statt F1 F3 als den mit Lippenrundung korrelierenden Formanten, fiele der akustische Unterschied größer aus. Die in Abb. 58 und Abb. 60 dargestellte Lage der deutschen Vokale im Vokalraum enthält nur die Monophthonge. Das Deutsche weist auch drei schließende Diphthongphoneme auf: / aɪ̯/ wie in leiten, / aʊ̯/ wie in lauten und / ɔɪ̯/ wie in läuten. Deren artikulatorische Ausgangspositionen und daran anschließende Zielrichtungen hat Kohler (1995) im Vokaltrapez des IPA wie in Abb. 61 dargestellt lokalisiert. 178 4 Konsonanten und Vokale <?page no="180"?> Abb. 61: Artikulationsverlauf der drei Diphthongphoneme des Standarddeutschen im Vokaltrapez im IPA nach Kohler (1995: 175). Punkte markieren die Ausgansposition, Pfeilspitzen die Zielposition. Während der Vokalartikulation bewegt sich die Zunge dabei entweder von einem tiefen, zentralen (/ aɪ̯/ , / aʊ̯/ ) oder einem halbtiefen, hinteren Ausgangspunkt (/ ɔɪ̯/ ) entweder hin zu einer hohen, vorderen (/ aɪ̯/ , / ɔɪ̯/ ) oder aber zu einer hohen, hinteren Zungenposition (/ aʊ̯/ ). In Abhängigkeit der Zielposition ist die Ausgangsposition der Diphthonge / aɪ̯/ und / aʊ̯/ entweder weiter vorn oder etwas weiter hinten. Die artiku‐ latorische Gleitbewegung manifestiert sich in den im Sonagramm deutlich erkennbaren Formantbewegungen von den Resonanzfrequenzlagen der Ausgangslaute hin zu denen der Ziellaute, so wie in Abb. 56 (rechts) für / aɪ̯/ erkennbar. Darüber hinaus gibt es noch eine Reihe weiterer diphthongierter Vokalrealisierun‐ gen im Deutschen (Kleiner & Knöbl 2015), die jedoch • nur vereinzelt (wie [ʊɪ̯] in pfui) und in Lehnwörtern (z. B. aus dem Englischen wie [ɛɪ̯] in Mail [mɛɪ̯l] oder [ɔʊ̯] Show [ʃɔʊ̯]) vorkommen, • auf ein silbenfinales, postvokalisches / ʁ/ nach einem Monophthong zurückgehen. Diese Diphthonge werden (noch) nicht zum Kernphonembestand des Deutschen ge‐ zählt. Im Falle der Entlehnungen aus dem Englischen sind Monophthong-Realisierun‐ gen gleichermaßen verbreitet wie Diphthong-Realisierungen (also [meːl] und [ʃoː]) und im Falle von Vokal+/ ʁ/ -Sequenzen ist eine eindeutige Allophon-Phonem-Zuordnung möglich. Bei der / ʁ/ -Vokalisierung können die Ausgangspositionen des resultierenden Diphthongs je nach zugrunde liegendem Monophthong sehr unterschiedlich sein; die Zielposition ist hingegen immer [ɐ], z. B. dir [diːɐ̯], Dur [duːɐ̯], oder das Präfix dar- [daːɐ̯]. Nach hohen Monophthongen können dadurch - wie im Falle von dir oder Dur - auch öffnende Diphthonge entstehen. Trotz der Möglichkeit zur Minimalpaarbildung (die-dir, Du-Dur, da-dar) handelt es sich um phonetische Diphthonge, da [ɐ̯] phono‐ logisch / ʁ/ zugrunde liegt (daher auch / diːʁ/ , / duːʁ/ , etc.). Das Deutsche weist viele Vokalphoneme auf, die sich asymmetrisch über das Vokaltrapez verteilen. 4.3 Vokale 179 <?page no="181"?> Im typologischen Sprachvergleich weist Deutsch ein großes Inventar unterschiedlicher Vokalqualitäten auf, und zwar unabhängig davon, ob man 16 oder wie bei Becker (1998) nur acht Monophthonge zugrunde legt. Die Mehrheit der Sprachen unterscheidet phonologisch fünf bis sechs unterschiedliche Vokalqualitäten, insbesondere indigene Sprachen Australiens, und an der Pazifikküste des gesamtamerikanischen Kontinents mitunter sogar nur zwei bis vier (Maddieson 2013b). Ein weiteres Augenmerk solcher Vergleiche liegt auf der Verteilung der Vokalphoneme innerhalb des Vokalraums: Das deutsche System entspricht der asymmetrischen Verteilung, da es mehr Vorderzungenals Hinterzungenvokale hat (vgl. Hall 2011: 85-86). Regionale Variation In den regionalen Varietäten und Dialekten des Deutschen kommt es mit Blick auf die Realisierung von Diphthongen und Monophthongen zu teils sehr großen Abweichungen zum oben besprochenen standarddeutschen Vokalsystem. So wer‐ den z. B. Diphthonge monophthongiert (vgl. Bein Standarddeutsch [baɪn] vs. Obersächsisch [bë̞ːn], wo / eː/ zusätzlich zentralisiert [ ̈] und tiefer [ ̞] realisiert wird), Monophthonge diphthongiert (vgl. Füße Standarddeutsch / fyːsɜ/ vs. Mit‐ telbairisch [fɪas]) oder Monophthonge mit einer anderen Vokalqualität realisiert (z.-B. Hase Standarddeutsch [haːsə] vs. Mittelbairisch [hɔːs]). Auch bei der Vokal‐ quantität gibt es regionale Variation, so z. B. bei Rad oder Bad, die im standard‐ deutschen und auch in süddeutschen Varietäten mit langem [aː], in norddeutschen Varietäten hingegen mit kurzem [a] realisiert werden. Andersherum verhält es sich beim ersten Vokal in Schublade, wo der Vokal in norddeutschen Varietäten (wie auch im Standarddeutschen) gespannter und teils auch länger ist im Vergleich zu süddeutschen Varietäten (vgl. auch http: / / prowiki.ids-mannheim.de/ bin/ view/ AADG/ SchubQuant, abgerufen am 08.04.2022, 11: 00 Uhr). 4.4 Approximanten (Halbvokale) Das IPA klassifiziert Approximanten (auch zentrale Approximanten, Engl. (central) approximants) als Konsonanten. Sie werden daher mit den in 4.2 vorgestellten Parametern zur Konsonantenbeschreibung näher spezifiziert. Gleichzeitig spielt auch die artikulatorische und auditive Kenntnis der (Kardinal-)Vokale eine wichtige Rolle bei der Bestimmung von Approximanten. Aus diesem Grund werden die Approximanten in diesem Buch als letzte große Lautkategorie in einem eigenen Abschnitt beschrieben. 180 4 Konsonanten und Vokale <?page no="182"?> Approximanten werden ohne Konstriktion und Friktion im Vokaltrakt realisiert. Phonetisch haben sie viel mit der Vokalrealisierung gemein, weswegen sie oftmals als Halbvokale bezeichnet werden. Mit Blick auf die lautlichen Kombinationsmög‐ lichkeiten und die Position innerhalb eines Wortes verhalten sich Approximanten jedoch wie Konsonanten. Das IPA listet nur Symbole für stimmhafte Approximanten auf, die jedoch entstimmt werden können. In den Sprachen der Welt ist der Konstriktionstyp Approximant an fünf Artikulationsstellen belegt. Darüber hinaus gibt es weitere Approximanten, die mittels Doppelartikulation realisiert werden (s. S. 182f.). Das Deutsche nutzt nur den palatalen Approximanten funktional und auch nur in prävokalischer Position am Beginn von Silben. Während Monophthonge innerhalb einer Silbe nicht miteinander kombiniert werden können und über Silbengrenzen hinweg z. B. durch die konsonantische Geste des Glottalverschlusses getrennt sind (vgl. Hiatus in 4.3), stellt die Kombination eines Approximanten mit einem nachfolgenden Vokal, egal welcher Qualität, innerhalb einer Silbe kein Problem dar, wie die folgenden Beispiele zeigen: yippie, jüngst, jene, Jörg, Jäger, ja, johlen, jubeln. Um die Artikulation von [j] zu beschreiben, geht man am besten zunächst von der Bildung des KV1 aus. Nähert man dann die Zunge noch etwas weiter an die palatale Artikulationsstelle an, ohne dabei aber so viel Friktion zu erzeugen wie im Falle des stimmhaften, palatalen Frikativs, so produziert man den palatalen Approximanten. Approximanten bilden einen gleitenden Übergang zwischen den Vokalen eines Wortes und nehmen dabei eine Zwischenposition zwischen Konsonanten und Vokalen ein. Diese Form des Gleitlautes ist akustisch im Sonagramm anhand von Formantfrequenzen (im Falle von [j] im Bereich von [i]) und starken Transi‐ tionen zu den entsprechenden Formantfrequenzen des nachfolgenden Vokals zu erkennen, die eine akustische Segmentierung erschweren (vgl. Abb. 62). Abb. 62: Etikettierte Sonagrammausschnitte aus den Äußerungen jene (links), Jana (Mitte) und Juno (rechts) mit weiß hervorgehobener F2-Transition, die stärker fällt je weiter hinten der Vokal ist (d. h. je tiefer F2 im Vokal). 4.4 Approximanten (Halbvokale) 181 <?page no="183"?> 40 Siehe hierzu auch die in Fußnote 36 (S. 164) angesprochene Kontroverse um steigende Diphthonge vs. Approximant-Realisierungen im Rumänischen. Auslautend kommt [j] im Deutschen nicht vor, auch wenn man mitunter eine audi‐ tive Ähnlichkeit zu [j] in Wörtern mit den beiden schließenden Diphthongen des Deutschen / aɪ/ und / ɔɪ/ in finaler Position zu hören meint. In Wörtern wie Folie, Bak‐ terien, Bayern vermag man [j] zudem in der Wortmitte wahrzunehmen, wiederum als gleitender Übergang zwischen den Silben, z. B. [baɪ̯+j+ɐn]. Der palatale Approximant kann im Deutschen also - wie auch der Glottalverschluss - eine neue Silbe markieren; in diesen Kontexten ist er jedoch das Resultat einer Artikulationsbewegung und entspricht keiner Realisierung eines / j/ (vgl. Jessen 1999: 522). Gleichzeitig entstehen dabei mitunter Lautgebilde, die akustisch an Triphthonge mit drei unterschiedlichen Vokalqualitäten erinnern. Die Ähnlichkeit zu Diphthongen ergibt sich aufgrund der Gleitbewegung, die sowohl Diphthonge als auch Kombinationen aus Approximant und Vokal kennzeichnen. 40 Auf der anderen Seite, und das unterscheidet die beiden Lautkategorien durchaus, gelten Approximanten als näher an der passiven Artikulati‐ onsstelle realisiert als Monophthonge, während der weniger prominente, im Deutschen zweite Teil des Diphthongs (vgl. 4.3 oben) weniger peripher im Vokalraum liegt. Mit anderen Worten: Approximanten kann man sich außerhalb des Vokaltrapezes liegend vorstellen, Diphthonge innerhalb. Ein weiterer, uns aus dem Englischen bekannter Halbvokal ist der alveolare Ap‐ proximant / ɹ/ wie im Anlaut von round [ɹaʊnd] oder right [ɹaɪt], der von manchen Sprecher: innen auch retroflex realisiert wird, z. B. [ɻaɪt]. Ladefoged und Johnson (2011: 234) verweisen auf die amerikanische Variante des Vokals in fur / fɝː/ als vokalisches Pendant zu / ɹ/ . Produziert man also zunächst fur mit einem r-gefärbten Vokal und hält dann diese Position, so kann sie als Ausgangsposition für die Artikulation des ⟨r⟩ in Wörtern wie round betrachtet werden. Auch hier wird die Artikulation des Approximanten also zunächst mittels eines Vokalvergleichs beschrieben, bevor dieser dann mit den bekannten artikulatorischen Konsonantenparametern klassifiziert wird. Auch der labio-velare Approximant [w] wie im Anlaut von what [wɒt] ist uns aus dem Englischen bekannt. Aufgrund der Doppelartikulation wird er jedoch nicht innerhalb der Konsonantentabelle des IPA aufgelistet, sondern unter der Rubrik ‚Andere Symbole‘ (Engl. Other Symbols). Doppelartikulation beschreibt die gleichzeitige Artikulation eines Lautes an zwei Artikulationsstellen innerhalb eines Konstriktionstyps. Im Falle von [w] bezieht sich Doppelartikulation auf die parallele Lippenrundung bei gleichzeitiger Anhebung des Zungenrückens Richtung Velum. Das vokalische Pendant von [w] ist der gerundete Hinterzungenvokal [u]. Aus dem gleichen Grund wird auch das Symbol für den doppelt artikulierten labio-palatalen Approximant 182 4 Konsonanten und Vokale <?page no="184"?> [ɥ], wie im französischen Wort für ‚acht‘ huit [hɥit], als anderes Symbol außerhalb der Konsonantentabelle gelistet. Das Französische nutzt damit gleich drei zentrale Approximanten funktional: neben / ɥ/ auch / w/ wie in oui [wi] ‚ja‘ und [j] wie in hier [jɛʁ] ‚gestern‘. 4.5 Koartikulation Im Rahmen der Einzellautbeschreibung wurde der Einfluss der Koartikulation bereits mehrmals angesprochen und auch der im vorangehenden Abschnitt als Gleitlaut beschriebene Approximant hat bereits die große Bedeutung des fließenden Übergangs zwischen Sprachlauten vorweggenommen. In diesem Abschnitt soll sie nun vor dem Hintergrund der kombinierten Vokal- und Konsonantenartikulation noch genauer vorgestellt werden - auch mit Blick auf die Ursachen für phonologischen Prozesse, die in Kapitel 7 thematisiert werden. In den vorangegangenen Abschnitten dieses Kapitels lag der Fokus auf der Beschreibung der Form und Funktion von Einzellauten, insbesondere derer die im Deutschen vorkommen. Dass diese Laute jedoch in dieser Form, d. h. kontextuell isoliert, realisiert werden, tritt nur sehr selten auf (z. B. bei Ausrufen wie Ah oder Oh). Und selbst die wenigen Wörter, die nur aus einem Phonem zusammengesetzt sind, wie etwa Ei, sind in der Regel in den lautlichen Kontext der umgebenden Wörter und ihrer Segmente eingebettet. Der Einfluss des lautlichen Kontextes ist in der gesprochenen Sprache grundsätzlich groß - innerhalb von Wörtern bzw. Silben ganz besonders, aber auch über Wortgrenzen hinweg. Dies liegt zunächst an der kontinuierlichen Bewegung der Artikulationsor‐ gane zwischen den Lautsequenzen, die sich z. B. in den in 4.2 beschriebenen Transitio‐ nen niederschlägt (vgl. auch 1.1.2). Artikulatorische Bewegungsabläufe sind von Natur aus antizipativ, aufgrund der Artikulationsgeschwindigkeit sowie der motorischen und kognitiven Planung größerer sprachlicher Einheiten. Die Artikulation einzelner Laute hängt teils stark von der Artikulation der un‐ mittelbaren Umgebungslaute ab, auch weil sich die artikulatorischen Bewegungs‐ abläufe zeitlich überlappen. Diese Überlappung wird Koartikulation genannt (Hardcastle & Hewlett 1999: 1). Die Koartikulationsrichtung ist entweder • antizipativ (rechts-nach-links, Engl. anticipatory), d. h. Merkmale des nachfolgen‐ den Lautes schlagen sich bereits im vorangehenden Laut nieder, • perseverativ (links-nach-rechts, Engl. carryover), wobei lautliche Merkmale über die Dauer des auslösenden Segments länger anhalten (s. 7.3.4). 4.5 Koartikulation 183 <?page no="185"?> Die nachfolgenden Beispiele für Koartikulation weisen in erster Linie eine antizipative Richtung auf. Realisiert man etwa [k] einmal vor [iː] und einmal vor [aː] wie in Kiel und kahl, so kann man die kontextabhängig unterschiedliche Artikulationsstelle des / k/ recht deutlich spüren. Vor einem vorderen Vokal wird der velare Plosiv als [k̟] realisiert, wobei der Zungenrücken im vorderen Bereich des Velums, am Übergang zum Palatum einen Kontakt bildet (das Diakritikum [˖] markiert die vorverlagerte Realisie‐ rung). Vor offenen und hinteren Vokalen hingegen ist dieser Kontakt im velaren bis uvularen Bereich, angezeigt durch [ḵ] (s. auch Cruttenden 2001: 167 zu vglb. Realisie‐ rungen im Englischen). Diese kontextabhängige phonetisch unterschiedliche Realisie‐ rung velarer Plosive ist vergleichbar mit der komplementären Distribution des palata‐ len Frikativs im Deutschen, auch wenn die Verteilung der Plosive nicht phonologisiert ist (s. 7.1). Koartikulation betrifft auch Sekundärartikulation wie Labialisierung oder Velari‐ sierung (vgl. 4.2.4 bzw. 4.2.6) Visuell lässt sich Koartikulation besonders deutlich in Frikativ-Vokal-Sequenzen er‐ kennen. Hier ist es auf Ebene der Artikulation u. a. der Status des Lippenrundungspa‐ rameters im Vokal, der sich auf die Lippenrundung im Frikativ auswirkt: Vor einem [uː] wie in Suhl wird der alveolare Frikativ mit Lippenrundung produziert; diese Form der koartikulationsbedingten Labialisierung kann wie folgt transkribiert werden: [zʷ]. Eine koartikulationsbedingt stärkere Lippenrundung in [z] spiegelt sich akustisch in einem tieferen Frequenzschwerpunkt, die dem von [ʃ] in Ski schon recht ähnlich ist, wie das Sonagramm von Suhl im Vergleich mit den Sonagrammen der Wörter Siel und Ski in Abb. 63 zeigt (vgl. 4.2.4). Dieses Beispiel zeigt, dass artikulatorische Ziele (hier gespreizte Lippen bei [z]) und die damit einhergehenden akustischen Ziele (hier z. B. ein hoher Frequenzschwerpunkt) in gesprochener Sprache u. a. aufgrund von Koartikulation nicht immer erreicht werden. Ein artikulatorisches Ziel (Engl. articulatory target, z. B. Lippenrundung) ist schwerer zu erreichen, wenn der benachbarte Laut ein entgegengesetztes (z. B. Lippenspreizung) und damit weiter entfernt liegendes artikulatorisches Ziel auf‐ weist. Das führt mitunter zu Annäherungen (z. B. leichte Lippenrundung), nicht aber zum Erreichen artikulatorischer und infolgedessen akustischer Ziele in der gesprochenen Sprache (Engl. undershoot). 184 4 Konsonanten und Vokale <?page no="186"?> Abb. 63: Segmentiertes Sonagramm der Äußerung Siel, Suhl, Ski von einer Sprecherin. Das Nicht-Erreichen phonetischer Ziele wurde ursprünglich für Vokale postuliert, wenn diese gekürzt werden (Lindblom 1963) - z. B. in unbetonter Position (vgl. 4.3.2, s. 9.2.3). Auch wenn undershoot keine automatische Konsequenz von Kürzung sein muss (s. z. B. Engstrand 1988), so scheint es durchaus zum Repertoire an Produktionsstrate‐ gien zu gehören, vor allem, weil undershoot in vielerlei Hinsicht einem natürlichen und vor allem ökonomischen Bewegungsablauf dient (Lindblom 1990, Moon & Lindblom 1994). Dieser ist im Falle von Siel aufgrund der Lautsequenz natürlich gegeben: Da beide Laute teils übereinstimmende artikulatorische Ziele haben, lässt sich hier kein akustischer undershoot feststellen - im Gegensatz zu Suhl. Undershoot und Koartikulation sind nicht gleichzusetzen. Koartikulation und an‐ dere Faktoren (z. B. erhöhte Sprechgeschwindigkeit) können zu undershoot führen. Undershoot ist kein automatisches Resultat von Koartikulation. Besonders gut lässt sich koartikulationsbedingter undershoot in Vokalen zwischen zwei Konsonanten mit identischer Artikulationsstelle beobachten. In 4.3 haben wir gelernt, dass die zweite Formantfrequenz F2 mit der Zungenposition von Vokalen korreliert, in 4.2.1.1, dass sich Konsonanten und ganz besonders Plosive durch artiku‐ lationsstellenabhängige Lokus-Frequenzen und Formanttransitionen unterscheiden, wobei F2 besonders aussagekräftig ist. In Abb. 64 ist - ohne Berücksichtigung koarti‐ kulatorischer Einflüsse - schematisch dargestellt, wie sich bei einer gleichbleibenden konsonantischen Lokus-Frequenz die Richtung einer Formanttransition in Abhängig‐ keit des Vokals ändert. 4.5 Koartikulation 185 <?page no="187"?> Abb. 64: Schematische Darstellung steigender und fallender Transitionen zur zweiten Formantfrequenz F2 in Abhängigkeit der drei unterschiedlichen Artikulationsstellen bei gleichbleibendem Vokal (links, mit Ausnahme von / ɡ/ ) und des Vokals bei gleichbleibendem Konsonanten (rechts). Liegen die vokalspezifischen zweiten Formantfrequenzen und die konsonantenspezi‐ fischen Loki akustisch weit auseinander, wie bei ⟨dut⟩ in Abb. 64, so ist die Wahr‐ scheinlichkeit für einen F2-undershoot im Vokal groß, insbesondere, wenn es sich um Kurzvokale handelt. Die akustische Distanz korrespondiert in diesem Falle mit der artikulatorischen Distanz zwischen der vokalischen Hinterzungen- und der konsonan‐ tischen Zungenspitzenartikulation. Ein von alveolaren Konsonanten umgebenes [ʊ] wird artikulatorisch vorverlagert und damit einem [ʏ] akustisch ähnlicher, so z. B. in Wörtern wie nutzen oder den Eigennamen Jutta und Justus, wo die Ähnlichkeit so groß werden kann, dass sie unter Umständen zur auditiven Wahrnehmung von nützen, Jütta oder Jüstus führen kann (s. aber 8.3.2.3). Im Falle von nutzen wurde die Koartikulation phonologisiert; nützen ist Teil des deutschen Wortschatzes und der entsprechende phonologische Prozess lässt sich gut beschreiben (s. 7.3.4). In der Regel wird diese Form von Koartikulation auditiv jedoch nicht wahrgenommen, da sie phonetisch, d. h. vorhersagbar und erlernbar ist (s. 8.3.2.3). Unabhängig davon, ob man die artikulatorische Vorverlagerung auditiv wahrnimmt oder nicht, ist der artikulationsbedinge F2-undershoot in Wörtern wie Dutt und bibbern akustisch gut zu erkennen (s. Abb. 65 und Abb. 60 für [ə] nach [t]). Vergleicht man F2 zum zeitlichen Mittelpunkt des Vokals in Dutt mit der Lage von F2 zum gleichen Zeitpunkt des ersten Vokals in Puppe, so sieht man, dass der F2-Wert im alveolaren Kontext deutlich höher liegt als im labialen Kontext. In bibbern wiederum liegt der F2-Wert zum zeitlichen Mittelpunkt von [ɪ] aufgrund des für bilabiale Plosive typischen tiefen F2-Lokus niedriger als in [ɪ] in Titel. 186 4 Konsonanten und Vokale <?page no="188"?> Abb. 65: Segmentierte Sonagramme der Äußerung Titel, bibbern (oben) und Dutt, Puppe (unten) von einer Sprecherin. Der F2-Verlauf im betonten Vokal ist im Bereich der Mittenfrequenz weiß nachge‐ zeichnet. Im Gegensatz zu Titel und Puppe wird die akustische Zielposition in bibbern und Dutt nicht erreicht. Im Falle der oben beschriebenen und in Abb. 65 dargestellten Koartikulationseffekte in Konsonant-Vokal-Konsonant-Sequenzen (K 1 -V-K 2 ) lässt sich aufgrund des symmetri‐ schen Konsonantenkontextes (K 1- =-K 2 ) nicht eindeutig bestimmen, ob die Koartikula‐ tionsrichtung antizipativ (V←K 2 ) oder perseverativ (K 1 →V) ist. Möglich ist auch, dass undershoot gerade aufgrund der koartikulatorischen Einflüsse sowohl von K 1 als auch von K 2 entstehen. Mehr zu Koartikulationsrichtung, aber auch Koartikulationsstärke und -resistenz erfährt man im gleichnamigen Exkurs auf S. 188. 4.5 Koartikulation 187 <?page no="189"?> Koartikulationsrichtung, -stärke und -resistenz In einer wegweisenden Studie zu Vokal-Konsonant-Vokal-Sequenzen (V 1 -K-V 2 , z.-B. / yby/ , / ybu/ , / ydy/ , / ydu/ , etc.) in Schwedisch, Englisch und Russisch zeigte Öhman (1966), dass sich Koartikulation nicht nur über Konsonanten hinweg beobachten lässt, sondern auch, dass die Koartikulationsrichtung antizipativ ist: Der initiale Vokal wird stark vom finalen Vokal beeinflusst, was anhand entsprechender Formanttransitionen in asymmetrischen Vokalkontexten (V 1 ≠ V 2 , z. B. [ydu]) akustisch gut zu erkennen ist. Dieses Ergebnis stellte die ursprüngliche Annahme eindeutiger lautabhängiger Loki in Frage, wie sie für intervokalische Konsonanten in symmetrischen V 1 -K-V 2 -Sequenzen zu beobachten ist. Des Wei‐ teren leitete Öhman aus dieser Beobachtung ab, dass die artikulatorische Geste für den intervokalischen Konsonanten unabhängig von einer durchgängigen Geste für den Vokal sei (vgl. 2.4). Bei bilabialen Konsonanten ist die Vorstellung einer unabhängigen Konsonantengeste gut nachvollziehbar, da Zunge und Lippen sehr unabhängig voneinander sind (vgl. auch Farnetani 1999). Sind jedoch Teile der Zunge sowohl an der Vokalals auch der Konsonantenartikulation beteiligt wie bei [ydu] oder [yɡu], kommt es darauf an, wie unabhängig voneinander z. B. Zungenspitze und Zungenrücken agieren können (vgl. Recasens 1999). Neuere Studien haben gezeigt, dass sich die einzelnen Sprachlaute sowohl hinsichtlich ihrer Koartikulationsstärke als auch mit Blick auf ihre Resistenz gegenüber Koartikulation unterscheiden. Generell wird davon ausgegangen, dass Laute, die eine größere dorsale Kontrolle aufweisen, auch resistenter gegen Koartikulation sind (vgl. Recasens & Espinosa 2009). So sind etwa im Katalanischen [s] und [a] stärker von Koartikulation betroffen als [ʃ] und [i] (Recasens et al. 1997, vgl. auch Abb. 63) und im Englischen wird eher ein / s/ wie in Paris show [ʃ]-artig, als dass / ʃ/ wie in fish soup [s]-artig realisiert wird (Pouplier et al. 2011: 2). Auch wenn Spuren der Koartikulation im akustischen Signal teilweise sichtbar bleiben, so lässt sich deren Quelle besser mittels signalphonetischer Analysen von Bewegungs‐ abläufen der Artikulationsorgane untersuchen (vgl. S. 62, Exkurs ‚Artikulatorische Signalphonetik‘) und z. B. im Rahmen der Artikulatorischen Phonologie modellieren (vgl. 2.4). Dies sei hier anhand eines Beispiels demonstriert, das im Rahmen der Einzellautbeschreibung oben bereits angesprochen wurde, nämlich der überwiegend postvokalischen Velarisierung von Lateralen (vgl. 4.2.6). Die Dominanz von [ɫ] in dieser Position lässt sich laut Browman und Goldstein (1995) durch eine verstärkte, zeitlich asynchrone Koordination der beiden für die Lateral-Realisierung relevanten Artikulationsorgane, dem Zungenrücken und der Zungenspitze, erklären (S. 20-26, dort insb. Figure 3). Messungen der Zungenrücken- und Zungenspitzenbewegung während der Äußerungen leap [liːp] und peel [pʰiːɫ] zeigten, dass in [liː] die apikale und die dorsale Geste größtenteils zeitgleich ausgeführt wurden, während in [iːɫ] die 188 4 Konsonanten und Vokale <?page no="190"?> relevante Zungenrückenbewegung deutlich früher als die Zungenspitzenbewegung stattfand. Die Zungenrückenbewegung wird postvokalisch verstärkt; sie überlappt zeitlich stark mit der Vokalartikulation. Auch bei dem oben beschriebenen Beispiel Suhl ist es vor allem die Lippengeste, die sich deutlich über zwei Segmente ausdehnt, und nicht die Zungenspitzenbzw. Zungenrückengeste, die ebenfalls in die Realisierung von [z] bzw. [uː] involviert sind. Eine ähnlich verstärkte Koartikulation einer Geste ließ sich auch bei positionsbe‐ dingten Unterschieden in der Nasalierung von Vokalen im amerikanischen Englisch beobachten (Krakow 1989), das wie das Deutsche keine Nasalvokalphoneme kennt, aber postvokalisch Vokale noch stärker phonetisch nasaliert als es etwa das Deutsche in Wörtern wie Mann oder nun tut (vgl. 4.3, Abb. 57). Eine zunehmend verstärkte Koartikulation gilt wiederum als Ursache für die diachrone Entwicklung von Nasal‐ vokalphonemen in romanischen Sprachen. Genauer: Man geht davon aus, dass sich Nasalvokalphoneme wie im französischen Wort für ‚Hand‘ main / mɛ̃/ durch eine zunehmend verstärkte Nasalierung entwickelt hat, die in lateinischen Wörtern wie manus noch als koartikulationsbedingt und phonetisch galt. Solche phonologisierten Koartikulationsmuster sind dann jedoch nicht mehr im Rahmen von Koartikulation, sondern als relevante, distinktive Bestandteile des entsprechenden Phonems zu be‐ schreiben. Die hier beschriebenen Formen der Koartikulation treffen selbst auf eine sehr deutliche Aussprache zu, wie wir sie etwa bei Nachrichtensprecher: innen beobachten können. Auditiv stellt sie - wie wir in Kapitel 8 sehen werden - kein Hindernis dar; im Gegenteil: Koartikulation führt zu einem natürlicheren Spracheindruck (z. B. in der Sprachsynthese) und zu schnellerer Worterkennung. In beiden Beispielen nehmen wir die Koartikulation auditiv nur unterbewusst wahr, d. h. als Muttersprachler: innen nutzen wir sie z. B. in der Worterkennung, ohne sie jedoch klar benennen oder transkribieren zu können. Ist die Koartikulation sehr stark ausgeprägt, kann sie sprachliche Reduktionsformen und phonologische Prozesse verursachen, bei denen sich die Oberflächenform von der zugrunde liegenden Form deutlich unterscheidet und auditiv wahrnehmbar ist, z. B. wenn einst stritten als [aɪns̠ʷʃtʁɪtn̩] realisiert wird. Mehr dazu in Kapitel 7. 4.6 Zusammenfassung Vokale und Konsonanten werden beide mit artikulatorischen, wenn auch unterschiedli‐ chen Parametern beschrieben. Während die artikulatorische Beschreibung von Konso‐ nanten direkt erfolgt und somit Rückschlüsse auf die Produktion zulässt, so entspricht die artikulatorische Beschreibung von Vokalen nur einer Interpretation akustisch-audi‐ tiv ermittelter Vokalqualitäten. Bereits im einführenden Abschnitt 4.1 wurde die Frage aufgeworfen, weshalb nicht alle Sprachlaute mit den gleichen Parametern beschrieben werden. Und auch wenn diese Frage gleich zu Beginn mit dem Argument der fehlenden 4.6 Zusammenfassung 189 <?page no="191"?> Praktikabilität beantwortet wurde, soll in (17) die Möglichkeit einer vollständigen Klassifikation von Vokalen mittels konsonantischer Parameter nach Catford (1988: 133) aufgezeigt werden. (17) [i] prädorso-palataler Approximant - [u] labio-postdorso-velarer Approximant - [ɑ] radiko-pharyngaler Approximant Eine verhältnismäßig genaue Unterscheidung der Eckvokale ist also unter Angabe der Artikulationsstelle einerseits und der Eingrenzung des aktiven Bereichs des Arti‐ kulationsorgans andererseits möglich. Problematisch an diesem Vorgehen ist jedoch, dass diese artikulatorischen Beschreibungen keine genauen Rückschlüsse auf die jeweils auditive Vokalqualität der drei Eckvokale zulassen - sich daraus also nicht ableiten lässt, ob die Artikulation der auditiven Qualität der Kardinalvokale 1, 5 und 8 entspricht oder nur einer Annäherung an diese Kardinalvokale. Auch ließe sich z. B. der Unterschied zwischen [iː] und [eː] im Deutschen nicht deutlich genug mittels der artikulatorischen Konsonantenparameter beschreiben. Es bleibt also nur der methodi‐ sche ‚Umweg‘ über die auditive Ermittlung von distinktiven Vokalqualitäten und die anschließende Rückübersetzung in artikulatorische Beschreibungsparameter entlang der obligatorischen vokalspezifischen Dimensionen Zungenhöhe, Zungenposition und Lippenrundung, um Vokale ausreichend eindeutig zu beschreiben. Das ist v. a. für Sprachen mit einer hohen Anzahl an Vokalphonemen wichtig, die phonologische Oppositionen in der Vokalqualität aufweisen. Sowohl die rein artikulatorisch-basierte Klassifikation von Konsonanten als auch die artikulatorisch-auditiv-basierte Klassifikation von Vokalen ist phonetischer Natur. Die Zuordnung im IPA von Approximanten zu Konsonanten einerseits und von offenen Vokoiden zu Vokalen andererseits ist hingegen phonologisch motiviert, auch wenn das aus dem IPA nicht explizit hervorgeht. Je nach Analyse eines Sprachsystems kann es zu Unterschieden kommen. Ein Beispiel: Wörter wie doch listet Hall (2011: 32, 63-65) als Beleg für [x] als Allophon von / ç/ auf und Kohler (1999: 86-88) als Beleg für [χ] als Allophon von / x/ . Noch auffälliger sind autorenabhängige Unterschiede in der Platzierung von Vokalen im Vo‐ kaltrapez (vgl. 4.3.2). Ein Grund hierfür sind die eher graduellen Unterschiede zwischen Vokalkategorien einerseits und die eher kategorialen Unterschiede zwischen Kon‐ sonantenkategorien andererseits. Auch sprecherspezifische Ausspracheunterschiede können zu einer unterschiedlichen Beurteilung führen. Unabhängig davon gibt es sprachlautabhängige, charakteristische akustische Merkmale, die signalphonetische Analysen über viele Sprecher: innen und somit Generalisierungen zum Lautsystem einer Sprache ermöglichen. Die wichtigsten akustischen Merkmale sind in Tab. 8 zusammengefasst. 190 4 Konsonanten und Vokale <?page no="192"?> Lautklasse Akustische Merkmale Plosiv 1. akustische Stille, Verschlusslösung 2. Formanttransitionen zu angrenzenden Segmenten 3. Aspirationsdauer Nasal 1. Schwärzung bis 500-Hz; oberhalb heller; Antiformanten 2. Formanttransitionen zu angrenzenden Segmenten Taps & Vibranten 1. kurze Verschluss- und Öffnungsphase(n) Frikativ 1. stochastisches Rauschen 2. frequenzspezifischer Energieschwerpunkt, Intensität, ggf. Formantstrukturen 3. voice bar Lateral 1. Formantstrukturen, im oberen Frequenzbereich geschwächt Vokal 1. deutlich erkennbare Formanten 2. Lage der Formantfrequenzen: F1 → Zungenhöhe, F2 → Zun‐ genposition, F3 → Lippenrundung (nicht besprochen); deut‐ liche und anhaltende Formantveränderung bei Langvokalen → Diphthong 3. Vokaldauer → Vokalquantität Approximant 1. deutliche und sich ändernde Formantstrukturen 2. vokalähnliche Lagen der Formantfrequenzen Tab. 8: Primäre, in 4.2-4.4 besprochene akustische Merkmale für die Klassifikation von Sprachlauten nach Konstriktionstyp (a), Artikulationstelle bzw. Vokalqualität (b) und Phonation bzw. Quantität (c) anhand von Sonagrammen. (NB: Diese Merkmale können teils stark variieren, sekundäre Merkmale spielen ebenfalls eine Rolle.) Übungsaufgaben 1. Beschreiben Sie die Artikulation der im IPA aufgeführten Plosive [ʈ, c, q] (vgl. Abb. 36) analog zur Beschreibung bilabialer, alveolarer und velarer Plosive in 4.2.1.1 und unter Berücksichtigung der in Tab. 2 (S. 61) genannten Kombination aus Artiku‐ lationsorgan und -stelle. - a. [ʈ] ___________________________________________ - - - ___________________________________________ - - - ___________________________________________ - b. [c] ___________________________________________ - - - ___________________________________________ - - - ___________________________________________ - c. [q] ___________________________________________ 4.6 Zusammenfassung 191 <?page no="193"?> ___________________________________________ - - - ___________________________________________ 2. Nennen Sie, auch unter Berücksichtigung allophonischer Variation, je ein bisher nicht im Buch genanntes Belegwort für einen - a. stimmlosen, velaren Frikativ des Deutschen _______________________ - b. stimmhaften, bilabialen Plosiv des Engli‐ schen _______________________ - c. labiodentalen Nasal im Deutschen _______________________ - d. velarisierten Lateral im Englischen _______________________ - e. labio-velaren Approximanten im Engli‐ schen _______________________ 3. Produzieren Sie das Wort Ast einmal mit und einmal ohne Glottalverschluss. 4. Produzieren Sie KV1 und KV5. Achten Sie dabei einerseits auf eine artikulatorische Extremposition und andererseits darauf, keine Enge im Mundraum zu bilden. Bilden Sie anschließend ein akustisches Kontinuum von KV1 und KV5, indem Sie bei konstanter Grundtonerzeugung die Zungenhöhe absenken und den Unterkiefer öffnen. Wie viele verschiedene Vokalqualitäten nehmen Sie auditiv wahr? 5. Beschreiben Sie unter Zuhilfenahme des Vokaltrapezes, Längensymbole und der Diakritikatabelle im IPA die folgenden Vokale mittels der drei obligatorischen sowie bei Angabe von anderer Symbole oder Diakritika weiterer Beschreibungs‐ parameter: - a. [œ̝] ___________________________________________ - b. [ɤ] ___________________________________________ - c. [ɜ] ___________________________________________ - d. [ʉ] ___________________________________________ - e. [ɔ̜] ___________________________________________ - f. [yː] ___________________________________________ - g. [ia] ___________________________________________ 6. Beschreiben Sie anhand von Abb. 58 jeweils mithilfe der drei Hauptparameter des IPA die Artikulation von [ʊ] nach den Systemen von Kohler (1995) und Kleiner und Knöbl (2015). Benennen Sie den jeweiligen Kardinalvokal, dem [ʊ] systemabhängig 192 4 Konsonanten und Vokale <?page no="194"?> am nächsten ist und begründen Sie, weshalb im Falle des Systems von Kleiner und Knöbl (2015) eine alternative Symbolverwendung nicht in Frage kommt. 7. Welche Symbole des IPA kommen einer standarddeutschen Aussprache der unter‐ strichenen Grapheme am nächsten? Verwenden Sie ggf. Diakritika und andere Symbole. - a. Fahrrad ___________________________________________ - b. Lehrer ___________________________________________ - c. Leere ___________________________________________ - d. Eisen ___________________________________________ - e. Reitsport ___________________________________________ - f. Pause ___________________________________________ - g. baute ___________________________________________ - h. lang ___________________________________________ - i. rauchen ___________________________________________ 8. Die breiten Transkriptionen [ʃtɔʁç] und [dʊʁç] spiegeln die Aussprachen von Storch und durch im Standarddeutschen wider. In einigen süddeutschen Varietäten lässt sich am Wortende jedoch ein [x] anstelle von [ç] beobachten. Produzieren Sie beide Wörter jeweils einmal mit einem palatalen und einmal mit einem velaren Frikativ und achten Sie dabei auch auf die Realisierung des Vokals und des / ʁ/ . a. Transkribieren Sie für beide Wörter jeweils beide Aussprachevarianten eng. b. Unter welchen Bedingungen werden [x] und [ç] realisiert? 9. Ergänzen Sie in folgendem Diagramm die schematische Darstellung der unge‐ fähren Lage der ersten beiden Formantfrequenzen unter Berücksichtigung des Zusammenhangs von Artikulation und Akustik (vgl. 4.3). 4.6 Zusammenfassung 193 <?page no="195"?> 10. Zeichnen Sie analog zu Abb. 64 schematische F2-Verläufe für die Vokale in den Sequenzen / bɪp/ , / ɡʊk/ und / dʊp/ in folgendes Diagramm und berücksichtigen Sie dabei den plosivabhängigen Transitionsverlauf. Weiterführende Literatur Für ausführliche Beschreibungen zur genauen Artikulation bzw. sprecher- und varietä‐ tenspezifischen Artikulationsunterschieden insbesondere bei Konsonanten empfiehlt sich die Lektüre z. B. von L AD E F O G E D & J OHN S O N (2011) und C R UTT E ND E N (2001). Auch wenn in beiden Büchern v. a. englische Beispiele genannt werden, so entsteht doch ein sehr guter Eindruck von der Variationsbreite, die für gesprochene Sprache so typisch ist. Der „Atlas deutscher Sprachlaute“ von W ÄN G L E R (1981) enthält u. a. Röntgenaufnahmen von Realsierungen der Phoneme des Deutschen mit knappen Beschreibungen der Artikulation und sehr informativen aus den Röntgenaufnahmen abgeleitete Skizzen auf Transparentfolien. 194 4 Konsonanten und Vokale <?page no="196"?> Genaue Beschreibungen der Fortis/ Lenis-Opposition im Deutschen finden sich in H AAG (1975) und J E S S E N (1998). Für den Zusammenhang zwischen Vokalquantität und Gespanntheit siehe H ALL (2011, phonologische Einführung), W I E S E (1996, Phonologie) und H O O L E & M O O S HAMM E R (2002, Phonetik für Fortgeschrittene). Einen guten Überblick über die vielen möglichen Parameter zur Vokalbeschreibung bietet L AD E F O G E D & M ADDI E S O N (1990). Einen vertiefenden Überblick zum Thema Koartikulation bieten für Fortgeschrittene die englischsprachigen Aufsätze in H A R DCA S TL E & H EWL E TT (1999). Will man sich näher mit den Kardinalvokalen auseinandersetzen, dann empfiehlt sich die Lektüre von J ON E S (1969) als Klassiker der phonetischen Literatur. Für perseverative Koartikulationseffekte in V1-K-V2-Sequenzen siehe H O O L E & P O U P LI E R (2017), die die Studie von Ö HMAN (1966) mit deutschen Sprecher: innen replizierten und methodisch erweiterten. Darüber hinaus sei noch auf folgende Webressourcen hingewiesen, die u. a. mit Blick auf die auditive Kontrolle beim eigenständigen Produzieren der Sprachlaute nützlich sind: • Interaktives IPA mit Audio-Beispielen (s. Link auf S. 37) • IPA-Tabelle mit Links zu fMRI-Aufnahmen der jeweiligen Sprachlaute verschie‐ dener Sprecher: innen unter https: / / sail.usc.edu/ span/ rtmri_ipa/ (abgerufen am 25.05.2022, 12: 50 Uhr), • Aufnahmen der Kardinalvokale unter http: / / web.uvic.ca/ ling/ resources/ ipa/ charts / IPAlab/ IPAlab.htm (abgerufen am 25.05.2022, 12: 50 Uhr) bzw. unter https: / / routle dgetextbooks.com/ textbooks/ 9781444183092/ audio2.php (Originalaufnahmen von Jones; abgerufen am 25.05.2022, 12: 50 Uhr), • Links zu Sprachbeschreibungen und zugrunde liegenden Aufnahmen der Interna‐ tional Phonetic Association unter https: / / richardbeare.github.io/ marijatabain/ ipa _illustrations_all.html (abgerufen am 04.05.2022, 17: 05 Uhr), • Animierte Koartikulationseffekte unter https: / / swphonetics.com/ coarticulation/ e xbulg/ (abgerufen am 25.05.2022, 12: 50 Uhr). 4.6 Zusammenfassung 195 <?page no="198"?> 5 Distinktive Merkmale Überleitung und Ziele Ziel dieses Kapitels ist es, in die Theorie der distinktiven Merkmale einzuführen. Mittels distinktiver Merkmale können Phoneme klassifiziert werden. Wie wir in diesem Kapitel sehen werden, unterscheidet sich dieses Klassifikationssystem in vielerlei Hinsicht von dem des IPA. Studierende fragen immer wieder, weshalb es eines anderen Systems bedurfte. Ein Grund, der hier vorab genannt werden soll, war, insbesondere phonologischen Fragen u. a. bezüglich Opposition und Distinktivität (vgl. 1.2.1) nachzugehen. Auch für andere phonologische Themen‐ bereiche, wie etwa phonologische Prozesse (s. Kap. 7), sind distinktive Merkmale von zentraler Bedeutung. Natürlich sollen einige Vorteile dieses Systems bereits in diesem Kapitel herausgearbeitet werden, aber die Breite der Generalisierungs‐ möglichkeiten wird erst im Kontext der nachfolgenden Kapitel deutlich. Das System der distinktiven Merkmale ist besonders stark an der Schnittstelle von Phonetik und Phonologie verankert. In den Abschnitten dieses Kapitels werden folgende Themen vorgestellt: • das dem System zugrunde liegende Konzept, • die Rolle distinktiver Merkmale bei der Erfassung natürlicher Klassen, • die wichtigsten distinktiven Merkmale im Überblick und ihre jeweiligen Definitionen, • Vollspezifikation und Unterspezifikation, • eine Analyse der deutschen Phoneme mittels Merkmalbündeln. Bei der zuletzt genannten Analyse wird auf das in Hall (1997, 2011) postulierte System zurückgegriffen; anschließend werden Analysealternativen diskutiert. 5.1 Merkmale und natürliche Klassen In Kapitel 4 haben wir uns bereits lautliche Merkmale wie etwa Stimmhaftigkeit oder Lippenrundung im Rahmen der Beschreibung von Einzellauten bzw. Lautkategorien (z. B. Frikative) angeschaut. Merkmale wie diese stehen im Zentrum der Theorie der distinktiven Merkmale. Ähnlich wie bei der Artikulatorischen Phonologie (vgl. 2.4), wird auch bei dieser, zeitlich früher entwickelten und an Ideen Trubetzkoys anknüpfenden phonologischen Theorie (s.-u.), das Phonem in kleinere subphonemische Einheiten - die distinktiven Merkmale - zerlegt. Jedes Phonem ist durch ein eindeutiges Set unterschied‐ licher distinktiver Merkmale charakterisiert. Die phonologische Opposition zwischen zwei Phonemen kann sich in nur einem distinktiven Merkmal manifestieren (z. B. / f/ vs. / v/ ) <?page no="199"?> oder auch in mehreren (z. B. / f/ vs. / n/ ). Die Beschreibung einzelner Phoneme mittels distinktiver Merkmale ist jedoch nicht das primäre Ziel. Ein Ziel war u. a., ein minimales Merkmalsystem zu erstellen, mit dem alle Konso‐ nanten und Vokale einheitlich beschrieben werden können, und nicht wie im IPA unter Verwendung unterschiedlicher Klassifikationsparameter (z.-B. Artikulationsstelle und Konstriktionstyp vs. Zungenposition und Zungenhöhe, vgl. Kap. 4). Das erste dieser Klassifikationssysteme basierte auf 12 Merkmalen, mit denen sich nach Ansicht der Autoren alle phonologischen Oppositionen in den Sprachen der Welt erfassen ließen ( Jakobson et al. 1951), anstatt diese mit einer größeren Anzahl z. B. an IPA-Symbolen zu beschreiben. In dem darauf aufbauenden Klassifikationssystem, das in The Sound Pattern of English von Chomsky und Halle (1968; oft als SPE abgekürzt) eingeführt wurde, wurde die Anzahl dann erhöht. Auch wenn es in diesem sehr einflussreichen Werk um die Beschreibung des Englischen ging, so sollte das System anwendbar auf alle Sprachen sein. Doch bevor wir einige der distinktiven Merkmale im Einzelnen vorstellen, gilt es zunächst zu klären, was Merkmale eigentlich ausmacht und welchen Zweck sie erfüllen. Merkmale selbst sind phonetisch definiert, je nach Theorie eher artikulatorisch (z. B. Chomsky & Halle 1968) oder auch akustisch-auditiv (z. B. Jakobson et al. 1951). Sie dienen aber primär phonologischen Zwecken. Es handelt sich hierbei in erster Linie um zwei Aufgaben: Einerseits sind sie notwendig für die Erfassung natürlicher Klassen. Diese Klassen setzen sich aus Sprachlauten zusammen, die mindestens eine phonetische Eigenschaft, genauer ein Merkmal, gemein haben. Des Weiteren gilt folgende Einschränkung: Zwei oder mehr Laute bilden eine natürliche Klasse nur dann, wenn weniger Merkmale gebraucht werden, um diese Klasse zu spezifizieren, als ein einzelner Laut hat, der zu dieser Klasse gehört. (Hall 2011: 122) So bilden etwa die Vokale eine natürliche Klasse, die sich von der natürlichen Klasse der Konsonanten unterscheidet. Innerhalb der Konsonanten wiederum gibt es auf der einen Seite die natürliche Klasse der stimmhaften Laute und auf der anderen Seite die der stimmlosen Laute. Andererseits sollen mithilfe der Merkmale alle phonemischen Oppositionen erfasst werden, die in den Sprachen der Welt vorkommen. Es geht also speziell darum, festzustellen, ob ein Merkmal in einer Sprache eine distinktive Funktion ausübt oder nicht. Es handelt sich um ein endliches Set an Merkmalen, wobei die Anzahl der distinktiven Merkmale auch innerhalb einer Sprache je nach autorenabhängiger Analyse variieren kann (s. z.-B. 5.1.4). Merkmale werden in eckigen Klammern und in der Regel abgekürzt dargestellt, wobei die Abkürzungen sich wiederum auf Begriffe beziehen können, die autorenabhängig sind. So wird etwa das Merkmal stimmhaft im Deutschen häufig als [sth] abgekürzt (s. 5.1.2). Unter phonologischen Gesichtspunkten fallen Stimmhaftigkeit oder Lippenrundung in die Kategorie der sogenannten binären Merkmale, die zunächst als solche durch 198 5 Distinktive Merkmale <?page no="200"?> 41 Unter phonetischen Gesichtspunkten können auch diese Merkmale graduell sein, nämlich dann, wenn Segmente teilweise entstimmt sind und mit etwas mehr oder weniger Lippenrundung realisiert werden (vgl. 4.5). das Plusminuszeichen gekennzeichnet werden. Je nach Laut bzw. natürlicher Klasse wird dann spezifiziert, ob das Merkmal zutrifft (markiert durch +) oder eben nicht (markiert durch −). 41 Das Merkmal der Stimmhaftigkeit wird also mit [±sth] angegeben und / s/ und / z/ entsprechen [−sth] bzw. [+sth]. Bei anderen Merkmalen wie etwa dem der Vokalhöhe ist die Anwendung binärer Merkmale komplizierter, da ein nicht geschlossener Vokal nicht zwangsläufig ein offener sein muss. Die zunehmende Komplexität insbesondere bei der Erfassung der natürlichen Klassen, die die Artikulationsstelle betreffen, hat dazu geführt, dass eine weitere Merkmalkategorie eingeführt wurde, nämlich die der privativen Merkmale. Mithilfe dieser Merkmalkategorie kann gekennzeichnet werden, dass zum Beispiel / t, d, n, s, z, r, l, j/ die natürliche Klasse alveolarer Phoneme bildet. / p, b, m, f, v/ hingegen sind nicht Teil dieser natürlichen Klasse, genauso wenig wie / k, ɡ, ŋ, ç, ʁ/ . Obwohl die Unterscheidung zwischen labialen (d. h. bilabialen und labiodentalen), alveolaren und palatal/ velaren Lauten mittels binärer Merkmale möglich wäre, so ist die eindeutige Ortsklassifikation mithilfe privativer Merkmale einfacher (mehr dazu in 5.1.4). Phoneme können mithilfe eines eindeutigen Sets binärer und ggf. privativer dis‐ tinktiver Merkmale beschrieben werden. Merkmale sind grundsätzlich phonetisch definiert. Sie sind in einer Sprache distinktiv, wenn sie in dieser zur Bildung einer phonologischen Opposition beitragen. Sie dienen der Erfassung größerer natürli‐ cher Klassen, in die diejenigen Sprachlaute fallen, die sich ein distinktives Merkmal teilen. Mit ihnen sollen zudem alle in den Sprachen der Welt vorkommenden phonologischen Oppositionen beschrieben werden können. Die hier schon genannten Beispiele zeigen deutlich, dass natürliche Klassen aus sehr un‐ terschiedlichen Lauten bestehen können. Die natürliche Klasse stimmhafter Laute umfasst neben einem Teil der Konsonanten auch alle Vokale. Die Beschreibung von Einzellauten mithilfe von Merkmalen ist zwar möglich, aber dafür ist das IPA besser geeignet. Mithilfe der Merkmale sollen v.-a. große natürliche Klassen wie die der Stimmhaftigkeit oder der Vokale beschrieben werden, da dadurch v. a. phonologische Generalisierungen, Regeln und Prozesse elegant beschrieben werden können (s. Kap.-7). In den nachfolgenden Abschnitten werden die wichtigsten Merkmale vorgestellt, wobei auch auf ihre phonetische Natur eingegangen wird (d.-h., ob sie artikulatorisch oder akustisch definiert sind). Wir folgen dabei den Analysen von Hall (1997, 2011) und Ladefoged (1997), die bei der Mehrheit von Merkmalen von artikulatorischen Definitionen ausgehen. 5.1 Merkmale und natürliche Klassen 199 <?page no="201"?> 5.1.1 Oberklassenmerkmale Große natürliche Klassen wie etwa die der Konsonanten und Vokale werden mithilfe sogenannter Oberklassenmerkmale (Engl. major-class features) erfasst. Zu ihnen zählen ausschließlich binäre Merkmale, d. h. die phonetischen Bedingungen liegen einem Laut entweder zugrunde oder nicht. Diese sind: [±konst] konsonantisch Verengung im Ansatzrohr? [±son] sonorantisch u.a. konstanter Luftdruck an Enge? [±aprx] approximantisch minimale Verengung, nicht friktionsbildend? Das Fragezeichensymbol markiert in dieser und den nachfolgenden Merkmalübersich‐ ten die Möglichkeit, die phonetische Beschreibung als zutreffend anzunehmen oder abzulehnen. Das Merkmal [±kons] beschreibt, ob es während der Sprachlautproduktion zu einer Verengung im Ansatzrohr kommt. Der Grad der Verengung spielt dabei keine Rolle (s. hierzu 5.1.3). Vokoide gehören eindeutig zur natürlichen Klasse, die [−kons] sind (vgl. 4.1). Konsonanten wie etwa Plosive oder Nasale sind hingegen eindeutig [+kons]. Weitere große natürliche Klassen, die sich nur in den Oberklassenmerkmalen unterscheiden, bilden einerseits die sogenannten Obstruenten (Engl. obstruents), zu denen Plosive und Frikative zählen, und andererseits die Sonorlaute oder Sonoranten (Engl. sonorants) wie Nasale, Vibranten, Laterale und Approximanten. Der Begriff sonor, der im Allgemeinen mit volltönend beschrieben werden kann, liegt dem Oberklassenmerkmal [±son] zugrunde, das insbesondere im Kontext von [+kons] relevant ist und dort die Trennung der natürlichen Klassen der Obstruenten und Sonoranten ermöglicht. Phonetisch kann das Merkmal aber nicht nur auditiv, sondern auch artikulatorisch wie folgt definiert werden: Es beschreibt den Luftdruck nach der Verengung, der wiederum akustisch-auditiv zum sonoren oder eben auch nicht-sonoren Charakter von Lauten beiträgt. Obstruenten weisen einen erhöhten Luftdruck an der Verengung auf und sind somit [−son]; Sonoranten hingegen weisen keinen erhöhten Luftdruck an der Verengung auf und sind somit [+son]. Konkreter: Während also ein Plosiv aufgrund des oralen Verschlusses durch einen Anstieg des supraglottalen Luftdrucks charakterisiert und daher [−son] ist, bleibt dieser Luftdruck bei Nasalen verhältnismäßig konstant, da der Luftstrom durch den zugeschalteten Nasenraum entweichen kann. Nasale sind daher [+son]. Auch Vokale sind grundsätzlich [+son], allerdings steckt diese Information bereits in der Wertung [−kons] (s. 5.2). Anders gesagt: Warum sollte man den Luftdruck bewerten, wenn dieser aufgrund einer per se fehlenden Enge im Ansatzrohr kon‐ 200 5 Distinktive Merkmale <?page no="202"?> stant sein muss? Konstanter Luftdruck geht in der Regel mit dem artikulatorischen Korrelat der Stimmlippenschwingung einher, umgekehrt aber kann aus der Präsenz von Stimmlippenschwingung nicht zwangsläufig ein konstanter Luftdruck abgeleitet werden, schließlich können auch Obstruenten stimmhaft realisiert werden. Laute mit dem Merkmal [+son] können also einerseits sehr große artikulatorische Unterschiede aufweisen, teilen aber andererseits alle die akustischen Eigenschaften Quasiperiodizität und Formantstruktur. Aus diesem Grund zählt Ladefoged (1997) das Merkmal [+son] zu den akustisch definierten Merkmalen. Mithilfe des Merkmals [±aprx] können wiederum v. a. in der Gruppe der [+kons] Laute relevante phonemische Oppositionen kenntlich gemacht werden. Während [−son] Laute grundsätzlich auch [−aprx] sind, können [+son] Laute sowohl [−aprx] als auch [+aprx] sein. Das Merkmal beschreibt die Möglichkeit, Laute mit einer minimalen Enge im Ansatzrohr zu bilden, die zu keinen Luftturbulenzen bei der Lautproduktion führt (Clements 1990). Im Deutschen zählen beispielsweise / l, j/ (z. B. in lagen bzw. jagen) zu den [+aprx] Lauten (zur Distinktivität dieses Merkmals im Deutschen s. aber 5.3), im Englischen auch / w/ (wie in what). Nasale hingegen sind [+son, −aprx], da die Enge im Ansatzrohr maximal bleibt, unabhängig vom nasal entweichenden Luftstrom. 5.1.2 Laryngale Merkmale Laryngale Merkmale (Engl. laryngeal features) beschreiben den Zustand der Stimmlip‐ pen während der Lautproduktion. Zu diesen Merkmalen, die wiederum binär sind, zählen: [±sth] stimmhaft Stimmlippenschwingung? [±asp] aspiriert Stimmlippen gespreizt? [±glott] verengte Glottis Glottisverschluss? Das Merkmal [±sth] gibt an, ob Sprachlaute mit oder ohne Stimmlippenschwingung realisiert werden (vgl. 2.3). Im Rahmen phonemischer Distinktionsmöglichkeiten spielt das Merkmal hauptsächlich bei Obstruenten eine Rolle. Auch wenn in einigen Sprachen wie etwa Isländisch auch Nasale entstimmt werden können (vgl. 4.2.2), so sind [+son] Laute doch zunächst einmal grundsätzlich stimmhaft. Im Deutschen, wie in vielen anderen Sprachen auch, trifft die phonemische Distinktionsmöglichkeit des Merkmals [±sth] genaugenommen (d. h. im Sinne phonetisch definierter Merkmale) nur auf Frikative zu. Bei Plosiven hingegen kommt Stimmhaftigkeit - wenn überhaupt - nur im intervokalischen Kontext vor (vgl. 4.2.1.2). Die phonemische Opposition zwischen Lauten wie / b, d, ɡ/ einerseits und / p, t, k/ andererseits manifestiert sich in Sprachen wie etwa dem Deutschen vielmehr im binären Merkmal [±asp]. Aus Gründen der Anschaulichkeit folgen wir hier dieser 5.1 Merkmale und natürliche Klassen 201 <?page no="203"?> Abkürzung, die auch Hall (2011) verwendet. Das der Abkürzung zugrunde liegende Merkmal Aspiration ist aber nur das Resultat der Stimmlippen-Spreizung, weswegen in der englischsprachigen Literatur häufig die Bezeichnung [±spread glottis] zu finden ist (z. B. Halle & Stevens 1971, die das Merkmal einführten; Cho et al. 2002). Bei Lauten, die [+asp] sind, wie [pʰ, tʰ, kʰ], ist die Glottis geöffnet, was nach der Verschlussöffnung von Plosiven zu Aspiration und einem zeitlich verzögerten Stimmtoneinsatz führt (vgl. 4.2.1.2). Das Merkmal der geöffneten Glottis gilt auch für / h/ (Halle & Stevens 1971), allerdings ist in unserem Fall die Spezifikation von / h/ als [+asp] weder zielführend (da keine Opposition, vgl. aber die Beschreibung als behaucht in 4.2.4) noch notwendig, da / h/ mittels anderer Merkmale eindeutig bestimmt wird. Im Gegensatz zu den Phonemen / p, t, k/ handelt es sich bei den Phonemen / b, d, ɡ/ im Deutschen um Laute, auf die die Merkmale [−sth] und [−asp] zutreffen. Als Alternative zu diesen Merkmalen argumentierte Kohler (1984) für ein Merkmal [±fortis]. Das Merkmal [±glott] (eigentlich Engl. constricted glottis, vgl. Clements 1990) zeigt an, ob die Stimmlippen einen (fast) vollständigen Verschluss bilden. Der Glottalver‐ schluss / ʔ/ ist ein Beispiel für einen Laut, auf den das Merkmal [+glott] zutrifft. Im Deutschen wäre das Merkmal [±glott] nur dann distinktiv, wenn man den Glottalver‐ schluss als Phonem zählte. In anderen Sprachen kann das Merkmal aber durchaus distinktiv sein, da v. a. die mit einem glottalen Luftstrommechanismus realisierten Ejektive und Implosive unabhängig von der Artikulationsstelle zu [+glott] Lauten zu zählen sind (vgl. 2.3.2); diese bilden wiederum häufig eine phonemische Opposition zu pulmonal realisierten Plosiven. 5.1.3 Merkmale des Konstriktionstyps In dieser Kategorie werden Merkmale zusammengefasst, die sich - ähnlich der Ober‐ klassenmerkmale - auf den während der Lautproduktion entweichenden Luftstrom beziehen. Im Gegensatz zu Oberklassenmerkmalen beschreiben die Merkmale des Konstriktionstyps (Engl. manner features) allerdings sehr viel genauer die Art der Verengung im Ansatzrohr, weswegen sie auch als Ansatzrohrmerkmale bezeichnet werden können. Zu diesen Merkmalen zählen u.a.: [±kont] kontinuierlich kontinuierlicher Luftstrom? [±nas] nasal Velum gesenkt? [±lat] lateral Zungenränder gesenkt? [±sibil] sibilantisch hohe Intensität in oberer Frequenzlage? Warum bedarf es dieser zusätzlichen Merkmale? Um dies zu verdeutlichen, werden diese Merkmale im Folgenden immer im Vergleich zu den Oberklassenmerkmalen beschrieben. 202 5 Distinktive Merkmale <?page no="204"?> Das Merkmal [±kont] beschreibt, ob der Luftstrom kontinuierlich entweichen kann, und zwar unabhängig des Luftdrucks an der Enge. Plosive und Frikative zählen zur Oberklasse der Obstruenten und sind daher durch die Merkmale [+kons, −son] verbunden. Sie unterscheiden sich jedoch im distinktiven Merkmal [±kont]: Plosive sind [−kont], da das Entweichen des Luftstroms für eine kurze Zeit unterbrochen wird; Frikative sind [+kont], da der Luftstrom kontinuierlich entweichen kann, ungeachtet des erhöhten Luftdrucks vor und der daraus resultierenden Luftturbulenzen nach der Enge. Weitere [−kont] Laute sind Taps oder Affrikaten. Ob Nasale und Laterale als [+kont] gewertet werden, hängt von der Analyse ab: Traditionellerweise liegt der Fokus auf dem Verschluss im Oropharynx und Nasale und Laterale werden als [−kont] klassifiziert, da es zu einem (zumindest teilweisen) oralen Verschluss kommt und der Luftstrom eben nur bedingt (im Falle von Lateralen) oder gar nicht (im Falle von Nasalen) oral entweichen kann (s. z. B. Hall 2011: 108). Betrachtet man hingegen auch den Nasopharynx als Teil des Ansatzrohres, so kann man auch Nasale und Laterale zu den [+kont] Lauten zählen (vgl. z. B. Mielke 2008: 65). Wie eine Analyse ausfällt, hängt dabei häufig vom funktionalen Verhalten der Nasale und Liquide (= Laterale und Vibranten) in einer bestimmten Sprache ab. Weisen sie etwa mit Blick auf phonologische Prozesse (s. Kap. 7) mehr Ähnlichkeiten mit [-kont] Lauten auf, werden sie ebenfalls zu diesen gezählt und andersherum. In einem Vergleich von 34 Sprachen kam Mielke (2008) zu dem Ergebnis, dass sich Nasale in knapp 74 % der Sprachen wie [+kont] Laute verhielten. Analysen wie diese zeigen auch, dass, trotz der zugrunde liegenden phonetischen Definition der einzelnen Merkmale, das phonologische Verhalten von Lauten in einer Sprache über die Merkmalzuordnung in dieser Sprache entscheiden kann. Alle anderen Laute (z. B. Vokale) sind eindeutig [+kont]. Das Merkmal [±nas] beschreibt die Stellung des Velums: Bei Lauten, die [−nas] sind, ist das Velum gehoben, bei [+nas] Lauten ist es gesenkt. Nasale und Plosive unterscheiden sich also nicht nur im Merkmal [±son], sondern auch im Merkmal [±nas]. Unter den [+son] Lauten gibt es jedoch auch sehr viele [−nas] Laute, wie etwa / l, r, j/ , die dieses Merkmal distinktiv werden lassen. Mithilfe des Merkmals [±lat] wird angegeben, ob der oral gebildete Verschluss lateral [+lat] oder zentral [-lat] gebildet wird, d. h. ob die Zungenränder gesenkt sind oder nicht. Während ein Nasal also [+son, -lat] ist, trifft auf einen Lateral die Kombination [+son, +lat] zu. Im Fall von [+lat] ist die Angabe von [+son] redundant, im Falle von [-lat] nicht. Das Merkmal [±sibil] ist besonders relevant für Sprachen, die innerhalb der Klasse der Frikative viele Artikulationsstellen funktional nutzen. Es beschreibt für diesen Kon‐ striktionstyp die Präsenz bzw. Absenz hoher Intensität im oberen Frequenzbereich und zählt somit zu den eher akustisch definierten Merkmalen (z. B. Jakobson et al. 1951, vgl. aber Kim et al. 2015 für andere phonetische Definitionen). Auditiv werden sogenannte Sibilanten, die allesamt koronal gebildet werden, durch ein Zischen charakterisiert (daher mitunter auch Zischlaute). Während Ladefoged (1997) das Merkmal mit dem 5.1 Merkmale und natürliche Klassen 203 <?page no="205"?> eher auditiven Begriff sibilantisch (Engl. sibilant) bezeichnet, verwenden Chomsky & Halle (1968) den eher akustischen englischen Begriff strident. Beide Termini können im Rahmen der Einführung synonym verwendet werden. Englisch gehört zu den Sprachen, in denen das Merkmal als distinktiv gilt: / s/ (wie in sin [sɪn]) ist [+sibil] und / θ/ (wie in thin [θɪn]) ist [-sibil] (Ladefoged & Maddieson 1996: 144-164). Stellt man die distinktiven Merkmale des Deutschen zusammen, so kommt man - unter Annahme zusätzlicher Ortsmerkmale (s. 5.1.4) - auch ohne das Merkmal [±sibil] aus. Dennoch wird es auch immer wieder als distinktives Merkmal des Deutschen aufgeführt, z. B. um die Opposition zwischen / t/ in reiten und / ts/ in reizen anzuzeigen (z. B. Kim et al. 2015: 179; Voraussetzung ist dabei die monophonematische Wertung der Affrikate, vgl. 4.2.5). 5.1.4 Ortsmerkmale Zu den Ortsmerkmalen (Engl. place features) zählen sowohl binäre als auch privative Merkmale, mittels derer entweder die Artikulationsstelle bei Konsonanten oder die Zungenhöhe sowie Zungenposition bei Vokalen spezifiziert wird. - 5.1.4.1 Binäre Merkmale Zu den binären Merkmalen zählen: [±ant] vorne (anterior) Artikulation alveolar oder dental? [±hint] hinten Zunge(nrücken) hinten? [±kor] koronal koronale Artikulation? [±hoch] hoch Zunge(nrücken) hoch? [±tief] tief Zunge(nrücken) tief ? [±rund] rund Lippen gerundet? [±gesp] gespannt artikulatorisch präziser? auditiv länger? Im Gegensatz zu den bisher vorgestellten Merkmalen, wird bereits anhand der Auflis‐ tung der ersten fünf Ortsmerkmale deutlich, dass sich Gegensätze anscheinend nicht mehr per se ausschließen. Die Spezifizierung vermeintlicher Gegensätze ist in diesem Fall nicht redundant. Zwar gilt auch bei diesen binären Merkmalen weiterhin, dass die Präsenz eines phonetischen Merkmals mit + und die Absenz mit - gekennzeichnet werden kann, aber aus einer Merkmalabsenz kann nicht länger automatisch der gegenteilige Zustand abgeleitet werden, wie die nachfolgenden Beispiele zeigen. 204 5 Distinktive Merkmale <?page no="206"?> 42 Als Grenze galt dabei der postalveolare Bereich, der den Beginn des hinteren Artikulationsraumes markierte (z.-B. Chomsky & Halle 1968). Beschrieb das Merkmal [±ant] zunächst nur, ob ein Laut vorne realisiert wird oder nicht (also hinten), 42 so bezieht sich das Merkmal inzwischen nur noch auf die alveolare und dentale Artikulationsstelle (s. +anterior in Abb. 66). / n/ ist demnach [+ant], wäh‐ rend sowohl / m/ als auch / ŋ/ [-ant] sind. Da / m/ aber im Gegensatz zu / ŋ/ viel weiter vorne im Vokaltrakt realisiert wird, kann nur die Hinzuziehung des Merkmals [±hint] die distinktive Funktion auf Ebene der Artikulationsstelle kennzeichnen (s. ±back in Abb. 66): während also / m/ [-ant, -hint] ist, so gilt für / ŋ/ die Merkmalkombination [-ant, +hint]. Das Merkmal [±kor] zeigt an, ob bei der Konsonantenartikulation der vordere Teil der Zunge involviert ist, also entweder die Zungenspitze oder das Zungenblatt. Die Gruppe der koronalen Laute umfasst vergleichsweise viele Artikulationsstellen, nämlich die dentale, alveolare, postalveolare, retroflexe und ggf. auch die palatale (s. ±coronal in Abb. 66). Letztere kann je nach Analyse und Konstriktionstyp auch als dorsal klassifiziert werden (vgl. Hall 1997, 2011: 112). Laute, die an anderen Artikulationsstellen gebildet werden sind nicht koronal. Um Phonemunterschiede innerhalb der Klasse koronaler Laute aufzuzeigen, wird wieder auf das Merkmal [±ant] zurückgegriffen: Demnach sind sowohl / s/ als auch / ʃ/ [+kor], aber während der alve‐ olare Frikativ [+ant] ist, trifft dies nicht auf den postalveolaren Frikativ zu. Das Beispiel von oben aufgreifend, könnten wir zudem feststellen, dass sich / n/ von / m, ŋ/ nicht nur im Merkmal [±ant], sondern auch im Merkmal [±kor] unterscheidet. Das Merkmal [±hint] wird allerdings weiterhin für die Distinktion von / m/ und / ŋ/ benötigt. Abb. 66: Unterteilung des Vokaltraktes mittels binärer Merkmale (aus Ladefoged 1971: 101). 5.1 Merkmale und natürliche Klassen 205 <?page no="207"?> Die Merkmale [±hoch] und [±tief] dienen zusammen mit dem bereits eingeführten Merkmal [±hint] inzwischen hauptsächlich der Kennzeichnung distinktiver Quali‐ tätsunterschiede bei Vokalen (s. ±high und ±low in Abb. 66). Im Rahmen einer ausschließlich auf binären Merkmalen basierenden Theorie sind sie jedoch auch für die Unterscheidung von Konsonanten, insbesondere im hinteren Bereich des Ansatzrohres (s. Tab. 9), nützlich. Erklärt werden sie jedoch anhand von Vokaldistinktionen. Alle drei Merkmale beziehen sich auf den höchsten Punkt des Zungenrückens (vgl. 4.3). Zu den Vokalen, die [+hoch] sind, zählen die geschlossenen Vokale wie / i/ und / u/ , zu den Vokalen, die [-hoch] sind, die halbgeschlossenen, halboffenen und offenen Vokale. Letztere kann man auch eindeutig mit dem Merkmal [±tief] kennzeichnen. Auf halbgeschlossene und halboffene Vokale hingegen triff nur die Kombination [-hoch, -tief] zu. Die Unterscheidung zwischen halbgeschlossenen und halboffenen Vokalen wird in Sprachen wie dem Deutschen über zusätzliche Merkmale getroffen, da sie nicht nur in diesem einen Merkmal distinktiv sind (s. 5.3). Aus dem gleichen Grund genügt es vordere und hintere Vokale durch ein Merkmal zu differenzieren, hier [±hint]. Die Anzahl der vokalischen ‚Artikulationsstellen‘ ist im Vergleich zu den konsonantischen Artikulationsstellen sehr viel geringer (vorne, zentral, hinten). Vordere Vokale wie / i/ , / y/ oder / e/ sind [-hint]. Zu Lauten, die [+hint] sind, zählen neben den eindeutig hinteren Vokalen auch zentrale Vokale wie / a/ und / ə/ im Deutschen (s. 5.3). Auch das Merkmal [±rund] dient vornehmlich der Unterscheidung von Vokalpho‐ nemen. Vordere und hintere Vokale können sich in der Lippenrundung unterscheiden (vgl. 4.3), auch wenn dieses Merkmal in vielen Sprachen nicht distinktiv genutzt wird. So handelt es sich zwar bei / i/ und / u/ wie sie etwa im Deutschen (als Langvokale) oder im Spanischen vorkommen um Phoneme, die [-rund] bzw. [+rund] sind, die phonologische Opposition wird aber bereits mit dem Merkmal [±hint] erfasst (alle anderen Merkmale sind gleich). Anders bei den Vokalen, auf die u. a. die Merkmale [-tief, -hint] zutreffen und die im Deutschen oder Französischen, nicht aber im Spanischen, eine phonologische Opposition in der Lippenrundung bilden: Hier werden z. B. / i/ und / e/ durch die distinktiven Merkmale [-tief, -hint, -rund] beschrieben und so die Opposition zu / y/ bzw. / ø/ erfasst, auf die das Merkmalbündel [-tief, -hint, +rund] zutrifft. Denkbar wäre es auch, den Unterschied in der Lippenrundung zwischen / s/ und / ʃ/ (vgl. 4.2.4) mittels dieses Merkmals zu kennzeichnen (s. Tab. 11 in 5.2). Da hier aber zumindest auf Ebene der Phonologie die Artikulationsstelle und nicht die Lippenrundung als distinktiv angenommen wird, verwendet man für die Illustration der Opposition entsprechend andere Merkmale (z.-B. [±ant], s. 5.3). Das Merkmal [±gesp] (Engl. [±tense]) gehört nicht zwangsläufig zu den Ortsmerk‐ malen, wird hier aber aufgrund seiner Rolle bei der Vokaldistinktion u. a. im Deutschen im Rahmen der Ortsmerkmale beschrieben. Wie bereits in 4.3 diskutiert, legt der Begriff einen möglichen Unterschied in der (muskulären) Spannung bei der Artikulation nahe, ohne dass dies empirisch eindeutig nachgewiesen ist. Dennoch ist dieses Merkmal unter dieser Benennung nicht nur weit verbreitet, sondern ihm wird auch der Vorzug 206 5 Distinktive Merkmale <?page no="208"?> gegenüber alternativen Merkmalen wie [±lang] gegeben (s. u. und Hall 2011: 131). Doch bleiben wir zunächst bei dem Merkmal [±gesp]. Mit Blick auf Vokale kann man den Begriff ‚gespannt‘ auf den akustischen Vokalraum übertragen, wobei Vokale, auf die [+gesp] zutrifft, stärker an der Peripherie des Vokalraums realisiert werden als Vokale, die [-gesp] sind. Dies geht einher mit der ursprünglichen Definition dieses Merkmals, wonach Phoneme, die [+gesp] sind, mit größerer Deutlichkeit und mehr Druck artikuliert werden ( Jakobson et al. 1951). Die Vokale / iː/ und / uː/ im Deutschen sind [+gesp] und unterscheiden sich nur in diesem distinktiven Merkmal von / ɪ/ bzw. / ʊ/ , die beide jeweils [-gesp] sind. Liegt dem Merkmal [±gesp] diese Definition zugrunde, so kann man es in der Tat den Ortsmerkmalen zurechnen. Allerdings wurde das Merkmal schon bei Jakobson et al. (1951) explizit mit Blick auf dessen akustisch-auditive Eigenschaften beschrieben (trotz der artikulatorischen Definition). Nutzt eine Sprache dieses Merkmal distinktiv (egal ob bei Vokalen oder Konsonanten, s. u.), so manifestiert sich die Opposition akustisch oft auch in einer deut‐ lich unterschiedlichen Segmentdauer. Man könnte also die Frage aufwerfen, warum man stattdessen nicht einfach mit einem Merkmal [±lang] arbeitet, das die Quantität von Segmenten angibt (vgl. 4.2.1.2 und 4.3). Im Deutschen sind / iː/ und / uː/ schließlich nicht nur [+gesp], sondern auch [+lang] und / ɪ/ und / ʊ/ sind nicht nur [-gesp], sondern auch [-lang]. Dieses Merkmal entspräche natürlich nur in manchen Fällen und dann auch nur sehr indirekt einem Ortsmerkmal. Dennoch ließen sich mit einem Merkmal [±lang] auch Oppositionen im Bereich der phonologischen Stimmhaftigkeit erfassen, wie etwa die Fortis/ Lenis-Opposition im Deutschen, da Fortisplosive in der Regel eine längere Verschlussdauer aufweisen als Lenisplosive (vgl. 4.2.1.2). Gleichzeitig können diese Oppositionen aber auch weiterhin mit dem Merkmal [±gesp] erfasst werden. Dies verdeutlicht wiederum, dass beide Merkmale in engem Bezug zu laryngalen Merkma‐ len stehen und phonologische Oppositionen häufig nur in Verbindung mit diesen beschrieben werden können (z. B. die Dreifach-Opposition zwischen Lenisplosiven, Fortisplosiven und aspirierten Plosiven im Koreanischen, Kim & Clements 2015). Das Merkmal [±gesp] wird insbesondere in der Phonologie einem Merkmal [±lang] vorgezogen, auch weil es zusätzliche Unterschiede im artikulatorisch-akustischen Bereich abdeckt. Dies bedeutet jedoch nicht, dass man in einem solchen (linearen) Modell zwangsläufig ohne das Merkmal [±lang] auskommen kann; z. B. dann nicht, wenn sich ein Merkmalwert nicht aus einem anderen ableiten lässt (s. 5.2 und 5.3). Das Merkmal [±lang] wird zudem auch für die Erfassung sprachabhängiger silbischer Eigenschaften verwendet; in 6.2.2 lernen wir aber einen nicht linearen phonologischen Ansatz kennen, der diese silbischen Eigenschaften ohne das Merkmal [±lang] erfassen kann. Darüber hinaus gibt es weitere, z.T. wieder eindeutigere binäre Ortsmerkmale, wie z. B. das viel genutztes Merkmal [±ATR], das für Advanced Tongue Root steht und das phonetisch gut untersucht ist (vgl. Beltzung et al. 2015). Auf phonologischer Ebene werden mittels dieses Merkmals z. B. phonologische Lautangleichungsprozesse wie die Vokalharmonie beschrieben (s. 7.3.4). Für uns interessanter ist jedoch, dass es sich 5.1 Merkmale und natürliche Klassen 207 <?page no="209"?> auch bei [±ATR] um ein Merkmal handelt, das oft mit dem Merkmal [±gesp] korreliert, wobei [+gesp] mit [+ATR] und umgekehrt einhergeht (vgl. Ladefoged & Maddieson 1996). In einer Merkmalmatrix werden die Werte aller relevanten Merkmale spezifiziert, um die Phoneme einer Sprache eindeutig zu erfassen. Ziel dabei ist, so viele Merkmale wie notwendig und so wenig Merkmale wie möglich zu verwenden. Tab. 9 zeigt eine sogenannte Merkmalmatrix mit der expliziten Spezifikation der oben eingeführten Ortsmerkmalen für die Frikative, die im Deutschen distinktiv sind. Innerhalb der natürlichen Klasse der Frikative kann die distinktive Funktion jeder Artikulationsstelle durch die Kombination der spezifizierten binären Ortsmerkmale eindeutig angezeigt werden, d. h. jede Spezifikation ist einmalig, keine Spalte weist die gleiche Wertekombination auf. Möchte man nur zwei Artikulationsstellen gegen‐ überstellen, so kann man auf einige der Merkmale verzichten, so z. B. auf [±ant] beim Vergleich des uvularen und glottalen Frikativs. - f v s z ʃ ʒ ç ʁ h [±ant] − + − − − − [±hint] − − - - + + [±kor] − + + − − − [±hoch] − − + + − − [±tief] − − − − − + Tab. 9: Merkmalmatrix mit Spezifikationen binärer Ortsmerkmale für die Frikative des Deutschen. Diese Tabelle präsentiert einen Lösungsvorschlag, der sich eng an den zugrunde liegen‐ den phonetischen Definitionen orientiert. Mit ihr soll v. a. die Möglichkeit verdeutlicht werden, allein mithilfe binärer Merkmale, die Artikulationsstellen in einer natürlichen Klasse zu unterscheiden, die durch viele funktional genutzte Artikulationsstellen charakterisiert ist. Die Tabelle erhebt hingegen keinen Anspruch, die beste Analyse zu präsentieren. Im Gegenteil - es sei an dieser Stelle auch auf andere Analysen verwiesen: So zählen laut Hume (1994) etwa auch palatale Frikative zu den koronal gebildeten Lauten. Für eine solche Argumentation spricht das Verhalten dieser Laute, wenn man sie diachron und typologisch analysiert (s. aber Hall 1997). 208 5 Distinktive Merkmale <?page no="210"?> 43 Unabhängig von der Diskussion um binäre vs. privative Merkmale sei an dieser Stelle der Vollstän‐ digkeit halber auch auf die Diskussion um ein mögliches Merkmal [±dental] verwiesen, um z. B. im Englischen besser Frikative wie / s/ und / θ/ trennen zu können. Obwohl viele Ansätze im Rahmen der Theorie der distinktiven Merkmale ohne ein solches Merkmal auskommen (u. a. aufgrund des Merkmals [±sibil], vgl. 5.1.3), werden immer wieder Argumente für ein solches Merkmal vorgebracht (z.-B. Hall 2012). 44 Natürlich unterscheiden sich diese beiden Laute auch im Merkmal [sth]. Es wurde hier aber bewusst auf den Vergleich mit [x] verzichtet, da zwischen dem palatalen und dem velaren Laut im Deutschen keine phonologische Opposition besteht, weshalb das Ortsmerkmal keine distinktive Funktion haben kann. 5.1.4.2 Privative Merkmale Zur Beschreibung konsonantischer Artikulationsstellen bieten sich auch privative Merkmale an (Engl. privative oder univalent features, vgl. Gussenhoven & Jacobs 2017: 66). Dadurch wurde das Postulat früherer Ansätze, Merkmale seien grundsätzlich binär, aufgeweicht. Privative Merkmale werden durch Kapitälchen markiert. Treffen sie zu, so wird dies in Merkmalmatrizen wie der in Tab. 9 durch das Quadratwurzelzeichen kenntlich gemacht, treffen sie nicht zu erfolgt keine Kennzeichnung. Zu den privativen Merkmalen zählen: [ LA B ] = mit bzw. an den Lippen artikuliert? [ K O R ] = mit Zungenspitze oder -blatt artikuliert? [ D O R ] = mit dem Zungenrücken artikuliert? [ R AD ] = mit der Zungenwurzel artikuliert? Das Merkmal [ LAB ] trifft auf die Laute zu, bei deren Artikulation die Lippen direkt involviert sind, also labiale und labiodentale Laute. 43 Laute, die mit der Zungenspitze oder dem Zungenblatt realisiert werden, sind [ KO R ]. Es unterscheidet sich von dem binären Merkmal nicht in der Definition, sondern nur hinsichtlich der Spezifikation. Während / t/ also entweder als [+kor] oder [ K O R ] gekennzeichnet werden kann, so sind / p/ und / k/ nur hinsichtlich des binären Merkmals als [-kor] spezifiziert. Insbesondere bei diesem Merkmal gilt es also die Notation (± und Kleinbuchstaben oder Kapitälchen) zu beachten. Wie auch die binäre Entsprechung, so ist auch dieses Merkmal mitunter nicht eindeutig genug, um eine phonemische Opposition zu erfassen, weshalb auch das privative Merkmal ggf. durch das binäre Merkmale [±ant] näher spezifiziert werden muss (s. Tab. 10). Auch das Merkmal [ DO R ], das auf Laute zutrifft, die mit dem Zungenrücken artiku‐ liert werden, bedarf häufiger der Kombination mit dem binären Merkmal [±hint], um mehrere distinktiv genutzte Artikulationsstellen im hinteren Bereich des Vokalt‐ raktes zu kennzeichnen. Wird / ç/ etwa wie hier als dorsaler Laut betrachtet (nach Hall 2011), so unterscheidet er sich von / ʁ/ , der eindeutig [ DO R ] ist, hinsichtlich der Artikulationsstelle nur dahingehend, dass / ç/ [-hint] und / ʁ/ [+hint] ist. 44 Der uns 5.1 Merkmale und natürliche Klassen 209 <?page no="211"?> aus dem Englischen bekannte Approximant / w/ wie in what kann aufgrund seiner charakteristischen Doppelartikulation (vgl. 4.4) sowohl hinsichtlich der dorsalen als auch der labialen Artikulation spezifiziert werden, weswegen auf ihn - in Abhängigkeit der Analyse - zwei privative Merkmale zutreffen können: [ DO R ] und [ LAB ] (s. aber auch 5.2). Das Merkmal [ R AD ] trifft laut Hall (2011: 116) auf pharyngale Laute wie / ħ/ oder / ʕ/ zu, die zwar nicht im Deutschen, aber etwa in den Varietäten des Arabischen in Opposition zu anderen Lauten vorkommen. Es handelt sich hierbei um stimmhafte Laute, die im pharyngalen Bereich mit der Zungenwurzel realisiert werden. Auf die uns aus dem Deutschen bekannten Phoneme / h/ und / ʔ/ , trifft dieses Merkmal hingegen nicht zu. Sie haben laut Hall (2011: ebenda) keine Ortsmerkmale (vgl. auch 4.2.4). - f v s z ʃ ʒ ç ʁ h [ LAB ] √ - - - - - [ KO R ] - √ √ - - - [±ant] - + − - - - [ D O R ] - - - √ √ - [±hint] - - - − + - Tab. 10: Merkmalmatrix mit Spezifikationen binärer und privativer Ortsmerkmale für die Frikative des Deutschen. 5.2 Vollspezifikation und Unterspezifikation In 5.1.4.1 wurde darauf verwiesen, dass Gegensatzpaare wie [±hoch] vs. [±tief] sich nicht grundsätzlich ausschließen müssen, z. B. wenn halbhohe und halbtiefe Vokale, die beide [-hoch, -tief] sind, eine Opposition bilden. Ist ein Vokal jedoch [+hoch], kann er nicht gleichzeitig [+tief] sein; seine Spezifikation als [-tief] ergibt sich aus der Spezifikation als [+hoch]. Das System der distinktiven Merkmale enthält eine Reihe solch redundanter Informationen. Angaben zu Merkmalen können dann als überflüssig betrachtet werden, wenn sie eindeutig aus der Spezifikation eines anderen Merkmals abgeleitet werden können, darin also implizit enthalten sind. Ob ein Merkmal redundant ist oder nicht, hängt von der Sprache und der natürlichen Klasse ab. So ist z. B. das Merkmal [±rund] für die natürliche Klasse der (halb)hohen Vorderzungenvokale im Spanischen redundant, da [-kons, -tief, -hint] impliziert, dass der Vokal [-rund] ist. Im Deutschen oder Französischen gilt diese Implikation hingegen nicht, weswegen die Information zur Lippenrundung in diesen Sprachen bei dieser natürlichen Klasse nicht redundant ist. Aber auch im Deutschen kann das Merkmal [±rund] für bestimmte natürliche Klassen redundant sein (s.-u.). 210 5 Distinktive Merkmale <?page no="212"?> Seit den frühen Klassifikationssystemen haben sich in der Phonologie weitere Theorien zur sogenannten Unterspezifikation (Engl. underspecification) entwickelt, deren Ziel u. a. die Generierung unterspezifizierter Merkmalmatrizen für Phoneme einer Sprache ist (s. z.-B. Archangeli 1988, Steriade 1995). Unterspezifizierte Merkmalmatrizen enthalten nur die Spezifikationen, die für die Erfassung der zugrunde liegenden Formen notwendig sind und die sich nicht aus anderen Spezifikationen ableiten lassen. Vollspezifizierte Merkmalmatrizen enthalten hingegen auch redundante Informationen. Im Gegensatz dazu sind in einer vollspezifizierten Merkmalmatrix (Engl. fully specified feature matrix) auch die redundanten Merkmale enthalten. Vielfach wurde die vollspezifizierte Merkmalmatrix mit der phonetischen Oberflächenrealisierung assoziiert; die Vollspezifikation ist demnach aus der Unterspezifikation ableitbar. Ziel dieses Abschnittes ist es, einige solcher Redundanzen und Implikationen aufzuzeigen. Schauen wir uns dazu zunächst die Matrix in Tab. 11 an, die für ausge‐ wählte Phoneme des Deutschen und ausgewählte, eindeutig bestimmbare Merkmale aus den oben eingeführten vier Bereichen - Oberklasse, laryngal, Konstriktionstyp und Ort - vollspezifiziert ist. Für eine Übersicht zu allen Merkmalbündeln und Sprachlauten siehe Hall (2011: 117-118); zu weniger eindeutig bestimmbaren Merk‐ malen siehe 5.3. Diese Matrix basiert der Anschaulichkeit halber ausschließlich auf binären Merkmalen. Trotz der Vollspezifikation können nicht alle Felder ausgefüllt werden, einfach weil manche Merkmale für bestimmte Laute nicht spezifiziert sind. In einer vollspezifizier‐ ten Matrix signalisieren leere Felder, dass eine Angabe nicht sinnvoll ist. Im Deutschen ist etwa / a/ nicht spezifiziert für Lippenrundung: Der Kiefer ist weiter geöffnet, die Zunge tief; in dieser Position sind die Lippen weder eindeutig gespreizt noch gerundet und die Lippenrundung erfüllt keine distinktive Funktion. / p/ und / m/ hingegen sind für Lippenrundung spezifiziert, wenn auch nur, um die labiale Artikulationsstelle zu erfassen. Die Artikulationsstelle von / k/ und / ŋ/ wird wiederum über das Merkmal [±hoch] erfasst, das mit Blick auf die Position des Zungenrückens definiert ist und dessen velaren Verschluss beschreibt. Während die Spezifikation dieses Merkmals für labiale Laute nicht möglich ist, ergibt sich aus der Spezifikation der velaren Laute als [+hoch] auch deren Spezifikation als [-tief], wobei diese nur in vollspezifizierten Matrizen angegeben wird. 5.2 Vollspezifikation und Unterspezifikation 211 <?page no="213"?> p k m ŋ f ç i aː oː uː [±kons] + + + + + + − − − − [±son] − − + + − − + + + + [±sth] − − + + − − + + + + [±nas] − − + + − − − − − − [±hoch] - + - + - + + − - + [±tief] - − - − - - − + - − [±rund] - - - - - - - - + + Tab. 11: Vollspezifizierte Merkmalmatrix für ausgewählte binäre Merkmale und Phoneme des Deut‐ schen. Die Merkmalbündel sind nicht vollständig. In einer unterspezifizierten Matrix erhöht sich die Anzahl der leeren Felder aufgrund von implikationsbedingten Redundanzen zwischen Merkmalbündeln, wie etwa der von / k/ und allen anderen als [+hoch] spezifizierten Lauten, die zwangsläufig auch [-tief] sind (s. Tab. 12). Die Redundanzen, die sich aus den Implikationen ergeben, müssen dabei durch Redundanzregeln wie die in (18) und (19) erfasst werden können, wobei das Merkmal(bündel) links des Pfeils das Merkmal(bündel) rechts des Pfeils impliziert; dieses ist somit redundant. (18) [-kons, +hoch] → [-tief] (19) [-kons] → [+son, +sth, +kont] Tab. 11 lässt nicht nur den Schluss zu, dass [+hohe] Laute gleichzeitig [-tief] sind (Regel (18)), sondern auch, dass 1. die Implikation sich nicht aus [-tief] ableiten lässt (z.-B. bei / o/ ), 2. Laute, die [-kons] sind, auch [+son, +sth, +kont] sind (Regel (19)). Punkt 1 gilt nur für Laute, die [-kons] sind, da die Zwischenposition der Zungenhöhe nur bei Vokalen distinktiv ist. Mit Blick auf Punkt 2 könnte man für das Deutsche noch ergänzen, dass auch die fehlende Nasalierung bei nicht konsonantischen Lauten impliziert ist: (20) [-kons] → [-nas] Die Redundanzregel in (20) gilt allerdings nicht für das Französische und andere Sprachen, die zwischen Oral- und Nasalvokalen unterscheiden. Es handelt sich bei 212 5 Distinktive Merkmale <?page no="214"?> der Regel in (20) also um eine sprachabhängige Redundanzregel. Tab. 12 zeigt das unterspezifizierte Pendant zur Matrix in Tab. 11. - p k m ŋ f ç i aː oː uː [±kons] + + + + + + − − − − [±son] − − + + − − - - - - [±sth] − − - - − − - - - - [±nas] - - + + - - - - - - [±hoch] - + - + - + + − - + [±tief] - - - - - - − + - − [±rund] - - - - - - - - + + Tab. 12: Unterspezifizierte Merkmalmatrix für dieselben ausgewählten Merkmale und Phoneme des Deutschen wie in Tab. 11. Nachfolgend werden wir nunmehr nur noch mit unterspezifizierten Matrizen bzw. Merkmalbündeln und auch wieder unter Verwendung privativer Merkmale arbeiten. Das Merkmal [ LAB ] kann dann das Merkmal [±rund] ersetzen. Es dient einerseits der Markierung der Artikulationsstelle und andererseits der von Lippenrundung, denn im Deutschen gilt Regel (21). (21) [-kons, L A B ] → [+rund] 5.3 Distinktive Merkmale des Deutschen In diesem Abschnitt werden zwei Merkmalmatrizen zu den Phonemen des Deutschen vorgestellt, die Hall (2011) in seiner Einführung in die Phonologie für das Deutsche präsentiert. Statt an dieser Stelle ggf. abweichende Matrizen vorzustellen, soll hier vielmehr die Spezifikation einzelner Merkmale näher erklärt und die Vor- und Nach‐ teile alternativer Merkmalsspezifikationen diskutiert werden, um das Augenmerk der Leser: innen auf die einem System zugrunde liegende Argumentation zu lenken. Eine alternative Analyse des deutschen Phonemsystems mittels distinktiver Merkmale findet sich in Kohler (1995, für Konsonanten s. S.-154, für Vokale S.-172). Tab. 13 enthält zunächst die unterspezifizierte Merkmalmatrix für das Konsonan‐ tensystem des Deutschen. Hall (2011) zufolge sind demnach nur die Merkmale [±kons, ±son, ±sth, ±kont, ±nas, LAB , K O R , ±ant, DO R ] distinktiv, andere in 5.1 vorgestellte Merkmale wie etwa [±hint], [±sibil] und [±lat] hingegen nicht. 5.3 Distinktive Merkmale des Deutschen 213 <?page no="215"?> [-sth] p t k f s ʃ ç [+sth] b d ɡ m n ŋ v z ʒ - ʀ h j l [±kons] + + + + + + + + + + + - - + [±son] − − − + + + − − − − + - + + [±kont] − − − - - - + + + + + + + - [±nas] − − − + + + − − − − − − − − [ LAB ] √ - - √ - - √ - - - - - - - [ KO R ] - √ - - √ - - √ √ - - - √ √ [±ant] - - - - - - - + − - - - - - [ D O R ] - - √ - - √ - - - √ √ - - - Tab. 13: Unterspezifizierte Merkmalmatrix der Konsonantenphoneme des Deutschen nach Hall (2011: 132). Die IPA-Symbole entsprechen denen in Hall; die Anordnung der Konstriktionstypen in den Spalten von links nach rechts folgt jedoch der Reihenfolge der Konsonantentabelle des IPA (von oben nach unten). Es mag zunächst verwundern, weshalb eine Merkmalmatrix der Konsonantenphoneme Laute enthält, die [-kons] sind. Grund hierfür ist die zugrunde liegende phonetische Definition des Merkmals [±kons], die das Vorhandensein einer Enge im Vokaltrakt spezifiziert. Diese ist weder beim glottalen Frikativ noch beim alveolaren Approximan‐ ten gegeben. Zudem ermöglicht die Spezifikation von / j/ als [-kons] den Ausschluss von [±aprx] aus der Matrix und somit die Minimierung der distinktiven Konsonanten‐ merkmale im Deutschen insgesamt. Hall (2011) zufolge ist [±aprx] im Deutschen nicht distinktiv und die Opposition zwischen den Phonemen zu Beginn von jagen, lagen, sagen, Hagen ergibt sich aufgrund anderer distinktiver Merkmale - ungeachtet der Beschreibung von / j/ als [+aprx] in 5.1.1. [-kons] Konsonanten, Vokoide und Vokale Man könnte einwenden, dass in einer unterspezifizierten Beschreibung der zugrunde liegenden Phoneme auch das Argument der immerhin phonologischen (und nicht phonetischen) Zuordnung von Approximanten zur Klasse der Konsonanten zum Tragen kommen sollte und daher / j/ als phonologisch zugrunde liegend [+kons] zu betrachten sei (vgl. die Unterscheidung zwischen Vokoid und Vokal in 4.1). Dem kann man jedoch entgegensetzen, dass sich die Theorie der distinktiven Merkmale ja gerade dadurch auszeichnet, phonologische Kategorien mittels phonetisch definierter Merkmale zu erfassen, und eine Klassifizierung als [-kons] der Definition von Approximanten als Vokoide nicht widerspricht. Insbesondere dann nicht, wenn man 214 5 Distinktive Merkmale <?page no="216"?> Aspekte der Silbenposition, in denen sich Vokale und Vokoide unterscheiden, mit einem eigenen distinktiven Merkmal erfasst (s. 6.1.2). Das Merkmal [±lat] gilt aus dem gleichen Grund als nicht distinktiv, der auch für [±aprx] angeführt wurde. Wie / j/ wurde / l/ in 5.1.1 als phonetisch [+aprx] eingeführt, ohne dass diesem Merkmal die eigentlich distinktive Funktion innewohnt. Die Opposi‐ tionen zwischen / l/ einerseits und / j/ bzw. / r/ andererseits ergeben sich entweder über das Merkmal [±kons] (/ l/ vs. / j/ ) oder über das Merkmal [±kont] (/ l/ vs. / r/ ). Beide Phoneme des Deutschen unterscheiden sich in Halls Analyse in jeweils nur einem dis‐ tinktiven Merkmal, was das Vorhandensein weiterer Merkmale wie [±lat] und [±aprx] in der Oberflächenform jedoch nicht ausschließt. Andere Phoneme unterscheiden sich auch in der Matrix in Tab. 13 in mehreren Merkmalen; diese Phoneme fallen dann aber in sehr unterschiedliche natürliche Klassen (z.-B. Plosive oder Sonoranten). Das Merkmal [±kont] ist im Deutschen zwar eindeutig distinktiv, allerdings nur mit Blick auf die natürliche Klasse der Obstruenten. Mit Blick auf die natürlichen Klassen der Liquide und Nasale ist eine Spezifikation dieses Merkmals hingegen weniger eindeutig, da sie sehr definitionsabhängig ist (vgl. 5.1.3). Die Spezifikation von / l/ als [-kont] in Hall (2011) ist notwendig, da es die Opposition zu / ʀ/ erfasst, das [+kont] ist (und zwar unabhängig davon, welches Phonem man dem durch ⟨r⟩ repräsentierten Laut zugrunde legt, s. u.). Nun könnte man argumentieren, dass die drei Nasale des Deutschen allein aus Analogie zu / l/ als [-kont] zu spezifizieren sind. Wie würde sich aber deren Spezifikation als [+kont] auf das Merkmalsystem der deutschen Konsonanten auswirken? Spezifizierte man die Nasale als [+kont], so unterschiede sich / ŋ/ von / ʀ/ weiterhin im Merkmal [+nas]. Das Merkmal [±nas] ist im Deutschen auf alle Fälle als distinktiv anzusehen, um die Opposition zwi‐ schen / ŋ/ und / ʀ/ bzw. / l/ abzubilden - und zwar unabhängig der Spezifikation von [±kont]. Das Argument der Analogie bleibt jedoch bestehen: Es bietet sich an, für Nasale und Liquide denselben Wert für das Merkmal [±kont] anzusetzen, insbesondere vor der jeweiligen zugrunde liegenden phonetischen Definition (vgl. 5.1.3). Möglicherweise fragt man sich auch, weshalb das Merkmal [±sth] und nicht etwa [±asp] angenommen wird, wo sich doch die Plosive des Deutschen in der Aspiration und nicht der Stimmhaftigkeit unterscheiden (vgl. 4.2.1.2). Schließt man jedoch die Frikative in die Analyse der natürlichen Klasse stimmhafter Konsonanten mit ein, so ist es in der Tat das Merkmal [±sth], das die Stimmhaftigkeitsopposition direkt erfasst (auf [+son] Laute triff das Merkmal der Stimmhaftigkeit ebenfalls zu). Eine Spezifikation hinsichtlich des Merkmals [±asp] wäre hier unlogisch. Gleichzeitig kann man aber die Redundanzregel (22) aufstellen, um in einer Vollspezifikation die Oberflächenform korrekt abzuleiten: (22) [-son, -kont, -sth] → [+asp] - [-son, -kont, +sth] → [-asp] 5.3 Distinktive Merkmale des Deutschen 215 <?page no="217"?> In 4.2.4 wurde / ʁ/ als das zugrunde liegende Phonem angenommen, das im Deutschen große allophonische Variation aufweist. Hall (2011) gibt hingegen für den durch ⟨r⟩ repräsentierten Laut den uvularen Vibranten als Phonem an, das sich von / ç/ im Merkmal [±son] unterscheidet. Ein / ʁ/ wäre hingegen als [-son] spezifiziert und würde sich in den in Tab. 13 angegebenen Merkmalen nicht länger von / ç/ unterscheiden. Ein Grund hierfür ist die Spezifikation von / ç/ als [ DO R S ]. Die Spezifikation eines weiteren Merkmals [±hint] wäre dann für die Erfassung der Opposition notwendig, wobei / ç/ als [ DO R S , -hint] und / ʁ/ als [ DO R S , +hint] spezifiziert wären. Tab. 14 enthält eine unterspezifizierte Merkmalmatrix für das Vokalsystem des Deut‐ schen, wiederum unter Berücksichtigung privativer Merkmale. Auch dieses System orientiert sich maßgeblich an dem von Hall (2011) aufgestellten System. - i ɪ y ʏ e ɛ ø œ ɛː aː a o ɔ u ʊ ə [±kons] − − − − − − − − − − − − − − − − [±hint] − − − − − − − − − + + + + + + + [±hoch] + + + + - - - - - - - - - + + - [±tief] − − − - - - − − − + + − - - - - [± LAB ] - - √ √ - - √ √ - - - √ √ √ √ - [±gesp] + - + - + - + - - - - + - + - - [±lang] + - + - + - + - + + - + - + - - Tab. 14: Merkmalmatrix der Vokalphoneme des Deutschen nach Hall (2011: 131). Auf die Angabe des Längensymbols wird hier bei eindeutiger Symbolzuordnung verzichtet. Zunächst mag es verwundern, weshalb Schwa, wie auch / a, aː/ , als [+hint] spezifiziert sind, obwohl sie im Deutschen als phonetische Zentralvokale gelten. Da sie sich aber in vielerlei Hinsicht funktional wie hintere Vokale verhalten (man denke nur an die komplementäre Distribution von / ç/ , vgl. 1.2.2, 4.2.4) und der Zungenrücken bei der Artikulation im Gegensatz zu Vorderzungenvokalen nicht vorverlagert wird, ist sowohl eine phonetische als auch phonologische Spezifikation als [+hint] sinnvoll. Während die Spezifikation der Merkmale [±kons, ±hoch, ±tief, LAB ] eindeutig ist, birgt sowohl (1) die Verwendung beider Merkmale [±gesp] und [±lang] (anstelle nur eines Merkmals) als auch (2) die Spezifikation des Merkmals [±gesp] für einige Vokale Diskussionspotential. In 5.1.4 hieß es, dass die beiden Merkmale sich trotz der oft beobachteten Korrelation nicht zwangsläufig gegenseitig ausschließen müssen und distinktiv sein können. Da Hall (2011) die Vokale des Deutschen hinsichtlich beider Merkmale spezifiziert, scheint die Distinktivität also gegeben zu sein. Sie ergibt sich aus der Tatsache, dass die Langvokale / aː/ und / ɛː/ als [-gesp] spezifiziert sind. Die Spezifi‐ kation spiegelt sich auch in den verwendeten IPA-Vokalsymbolen wider: Im Gegensatz zu den anderen Vokalen des Deutschen sind / aː/ und / ɛː/ Teil eines Vokalpaares, das 216 5 Distinktive Merkmale <?page no="218"?> sich von den entsprechenden Kurzvokalen / a/ und / ɛ/ (symbolisch) nur in der Länge unterscheidet. Die in 4.3.2 vorgestellten akustisch-auditiven Analysen haben in der Tat eine größere Ähnlichkeit zwischen den Vokalen dieser beiden Paare im Vergleich zu anderen Vokalpaaren, die sich in der Gespanntheit bzw. Länge unterscheiden, gezeigt (vgl. z. B. S. 178, Abb. 60). Unabhängig davon, kann man nun fragen, weshalb nicht nur das Merkmal [±lang] distinktiv ist. Die / a-aː/ -Opposition, wie fast alle anderen vokalischen Quantitätsoppositionen, lässt sich auch bei Verzicht auf das Merkmal [±gesp] erfassen. Auch wenn [±gesp] gegenüber [±lang] in der Phonologie präferiert wird (s. 5.1.4), so könnte man im Deutschen durchaus für [±lang] als distinktives Merkmal argumentieren (vgl. 4.3.2). Verzichtete man jedoch in Tab. 14 auf das Merkmal [±gesp], ließe sich die / ɛː-eː/ -Opposition wie in bäten vs. beten nicht erfassen, weshalb es für dieses Set an Vokalphonemen beider Merkmale bedarf. Wenn man / ɛː/ aber den Phonemstatus abspricht, z. B. weil bäten oder Käse als [beːtən] oder [keːzə] realisiert werden (vgl. 4.3.2), dann wäre [±gesp] (oder [±lang]) im Deutschen nicht distinktiv. 5.4 Zusammenfassung Mittels distinktiver Merkmale können die Phoneme einer Sprache und natürliche Klassen - Sprachlautgruppen, deren Sprachlaute mindestens ein Merkmal teilen - erfasst werden. Die Merkmale dieser phonologischen Theorie sind 1. kleinere phonologische Einheiten, in die Phoneme zerlegt werden, 2. binär oder privativ, 3. phonetisch definiert, entweder artikulatorisch, akustisch oder auditiv. Je nach System wird eine unterschiedliche Anzahl an Merkmalen angenommen, wobei nicht alle dieser Merkmale eine distinktive Funktion in einer Sprache haben. Auch wenn sich Phoneme bzw. Lautklassen in mehreren Merkmalen unterscheiden, so geht man in der Regel davon aus, dass nur eines dieser Merkmale distinktiv ist. Ein Ziel der theoretischen Ansätze im Rahmen dieser Theorie war u. a., ein einheitliches System zur Beschreibung aller Laute zu entwickeln - im Gegensatz zum IPA. Auch wenn dieses Ziel erreicht wurde, so haben wir dennoch gesehen, dass bei der Beschreibung spezieller Lautklassen oft auf ein bestimmtes notwendiges Set an Merkmalen zurückgegriffen wird, das für die beiden Oberklassen Vokale und Konsonanten dann doch wieder unterschiedlich ausfällt. Wenn auch viele Phonolog: innen mittels etablierter Merkmale arbeiten, so werden doch immer wieder neue Merkmale eingeführt (vgl. z. B. das Merkmal [±fortis] in 5.1.2). Zwar gibt es auch immer wieder Vorstöße, neue IPA-Symbole einzuführen (vgl. 4.3.2), doch die Beschreibungsparameter, die wir in Kapitel 4 kennengelernt haben, bleiben dieselben. Trotz dieses Spielraums bei den distinktiven Merkmalen war die Theorie wegweisend für die weitere Entwicklung der Phonologie. Das hier vorgestellte System folgt der Einfachheit halber der älteren Annahme von Linearität, auch wenn 5.4 Zusammenfassung 217 <?page no="219"?> mit Nicholas G. Clements immer wieder ein Autor zitiert wurde, der v. a. für seine Arbeiten im Rahmen der Merkmalsgeometrie bekannt ist. In diesem theoretischen Ansatz, der sich aus der Theorie der distinktiven Merkmale heraus weiterentwickelt hat, sind Merkmale hierarchisch organisiert. So werden etwa u. a. Sagey (1986) zufolge binäre Ortsmerkmale von privativen Ortsmerkmalen dominiert. Auf diese Theorie wird in diesem Einführungsbuch nicht weiter eingegangen. Aber auch in Kapitel 6 und in Kapitel 9 steht die hierarchische Organisation linguistischer Einheiten im Fokus, sodass man von diesen nicht linearen Ansätzen einen Eindruck erhält. Übungsaufgaben 1. Welche(r) Laut(e) wird/ werden beschrieben? Streichen Sie alle redundanten Merk‐ male! [+kons, -son, -sth, -kont, -nas, DO R S ] = [-kons, +aprx, +sth, +kont, -nas, +hoch, -hint, -tief, LAB] = [-kons, +son, -hoch, -hint, -tief, +lang] = 2. Welches Segment muss jeweils gestrichen werden, damit aus den nachstehenden Lauten eine natürliche Klasse wird? Begründen Sie Ihre Antwort anhand von distinktiven Merkmalen. / iː, yː, uː, eː/ / uː/ , da nicht [-hint] / k, t, m, p/ ___________________ / p, b, t, k/ ___________________ / iː, eː, aː, yː/ ___________________ / p, b, s, m, v, f/ ___________________ / ɡ, p, b, d, v, z/ ___________________ / ɡ, k, b, d, p, v, t/ ___________________ 3. Beschreiben Sie folgende Laute bzw. Lautklassen eindeutig mithilfe einer minima‐ len Anzahl an distinktiven Merkmalen. Obstruenten _________________________________ 218 5 Distinktive Merkmale <?page no="220"?> hohe Vokale _________________________________ / ɛ/ (wie in Bett) _________________________________ / k/ _________________________________ 4. Mit welchen binären distinktiven Merkmalen könnten die Artikulationsstellen der im Deutschen vorkommenden Plosive anstelle der privativen Merkmale [ LAB ], [ K O R ] und [ DO R ] unterschieden werden? Wie sähe die jeweilige Merkmalsspezifi‐ kation aus? Weiterführende Literatur Aus phonetischer Perspektive und unter Berücksichtigung vieler Sprachen hat L AD E ‐ F O G E D vielfach zu distinktiven Merkmalen publiziert (z. B. L AD E F O G E D 1972, 1973, 1997; L AD E F O G E D & H ALL E 1988). Beschreibungen des Lautsystems des Deutschen mittels distinktiver Merkmale finden sich in K OHL E R (1995) und W I E S E (1996). Eine vertiefende Einführung (englischsprachig), die die theoretische Entwicklung des Konzeptes distinktiver Merkmale aufzeigt, bietet das Einführungskapitel von H ALL (2001) zu dem von ihm herausgegebenen Sammelband „Distinctive Feature Theory“; Kenntnisse der Autosegmentalen Phonologie (s. 6.2 und Kap. 6 in H ALL 2011) und Merkmalsgeometrie (s. z. B. Kap. 7 in H ALL 2011) sind dabei für das Verständnis empfehlenswert. Neuere Diskussionen um einige Merkmale sind einzelnen Kapiteln des Sammelban‐ des „Features in Phonetics and Phonology: Posthumous Writings by Nick Clements and Coauthors“ von R IALLAND E T AL . (2015) zu entnehmen. Diese bieten ausführliche Über‐ blicke über den phonetischen und phonologischen Forschungsstand zu den jeweiligen Merkmalen. 5.4 Zusammenfassung 219 <?page no="222"?> 6 Silbenphonologie Überleitung und Ziele In den vorangegangenen Kapiteln stand die Ermittlung und Beschreibung der kleinsten Einheiten gesprochener Sprache im Fokus, z. B. von Phonen, Phonemen oder auch von subphonemischen distinktiven Merkmalen. In diesem Kapitel lenken wir nun den Blick auf die Lautkombinatorik und damit auf größere Einheiten. Warum? Anstelle von Einzellauten kommen in der gesprochenen Sprache in erster Linie Kombinationen aus Lauten vor. Lautkombinationen führen zu dynamischen artikulatorischen Zielen, die Koartikulation unterliegen und die man signalphonetisch messen kann (vgl. 4.5). Einerseits sind Lautkombina‐ tionsmöglichkeiten durch sprachübergreifende Gemeinsamkeiten geprägt, die sich auf artikulatorische und akustisch-auditive Gesetzmäßigkeiten zurückführen lassen, andererseits sind sie sprachabhängig. Daher spielt die Untersuchung von Lautkombinationen in größeren Einheiten eine zentrale Rolle, auch auf phonologischer Ebene. Der Fokus dieses Kapitels liegt in erster Linie auf der symbolphonetischen und phonologischen Beschreibung von Lautsequenzen unterhalb der Wortebene - den Silben. Dabei handelt es sich um ein seit der Antike forschungsrelevantes, d.-h. sehr altes, und von uns sehr früh erlerntes Konzept: Schon vor dem Schrift‐ spracherwerb wird im Kindergarten die Silbentrennung mittels Silbenklatschen erlernt; in der Schule spielt das Konzept im Rahmen von orthographischer Worttrennung oder Gedichtanalyse eine Rolle. In diesem Kapitel lernen wir die Silbe aus sprachwissenschaftlicher Sicht kennen und thematisieren u. a. folgende Fragen: • Wie sind Silben aufgebaut und welche Silbentypen gibt es? • Wie werden Silben phonologisch repräsentiert? • Was ist (Re-)Silbifizierung, welchen Gesetzmäßigkeiten unterliegt sie und welche Rolle spielt Sonorität dabei? 6.1 Einleitung Rein symbolphonetisch betrachtet können Silben aus Einzellauten oder aus Lautfolgen bestehen. In der linguistischen Hierarchie befinden sie sich damit oberhalb der Einzel‐ laute aber unterhalb der Wortebene. Es handelt sich bei Silben um phonologische Einheiten (Ladefoged & Maddieson 1990: 94), die die gesprochene Sprache stärker <?page no="223"?> untergliedern. Wie wir im weiteren Verlauf des Buches sehen werden, spielen sie eine große Rolle z.B. • bei phonologischen Prozessen (s. Kap. 7), • in der Sprachwahrnehmung (z.-B. Plosivwahrnehmung, s. 8.3), • in der Wortbetonung und im Sprachrhythmus (s. Kap. 9), Auch bei der phonologischen Beschreibung von Sprachsystemen, die das Aufstellen von Phoneminventaren und Aussagen zur Phonotaktik umfasst (vgl. 1.2), ist ein Blick auf linguistische Einheiten oberhalb der Phonemebene wichtig. So gehört etwa zu einer Beschreibung des Deutschen dazu, auf das Nichtvorkommen von / h/ in silbenfinaler Position hinzuweisen. Um das Ende von Silben bestimmen oder die Rolle der Silbe in anderen linguistischen Bereichen wie den o. g. hervorheben zu können, ist natürlich eine genaue Silben‐ definition erforderlich. Eine phonologische Silbendefinition ist jedoch keineswegs trivial, und das obwohl Muttersprachler: innen eine Intuition über die phonologische Wohlgeformtheit (Engl. phonological well-formedness) von Silben haben (z. B. Hay et al. 2004), also eine Lautkombination danach beurteilen können, ob sie den Regeln zur Silbenbildung ihrer Sprache entspricht. Als Muttersprachler: innen des Deutschen ist es z. B. möglich, die zweisilbigen Logatome in der ersten Spalte der Beispiele in (23) in wohlgeformte Silben des Deutschen einzuteilen (2. Spalte). Die Silbengrenze wird in der Transkription durch den Punkt markiert. Silbenformationen wie die in Spalten 3 und 4 werden von Muttersprachler: innen als nicht wohlgeformte Silben des Deutschen betrachtet: (23) krintbus [kʁɪnt.bʊs] *[kʁi.ntbʊs] *[kʁintb.ʊs] - sumkla [zʊm.klaː] *[z.ʊmkla] *[zʊmk.la] - ahbleu [aː.blɔɪ] *[aːb.lɔɪ] *[aːbl.ɔɪ] Muttersprachler: innen einer Sprache sind in der Lage auch neue, ihnen unbekannte Wörter zu silbifizieren. Silbifizierung bezeichnet die Untergliederung von größeren Lautkombinationen - meist Wörter - in Silben. Bei mehrsilbigen Wörtern gilt es, die Segmente der Silbenränder einem von zwei möglichen Silbenrändern zuzuordnen. Viele phonologische Theorien gehen davon aus, dass Silbifizierung durch Derivation entsteht und sich erst an der phonetischen Oberfläche zeigt, also kein Bestandteil der zugrunde liegenden Form ist (z. B. Chomsky & Halle 1968). Aus diesem Grund werden Silbifizierungen oft innerhalb eckiger Klammern angegeben, obwohl Silben eher auf der Ebene des phonologischen Systems beschrieben werden (daher auch 222 6 Silbenphonologie <?page no="224"?> Silbenphonologie). Auch Levelt et al. (1999) verorten die phonologische Silbifizierung auf einer Ebene zwischen der Phonologie und Phonetik (s. auch 7.4). Ungeachtet der sprachübergreifenden Bedeutung von Lautkombinationen zu grö‐ ßeren Einheiten in der Sprachproduktion und -perzeption wurden Silbenkonzepte von phonetischer Seite aus immer wieder kritisiert (z. B. Kohler 1966). Unter anderem ihr sprachabhängiges Verhalten macht Silben in der Tat zu einer phonologischen Einheit. Man hat jedoch über viele Jahrzehnte keine eindeutigen akustischen Korrelate für Silben nachweisen können (Krakow 1999), wie es etwa für einzelne Sprachlaute möglich ist (vgl. Tab. 8, S. 191). Das führte in einigen Arbeiten zu Definitionen, wonach Silben eine kognitive Einheit darstellten (z. B. Catford 1977), und zu recht unspezifischen Arbeitsdefinitionen wie der folgenden in Ladefoged und Maddieson (1990: 94): The best that we can do is to suggest that syllables are ‘necessary units in the organization and production of utterances’ […]. Silben sind - wie wir sehen werden - zwar hinsichtlich ihres Aufbaus gut zu beschreiben, ihre Funktion hingegen ist - im Gegensatz zu anderen linguistischen Einheiten wie Phonemen und Morphemen - schwerer zu fassen. 6.1.1 Silbe vs. Phonem, Morphem und Wort Bevor wir uns in den nächsten Abschnitten ausführlicher dem Silbenaufbau widmen und damit auch einer Definition näherkommen, sei in diesem Abschnitt auf die Schwierigkeiten einer funktionalen Definition, die über die strukturelle Beschreibung hinausgeht, hingewiesen. Vergleichen wir dazu die Silbe mit den funktional definierten Einheiten Phonem, Morphem und Wort anhand der Beispiele in (24a.-c.). Für den Moment genügt unser o. g. intuitives (Schul-)Wissen über die Silbeneinteilung von Wörtern. (24) a. Latz [lats] - b. Monat-s [ˈmoː.nats] - c. Katze [ˈkat.sə] Das Beispielwort Latz in (24a.) besteht aus einer Silbe, einem Morphem (vgl. 1.2.2) und drei Phonemen, vorausgesetzt man wertet die Affrikate / ts/ monophonematisch (vgl. aber 4.2.5). Demnach entspräche / ts/ einem Phonem, das verglichen mit einem anderen Phonem, z. B. / k/ , bedeutungsunterscheidend ist (vgl. Latz vs. Lack). Das Beispielwort in (24b.) wiederum lässt sich in zwei Silben, zwei Morpheme und sechs Phoneme zerlegen. Wie schon bei Latz stehen der Plosiv und der Frikativ auch bei Monats gemeinsam am Ende derselben, nun zweiten Silbe, werden aber durch 6.1 Einleitung 223 <?page no="225"?> eine Morphemgrenze getrennt (orthographisch durch - markiert): / t/ gehört zum sogenannten Stammmorphem Monat, / s/ markiert den Genitiv. Das Beispielwort Katze in (24c.) wiederum besteht aus nur einem Morphem aber zwei Silben, wobei die Silbengrenze zwischen / t/ und / s/ zu verlaufen scheint. Weshalb der Plosiv der ersten und der Frikativ der zweiten Silbe zugerechnet wird, klärt sich im Verlauf des Kapitels auf. Entscheidend ist zunächst, dass anhand der Beispiele in (24a.-c.) gezeigt werden kann, dass Silben (1) sich deutlich von anderen linguistischen Einheiten wie Phonemen und Morphemen unterscheiden und (2) nicht bedeutungstra‐ gend sind. Silben sind eigenständige phonologische Einheiten. Sie sind nicht bedeutungs‐ tragend, erfüllen aber eine wichtige Funktion in der Strukturierung gesprochener Sprache. Die fehlende Zuordnung zu grammatikalischen oder bedeutungstragenden Einheiten erschwert die funktionale Definition von Silben. Dennoch sind Silbenkonzepte Be‐ standteil vieler Theorien und es wird ihnen eine bedeutende Rolle in der gesprochenen Sprache beigemessen. So geht man etwa davon aus, dass Kinder im Erstspracherwerb zunächst Silben erlernen, bevor sie eine Bewusstheit für phonologische und gramma‐ tikalische Kategorien entwickeln (s. z.-B. Kauschke 2012). In 6.1.2 werden zunächst anhand einer ersten strukturellen Silbenbeschreibung und -definition offene Fragen abgeleitet, die im Verlauf des Kapitels geklärt werden, bevor in 6.1.3 u. a. eine artikulatorische Silbendefinition im Rahmen der Artikulatorischen Phonologie präsentiert wird. 6.1.2 Erste strukturelle Silbenbeobachtungen Eine mögliche strukturelle Silbendefinition lässt sich anhand einer ausreichend großen Stichprobe repräsentativer Wörter einer Sprache und der muttersprachlichen Intuition über wohlgeformte Silben aufstellen. Die Auswahl deutscher Wörter in (25) ist vor dem Hintergrund eines Einführungsbuches und der nachfolgend aufgeworfenen Fragen gerade ausreichend groß: (25) Einsilber - Mehrsilber - Latz [lats] - Lätzchen [lɛts.çən] - Last [last] - Laster [las.tɐ] - Platz [plats] - geplatzt [ɡə.platst] - Blatt [blat] - blattartig [blat.ʔaʁ.tɪç] - bald [balt] - baldigst [bal.dɪçst] 224 6 Silbenphonologie <?page no="226"?> Trunk [trʊŋk] Baumstrunk [baʊm.ʃtrʊŋk] - stumm [ʃtʊm] - Stummel [ʃtʊml̩] Mit Blick auf die Bedeutung der Wörter in (25) ist die Auswahl willkürlich; sie deckt vielmehr verschiedene strukturelle Silbeneigenschaften ab. Die Anzahl der Silben ist hier auf maximal drei Silben begrenzt; eine höhere Silbenanzahl ist im Deutschen aber möglich (z. B. im Wort Donaudampfschifffahrtsgesellschaft). Auch die Gesamtheit des Phoneminventars muss hier unberücksichtigt bleiben. Dessen ungeachtet erlaubt die Transkription der ausgewählten Wörter inklusive der Silbentrennung bei mehrsilbigen Wörtern folgende Beobachtung und Definition: In der Regel besteht eine Silbe aus einem Vokal, dem Silbenkern, und den ihn umgebenden Konsonanten, dem Silbenrand. Der Silbenrand kann teils leer sein, wie nach dem ersten Silbenkern in geplatzt und vor dem zweiten Silbenkern in blattartig, oder mit einem oder mehreren Konsonanten gefüllt sein, wie zu Beginn bzw. am Ende von Blatt und bald. Mehrere Konsonanten in einem Silbenrand werden als (Konsonanten-)Cluster bezeichnet, einzelne Konsonanten im Silbenrand als Singletons. Konsonanten können im Silbenrand die Position wechseln wie etwa in Latz im Vergleich zu Last (wobei / ts/ nun wieder biphonematisch gewertet wird). Mit Blick auf den Silbenrand ergeben sich folgende Fragen: 1. Welche Konsonantenkombinationen sind im Silbenrand erlaubt? 2. Welche Regelhaftigkeiten sind bei den Kombinationsmöglichkeiten zu beobach‐ ten? 3. Welche Rolle spielt dabei die Position des Silbenrands (prävokalisch links vs. postvokalisch rechts)? Diese Fragen werden in 6.3 und 6.4 geklärt. Der Silbenkern ist in den meisten Fällen ein Vokal wie in Blatt oder Baumstrunk. Das Beispiel Stummel verdeutlicht jedoch, dass auch ein Konsonant wie / l/ im Silbenkern stehen kann, nämlich dann, wenn das Schwa weggelassen wird, was in gesprochener Sprache und insbesondere in Spontansprache recht häufig vorkommt (vgl. 7.3.3). Daher ist in der o. g. Silbendefinition der Zusatz ‚in der Regel‘ notwendig. Unter Verwendung 6.1 Einleitung 225 <?page no="227"?> 45 Dieses Oberklassenmerkmal verwenden etwa Chomsky und Halle (1968), andere Theorien verzich‐ ten darauf. eines distinktiven Merkmals [±silbisch] 45 können wir aber die Silbendefinition wie folgt konkretisieren: Den Silbenkern bildet ein Phonem, das [+silbisch] ist, den Silbenrand Phoneme, die [-silbisch] sind. Mittels des Diakritikums [ ̙] unterhalb eines silbischen Konsonanten wird angezeigt, dass dieser Konsonant im Silbenkern steht, also z. B. [l̩ ]. Mit Blick auf silbische Konsonanten ergibt sich wiederum folgende Frage: 4. Welche Konsonanten außer / l/ können im Deutschen und anderen Sprachen sil‐ bisch sein? 5. Unter welchen Bedingungen treten silbische Konsonanten in Erscheinung? Diese Fragen werden in 6.2.4 thematisiert. Des Weiteren zeigen die Beispielwörter in (25), wie auch schon die in (24b.-c.), dass die Zuordnung derselben Konsonanten sich einerseits in mehrsilbigen Wörtern ändern kann, wie in Laster und baldigst im Vergleich zu Last bzw. bald. Andererseits ist sie nicht auf den ersten Blick eindeutig, wie in Stummel, wo bewusst kein Punkt gesetzt wurde, um die Silbifizierung anzuzeigen. Es gilt also auch folgende Fragen zu klären: 6. Unter welchen Bedingungen werden Konsonanten der ersten oder zweiten Silbe zugerechnet? 7. Lassen sich Konsonanten immer eindeutig einer Silbe zuordnen? Frage 7 wird in 6.2.3, Frage 6 in 6.3 aufgegriffen. 6.1.3 Phonetisch-phonologische Definitionen Auch wenn eine Silbifizierung vielen phonologischen Theorien zufolge erst durch Derivation in der Oberflächenform erfolgt, so handelt es sich bei der Silbe um eine phonologische Einheit. Dies kann man u. a. daran festmachen, dass bestimmte Phonem-Sequenzen zwar in Wörtern einer Sprache vorkommen können, nicht aber als Cluster innerhalb derselben Silbe, sondern nur, wenn die Sequenzen durch Silbengren‐ zen getrennt sind. Dies sei anhand der ein- und mehrsilbigen Wörter des Deutschen und Englischen in (26) illustriert. 226 6 Silbenphonologie <?page no="228"?> (26) Deutsch Englisch - Knie [kniː] knee [niː] - Knoten [knoː.tən] knot [nɒt] - Deckname [dɛk.naːmə] nickname [nɪk.neɪm] - Banknote [baŋk.noːtə] banknote [bæŋk.nəʊt] Während im Deutschen einsilbige Wörter / kn/ als Cluster im prävokalischen Sil‐ benrand aufweisen, ist dieses Cluster in dieser Position im Englischen nicht er‐ laubt. / kn/ -Sequenzen kommen im Englischen nur dann in mehrsilbigen Wörtern vor, wenn - wie die Beispiele in (26) zeigen - / k/ und / n/ unterschiedlichen Silbenrändern zugeordnet sind. Im Englischen gibt es also eine sogenannte negative Silbenstruktur‐ bedingung (Clements & Keyser 1983; Engl. syllable structure condition), wonach [kn] zwar in Wörtern des Englischen, nicht aber im linken Rand wohlgeformter englischer Silben erlaubt ist. Im Deutschen gilt diese konkrete negative Silbenstrukturbedingung nicht; vielmehr handelt es sich um eine positive Silbenstrukturbedingung, die [kn] auch am linken Silbenrand zulässt (für [kn] im rechten Silbenrand s. 6.2.4). Silbenstruktur‐ bedingungen werden in der Regel unter Verwendung distinktiver Merkmale (vgl. Kap. 5) und nicht linear repräsentiert (s. 6.2); in diesem Abschnitt wurden sie für [kn] jedoch der Einfachheit halber nur frei beschrieben. Beschränkungen hinsichtlich der Kombinationen von Lauten innerhalb von Silben werden durch Silbenstrukturbedingungen erfasst, wobei positive Bedingungen erlaubte Kookkurrenzen und negative Bedingungen unerlaubte Kookkurrenzen beschreiben. Die Gesamtheit aller positiven und negativen Silbenstrukturbe‐ dingungen einer Sprache ergibt deren Set wohlgeformter Silben (unabhängig von deren konkreten Vorkommen; nach Clements & Keyser 1983). Die Silbe tritt in den Beispielen in (26) als Einheit in Erscheinung, da Sprachlaute nur dann realisiert werden, wenn sie die Wohlgeformtheit der Silbenstruktur nicht verletzen. Dem Phonem übergeordnete Einheiten (Morpheme, Silben) lassen sich auch anhand von Minimalpaaren wie denen in (27) analysieren (Lehiste 1960) . (27) an iceman [ən.aɪs.mæn] a nice man [ə.naɪs.mæn] - grade A [greɪd.eɪ] gray day [greɪ.deɪ] Auch wenn es sich bei den englischen Beispielen in (27) nun um Äußerungen handelt, die aus mehreren Wörtern bestehen, so lassen sich diese dennoch in je zwei bzw. 6.1 Einleitung 227 <?page no="229"?> drei Silben unterteilen, die eine unterschiedliche Struktur aufweisen. Ein wichtiger Indikator für die Silbifizierung ist dabei im Englischen (wie auch im Deutschen) u. a. das Vorhandensein bzw. das Fehlen des Glottalverschlusses (vgl. 6.2.3): In ice und A wird im linken Silbenrand der Glottalverschluss realisiert, in nice und day werden in dieser Position hingegen [n] bzw. [d] anstelle eines [ʔ] produziert. Zwei weitere, in diesem Fall positive Silbenstrukturbedingungen des Englischen lauten also: Silben können auf einen Vokal oder Konsonanten enden oder mit einem Vokal oder Konsonanten beginnen. Da Silben- und Wortgrenze in den Beispielen in (27) jedoch zusammenfallen, handelt es sich um ein schwächeres Argument für die Silbe als phonologische Einheit. Ein stärkeres Argument ist, dass mitunter die Silbe im Gegensatz zu anderen linguistischen Einheiten die Domäne für phonologische Prozesse sein kann, die wir in Kapitel 7 kennenlernen werden. Ein solches Beispiel ist in 7.3.1 beschrieben. Wenn die Silbe eine eigene phonologische Einheit mit der Funktion der Äußerungsstrukturierung bildet, so müsste sie auch mit konkreten phonetischen Formen korrelieren - so die Vermutung, der seit mehr als hundert Jahren in experimental‐ phonetischen Untersuchungen nachgegangen wird. Die Suche nach den akustischen Silbenkorrelaten ist schon deshalb berechtigt, als dass insbesondere die Funktion der Äußerungsstrukturierung mit dem Ziel der hörerseitigen Dekodierung nur dann erreicht werden kann, wenn diese Struktur auch wahrnehmbar ist. Dennoch wurden lange Zeit keine eindeutigen akustischen Silbenkorrelate gefunden, sieht man einmal von recht robusten Ergebnissen wie der Längung silbenfinaler Konsonanten ab (Kra‐ kow 1999). Da aber Konsonanten auch dann verstärkt und gelängt werden, wenn sie etwa am Satzende oder sogar Satzanfang stehen, ist eine eindeutige Zuschreibung der akustischen Ausprägung zur Silbe und vor allem eine Trennung von prosodischen Einflüssen nicht möglich (zu prosodischer Längung s. Kap. 9). Im Rahmen der Artikulatorischen Phonologie (vgl. 2.4) konnte die Silbe jedoch als artikulatorische Einheit etabliert werden (Browman & Goldstein 1988, 2000; für weitere Referenzen s.-u.). In der Artikulatorischen Phonologie sind Silben charakteristische Muster in der zeitlichen Organisation artikulatorischer Gesten, wobei die Koordination von Silbenkern und linkem Silbenrand anders ist als die von Silbenkern und rechtem Silbenrand. Die charakteristischen Muster ergeben sich u. a. aus dem Grad der zeitlichen Überlap‐ pung. Wie wir bereits in 2.4 gelernt haben, spielt die Modellierung von Gestenüberlap‐ pung grundsätzlich eine zentrale Rolle in diesem theoretischen Ansatz (vgl. Abb. 17 in 2.4) und für die Modellierung der Silbe eine ganz besondere. Konsonanten im linken Silbenrand werden demnach anders artikulatorisch koordiniert als Konsonanten im rechten Silbenrand (s. Abb. 67). Dieser beobachtete Unterschied zwischen dem linken 228 6 Silbenphonologie <?page no="230"?> und dem rechten Silbenrand unterstützt zudem eine weitere begriffliche Unterschei‐ dung, die bereits in vielen früheren phonologischen Ansätzen vorgenommen wurde: Der linke Silbenrand wird als Onset (nachfolgend als O abgekürzt) bezeichnet, der rechte Silbenrand als Coda (nachfolgend als C abgekürzt; mehr zu den Termini in 6.2.1). Die Artikulatorische Phonologie geht davon aus, dass der Koordinationsunterschied zwischen Onsets und Codas auf zwei unterschiedliche Kopplungsarten zurückzu‐ führen ist, die in diversen motorischen Bewegungsabläufen, z. B. der von Fingern, aber eben auch der von artikulatorischen Gesten, zu beobachten ist: phasengleich (Engl. in-phase) und phasenverschoben (Engl. anti-phase). Das zugrunde liegende Modell wird auch als Modell gekoppelter Oszillatoren (Engl. coupled oscillator model) bezeichnet. • Die phasengleiche Kopplung von zwei unterschiedlichen Gesten entspricht einem zeitgleichen Aktivierungsbeginn der Gesten und wird zwischen Single‐ ton-Onsets und Vokalen postuliert. Dies ist in Abb. 67 schematisch anhand von [la] in lass wie in lass das dargestellt. • Die phasenverschobene Kopplung bewirkt eine zeitliche Verzögerung im Ak‐ tivierungsbeginn zweier Gesten zueinander und wird u. a. zwischen Vokalen und Singleton-Codas (vgl. [as] in lass in Abb. 67) postuliert. Einander folgende konsonantische Gesten, wie sie in Konsonantenclustern vorkom‐ men, gelten grundsätzlich als phasenverschoben koordiniert, sowohl im Onset als auch in der Coda. Ein zentraler Unterschied zwischen Onset- und Codacluster entsteht dem Modell zufolge erst durch die unterschiedliche Kopplung der Konsonanten an den Vokal, die im Onset als phasengleich angenommen wird, in der Coda hingegen als phasenverschoben. Während dies in Kombinationen aus Vokal-plus-Codacluster zu einer sequentiellen Anordnung aller Gesten führt, entsteht in Onsetcluster-plus-Vo‐ kal-Sequenzen ein Wettbewerb aus phasengleicher Kopplung aller Onsetkonsonanten mit dem Vokal und phasenverzögerter Kopplung der Konsonanten untereinander (Engl. competitive coupling). Dies hat zur Folge: • Eine globale zeitliche Koordination von Onsets mit dem nachfolgenden Vokal, die durch eine stabile Koordination des sogenannten K-Zentrums (Engl. C-center für consonant center) mit dem Vokal charakterisiert ist. Das K-Zentrum entspricht dem zeitlichen Mittelpunkt entweder eines Singletonkonsonanten oder eines Clusters. • Eine sequentielle zeitliche Koordination eines Codakonsonanten mit dem jeweils vorangehenden Laut. Abb. 67 zeigt die globale Onset-Koordination für [bla] sowie die sequentielle Koordi‐ nation für [ast] in blasst wie in verblasst infolge der unterschiedlichen Kopplungen. Für diese charakteristischen Muster, und damit auch für die o. g. Definition, gibt es inzwischen recht robuste Evidenz, die auf zahlreichen empirischen Studien basiert (z. B. Byrd 1995; Honorof & Browman 1995; Krakow 1989, 1993, 1999; Marin & Pouplier 6.1 Einleitung 229 <?page no="231"?> 2010; Nam et al. 2009; Pouplier 2011, 2012) und auf die im Verlauf dieses Kapitels noch näher eingegangen wird (z. B. Fougeron & Ridouane 2008; Pouplier & Benuš 2010). Um mögliche Artefakte aufgrund unterschiedlicher Sprachlaute zu vermeiden, haben viele dieser Studien gespiegelte Lautfolgen in potentiellen Onset- und Codapositionen untersucht, z. B. in smug [smʌɡ] vs. mug [mʌɡ] und gums [ɡʌmz] vs. gum [ɡʌm] im Englischen (Marin & Pouplier 2010) oder Platten vs. Latten und Alp vs. All im Deutschen (Pouplier 2012; Zielsequenzen unterstrichen). In ihrer ursprünglichen Form ging die Theorie jedoch davon aus, dass die silbenpositionsbedingte Kopplung der Konsonanten lautunabhängig ist, weshalb diese in Abb. 67 der Einfachheit halber anhand unterschiedlicher Laute im Onset und der Coda schematisch dargestellt ist. Abb. 67: Schematische Darstellung zeitlicher Aktivierungsintervalle (Boxenlänge) infolge unterschiedli‐ cher Kopplungsmuster zwischen Vokalen (V) und Konsonanten (K) im linken und rechten Silbenrand von lass (oben) und blasst (unten) anhand von Gestenpartituren mit unterschiedsrelevanten Traktvariablen (vgl. 2.4) sowie des K-Zentrums (gestrichelte vertikale Linie). 230 6 Silbenphonologie <?page no="232"?> 6.2 Autosegmentale Repräsentation 6.2.1 Silbenstruktur Viele phonologische Theorien gehen von sogenannten subsilbischen Einheiten wie Onset und Coda aus (vgl. 6.1.3). Dieser Abschnitt thematisiert Repräsentationsmög‐ lichkeiten der Silbenstruktur unter Berücksichtigung dieser und anderer Einheiten in nicht linearen phonologischen Ansätzen. Eine weitere bedeutende subsilbische Einheit ist der Silbenkern, der auch als Nukleus (N) bezeichnet wird. Nukleus und Coda bilden zusammen den Reim (R). Die Annahme der subsilbischen Einheiten O, N, C und Reim ist weitverbreitet und manch eine: r mag sich gefragt haben, weshalb diese Begriffe nicht gleich zu Beginn dieses Kapitels eingeführt wurden. Grund hierfür ist, dass man die Begriffe zwar durchaus rein deskriptiv verwenden kann, z. B. um präbzw. postvokalische Konsonanten zu beschreiben, sie aber in der Regel theoretische Konzepte repräsentieren, die der Evidenz bedürfen (s. z. B. Hall 2011: 246-250 für Pro-Argumente, weshalb der Reim eine silbenrelevante Einheit ist) und teilweise abgelehnt werden. Die Beispiele in (28) zeigen autosegmentale Repräsentationen eindeutig einsilbiger Wörter unter Berücksichtigung der subsilbischen Einheiten. In der Phonologie werden Silben in der Regel mit dem kleinen Sigma σ abgekürzt. (28) Während die Nukleusposition einer Silbe den meisten Theorien zufolge obligatorisch und immer gefüllt ist, sind sowohl Onsetals auch Codaposition optional, wie die Beispiele in (28) belegen. Die Beispielwörter stehen repräsentativ für die Kernsilben des Deutschen, die mitunter auch wie folgt abgekürzt werden: CVC (mein), CV (Mai), VC, (ein), V (Ei). An dieser Stelle sei darauf hingewiesen, dass in Silben, die mit einem Vokal beginnen, sei es ein Monophthong oder ein Diphthong wie in Ei und ein in Beispiel (28), mitunter der obligatorische Glottalverschluss der Onsetposition zugewiesen wird. Demnach könnte man auch von der Kernsilbe: CV(C) ausgehen, in 6.2 Autosegmentale Repräsentation 231 <?page no="233"?> der nur die Codaposition optional besetzt ist. Mit Blick auf den fehlenden Phonemstatus des Glottalverschlusses im Deutschen wird hier darauf verzichtet: Das Auftreten des Glottalverschlusses ist vorhersagbar (vgl. 4.2.1.3). Bei der autosegmentalen Repräsentation (Engl. autosegmental representation) der Silben in Form eines sogenannten Silbenstrukturbaumes in (28) wird die lineare Abfolge von Einheiten (Segmente, Autosegmente) auf unterschiedlichen, parallel zueinander verlaufenden Ebenen bzw. Strängen (tiers) dargestellt; die hierarchische Beziehung der (Auto-)Segmente zueinander zeigen sogenannte Assoziationslinien an (Goldsmith 1976). Während Segmente Einzellauten entsprechen, beschreiben Autosegmente Einhei‐ ten, die segmentunabhängig bzw. -übergreifend sind (daher mitunter auch supra‐ segmental, s. Kap. 9). Markante f0-Unterschiede, aber auch bestimmte distinktive Merkmale oder eben subsilbische Konstituenten können in Form von Autosegmen‐ ten in der gesprochenen Sprache auftreten. Während also die Segmente des Wortes mein innerhalb des Segmentstrangs zueinander in einem linearen Verhältnis stehen, so wird der postvokalische Konsonant auf der Silbenstufe einem anderen Autosegment (der Coda) zugeordnet als der prävokalische Konsonant (der dem Onset zugerechnet wird). Die Assoziationslinien führen dann auf der Silbenebene wieder zueinander. Diese Art der Repräsentation wird in der Autosegmentalen Phonologie vorgenommen, einem theoretischen Ansatz, der maßgeblich von John Goldsmith (1976) etabliert wurde und auch in der theoretischen Weiterentwicklung der distinktiven Merkmale, der Merkmalsgeometrie (Clements 1985), eine entscheidende Rolle spielt. Für eine Einführung in die Merkmalsgeometrie sei hier auf Kapitel 7 in Hall (2011) verwiesen. In der vorliegenden Einführung werden die Ansätze der Autosegmentalen Phonologie in diesem Kapitel sowie in Kapitel 9 aufgegriffen. Den Beispielen in (25) sowie der o. g. strukturellen Silbendefinition zufolge können Onset und Coda im Deutschen auch verzweigt (Engl. branching) sein und mehrere Konsonanten enthalten. Eine autosegmentale Repräsentation des einsilbigen Wortes Trunk, das sowohl einen verzweigten Onset als auch eine verzweigte Coda aufweist, ist in Beispiel (29) dargestellt. (29) 232 6 Silbenphonologie <?page no="234"?> 46 Verwendet man das Symbol, das die wortbetonte Silbe markiert (vgl. S. 176, Fußnote 39), muss die Silbengrenze nicht zusätzlich durch den Punkt markiert werden. 47 Als Domäne für die Silbifizierung gilt im normierten Standarddeutschen das sogenannte phonolo‐ gische Wort (s. z. B. Fuhrhop & Peters 2013: 117, 120), auf dessen Einführung im vorliegenden Buch verzichtet wird. Geht man hingegen vom alltäglich gesprochenen Standarddeutschen aus, kann man als Domäne auch das Wort betrachten, wie es auf S. 25 definiert wurde. Cluster führen zu verzweigten oder komplexen Onsets bzw. Codas, Singletons zu nicht verzweigten oder einfachen Onsets bzw. Codas. Sprachen unterscheiden sich hinsichtlich der Belegung und Komplexität von Silben‐ rändern: So kennt das Hawaiianische nur einfache Onsets und leere Codas (Kernsilbe = CV), wie in der bekannten Grußformel aloha [aˈlo.ha]. 46 Im Polnischen hingegen können bis zu fünf Konsonanten dem Onset zugerechnet werden, wie z. B. in z pstrągiem [ˈspstroŋ.ɟem] ‚mit (der) Forelle‘ ( Jassem 2003: 103). Im Deutschen wiederum können bis zu fünf Konsonanten der Coda zugewiesen werden, wenn auch nur in morphologisch komplexen Wörtern wie Herbst-s [hɛʁpsts], bei denen es zudem mit‐ unter alternative Wortformen gibt. Neben Herbst-s nennt der Duden auch Herbstes als weitere Genitivform im Singular. Die Alternativform weist auf eine allgemeine Tendenz hin, allzu komplexe Silbenränder durch Vokaleinschub (s. 6.2.4, 7.3.3) aufzubrechen, die dann zur Mehrsilbigkeit führen kann. Die meisten Sprachen weisen wenige Konsonanten in den Silbenrändern und vokalische Silbennuklei auf (vgl. Easterday 2017). Bei einem zweisilbigen Wort kann sich die Silbifizierung ändern, also die Asso‐ ziation eines Segments zu einer anderen Silbe. Dies wird in der Variante Herbstes / hɛʁps.təs/ wie auch in Meinung in Beispiel (30) deutlich: Ungeachtet der ähnlichen Segmentreihenfolge wie in mein, bildet / n/ nun nicht länger die Coda der ersten Silbe, sondern den Onset der zweiten Silbe. Der Wechsel eines vormaligen Codakonsonan‐ ten in die Onsetposition wird auch als Resilbifizierung bezeichnet; diese sind im Alltagsdeutschen nur innerhalb eines Wortes, nicht aber über die Wortgrenze hinaus möglich (z.-B. Auer 1990: 40, 170). 47 (30) Dass Resilbifizierung nicht grundsätzlich bei zweisilbigen Wörtern der Fall ist, zeigt wiederum die Silbifizierung in Beispiel (31). 6.2 Autosegmentale Repräsentation 233 <?page no="235"?> (31) In einmal wird / n/ weiterhin der Coda der ersten Silbe und nicht dem Onset der zweiten zugerechnet. Auch wenn die Silbengrenze hier mit einer Morphemgrenze zusammenfällt, so zeigt doch das Beispiel in (30), dass beide Grenzen nicht grundsätz‐ lich zusammenfallen: Die Morphemgrenze in Mein-ung befindet sich nicht wie die Silbengrenze zwischen / aɪ/ und / n/ , sondern zwischen ⟨n⟩ und ⟨u⟩. Unter welchen Umständen sich die Anbindung eines Konsonanten an ein anderes Silbenglied und mitunter auch an eine andere Silbe ändert wird weiter in 6.3 besprochen. Sowohl die Silbifizierung von Meinung als auch von einmal ließen sich auch gut linear darstellen: / maɪ.nʊŋ/ bzw. / aɪn.maːl/ , andere Wörter wie Stummel aus der Beispielsammlung in (25) mitunter nicht. Weshalb, wird in 6.2.3 erklärt. Der Vorteil des nicht linearen autosegmentalen Ansatzes gegenüber einem linearen liegt darin, dass es hier möglich ist, Autosegmente hierarchisch mehrfach zuzuordnen, insbeson‐ dere, wenn man einen weiteren Strang berücksichtigt, den Zeit- oder Skelettstrang. Dieser wird in 6.2.2 vorgestellt. Dabei geht es in erster Linie nicht um Darstellungs‐ möglichkeiten, sondern vielmehr darum, phonologische Phänomene modellieren zu können, die auf einer den Segmenten hierarchisch übergeordneten Ebene zu operieren scheinen - Phänomene, die Auswirkung auf mehrere Segmente gleichzeitig haben. Dazu gehören Gesetzmäßigkeiten, die die Phonotaktik von Sprachen (s. 6.2.3) oder auch deren Wortbetonung betreffen. Wie auch die Artikulatorische Phonologie, zielt die Autosegmentale Phonologie darauf ab, offensichtlich segmentübergreifende Cha‐ rakteristika gesprochener Sprache modellieren zu können, wenn auch mittels sehr unterschiedlicher theoretischer Ansätze. 6.2.2 Silbenquantität Mithilfe des Zeit- oder Skelettstrangs (mitunter auch einfach nur Skelett, Engl. timing tier bzw. skeleton (tier)) werden phonologisch relevante zeitliche Informationen mithilfe neutraler Autosegmente abstrakt kodiert. Der Begriff Zeitstrang bezieht sich auf die hier enthaltenen Informationen hinsichtlich der Quantität eines Segments, der Begriff Skelett auf die Tatsache, dass es sich bei diesem Strang um die zentrale phonologische Repräsentationsebene in einigen autosegmentalen Ansätzen handelt. Die Bedeutung dieser Ebene sei wiederum am Wort Meinung in Beispiel (32) illustriert: 234 6 Silbenphonologie <?page no="236"?> (32) Auf der Ebene des Skelettstrangs wird mittels eines oder mehrerer Platzhalter (timing slots, auch Leerstellen) u.-a. die Quantität einzelner Laute markiert, z.-B. die Länge von Diphthongen, und damit auch die Silbenquantität. Als Platzhalter werden - wiederum je nach theoretischem Ansatz - Symbole wie C und V oder auch X verwendet. Im CV-Ansatz werden auf der Skelettebene Konstituenten hinsichtlich des Merkmals [±silbisch] spezifiziert, wobei C [-silbisch] und V [+silbisch] ist (z. B. Clements & Keyser 1983 oder Wiese 1996 zum Deutschen). Der Einfachheit halber wird das Konzept von Silbenquantität und Skelettstrang in dieser Einführung anhand von nicht näher spezifizierten X-Positionen (z. B. Levin 1985) erläutert, da die Erklärungen zu möglichen Assoziationen von C-Positionen auf der Skelettebene zu Vokalen auf der Segmentebene, z. B. in Diphthongen, zu weit führen würde. Entscheidend ist die Anzahl der mit einem Segment assoziierten Platzhalter. Die zwei nach oben mit dem Nukleus und nach unten mit dem Diphthong verbundenen X-Platzhalter markieren hier die phonologische Länge des Diphthongs. Auch andere phonologisch lange Segmente nehmen zwei Plätze (slots) ein, phonologisch kurze bzw. nicht lange Segmente nur einen. Im Deutschen variiert nur die Quantität des vokalischen Nukleus, in Sprachen mit Geminaten wie dem Italienischen oder dem Schweizerdeutschen (vgl. 4.2.1.2) kann auch die Quantität der Konsonanten variieren. Das Beispiel in (33) zeigt die autosegmentalen Repräsentationen für das schweizerdeutsche Minimalpaar Huupe ‚Haube‘ (a.) - huuppe ‚hupen‘ (b.) aus 4.2.1.2 (ohne Berücksichtigung der Silbenglieder). (33) Die Einführung dieser Skelettschicht in der autosegmentalen Silbenrepräsentation hat auch dazu geführt, dass das distinktive Merkmal [±lang] in neueren theoretischen 6.2 Autosegmentale Repräsentation 235 <?page no="237"?> Ansätzen nicht länger notwendig ist (vgl. 5.1.4). Aber auch andere Segmente können sich auf der Segmentebene noch verzweigen, wie das Beispiel der Affrikate in zahm (34) zeigt, vorausgesetzt man wertet Affrikaten monophonematisch (vgl. 4.2.5): (34) In einer biphonematischen Wertung von Affrikaten würde sich der Onset von zahm hingegen bereits auf Ebene des Skelettstrangs verzweigen, wie in (35) dargestellt. (35) Während der Vorteil der grundsätzlichen Verzweigungsmöglichkeit in der Autoseg‐ mentalen Phonologie vielfach Anwendung findet (z. B. in der Prosodie, s. Kap. 9), spielt in der Silbenphonologie insbesondere die Möglichkeit zur mehrfachen Assoziation zwischen dem Skelettstrang und einem Silbenglied eine große Rolle. 6.2.3 Silbentypen und Silbengewicht Der Silbenstrukturbaum in (36) illustriert beispielhaft an dem Wort bieten eine Silbi‐ fizierung wie wir sie schon in (30) bzw. (32) anhand von Meinung gesehen haben. Die Codaposition der ersten Silbe ist leer, der wortmediale Konsonant füllt die Onset‐ position der zweiten Silbe. Im Deutschen kann die Codaposition nur dann ungefüllt sein, wenn in der Nukleusposition desselben Reims ein langes Segment vorkommt, 236 6 Silbenphonologie <?page no="238"?> sei es ein Langvokal oder ein Diphthong (vgl. 4.3.2). Diese Silben werden offene Silben genannt (z.-B. Ei, Mai in (28)). Silben mit doppelt belegter Nukleusposition auf der Skelettebene können aber auch geschlossen sein (geschlossene Silben), wie die Beispiele für Einsilber (zahm in (34) bzw. ein in (28)) und zweisilbige Wörter (einmal in (31)) zeigen. (36) Wird die Nukleusposition jedoch durch einen Kurzvokal besetzt, so ändert sich in mehrsilbigen Wörtern die Silbifizierung, da im Deutschen mit Ausnahme des Neutralvokals [ə] Kurzvokale nur in geschlossenen Silben vorkommen können (s. auch Exkurs ‚Silbenschnitt‘, S. 238). Der postvokalische Konsonant füllt nun auch die Codaposition, ohne aber dabei seine Assoziation mit dem Onsetkonsonanten der nachfolgenden Silbe zu verlieren (Wiese 1996). Diese Mehrfach-Assoziation zwischen Segment und Silbengliedern ist in (37) für bitten autosegmental dargestellt (s. auch Beispiel (40) für eine veränderte Silbenstruktur bei Nichtrealisierung von Schwa). (37) Konsonanten, die sowohl zur vorangehenden als auch zur nachfolgenden Silbe gehören, werden als ambisilbisch (mitunter auch ambisyllabisch, Engl. ambisyl‐ labic) bezeichnet. 6.2 Autosegmentale Repräsentation 237 <?page no="239"?> Die Mehrfachanbindung eines ambisilbischen Konsonanten an verschiedene Silben verdeutlicht den Vorteil der autosegmentalen Silbenrepräsentation gegenüber einer li‐ nearen Repräsentation. In linearen Repräsentationen ambisilbischer Konsonanten, die auch als Silbengelenk bezeichnet werden, kann der Punkt zur Silbengrenzmarkierung aber auch unter den entsprechenden Konsonanten gesetzt werden (statt zwischen zwei Konsonanten, s. z.-B. Eisenberg 2020 und S. 337, Beispiel (72)). Gründe für die Doppelanbindung und damit Ambisilbizität des Konsonanten sind einerseits dessen akustisch-auditive Anbindung an den vorangehenden Vokal, die schon früh von Sievers (1881) in der Silbenschnitttheorie beschrieben wurde (s. Exkurs ‚Silbenschnitt‘ unten), und andererseits das Fehlen eines Glottalverschlusses vor dem vokalischen Nukleus der zweiten Silbe, der wiederum für die Anbindung des Konsonanten an die zweite Silbe spricht. Ein weiterer Grund für die Assoziation mit dem Onset der Folgesilbe wird in 6.3 vorgestellt. Silbenschnitt Der Begriff Silbenschnitt beschreibt die für das Standarddeutsche gültige Regel, wonach Kurzvokale nur in geschlossenen Silben vorkommen. In seiner Silben‐ schnitttheorie unterschied Sievers (1881) zwischen Schall- und Drucksilben. Schallsilben, wie die erste Silbe in bieten, erreichen demnach ein Energiemaximum innerhalb des Vokals, während Drucksilben, wie die erste Silbe in bitten, dieses Maximum erst nach dem Vokal erreichen. Jespersen (1913) folgend etablierte Trubetzkoy (1939) stattdessen die Begriffe loser vs. fester Anschluss: Offene Silben sind durch einen losen Anschluss, geschlossene Silben durch einen festen Anschluss gekennzeichnet. Diesen zunächst nur ohrenphonetisch basierten Ana‐ lysen zufolge galt der Silbenschnitt als das zentrale Merkmal, das die phonemische Vokallänge und die Silbifizierung mehrsilbiger Wörter im Deutschen vorhersagt. Ende des 20. Jahrhunderts erfuhr die Theorie erneut ein großes Maß an Aufmerk‐ samkeit, insbesondere in der germanistischen Linguistik (Vennemann 1991). So wurde nun beispielsweise durch akustische Messungen gezeigt, dass Kurzvokale im Vergleich zu Langvokalen zwar ein kürzeres Plateau der Intensitätskurve aufweisen (Spiekermann 2002), diese aber Jessen (2002) zufolge höher ausfällt, was er mit höherer Lautstärke in Verbindung bringt. Hoole und Mooshammer (2002) untersuchten den Silbenschnitt mithilfe elektromagnetischer Artikulographie (vgl. Exkurs ‚Artikulatorische Signalphonetik‘, S. 62) und fanden eine engere An‐ kopplung zwischen Kurzvokalen und postvokalischen Konsonanten in Form einer Vokal-Beschneidung durch die artikulatorische Schließgeste des nachfolgenden Konsonanten. Unter Berücksichtigung der Silbenschnittregel in der Phonologie des Deutschen gehen manche Autor: innen von nur acht statt 16 Vokalphonemen aus (z.-B. Becker 1998: 162, vgl. 4.3.2), wobei Vokalquantität aufgrund des Silben‐ typs vorhersagbar und nicht distinktiv ist. 238 6 Silbenphonologie <?page no="240"?> Nur einzelne Konsonanten und monophonematisch gewertete Affrikaten gelten nach Kurzvokalen als ambisilbisch. Bei biphonematischer Wertung von Affrikaten ließe sich etwa in Katze aus Beispiel (24) / t/ der Coda der ersten Silbe und / s/ dem Onset der zweiten Silbe zuordnen. Dies gilt auch für andere mehrsilbige Wörter mit Kurzvokalen und zwei oder mehr darauffolgenden wortmedialen Konsonanten und ist in Beispiel (38) anhand von Lichter dargestellt. (38) Das Konzept der Ambisilbizität ist zwar weitverbreitet, aber auch umstritten (z. B. Caratini 2007, Jensen 2000), nicht zuletzt, weil es keine eindeutige phonetische Evidenz dafür gibt. Trotz Tendenzen zu unterschiedlich langen Verschlussdauern von ambisil‐ bischen im Vergleich zu nicht ambisilbischen Konsonanten, wie für [t] in Wörtern wie bieten und bitten in Abb. 68 gezeigt, sind diese akustisch-auditiv nicht deutlich zu unterscheiden, auch weil der Unterschied nicht so stark ausgeprägt ist wie bei echten Geminaten (die ihrerseits ebenfalls ambisilbisch sein können, vgl. van der Hulst 1985). Zudem finden sich vermehrt Studien, die die Analyse von Silbenschnitt und ambisilbischen Konsonanten als zu sehr von der Orthographie beeinflusst betrachten (z.-B. Pröll et al. 2016). 6.2 Autosegmentale Repräsentation 239 <?page no="241"?> Abb. 68: Verteilung der in Datenbank_2_emuDB gemessenen postvokalischen Verschlussdauern in aus‐ gewählten Minimalpaarwörtern mit Kurz- oder Langvokal gesprochen je dreimal von zehn Sprecher: innen des Standarddeutschen (davon 5 Männer), getrennt nach zugrunde liegender Vokalquantität. Ungeachtet dieses Hinweises zur kritischen Auseinandersetzung mit den Konzepten Ambisilbizität und Silbenschnitt gilt es zudem hervorzuheben, dass die für das Deutsche beschriebene Beschränkung der Kurzvokale auf geschlossene Silben sprachabhängig ist. In anderen Sprachen können Kurzvokale auch in offenen Silben vorkommen, so etwa im Tschechischen: je [jɛ] ‚ist‘ oder domu [do.mu] ‚des Hauses‘ (vgl. Dankovičová 1997). Silben werden mitunter auch hinsichtlich ihres Gewichts klassifiziert, wobei nur der Reim zum Silbengewicht beiträgt. Eine mögliche Definition ist die folgende; wie wir unten sehen werden, kann die Definition je nach Sprache aber auch anders ausfallen. Silben mit einem langen Vokal oder einer gefüllten Coda werden als schwer bezeichnet. Silben mit Kurzvokalen in offenen Silben als leicht. Viele Einführungen lassen das Konzept superschwerer Silben mit • einem Langvokal gefolgt von einem postvokalischen Konsonanten, • einem Kurzvokal gefolgt von mehreren postvokalischen Konsonanten unberücksichtigt (z. B. Hayes 2009; Hall 2011). In dieser Einführung soll darauf zumindest kurz hingewiesen sein, da die Annahme superschwerer Silben für das Deutsche durchaus in Frage kommt (z.-B. in Herbst; s. Hall 2002 und unten). 240 6 Silbenphonologie <?page no="242"?> Eine zentrale Rolle spielt das Silbengewicht für die regelhafte Zuweisung von Wortbetonung in gewichtssensitiven Sprachen, wonach schwere Silben die Wortbe‐ tonung anziehen (Hyman 1985). So ist im deutschen Wort Lichter die erste und - der o. g. Definition folgend - schwere Silbe betont, die zweite, leichte Silbe nicht (zur Wortbe‐ tonung s. 9.2). Nicht alle Sprachen gelten als gewichtssensitiv (z. B. Tschechisch oder Polnisch); die Zuordnung von Wortbetonung erfolgt dann unabhängig vom Silbentyp. Für das Deutsche, in dem die Wortbetonung auf unterschiedliche Silbenpositionen fallen kann (vgl. Lichter mit Gericht, einem Wort mit Betonung auf der zweiten Silbe) liegen sowohl gewichtssensitive (z. B. Féry 1998) als auch -insensitive Ansätze (z. B. Wiese 1996) zur Wortbetonungszuordnung vor, wobei erstere teils deutlich von der o. g. Definition abweichen und für letztere die o.-g. Definition irrelevant ist. Im Deutschen kämen der o. g. Definition zufolge in erster Linie schwere und ggf. superschwere Silben vor und nur Silben mit einem Neutralvokal könnten als leicht betrachtet werden. Féry (1998) hingegen klassifiziert auch offene Silben mit einem Langvokal und geschlossene Silben mit Kurzvokal und einem postvokalischen Konsonanten als leicht; schwer sind Silben erst, wenn auf den Kurzvokal ein silbenfinales Cluster folgt (wie in Trunk) oder auf einen Langvokal ein einzelner Konsonant. Hall (2002) wiederum stuft letztere als superschwer und erstere - in Einklang mit o. g. Definition - als schwer ein; im Buch folgen wir dieser Zuordnung, wobei das Konzept superschwerer Silben keine weitere Rolle spielt. Aus einer sprachvergleichenden Studie schloss Gordon (2002), dass phonologisches Silbengewicht eng mit dem phonetisch-auditiven Parameter Gesamtenergie (Engl. total energy) korreliert. Gesamtenergie wurde dabei zunächst als Intensität über die Zeit einer schweren Silbe im Verhältnis zu einer schwachen Silbe berechnet. Anschließend wurde der akustische Wert in einen psychoakustischen Wert relativ wahrgenommener Lautstärkeunterschiede überführt (s. 8.2). In den von Gordon untersuchten Sprachen wiesen schwere Silben eine maximale Gesamtenergie und leichte Silben eine minimale Gesamtenergie auf. Das Silbengewichtskonzept spielt insbesondere in phonologischen Theorien eine Rolle, die das Silbengewicht mittels der Einheit Mora messen. Morentheoretische Ansätze (z. B. Hyman 1985; Hayes 1995) zählen ebenfalls zu den autosegmental-phono‐ logischen Theorien, gehen aber nicht von Skelettpositionen aus. Stattdessen lassen sich Silben in Moren untergliedern, die wiederum mit den einzelnen Segmenten verbunden sind. In morentheoretischen Ansätzen werden Silben wie folgt definiert. Leichte Silben bestehen aus einer Mora, schwere Silben aus zwei Moren. Die Mora sagt zunächst etwas über das Gewicht einer Silbe aus; die Quantität einer Silbe wird durch sie aber auch erfasst, wie die Repräsentation von Lichter unter Berücksichtigung von Moren in (39) zeigen. Moren werden in der autosegmentalen Repräsentation mit μ abgekürzt. 6.2 Autosegmentale Repräsentation 241 <?page no="243"?> 48 Es bietet sich daher die Verwendung des Diakritikums [ ̩] anstelle der Diakritika [ⁿ] bzw. [ˡ] an, die eine nasale bzw. laterale Lösung anzeigen (vgl. 4.2.1.1), da [ ̩] zunächst die silbische Natur dieser Konsonanten kennzeichnet, die im Falle eines vorangehenden Plosivs auch die entsprechende Lösung impliziert. (39) 6.2.4 Silbische Konsonanten Dass der Nukleus einer Silbe auch konsonantisch sein kann, wurde bereits anhand des Wortes Stummel aus der Beispielsammlung in (25) in 6.1.2 beschrieben. Eine entscheidende Bedingung hierfür ist der Wegfall von Schwa - ein häufig auftretendes Phänomen in gesprochener Sprache (s. 7.3.3). Neben / l/ können im Deutschen auch Nasale nach Wegfall von Schwa [+silbisch] sein, z. B. Mappen [ˈmaṗm̩] oder mitten [ˈmɪṭn̩], und damit all jene Konsonanten, die auch als nasale bzw. laterale Plosivlösung beschrieben werden können (vgl. 4.2.1.1). Gleichzeitig ist das Vorkommen dieser silbi‐ schen Konsonanten nicht auf den Kontext eines vorangehenden Plosivs beschränkt, wie etwa Beispielwörter wie Stummel, fassen [ˈfaṣn̩] oder Muschel [ˈmʊʃl̩ ] zeigen. 48 Wie sich die Silbenstruktur der zweiten Silbe nach dem Wegfall von Schwa vor einem silbischen Konsonanten ändert, ist in (40) dargestellt. (40) Konsonantische Nuklei treten unabhängig von der Ambisilbizität auf, so z. B. wenn bieten als [ˈbiː.tn̩] realisiert wird. Im Deutschen ist das Vorkommen silbischer Konsonanten abhängig von Faktoren wie Sprechstil und Geschwindigkeit, die den Wegfall von Schwa bewirken (s. 7.1). Sie 242 6 Silbenphonologie <?page no="244"?> entstehen - wenn man so will - durch ‚Aufrücken‘: sie füllen eine zuvor mit einem Vokal besetzte Nukleusposition und hinterlassen eine leere Coda. Im Slowakischen hingegen kommen silbische Konsonanten, in diesem Fall / l/ und / r/ , unabhängig von Schwa-Wegfall vor und nie am Wortende, da danach grundsätzlich ein Konsonant vorkommen muss, entweder in der Coda oder dem Onset der Folgesilbe. Im Gegensatz zum Deutschen kommen silbische Konsonanten im Slowakischen folglich auch in einsilbigen Wörtern vor, wie etwa in chlp [xlp] ‚Haar‘ oder krk [krk] ,Hals‘ (Pouplier & Benuš 2010). Im Sprachvergleich fällt auf, dass häufig nur Liquide als silbische Konsonanten fungieren (z. B. Engl. little [ˈlɪṭl̩ ]). Gerade / l/ und / r/ werden - wie in 4.2.6 und 4.3.2 oben beschrieben - häufig vokalisiert und auch Nasale verschmelzen immer wieder mit Vokalen (man denke nur an die Nasalierung von Vokalen, vgl. 4.5). Dass die Möglichkeit zur Vokalisierung jedoch nicht unbedingt eine Bedingung für die Existenz silbischer Konsonanten sein muss, zeigen die Untersuchungen folgender Sprachen. So präsen‐ tierten Pouplier und Benuš (2010) in ihrer Studie im Rahmen der Artikulatorischen Phonologie anhand von elektromagnetisch-artikulographischen Messungen Evidenz dafür, dass sich die silbischen Konsonanten im Slowakischen wie Konsonanten-Cluster verhalten und sich nicht - wie zunächst vermutet - an vokalische Gesten annähern. Die in Marokko gesprochene Berbersprache Taschelhit kennt zudem silbische Konsonanten, die [+kons, -son, -sth] sind: z. B. / fk/ ,geben‘, / f.kt/ ,gib es‘, / tfk.tstt/ ,du gabst es‘, / ts.sk.ʃf.tstt/ ,du trocknetest es‘ (Ridouane 2008: 332). Da das in den Sprachen der Welt nur selten vorkommt (vgl. Bell 1978), wurde die Silbenstruktur dieser Sprache in den letzten Jahren vielfach analysiert. In der Tat findet sich für diese Sprache akustische Evidenz für den Einschub Schwa-artiger Elemente. Diese scheinen jedoch rein phonetischer und nicht phonologischer Natur zu sein. Genauer: Die vokalischen Formen gelten als Nebenprodukte, die nur in der phonetischen Oberflächenform in Erscheinung treten und durch verstärkte Überlappung der den Clustern zugrunde liegenden artikulatorischen Gesten (vgl. 2.4) entstehen (Fougeron & Ridouane 2008; s. auch Exkurs ‚Phonetische Erklärungen für Epenthese‘ in 7.3.3). Da sie selbst nicht durch eine eigene artikulatorische Geste entstehen wie etwa / ə/ in der zweiten Silbe von Güte, entsprechen sie auf Ebene der Phonologie weder dem Silbennukleus noch einem anderen Silbenglied. Auch wenn das Vorkommen stimmloser Obstruenten als silbische Konsonanten im Sprachvergleich sehr selten ist, so ist die Silbenstruktur dieser Sprache durchaus konform mit den als allgemeingültig angenommenen Prinzipien, die in den nächsten beiden Abschnitten vorgestellt werden (s. 6.4). 6.3 Das Prinzip der Onset-Maximierung Dass die Konsonanten nach Kurzvokalen wie in den Beispielen (36) bis (40) auch im Onset der zweiten Silbe stehen, geht mit einer generellen Tendenz einher, Konsonanten eher dem Onset der zweiten Silbe zuzuschlagen. Schauen wir uns hierfür nochmals 6.3 Das Prinzip der Onset-Maximierung 243 <?page no="245"?> die Beispiele (30) und (31) aus 6.2.1 - Meinung und einmal - an sowie die Beispiele Eingang und Eignung, die in (41) und (42) skizziert sind, nun wieder unter Verwendung subsilbischer Konstituenten, aber ohne Bezug auf den Skelettstrang. (41) (42) Eine Frage, die sich mit Blick auf diese Beispiele stellt, ist, unter welchen Umstän‐ den / aɪ/ in offenen bzw. in geschlossenen Silben vorkommt und ob sich damit die Silbifizierung ändert. Hier greift im Deutschen, wie auch in vielen, wenn nicht sogar allen Sprachen das Prinzip der Onset-Maximierung (Engl. Maximum Onset Principle). Das Prinzip der Onset-Maximierung besagt, dass wortmediale Konsonanten dem Onset der zweiten Silbe zugerechnet werden, solange es die Phonotaktik der jeweiligen Sprache erlaubt. Demnach kann postvokalisches [n] im Deutschen nur dann dem Onset zugerech‐ net werden, wenn nach dem Nasal kein weiterer Konsonant vorkommt (wie in Meinung), da die Phonotaktik des Deutschen im Silbenonset keine Lautsequenz aus Nasal plus einem anderen Konsonanten zulässt (s. auch Tab. 15, 246). Genauer: In den Beispielen einmal und Eingang muss der alveolare Nasal in der Coda der ersten Silbe stehen, da im Deutschen Konsonantencluster wie / nm/ bzw. / nɡ/ im 244 6 Silbenphonologie <?page no="246"?> 49 Legt man das phonologische Wort als Domäne der Silbifizierung zugrunde, wäre ein Resil‐ bifizierung von [n] mit der zweiten Silbe auch deshalb nicht möglich, weil die erste Silbe in beiden Fällen einem phonologischen Wort entspricht, über dessen Grenzen hinaus keine Resilbifizierung möglich ist (vgl. S. 233 und Fußnote 47). 50 Dies ist ein weiteres Beispiel dafür, dass die Silbifizierung in der normierten Standardsprache anders ausfallen kann als in der alltäglich gesprochenen Standardvarietät (vgl. S. 233, Fußnote 47). Silbenonset nicht vorkommen. 49 Im Falle von Eignung sieht dies anders aus, da das Deutsche Kombinationen aus Plosiv gefolgt von einem anderen Konsonanten wie dem / n/ erlaubt (s. Tab. 15). Die Silbifizierung von Eignung als [aɪ.ɡnʊŋ] ist mit Bezug auf die normierte Standardaussprache sogar alternativlos, da nur die Silbifizierung von / ɡ/ (und damit auch / n/ ) mit dem Onset der zweiten Silbe zur Oberflächenrealisierung eines [ɡ] führt. Dies wird im Rahmen phonologischer Prozesse in 7.3.1 näher erklärt. Bei einer Silbifizierung des / ɡ/ mit der Coda der ersten Silbe führte dies zu einer Oberflächenrealisierung als [k]. Dies ist beispielsweise in der normierten Aussprache des Wortes Steigbügel der Fall (vgl. [ˈʃtaɪk.byː. ɡ l̩ ]). Bei einem Wort wie Eignung kommt [k] nur in nicht normierten Aussprachevarianten vor, z. B. bei einer überdeutlichen Aussprache (auch dazu später mehr in 7.1). 50 Während die normierte Standardaussprache [ˈaɪ.ɡnʊŋ] also beispielhaft für die mögliche Inkongruenz von Silben- und Morphemgrenzen ist, erweckt die Realisierung [ˈaɪk.nʊŋ] vielleicht den Anschein, Sprecher: innen tendierten in der gesprochen All‐ tagssprache zu einer Silbifizierung, in der Silben mit Morphemen übereinstimmen. Dass dem in der gesprochenen Sprache aber durchaus nicht so sein muss, zeigt folgendes Resilbifizierungsbeispiel, von dem man eventuell schon in einem ganz anderen Kontext gehört hat: Die Kurzform Schland für Deutschland, die immer wieder bei Fan-Gesängen zu hören ist. Egal ob beim Fan-Gesang oder in der gesprochenen Sprache, wir weichen oftmals von einer morphologischen Silbifizierung von Deutsch-land als [ˈdɔɪ̯tʃ.lant] ab und resilbifizieren den postalveolaren Frikativ wie in (43) dargestellt mit der zweiten Silbe. (43) Bei einer biphonematischen Wertung der Affrikate ist dies problemlos möglich, da / ʃl/ im Deutschen ein erlaubtes Onsetcluster bildet (s. Tab. 15). [t] verbleibt demnach in der Codaposition der ersten Silbe, da dessen Resilbifizierung mit der zweiten Silbe 6.3 Das Prinzip der Onset-Maximierung 245 <?page no="247"?> 51 Im Falle des Fan-Gesangs ist es auch denkbar, dass das (ungelöste) [t] ebenfalls resilbifiziert wird (ungeachtet der phonotaktischen Verletzung), da Wörter im Gesang teils anders silbifiziert werden als in der gesprochenen Sprache (Slavik et al. 2020: 64). nicht möglich ist; das Deutsche kennt kein Cluster / tʃl/ in Onsetposition. 51 Wertete man Affrikaten monophonematisch, wäre eine Resilbifizierung wie in (43) nicht möglich. Da nun aber die Resilbifizierung im Sinne der Onset-Maximierung auditiv besonders deutlich werden kann, könnte man dies gleichzeitig auch als Argument für eine biphonematische Wertung der Affrikate betrachten. Evidenz für die Dominanz des Onset-Maximierungsprinzips kommt einerseits aus der Typologieforschung (vgl. Kap. 1) und andererseits aus experimentalphonetischen Experimenten, die zeigen, dass Resilbifizierung unter Berücksichtigung der Phonotak‐ tik einer Sprache auch bei Logatomen dieser Sprache greift, wenn die Silben der Logatome phonotaktisch wohlgeformten Silben derselben Sprache ähneln. Ein solches Experiment wird in 7.3.1 vorgestellt. K 1 K 2 / ʁ/ / l/ Nasal Obstruent / p/ Pracht Plan (+ / n/ Pneumatik) (+ / s/ Psalm) + / f/ Pfad / b/ Brand Blatt — — / t/ Tracht — — + / s/ Zeit + / ʃ/ Tschüß / d/ Drache — — + / ʒ/ Dschungel / k/ Krach Kralle + / n/ Knall + / v/ Quark / ɡ/ grau Glaube + / n/ Gnade — / f/ Frau flau — — / v/ Wrack (Wladimir) — — / s/ — (Slawe) + / m/ Smaragd + / k/ Skat / ʃ/ Schrank Schlamm + / m/ Schmalz + / n/ schnell + / v/ Schwamm + / p/ Spalt + / t/ Stadt Tab. 15: Beispielwörter für Silben mit zwei Konsonanten (K) im Onset der ersten Silbe inklusive seltener K-Kombinationen in Fremdwörtern (eingeklammerte) und biphonematisch gewerteter Affrikaten (Fett‐ druck). Mit — gekennzeichnete Zellen verweisen auf phonotaktisch nicht erlaubte Kombinationen. Welche Sprachlaute des Deutschen im Onset einer Silbe vorkommen können, ist in Tab. 15 zusammen mit je einem Beispiel aufgelistet. K 1 entspricht dem wortinitialen, K 2 dem darauffolgenden prävokalischen Konsonanten. In den Zeilen von Tab. 15 sind nur Konsonanten gelistet, die im Deutschen wortinitial mit mindestens einem weite‐ 246 6 Silbenphonologie <?page no="248"?> ren Konsonanten eine phonotaktisch legale Kombination bilden können. Affrikaten werden in dieser Auflistung biphonematisch gewertet und als Kombination aus K 1 und K 2 gelistet. Das Deutsche erlaubt natürlich nicht nur zwei, sondern bis zu vier Konsonanten im Silbenonset. Die meisten folgen dabei dem wiederum tendenziell allgemeingültigen Sonoritätsprinzip, das im nächsten Abschnitt genauer erklärt wird. 6.4 Das Sonoritätsprinzip Tab. 15 zeigt deutlich eine Beschränkung der Kombinationsmöglichkeiten von Pho‐ nemen im Silbenonset des Deutschen: Verzweigte Onsets weisen fast immer einen Obstruenten an erster Stelle (K 1 ) auf und häufig einen Liquidlaut (auch Liquida) an zweiter Position (K 2 ). Das Vorkommen von Nasalen in K 2 -Position ist eingeschränkter im Vergleich zur Klasse der Liquide, aber immer noch häufiger im Vergleich zu Obstruenten. Zwar können auch Obstruenten in der K 2 -Position stehen, aber jeweils nur ausgewählte; die Kombinationsmöglichkeiten sind hier stark eingeschränkt. Um‐ gekehrt ist ein Onsetcluster mit einem Liquidlaut oder Nasal, also Laute, auf die das Merkmal [+son] zutrifft, an erster Stelle eines zweigliedrigen Onsets im Deutschen ausgeschlossen. Untersucht man Silbifizierung kontrastiv, so findet man in vielen Sprachen eine grundsätzliche Tendenz zu Obstruent+Sonorant-Kombinationen im Onset wie auch zu Sonorant+Obstruent-Kombinationen in der Coda - wie der Blick auf Codaverzweigungen in den größtenteils einsilbigen Wörter des Deutschen in Tab. 16 verrät. K 1 entspricht in dieser Tabelle dem ersten Konsonanten in der postvokalischen Position der (letzten) Silbe, K 2 dem darauffolgenden silbenfinalen Konsonanten. K 1 K 2 / l/ Nasal Frikativ Plosiv / r/ Kerl + / n/ Arm + / m/ Kern + / f/ Wurf + / s/ Kurs + / ç/ Storch + / ʃ/ Marsch + / p/ Korb + / t/ Kord + / k/ Kork / l/ — + / n/ adeln + / m/ Alm + / f/ half + / s/ Hals + / ç/ Milch + / ʃ/ falsch + / p/ gelb + / t/ Geld + / k/ welk / m/ — — + / s/ Wams + / p/ Lump + / t/ Amt / n/ — — + / f/ Senf + / s/ Gans + / ç/ Mönch + / ʃ/ Mensch + / t/ Band + / k/ Bank / f/ — — + / s/ Schiffs + / t/ Luft 6.4 Das Sonoritätsprinzip 247 <?page no="249"?> K 1 K 2 / l/ Nasal Frikativ Plosiv / s/ — — — + / t/ fest + / k/ brüsk / ç/ — — + / s/ Dachs + / t/ Hecht / ʃ/ — — (+ / s/ Frischs) + / t/ (Gischt) wischt / p/ — — + / s/ Gips + / t/ Haupt klappt / t/ — — + / s/ Betts — / k/ — — + / s/ Keks — Tab. 16: Beispielwörter für Silben mit zwei Konsonanten (K) in der Coda der (letzten) Silbe inklusive seltener Kombinationen (eingeklammert) und morphologisch komplexer, flektierter Wörter (Fettdruck). Mit — gekennzeichnete Zellen verweisen auf phonotaktisch nicht erlaubte Kombinationen. Diese Tendenz wird als Sonoritätsprinzip (Engl. sonority sequencing principle) be‐ zeichnet (vgl. z. B. Selkirk 1982, Clements 1990) und teils als ausnahmslos geltend betrachtet. Demzufolge tendieren alle Silben in den Sprachen der Welt dazu, nach dem Sonoritätsprinzip aufgebaut zu sein (s. aber unten). Silben nehmen dem Sonoritätsprinzip zufolge im Onset vom äußersten Kon‐ sonanten zum Nukleus in ihrer Sonorität zu und vom Nukleus zum letzten Konsonanten einer Silbe ab. In 5.1.1 wurde der Begriff sonor im Rahmen des Oberklassenmerkmals [±son] eingeführt, und zwar - auch aufgrund der dort vorgenommenen phonetischen Definition hinsichtlich des Luftdrucks und der binären Wertigkeit - zunächst relativ unkritisch. Häufig und insbesondere auch im Rahmen silbenphonologischer Analysen wird der Begriff aber auch etwas anders definiert und vor allem als graduelles Merkmal betrachtet. Auf der artikulatorischen Ebene korreliert Sonorität am ehesten mit dem Öffnungsrad und dem damit verbundenen Luftdruck, demzufolge auf der akustischen Ebene mit Schallintensität und auf der auditiven Ebene mit Klang- oder Schallfülle. Insbesondere, wenn das Merkmal, wie häufig in silbenphonologischen Analysen, auditiv definiert ist und damit stark von der subjektiven Wahrnehmung abhängt, ist das Merkmal jedoch nur schwer quantifizierbar. Denken wir dabei nur an irgendeine Sprecherstimme, die ein: e Hörer: in vermutlich als sonorer empfindet als eine andere. Zweifel an der Quantifizierbarkeit von Sonorität und damit an deren Eignung, Silbenstrukturbeschränkungen erklären zu können, äußerte u. a. Ohala (1992). Als alternatives Maß schlug er einen Modulationsgrad verschiedener akustischer Maße wie etwa von Periodizität vor, der über die Zeit variiert; dessen 248 6 Silbenphonologie <?page no="250"?> akustisch-auditive Salienz führe demnach zu bestimmten Silbenstrukturen (vgl. auch die Studie von Gordon 2002, in 6.2.3). Dennoch hat der Sonoritätsbegriff in der phonologischen Erklärung von Silbenstruk‐ turen in den Sprachen der Welt seit Langem einen festen Platz (Sievers 1881, Jespersen 1913). Jede Lautklasse kann demnach hinsichtlich ihrer auditiven Sonorität entlang einer Skala beurteilt werden. Die Skala in (44) zeigt zunächst eine grob unterteilte Sonoritätsskala (auch Sonoritätshierarchie), wobei < weniger sonor bedeutet. (44) Obstruent < Sonorant < Vokal Alle legalen Silbenonsets des Deutschen mit zwei Konsonanten in Tab. 15 entsprechen insofern der Sonoritätsskala in (44), als dass in keinem der Beispiele - wie oben bereits festgestellt - ein Obstruent die Position zwischen einem Sonoranten und dem Vokal einnimmt. Die Beispiele in Tab. 15 zeigen aber auch, dass K 2 nicht zwangsläufig ein Sonorant sein muss, sondern auch ein Obstruent sein kann. Unterscheidet man darüber hinaus innerhalb der Obstruenten zwischen Plosiven und Frikativen und innerhalb sonoranter Konsonanten zwischen Liquiden und Nasa‐ len, ergibt sich, unter Berücksichtigung der oben genannten phonetischen Kriterien, die feiner untergliederte Sonoritätsskala in (45): (45) Plosiv < Frikativ < Nasal < Liquidlaut < Approximant < Vokal Man könnte die Sonoritätsskala sogar noch feiner untergliedern, in dem man beispiels‐ weise innerhalb der Obstruenten jeweils zwischen sonoreren stimmhaften und weniger sonoren stimmlosen Lauten und innerhalb der Vokale zwischen sonoreren offenen und etwas weniger sonoren geschlossenen Vokalen unterscheidet; in silbenphonologischen Ansätzen wird eine solche Feindifferenzierung in der Regel aber nicht vorgenommen. Auch wenn Approximanten weder in Tab. 15 noch in Tab. 16 genannt wurden, ist die Unterscheidung zwischen Approximanten und Vokalen in (45) notwendig, um zu zeigen, dass nur Vokale im Nukleus, nicht aber in der Coda stehen. Legt man die soeben erwähnte Feindifferenzierung innerhalb der Vokale zugrunde, so sind Approximanten auch phonetisch als weniger sonor anzusehen als Vokale. Sieht man von einer solchen Feindifferenzierung aber ab und orientiert sich weiterhin an phonetischen Einheiten, so könnte man auch Vokoide (vgl. 4.1) als sonorste Lautklasse festhalten. Das dies in der Regel nicht getan wird, verdeutlicht u. a. den phonologischen Charakter der Sonoritätsskala: die phonologische Einheit der Vokale markiert den sonorsten Endpunkt der Sonoritätsskala, der ausschließlich im Silbennukleus vorkommt (vgl. 4.1). 6.4 Das Sonoritätsprinzip 249 <?page no="251"?> Abb. 69: Sonoritätsprofil des Satzes „Junge Schildkröten steigen aufwärts“ unter Berücksichtigung der Sonoritätsskala in (45). Legt man die Sonoritätsskala in (45) zugrunde, folgen die Onset- und Coda-Kombina‐ tionsmöglichkeiten in Tab. 15 und in Tab. 16 größtenteils dem Sonoritätsprinzip. Für die Darstellung eines sogenannten Sonoritätsprofils bildet man den lautabhängigen Sonoritätswert über eine Symbolkette (und damit implizit über die Zeit) ab. Abb. 69 zeigt das Sonoritätsprofil für den Satz „Junge Schildkröten steigen aufwärts“: Die meisten Sonoritätsgipfel korrespondieren mit den jeweiligen Silbenkernen, die meisten Sonoritätstäler mit den äußeren Silbenrändern. Dabei entsprechen nicht nur Vokale Sonoritätsgipfeln einerseits und Plosive Sonoritätstälern andererseits; auch Konsonanten, die [+silbisch] sind (z. B. [ŋ̩]), können einen Sonoritätsgipfel bilden und Approximanten wie [j] ein Sonoritätstal. Das Beispiel in Abb. 69 sowie die entsprechenden Beispielwörter in Tab. 15 und in Tab. 16 zeigen aber auch, dass es Lautkombinationen in offensichtlich legalen Wörtern einer Sprache gibt, die möglicherweise das Sonoritätsprinzip verletzen. Im Deutschen sind das etwa / ʃp/ und / ʃt/ wie zu Beginn von Spalt, Stadt oder steigen und / ks/ , / pt/ oder / ts/ am Ende von Keks oder aufwärts. Im Sonoritätsprofil weisen sie einen zusätzlichen Sonoritätsgipfel zu Beginn bzw. am Ende eines Wortes auf, ohne dass dieser mit einem Silbenkern korrespondiert. 250 6 Silbenphonologie <?page no="252"?> Auch Silben mit gleichbleibender Sonorität innerhalb eines Clusters wie in klappt können als Verletzung des Sonoritätsprinzips gelten. In Strumpf wird das Sonoritäts‐ prinzip sogar sowohl zu Beginn als auch zum Ende des Wortes verletzt. Weder die Kombinationen an sich noch die hier genannten Wörter sind jedoch selten oder ausschließlich grammatikalisch komplex. Das Vorkommen koronaler Frikative vor Plosiven am Wortanfang kennen wir zudem auch aus anderen Sprachen wie Englisch (z. B. sport, staff, skill) oder Italienisch (sport ‚Sport‘, stipendio ‚Gehalt‘, scudo ‚Schild‘). Diese Kombinationen stellen eine Herausforderung für die silbenphonologische Analyse dar und wurden u.-a. als • zugehörig zu komplexen Onsetclustern (s.-u.), • extrasilbisch, d.-h. nicht zur Silbe gehörig (Hall 1992) analysiert. Analysen, die von Extrasilbizität ausgehen, vermuten diese auf der Ebene der Phonologie. Ein Grund für die Annahme von Extrasilbizität ist die Hypothese der ausnahmslosen Gültigkeit des Sonoritätsprinzips auf der phonologischen Ebene. Extrasilbische Konsonanten können das Prinzip nicht verletzen, da sie nicht Teil der Silbe sind. Erst auf der phonetischen Ebene werden extrasilbische Konsonanten demnach mit einem Onset bzw. Reim assoziiert. Als extrasilbische Konsonanten werden Konsonanten bezeichnet, die infolge einer strikten Anwendung des Sonoritätsprinzips keiner Silbe zugeordnet werden kön‐ nen, aber Teil des Wortes sind. Studien im Rahmen der Artikulatorischen Phonologie haben mittels elektromagne‐ tisch-artikulographischer Messungen zeigen können, dass im Deutschen oder Engli‐ schen die zeitliche Koordination des wortinitialen Frikativs in / s/ +Plosiv-Kombinatio‐ nen für die Anbindung an den Onset spricht. / s/ +Plosiv-Kombinationen entsprechen demnach genauso verzweigenden Onsets wie etwa Plosiv-Nasal-Kombinationen (Browman & Goldstein 2000; Pouplier 2012). Im Italienischen hingegen verhält sich wortinitiales / s/ vor einem Plosiv nicht grundsätzlich wie ein Teil des Onsets; wenn wortinitiales / s/ nicht zu Beginn einer Äußerung auftritt, dann kann auch eine Silbifi‐ zierung von / s/ mit der vorangehenden Coda nicht ausgeschlossen werden, d. h. eine Realisierung von la spina ‚der Dorn‘ als [las.pi.na] (Hermes et al. 2013). Trotz Ausnahmen wie diesen können mittels des Sonoritätsprinzips durchaus auch Silbenstrukturen erfasst werden, die selten in den Sprachen der Welt sind. So folgt etwa auch die Silbenstruktur der in 6.2.4 erwähnten Berbersprache Taschelhit, in der auch Obstruenten [+silbisch] sein können, dem Sonoritätsprinzip, da Frikative im Nukleus als sonorer gelten als Plosive im Silbenrand. 6.4 Das Sonoritätsprinzip 251 <?page no="253"?> 6.5 Zusammenfassung Silben untergliedern gesprochene Sprache. Sie erfüllen wichtige Funktionen in der Sprechplanung (z. B. bei der Koartikulation zweier Segmente, vgl. 4.5, oder beim Sprachrhythmus längerer Äußerungen, s. 9.2.2) und ermöglichen eine schnelle De‐ kodierung des Gesagten auf Hörer: innenseite (z. B. durch die akustisch-auditiven Merkmale von Silben (vgl. Gordon 2002 in 6.2.3 und Ohala 1992 in 6.4), s. auch Pom‐ pino-Marschall 1993). Trotz dieser wichtigen Funktionen erfolgt die Silbendefinition oftmals über eine strukturelle Beschreibung. Unter Berücksichtigung der in diesem Kapitel angesprochenen Punkte können wir nun folgende Definition aufstellen: Silben bestehen aus einem obligatorischem Silbenkern, der [+silbisch] ist und im Sonoritätsprofil den Sonoritätsgipfel bildet, sowie einem optionalen Silbenrand, der Laute mit dem Merkmal [-silbisch] enthält. Je nach Sprache können Silbenrän‐ der leer, einfach oder verzweigt sein, wobei die Sonorität in der Regel vom linken Silbenrand zum Silbenkern zu- und vom Silbenkern zum rechten Rand abnimmt. Mediale Konsonanten werden dem Onset der Folgesilbe zugeschlagen, wenn es die Phonotaktik einer Sprache erlaubt, können aber auch ambisilbisch sein. Übungsaufgaben 1. Silbifizieren und transkribieren Sie folgende Wörter in Form eines Silbenstruktur‐ baumes (autosegmental) und unter Berücksichtigung von Silbengewicht sowie der subsilbischen Konstituenten Onset (O), Nukleus (N) und Coda (C). a. Esel b. Rathaus c. Donner 252 6 Silbenphonologie <?page no="254"?> d. beobachten (NB: zwei Silbifizierungsmöglichkeiten) 2. Ordnen Sie entlang der vertikalen Linie vier weitere große Lautklassen an, die sich durch [±kons], [±nas], [±lat] und [±kont] beschreiben lassen, sodass die Sonoritätsskala von wenig (unten) bis sehr sonor (oben) dargestellt wird. Tragen Sie anschließend die Sonoritätskonturen für die einzelnen Phoneme der Wörter klingt und Sprung ab. Folgen alle Silbenkonstituenten dem Sonoritätsprinzip? Begründen Sie ihre Antwort. - - - - - - - Liquida - - - - - - - - - - - - - - - - - - - - - - - - - - - - - k l ɪ ŋ t ʃ p ʁ ʊ ŋ 3. Silbifizieren Sie die folgenden Wörter linear (.) unter Berücksichtigung des Prinzips der Onset-Maximierung. Nennen Sie je ein anderes Wort, in dem der Onsetkonso‐ nant bzw. das Onsetkonsonantencluster der 2. Silbe am Wortanfang vorkommt bzw. vorkommen. a. Strumpfloch [ʃ t ʁ ʊ m p f l ɔ x] b. Kenntnis [k ɛ n t n ɪ s] 6.5 Zusammenfassung 253 <?page no="255"?> 4. Benennen Sie anhand des Wortes atmen frei formulierte Silbenstrukturbedingun‐ gen für das Deutsche (vgl. 6.1.3, S. 227). Weiterführende Literatur Deutschsprachige Einführungen in die Autosegmentale Phonologie und Silbenphono‐ logie finden sich in H ALL (2011). Wer vertiefend in die Silbenstruktur des Deutschen einsteigen möchte, dem sei Kapitel 2 in H ALL (1992) empfohlen. Für eine Beschreibung phonotaktischer Beschränkungen im Deutschen inklusive einer Strukturformel einsilbiger Wörter siehe K OHL E R (1995: 175-186). Der Sammelband „Silbenschnitt und Tonakzente“, herausgegeben von A U E R E T AL . (2002), vereint eine Reihe an Aufsätzen, die die Silbenstruktur im Deutschen mit Blick auf das Konzept des Silbenschnittes beleuchten, sowohl aus phonetischer als auch aus phonologischer Perspektive. Einen englischsprachigen Überblick über die Entwicklung des Silbenkonzepts im Rahmen der Phonologie findet sich in G O LD S MITH (2011). Die Rolle der Silbe im Spracherwerb wird u. a. in K AU S CHK E (2012), in V IHMAN (1996) sowie in der Frame/ Content-Theory (z.-B. D AVI S & M AC N E ILAG E 1995) beschrieben. Zum sprachtypologischen Unterschied zwischen akzentzählenden Wortsprachen und silbenzählenden Silbensprachen, der im Exkurs ‚Sprachrhythmus in den Sprachen der Welt‘ (S. 338) vorgestellt wird, siehe z. B. den Sammelband „Syllable and World Languages“ von Caro R E INA & S ZCZ E PANIAK (2012) oder auch C UTL E R E T AL . (1995); die letztgenannte Studie beschreibt die sprachabhängige Silbifizierung in der Wortsprache Englisch und der Silbensprache Französich (für Fortgeschrittene). 254 6 Silbenphonologie <?page no="256"?> 7 Phonologische Prozesse und Regeln Überleitung und Ziele Thema des vorangegangenen Kapitels 6 war die Kombination von Sprachlauten zu größeren Einheiten wie Silben; zuvor haben wir in 4.5 bereits ausgewählte akustische Koartikulationseffekte besprochen, die grundsätzlich in Sprachlautse‐ quenzen zu beobachten sind. Viele dieser Koartikulationseffekte nehmen wir auditiv gar nicht wahr, manche führen hingegen zu deutlich erkennbaren Unterschieden zwischen der zugrunde liegenden Form und der phonetischen Oberflächenrealisierung. Die Prozesse, die insbesondere die wahrnehmbaren Unterschiede beschreiben und die teilweise durch Koartikulation zu erklären sind, stehen im Fokus dieses Kapitels. Ob die Prozesse auftreten und wenn ja, wie regelhaft, ist dabei sprachabhängig. Folgende Fragen werden in diesem Kapitel geklärt: • Was sind phonologische Prozesse und inwiefern unterscheiden sie sich von phonetischen Prozessen? • Was versteht man unter Reduktionsprozessen und dem Kontinuum von Hypozu Hyperartikulation? • Was sind phonologische Regeln und wie werden sie formal notiert? • Welche phonologischen Prozesse gibt es? • Was ist der Unterschied zwischen lexikalischen und postlexikalischen Prozes‐ sen? In vielen Beiträgen zu diesem Thema finden sich Beispiele nicht nur aus vielen verschiedenen, sondern typologisch auch sehr unterschiedlichen Sprachen der Welt (z. B. Hall 2011). Darauf wird hier verzichtet. Wenn möglich werden Beispiele aus dem Deutschen gewählt, die nur bei bestimmten Prozessen um Beispiele aus anderen Sprachen, vornehmlich aus dem europäischen Raum, ergänzt werden. Hintergrund hierfür ist, dass die Prozesse in erster Linie erklärt und anhand eingängiger Beispiele veranschaulicht werden sollen. 7.1 Einleitung Die Kombination von Sprachlauten zu größeren Einheiten wie Silben (vgl. Kap. 6), Wörtern oder auch Phrasen (s. Kap. 9) führt in der gesprochenen Sprache oftmals zu Variation in der Aussprache, d.-h. zu Abweichungen von statischen Einzellautpro‐ duktionen wie sie in den Abschnitten 4.2-4.4 beschrieben worden sind. Variation in der gesprochenen Sprache ist natürlich und kann sowohl zufällig und nicht <?page no="257"?> vorhersagbar (z. B. Versprecher oder Eigenheiten einzelner Sprecher: innen) als auch regelhaft und größtenteils vorhersagbar sein (s. u.). Der Fokus dieses Kapitels liegt auf der regelhaften und vorhersagbaren Variation, die hier aber phonologisch relevant sein kann (vgl. 1.2). Regelhafte Variation ergibt sich zum einen aus den motorisch determinierten Bewegungsabläufen der Artikulationsorgane während der Produktion von Lautkom‐ binationen, die zu Koartikulation führt (vgl. 4.5). Zum anderen ergibt sich die Regel‐ haftigkeit von Variation aus deren sprecherunabhängiger Wiederkehr, wonach nicht nur eine: r, sondern viele Sprecher: innen einer Sprache dieselbe, häufig phonetisch motivierte Variation, z. B. in Form von Koartikulation aufweisen. So kann man etwa die komplementäre Distribution des velaren Frikativs in Abhängigkeit des vorangehenden Vokals (z. B. dich [dɪç] vs. Dach [dax], vgl. 1.2.2) als Resultat wiederkehrender, sprecherunabhängiger Koartikulation betrachten, da es phonetisch näher liegt, / ç/ nach hohen, vorderen Vokalen palatal und nach offenen bzw. hinteren Vokalen velar oder sogar uvular zu realisieren (vgl. 4.2.4). Aufgrund des kategorialen Unterschieds zwischen den Sprachlauten an der phonetischen Oberfläche kann man hierbei von phonologi‐ sierter Variation sprechen (vgl. Allophonie in 1.2.2). Im Falle der unterschiedlichen phonetischen Realisierungen von / k/ vor hohen vs. offenen Vokalen im Deutschen wie etwa in Kiel im Vergleich zu kahl kommt es hingegen trotz des (vergleichbaren) koartikulatorischen Effektes, den die Zungenposition des nun nachfolgenden Vokals auf die Artikulationsstelle des vorangehenden Plosivs ausübt, zu keiner kategorialen Änderung an der Oberfläche, sondern nur zu einer graduellen ([k̟iːl] vs. [ḵaːhl], vgl. 4.5). In beiden Fällen führt Koartikulation zu einer Assimilation, d. h. Angleichung, eines Sprachlautes an einen anderen. Assimilation ist einer der phonologischen Prozesse, die in diesem Kapitel vorgestellt werden. Im Gegensatz zur sprachübergreifenden Koarti‐ kulation ist die Ausprägung und der phonologische Status des Assimilationsprozesses hingegen sprachabhängig. So kommen im Deutschen zwar nasalierte Vokale wie in Mann [m-n] vor; ihnen liegt aber kein Nasalvokal als Phonem zugrunde (daher / man/ ) - im Gegensatz zum Französischen oder Portugiesischen, die beide eine phonologische Opposition zwischen nasalierten und oralen Vokalen aufweisen (vgl. 4.3). Phonologische Prozesse bewirken eine Änderung zwischen phonologisch zu‐ grunde liegender Form und phonetischer Oberflächenrealisierung. Sie sind häufig phonetisch motiviert; ihr Auftreten ist jedoch sprachabhängig. Das regelhafte Auftreten phonologischer Prozesse in einer Sprache kann mittels phonologischer Regeln beschrieben werden. In der Phonologie liegt der Fokus oft auf den obligatorischen (auch regulären) phonologischen Prozessen, wonach nur deren Anwendung zur korrekten (d. h. nor‐ 256 7 Phonologische Prozesse und Regeln <?page no="258"?> mierten) Aussprache führt. Dieselben und in 7.3 vorgestellten Prozesse können aber auch situationsund/ oder sprecherabhängig auftreten und demnach optional (auch irregulär oder fakultativ) sein (s. hierzu den Exkurs ‚Phonologische oder phonetische, spontansprachliche Prozesse‘ unten und Reduktionsprozesse auf S. 258). Phonologische Prozesse können synchron auftreten (so z. B. Vokalnasalierung im Deutschen) und sich mitunter verfestigen (wie etwa die Vokalnasalierung im Französischen). Bei letzterer Form spricht man von einer Phonologisierung (Engl. phonologization) von ursprünglich synchroner Variation (Hyman 1976), bei der sich die zugrunde liegende Form ändert. Nach einer Phonologisierung kann der entsprechende phonologische Prozess synchron nicht mehr auftreten; er lässt sich nur noch diachron nachvollziehen. Aufgrund der phonetischen Motivation werden phonologische Prozesse mitunter auch als natürliche Prozesse bezeichnet (vgl. Hall 2011: 89). Phonologische oder phonetische, spontansprachliche Prozesse Es wird mitunter zwischen phonetischen und phonologischen Prozessen unter‐ schieden, wobei u. a. phonetische Prozesse zu graduellen und phonologische Prozesse zu kategorialen Änderungen an der Oberfläche führen (s. z. B. Padgett & Tabain 2005: 14 mit Blick auf den in 7.3.2 näher beschriebenen Prozess der Vokalkürzung). Phonologische (aber nicht unbedingt phonetische) Prozesse treten zudem regelhaft auf und sind Teil der Grammatik (z. B. Hall 2011); nur die Anwendung einer phonologischen Regel führt zur korrekten Aussprache (s. z. B. Auslautverhärtung im Deutschen in 7.3.1 und Pluralbildung im Englischen in 7.3.3 unten). Phonetische (aber nicht phonologische) Prozesse wiederum sind abhängig von Faktoren wie Sprechgeschwindigkeit und treten häufig in Spontansprache auf (z. B. Schwa-Wegfall in haben, Kohler 1995, Pompino-Marschall 2009; daher mitunter auch spontansprachliche Prozesse). Kommen sie in Spontansprache besonders häufig vor und ist ihr Ausbleiben Zeichen einer auffällig überdeutlichen Aussprache, so können auch optionale spontansprachliche Prozesse mittels pho‐ nologischer Regeln erfasst werden (z. B. Kohler 1990). Sowohl phonetische als auch phonologische Prozesse werden mit den gleichen Begriffen beschrieben. Die Begriffe werden in 7.3 unter dem Oberbegriff ‚phonologische Prozesse‘ vor‐ gestellt, aber mit Beispielen sowohl zu phonetischen als auch zu phonologischen Prozessen. Grund für die Zusammenfassung ist, dass der Unterschied zwischen phonetischen und phonologischen Prozessen zwar oft im Grad (phonetisch-gra‐ duell vs. phonologisch-kategorial), jedoch nie in der Art der lautlichen Änderung besteht. Auch lässt sich nicht immer eine eindeutige Unterscheidung treffen, z. B. wenn es in der Spontansprache zu kategorialen Lautänderungen kommt. Synchron auftretende phonetische Prozesse können diachron zu kategorialen Änderungen und phonologischen Prozessen führen. 7.1 Einleitung 257 <?page no="259"?> Phonetische Variation ergibt sich aber nicht nur aufgrund von Koartikulation, sondern ist auch situativ bedingt. Je nach Situation artikulieren wir deutlicher (langsamer, lauter, usw.; z. B. bei einem Vortrag) oder undeutlicher (schneller, leiser, usw.; z. B. in einer informellen Situation). Für situativ bedingte Unterschiede in der Lautrealisierung und im Zusammenhang mit dem in 4.5 vorgestellten Konzept des target undershoot verwendet Lindblom (1990) den Begriff des Kontinuums von Hypozu Hyperarti‐ kulation. Je nach kommunikativer Situation, die insbesondere die Bedürfnisse der Hörer: in‐ nen einschließt, variieren Sprecher: innen graduell zwischen einer präziseren Hyperartikulation und einer phonetisch reduzierten Hypoartikulation eines Lautes (wortwörtlich Unter- und Überartikulation). Bei der Beurteilung einzelner oder mehrerer Sprachlaute in einer Äußerung geht es also nicht darum, festzustellen, ob diese entweder hypo- oder hyperartikuliert worden sind, sondern vielmehr darum, den Grad der Hypoartikulation zu bestimmen. Hypoartikulation sollte zudem nicht als Nuscheln oder undeutliche Aussprache miss‐ verstanden, sondern laut Lindblom (1990) als Resultat eines biologisch determinierten Ökonomieprinzips, das auch die gesprochene Sprache charakterisiert: Phonetische Reduktion ist demnach effektiv, solange uns der oder die Hörer: in versteht und wir somit das Ziel einer erfolgreichen Kommunikation erreichen. Und in manchen Kommunikationssituationen können wir uns als Sprecher: innen einfach mehr Hypo‐ artikulation leisten als in anderen. Ferner sind auch Koartikulation und Hypoartikulation nicht gleichzusetzen, auch wenn ein stärkerer Hypoartikulationsgrad mit einem größeren Ausmaß an Koartiku‐ lation einhergehen kann. Während aber Sprecher: innen den Grad der Hypoartikulation in Abhängigkeit der Kommunikationssituation selbst bestimmen, tritt Koartikulation automatisch auch bei Hyperartikulation auf (vgl. 4.5). Hypoartikulation wiederum ist unabhängig von Koartikulation allgemein im Zusammenhang mit lautlichen Reduk‐ tionsprozessen zu beobachten, die ihrerseits vermehrt in Spontansprache auftreten, z. B. im Vergleich zu Lesesprache (daher mitunter auch Engl. connected speech processes, vgl. 1.1.2). Dies lässt sich gut anhand eines Beispielsatzes aus Kohler (1995: 201) demonstrieren, der in Abb. 70 aufgeführt ist. 258 7 Phonologische Prozesse und Regeln <?page no="260"?> Abb. 70: Zugrunde liegende Form und mögliche Oberflächenrealisierungen der Äußerung Hast Du einen Moment Zeit in Abhängigkeit verschiedener Reduktionsgrade. Das Beispiel und die phonetischen Transkriptionen stammen aus Kohler (1995: 201) und werden hier entlang eines Kontinuums von Hyperzu Hypoartikulation (nach Lindblom 1990) angeordnet. Für die Realisierung des Satzes Hast Du einen Moment Zeit? führt Kohler schrittweise eine Reihe lautlicher Veränderungen auf, die von der deutlichen bzw. eher hyperarti‐ kulierten Realisierung [ˈhast d̥u (ʔ)aɪnən moˈmɛnt ˈtsaɪt] über die leicht undeutlichere Realisierung [ˈhast d̥ə n moˈmɛn ˈtsaɪt] zu der stark reduzierten Aussprache [has (m) moˈmɛn ˈtsaɪt] führen. Diese Form spontansprachlicher Reduktion weist eine systematische Vielfalt phonologischer Prozesse auf. Bevor diese jedoch beschrieben werden können, sollen sie zunächst in den folgenden Abschnitten auch anhand anderer (Sprach-)Beispiele erklärt werden. In der Zusammenfassung werden dann abschließend einige der nachfolgend vorgestellten phonologischen Prozesse in Kohlers Reduktionsbeispiel exemplarisch aufgezeigt (s. 7.5). 7.2 Notation phonologischer Regeln In 1.2.2 haben wir festgehalten, dass in generativ-phonologischen Ansätzen Phoneme der zugrunde liegenden Form entsprechen und dass die konkrete phonetische Reali‐ sierung der Oberflächenform durch Derivation generiert wird, die wiederum mittels 7.2 Notation phonologischer Regeln 259 <?page no="261"?> phonologischer Regeln erfasst werden kann. Der Einfachheit halber wird hier von einem einfachen Zweistufenmodel mit einem Derivationsschritt ausgegangen und nicht, wie in manchen theoretischen Ansätzen, von drei Repräsentationsebenen mit der Zwischenebene einer phonologischen Oberflächenform, aus der die phonetische Oberflächenform erst durch phonetische Implementierungsregeln abgeleitet wird (s. z. B. Hall 2001: 29, Boersma & Hamann 2009). Phonologische Regeln beschreiben systematische Änderungen in der phonetischen Realisierung zugrunde liegender Phoneme in bestimmten Kontexten (vgl. Hayes 2009). Formal werden die Regeln wie in (46) angegeben notiert: (46) / Input/ → [Output] / linker Kontext __ rechter Kontext Die Elemente von links nach rechts bis einschließlich des Schrägstriches sind dabei folgendermaßen zu übersetzen: • Input (auch Fokus) = Phonem, Phonemklasse • Pfeil = „wird realisiert als“, • Output (auch strukturelle Änderung) = Oberflächenrealisierung • Schrägstrich = „in der Umgebung von“ Hinter dem Schrägstrich erfolgt die sogenannte strukturelle Beschreibung (Engl. structural description) des Kontextes, in dem sich die strukturelle Änderung ereignet und die eine Änderung oftmals erst bedingt. Hierzu gehört auch die genaue Angabe, an welcher Stelle das betroffene Phonem bzw. die Phonemklasse vorkommt. Der hierfür verwendete Platzhalter ist der Unterstrich. Während der durch den Platzhalter repräsentierte Fokus obligatorischer Bestandteil der strukturellen Beschreibung ist, muss nur der Kontext spezifiziert werden, der für einen phonologischen Prozess ausschlaggebend ist, d. h. entweder der linke oder der rechte Kontext, mitunter auch beide. Fehlte in einer phonologischen Regel sowohl die linke als auch die rechte Kontextangabe, so bedeutete dies, dass der Prozess kontextunabhängig aufträte. Ein Beispiel: In 4.2.2 wurde beschrieben, dass im Deutschen ein / n/ oft als [ɱ] realisiert wird, wenn / n/ in postvokalischer Position und vor einem / f/ im Reim derselben Silbe vorkommt (z. B. fünf). Unabhängig von der genauen Bestimmung dieses optionalen Assimilationsprozesses (s. hierzu 7.3.4.1) können die auf S. 139 in (10) genannten Beispiele mit folgender phonologischen Regel (47) ganz allgemein beschrieben werden: (47) / n/ → [ɱ] / [-kons] __ / f/ Ohne die genaue Benennung des Kontextes in der strukturellen Beschreibung impli‐ zierte die Regel hingegen, dass / n/ grundsätzlich als [ɱ] realisiert werden würde, was 260 7 Phonologische Prozesse und Regeln <?page no="262"?> bekanntermaßen nicht der Fall ist (vgl. z. B. [n] in von, Nuss). Es handelt sich um einen optionalen Prozess, der in allen Wörtern, die auf / nf/ enden (fünf, Senf, Hanf, Genf) beobachtet werden kann; deutliche Aussprachen weisen diese Form der Assimilation jedoch nicht notwendigerweise auf. Wie wir in diesem Kapitel sehen werden, kann jede Position auch leer sein. Das bedeutet, dass sich entweder vor einem phonologischen Prozess in der zugrunde liegenden Form oder nach einem phonologischen Prozess in der Oberflächenrealisie‐ rung oder aber im rechten oder linken Kontext explizit kein Laut befindet. Tritt eine solche Leerstelle vor dem Schrägstrich auf, so wird dies durch das Zeichen ∅ dargestellt, das auf eine leere Menge verweist. Ist die Leerstelle jedoch Teil der strukturellen Beschreibung hinter dem Schrägstrich, so entspricht sie einer Grenze in der phonologischen Segmentkette bzw. des phonetischen Lautstroms. Ein leerer linker Kontext markiert demnach den Beginn eines Wortes, eines Morphems oder einer Silbe, ein leerer rechter Kontext hingegen deren jeweiliges Ende. Die Ebene - also ob Wort, Morphem oder Silbe - kann dabei entscheidend sein, da ein Prozess auf einer Ebene, nicht aber notwendiger Weise auf der anderen Ebene stattfinden muss. Daher ist es wichtig, die Ebenen anhand eindeutiger Symbole erkennen zu können: Die Wortebene wird beispielsweise durch die Raute # gekennzeichnet und ein Silbenende durch ] σ . Oftmals beziehen sich phonologische Prozesse oder Teile der strukturellen Beschrei‐ bung auf ganze Lautklassen, weswegen man in der Notation der Regeln gerne auf das System der distinktiven Merkmale zurückgreift. So wurde bereits in Regel (47) die Lautklasse der Vokale im linken Kontext durch [-kons] erfasst. Denkbar wäre es auch alle Elemente einer phonologischen Regel mittels distinktiver Merkmale zu spezifizieren, so wie in (48) dargestellt. (48) Dabei werden nur die zugrunde liegenden Formen durch das entsprechende Merk‐ malbündel gekennzeichnet. Auf Seite der Oberflächenform wird hingegen nur das Merkmal angegeben, das sich in einem bestimmten Kontext ändert. Man beachte dabei, dass die eckigen Klammern um die Merkmalbündel nicht als phonetische Realisierung zu lesen sind. Hier wird wieder der Konvention gefolgt, distinktive Merkmale in eckigen Klammern anzugeben (vgl. Kap. 5). Darüber hinaus werden weitere Symbole in der Formalisierung phonologischer Regeln verwendet, so z. B. durch die Verwendung von Variablen, dargestellt durch grie‐ chischen Buchstaben wie Alpha, oder durch geschweifte Klammern. Erstere kommen 7.2 Notation phonologischer Regeln 261 <?page no="263"?> zum Einsatz, um z. B. mehrere Ortsmerkmale zu erfassen, letztere, um verschiedene Kontexte einzuschließen. So kann z. B. αOrt eine Abkürzung für alle Ortsmerkmale (z.-B. KOR, ±hint) sein. 7.3 Phonologische Prozesse 7.3.1 Neutralisierung und Phonemspaltung Bei der Neutralisierung (mitunter auch Phonemzusammenfall, Engl. neutralization bzw. merger) handelt es sich um einen phonologischen Prozess, bei dem eine bestehende phonologische Opposition in einer Sprache aufgehoben wird. Eines der bekanntesten Beispiele für Neutralisierung ist das der Auslautverhärtung oder genauer der finalen Entstimmung, die wir aus dem Deutschen kennen. Die Regel zu diesem obligatorischen Prozess lautet wie in (49) angegeben: (49) [-son(, +sth)] → [-sth] / __ ] σ wobei der linke Kontext aufgrund von Irrelevanz nicht spezifiziert ist. Die Regel in (49) besagt also: (Stimmhafte) Obstruenten werden am Silbenende stimmlos realisiert. Die explizite Benennung nur stimmhafter Obstruenten ist dabei optional (in (49) durch runde Klammern angezeigt), da die Aussage auch dann gültig ist, wenn man sie allgemein auf die natürliche Klasse aller Obstruenten bezieht, inklusive der bereits zugrunde liegenden stimmlosen. Bei der finalen Entstimmung im Deutschen wird die zugrunde liegende Opposition zwischen stimmhaften und stimmlosen Obstruenten in silbenfinaler Position neutralisiert. In 4.2 wurde bereits darauf hingewiesen, dass stimmhafte Frikative und Lenisplosive im Deutschen nur in initialer und medialer Position vorkommen, nicht aber in finaler. Diese Beschreibung bezog sich nur auf die Oberflächenform. Dass stimmhafte Obstruenten als zugrunde liegende Form auch in finaler Position anzunehmen sind, sei an den Beispielen Rad, Bild und las illustriert: In anderen Formen desselben Wortparadigmas, z. B. Räder, radeln, Bilder, lesen, werden die Obstruenten als Lenisplo‐ siv bzw. stimmhaft realisiert. Grund hierfür ist, dass / d/ und / z/ in diesen Wörtern in silbeninitialer Position vorkommen, also [ʁɛː.d̥ɐ], [ʁaː.d̥əln], [b̥ɪl.d̥ɐ], [leː.zn̩]. Erst die Regel(haftigkeit) der Neutralisierung auf Silbenebene führt zur Stimmlosigkeit 262 7 Phonologische Prozesse und Regeln <?page no="264"?> 52 Die Ergebnisse unterstützen auch die Annahme von Resilbifizierung über die Grenzen phonologi‐ scher Wörter hinaus (vgl. S. 233, Fußnote 47; s. 9.1), da die Silbe linn als ein phonologisches Wort betrachtet werden kann (vgl. Wiese 1996: 67 f.). an der Oberfläche. Aufgrund des morphophonemischen Prinzips wird die zugrunde liegende Stimmhaftigkeit orthographisch auch in silbenfinaler Position durch die entsprechenden Grapheme repräsentiert (vgl. 1.4.2). Dass Regel (49) wiederum auf Silbenebene operiert, zeigt sich daran, dass etwa / d/ nicht nur am Wortende wie in Rad oder Bild als [t] realisiert wird, sondern auch wortmedial, aber silbenfinal, z. B. in Bildnis [b̥ɪlt.nɪs]. Im Gegensatz zu Bilder ist [d̥] in Bildnis Teil der verzweigten Coda der ersten Silbe, da [d̥] vor [n] im Deutschen im Silbenonset nicht erlaubt ist (vgl. Kap. 6). Regel (49) findet natürlich auch am Wortende Anwendung, da das Ende eines Wortes auch das Ende einer Silbe markiert. Auslautverhärtung als Silbenbeweis Die Auslautverhärtung im Deutschen wird oft als ein (weiterer) Beweis für die Silbe als phonologische Einheit angeführt, eben weil phonologische Prozesse auf Silbenebene operieren können, ohne dabei zwangsläufig auf einer anderen Ebene operieren zu müssen (z. B. Hall 2011: 214-215, vgl. 6.1.3). Je nach Silbifizierung kommt Regel (49) zur Anwendung: [b̥ɪl.d̥ɐ] vs. [b̥ɪlt.nɪs]. Die Resilbifizierungs‐ möglichkeit in Bilder zeigt, dass Auslautverhärtung nicht auf der Ebene des Morphems operiert, da das Stammmorphem in Bild-er und Bild-nis identisch ist. Dass die Möglichkeit zur auditiven Resilbifizierung die Anwendung von Regel (49) verhindern kann, hat auch ein Hörexperiment gezeigt, in dem 19 Hörer: innen in frei erfundenen und künstlich erzeugten Städtenamen den Plosiv identifizieren sollten (Kleber et al. 2010). Im Städtenamen Mieglinn war der Anteil der ⟨g⟩-Antworten (bei einer Wahl zwischen ⟨g⟩ und ⟨k⟩) höher als es der Anteil an ⟨d⟩-Antworten in Niedlinn war (bei einer Wahl zwischen ⟨d⟩ und ⟨t⟩). Das Ergebnis lässt sich damit erklären, dass / d/ aufgrund der nicht möglichen Resilbi‐ fizierung weiterhin der silbenfinalen Neutralisierung unterliegt, während / ɡ/ in Onsetposition phonologisch stimmhaft sein kann. 52 Die Neutralisierung der Stimmhaftigkeitsopposition in finaler Position ist weitverbrei‐ tet (z. B. im Polnischen, Russischen, Katalanischen, Niederländischen; teilw. auch im Tschechischen, s. hierzu 7.3.4.1). Als phonetische Gründe hierfür wurden u. a. phrasenfinale Längung und - damit teilweise verbunden - die über die Zeit schwerer zu kontrollierenden aerodynamischen Voraussetzungen für die Stimmlippenschwingen diskutiert (z.-B. Blevins 2004, vgl. 2.3.1). Zumindest auf phonologischer Ebene ist eine finale Neutralisierung jedoch nicht unabänderlich, wie anhand des Englischen im übernächsten Absatz näher erläutert wird. Einerseits kann der Luftdruck durchaus geregelt werden; eine entscheidende Rolle spielt dabei die Positionierung des Wortes 7.3 Phonologische Prozesse 263 <?page no="265"?> mit finalem Plosiv in einer Atemphase (vgl. 2.1.1, s. Kap. 9). Andererseits gibt es weitere akustische Möglichkeiten einer phonetischen Entstimmung auf phonologischer Ebene entgegenzuwirken (s.-u.). Studierende merken häufig im Zusammenhang mit dem Bespiel der Auslautverhär‐ tung an, dass es doch einen Unterschied gäbe, z. B. zwischen Rad und Rat. Produzieren sie dann das Wortpaar, so ist auch eindeutig ein Unterschied zu hören (s. hierzu auch den Exkurs ‚Unvollständige Neutralisierung‘ unten). Als Sprecher: innen sind wir durchaus in der Lage, den Unterschied zu produzieren, aber in der Regel produzieren wir ihn eben nicht, wie auch sehr deutlich wird, wenn Sprecher: innen mit Deutsch als Muttersprache Englisch sprechen. Wie das Deutsche weist auch das Englische eine Stimmhaftigkeitsopposition bei Obstruenten auf, aber im Gegensatz zum Deutschen, wird diese im Englischen in finaler Position nicht neutralisiert, vgl. z. B. seed [siːd] vs. seat [siːt]. Dabei wird die Opposition auch im Englischen nicht primär durch die tatsächliche Stimmlippenschwingung, sondern vielmehr durch einen Dauerunterschied im vorangehenden Vokal signali‐ siert (vgl. z. B. Skarnitzl & Šturm 2017). So ist in dem o. g. Beispiel der zugrunde liegende gespannte Vokal in seed aufgrund des / d/ am Wortende phonetisch deutlich länger als derselbe zugrunde liegende Vokal in seat, der vor einem / t/ vorkommt. Der stimmhaftigkeitsbedingte Unterschied in der phonetischen (nicht der phonologischen! ) Vokallänge wird auch als voicing effect bezeichnet und ist hinlänglich untersucht (z. B. Chen 1970, Fowler 1992). Dass sich Sprecher: innen des Deutschen (oder einer anderen Sprache, in der die Regel (49) gilt) mit der Realisierung ebendieses Unterschieds schwertun (Smith et al. 2009), trägt nicht nur zu einem deutlich wahrnehmbaren Fremdsprachenakzent bei (Brockhaus 2012: 4), sondern ist ein weiterer Hinweis auf die Dominanz dieser phonologischen Regel im Deutschen. Unvollständige Neutralisierung Phonetiker: innen und Phonolog: innen haben lange Zeit darüber diskutiert, ob die Stimmhaftigkeitsopposition wirklich vollständig aufgehoben ist. So zeigten etwa Port und O’Dell (1985) anhand von akustischen Messungen, dass auch das Deutsche Tendenzen zum voicing effect bei Minimalpaaren wie Alb vs. Alp aufweist. Da der voicing effect im Deutschen aber nur zu einer phonetisch gradu‐ ellen Änderung in der Oberflächenform führt und nicht wie im Englischen der Aufrechterhaltung der phonemischen Stimmhaftigkeitsopposition dient, wurde der Begriff der unvollständigen Neutralisierung (Engl. incomplete neutraliza‐ tion) eingeführt. Dieser Effekt tritt allerdings besonders in Lesesprache zu Tage, die im Aufnahmestudio erhoben wird, wenn unterschiedliche Grapheme den Fokus auf die zugrundeliegende Opposition lenken können. In Spontansprache kann der Effekt im Deutschen wieder verschwinden (Fourakis & Iverson 1984). Auch spielt er perzeptiv kaum eine Rolle: Muttersprachler: innen des Deutschen können Wörter wie Rad und Rat auditiv kaum auseinanderhalten, selbst wenn sich 264 7 Phonologische Prozesse und Regeln <?page no="266"?> diese aufgrund einer unvollständigen Neutralisierung leicht in der akustischen Vokaldauer unterscheiden (Port & Crawford 1989). Neuere Studien haben den akustischen Effekt der unvollständigen Neutralisierung replizieren können, er ist also stabil (Roettger & Baer-Henney 2019). Aufgrund der Ergebnisse aus Perzep‐ tionstests scheint die funktionale Rolle aber eher marginal zu sein, weswegen Auslautverhärtung auch weiterhin ein Paradebeispiel für den phonologischen Prozess der Neutralisierung bleibt. Die Neutralisierung der Stimmhaftigkeitsopposition ist zwar ein oft angeführtes Beispiel für diesen Prozess, aber beileibe nicht das einzige. So findet sich beispielsweise auch die Neutralisierung der Vokallängenopposition in vielen Sprachen der Welt, wie etwa in der neuseeländischen Varietät des Englischen, in der der kurze Hinterzungenvokal / ʊ/ vor / l/ zu einem langen Hinterzungenvokal [uː] wird (z. B. in full [fuːɫ], Bauer & Warren 2008: 49). Synchrone und diachrone Neutralisierung zugunsten von Kurzvokalen am Wortende lässt sich wiederum in so unterschiedlichen Sprachen wie Japanisch, Kurdisch, Luganda, Englisch, Ungarisch und vielen mehr beobachten (für einen Überblick s. Myers & Hansen 2005). Auch phonemische Oppositionen in der Vokalqualität können neutralisiert werden. So wird beispielsweise die Opposition zwischen / a/ und / o/ im Russischen zugunsten von / a/ neutralisiert (Halle 1959, s. auch Hall 2011: 98), wenn sich / o/ in der nicht beton‐ ten Silbe befindet, die unmittelbar vor der betonten Silbe desselben Wortes vorkommt (s. Kap. 9). So heißt es etwa бoль [bolʲ] ‚Schmerz‘ und болеть [baˈlʲetʲ] ‚schmerzen‘, aber разум [ˈrazum] ‚Vernunft‘ und разумно [raˈzumnə] ‚vernünftigerweise‘ (Beispiele aus Barnes 2002: 89; zu [ˈ] s. S. 176, Fußnote 39). Abschließend sei an dieser Stelle auch auf die Möglichkeit zur Phonemspaltung (Engl. phonemic split) hingewiesen, also auf das Gegenteil einer Neutralisierung bzw. eines Phonemzusammenfalls. Phonemspaltungen sind diachron gut beschrieben. So ist etwa im Mittelhochdeutschen das Phonem / y/ durch Abspaltung des zuvor einzi‐ gen hohen gerundeten Vokals mit Phonemstatus, dem / u/ , entstanden. Ursprünglich handelte es sich bei [y] um ein Allophon von / u/ , das im Kontext eines Vorderzungen‐ vokals in der darauffolgenden Silbe realisiert wurde, z. B. im althochdeutschen Wort wurfil ,Würfel‘. Dieser Lautwandelprozess wird auch als Umlaut bezeichnet und im Rahmen der Assimilation in 7.3.4.2 nochmals aufgegriffen. Schon hier sei aber darauf hingewiesen, dass es sich bei dieser Form des Umlauts um eine Phonologisierung vormals synchroner Variation (in Form von Allophonie) handelt (vgl. 7.1). Mit der Pho‐ nemspaltung ist der phonetisch motivierte phonologische Prozess entfallen; / y/ wird im Neuhochdeutschen kontextunabhängig auch vor Hinterzungenvokalen als [y] realisiert (z. B. in Fügung) und bildet eine phonologische Opposition mit / u/ (z.-B. gute vs. Güte). 7.3 Phonologische Prozesse 265 <?page no="267"?> 7.3.2 Fortisierung und Lenisierung Fortisierung beschreibt die Verstärkung von Konsonanten. Wird ein / d/ als [t] realisiert, so handelt es sich um einen Fortisierungsprozess. Die im vorangehenden Abschnitt diskutierte Auslautverhärtung ist nicht nur ein Beispiel für die Neutralisierung einer phonemischen Opposition, sondern auch für die Fortisierung von Konsonanten. Wie die in Abschnitt 4.2.1.2 bereits eingeführten Begriffe fortis und lenis suggerieren, ist die Änderung von Lenisplosiven in Fortis‐ plosive ein bezeichnendes Beispiel für eine Fortisierung. Natürlich ist nicht jede Neutralisierung auch eine Fortisierung, wie das Beispiel der Vokalkürzung in 7.3.1 zeigt. Dass zwei unterschiedliche Prozesse in einer Lautänderung zu beobachten sind, ist jedoch nicht so selten, wie auch spätere Beispiele zeigen werden. Im Gegensatz zur Fortisierung beschreibt die Lenisierung die Abschwächung von Konsonanten. Schauen wir dafür zunächst wieder auf das synchron zu beobachtende Auftreten dieses Prozesses in der Spontansprache und hier genauer auf die Realisierung des Wortes Kunstwerk. Man spreche das Wort mehrmals hintereinander in recht schnellem Sprech‐ tempo aus: Zwar mag die Realisierung eines wortmedialen aspirierten Plosivs durchaus vorkommen, aber sehr wahrscheinlich finden sich unter den Realisierungsvarianten auch eine Reihe nicht aspirierter Plosive (s. auch S. 283, Übungsaufgabe 8 am Ende dieses Kapitels). Das Wegfallen der Aspiration ist ein Beispiel für eine Lenisierung. Ein bekanntes Beispiel für eine diachrone Lenisierung ist der Wandel von intervokali‐ schem / p, t, k/ im Lateinischen zu / b, d, ɡ/ im Portugiesischen (Lat. vita > Pt. vida) und zu Approximanten im Spanischen (Span. vida [βiða]). Auch in einer Reihe deutscher Dialekte werden Fortisplosive am Wortanfang und in der Wortmitte lenisiert. So werden etwa im Obersächsischen und Ostfränkischen die Plosive in Teich und leiten lenisiert, d. h. u. a. nicht aspiriert. Dadurch sind sie akustisch nicht oder kaum von denen in Deich und leiden zu unterscheiden (vgl. S. 264f., Exkurs ‚Unvollständige Neutralisierung‘). Der Prozess der Lenisierung kann also gleicherma‐ ßen zur Neutralisierung der Stimmhaftigkeitsopposition führen wie der Prozess der Fortisierung. Der Neutralisierungsprozess scheint in diesem Falle sogar dominanter und stabiler zu sein, wie sogenannte Hyperkorrekturen zeigen. Der Begriff der Hyperkorrektur stammt aus der Soziolinguistik und beschreibt das Phänomen einer sprachlichen Überanpassung an ein Sprachsystem mit höherem Prestige (Labov 1966). Da die Lenisierung oftmals ein den Dialektsprecher: innen bekanntes Dialektmerkmal ist, gleichen sie es beim „Hochdeutschsprechen“ durch Fortisierung aus. Dabei werden dann mitunter nicht nur die Plosive in Teich und leiten, sondern auch die Plosive in 266 7 Phonologische Prozesse und Regeln <?page no="268"?> Deich und leiden als Fortisplosive realisiert. Egal ob dialektbedingte Lenisierung oder hyperkorrekturbedingte Fortisierung, beide Prozesse führen zur Neutralisierung der Stimmhaftigkeitsopposition. Aufgrund der Begrifflichkeit mag es naheliegen beide Prozesse in erster Linie mit einer lautlichen Veränderung von Konsonanten in Verbindung zu bringen. Denkbar ist es aber auch, die Begriffe Fortisierung im Sinne von Verstärkung und Längung bzw. Lenisierung im Sinne von Abschwächung und Kürzung für die Beschreibung von Vo‐ kalveränderungen sowohl hinsichtlich der Quantität als auch Qualität zu verwenden. Oftmals spricht man dann jedoch explizit von Vokallängung bzw. Vokalkürzung oder auch Vokalzentralisierung. Wie die Auslautverhärtung sowohl ein Beispiel der Fortisierung und Neutralisierung ist, so entsprechen auch die in 7.3.1 im Rahmen der Neutralisierung der Vokallängenopposition aufgeführten Beispiele einer Vokalkürzung bzw. Vokallängung. 7.3.3 Elision und Epenthese Das in 7.1 erwähnte Beispiel zur mehrstufigen Reduktion in der Äußerung Hast Du einen Moment Zeit aus Kohler (1995) wies u. a. den Wegfall von / t/ am Ende der Wörter hast und Moment auf. Der Wegfall von Sprachlauten wird als Elision (auch Tilgung, Engl. elision oder deletion) bezeichnet. Als optionaler Prozess ist die Elision ein Charakteristikum gesprochener Spontanspra‐ che. So wird im Deutschen in der gesprochenen Sprache (egal ob spontan oder gelesen) in sehr vielen auf -en-endenden Verben wie etwa haben der Neutralvokal / ə/ elidiert. Dies liegt zum einen am zugrunde liegenden Neutralvokal selbst, da dieser im Ge‐ gensatz zu anderen Vokalen für eine vollständige Reduktion anfällig ist. Dies ist jedoch nicht die alleinige Ursache für die Schwa-Elision. Die Wahrscheinlichkeit der Schwa-Elision ist besonders hoch, wenn / ə/ den Nukleus der Silbe bildet, die unmittelbar auf die betonte Silbe folgt. Demnach ist zwar auch in Wörtern wie belebt [bəˈleːpt] eine Elision des [ə] denkbar (die Phonotaktik des Deutschen wäre dadurch nicht verletzt, vgl. S. 246f., Tab. 15), sie ist aber seltener zu beobachten (Kohler 1990). Im Französischen wiederum ist die Elision von Schwa am Wortende obligatorisch, wie in Regel (50) angegeben. So wird etwa petite nièce ‚kleine Nichte‘ als [pɘtit njɛs] realisiert (vgl. Gussenhoven & Jacobs 2017: 219). (50) / ə/ → ∅ / __ # Aber auch andere Laute können elidiert werden. So werden im Französischen auch Konsonanten am Wortende elidiert, wenn das darauffolgende Wort nicht mit einem 7.3 Phonologische Prozesse 267 <?page no="269"?> Konsonanten oder Gleitlaut beginnt, wie etwa in petit neveu [pɘti nəvø] ‚kleiner Neffe‘. Diese Form der finalen Konsonantenelision ist in Regel (51) notiert (vgl. ebenda). (51) [+kons] → ∅ / __ ## [+kons] Im Deutschen sind postvokalische Konsonanten oder Konsonanten am Wortbzw. Sil‐ benende ebenfalls für Elision anfällig. Allerdings ist dieser Prozess wiederum optional. Häufig stellt dabei die Elision die finale Stufe einer Lenisierung dar. So ist in dem Wort Kunstwerk nicht nur eine Lenisierung von / t/ denkbar (vgl. 7.3.2), sondern auch dessen Elision, wie die Wiederholung des folgenden Selbsttest zeigen kann. Man spreche das Wort wiederum mehrmals schnell hintereinander laut aus und beobachte sich dabei selbst, wie stark man den wortmedialen Plosiv reduziert. Neben Lenisierung sind mög‐ licherweise auch Elisionen von / t/ unter den Wiederholungen (s. auch S. 283, Übungs‐ aufgabe 8). Auch die Beispiele zur diachronen Entwicklung der intervokalischen Plo‐ sive in romanischen Sprachen können an dieser Stelle entsprechend ergänzt werden: Im Französischen ist der Plosiv, der im Lateinischen intervokalisch noch vorkam, über die Zeit teilweise ganz weggefallen (z.-B. Lat. vita > Fr. vie [vi], vgl. 7.3.2). Artikulatorische oder auditive Elision Vertreter: innen der Artikulatorischen Phonologie (vgl. 2.4) thematisieren auch die Möglichkeit einer auditiven Elision. Demzufolge entfällt nicht eine von mehreren artikulatorischen Gesten, sondern deren gegenseitige Überlappung nimmt so stark zu, dass ein Laut für Hörer: innen auditiv nicht mehr wahrnehmbar ist. So zeigten Browman und Goldstein (1990) anhand von X-ray Microbeam-Aufnahmen des Vokaltraktes während einer spontansprachlichen Realisierung der Phrase perfect memory, dass die Zungenspitzengeste für das / t/ in der Sequenz [ktm] noch vorhanden war, obwohl man den alveolaren Plosiv nicht hören konnte (vgl. S. 62, Exkurs ‚Artikulatorische Signalphonetik‘). Grund hierfür war laut Browman und Goldstein die vollständige zeitliche Überlappung der Zungenspitzengeste mit der Zungenrückengeste für [k] einerseits und der labialen Geste für [m] andererseits. Dass eine solche simultane Produktion artikulatorischer Gesten durchaus möglich ist, kann man gut im Selbsttest prüfen: Dafür spricht man die Phrase einmal laut und wie in Zeitlupe aus, hält den velaren Verschluss dabei besonders lange, führt noch währenddessen die Zungenspitze an den oberen Alveolarfortsatz und schließt auch gleich die Lippen für das [m] bevor man die Phrase ausklingen lässt. Die zeitliche Überlappung der Gesten für die Sequenz [ktm] führt so zu einer hörbaren Pause und zur auditiven Elision von [t], da dessen akustische Merkmale wie Transition und Lösung (vgl. 4.2.1.1) vollständig überlagert sind. 268 7 Phonologische Prozesse und Regeln <?page no="270"?> 53 S. https: / / www.duden.de/ rechtschreibung/ uebrigens (abgerufen am 29.04.2022, 14: 30 Uhr). In gesprochener Sprache kann aber auch der umgekehrte Fall auftreten, wobei Laute eingefügt werden, die nicht Teil der zugrunde liegenden lexikalischen Repräsentation sind. Der phonologische Prozess der Epenthese (Engl. epenthesis) beschreibt den Ein‐ schub von Sprachlauten. Im Deutschen ist etwa synchron in der Spontansprache häufig die Einfügung eines [t] zwischen den Segmenten eines / ns/ -Clusters zu beobachten. So z. B. in übrigens, das laut Duden auch besonders häufig falsch geschrieben wird 53 (*übrigends). Aber auch in anderen Wörtern wie eins, Aliens, morgens, oder bestens ist der Einschub eines [t] fest‐ stellbar, auch wenn diese Wörter orthographisch weniger problematisch erscheinen. Analog dazu kann in / ms/ -Clustern der Einschub eines [p] beobachtet werden. Man spreche hierzu einfach einmal den Genitiv von Singular Baum, also Baums (NB: nicht Baumes) laut aus und beobachte dabei die eigene Produktion sowie auditive Wahrneh‐ mung. Der Einschub eines solchen [p] hat sich im Englischen teilweise diachron ma‐ nifestiert. Der Nachname Thompson setze sich ursprünglich aus den Wörtern Tom und Son zusammen, wobei die Abstammung benannt wird (in diesem Falle also der Sohn von Tom). Erst das konsequente Auftreten des epenthetischen [p] hat zur nun zugrunde liegenden Form / mps/ geführt, die sich auch in der Orthographie widerspiegelt. Andere Beispiele für epenthetische Konsonanten sind das sogenannte linking-r wie in Englisch law and order, das mitunter als [ˌlɔːrəndˈɔːdəʳ] realisiert wird, oder auch das sogenannte Fugen-s wie in Hochzeitstanz, wo das / s/ keinen Genitiv markiert. Vokale (auch Sprossvokale) können gleichermaßen Fugenlaute darstellen (z. B. das erste Schwa in Mausefalle) oder durch einen Epentheseprozess entstehen, wie etwa bei einem Allomorph des englischen Plural-Morphems (zu Allomorphie s. 1.2.2). Die Regel in (52) beschreibt die Epenthese von [ɪ] bei der regelmäßigen Pluralbildung bestimmter Wörter im Englischen: (52) ∅ → [ɪ] / __ / z/ Demnach wird [ɪ] dann in der Pluralform eingefügt, wenn das Wort im Singular auf einen koronalen Sibilanten endet, also z. B. piece [piːs] - pieces [ˈpiːsɪz] oder bush [bʊʃ] - bush [ˈbʊʃɪz]. Ansonsten wird bei regelmäßigen Pluralformen das Plural-s dem Wortstamm direkt hinzugefügt, z. B. leg [leg] - legs [legz]. Auch bei unregelmäßigen Pluralformen wie goose [ɡuːs] - geese [ɡiːs] oder ox [ɒks] - oxen [ˈɒksən], die jedoch nicht länger produktiv sind, gilt die Regel in (52) nicht. Als Gründe für den Prozess der Epenthese werden oft die Wahrung phonotaktischer Restriktionen und die Erleichterung der Aussprache angeführt (z. B. Hall 2011: 94- 7.3 Phonologische Prozesse 269 <?page no="271"?> 95), z. B. durch das Aufbrechen komplexer Konsonantencluster innerhalb einer Silbe mittels ein Fugenelementes (vgl. Baums und Baumes oben und die Beispiele Herbsts und Herbstes in 6.2.1). Einige phonetische Erklärungen für Epenthese werden im gleichnamigen Exkurs vorgestellt (s. unten). Phonetische Erklärungen für Epenthese Auch bei Epenthese kann die zeitliche Überlappung zwischen artikulatorischen Gesten als Erklärung für ihre Entstehung herangezogen werden. Im Falle der Epenthese von Plosiven zwischen Nasalen und alveolaren Frikativen wie in übri‐ gens steht nun neben den Lippenund/ oder Zungenspitzengesten die Velumsgeste im Fokus. Wird das Velum beim Übergang vom Nasal zum Frikativ angehoben bevor die Zungenspitze den Verschluss am Alveolarfortsatz gelöst und die Enge für das / s/ gebildet hat, kann aufgrund des nun kurzfristig oralen Verschlusses aus dem Nasal ein homorgan (vgl. 4.2.1.1) gebildeter und auditiv wahrnehmbarer Plo‐ siv werden (vgl. Ohala 1974). Im Gegensatz zur Elision ist bei Epenthese zudem auch eine zu geringe Überlappung artikulatorischer Gesten als Entstehungsgrund denkbar. So beobachtete Davidson (2005) in der Produktion pseudo-slawischer Wörter durch Muttersprachler: innen des Englischen epenthetische Schwas in den Onsetclustern, die im Englischen nicht erlaubt sind (z. B. / zɡ/ → [zəɡ]). Ihr zufolge unterscheiden sich epenthetische Schwas von lexikalischen wie in above [əˈbʌv], da sie ohne eigene, d. h. vokalische, Zungengeste produziert werden und nur das akustische Resultat von zu wenig Überlappung zwischen den konsonantischen Gesten sind (Catford 1985). Auch dies ist wiederum im Selbsttest überprüfbar: Artikuliert man das Cluster [ɡ̊l] zu Beginn von Gleis sehr langsam und mit Plo‐ sivlösung, wird ein epenthetisches Schwa hörbar. Bei normaler Aussprache hin‐ gegen, d. h. mit entsprechender Überlappung zwischen den Gesten des Onsets, verschwindet das Schwa wieder. 7.3.4 Assimilation und Dissimilation Im Kontext phonologischer Prozesse beschreibt Assimilation eine Angleichung in der Lautrealisierung oder auch eines Merkmals an ein anderes und Dissimilation die Entstehung oder Verstärkung eines Unterschieds zwischen zwei nah beieinan‐ der liegenden Lauten. Assimilation ist ein Prozess, der sehr häufig in den Sprachen der Welt zu beobachten ist, Dissimilation tritt hingegen seltener auf. Dieses Unterkapitel führt daher hauptsächlich in den Prozess der Assimilation ein; nur zu Beginn sei auf zwei Dissimilationsbeispiele hingewiesen. 270 7 Phonologische Prozesse und Regeln <?page no="272"?> Ein bekanntes Beispiel für einen Dissimilationsprozess ist erstens der diachrone Wegfall von Aspiration in Plosiven in der Nähe eines weiteren aspirierten Plosivs im Altgriechischen (auch Graßmannsches Gesetz): Aus [tʰrikʰos] ,Haar‘ (Genitiv) wurde hier [trikʰos], im Nominativ [tʰriks] blieb der Plosiv am Wortanfang aspiriert, da der postvokalische und präfrikativische Plosiv nicht aspiriert ist. Zweitens, in der in 6.2.4 vorgestellten Berbersprache Taschelhit wird ein zugrunde liegendes / m/ -Präfix an der Oberfläche als [n] realisiert, wenn es einem Stammmor‐ phem vorangestellt wird, dass einen der drei labialen Konsonanten / b, f, m/ enthält. Die Position des labialen Konsonanten im Stammmorphem spielt dabei keine Rolle: [msaggal] ‚suchen‘, aber [nfara] ‚entwirren‘ oder [nħaʃʃam] ‚scheu sein‘ (Alderete & Frisch 2007: 380). Als phonetische Erklärung für Dissimilationsprozesse wird häufig die dadurch verbesserte auditive Unterscheidbarkeit angeführt (z. B. Hall 2011: 93). Aber auch für alternative Erklärungsansätze, wonach Dissimilation das Resultat hörerseitig falsch interpretierter hypoartikulationsbedingter Koartikulationseffekte ist, gibt es empirische Evidenz (Ohala 2012, Harrington et al. 2016). In der Phonologie hat die Analyse von Dissimilationsprozessen maßgeblich zur Entwicklung autosegmentaler und optimalitätstheoretischer Ansätze geführt (s. z.-B. Alderete & Frisch 2007). Beim Prozess der Assimilation wird der angeglichene Laut auch als Assimilandum bezeichnet; ausgelöst wird die Angleichung von einem Assimilans. Die Assimilation kann graduell, also nur in einem Merkmal erfolgen, oder auch vollständig, d. h. in allen Merkmalen. Im Falle einer vollständigen Assimilation, ist der Prozess im Nachhinein nicht immer leicht von anderen Prozessen wie der Elision zu unterscheiden. Wir konzentrieren uns daher zunächst nur auf die graduelle Assimilation, die wiederum jegliche Parameter betreffen kann, die wir in Kapitel 4 im Rahmen der Sprachlautbe‐ schreibung kennengelernt haben. - 7.3.4.1 Assimilationstypen Aufgrund der Beschreibungsparameter ergeben sich folgende Assimilationstypen: • Assimilation des Konstriktionstyp • Assimilation der Stimmhaftigkeit • Assimilation der Artikulationsstelle Ein Beispiel aus dem Deutschen für den zuletzt genannten Assimilationstypen ist die auf S. 260 eingeführte Regel (47), mit der die Anpassung der Artikulationsstelle von / n/ an den eines nachfolgenden labiodentalen Frikativs erfasst wurde. Auch für die Assimilation der Stimmhaftigkeit finden sich in den Sprachen der Welt viele Beispiele, selbst über Wortgrenzen hinweg, wie die folgenden Beispiele in (53) zeigen: 7.3 Phonologische Prozesse 271 <?page no="273"?> (53) a. Französisch: / avɛk/ ‚mit‘ → [avɛɡ # vu] ,mit Dir/ Euch ‘ - b. Tschechisch: / lɛt/ ‚Flug‘ → [lɛd # ˈzat͡ʃal] ‚der Flug startete‘ - c. Englisch: / juːzd/ → [juːst # to] Da dies nur Beispiele für die in diesen Sprachen allgemein, wenn auch optional gültigen Regeln sind, können wir die Beispiele in (53a.) und (53b.) in Regel (54a.) zusammenfassen und das Beispiel in (53c.) in Regel (54b.). (54) a. [-son] → [+sth] / __ # - b. [+sth] → [-sth] / __ # In dieser Form beschreiben die Regeln in (54) in Einklang mit den Beispielen in (53) nur die Assimilation über Wortgrenzen hinweg vor Obstruenten (zur Assimilationsrich‐ tung s. 7.3.4.2); zur Notation optionaler Elemente in Regeln, die beispielsweise sowohl die Anwendung einer Regel innerhalb von Wörtern als auch über Wortgrenzen hinweg erfasst, s. Gussenhoven und Jacobs 2017: 89). Assimilationen wie in (54) könnten wiederum auch als Beispiele für Lenisierung (54a.) bzw. Fortisierung (54b.) genannt werden (vgl. 7.3.2). Das tschechische Beispiel (53b.) aus Skarnitzl und Šturm (2017) ist insofern interes‐ sant, als dass es - wie auch das Deutsche - sowohl die phonologische Stimmhaftig‐ keitsopposition in wortfinaler Position neutralisiert als auch zugunsten der stimmlosen Variante (vgl. 7.3.1). Unter bestimmten Bedingungen aber wird die Stimmhaftigkeits‐ opposition - im Gegensatz zum Deutschen - zugunsten der stimmhaften Variante neutralisiert. Entscheidend ist, dass die Assimilationsregel in (54a.) die entsprechende Neutralisierungsregel nicht ungültig werden lässt: Die Stimmhaftigkeitsopposition ist im Tschechischen final neutralisiert, denn im Kontext nachfolgender stimmhafter Obstruenten kann wortfinal kein stimmloser Obstruent vorkommen. Assimilationen der Stimmhaftigkeit sind natürlich auch innerhalb von Wörtern zu beobachten. So kann beispielsweise - je nach Theorie - auch die phonetische Stimmhaftigkeit intervokalischer Plosive in wortmedialer Position deutscher Wörter als Assimilation der Stimmhaftigkeit an die Stimmhaftigkeit der Umgebungslaute betrachtet werden. Ginge man hingegen von zugrunde liegenden stimmhaften Plosiven aus, müsste nicht die Entstehung der Stimmhaftigkeit in intervokalischer Position, sondern die Entstimmung der initialen Plosive mittels einer Regel erfasst werden (z. B. [-son, -kont] → [-sth] / # __); die finale Entstimmung würde auch bei dieser Annahme weiterhin durch die Neutralisierungsregel in (49) erfasst werden. Auch bei der Pluralbildung im Englischen spielt Stimmhaftigkeitsassimilation eine wichtige Rolle; hier kommen also gleich zwei phonologische Prozesse zum Tragen. Neben der Epenthese von / ɪ/ zwischen zwei Sibilanten (vgl. 7.3.3) wird das zugrunde liegende stimmhafte Plural-s / z/ nach stimmlosen Obstruenten stimmlos realisiert, z. B. 272 7 Phonologische Prozesse und Regeln <?page no="274"?> lip [lɪp] - lips [lɪp] (aber crib [kɹɪb] - cribs [kɹɪbz]). Die Assimilation der Stimmhaftigkeit bei der Pluralbildung im Englischen wird durch die Regel in (55) erfasst: (55) / z/ → [-sth] / __# Neben [ɪz] ist [s] also ein weiteres Allomorph des englischen Pluralmorphems / z/ (zu Allomorphie s. 1.2.2). - 7.3.4.2 Assimilationsparameter Bei Regel (55) handelt es sich aber nicht nur um eine graduelle Assimilation, in der nur die Stimmhaftigkeit, nicht aber der Konstriktionstyp oder die Artikulationsstelle angepasst werden, sondern auch um eine progressive Assimilation, da der vorange‐ hende Laut den nachfolgenden beeinflusst. Im Gegensatz zu anderen phonologischen Prozessen gilt es bei der Assimilation eine Reihe von Parametern zu bestimmen, um aus der Vielzahl möglicher Assimilationen die richtige zu erkennen, und somit auch typologische Fragestellungen, z. B. nach häufigen vs. seltenen Assimilationstypen, beantworten zu können. Diese sind: Assimilationsgrad partiell vs. total Assimilationsrichtung regressiv (antizipativ) vs. progressiv (perseverativ) Assimilationsdistanz nah (auch Kontakt-A) vs. fern (auch Distanz-A) Bleiben wir zunächst bei der Assimilationsrichtung. Neben der progressiven Assi‐ milation wie in (55) gibt es auch viele Beispiele für regressive Assimilation, bei der sich ein Laut an eine (oder alle) Eigenschaften des nachfolgenden Lautes anpasst. Dazu zählen die Regeln in (54) und die dazugehörigen Beispiele in (53) auf S. 272 sowie die Ortsassimilationsregel in (47) S. 260. Eine ähnliche regressive Assimilation der Artikulationsstelle ist auch in Wörtern wie anmelden zu finden, in denen das erste / n/ als [m] realisiert wird, wobei es dann aufgrund des Assimilans entweder zu einer totalen Assimilation oder zu einer (auditiven) Elision kommen kann (vgl. 7.3.3, die Trennung der Prozesse fällt in diesem Fall mitunter nicht leicht). An dieser Stelle sei auch auf die Möglichkeit reziproker Assimilationen verwiesen. Hierbei handelt es sich um mehrere, nacheinander ablaufende Assimilationen, bei denen sich jeweils die Assimilationsrichtung ändert (z. B. 1. regressiv, 2. progressiv oder andersherum). Greifen wir hierfür nochmals das Reduktionsbeispiel aus der Einleitung auf, wobei haben in der Spontansprache oftmals als [ham] realisiert wird. In 7.3.3 haben wir gesehen, dass im Deutschen häufig der Neutralvokal elidiert wird, wenn dieser in der unbetonten Silbe nach der betonten vorkommt. Die Schwa-Elision führt also zunächst zu der Sequenz [haːbn̩]. Diese wird in dieser Form jedoch vermutlich kaum 7.3 Phonologische Prozesse 273 <?page no="275"?> 54 Zur Reihenfolge von Regeln siehe S. 275, Exkurs ‚Regelordnung und alternative Ansätze‘. Der Exemplartheorie zufolge, die in 8.3.3.2 vorgestellt wird, ist zudem die mentale Repräsentation reduzierter Wortformen wahrscheinlich, wonach nicht nur zugrunde liegende Formen wie [haːbən] im Lexikon gespeichert sind, sondern auch stark reduzierte Oberflächenformen wie [ham]. In diesen neueren Ansätzen spielt die Reihenfolge von Regeln kaum noch eine Rolle. realisiert. Vielmehr ist es sehr wahrscheinlich, dass es in einem zweiten Schritt zu einer progressiven Assimilation kommt wie in (56) notiert, nun ausgelöst durch den vorangehenden labialen Plosiv. (56) / n/ → [m] / [ LA B ] __ Die Realisierung [haːbm̩] ist nicht nur denkbar, sondern kommt in der gesprochenen Sprache durchaus häufig vor. Man spreche die Sequenz nur einmal selbst etwas schnel‐ ler. Die so erzeugte Oberflächenrealisierung klingt natürlich und ist nebenbei ein wei‐ teres Beispiel für die nasale Lösung eines Plosivs (vgl. 4.2.1.1). In einer weniger for‐ mellen Situation ist zudem zu erwarten, dass es zu einer weiteren, nun wieder regressiven Assimilation kommt: Wie in Regel (57) angegeben, kann der finale Nasal nun eine Angleichung des Konstriktionstyps im vorangehenden Plosiv auslösen. 54 (57) / b/ → [m] / __ / m/ Diese doppelte, sich in der Assimilationsrichtung unterscheidende Angleichung ent‐ spricht einer reziproken Assimilation. Bei der in (57) notierten regressiven Assimilation handelt es sich zudem auch um eine Lenisierung, da die Änderung eines Plosivs zu einem Nasal einer Abschwächung gleichkommt. Nicht nur aus diesem Grund ist dann in einem letzten Schritt eine Elision zu erwarten, sondern auch, weil die Realisierung einer Geminate im Standarddeutschen unwahrscheinlich ist. Egal ob das Ende des Reduktionsprozesses dann eine Elision oder eine regressive Assimilation markiert, Regel (57) wird nur angewendet, wenn der Kontext dies erlaubt - und dessen Präsenz wiederum ist abhängig von Regel (56). Siehe hierzu auch den Exkurs zur Regelordnung auf S. 275f. Der Parameter der Assimilationsdistanz beschreibt, ob Assimilans und Assimi‐ landum direkt benachbart sind. Bei den o. g. Fällen handelt es sich ausschließlich um Nah- oder auch Kontaktassimilationen, in der der unmittelbar vorangehenden oder nachfolgende Laut die Änderung auslöst. Ein Beispiel für eine Fernassimilation ist Vokalharmonie, wie sie etwa im Türkischen bei der Pluralbildung zu beobachten ist: Kommt im Stammmorphem ein vorderer Vokal vor, so enthält auch das Suffix einen vorderen Vokal (z. B. [diʃ] - [diʃler] ,Zahn/ Zähne‘); handelt es sich beim Vokal im Stammmorphem jedoch um einen hinteren oder offenen Vokal, so wird auch der Vokal im Suffix hinten realisiert ([kol] - [kollar] ‚Arm/ Arme‘; Daten aus Kenstowicz 1994). Es handelt sich hierbei um eine Fernassimilation der Artikulationsstelle bzw. der 274 7 Phonologische Prozesse und Regeln <?page no="276"?> Zungenposition, da die Vokale durch Konsonanten getrennt sind. Diese behindern die Assimilation nicht, werden von ihr aber auch nicht beeinflusst. Auch die Entstehung des Umlauts im Deutschen kann als weiteres Beispiel für eine Fernassimilation genannt werden (vgl. 7.3.1). Hierbei haben sich beispielsweise die mittelhochdeutschen Wörter mähtec ‚mächtig‘ und würfel ‚Würfel‘ aus den althoch‐ deutschen Entsprechungen mahtîg und wurfil entwickelt, wobei jeweils die vorderen Vokale in der zweiten Silbe der althochdeutschen Wörter die regressive Fernassimila‐ tion in den Vokalen der ersten Silbe an eine vordere Zungenposition ausgelöst haben (Beispiele aus Schmidt 2000). Der eigentliche Assimilans bestand aber in dieser Form im Mittelhochdeutschen nicht mehr, da er zuvor zum Neutralvokal lenisiert wurde (vgl. 7.3.2). Im Rahmen der Bestimmung des Assimilationsgrades werden all jene Assimilati‐ onen als partiell (auch graduell) beschrieben, in denen ein oder mehrere Merkmal(e) angepasst werden. Nur bei der Assimilation aller Merkmale, spricht man von einer totalen Assimilation. Zu dieser kann es natürlich auch bei Anpassung nur eines Merkmals kommen, nämlich dann, wenn sich Assimilans und Assimilandum in nur einem Merkmal unterscheiden. Bei dem im vorangehenden Absatz genannten Umlaut-Beispiel handelt es sich daher genau genommen um eine partielle, regressive Fernassimilation, da aus den althochdeutschen Hinterzungenvokalen in diesem Kon‐ text zwar im Mittelhochdeutschen Vorderzungenvokale geworden sind, aber entweder gerundete Vokale anstelle ungerundeter (im Falle von würfil) oder offenere Vokale anstelle von geschlossenen (im Falle von mähtec). Regelordnung und alternative Ansätze Im Zusammenhang mit der Vorstellung der reziproken Assimilation in 7.3.4.2 wurde auch eine bestimmte Reihenfolge angesprochen, in der phonologische Re‐ geln angewendet werden müssen, um die korrekte Oberflächenrealisierung zu erzeugen. Vor dem Hintergrund der an Derivation interessierten generativen Phonologie (vgl. 1.2.2 und Onlinekapitel ‚Wissenschaftsgeschichte‘) stand die Er‐ forschung von Regelordnungen im Zentrum vieler Forschungsarbeiten aus den 1960er und 1970er Jahren (z. B. Kiparsky 1968). Dabei ging es insbesondere um die Anordnung mehrerer Regeln, um z. B. die korrekte Pluralform im Englischen zu generieren (und weniger darum verschiedene Reduktionsformen etwa von haben zu beschreiben). Vier Regelordnungstypen werden unterschieden, wobei teilweise das Festlegen von Regeln erforderlich ist: Feeding, Counterfeeding, Bleeding und Counterbleeding. Zwei Regeln stehen in einem Feeding-Verhältnis, wenn die Anwendung einer ersten Regel, den Input für die Anwendung der zwei‐ ten Regel erzeugt. Dies sei der Einfachheit halber anhand der Reduktion von [haːbən] zu [haːbm̩] erklärt: Erst die Elision des Neutralvokals führt zur regressi‐ ven Assimilation der Artikulationsstelle des Nasals an den des vorangehenden Plosivs. Beim Counterfeeding hingegen müssen zwei Regeln A und B in umge‐ 7.3 Phonologische Prozesse 275 <?page no="277"?> kehrter Reihenfolge angewendet werden (also B vor A), um die korrekte Ober‐ flächenrealisierung zu erzeugen. Hier wird das Festlegen von Regeln besonders deutlich. Beim Bleeding blockiert der Output einer Regel A, die Anwendung einer Regel B und beim Counterbleeding ist es wiederum die vorgezogene Anwendung der Regel B, die die Anwendung einer Regel A blockiert. Mit der Entwicklung neuerer Ansätze wie der Autosegmentalen Phonologie oder der Optimalitätsthe‐ orie ist das umstrittene Thema der Regelordnungen in den Hintergrund gerückt, da diese weniger an der Derivation interessiert sind. In der Optimalitätstheorie entspricht beispielsweise die optimale Oberflächenform einer Sprache der Form, die die diversen hierarchisch angeordneten, universal gültigen, aber verletzbaren Beschränkungen (Engl. constraints) am wenigsten verletzt. Da die Hierarchie der Beschränkungen sprachabhängig ist, kann ein phonologischer Prozess in man‐ chen Sprachen zu einem optimalen Output führen und in anderen nicht. 7.3.5 Metathese Der phonologische Prozess der Metathese beschreibt eine Änderung in der Anordnung von Segmenten. Er erfasst oft Liquide, galt aber zunächst lange Zeit nur als optional auftretender Prozess. In synchronen Daten wurde er mit Versprechern und Kinderspra‐ che in Verbindung gebracht; als Beispiel für eine Versprecher-Metathese im Englischen nennt Spencer (1996: 68) etwa die Realisierung von ask als [ɑːks] anstelle von [ɑːsk]. Diachron ist der Prozess zwar gut dokumentiert; gleichzeitig galt er lange Zeit als phonologisch schwer modellierbarer Prozess (Blevins & Garrett 2004: 117), teils weil die kontextuellen Bedingungen, die den Prozess auslösen nicht leicht zu bestimmen sind (s. u.). Auch aus diesem Grund wurde der Metathese mitunter die Existenz als obligatorischer synchroner Prozess abgesprochen. Als Beispiel für eine diachrone Metathese sei hier zunächst die Entwicklung von mittelhochdeutschem borne zu neuhochdeutschem Brunnen genannt, wobei aus dem vormals postvokalischen / r/ ein prävokalisches / r/ wurde. Die alte Form ist aber noch in einigen Ortsnamen enthalten, z. B. Quickborn, Kühlungsborn oder Schönborn (aber Schönbrunn). Im historisch-etymologischen Sprachvergleich lässt sich der Wechsel auch in die andere Richtung belegen: So weist in einem Vergleich zwischen dem Englischen und dem Deutschen beispielsweise nur Englisch eine Metathese in third auf, in der / r/ aus einer prävokalischen in eine postvokalische Position wechselte (wo es nun vokalisiert wird). Für das Altenglische ist noch die Form thridde belegt und in three befindet sich das / r/ ebenfalls weiterhin in prävokalischer Position (Alexander 1985). Im Deutschen wiederum kommt / r/ nicht nur in drei, sondern auch in drittens prävokalisch vor. In synchronen Daten finden sich ebenso Beispiele für / r/ -Metathesen: So lässt sich beispielsweise für das Präfix pre im Amerikanischen Englisch sowohl die 276 7 Phonologische Prozesse und Regeln <?page no="278"?> 55 Siehe https: / / metathesisinlanguage.osu.edu/ languages/ 29 (abgerufen am 29.04.2022, 16: 15 Uhr). 56 Siehe Reiter ‚Related Processes‘ unter https: / / metathesisinlanguage.osu.edu/ languages/ 28 (abgeru‐ fen am 29.04.2022, 16: 20 Uhr). Realisierung [pɹə] als auch [pəɹ] (z. B. in propose) beobachten. 55 Folglich handelt es sich dabei um eine optional auftretende synchrone Metathese. Eine graduelle und schrittweise Änderung der Oberflächenrealisierung ist bei Prozessen wie der Lenisierung und Assimilation vermutlich leichter nachvollziehbar als bei der Metathese. Aber auch hier sind bei der diachronen Entwicklung Zwi‐ schenschritte anzunehmen. So beschreibt Fryd (2016) für den Wechsel von / r/ im Mittelenglischen nun wieder in prävokalischer Position zunächst den Zwischenschritt einer Epenthese: worhte > worohte > wrohte (Neuenglisch: wrought). 56 Darüber hinaus sind aber noch weitere Zwischenstufen in einem metathetischen Lautwandelprozess denkbar. So zeigten etwa Ruch und Harrington (2014) für einen derzeit beobachtbaren, sich im Fortschritt befindenden Lautwandel von Präzu Postaspiration (vgl. 4.2.1.2) im andalusischen Spanisch sehr feine, graduelle Unterschiede in der Art der Aspiration. Da solche feinen Unterschiede auditiv nicht gut zu klassifizieren sind, ist eine symbol‐ phonetische Analyse fehleranfällig. Signalphonetische Analysen hingegen können die kontinuierliche Natur solcher Prozesse aufzeigen. Bedingungen bzw. natürliche Prozesse, die die Lautänderung auslösen, sind da‐ bei nicht immer leicht auszumachen. Insbesondere die Metathese von Vokal und Konsonant zeigt zudem, dass beide Richtungen denkbar sind. Als Erklärungsansatz für Metathesen wird daher immer wieder die Einhaltung phonotaktischer Kriterien herangezogen. So schreibt etwa Hall (2011: 96 f.) hinsichtlich einer obligatoisch auftre‐ tenden Metathese in der in Mexiko gesprochenen indigenen Sprache Zoque, in der das Possessivpronomen sein durch Präfigierung von / j/ angezeigt wird, das aber bei morpheminitialen Konsonanten die Position nach dem Konsonanten und vor dem Vokal einnimmt: Zwei Konsonanten tauschen ihre Plätze, weil sie sonst die Phonotaktik der Sprache verletzen würden. […] die Kombination [j] plus Konsonant [ist] am Wortanfang nicht zulässig. Die Metathese […] findet also statt, damit zugrundeliegende Abfolgen von / j/ plus Konsonant ausgesprochen werden können. Viele Sprachen „reparieren“ solche aufgrund grammatikalischer Prozesse entstehende phonotaktische Verletzungen jedoch in der Regel durch Elisionen oder Epenthesen, so Hall (2011: 97; vgl. auch die Beispiele am Ende von 7.3.3). Als phonetischer Grund für Metathese muss wiederum das Timing in Betracht gezo‐ gen werden, sowohl auf koartikulatorischer als auch auf auditiver Ebene. Insbesondere bei koartikulatorisch bedingten langanhaltenden akustischen Effekten wie etwa bei Liquiden (u. a. zu erkennen an der Tendenz zur Vokalisierung, vgl. 4.2.6, 4.3.2) oder auch Frikativ-Plosiv-Kombinationen ist die auditive Rekonstruktion einer Segmentfolge oft fehleranfällig. So können Hörer das aperiodische Signal eines Frikativs z. B. in ask oder präaspiriertem [ʰp] zwar erkennen, mitunter jedoch nicht dessen Position in einer 7.3 Phonologische Prozesse 277 <?page no="279"?> Segmentfolge, weshalb es zu aks oder [pʰ]-Realisierungen kommen kann (Blevins & Garrett 2004, Ruch & Harrington 2014). Es lässt sich zusammenfassen, dass der Prozess der Metathese zwar insgesamt seltener zu beobachten ist als Assimilation und Elision, aber dennoch in vielen Sprachen auch als regulärer Prozess zu finden und zu erklären ist, insbesondere bei zunehmender Datenlage (Hume 2001) und signalphonetischer Analysen. 7.4 Lexikalische und postlexikalische Prozesse Bei phonologischen Prozessen wird zudem oft zwischen lexikalischen und postlexika‐ lischen Prozessen unterscheiden (s. Lexikalische Phonologie, Kiparsky 1982). Lexikalische Prozesse sind demnach phonologische Prozesse, die auf Ebene des Lexikons operieren, nur bestimmte Wörter betreffen und nicht über Wortgrenzen hinaus angewendet werden. Grammatische Alternationen, wie die Epenthese bei der Pluralbildung im Englischen oder auch die soeben erwähnte Präfigierung in Zoque, sind in der Regel lexikalische Prozesse. Die Aussprache der betroffenen Wörter ist für Muttersprachler gut nachzu‐ vollziehen. Im Deutschen fällt etwa die Regel in (58) unter die lexikalischen Prozesse: (58) / s/ → [ʃ] / #__ [t | p] Vor einem / t/ oder / p/ wird / s/ als [ʃ] realisiert, z. B. Spiel, Sport, Stand oder Stuhl, nicht aber vor / k/ (z. B. Skat, Skelett). Dass man sich möglicherweise die Frage stellt, weshalb es sich überhaupt um ein / s/ und nicht um ein / ʃ/ handelt, ist schon ein Zeichen für die lexikalische Natur dieses Prozesses. Als Muttersprachler können wir den postalveolaren Frikativ als ‚Sch‘-Laut benennen - auch als Laien. Der zugrunde liegende Laut ist für uns nicht mehr zu erkennen, obwohl er in der Orthographie noch enthalten ist. Die Regel spiegelt einen diachronen Prozess wider; die Rückverlagerung des Frikativs ist im Deutschen mit der Zeit entstanden. Das Englische weist noch die unveränderte Aussprache aus (z. B. sport [spɔːt], stand [stænd]), so wie auch einige norddeutsche Varietäten. Auch der diachron entstandene Umlaut im Deutschen und die Vokalharmonie im Türkischen sind Beispiele für einen lexikalischen Prozess. Postlexikalische Prozesse hingegen treten erst „nachträglich“ und auch über Wortgrenzen hinweg in Erscheinung. Sie können in einer Sprache optional oder auch obligatorisch sein. 278 7 Phonologische Prozesse und Regeln <?page no="280"?> Beispiele für optional auftretende postlexikalische Prozesse sind die Elision des Neutralvokals in unbetonten -en-Silben und die in 6.3 beschriebene Resilbifizierungsmög‐ lichkeit für Deutschland (vgl. S. 245, Beispiel (43); s. auch Cholin & Levelt 2009 für postlexikalische Silbifizierung). Auch viele Assimilationen treten optional oder über Wortgrenzen hinweg auf. Obligatorische postlexikale Prozesse hingegen betreffen alle Wörter einer bestimmten Struktur. Sie sind für Muttersprachler in der Regel weniger nachvollziehbar. Zu ihnen zählt die Regel in (59). (59) Demzufolge werden stimmlose Plosive dann aspiriert, wenn sie etwa prävokalisch und am Wortbeginn stehen, wie beispielsweise in Paare. Nach einem / ʃ/ hingegen, wie in spare, werden zugrunde liegende stimmlose Plosive nicht aspiriert. Diesen Unterschied können Muttersprachler in der Regel im Gegensatz zur / s/ -/ ʃ/ -Alternation nicht ‚ein‐ fach so‘ benennen; für sie erscheinen die beiden orthographisch durch ⟨p⟩ repräsen‐ tierten Laute gleich. Überprüfen kann man diese Regel jedoch leicht, indem man Wörter wie Paare und spare mit vorgehaltener Handinnenfläche produziert; den für Aspiration typischen Lufthauch spürt man nur bei Paare. Sprachen und Varietäten können sich hinsichtlich der Natur einer Regel, also ob lexikalisch oder postlexikalisch, auch unterscheiden: So stellt etwa die Regel (58) in alemannisch-schwäbischen Dialekten im Gegensatz zum Standarddeutschen keinen lexikalischen, sondern einen postlexikalischen Prozess dar, da sie ungeachtet der Wortposition auf alle Wörter angewendet wird. Während die Sequenz / st/ in der Wortmitte von Distel im Standarddeutschen als [dɪs.təl] realisiert wird, heißt es im Alemannischen-Schwäbischen [dɪʃ.tlə]. 7.5 Zusammenfassung Koartikulation kann zu Assimilation, Lenisierung, Elision und anderen phonologischen Prozessen führen, insbesondere in der Silbencoda und bei sogenannten prosodisch schwachen Formen wie Silben oder nicht akzentuierten Wörtern (s. Kap. 9). Phone‐ tische Reduktionen, die teilweise zu erheblichen Abweichungen von der zugrunde liegenden Form führen, sind nicht nur möglich, sondern natürlicher Bestandteil von Spontansprache, vor allem solange die kommunikative Verständlichkeit und auditive Rekonstruierbarkeit bestehen bleiben (Lindblom 1990). Dies ist schon allein aufgrund von Redundanz auf verschiedenen phonetischen und linguistischen Ebenen der Fall: So können etwa / z/ und / n/ in Sonne mit Lippenrundung realisiert werden, da Lippenrundung bei Konsonanten allgemein und beim alveolaren Frikativ bzw. Nasal im Deutschen im Speziellen kein distinktives Merkmal darstellt. Selbst wenn 7.5 Zusammenfassung 279 <?page no="281"?> man stattdessen ein / o/ entrundet realisieren würde, ist eine Identifikation des ent‐ sprechenden zugrunde liegenden Hinterzungenvokals möglich, da es im Deutschen keine ungerundeten Hinterzungenvokale gibt und das Merkmal der Lippenrundung bei Vokalen mit dem Merkmal [+hint] redundant ist. Auch die Realisierung des / t/ in einem Wort wie Lastwagen ist gewissermaßen redundant, da das Phonem aufgrund des restlichen Wortkontextes rekonstruierbar ist. Handelte es sich nur um die erste Silbe und nicht um das Kompositum, wäre eine korrekte Rekonstruktion je nach Satzkontext möglich (z.-B. bei Ich trage eine [las], nicht aber bei Ich habe [las] gesagt). Redundanzen wie diese verstärken phonologische Prozesse und machen diese vorhersagbar, so wie in dem Beispiel aus Kohler (1995: 201), das in 7.1. eingeführt wurde. Darin ordnet Kohler für die Äußerung Haben Sie einen Moment Zeit? mögliche Oberflächenrealisierungen in Abhängigkeit verschieden starker Reduktionsformen an, die sich nicht nur auf das von Lindblom (1990) postulierte Kontinuum von Hyperzu Hypoartikulation übertragen lassen (vgl. Abb. 70), sondern auch verschiedenen phonologischen Prozessen zugeordnet werden können. Die stark hypoartikulierte Realisierung [has (m) moˈmɛn ˈtsaɪt] weist regressive Assimilationen (z. B. [n] → [m], [d] → [b]) sowie Elisionen einzelner Laute (z. B. [t], [u]) und Silben (z. B. [ən]) auf. Weniger stark reduzierte bzw. hypoartikulierte Oberflächenrealisierungen derselben zugrunde liegenden Form können statt einer Elision auch Lenisierungen wie Vokalkürzungen beinhalten ([u] → [ʊ] → [ə] → ∅). Reduktionen sind demnach nicht zufällig, sondern vorhersagbar. Berücksichtigt man zudem, dass in dieser Äußerung der Fokus und damit die prosodische Prominenz bzw. Betonung auf dem Wort Zeit, nicht aber auf dem Wort hast liegt, so ist die Elision von [t] zwar in hast, nicht aber in Zeit wahrscheinlich. Bei diesen phonologischen Prozessen handelt es sich um postlexikalische Prozesse, die durch Hypoartikulation forciert werden. Aber nicht nur synchron lassen sich phonologische Prozesse beschreiben, sondern auch diachron, wo die Prozesse nun mitunter auf der Ebene des Lexikons operieren. Unterschiedliche phonologische Pro‐ zesse können das gleiche sprachliche Phänomen beschreiben (z. B. Auslautverhärtung im Deutschen = Neutralisierung UND Fortisierung) oder sich gegenseitig bedingen (z. B. Assimilation nach Elision in haben [ˈhaːbən] → [ˈhaːbn] → [ˈhaːbm]). Je nach phonologischer Theorie gilt es ganz grundsätzlich die Reihenfolge phonologischer Re‐ geln und somit Prozesse zu beachten (s. S. 275f., Exkurs ‚Regelordnung und alternative Ansätze‘). Innerhalb einer phonetisch-phonologischen Einheit wie der Silbe oder eines Wortes können zudem infolge unterschiedlich stark ausgeprägter spontansprachlicher Reduktion und Hypoartikulation an gleicher Position unterschiedliche phonologische Prozesse auftreten wie etwa die silbenfinale Lenisierung oder Elision von / t/ in Last‐ wagen, wobei die Lenisierung hier eine Vorstufe zur Elision darstellt. Bei situativ bedingten oder generell spontansprachlichen Reduktionsprozessen lassen sich grundsätzlich die gleichen phonologischen Prozesse beobachten wie bei lexikalischen oder postlexikalischen Prozessen. Allerdings treten sie nicht mit der gleichen Regelhaftigkeit auf wie letztere. 280 7 Phonologische Prozesse und Regeln <?page no="282"?> Übungsaufgaben 1. Inwiefern unterscheiden sich der wortfinale Konsonant in den Wörtern vor dem Bindestrich von den wortmedialen, intervokalischen Konsonanten nach dem Bin‐ destrich? Benennen Sie die konsonantische Alternation. Abend - Abende lag - lagen Dieb - Diebe Preis - Preise 2. Welche der nachfolgenden Laute können nicht am Ende eines Wortes im Deut‐ schen vorkommen? Welche phonologischen Prozesse liegen zugrunde (nennen Sie mehr als einen)? / b p f ŋ t d ɡ z v/ 3. Identifizieren und erklären Sie die phonologischen Prozesse in den synchronen englischen Daten in i) und den diachronen englischen Daten in ii) (beide teils aus Katamba 1989: 87, 91). Das Diakritikum [ʷ] beschreibt Labialisierung, d. h. Lippenrundung bei Konsonanten. i) peel [piːl] - pool [pʷuːl] - tea [tiː] - two [tʷuː] - she [ʃiː] - Shoe [ʃʷuː] - get [ɡɛt] - got [ɡʷɒt] ii) in-legal illegal - in-licit illicit - in-rational irrational - in-revocable irrevocable - in-possible impossible - in-polite impolite - in-patient impatient 7.5 Zusammenfassung 281 <?page no="283"?> 4. Weshalb sind bei 3. ii) auch die letzten drei Beispiele notwendig, um den Prozess eindeutig zu bestimmen? Welcher andere Prozess würde sonst noch die Beispiele 1-4 unter 3. ii) erklären? 5. Im Türkischen finden sich folgende Deklinationen: - - Nominativ Singular Genitiv Singular - gül ‚Rose’ [ɡyl] [ɡylyn] - göz ‚Auge’ [ɡœz] [ɡœzyn] - ev ‚Haus’ [ev] [evin] - kıyı ‚Küste’ [kɯjɯ] [kɯjənɯn] - kuzu ‚Lamm‘ [kuzu] [kuzunun] - Welche phonologischen Prozesse lassen sich unter welchen Bedingungen beobach‐ ten? Nutzen Sie das IPA, um gegebenfalls die Aussprache unbekannter Symbole zu rekonstruieren. 6. Transkribieren Sie das Wort strebsam phonetisch (vgl. Kap. 4), silbifizieren Sie es linear und unter Berücksichtigung des Prinzips der Onset-Maximierung (vgl. Kap.-6) sowie eines im Deutschen stattfindenden Neutralisierungsprozesses. 282 7 Phonologische Prozesse und Regeln <?page no="284"?> 57 Wir weichen hier von der Notation als K 02 in Hall (2011) ab. 7. Welche phonologischen Prozesse spiegeln folgende Regeln wider (Regelnotationen nach Hall 2011: 120, 144 f.)? i) [-son] ➝ [-sth] / __ # ii) wobei „ “ bedeutet, dass im rechten Kontext bis zu vier Konsonanten vorkom‐ men können (wie in Herbsts, d. h. egal ob silbisch oder extrasilbisch, vgl. 6.4) und die Wortgrenze optional ist (z.-B. Herbste). 57 iii) / ç/ ➝ [+hint] / __ 8. Nehmen Sie sich selbst mit der Software Praat auf (zum Programmdownload s. Onlinekapitel ‚Praat‘), wenn Sie mehrmals, schnell hintereinander das Wort Kunst‐ werk aussprechen (vgl. Aufgaben in 7.3.2 und 7.3.3). Klicken Sie hierzu nach dem Öffnen des Programms im Fixed Menu auf New und Record Mono Sound… Im sich neu öffnenden SoundRecorder-Fenster müssen Sie nur noch auf Record kli‐ cken, Kunstwerk wie oben bzw. in den Aufgaben beschrieben einsprechen und an‐ schließend erst auf Stop und dann auf Save to list (& Close) klicken. Die Auf‐ nahme erscheint nun im Praat Objects-Fenster und kann wie im Onlinekapitel ‚Praat‘ beschrieben mit einem Klick auf View & Edit im Dynamic Menu im Sound‐ Editor geöffnet werden. Prüfen Sie dort anhand des Sprachsignals, wie stark Sie das / t/ lenisiert oder sogar elidiert haben. Weiterführende Literatur Englischsprachige Einführungen in phonologische Prozesse und deren Regeln anhand vieler Beispiele finden sich in G U S S E NHOV E N & J AC O B S (2017), H AY E S (2009), K ATAMBA (1989) und S P E NC E R (1996). Für eine deutschsprachige Einführung sei wiederum auf H ALL (2011) verwiesen. Als Einführung in den hier nicht näher behandelten, auf Beschränkungen basierenden Ansatz der Optimalitätstheorie, der sich von dem älteren regel-basierten Ansatz unterscheidet, eignen sich ebenfalls H ALL (2011) oder G U S S E NHO ‐ V E N & J AC O B S (2017). In der zuletzt genannten Einführung wird in Kapitel „7 Connecting underlying and surface representations“ auch die Wahl der zugrundeliegenden Form thematisiert. Beispiele für spontansprachliche Prozesse finden sich in K OHL E R (1995) unter „6.3 Segmentelle Satzphonetik“ und in P OM P INO -M A R S CHALL (2009: 274-277) unter der Abschnittsüberschrift „Phonetische Prozesse in fließender Rede“ in „6.2 Das Deutsche“. Die phonetische Literatur zur (un)vollständigen Neutralisierung ist umfangreich; wichtige Beiträge sind im gleichnamigen Exkurs in 7.3.1 zitiert. Phonetische Gründe 7.5 Zusammenfassung 283 <?page no="285"?> für die häufig auftretende finale Entstimmung von Obstruenten werden u. a. in B L E VIN S (2004), D INN S E N (1980) oder P A R K E R (1981) diskutiert. In einem kurzen englischsprachigen Artikel geht J ANDA (1999) auf weitere Gründe für die Entstehung der Phoneme / y/ und / ø/ im Deutschen ein als dem in 7.3.1 genann‐ ten Grund des Kontext-Wegfalls. Die Lenisierung von Fortisplosiven ist historisch gut dokumentiert und z. B. von H UALD E et al. (2011) und K OHL E R (1984) für spanische Varietäten analysiert worden. Die Lenisierung von Fortisplosiven insbesondere in mitteldeutschen Varietäten wird auch als binnenhochdeutsche Konsonantenschwächung bezeichnet und ist etwa in B A R B O U R & S T E V E N S O N (1998: 101-103) beschrieben. Einen guten Überblick über die Lautsysteme der größten Dialektgebiete des Deutschen bieten die Artikel im Sammelband „The Dialects of Modern German“ von R U S S (1990). Beispiele für segmentale Reduktionen in spontansprachlichen Prozessen des Deut‐ schen (z. B. Assimilation und Elision) inklusive der Generalisierung dieser Prozesse in Form phonologischer Regeln und phonetischer Erklärungen zur Prozessauslösung finden sich in K OHL E R (1990). Für eine Diskussion über Metathese als regulärer bzw. irregulärer Prozess siehe H UM E (2001). 284 7 Phonologische Prozesse und Regeln <?page no="286"?> 8 Sprachperzeption Überleitung und Ziele Ähnlich wie die Sprachakustik, ist die Sprachperzeption einerseits Werkzeug in ohrenphonetischen Analysen, andererseits Teil der Sprachkette und damit selbst Untersuchungsgebiet der Phonetik. Des Weiteren besteht ein enger Be‐ zug zwischen Sprachperzeption und Phonologie, da sich beide mit kognitiven Aspekten gesprochener Sprache befassen und im Rahmen der Perzeption ein variables Signal (z. B. Phon) einer abstrakten Kategorie (z. B. Phonem) zugeordnet wird. Zugrunde liegende phonologische Systeme beeinflussen die Wahrnehmung akustischer Signale, was u. a. zu unterschiedlichen Phonemidentifikationen füh‐ ren kann, wenn man eine Sprache als Mutter- oder Fremdsprache spricht. Die Sprachwahrnehmung ihrerseits beeinflusst die Form phonologischer Systeme, wie z. B. Neutralisierungen phonologischer Oppositionen zwischen akustisch ähnlichen Kategorien zeigen. Viele phonologische Theorien vor der OT model‐ lierten jedoch v. a. den Sprachproduktionsprozess von der zugrundeliegenden Form zur Oberflächenrealisierung. Ziel dieses Kapitels ist es, die hörerseitige Sprachverarbeitung kennenzulernen - von der rein auditiven Verarbeitung über Strategien zur Kompensation phonetischer Variabilität bis zur Erkennung teils abstrakter, teils konkreter Wahrnehmungseinheiten. In drei Abschnitten soll folgenden zentralen Fragen nachgegangen werden: • Wie ist das Gehör aufgebaut und wie funktioniert es? • Wie funktioniert auditive Wahrnehmung von Schall allgemein? • Wie funktioniert auditive Sprachwahrnehmung im Besonderen? Vor allem letzteres wird mithilfe von signalphonetischen Sprachperzeptionsexpe‐ rimenten untersucht, die auf der gezielten Manipulation akustischer Parameter beruhen. Die Untersuchung der auditiven Sprachperzeption setzt sowohl die Kenntnis des akustischen Sprachschalls inklusive der koartikulationsbedingten Variabilität als auch phonologische Konzepte voraus, da es nicht zuletzt um den invarianten, phonologischen Gehalt des Sprachsignals geht. 8.1 Anatomie und Physiologie des Gehörs Unter Gehör verstehen wir die Fähigkeit zur auditiven Wahrnehmung von akustischem Schall. Das eigentliche Sinnesorgan sitzt in einem von außen nicht sichtbarem Teil des Ohres, dem flüssigkeitsgefüllten Innenohr. Der für uns sichtbare Teil des Ohrs, das äußere Ohr, erfüllt zusammen mit dem luftgefüllten Mittelohr wichtige Funktionen der <?page no="287"?> Weiterleitung des akustischen Schalls zum schallempfindenden Sinnesorgan. Das Ohr ist paarig angelegt; dies dient insbesondere der Schalllokalisierung (s. 8.1.1, 8.1.3). Im ersten Unterkapitel werden die Anatomie und Physiologie des Gehörorgans beschrie‐ ben werden, wobei sich die Begriffe wiederum am Pschyrembel Klinischen Wörterbuch ([Anon.] 1998) orientieren. Wie in 2.1 werden soweit wie möglich deutschsprachige Begriffe verwendet; die lateinischen Entsprechungen werden aber in Klammern eben‐ falls eingeführt. Die Abschnittsuntergliederung folgt dabei der groben Unterteilung in die oben bereits genannten und in Abb. 71 gekennzeichneten Abschnitte des äußeren Ohrs sowie des Mittel- und Innenohrs. Abb. 71: Frontalschnitt durch das Gehör- und Gleichgewichtsorgan mit Beschriftung der wichtigsten anatomischen Bestandteile des äußeren Ohrs sowie des Mittel- und Innenohrs nach Netter (2015: Tafeln 94, 95). Kette der Gehörknöchelchen eingebettet im Mittelohr (oben) und Detailansicht (unten). 8.1.1 Schallempfang im äußeren Ohr Das äußere Ohr (Auris externa) mit Ohrmuschel und dem äußeren Gehörgang fungiert als Schallempfänger und als akustischer Schallverstärker. 286 8 Sprachperzeption <?page no="288"?> Die Ohrmuschel (Auricula) markiert den Beginn des äußeren Ohrs. Sie entspricht dem für uns sichtbaren Teil des Ohrs und wird von uns in der Regel allgemein als Ohr bezeichnet. Hier wird der akustische Schall empfangen und durch den sich dahinter befindenden äußeren Gehörgang zum Trommelfell weitergeleitetet (vgl. Abb. 71). Die Form und Ausrichtung der Ohrmuschel am Kopf ist entscheidend für die Lokalisierung einer Schallquelle, insbesondere, ob sich diese vor oder hinter der hörenden Person befindet (s. 8.2). Der äußere Gehörgang (Meatus acusticus externa) fungiert als Resonator. Da es sich um ein einseitig geschlossenes, ca. 2,5 cm langes und 7-8 mm breites zylindrisches Rohr handelt, wird bereits in diesem Bereich des Gehörorgans Schall akustisch verstärkt. Der eingehende Schall wird dabei gefiltert, ähnlich wie im Ansatzrohr (vgl. 3.2.2). Aufgrund der Form des äußeren Gehörgangs und der bekannten Größe der Schallgeschwindigkeit von 344 m/ s, kann die Resonanzfrequenz des äußeren Gehörgangs mit ca. 3440 Hz relativ genau bestimmt werden. In einem Band von ungefähr 3000 Hz um den Bereich dieser Resonanzfrequenz, d. h. von 2 - 5 kHz, werden eingehende Frequenzen verstärkt. Dieses Frequenzband ist sprachakustisch besonders relevant (vgl. Kap. 4). Geschützt wird der äußere Gehörgang durch Ohrenschmalz (Cerumen), das ein Austrocknen verhindert und es ermöglicht, Fremdkörper wieder nach außen zu befördern. Das Trommelfell (Membrana Tympani) schließt den äußeren Gehörgang ab und bildet den Übergang zum Mittelohr. Die zwei wichtigsten Funktionen sind der Schutz des empfindlichen Mittelohrs sowie der Empfang und die Übertragung der akustischen Druckwelle. Es handelt sich um eine kreisähnliche, dünne, luftdichte, schallbewegliche Membran mit Durchmessern zwischen 9 und 10 mm und einer Fläche von ca. 75 mm 2 . Der durch den äußeren Gehörgang weitergeleitete und gefilterte Schall verbiegt das Trommelfell, wodurch die Schallwelle auf die Gehörknöchelchen im Mittelohr übertragen werden. Auch das Trommelfell trägt zur Schallverstärkung bei, allerdings in Abhängigkeit der Mittelohranatomie. 8.1.2 Schallweiterleitung im Mittelohr Das Mittelohr (Auris media) ist ein kleiner luftgefüllter Raum, in dem sich die Ge‐ hörknöchelchen befinden. Dieser Raum, der als Paukenhöhle (Cavum tympani) bezeichnet wird, hat ein Binnenvolumen von ungefähr 1 cm 3 , bei einer Länge von ca. 15 mm und einer Breite von 3-7 mm. Die Paukenhöhle wird nur über die Ohrtrompete (Tuba auditiva, auch Eustachio-Röhre) belüftet, die das Mittelohr mit dem Rachenraum verbindet und für Druckausgleich sorgt (vgl. Abb. 71 und 2.1.2). Zu den Gehörknöchelchen (Ossikel) gehören Hammer (Malleus), Amboss (Incus) und Steigbügel (Stapes), die in der Reihenfolge eine bewegliche, gelenkig gekoppelte Kette bilden. Der Hammer ist auf der einen Seite mit dem Trommelfell und auf der anderen Seite mit dem Amboss verbunden, der wiederum als Bindeglied zum Steigbügel fungiert. Der Steigbügel schließt unmittelbar an das ovale Fenster (Fenestra ovalis, auch Vorhoffenster, Fenestra vestibuli) an, einer ovalen Öffnung in der Wand, 8.1 Anatomie und Physiologie des Gehörs 287 <?page no="289"?> die das Mittelohr vom Innenohr trennt und die durch die Fußplatte des Steigbügels verschlossen ist. Unterhalb des ovalen Fensters befindet sich das runde Fenster (Fenestra rotunda, auch Schneckenfenster, Fenestra cochleae), das ebenfalls einen Über‐ gang zwischen Mittel- und Innenohr darstellt und durch eine Bindegewebemembran verschlossen ist. Die Funktion dieses Übergangs wird in 8.1.3 beschrieben. Die Verbiegung des Trommelfells Richtung Mittelohr versetzt den Hammer in Bewe‐ gung, der die durch die Schallwellen ausgelösten atmosphärischen Luftdruckschwan‐ kungen so zunächst auf den Amboss und anschließend auf den Steigbügel überträgt. Durch die kolbenartigen Bewegungen wird nun auch die Membran des ovalen Fensters Richtung Innenohr verbogen. Die Fläche des ovalen Fensters bzw. die Fußplatte des Steigbügels beträgt ca. 3,2 mm, ist also von der Fläche sehr viel kleiner als das Trommelfell (vgl. 8.1.1). Aufgrund dieses Größenunterschieds und der in (60) angegebenen Gesetzmäßigkeit kommt es zu einer Druckerhöhung am ovalen Fenster. (60) Aber auch die Aufhängung und der Längenunterschied zwischen den einzelnen Gehörknöcheln trägt in Form einer Hebelwirkung zur Schallverstärkung bei. Das Hebelgesetz in (61) besagt, dass (61) wobei F 1 die Kraft ist, die auf den Hammer einwirkt und F 2 die resultierende Kraft, die der Steigbügel auf das ovale Fenster ausübt. l 1 entspricht der Länge des Hammers und l 2 der Länge von Amboss und Steigbügel zusammen. Da der Hammer etwas länger ist als der Amboss (Verhältnis ca. 1,3: 1), ist die resultierende Kraft F 2 immer höher als F 1 . Die Kraftverstärkung durch Druckerhöhung und Hebelwirkung ist notwendig, da es beim Übergang vom luftgefüllten Mittelohr zum flüssigkeitsgefüllten Innenohr zu einem Anstieg der Impedanz kommt, also einem Widerstand gegen die Weiterleitung von Energie. Um diesen Widerstand zu überwinden, fungiert das Mittelohr nicht nur als Schallleiter, sondern auch als Schallverstärker. Im Gegensatz zum äußeren Ohr handelt es sich jetzt aber nicht mehr um einen akustischen, sondern um einen mecha‐ nischen Leiter. Im Mittelohr werden die Schallwellen mechanisch weitergeleitet. Um den Impedanzanstieg vom luftgefüllten Mittelohr zum flüssigkeitsgefüllten Innenohr zu überwinden, werden die Schallwellen zudem am ovalen Fenster durch Druck‐ erhöhung und Hebelwirkung mechanisch verstärkt. Neben den Mechanismen zur Schallverstärkung gibt es aber auch Abschwächungsmög‐ lichkeiten. Durch Kontraktionen der Muskeln Trommelfellspanner (Musculus tensor tympani) und Steigbügelmuskel (Musculus stapedius), an denen Amboss und Steig‐ 288 8 Sprachperzeption <?page no="290"?> Abb. 72: Schnitt durch eine Windung der Cochlea nach Netter (2015: Tafel 98). bügel aufgehängt sind, können die Gehörknöchelchen versteift werden. Dies geschieht einerseits leicht zeitverzögert bei der Verarbeitung von Sprachsignalen mit einem hohen Schalldruckpegel durch den sogenannten Stapediusreflex (Engl. stapedius re‐ flex), andererseits lautstärkeunabhängig unmittelbar vor dem eigenen Sprechen durch den Prävokalisierungsreflex (Engl. prevocalisation reflex). Zudem ermöglichen die Mittelohrmuskeln die Dämpfung von Sprachsignalen im niederfrequenten Bereich und damit die Fokussierung auf die höheren Frequenzen des Sprachsignals. Dies erlaubt es z.-B. Sprache auch bei Umgebungsgeräuschen auditiv wahrzunehmen. 8.1.3 Reiztransformation im Innenohr Das für die auditive Wahrnehmung entscheidende Sinnesorgan sitzt in der Hörschne‐ cke (Cochlea), die zusammen mit dem Vestibularapparat, dem Sitz des Gleichgewicht‐ sorgans, das Innenohr bildet. Das Gleichgewichtsorgan ist funktional eng mit dem Hörorgan verbunden, wird hier aber nicht näher behandelt. Die Cochlea grenzt direkt an das Mittelohr an. Bei ihr handelt es sich um eine 3-5 mm große, knöcherne Struktur mit drei schlauchähnlichen, mit Lymphflüssigkeit gefüllten Hohlräumen (Scalae), die vom knöchernen Spiralblatt (Lamina spiralis cochlea) und daran ansetzenden Membranen voneinander getrennt sind (s. Abb. 72). Die Form der Cochlea entspricht einer Spirale mit 2,5 Windungen. Aufgerollt beträgt ihre Länge etwa 3,2 cm. Der sich unmittelbar an das Mittelohr anschließende Beginn der Cochlea wird als Basis bezeichnet, das andere Ende als Apex oder auch Schneckenspitze. 8.1 Anatomie und Physiologie des Gehörs 289 <?page no="291"?> Hinter dem ovalen Fenster befindet sich die mit Perilymphe gefüllte Vorhoftreppe (Scala vestibuli), die von dort bis zum Apex verläuft. Dort mündet sie am Helicotrema, dem Schneckenloch, in die Paukentreppe (Scala tympani), die vom Apex zum runden Fenster führt. Zwischen Vorhof- und Paukentreppe befindet sich der mit Endolymphe gefüllte Schneckengang (Ductus cochlearis, auch Scala media). Während in der Perilymphe Natriumionen überwiegen, weist die Endolymphe einen hohen Gehalt an Kaliumionen auf. Die unterschiedliche Ionenkonzentration in den beiden Lymphflüssigkeiten führt zu einem Gleichspannungspotential. Von der Vorhoftreppe wird der Schneckengang durch die Reissner-Membran (Membrana vestibularis) getrennt, von der Paukentreppe durch die Basilarmembran (Membrana basilaris, s. Abb. 72). Auf der Basilarmembran sitzt das eigentliche Hörorgan, das Corti-Organ, in dem sich etwa 3000-3500 innere und 12000 äußere Haarzellen befinden (s. Abb. 72). Das Corti-Organ selbst ist von der Tektorialmembran (Membrana tectoria) umgeben. Bei den Haarzellen handelt es sich um Nervenzellen, deren Zellkörper eine lange zylindrische Form aufweisen mit Haarbündeln, den sogenannten Stereo‐ zilien, am Ende des Zellkörpers. Die Stereozilien bewegen sich in der Endolymphe des Schneckengangs. Die äußeren Haarzellen sind in drei Reihen angeordnet und zumindest ein Teil ihrer Stereozilien ist mit der Tektorialmembran verbunden. Sie werden von etwa 1800 efferenten, d. h. vom Gehirn wegführenden, Nervenbahnen erregt. Nur 5 % der mit den äußeren Haarzellen verbundenen Nervenbahnen sind afferent, d. h. zum Gehirn hinführend. Die inneren Haarzellen sind in einer Reihe angeordnet und berühren die Tektorialmembran nicht; sie bewegen sich also frei in der Endolymphe. Von den inneren Haarzellen führen etwa 30000 afferente Nervenbahnen weg. Die Nervenbahnen vereinigen sich zum Hörnerv (Nervus cochlearis), der sich mit dem Gleichgewichtsnerv (Nervus vestibularis) zum Nervus vestibulochochlearis zusammensetzt und durch den inneren Gehörgang verläuft (Meatus acusticus internus). Der mechanische Druck des Steigbügels auf das ovale Fenster löst eine Wellenbe‐ wegung der Lymphflüssigkeit aus. Laut der sogenannten Wanderwellentheorie (von Békésy 1928; Engl. travelling-wave theory) pflanzt sich die Druckwelle als Longitudinal- und Transversalwelle fort, was zur Verbiegung der Basilarmembran in Längs- und Querrichtung führt. Insbesondere bei komplexen periodischen und aperiodischen Sig‐ naltypen, die die gesprochene Sprache charakterisieren, kommt es dabei aufgrund sich frequenzabhängig überlagernder Wanderwellen zu sehr komplexen Bewegungen der Basilarmembran (vgl. 3.1.1). Jegliche dabei entstehenden Druckunterschiede werden durch die bewegliche Membran des runden Fensters zum Mittelohr wieder ausgegli‐ chen. Die Auslenkung der Basilarmembran in Querrichtung führt auch zu deren Verschiebung gegenüber der Tektorialmembran, wodurch wiederum die Endolymphe und damit auch die Stereozilien in Bewegung geraten. Dabei kommt es zu einer kurzen Durchlässigkeit der Haarzellenmembran und aufgrund der sich ändernden Ionenkon‐ zentration und elektrischen Ladung zur Bildung eines Aktionspotentials (Nervenim‐ puls). Das Aktionspotential wird in dem Bereich der Basilarmembran ausgelöst, in 290 8 Sprachperzeption <?page no="292"?> dem die Wanderwelle ihre Maximalamplitude erreicht. Bei der Rückwärtsbewegung schließen sich die Ionenkanäle zum Ruhepotential. Das hydraulische System des Innenohrs führt zur Verbiegung der Basilar‐ membran aufgrund der Wanderwelle und infolgedessen zum ‚Abknicken‘ der Stereozilien im Bereich ihrer Maximalamplitude. Dieser Bereich wird einerseits durch die Frequenz der Schallwelle und andererseits das Schwingungsverhalten der Basilarmembran bestimmt, die an der Basis schmaler, höher und steifer ist als am Apex. Daher gilt: Je höher eine Frequenz, umso näher die Maximalamplitude an der Basis. Die Basilarmembran ist tonotop aufgebaut, d. h. benachbarte Frequenzen werden an benachbarten Stellen der Basilarmembran kodiert (s. Abb. 76). Aufgrund der von der Basis zum Apex abnehmenden Höhe und zunehmenden Breite der Cochlea sowie der abnehmenden Steifigkeit der Basilarmembran ändert sich deren Schwingungsverhalten und die Zahl der bewegten Moleküle. Diese Orts-Fre‐ quenz-Transformation im Corti-Organ entlang der Basilarmembran ist daher zu‐ mindest teilweise mit dem Masse-Feder-System zu erklären, das ganz allgemein den Einfluss der Masse eines Körpers und seinen Federeigenschaften beim Schwingungs‐ verhalten erklärt (s. den gleichnamigen Exkurs unten). Das Masse-Feder-System und die Orts-Frequenz-Transformation im Innenohr Ist eine Masse groß, müssen starke Federn darauf einwirken, um die Bewegungs‐ richtung umzukehren. Ist eine Masse hingegen klein, bewirken starke Federn schnelle Richtungswechsel. Auf die Orts-Frequenz-Transformation im Innenohr angewendet bedeutet dies: Höhere Frequenzen erreichen die Maximalamplitude näher an der Basis, da dort die Rückstellkräfte aufgrund der höheren Steife größer und die Masse aufgrund der schmaleren und höheren Form geringer ist. Je niedriger die Frequenz ist, desto näher wird die Maximalamplitude am Apex erreicht, nicht nur wegen der abnehmenden Steifigkeit, sondern auch wegen der abnehmenden Tiefe und der zunehmenden Breite der Cochlea. Die Breite führt zu einer größeren Masse, die abnehmende Tiefe hingegen bewirkt, dass weniger Moleküle über längere Strecken bewegt werden können. Die Auslenkungen der Wanderwelle können allerdings nicht allein durch ihre mecha‐ nischen Schwingungseigenschaften erklärt werden. Die überwiegend durch efferente Nervenbahnen erregten und die Tektorialmembran berührenden Stereozilien der äuße‐ ren Haarzellen scheinen sich dadurch aktiv auch auf die Basilarmembran auszuwirken, etwa in Form von Dämpfung. Neben der ortsabhängigen Kodierung der Frequenz geht man zusätzlich davon aus, dass auch die Feuerungsrate Frequenzen kodiert. Um der Refraktärphase ent‐ 8.1 Anatomie und Physiologie des Gehörs 291 <?page no="293"?> gegenzuwirken, feuern insbesondere bei hohen Frequenzen mehrere Nervenfasern phasengekoppelt, d. h. zeitlich versetzt, und kodieren so gemeinsam diese höheren Frequenzen. Das Feuern in Form von Salven hat zum Namen der Salventheorie (Wever 1949, Engl. volley theory) geführt, die dieses Prinzip der Frequenz-Zeit-Kodierung beschreibt. Über die von den inneren Haarzellen ausgehenden afferenten Nervenbahnen werden die Frequenzinformationen über das Ganglion spirale cochlea und den Hörnerv zunächst zur primären Hörrinde (auditorischer Kortex), einem Teil der Großhirnrinde, weitergeleitet, wo einzelne Töne und Laute wahrgenommen werden. Die Komplexität der Signalinformation nimmt dabei auf dem Weg zum Gehirn zu, da u. a. nun auch Laufzeitunterschiede in die Signalkodierung einfließen, die sich aus dem binauralen Hören, d. h. der Schallweiterleitung über beide Ohren ergeben und Aufschluss über die Lokalisierung der Schallquelle geben. Hinzu kommt neben der neuronalen auch die kognitive Verarbeitung von Schall. Wir dekodieren nicht nur objektiv neuronal die eingehende Signalinformation, sondern interpretieren sie auch kognitiv, beispielsweise in Abhängigkeit unseres Weltwissens (s. 8.3). 8.2 Psychoakustik Bereits in 3.1 wurde im Rahmen der Definition von Schall beschrieben, dass nicht jede Luftdruckschwankung auditiv wahrnehmbar ist, sondern nur Frequenzen im Bereich von 20 Hz bis 20 kHz. Die Psychoakustik beschäftigt sich einerseits mit der Ermittlung von sogenannten absoluten Schwellen, für die die o. g. 20 Hz ein gutes Beispiel sind. Frequenzen unterhalb der Schwelle von 20 Hz sind nicht wahrnehmbar, Frequenzen oberhalb dieser Schwelle hingegen schon, wenn auch unter bestimmten Bedingungen (vgl. 3.1 und s.-u.). Absolute Schwellen sind Mindestwerte, die akustische Größen wie etwa die Schwingungsfrequenz für die auditive Wahrnehmung erreichen müssen. Andererseits stehen auch die Wertebereiche akustischer Größen im Fokus, bei denen wir auditiv einen Unterschied wahrnehmen. Hier spricht man von Unterschieds‐ schwellen (Engl. just noticeable differences). Eine weitere Frage, die im Rahmen der Psychoakustik beantwortet werden kann, wäre also die nach den Unterschiedsschwel‐ len innerhalb des für uns wahrnehmbaren Frequenzbereichs. 292 8 Sprachperzeption <?page no="294"?> 58 Klatt (1976) geht bei Sprachlauten von einer Unterschiedsschwelle von ca. 25-ms aus. Die Psychoakustik beschäftigt sich speziell mit dem mathematischen Zusammen‐ hang zwischen einer objektiven, quantitativ messbaren akustischen Größe wie der Frequenz und deren subjektiver Wahrnehmung, d. h. der Empfindungsgröße, wie etwa dem Zusammenhang zwischen Schallintensität und Lautheitsempfindung oder zwischen der beispielsweise im Oszillogramm messbaren Signaldauer und der subjektiv wahrgenommenen Dauer. Der Zusammenhang zwischen der objektiven und der subjektiven Wahrnehmungs‐ größe ist dabei nicht immer linear, dafür aber empirisch ermittelbar. Der empirische Zusammenhang besteht darin, dass es einen verlässlichen Wertebereich gibt, der sich bei wiederholter Beurteilung durch eine große Stichprobe aus der Gesamtheit der Hörer: innen eingrenzen lässt und der für bestimmte Kategorien entscheidend ist. Ein Beispiel: Das / a/ in Stadt unterscheidet sich grundsätzlich in der objektiven Signaldauer, sei es in der zweimaligen Wiederholung desselben Wortes (z. B. 60 ms vs. 80 ms) als auch im Vergleich zum / aː/ im Wort Staat, wo die Dauer vielleicht 200 ms beträgt (vgl. Abb. 59). Ein deutlicher Unterschied zwischen den Signaldauern der Vokale in Stadt und Staat führt zu einer verlässlichen auditiven Unterscheidung der beiden orthographisch durch ⟨a⟩ repräsentierten Phoneme. Die auditive Wahrneh‐ mung akustisch messbarer Dauerunterschiede innerhalb derselben Lautkategorie - die geringer ausfallen können - hängt zunächst von der Unterschiedsschwelle ab. Ein Dauerunterschied wird erst hörbar, wenn ein bestimmter Wert an Millisekunden überschritten wird. 58 Die auditive Wahrnehmung von Dauerunterschieden oberhalb der Unterschiedsschwelle wiederum ist per definitionem subjektiv und kann etwa in dura, einer Maßeinheit für die subjektive Dauer, gemessen werden. Bei akustischen Schallereignissen (NB: keine Sprachlaute) ab einer Dauer von 100 ms stimmen Ände‐ rungen in der akustischen Dauer mit Änderungen in der subjektiv wahrgenommenen Daueränderung gut überein, bei Dauerwerten unter 100 ms hingegen nicht, wobei die subjektive Dauer weniger abnimmt als die objektive (vgl. Fastl & Zwicker 2007: 265-267). 8.2 Psychoakustik 293 <?page no="295"?> Abb. 73: Frequenz- und schalldruckabhängiges Hörfeld begrenzt durch die Hörschwelle nach unten (durchgängige Linie, threshold in quiet) und die Schmerzgrenze nach oben (gestrichelte Linie, thres‐ hold of pain; aus Fastl & Zwicker 2007: 17). Einen nicht linearen Zusammenhang zwischen objektiv messbarer akustischer Größe und der dazugehörigen subjektiven Empfindungsgröße beobachten wir auch bei der Beurteilung des Schalldruckpegels. Betrachten wir hierfür nun etwas detaillierter das in 3.1 nur am Rande erwähnte und in Abb. 73 dargestellte Hörfeld. Die zwei Dimensionen des Hörfeldes sind die Frequenz (Hz) und der Schalldruckpegel (dB). Ob man einen Schall auditiv wahrnimmt, hängt nicht nur von dessen Frequenz, sondern auch von dessen Schalldruckpegel (Engl. SPL = sound pressure level, vgl. 3.1.2.2) ab. Ein Ton mit einer Frequenz von 20 Hz ist nur dann wahrnehmbar, wenn der Schalldruckpegel bei 70 dB liegt. Auch die höchsten für uns noch hörbaren Frequenzen sind nur bei einem recht hohen Schalldruckpegel von etwas unter 70 dB auditiv wahrnehmbar. Sprachrelevante Frequenzen im Bereich von 70 Hz bis etwa 11 kHz hingegen sind auch bei einem sehr viel niedrigerem Schalldruckpegelbereich zwischen grob 20 dB und −5 dB hörbar. Die in Abb. 73 deutliche Senke im Bereich von 2-5 kHz steht in direktem Zusammenhang mit der Resonanzfrequenz des äußeren Gehörgangs, der in diesem Frequenzbereich eingehenden Schall verstärkt (vgl. 8.1.1). So wie die Reizemp‐ findlichkeit für Hörer: innen, die häufig lauter Musik ausgesetzt sind, im Bereich von 2,5-10 kHz und maximal 30 dB vermindert ist (s. die veränderte, durch eine gepunktete Linie markiert Hörschwelle in Abb. 73), so nimmt die auditive Wahrnehmung hoher Frequenzen auch mit zunehmendem Alter ab (Fastl & Zwicker 2007: 21 f.). Neben den 294 8 Sprachperzeption <?page no="296"?> 59 Die psychoakustische Einheit Phon ist nicht zu verwechseln mit dem in der Phonetik und Phonologie verbreiteten Phon-Konzept, wonach Phone konkrete Realisierungen von Phonemen sind (vgl. 1.2.1). Abb. 74: Kurven gleicher Lautstärke (Phon) und Lautheit (Sone; aus Fastl & Zwicker 2007: 204). absoluten Schwellen zum Infra- (< 20 Hz) und Ultraschall (> 20 kHz) wird das Hörfeld also durch zwei weitere Schwellen begrenzt: • die Hörschwelle (Engl. threshold in quiet): frequenzabhängiger minimaler Schall‐ druckpegel, der notwendig ist, um Schall auditiv zu perzipieren; • die Schmerzschwelle (Engl. threshold of pain): frequenzabhängiger maximaler Schalldruckpegel, ab der eine taktile Schmerzempfindung im Gehör ausgelöst wird. Innerhalb dieses Hörfeldes lassen sich nun die psychoakustischen Größen Lautstärke (eigentlich Lautstärkepegel, Engl. loudness level) und Lautheit (Engl. loudness function) bestimmen. Abb. 74 zeigt sowohl die in der Einheit Phon 59 gemessenen Kurven gleicher Lautstärke (Isophonen, Engl. equal-loudness contours) als auch die in der Einheit Sone angegebenen Kurven gleicher Lautheit. Um die wahrgenommenen Lautstärke zu ermitteln, werden Hörer: innen gebeten, einen Zielton auf die gleiche Lautstärke eines 1 kHz Referenzton einzustellen. Ziel- und Referenzton unterscheiden sich dabei in der Frequenz, nicht aber im Schalldruckpegel. Aus diesem Grund entspricht der Phon-Wert einer Isophone immer dem entsprechenden Schalldruckpegel des Referenztons. Da die Hörschwelle für die Wahrnehmung eines 1 kHz-Tons bei einem Schalldruckpegel von 3 dB liegt, weist jeder Messpunkt entlang der Hörschwelle einen Phon-Wert von 3 auf. Die psychoakustische Größe der Lautstärke kann nicht nur für Sinustöne, sondern auch für andere akustische Signaltypen ermittelt werden. Ein Phon-Wert von 20 korrespondiert beispielsweise mit der wahrgenommenen Lautstärke eines Schalldruckpegels, der beim Flüstern entsteht. Jeder Ton entlang einer Isophone wird als gleich laut empfunden. 8.2 Psychoakustik 295 <?page no="297"?> Wie viel lauter oder leiser ein Signal im Verhältnis zu einem anderen ist, wird nicht in Phon, sondern in Sone, der Maßeinheit für Lautheit, gemessen. Auch hier wird ein 1 kHz-Ton mit einem Schalldruckpegel von 40 dB als Referenzton angenommen; dieser entspricht dabei per definitionem einem Wert von 1 Sone (und damit einem Lautstärkewert von 40 Phon). Die Halbierung bzw. die Verdoppelung des Sone-Wer‐ tes korrespondiert nun auch mit einer Halbierung bzw. einer Verdoppelung der empfundenen Lautheit (vgl. Abb. 74). Grundsätzlich gilt dabei für Lautheitswerte oberhalb von 1 Sone, dass eine Verdoppelung der Lautheit mit einer Zunahme von 10 dB einhergeht. Unterhalb von 1 Sone nehmen Hörer: innen Halbierungen bzw. Verdoppelungen in der Lautheit bereits bei Schwellwerten wahr, die teils deutlich unterhalb von 10 dB liegen. Dabei gilt: Je niedriger der Schalldruckpegel, desto kleiner die Schalldruckpegelunterschiede. Abb. 75: Frequenzbereich (schwarze Linie) pro kritischer Frequenzgruppe (Bark) mit unterer (roter Kreis) und oberer (blaues Quadrat) Grenzfrequenz sowie Mittenfrequenz (grünes Dreieck), in der nicht zwischen Frequenzen unterschieden wird (zugrunde liegende Frequenzwerte aus Fastl & Zwicker 2007: 160). Ein solch logarithmischer Zusammenhang zwischen einer objektiv messbaren Größe einerseits und einer psychoakustischen Größe andererseits besteht auch zwischen den Empfindungsgrößen Tonhöhe oder Tonheit und der physikalischen Größe der Frequenz (s. Abb. 75). Für die auditive Wahrnehmung von Tonhöhe und Tonheit gibt es verschiedene Skalen, darunter die aus der Musik bekannte Oktav-Skala und die in Abb. 75 gezeigte Bark-Skala, die besonders für die Skalierung spektral komplexer Töne geeignet ist, wie sie in der gesprochenen Sprache vorkommen. Mittels der 296 8 Sprachperzeption <?page no="298"?> Bark-Skala kann der gesamte für Menschen auditiv wahrnehmbare Frequenzbereich in 24 (kritische) Frequenzgruppen (Engl. critical bands) untergliedert werden, wobei jede Gruppe durch eine untere und eine obere Grenzfrequenz bestimmt ist und eine Mittenfrequenz aufweist (Zwicker 1961). Die Bandbreiten der Frequenzbereiche nehmen dabei von der niedrigsten zur höchsten Frequenzgruppe zu. Psychoakustische Untersuchungen haben gezeigt, dass simultan auftretende Frequenzen nur dann auditiv unterschieden werden können, wenn sie unterschiedlichen Frequenzgruppen angehören. Die schmaleren Frequenzbänder der niedrigeren Frequenzgruppen in Abb. 75 zeigen an, dass das menschliche Gehör Tonhöhen im niederfrequenten Bereich besser unterscheiden kann als im hochfrequenten Bereich. Zudem lassen sich die Frequenzgruppen und mit ihnen beispielsweise deren Mittenfrequenzen in gleichen Abständen entlang der Basilarmembran anordnen, was wiederum die logarithmische Skalierung der Frequenzverarbeitung auf der Basilarmembran widerspiegelt: Entlang einer langen Strecke von der Basis bis zum Apex werden Frequenzen unterhalb von 7 kHz verarbeitet und nur in einem kurzen Bereich in der Nähe der Basis Frequenzen oberhalb von 7-kHz (s. Abb. 76). Abb. 76: Verortung der Frequenzverarbeitung entlang der Basilarmembran unter Bezugnahme un‐ gerader Frequenzgruppen. Jeweils oberhalb der Pfeile sind die entsprechenden Mittenfrequenzen angegeben. Diese und andere psychoakustischen Erkenntnisse beruhen auf Experimenten mit nichtsprachlichen Stimuli. Dennoch hatte die Psychoakustik einen großen Einfluss auf die phonetisch-phonologische Forschung. Zum einen gilt es auch in der Beschrei‐ bung sprachlicher Stimuli sorgfältig zwischen akustischen Messgrößen einerseits und Empfindungsgrößen andererseits zu trennen. Dies wird besonders deutlich, wenn wir in Kapitel 9 u. a. die subjektive Wahrnehmung der Grundfrequenz behandeln. Zum anderen stammen einige der Methoden, mit denen auch die auditive Wahrnehmung von Sprachlauten untersucht wird, aus der Psychoakustik. Zu den klassischen Metho‐ den der Psychoakustik zählen beispielsweise • das Herstellungsverfahren, mit dem absolute Schwellen mittels Einpegeln bestimmt werden, • das Konstanzverfahren, bei dem Hörer: innen einen Stimulus mit mindestens einem anderen Stimulus vergleichen müssen. 8.2 Psychoakustik 297 <?page no="299"?> Letzteres ist nicht nur für die Schätzung von Empfindungsgrößen oder die Bestimmung von Unterschiedsschwellen, sondern auch für die Ermittlung phonologischer Katego‐ rien geeignet - wie wir in 8.3.1 sehen werden. Die Bark-Skala wiederum spielt eine wichtige Rolle in der Vokalwahrnehmung (s. 8.3.2). 8.3 Auditive Sprachwahrnehmung In der Überschrift dieses Unterkapitels wird die Domäne der Sprachwahrnehmung des‐ halb so explizit beschrieben, da Sprache auch visuell wahrnehmbar ist. Ein offensicht‐ liches Beispiel für visuelle Sprachwahrnehmung ist die Zeichensprache. Aber selbst in der Wahrnehmung gesprochener Sprache, dekodieren wir als Hörer: innen das akusti‐ sche Sprachsignal nicht nur auditiv, sondern ziehen auch über die visuelle Wahrneh‐ mung Rückschlüsse über die zugrundeliegende Artikulation. So werden im Deutschen die hohen Vorderzungenvokale [iː] und [yː] oft nicht nur akustisch unterschieden, sondern auch durch die sichtbare Absenz bzw. Präsenz von Lippenrundung in [iː] und [yː]. Die Integration der visuellen Wahrnehmung in die sogenannte audiovisuelle Wahrnehmung unterstützt uns in der alltäglichen ungestörten Sprachverarbeitung und die Rolle der visuellen Wahrnehmung sollte dabei nicht unterschätzt werden (s. unten Exkurs ‚McGurk-Effekt‘). Der Wegfall auditiv wahrnehmbarer akustischer Reize wiegt jedoch ungleich schwerer als der Wegfall visuell wahrnehmbarer Reize. Anders ausgedrückt: Sieht man eine: n Sprecher: in sprechen, hört ihn oder sie aber nicht, so ist die erfolgreiche Dekodierung des Gesagten unwahrscheinlicher als wenn man eine: n Sprecher: in hört, ihn oder sie aber nicht sieht. Der Fokus liegt daher in diesem Abschnitt auf der auditiven Wahrnehmung. Dabei wird nicht nur die Beziehung zur Akustik thematisiert (s. 8.3.2, 8.3.3.2), sondern auch die Beziehung zur Artikulation (s. 8.3.3.1). McGurk-Effekt Sieht man eine: n Sprecher: in einen Sprachlaut produzieren, hört aber das akusti‐ sche Signal eines anderen Sprachlautes, der synchron abgespielt wird, so nimmt man mitunter einen Sprachlaut wahr, der weder mit dem gesehenen noch mit dem gehörten Signal übereinstimmt. Ein Beispiel: Sehen Hörer: innen wie Spre‐ cher: innen einen gerundeten Hinterzungenvokal [uː] produzieren, hören aber synchron akustische Signale von Realisierungen des ungerundeten Vorderzun‐ genvokals [iː] derselben Sprecher: innen, so nehmen die Hörer: innen sehr häufig den gerundeten Vorderzungenvokal [yː] wahr (Harrington et al. 2011). Dieser nach Harry McGurk benannte Effekt wurde von McGurk und MacDonald (1976) zunächst für bestimmte Plosiv-Kombinationen beschrieben: Eine Kombination aus visuell sichtbarem [ɡa] und gleichzeitig akustisch dargebotenem [ba] führt zur überwiegenden Wahrnehmung von [da]. Sieht man hingegen ein [ba] und hört ein [ɡa], so nimmt man - aufgrund des eindeutigen Lippenverschlusses 298 8 Sprachperzeption <?page no="300"?> 60 Hier soll nicht impliziert werden, dass in der Untersuchung der Sprachproduktion aufgrund des leichteren Zugangs zum Ansatzrohr bereits alles geklärt sei. Die Komplexität insbesondere der Koordination artikulatorischer Gesten sowie der Einfluss der Perzeption auf die Produktion bergen weiterhin viele offene und ungeklärte Fragen. - kein [da] wahr. Bei Sprachlauten wie den o. g. Vokalen wiederum ist es hörerabhängig, ob ein dritter Sprachlaut wahrgenommen wird oder nicht. Manche Hörer: innen werden eher vom akustisch wahrnehmbaren Signal geleitet, andere vom visuell wahrnehmbaren Reiz einer sichtbaren artikulatorischen Geste wie der Lippenrundung (Traunmüller & Öhrström 2007). Auch wenn die Ergebnisse solcher Quersynchronisierung (Engl. cross-dubbing) von weiteren Faktoren wie Sprache oder Geschlecht abhängen, so verdeutlichen sie doch, dass visuelle Reize bei der Sprachwahrnehmung integriert werden (vgl. Rosenblum 2019). In der Regel beruht die Sprachwahrnehmung dabei natürlich auf visuell und auditiv zusammengehörigen Signalen. Bei synchronisierten Filmen hingegen können Diskrepanzen zwischen der sichtbaren Originalsprache und der akustisch darübergelegten Fremdsprache durchaus auffallen. Der Beginn der Erforschung der auditiven Sprachwahrnehmung ist eng mit der Ent‐ wicklung entsprechender akustischer Messgeräte wie dem Sonagraphen, des Telefons und der Sprachsynthese verknüpft, die wiederum ohne die psychoakustische For‐ schung nicht denkbar wäre. Während die Ohrenphonetik von Beginn der Phonetik an als Methode zur (größtenteils artikulatorischen) Beschreibung von Sprachlauten ge‐ nutzt wurde, entwickelte sich der Forschungsbereich der auditiven Sprachwahrneh‐ mung verhältnismäßig spät (vgl. 1.1.3 und Onlinekapitel ‚Wissenschaftsgeschichte‘). Ein Grund hierfür ist, dass das Gehör im Gegensatz zum Ansatzrohr von Sprecher: innen für Untersuchungen kaum zugänglich ist, weder durch Introspektion noch durch ext‐ rinsische Methoden (s. Onlinekapitel ‚Artikulatorisch-sprechphysiologische Signal‐ phonetik‘). Selbst wenn es dies wäre, könnten wir das Schwingen der Basilarmembran nicht ohne die elektrische Energieweiterleitung an das Gehirn sowie die Sprachverar‐ beitung im Gehirn - sowohl neuronal als auch kognitiv - verstehen. 60 Die Untersu‐ chung der auditiven Wahrnehmung erfolgt daher bis heute oft indirekt (s. aber Schar‐ inger 2016) und unter Berücksichtigung akustischer, sprachtechnologischer und psychologischer Methoden und Kriterien: • Indirekt, da Hörer: innen um eine Beurteilung hinsichtlich dargebotener Stimuli gebeten werden (s. aber Exkurs ‚Psycholinguistik‘). • Sprachtechnologisch, da zur Untersuchung der Rolle einzelner akustischer Eigenschaften für die auditive Wahrnehmung, Stimuli in Form akustischer Signale entweder künstlich erzeugt werden (Synthese, s. 8.3.1) oder bestimmte akustische Eigenschaften in natürlichen Aufnahmen gezielt verändert und anschließend resynthetisiert werden. 8.3 Auditive Sprachwahrnehmung 299 <?page no="301"?> • Psychologisch, da das Antwortverhalten im Kontext allgemeiner Wahrneh‐ mungstheorien interpretiert werden muss. Dies soll zunächst an einer älteren, aber bahnbrechenden Studie dargelegt werden. Diese umfasst zwei Experimente, die gezeigt haben, dass wir zwischen bestimmten akustischen Schalleigenschaften nicht, zwischen anderen jedoch durchaus unterscheiden können. Dies schließt an die in 8.2 beschriebenen Beobachtungen zu den Frequenzgruppen an, bezieht sich nun allerdings explizit auf die auditive Wahrnehmung bestimmter Sprachlaute und ist als kategoriale Sprachwahrnehmung bekannt geworden. 8.3.1 Kategoriale Sprachwahrnehmung Die mit der Entwicklung des Sonagraphen ermöglichte dreidimensionale Darstellung akustischer Schalleigenschaften führte u. a. zur Idee, visualisierte Sprache breiter anzuwenden (Potter et al. 1966). Neben der Idee, tauben Menschen das Lesen von Sonagrammen zu lehren, gab es auch ein großes Interesse daran, Texte in akustische Signale umzuwandeln (Text-to-Speech-Synthese). Um dies zu ermöglich, musste aber verstanden werden, welcher Natur die Signale sein müssen, damit wir diese als Hörer auch als die richtigen Sprachlaute identifizieren können. Genauer: Welche akustischen Merkmale muss ein Signal zwingend enthalten, um einem bestimmten Sprachlaut zugeordnet werden zu können? Abb. 77: Schematische Darstellung der F1- und F2-Verläufe (in CPS = Hz; vgl. 3.1.1) in den 14 in Liberman et al. (1957) getesteten Stimuli, die jeweils einer Plosiv+Vokal-Sequenz entsprechen. Die Dauer der über die Zeit gleichbleibenden Formantfrequenzabschnitte betrug jeweils 300-ms, wie hier exemplarisch anhand von Stimulus 14 gezeigt (aus Liberman et al. 1957: 359). 300 8 Sprachperzeption <?page no="302"?> Im Fokus dieser frühen Experimente stand die Frage nach der perzeptiven Unter‐ scheidung der Artikulationsstellen bei Plosiven. Wie wir in 4.5 gesehen haben, ist eines der wichtigsten akustischen Unterschiede zwischen labialen, alveolaren und velaren Plosiven die Formanttransition in einem angrenzen Laut, egal ob vor oder nach dem Plosiv. Naturgemäß sind die Transitionen besonders in Vokalen mit ihren deutlichen Formantstrukturen und - im Falle von Plosiv-Vokal-Sequenzen - bei nicht aspirierten Plosiven zu erkennen. Mithilfe des sogenannten Pattern Playback Synthese-Verfahrens wurden daher Stimuli der Form Plosiv+Vokal synthetisiert, wobei der Plosiv grundsätzlich einem nicht aspirierten Plosiv und der Vokal einem [e] wie in gate entsprach. Bei diesem Synthese-Verfahren werden - sehr verkürzt dargestellt - Formantfrequenzen mit einer lichtreflektierenden Farbe abgebildet, sodass diese dann fotovoltaisch in ein akustisches Signal umgewandelt werden können. Für die Synthese des Vokals wurden gleichbleibende statische Formantfrequenzen gewählt, die alle in einem für diesen Vokal typischen Frequenzbereichen des Spektrums lagen (F1 = 360 Hz, F2 = 2160 Hz). Nur zu Beginn der Formantfrequenz wurde ein dynamischer Verlauf stilisiert, der die Transition vom vorangehenden Plosiv zum Vokal markiert. Die einzelnen Stimuli unterschieden sich nur im Verlauf der F2-Transition, und zwar so, dass einerseits die bereits bekannten Transitionsmuster der Plosive / b, d, ɡ/ widergespiegelt werden und andererseits alle Stimuli entlang eines akustischen Kontinuums von einer stark steigenden (Stimulus 1) zu einer stark fallenden F2-Transi‐ tion (Stimulus 14) angeordnet sind (nachfolgend als S 1 , S 2 , … S 14 abgekürzt); alle anderen akustischen Reizeigenschaften wurden in S 1 - S 14 konstant gehalten. Die Verläufe der Formantfrequenzen F1 und F2 zeigt Abb. 77. Diese Stimuli wurden Probanden in unterschiedlicher Weise und verknüpft mit unterschiedlichen Fragen präsentiert. In einem im Kontext der kategorialen Sprach‐ wahrnehmung als Diskriminationstest bezeichneten Konstanzverfahren hörten die Probanden Stimulus-Tripletts (vgl. 8.2), wobei sich die Stimuli an erster (A) und zweiter (B) Position jeweils durch eine, zwei oder drei Stimulus-Schrittbreiten (SB) unterschieden und der Stimulus an dritter Position (X) entweder mit dem A-Stimulus an erster Position oder mit dem B-Stimulus an zweiter Position identisch war (also bei SB = 1 z. B. S 2 -S 3 -S 3 ; bei SB = 2 z. B. S 2 -S 4 -S 2 ; bei SB = 3 z. B. S 2 -S 5 -S 2 ). A- und B-Stimuli waren entweder aufsteigend (z. B. S 2 -S 3 -S 3 ) oder absteigend (z. B. S 3 -S 2 -S 3 ) angeordnet. Die Probanden sollten nach jedem Triplett entscheiden, ob der zuletzt präsentierte X-Stimulus wie der A- oder wie der B-Stimulus klang. Eine zugrunde liegende Frage war, ob Hörer jeden Stimulus korrekt zuordnen können. Wäre dies der Fall, so bedeutete dies, dass jeder noch so kleine akustische Unterschied zwischen den F2-Transitionen zweier Stimuli auditiv wahrnehmbar und wiedererkennbar ist. In einem Identifikationstest hörten die Probanden die Stimuli einzeln und muss‐ ten sie u.-a. in einer sogenannten alternative forced choice-Aufgabe den Graphemen ⟨b, d, g⟩ zuordnen. Die Ergebnisse eines Probanden aus dem Identifikationstest mit genau dieser Aufgabenstellung und die Diskriminationstest-Ergebnisse desselben Probanden für die Tripletts mit einer Schrittbreite zeigt Abb. 78. Die unterschiedlich 8.3 Auditive Sprachwahrnehmung 301 <?page no="303"?> gestrichelten Linien in der linken Graphik zeigen, dass S 1 -S 3 als ⟨b⟩, S 5 -S 8 als ⟨d⟩ und S 11 -S 14 als ⟨g⟩ identifiziert wurden. Dies hat recht abrupte Änderungen in der Kurve zur Folge, die sich aus der graphischen Verbindung der abgetragenen Anteile einer bestimmten Antwort ergibt und nachfolgend als Antwortkurve bezeichnet wird. Nur bei S 4 sowie S 9 und S 10 gab es mehr Unsicherheit in der Identifikation wie anhand der etwas unter 80 % liegenden ⟨d⟩bzw. ⟨g⟩-Antworten zu erkennen ist. Da es bei diesen Stimuli aber immer nur zu Verwechslungen mit einer Alternative und nie zusätzlich mit der dritten Antwortmöglichkeit gab, schlussfolgerte man, dass das akustische Kontinuum in recht eindeutig voneinander abgegrenzte Kategorien unterteilt wird, und dass es nur an den Kategoriegrenzen zu Unsicherheiten kommen kann. Ein nicht eindeutig identifizierbarer Stimulus wird demnach bei wiederholter Präsentation nicht nur einer, sondern mitunter auch der angrenzenden Kategorie zugeordnet. Liegt dabei die Zuordnung zu einer der beiden Kategorien oberhalb des Zufallsniveaus, kann man diesen Stimulus dieser Kategorie als nicht prototypisches Exemplar zuordnen. Abb. 78: Antwortkurven zur Identifikation der Plosive ⟨b, d, g⟩ als Funktion der F2-Transition (links) sowie zur tatsächlichen und vorhergesagten Diskrimination von zwei Schrittbreiten auseinanderliegenden Stimuli (rechts) von einem Probanden (aus Liberman et al. 1957: 361). Die ungefüllten Kreise im rechten Graphen von Abb. 78 markieren die korrekte Unterscheidung zwischen zwei Schrittbreiten auseinanderliegenden Stimuli, wobei der Punkt auf der x-Achse dem A-Stimulus entspricht und weswegen es nur noch 12 Datenpunkte entlang dieser Achse gibt. Der Proband hat also beispielsweise den X-Stimulus in den ABX-Tripletts (1) S 3 -S 5 -S 5 bzw. (2) S 3 -S 5 -S 3 immer korrekt dem B- (1) bzw. dem A-Stimulus (2) zugeordnet, weshalb dies zu dem auf der x-Achse bei Stimulus A = 3 vermerkten Wert von 100 % geführt hat. Schaut man sich den Verlauf der Antwortkurve für die A-Stimuli mit den Nummern 1-9 an, wird sehr deutlich, dass der Anteil korrekt zugeordneter Stimuli höher ist, wenn Stimulus A und B, laut Identifikationstest, zwei unterschiedlichen Sprachlautkategorien zugeordnet werden 302 8 Sprachperzeption <?page no="304"?> können. Wurden sie hingegen in der Identifikation demselben Sprachlaut zugeordnet, lässt sich der X-Stimulus nur auf Zufallsniveau korrekt zuordnen; der Proband hat geraten. Die Maximalwerte korrekter Diskrimination werden also an der Stelle des Kontinuums erreicht, wo die Identifikationswerte auf Zufallsniveau liegen. Aufgrund dieses Zusammenhangs sollte die Diskrimination anhand der Identifikationsergebnisse mathematisch vorhersagbar sein. In der Tat liegen die gefüllten Punkte und mit einer gestrichelten Linie verbundene, aus den Identifikationsergebnissen abgeleitete Antwortkurve recht nah an der Kurve, die das tatsächliche Antwortverhalten des Probanden abbildet, wenn auch die Werte etwas niedriger ausfallen. Dieser Unterschied macht deutlich, dass die tatsächliche Diskriminationsperformanz des Probanden besser war, als aufgrund der Identifikation vorhersagbar war. Dies wird noch deutlicher, wenn wir uns nun auch die Ergebnisse der bislang ignorierten Stimulus-Tripletts anschauen, also den Tripletts bei denen der A-Stimulus entweder S 10 , S 11 oder S 12 war. Bei diesen Stimulus-Tripletts stellt die korrekte Zuordnung keine Schwierigkeit dar, obwohl beispielsweise die Stimuli des Tripletts S 12 -S 14 -S 12 in der Identifikation eindeutig nur einer Kategorie zugeordnet wurden. Kategoriale Sprachwahrnehmung beschreibt die auditive Untergliederung eines akustischen Kontinuums in einige wenige, gut voneinander auditiv unterscheid‐ bare sowie identifizierbare Sprachlautkategorien. Die Zahl der Kategorien ist immer kleiner als die Bestandteile des Kontinuums. Die Ergebnisse dieses Experimentes waren weitreichend, insbesondere für Sprachper‐ zeptionstheorien, wenn auch nicht unumstritten. Allein die Tatsache, dass ein Großteil der Erkenntnisse anhand des Antwortverhaltens eines Probanden gewonnen bzw. exemplarisch hervorgehoben wurden, lässt zunächst keine Generalisierungen zu. Die Ergebnisse sind zudem von verschiedenen Faktoren abhängig (Repp 1984), wie z.B. • einem vorherigen Training, indem Hörer: innen Rückmeldung zum Antwortver‐ halten bekommen, • der Dauer der Stimuli, • der Stimulus-Schrittbreite, • dem Hörer: innentyp (spektrale vs. temporale Hörer: innen). Auch unser muttersprachliches Wissen kann einen Einfluss auf die Platzierung einer Kategoriegrenze haben, wie im Exkurs zum Ganong-Effekt (s. S. 304f.) näher beschrie‐ ben ist. Dennoch wurden mithilfe dieses experimentellen Paradigmas zur kategoria‐ len Sprachwahrnehmung, das einen Diskriminations- und einen Identifikationstest umfasst, viele akustische Merkmale auf ihre Relevanz für die auditive Sprachwahrneh‐ mung hin getestet. Komparative Analysen haben zudem gezeigt, dass die Positionen von Kategoriegrenzen entlang akustischer Kontinua sprach- und kontextabhängig sind (s. Beispiele in 8.3.2.1 und 8.3.2.3). Akustische Kontinua werden dabei nicht 8.3 Auditive Sprachwahrnehmung 303 <?page no="305"?> immer, aber häufig in eindeutige Kategorien untergliedert. Um von kategorialer Sprachwahrnehmung im ursprünglichen Sinn sprechen zu können, müssen folgende vier Bedingungen erfüllt sein (s. Strange 1998: 172-174): 1. abrupte Übergänge zwischen Kategoriengrenzen in der Identifikation, 2. gute Diskriminationsperformanz über Kategoriengrenzen hinweg, 3. schlechte Diskriminationsperformanz innerhalb von Kategoriengrenzen, 4. Vorhersagbarkeit der Diskriminationsperformanz anhand der Antwortkurve zum Identifikationstest. Neben dem eingangs vorgestellten Beispiel zur Kategorisierung der Artikulationsstelle von Plosiven anhand der F2-Transition werden diese vier Bedingungen u. a. auch erfüllt, wenn stimmhafte und stimmlose Plosive anhand des akustischen Merkmals VOT kategorisiert werden. Häufig werden aber auch nur die ersten beiden Bedingun‐ gen erfüllt, z. B. wenn die phonologische Stimmhaftigkeit von Plosiven anhand der Verschlussdauer bestimmt werden soll. In diesen Fällen spricht man vom Phonem‐ grenzen-Effekt (Engl. phoneme boundary effect). Bei akustischen Merkmalen, die Vokaloppositionen signalisieren, wie Vokaldauer und Formantfrequenzen, ist darüber hinaus auch kontinuierliche Wahrnehmung zu beobachten. Bei dieser Form der auditiven Wahrnehmung bilden sich keine abrupten Übergänge entlang eines akustischen Kontinuums heraus; stattdessen nimmt der An‐ teil der alternativen Sprachlautkategorie kontinuierlich von Stimulus zu Stimulus zu. Die Diskriminationsperformanz ist dementsprechend für alle Stimuluspaare gleichblei‐ bend. Die kontinuierliche Wahrnehmung bestimmter akustischer Merkmale bedeutet dabei nicht, dass diese Merkmale nicht für die Kodierung phonologischer Oppositionen geeignet seien. Lang- und Kurzvokale werden akustisch mittels unterschiedlicher Segmentdauern unterschieden und Hörer: innen nutzen den akustischen Reiz der Vokaldauer, um Lang- und Kurzvokale zu kategorisieren (vgl. 8.2). Feine Unterschiede in der Vokalquantität (wie auch -qualität) werden aber eher wahrgenommen als es z. B. bei VOT-Unterschieden der Fall ist. Ganong-Effekt Korrespondiert nur ein Endpunkt eines akustischen Kontinuums mit einem existierenden Wort in einer Sprache, der andere aber nicht, so werden die nicht eindeutig zuzuordnenden Stimuli aus der Mitte des Kontinuums eher der Lautkategorie zugeordnet, mit der ein existierendes Wort abgebildet wird. Dieser nach William F. Ganong benannte Effekt ist sehr robust. Ganong (1980) hatte anhand mehrerer VOT-Kontinua mit konstanten VOT-Werten und Stimulus-Schrittbreiten gezeigt, dass ein ambiger VOT-Wert in einem [tæsk]-[tʰæsk]-Kontinuum bei Hörer: innen mit amerikanischem Englisch als Erstsprache zu einem / t/ -Perzept führt, wobei task im Englischen als Wort vorkommt, nicht aber *dask. In einem [tæʃ]-[tʰæʃ]-Kontinuum ruft derselbe 304 8 Sprachperzeption <?page no="306"?> VOT-Wert bei denselben Hörer: innen hingegen ein / d/ -Perzept hervor, wobei nun dash im Gegensatz zu *tash als Wort im Englischen existiert (zu VOT vgl. 4.2.1.2). Diese Ergebnisse zeigen, dass auditive Sprachwahrnehmung nicht al‐ lein von der Präsenz bzw. Absenz akustischer Informationen abhängt, sondern auch von lexikalischem Wissen. 8.3.2 Perzeptive Gewichtung akustischer Reize Die im Rahmen des in 8.3.1 vorgestellten Paradigmas der Kategorialen Sprachwahr‐ nehmung durchgeführten Experimente haben gezeigt, dass Hörer: innen Phoneme auf der Grundlage nur eines akustischen Reizes identifizieren können. In der sprachlichen Realität unterscheiden sich Sprachlaute bzw. Sprachlautsequenzen wie [be], [de] und [ge] aber nicht nur im Verlauf der F2-Transition, sondern auch in anderen akustischen Merkmalen wie z. B. den spektralen Eigenschaften einer Verschlusslösung (vgl. 4.2.1.1). Vor diesem Hintergrund stellt sich also die Frage, wie Hörer: innen mit mehreren akustischen Hinweisen auf eine bestimmte Lautkategorie umgehen. Darüber hinaus wurde im Exkurs zum Ganong-Effekt bereits darauf verwiesen, dass neben den akustischen Informationen auch Faktoren wie muttersprachliches lexikalisches Wissen, einen Einfluss auf die auditive Sprachwahrnehmung haben. Dieser Abschnitt behandelt daher weitere Formen der Filterung akustischer Informationen sowie die Verarbeitung mehrerer akustischer Merkmale in der Sprachwahrnehmung. - 8.3.2.1 Trading Relations In 4.2.1.2 wurde neben der Aspiration (bzw. VOT) auch die Verschlussdauer als se‐ kundäres, akustisch messbares Merkmal der Stimmhaftigkeitsopposition bei Plosiven genannt, wobei stimmlose Plosive durch eine längere Aspirationsphase und eine längere Verschlussdauer charakterisiert sind. Insbesondere in einer hyperartikulierten Aussprache ist es denkbar, dass beide artikulatorischen Merkmale für einen deutlichen stimmlosen Plosiv gelängt werden, sodass Hörer: innen ein Merkmal oder beide Merk‐ male nutzen können, um einen stimmlosen Plosiv zu identifizieren (zu Hyper- und Hypoartikulation vgl. 7.1, zu deren Relevanz in der Sprachwahrnehmung s. 8.3.3.2). In einer eher hypoartikulierten Aussprache können einzelne akustische Merkmale jedoch weniger eindeutig ausfallen und im Falle der stimmlosen Plosive mit einer Kürzung der Aspirationsund/ oder Verschlussdauer einhergehen. Fällt die Eindeutigkeit eines akustischen Merkmals weg, so kann dies durch die Präsenz eines anderen eindeutigen Merkmals kompensiert werden, vorausgesetzt es besteht ein reziprokes Verhältnisses zwischen den beiden akustischen Merkmalen, eine sogenannte phonetic trading relation (Repp 1982). 8.3 Auditive Sprachwahrnehmung 305 <?page no="307"?> Phonetic trading relations beschreiben reziproke Verhältnisse zwischen akus‐ tischen Merkmalen. Nutzt eine Sprache diese Verhältnisse in der Perzeption gesprochener Sprache, so kann eine phonologische Kategorie allein anhand der eindeutigen Ausprägung nur eines Merkmals identifiziert werden. Die Existenz solcher trading relations in der Sprachperzeption konnte für verschiedene Kombinationen akustischer Merkmale anhand akustischer Kontinua und Identifikati‐ onsaufgaben gezeigt werden. So nehmen etwa Hörer: innen des Deutschen auch bei einer vergleichsweise kurzen Aspirationsphase ein / t/ anstelle eines / d/ wahr, wenn die Verschlussphase eine längere Dauer aufweist, die eher für einen Fortisplosiv typisch ist als für einen Lenisplosiv ( Jessen 1998). Die längere Verschlussphase gleicht in diesem Fall eine für ein / t/ ungewöhnlich kurze Aspirationsphase aus wie auch die Daten aus Kleber (2018) in Abb. 79 zeigen. Dargestellt ist hier der Anteil der leiten-Antworten von 12 jüngeren Hörer: innen aus Bayern, denen in einem Perzeptionstest Stimuli entlang eines Aspirations-Kontinuums präsentiert worden sind, mit der Aufgabe entweder leiden oder leiten zu identifizieren. Die sieben Stimuli entlang des Kontinuums variierten allein in der Dauer der Aspirationsphase: Ausgehend von einer 14 ms langen Aspirationsphase in Stimulus 1 nahm diese schrittweise um je 7 ms zu bis zu einer Aspirationsphase von 56 ms in Stimulus 7. Alle sieben Stimuli wurden unter zwei Bedingungen präsentiert: In einer Bedingung wies die der Aspiration vorangehende Verschlussphase eine Dauer von 100 ms auf, in der anderen eine kürzere Dauer von 70 ms. Dieselben Hörer: innen beurteilen insbesondere Stimulus 3 mit seiner uneindeu‐ tigen Aspirationsdauer von 28 ms sehr unterschiedlich: Im Falle einer kürzeren, für einen Lenisplosiv typischeren Verschlussphase wird mehrheitlich / d/ wahrgenommen, im Falle einer längeren, für einen Fortisplosiv typischeren Verschlussphase / t/ (zur Interpretation der akustischen Dauerwerte vgl. 4.2.1.2, S. 135). Unabhängig von diesem Hinweis auf eine perzeptive trading relation zwischen Aspirations- und Verschluss‐ dauer im Deutschen, sei an dieser Stelle zudem darauf hingewiesen, dass die Unter‐ gliederung des Kontinuums kategorialer ausfällt, wenn die Verschlussphase kürzer ist. Da diese Stimuli jedoch nicht in einem zusätzlichen Diskriminationsexperiment getestet worden sind, lässt sich keine abschließende Beurteilung zur kategorialen Wahrnehmung treffen (vgl. 8.3.1). Phonetic trading relations lassen sich nicht nur in der Sprachperzeption beobachten, sondern können auch in der Sprachproduktion auftreten. Akustische Messungen in Harrington et al. (2012) legen nahe, dass im Standarddeutschen auch in der Produktion eine trading relation zwischen Aspirations- und Verschlussdauer besteht. Die Aspira‐ tionsphase fällt demnach länger aus, je kürzer die Verschlussphase der Sprecher: innen für ein / t/ ist. Aus der Existenz einer trading relation in einer Domäne (z. B. der Per‐ zeption) lässt sich jedoch nicht zwangsläufig die Existenz einer trading relation zwi‐ schen denselben akustischen Merkmalen in der anderen Domäne ableiten. So ist bei‐ spielsweise die prävokalische phonologische Stimmhaftigkeitsopposition in der 306 8 Sprachperzeption <?page no="308"?> Abb. 79: Anteil an leiten-Antworten (%) als Funktion von Stimulusnummer und Verschlussdauer für je 60 Urteile pro Stimulusnummer (12 jüngere Hörer: innen aus Bayern × 5 Wiederholungen pro Stimulusnr.; zugrunde liegende Daten aus Kleber 2018). amerikanischen Standardvarietät des Englischen durch eine perzeptive trading relation zwischen VOT und f0 am Übergang zum Vokal charakterisiert, obwohl es keine Kor‐ relation zwischen den beiden akustischen Parametern (und damit auch keine trading relation) in der Produktion gibt (Shultz et al. 2012). Weshalb die f0 zu Beginn eines Vokals einen Hinweis auf die zugrunde liegende Stimmhaftigkeit des vorangehenden Plosivs liefern kann, wird im Onlinekapitel ‚Mikroprosodie‘ erklärt. - 8.3.2.2 Normalisierung Auch bei der auditiven Vokalidentifikation werden neben den ersten beiden Formantfrequenzen weitere akustische Merkmale integriert. Vergleicht man in Abb. 60 (4.3.2, S. 178) die Platzierung des [a] im links dargestellten akustischen F1 × F2-Raums der Sprecher mit der von [ɐ] im rechts abgebildeten F1 × F2-Raums der Sprecherinnen, so stellt man fest, dass der über 15 von Männern produzierten [a]-Realisierungen gemittelte F1-Wert von 700 Hz näher an dem über 15 von Frauen produzierten [ɐ]-Realisierungen gemittelte F1-Wert von 767 Hz liegt als am Mittelwert für von Männern produzierten [ɐ]-Realisierungen. Basierte die auditive Identifikation des Öffnungsgrades von [a] nur auf dem F1-Wert, wäre es denkbar, dass [a] und [ɐ] 8.3 Auditive Sprachwahrnehmung 307 <?page no="309"?> 61 Die Identifikation des intendierten Wortes hängt in diesem Fall stark von den vorangehenden Wörtern und unserem muttersprachlichen Wissen über die syntaktische Wohlgeformtheit von Sätzen ab und weniger von der Identifikation des zweiten Vokals in Opa bzw. Oper. In der Tat wird im Deutschen gerade die Opposition zwischen diesen beiden Vokalen, [a] vs. [ɐ], von vielen Sprecher: innen neutralisiert (vgl. 7.3.1), wie Daten in Rathcke & Mooshammer (2022) zeigen. aufgrund ihrer ähnlichen F1-Werte verwechselt werden könnten. Dass [a] und [ɐ] dennoch korrekt identifiziert werden können, liegt nicht nur an Faktoren wie dem Kontext (s. Beispiel (62) a. und b.), sondern auch an intrinsischer und extrinsischer Normalisierung, wodurch absolute Werte wie F1 in Bezug zu anderen akustischen Merkmalen wie der f0 gesetzt werden. (62) a. Gruber statt *Gruba - - Kuba statt *Kuber - b. Opa statt Oper in Ich habe ____ besucht. - - Oper statt Opa in Die ____ war gut besucht. Unter intrinsischer Normalisierung versteht man die Nutzung aller in einem Phon enthaltenen akustischen Informationen zur eindeutigen Bestimmung des zugrundeliegenden Phonems (z. B. f0, F1, F2, Dauer etc. zur Identifikation eines Vokals). Bei extrinsischer Normalisierung werden akustische Informationen aus Umgebungslauten als Bezugsrahmen für die Erkennung eines bestimmten Phonems genutzt. Die Identifikation von Vokalen hängt nicht nur von den absoluten Formantfrequenzen ab, sondern auch von akustischen Merkmalen zur Identifikation von Sprecher: innen‐ gruppen. So zeigten Lehiste und Meltzer (1973), dass die Identifikation synthetisch hergestellter Vokale verbessert wird, wenn nicht nur die Formantfrequenzen denen von erwachsenen Männern und Frauen sowie Kindern entsprechen, sondern auch die f0-Werte demgemäß angepasst werden (vgl. 3.2.3). Die Einbindung akustischer Informationen über die Sprecher: innen (Mann vs. Frau vs. Kind anhand von f0) in die auditive Verarbeitung akustischer Informationen zu einer Lautklasse (hoher vs. tiefer Vokal anhand von F1) ist einerseits eine Form intrinsischer Normalisierung, da beide akustischen Merkmale Teil desselben dem Vokal zugrundeliegenden Sprachsignals sind. Andererseits handelt es sich hierbei auch um eine Form der extrinsischen Normalisierung, da sich die f0 auch über angrenzende stimmhafte Laute erstreckt; im Falle der Beispiel-Sätze in (62 b.) können Geschlecht und Alter bereits bei Ich habe bzw. Die anhand der f0 erkannt werden, bevor der zweite Vokal in Opa bzw. Oper identifiziert wird. 61 Vorab verfügbare Informationen zur f0 und den Resonanzfrequenzen dienen 308 8 Sprachperzeption <?page no="310"?> 62 Das Symbol [a] markiert in der Studie den im Englischen vorkommenden offenen Vorderzungenvo‐ kal und keinen offenen, zentralen Vokal wie man ihn aus dem Standarddeutschen kennt. Hörer: innen also auch als Bezugsrahmen, innerhalb dessen dann akustische Informa‐ tionen interpretiert werden. Die extrinsische Normalisierung demonstrierten Ladefoged & Broadbent (1957) anhand des englischen Testsatzes Please say what that word is: bVt., wobei V z. B. einem [ɪ] (F1 = 375 Hz), [ɛ] (F1 = 450 Hz) oder [a] (F1 = 575 Hz) entsprach und die Wörter am Satzende somit den englischen Wörtern bit, bet und bat. 62 Die Wörter am Satzende werden im Folgenden als Zielwörter bezeichnet, auch wenn diese nicht weiter mani‐ puliert wurden. Alle davor vorkommenden Wörter bis zum Doppelpunkt werden im Folgenden als Kontextsatz bezeichnet. Mit Blick auf die Wörter und deren Reihenfolge blieb der Kontextsatz im Experiment unverändert; die Resonanzfrequenzen F1 und F2 wurden hingegen systematisch manipuliert. Gewählt wurde der Kontextsatz nicht nur aus semantischen Gründen, wonach ein beliebiges Wort am Satzende von Bitte sag, welches dieses Wort ist: _____ Sinn ergibt, sondern auch deswegen, weil die F1-Werte unabhängig von nachfolgenden Manipulationen immer von tief im [i] in please bis hoch im [ɐ] in what variierten und die Hörer: innen so einen Eindruck der F1-Variation des Sprechers bekommen konnten. Anhand der folgenden zwei Beispiele aus den Ergebnissen dieser Studie sei gezeigt, inwiefern sich der Prozess der extrinsischen Normalisierung in der auditiven Sprachperzeption niederschlug: • Wurden alle F1-Werte in den Vokalen des Kontextsatzes gleichmäßig synthetisch abgesenkt, so nahmen Hörer: innen beispielsweise das unveränderte Zielwort bit auditiv häufiger als bet wahr, weil der absolute F1-Wert von 375 Hz in bit als zu hoch für ein bit und eher typisch für ein bet gewertet wurde. • Das unveränderte Zielwort bat wiederum wurde bei einer synthetischen Anhebung aller F1-Werte im Kontextsatz häufiger als bet identifiziert, weil in diesem Fall der absolute F1-Wert von 575-Hz in bat als zu tief für ein bat und eher typisch für ein bet gewertet wurde. Beide Beispiele verdeutlichen, dass die Vokalerkennung nicht allein von den absoluten Formantfrequenzwerten abhängt, sondern im Verhältnis zu den Formantfrequenzwer‐ ten des Kontextsatzes bewertet werden, die ein sprecherspezifisches Formantbezugs‐ system bilden. Aber auch die intrinsische Normalisierung spielt eine Rolle bei der Interpretation der Formantfrequenzen. Sogenannte Formantverhältnis-Theorien (Engl. formant ratio theories) messen dabei dem Abstand zwischen den Formantfrequenzen eine wichtige Rolle bei, wobei nun auch die Bark-Skalierung von Bedeutung ist: Studien haben gezeigt, dass der Abstand zwischen zwei benachbarten Formantfrequenzen (F1-F2, F2-F3) bzw. zwischen f0 und F1 größer 3-3,5 Bark betragen muss, um zwei Formanten nicht zu einer effektiven Formantfrequenz auditiv zusammenzufassen (Chistovich & Lublinskaya 1979). 8.3 Auditive Sprachwahrnehmung 309 <?page no="311"?> Liegt die Distanz zwischen zwei Frequenzen unter dem kritischen Wert von 3 Bark (kritische 3-Bark-Distanz), so werden die Frequenzen perzeptiv zur sogenannten effektiven Formantfrequenz zusammengefasst, die sich aus dem Mittelwert der zusammengefassten Formanten ergibt. Syrdal und Gopal (1986) zufolge können trotz der teils starken Überlappung einzelner Vokale in einem F1 × F2-Raum Vokalphoneme eindeutig klassifiziert werden, wenn man nicht die mit Zungenhöhe und -position korrelierenden absoluten F1 und F2-Werte in Hz zugrunde legt, sondern die kritische Distanz von 3 Bark zwischen F1 und f0 einerseits und F3 und F2 anderseits. Die F1-f0-Distanz ist entscheidend für die Unterscheidung offener vs. geschlossener Vokale, wobei offene Vokale im Gegensatz zu geschlossenen Vokalen eine F1-f0-Distanz aufweisen, die größer ist als 3 Bark. Aus‐ schlaggebend für die Unterscheidung vorderer vs. hinterer Vokale ist die F3-F2-Distanz, wobei die F3-F2-Distanz bei hinteren Vokalen im Gegensatz zu vorderen Vokalen wiederum oberhalb von 3 Bark liegt. Die Konvertierung der linear skalierten Hz-Werte in nicht linear skalierte Bark-Werte trägt dabei der logarithmischen Skalierung der Frequenzverarbeitung Rechnung (vgl. 8.2): So kann beispielsweise eine Differenz von 1 kHz sowohl einer Differenz von 6,2 Bark als auch einer Differenz von 2,2 Bark entsprechen, je nachdem, ob zuvor Werte von 0.5 kHz (4,9 Bark), 1.5 kHz (11,1 Bark) oder 2,5 kHz (14,5 Bark) in Bark transformiert und anschließend subtrahiert worden sind. Für die Annahme, dass auditive Normalisierungen eine Rolle in der auditiven Wahrnehmung akustischer Sprachsignale spielt, gibt es vielfache empirische Evidenz, auch wenn die Meinungen darüber auseinandergehen, ob es sich um einen aktiven oder passiven Prozess handelt (s. 8.3.3.2). Einige der Ergebnisse wurden dabei zugunsten einer größeren Bedeutung der intrinsischen Normalisierung anhand von Verhältnissen zwischen akustischen Merkmalen (z. B. formant ratios) gedeutet, andere Ergebnisse sprachen eher für die Bedeutung der extrinsischen Normalisierung. - 8.3.2.3 Auditive Kompensation akustischer Variation Die Berücksichtigung des Kontextes bei der Interpretation akustischer Information spielt auch bei der auditiven Kompensation akustischer Variation eine wichtige Rolle. In 4.5 wurde beschrieben, dass Sprecher: innen aufgrund des segmentalen Kontextes oftmals artikulatorische und damit auch akustische Zielpositionen verfehlen, da die Bewegungen der Artikulationsorgane nicht allein von einem Ziellaut, sondern auch von den umgebenden Sprachlauten abhängen. Dies führt zum Prozess der Koartikulation, der sich etwa an einer stärkeren Lippenrundung in [s] beobachten lässt, wenn der Frikativ vor einem [u] anstelle eines [a] realisiert wird ([sʷu] vs. [sa]; vgl. 4.5). Akustisch schlägt sich die Lippenrundung in einem tieferen Frequenz‐ schwerpunkt nieder; ein / s/ wird somit [ʃ]-artiger realisiert (vgl. S. 185, Abb. 63). Im 310 8 Sprachperzeption <?page no="312"?> Laufe des Erstspracherwerbs haben wir gelernt, kontextabhängige Variationen in den artikulatorisch-akustischen Mustern als vorhersagbar herauszufiltern, sodass wir als Hörer: innen den Lippenrundungsunterschied nicht unbedingt wahrnehmen müssen, wie das folgende Experiment von Mann & Repp (1980) zeigt. Stimuli entlang eines akustischen Kontinuums von [ʃ] zu [s], in dem der frequenzspe‐ zifische Schwerpunkt in gleichmäßigen Schritten angehoben wurde, werden häufiger als / s/ wahrgenommen, wenn die Frikativ-Stimuli in Kombination mit einem nachfol‐ genden [u] anstelle eines nachfolgenden [a] präsentiert werden. Der kontextabhängige Unterschied in der Beurteilung derselben Stimuli lässt sich wie folgt erklären: • Ein Stimulus mit einem frequenzspezifischen Schwerpunkt, der zwischen einem für eine Realisierung von / ʃ/ typischen niedrigen Wert und einem für eine Reali‐ sierung von / s/ typischen hohen Wert liegt, wird nur vor einem [u] als typische Realisierung eines / s/ interpretiert, da Hörer: innen wissen, dass ein / s/ vor einer [u]-Realisierung [ʃ]-artiger wird. • Vor einem [a] hingegen wird derselbe ambige frequenzspezifische Schwerpunkt als eher [ʃ]-typisch wahrgenommen, da bei [s] vor [a] ein höherer frequenzspezi‐ fischer Schwerpunkt zu erwarten wäre. Dies zeigt, dass Hörer: innen kontextbedingt zu erwartende Koartikulationseffekte kompensieren - in diesem Fall vokalische Einflüsse auf Konsonanten - egal ob diese tatsächlich auftreten (wie in natürlicher Sprache) oder nicht (wie in künstlich erzeugten Stimuli). Hörer: innen kompensieren akustische Koartikulationseffekte und undershoot durch auditiven overshoot (Lindblom & Studdert-Kennedy 1967), einem Filterme‐ chanismus, durch den ein akustischer Effekt dem Umgebungslaut zugeordnet wird, der den Effekt auslöst. Aufgrund dieser Kompensation ist auch nicht jede kontextbedingte Variation als kategorialer, phonologischer Prozess der Assimilation zu identifizieren (vgl. 7.3.4). Mitunter wird aber auch nicht kompensiert, sei es • hörerseitig bedingt (manche Hörer: innen kompensieren auditiv stärker als andere) oder • sprecherseitig, wenn der Grad der Koartikulation sehr stark ausgeprägt ist. Dann kann nutzen zu nützen, Motivation zu *Mutivation oder Spurt zu Sport werden - entweder synchron oder sogar diachron (vgl. 4.5). 8.3 Auditive Sprachwahrnehmung 311 <?page no="313"?> Abb. 80: Anteil an <ü>-Antworten (%) als Funktion von Stimulusnummer und konsonantischem Kontext für je 60 Urteile pro Stimulusnummer und Kontext (6 jüngere Hörer: innen × 10 Wiederholungen pro Stimulusnr. × 2 Kontext-Bedingungen; Daten aus Kleber et al. 2012). Für Einflüsse umgebender Konsonanten auf Vokale wird gleichermaßen kompen‐ siert wie für die in Mann & Repp (1980) untersuchten Einflüsse umgebender Vokale auf Konsonanten. Die Kompensation koartikulatorischer Effekte in Vokalen sei anhand einiger Daten aus Kleber et al. (2012) in Abb. 80 näher beschrieben, die vergleichbar sind mit den Ergebnissen der frühen Studie von Lindblom & Studdert-Kennedy (1967). Für den 2012 durchgeführten Identifikationstest wurde zunächst ein akustisches Kontinuum zwischen zwei natürlichen Produktionen eines ungespannten hohen Hinterzungenvokals [ʊ] wie in Mutter (Stimulus 1) und eines ungespannten hohen Vorderzungenvokals [ʏ] wie in Mütter (Stimulus 11) erzeugt. Die Stimuli entlang des Kontinuums unterschieden sich allein in der F2-Frequenz, die von ca. 800 Hz in Stimulus 1 auf ca. 1440 Hz in Stimulus 11 in gleichen Schritten angehoben wurde. Innerhalb eines jeden Vokalstimulus gab es keine Änderungen in der Formantfrequenz, d. h. der Frequenzverlauf war statisch. Die 11 Stimuli wurden anschließend jeweils in einen symmetrisch labialen [p_p] und einen symmetrisch alveolaren [t_t]-Kontext eingebettet, wobei der Unterstrich die Position des eingebetteten Stimulus in den so erzeugten Logatomen markiert. In 4.5 wurde anhand von Abb. 65 (S. 187) der koartikulatorische Effekt von Plosiven auf die mit F2 korrelierende Zungenposition von Vokalen beschrieben: In einem [t]-Kontext werden Hinterzungenvokale oft vorverlagert und mit einer höheren F2-Frequenz realisiert als in einem [p]-Kontext. In den künstlich erzeugten Stimuli dieses Kontinuums wird diese Form des koartikulationsbedingten undershoots um‐ gangen; alle Stimuli weisen kontextunabhängig dieselbe F2-Frequenz auf. Dennoch 312 8 Sprachperzeption <?page no="314"?> haben die sechs Hörer: innen, denen die Stimuli zur Identifikation als pupp oder püpp bzw. tutt oder tütt präsentiert wurden, einige der Stimuli aus der Mitte des Kontinuums sehr unterschiedlich klassifiziert: So wurde etwa der Vokal von Stimulus 6 mit einem F2-Wert von ca. 1120 Hz zu 93 % als / ʏ/ wahrgenommen, wenn dieser von [p] flankiert war, im [t]-Kontext aber zu 100 % als / ʊ/ . Obwohl in der natürlichen gesprochen Sprache hohe Hinterzungenvokale wie / ʊ/ im Kontext von [t] [ʏ]-artiger realisiert werden, also einen höheren F2-Wert aufweisen, nehmen Hörer: innen in diesem Kontext Stimuli erst ab einem sehr hohen F2 als / ʏ/ wahr. Im [p]-Kontext kann der F2-Wert hingegen für eine / ʏ/ -Wahrnehmung deutlich niedriger ausfallen. Der Grund hierfür ist, dass ein höherer F2-Wert im Kontext eines [p] nur dem Vokal zugerechnet werden kann, da der Kontext einen höheren F2-Wert nicht erklärt. Im [t]-Kontext hingegen kann derselbe höhere F2-Wert durchaus dem Kontext geschuldet sein; Hörer: innen filtern in diesem Fall den kontextbedingten, vorhersagbaren F2-Anstieg heraus und nehmen / ʊ/ wahr. Dass in natürlicher gesprochener Sprache das Nicht-Erreichen artikulatorischer Ziele kein Problem für die Vokalidentifikation darstellt, zeigen zudem die Experimente mit sogenannten Silent-Center-CVC-Silben von Winifred Strange und Kollegen: Hö‐ rer: innen identifizieren Vokale besser, wenn die Stimuli nicht den vermeintlich ein‐ deutigeren mittleren Signalabschnitt eines Vokals enthalten, sondern nur die äußeren Randbereiche mit den Formanttransitionen von und zu den Umgebungslauten (Strange et al. 1983, vgl. auch S. 186, Abb. 64). Als Erklärung wird angeführt, dass Hörer: innen sich insbesondere in der Spontansprache eher auf die Transitionen in Richtung akus‐ tischer Formantfreqenzziele verlassen können als auf das tatsächliche Erreichen dieser Ziele und auf quasi gleichmäßige Formantfrequenzverläufe. Demzufolge spielen neben dem Mechanismus der auditiven Kompensation insbesondere dynamische akustische Reize eine wichtige Rolle in der Lautidentifikation. 8.3.3 Theorien der Sprachwahrnehmung Die in 8.3.2 beschriebenen Phänomene der phonetic trading relations, Normalisierung und Kompensation werden in verschiedenen Sprachwahrnehmungstheorien als Evi‐ denz für deren jeweilige Gültigkeit angeführt. Dieser Abschnitt führt in einige der wichtigsten Sprachwahrnehmungstheorien ein, angefangen bei den frühen Theorien, die infolge der Erkenntnisse der kategorialen Wahrnehmung entstanden sind, bis zu den neueren Exemplar-Modellen der Sprachwahrnehmung. Sie alle eint das Ziel, die kognitiven Repräsentationseinheiten gesprochener Sprache zu ermitteln und damit auch ein starker Bezug zur Phonologie. Als Wahrnehmungseinheiten werden letztend‐ lich aber sehr unterschiedliche Einheiten benannt, darunter artikulatorische Gesten (Liberman et al. 1967; Fowler 1994), distinktive Merkmale (Stevens 1989, Lahiri & Marslen-Wilson 1991, Lahiri & Reetz 2010), Phoneme (McClelland & Elman 1986) oder Allophone (Luce et al. 2000; Mitterer et al. 2018). Ziel dieses Abschnittes ist es 8.3 Auditive Sprachwahrnehmung 313 <?page no="315"?> nicht, sich mit Blick auf eine Wahrnehmungseinheit festzulegen, sondern vielmehr, die verschiedenen Theorien und die darin postulierten Einheiten vorzustellen. Ein Ziel früher Sprachwahrnehmungstheorien war es, die vermuteten invarianten Merkmale herauszufiltern anhand derer Hörer: innen ein Sprachsignal eindeutig einem Phonem zuordnen können. Hierfür mussten Sprachsignale von den omnipräsenten phonetischen Details befreit werden (vgl. 1.2.1, S. 23f., Exkurs zu ‚Phonetische Varia‐ tion“). Zu diesen zählt auch die Koartikulation, die zu Variabilität und zur Enkodierung von Sprachsignalen führt. Hörer: innen dekodieren enkodierte Sprachsignale. Die Invarianzen müssen dabei einiger Theorien zufolge nicht zwangsläufig im akusti‐ schen Signal verankert sein, sondern können sich auch auf der motorischen Ebene der Sprachproduktion befinden (s. Motortheorien, Engl. motor theories). Akustisch-auditive Theorien (Engl. auditory theories) lehnen diesen Bezug zur Artikulation hingegen ab. Neuere Theorien wiederum gaben die Suche nach invarianten Merkmalen auf und lenkten den Fokus gezielt auf die im Signal vorhandene Variabilität und Redundanz, die Hörer: innen offensichtlich durchaus für die auditive Sprachwahrnehmung nutzen. Demnach ist nicht länger die Zuordnung eines variablen Signals zu einer einfachen abstrakten Repräsentation komplex; die Repräsentation ist vielmehr selbst komplex, da in ihr phonetisches Detail enthalten ist ( Johnson & Mullenix 1997: 1). - 8.3.3.1 Motortheorien Die Motortheorie der Sprachwahrnehmung (Engl. Motor Theory of Speech Per‐ ception, Liberman et al. 1967) vermutete die Invarianzen zunächst direkt auf der Ebene der Artikulation, da die Ergebnisse der kategorialen Wahrnehmung auf eine starke akustische Variabilität hindeuten, ohne etwas an der auditiven Wahrnehmung desselben Phonems zu ändern. In den ersten Versionen dieser Theorie postulierten Liberman et al. (1967) invariante neuromotorische Befehle zur Steuerung am Artikulationsprozess beteiligter Muskeln, die von einem speziellen Decoder erkannt würden und so die Phonemerkennung ermöglichten. Da sich jedoch bald zeigte, dass Muskelaktivität gleichermaßen variabel ist wie das akustische Signal wurde in einer Revision der Theorie, die intendierte Geste als Wahrnehmungseinheit benannt (Liberman & Mattingly 1985). Hierbei handelt es sich um abstrakte Bewegungsmuster wie etwa Lippenrundung oder -schließung (vgl. 2.4), die jedoch frei von Koartikulation ist. Koartikulation entsteht erst bei der tatsächlichen Sprachproduktion, d. h. wenn die artikulatorischen Gesten ausgeführt werden. Auch wenn Koartikulation nicht Teil des Phonems ist, so hilft sie doch mehrere Phoneme gleichzeitig zu verarbeiten und das eigentliche Phonem mittels auditiver Kompensation der koartikulatorischen Effekte zu erkennen (Hawkins 1999: 201 f.). Die Erkennung der Phoneme auf Basis der intendier‐ 314 8 Sprachperzeption <?page no="316"?> ten Gesten erfolgt der Motortheorie zufolge in einem eignen phonetischen Modul, das angeboren ist und parallel zu einem allgemeinen auditiven Verarbeitungsmodul besteht. Die Motortheorie der Sprachwahrnehmung postulierte intendierte (abstrakte) artikulatorische Gesten als Wahrnehmungseinheiten, die in einem eigenen phone‐ tischen Modul verarbeitet werden. Evidenz für ein solches Modul sahen Motorthe‐ oretiker im Phänomen der doppelten Wahrnehmung. Empirische Evidenz für die Existenz eines solchen Sprachmoduls sehen die Motorthe‐ oretiker im Phänomen der sogenannten doppelten Wahrnehmung (Engl. duplex perception), die experimentell u. a. wie folgt aufgezeigt werden konnte (vgl. Whalen & Liberman 1987, Hawkins 1999: 209 f.). Erstens: Ein durch die ersten drei Formantfre‐ quenzen definierter 300 ms langer [dɑ]-Stimulus wird als solcher bei entsprechenden Transitionsverläufen im Bereich der ersten 100 ms und normaler, d. h. vollständiger und binauraler, Präsentation über beide Ohren eindeutig als / dɑ/ identifiziert. Zweitens: Fehlt die 100-ms lange F3-Transition, so kann die Artikulationsstelle des Plosivs nicht länger eindeutig erkannt werden. Die F3-Transition für sich genommen wird drittens als Glissando oder Chirp, d. h. als nichtsprachliches Signal, wahrgenommen. Diese drei unterschiedlichen Wahrnehmungsformen vorausgesetzt, tritt die doppelte Wahr‐ nehmung viertens bei simultaner Präsentation der F3-Transition auf das eine Ohr und dem ‚Rest‘-Stimulus, bei dem die F3-Transition fehlt, auf das andere Ohr zutage: Dabei wird - bei entsprechend hoher Signalstärke - der zweigeteilte Stimulus nicht allein auditiv zusammengesetzt; Hörer: innen erkennen in diesem Fall zwar die alveolare Artikulationsstelle wieder, nehmen aber gleichzeitig weiterhin das nichtsprachliche Glissando wahr. Bei abgeschwächter Intensität wiederum wird nur noch / dɑ/ wahrge‐ nommen. Whalen und Liberman (1987) sehen darin nicht nur einen Beweis für einen phonetischen Sprachverarbeitungsmodus, sondern auch für dessen Vorrang über den allgemeinen auditiven Sprachverarbeitungsmodus. Die Direct Realist Theory of Speech Perception (Fowler 1994) kann ebenfalls zu den Motortheorien gezählt werden, da auch sie die auditive Wahrnehmung artikula‐ torischer Gesten postuliert. Dieser Theorie zufolge handelt es sich bei den Wahrneh‐ mungseinheiten allerdings nicht mehr um intendierte, sondern um konkrete Gesten. Zudem wird die Wahrnehmung - im Gegensatz zur älteren Motor Theory - hier in eine allgemeine Wahrnehmungstheorie, der ökologischen Wahrnehmungspsychologie nach Gibson (1979), eingebettet. Vor diesem Hintergrund wird in Fowlers Theorie • Sprache nicht in einem eigenen phonetischen Modul verarbeitet, • ein Objekt oder Ereignisse direkt wahrgenommen. Objekte können beispielsweise Helligkeitsmuster sein, die wir visuell wahrnehmen; Ereignisse können Bewegungsmuster sein, die wir ebenfalls sehen oder - im Falle der 8.3 Auditive Sprachwahrnehmung 315 <?page no="317"?> auditiven Sprachwahrnehmung - artikulatorische Gesten, die wir hören. In beiden Fällen handelt es sich um distale Reize, die Signale aussenden, die über ein Medium wie der Luft übertragen werden und von den Sinneszellen wahrnehmender Personen verarbeitet werden. Die sensorische Wahrnehmung - im Falle der Sprachwahrneh‐ mung durch die Stereozilien - entspricht dem proximalen Reiz. Wahrgenommen werden aber weder die Bildung des Aktionspotentials durch das ‚Abknicken‘ der Ste‐ reozilien noch die vorangegangen Schritte der Schallweiterleitung wie die Bewegung der Gehörknöchelchen oder der Wanderwelle (vgl. 8.1), sondern allein ein bestimmtes Ereignis, das ein akustische Signal ausgelöst und zu dessen Übertragung geführt hat (z.-B. der Knall einer zuschlagenden Tür). In der Direct Realist Theory of Speech Perception ist die Wahrnehmungseinheit der distale Reiz der konkreten artikulatorischen Geste, wie z. B. eine bilabiale Verschlussgeste und eine glottale Öffnungsgeste zur Erkennung eines / p/ . Gesten werden direkt und in einem allgemeinen Verarbeitungsmodul wahrgenommen. Die Invarianz entsteht erst auf der Ebene der Perzeption. Auch die Direct Realist Theory sieht in der Kompensation koartikulatorischer Effekte einen Beweis für die Wahrnehmung getrennter Gesten, da das akustische Signal durch die Koartikulation stark enkodiert sein kann. Dass dies jedoch über eine perzeptive Rekonstruktion der zugrunde liegenden Gesten geschehen soll, kann auch als Hinweis auf indirekte oder konstruktivistische Wahrnehmung (Bregman 1990) im Gegensatz zu direkter Wahrnehmung verstanden werden. - 8.3.3.2 Akustische und wahrscheinlichkeitsbasierte Theorien Den Motortheorien stehen die auditiv-akustischen Theorien gegenüber, die entweder die Invarianzen oder andere für die Sprachwahrnehmung entscheidende Reize im akustischen Signal vermuten. Zu ihnen zählen die Quantaltheorie (Stevens 1972, 1989) und die Auditory Enhancement Theory (Diehl & Kluender 1989, Kingston & Diehl 1994) sowie im weiteren Sinne auch die H&H-Theorie (Lindblom 1990) und Exemplar-Modelle der Sprachwahrnehmung ( Johnson 1997; Pierrehumbert 2016). Sie alle eint die Annahme, dass Hörer: innen mentale Repräsentationen lexikalischer Einheiten entwickeln, die bei jedem Hörvorgang mit einem eingehenden akustischen Signal abgeglichen werden bevor eine Repräsentation als am wahrscheinlichsten gewählt wird (Hawkins 1999: 240). Diese Form des statistikbasierten Ansatzes wird in den noch jungen Exemplar-Modellen besonders deutlich; zunächst lag der Fokus auch bei diesen Theorien auf der Suche nach invarianten Merkmalen, wenn auch auf Ebene der Akustik. Die Quantaltheorie haben wir bereits in 3.3 kennengelernt. Stevens (1972, 1989) postulierte in der Quantaltheorie nicht nur eine nicht lineare Beziehung zwischen Artikulation und Akustik, sondern auch zwischen Akustik und Perzeption. 316 8 Sprachperzeption <?page no="318"?> Die nicht lineare Beziehung zwischen den Domänen Artikulation und Akustik einerseits und Akustik und auditiver Perzeption andererseits führt in Stevens Quantaltheorie zu Invarianz. Die Wahrnehmungseinheiten sind distinktive Merk‐ male, die jeweils mit einem akustischen Merkmal korrelieren. Die kategoriale Wahrnehmung ist ein prominentes Beispiel für Nichtlinearität zwi‐ schen Akustik und auditiver Perzeption: Akustische Änderungen derselben Größen‐ ordnung führen in einem Bereich eines akustischen Kontinuums zu keiner, in einem anderen Bereich hingegen zu einer sprunghaften Änderung in der auditiven Wahrneh‐ mung. Die Wahrnehmungseinheiten sind in der Quantaltheorie die von Chomsky und Halle (1968) postulierten distinktiven Merkmale (vgl. Kap. 5), die Stevens zufolge aufgrund distinktiver Vokaltraktkonfigurationen mit jeweils einem vorhersagbaren akustischen Merkmal korrelieren sollten (Stevens & Blumstein 1981). Mittels vieler Experimentreihen setzte Stevens, zusammen mit Sheila Blumstein und anderen, zu‐ nächst sogenannte invariante spektrale Templates für Plosivlösungen an, die einen artikulationsstellenabhängigen Bereich innerhalb eines Spektrums markieren (vgl. 3.1.2.2). Fallen spektrale Gipfel innerhalb dieses Bereichs, lässt sich die entsprechende Artikulationsstelle gut erkennen; liegen sie außerhalb des Templates, verweisen sie auf eine andere Artikulationsstelle (Stevens & Blumstein 1978). In späteren Arbeiten wichen sie von diesem statischen Ansatz ab, dessen invariante akustische Templates pro Phonem je durch ein Spektrum über einen charakteristischen Lautabschnitt (z. B. der Verschlusslösung) definiert waren. Stattdessen arbeiten sie mit mehreren, zeitlich verschobenen Spektren (auch über Segmentgrenzen hinweg), um invariante Verhältnisse zu bestimmen. Dies verbessert die Erkennung von Lautsequenzen, auch aufgrund der zusätzlichen dynamischen akustischen Information im Signal (z. B. Lahiri et al. 1984, Stevens 1989). Im sogenannten LAFF-Model (Stevens 2002, 2005) skizzierte Sevens zuletzt die auditive Perzeption größerer Einheiten wie Wörter (LAFF = Lexial Access from Fea‐ tures). Auch hier ging er davon aus, dass die Phonemsequenzen einzelner Wörter durch binäre Merkmale repräsentiert werden, die wiederum durch akustische Korrelate definiert sind. Zusätzlich trägt er jedoch auch möglichen Unterschieden im Grad der Ausprägung und auditiven Bedeutung eines Merkmals sowie koartikulationsbedingten Veränderungen Rechnung, die sich zudem temporal verändern können. So kann beispielsweise das Merkmal [+nasal] in diesem Modell bereits am Ende eines Vokals spezifiziert sein, wenn auf den Vokal ein Nasal folgt (Hawkins 1999: 224). Ein Vorteil der Quantaltheorie gegenüber der Motortheorie war die empirische Prüfbarkeit von Quantalsprüngen im Vergleich zu intendierten Gesten. Die empirie‐ basierte Theorieentwicklung führte aber auch im Bereich der akustisch-auditiven Theorien zu einer Abkehr von der Suche nach invarianten Eigenschaften. Wie schon die Quantaltheorie, so ordnet auch die Auditory Enhancement Theory den distinktiven Merkmalen und ihrer rein akustischen Kodierung die entscheidende 8.3 Auditive Sprachwahrnehmung 317 <?page no="319"?> Rolle in der Sprachwahrnehmung zu. Die Artikulation wird als die Ebene betrachtet, auf der die entscheidenden akustischen Signale erzeugt werden. Im Gegensatz zur Quantaltheorie sieht die Auditory Enhancement Theory aber gerade in der Vielzahl der im Signal verfügbaren akustischen Merkmale den entscheidenden Vorteil für die Sprachwahrnehmung: Die Kombination mehrerer akustischer Merkmale ermöglicht die Verstärkung phonologischer Oppositionen auf der auditiven Ebene. Die Wahrnehmungseinheiten sind in der Auditory Enhancement Theory interme‐ diäre perzeptive Eigenschaften (intermediate perceptual properties, IPP). IPP können mit unterschiedlichen akustischen Merkmalen verknüpft sein und unter‐ schiedliche distinktive Merkmale kodieren. Redundanzen im akustischen Signal führen zu auditiver Verstärkung. Ein Beispiel: Das distinktive Merkmal [±sth] wird u. a. durch die IPP C: V kodiert, wobei C: V dem Verhältnis von Vokal- und Verschlussdauer entspricht (vgl. voicing effect in 7.3.1). Die unterschiedlichen akustischen Segmentdauern sowohl des Vokals als auch des postvokalischen Verschlusses tragen (neben weiteren akustischen Eigenschaften) zur IPP C: V und damit zu [±sth] bei. Gleichzeitig trägt die akustische Vokaldauer aber natürlich auch, z. B. zusammen mit F1 und F2, zu einer anderen IPP bei, die z. B. das Merkmal [±lang] kodiert. Möglicherweise sind einige der sekundären akustischen Merkmale redundant, da eine Erkennung eines distinktiven Merkmals oder eines Phonems anhand des primären akustischen Merkmals möglich wäre. Dieser Theorie zufolge liegt ein Schlüssel zur erfolgreichen Sprachwahrnehmung aber gerade in dieser Redundanz, da sie erst die Nutzung akustischer Synergien ermöglicht, die wiederum zur auditiven Verstärkung führen. Akustische Redundanzen spielen auch in der H&H-Theorie nach Lindblom (1990) eine wichtige Rolle. H&H steht für Hypo- und Hyperartikulation - zwei Begriffe, die wir bereits im Kontext spontansprachlicher Prozesse kennengelernt haben (vgl. 7.1). Bei der H&H-Theorie handelt es sich eher um eine Kommunikationsals um eine klassische Sprachwahrnehmungstheorie, da sie beispielsweise weder Wahrnehmungs‐ einheiten noch Verarbeitungsmechanismen benennt und zu belegen versucht. Dennoch muss auch sie an dieser Stelle genannt werden, da den Hörer: innen in dieser Theorie eine wichtige Rolle zukommt. Der H&H-Theorie zufolge variieren Sprecher: innen entlang des Kontinuums zwischen Hypo- und Hyperartikulation in Abhängigkeit der Bedürfnisse ihrer Hörer: innen. Sprachproduktion ist adaptiv und hörerorientiert. Die für gesprochene Sprache typische Variation entlang des H&H-Kontinuums er‐ möglicht keine Invarianz. Sprecher: innen folgen Lindblom (1990) zufolge bei der 318 8 Sprachperzeption <?page no="320"?> Sprachproduktion einem Ökonomieprinzip und halten den artikulatorischen Aufwand gering. Wenn es der kommunikative Kontext aber verlangt, wie etwa bei einer lauten Umgebung, bei neuer semantischer Information und/ oder bei einem mehrdeutigen Kontext, so hyperartikulieren Sprecher: innen stärker als in Kontexten, die ein grö‐ ßeres Maß an Hypoartikulation vertragen (z. B. leise Umgebung, alte Information, eindeutiger Kontext, etc.). Entscheidend ist allein die korrekte Dekodierung des Sprachsignals, das durchaus Variation aufweisen kann, solange der akustische Kontrast zu anderen Sprachsignalen ausreichend groß ist. Diese Annahme basiert auch auf dem Neighborhood Activation Model (Luce 1986; Luce & Pisoni 1998), wonach sogenannte schwere Wörter, die (1) viele akustische Konkurrenten haben und (2) seltener als diese sind (z. B. das seltene Wort Sund, das in einer Minimalreihe mit den häufigeren Wörtern Mund und Hund konkurriert) besser erkannt werden als sogenannte leichte Wörter, die häufiger sind und weniger akustische Konkurrenten aufweisen. Wright (2004) wiederum zeigte, dass Hyperartikulation in schweren Wörtern in der Tat stärker ausgeprägt ist als in leichteren Wörtern, was indirekt die H&H-Annahme einer adaptiven Sprachproduktion unterstützt. Die H&H-Theorie weist insbesondere mit der Auditory Enhancement Theory gedankliche Parallelen bezüglich adaptiver und perzeptionsorientierter Sprachproduktion und der Ablehnung invarianter, ins‐ besondere artikulatorischer Wahrnehmungseinheiten auf (Lindblom 1995), die sich auch in einer Reihe gemeinsamer Publikationen zeigt (z. B. Diehl & Lindblom 2004). Bei der Dekodierung des Sprachsignals handelt es sich der H&H-Theorie zufolge jedoch explizit nicht um einen bottom-up-Prozess, bei dem das akustische Signal rein auditiv verarbeitet wird. Vielmehr sind auch top-down-Prozesse involviert: Hörer: innen nutzen für die Dekodierung zusätzliches Wissen, wie etwa Worthäufigkeiten und -wahrscheinlichkeiten (vgl. S. 308, Beispiel (62)). Dieser sogenannte ‚Signal+Wissen‘-Ansatz (Engl. signal+knowledge approach) kenn‐ zeichnet auch Exemplar-Modelle der Sprachwahrnehmung (Engl. Exemplar mo‐ dels of speech perception, mitunter auch episodic models), die seit Ende des 20. Jh. in der Phonetik und Phonologie (wie auch in anderen linguistischen Bereichen) verstärkt an Einfluss gewonnen haben. Exemplar-Modelle an sich stellen ebenfalls keine reinen Wahrnehmungstheorien dar, da sie auch Aspekte der Sprachproduktion bzw. -akustik modellieren (z. B. Ergebnisse wie die in Wright 2004). Die Sprachproduktion ist den Vertreter: innen dieser Modelle zufolge eng mit der Sprachwahrnehmung verknüpft. Wie auch die H&H-Theorie betrachten Exemplar-Modelle der Sprachwahrnehmung Variabilität als Vorteil in der Verarbeitung gesprochener Sprache. Sie benennen aber zudem als Wahrnehmungseinheiten sogenannte Exemplare, die in einem akustisch-au‐ ditiven Raum gespeichert werden und die Sprachproduktion beeinflussen. Bei Exem‐ plaren kann es sich um einzelne Äußerungen oder auch Allophone handeln, die sprecherabhängig sind und verschiedene Informationen beinhalten: • referentielle Information zum Gesprochen (z.-B. [w], [a], [s]) • indexikalische Informationen zum Sprechenden aufgrund der Sprechweise. 8.3 Auditive Sprachwahrnehmung 319 <?page no="321"?> Als Hörer: innen (oder als Leser: innen) entnehmen wir jeder gesprochenen Äußerung nicht nur referentielle, sondern auch indexikalische Informationen. Selbst wenn man eine: n Sprecher: in nicht kennt, kann man allein aus dem Hören einer Stimme mit einer bestimmten Wahrscheinlichkeit ableiten, ob ein Mann oder eine Frau diese Aussage trifft, welchen dialektalen Hintergrund er oder sie hat und ob er oder sie älter oder jünger ist. Hat man Sprecher: innen schon öfters gehört, ist sogar deren eindeutige Wiedererkennung möglich. Auditiv wahrnehmbare indexikalische Informationen wie diese helfen aber nicht nur bei der Erkennung von Sprecher: innengruppen oder gar einzelner Sprecher: innen, sondern auch die referentielle Information schneller zu verarbeiten. Extrinsische und intrinsische Normalisierungen bei der Formantfrequenzinterpretation wie sie in 8.3.2 vorgestellt wurden, sind möglich, weil Hörer: innen Sprecher: innen z. B. einem Geschlecht oder einem Alter zuordnen. Lange ging man davon aus, dass diese Normalisierung ein aktiver Prozess sei, der vor der Identifikation einer linguistischen Kategorie stattfindet. Johnson (1997) hingegen propagierte in seinem exemplartheoretischen Ansatz, dass Sprachwahrnehmung ohne aktive Spre‐ chernormalisierung auskäme, da diese Information Teil der internen linguistischen Struktur sei, die komplexer ist als bis zu diesem Zeitpunkt angenommen. Exemplar-Modelle gehen von einer kognitiven Repräsentation indexikalischer Information aus. Die Wahrnehmungseinheiten sind episodische Erinnerungen an einzelne Äußerungen, sogenannte Exemplare. Exemplare desselben Wortes bilden eine Exemplarwolke. Eine phonologische bzw. perzeptive Kategorie, sei es ein Phonem oder ein Merkmal, ergibt sich in Exemplar-Modellen aus • allen bisher erfahrenen Exemplaren einer Kategorie, • der Verteilungsdichte über mehrere Exemplare desselben Phonems bzw. Merkmals in diesem Raum. Diese Verteilung ist nicht statisch, sondern ändert sich mit dem Sprachgebrauch (daher mitunter auch usage-based models), da ständig neue Exemplare hinzukommen. Sie werden mit zuvor gespeicherten Exemplaren verglichen und in der Nachbarschaft des ähnlichsten Exemplars innerhalb des akustisch-auditiven Raums abgelegt und in einer Exemplarwolke gespeichert. Lexikalisch häufige Sequenzen, wie sie in hochfrequenten Wörtern wie Hund enthalten sind, weisen eine höhere Dichte und größere Verteilung im akustisch-auditiven Raum auf als lexikalisch seltenere Sequenzen in niederfrequen‐ ten Wörtern wie Sund. Im mentalen Lexikon sind demnach auch lexikalische Häufigkei‐ ten gespeichert, die sprachspezifisch sind (vgl. H&H-Theorie). Empirische Evidenz für Exemplar-Modelle der Sprachwahrnehmung lieferte etwa Goldinger (1996) mit einem Experiment, das zeigte, dass Hörer: innen Wörter schneller erkennen und weniger Fehler in der Worterkennung aufweisen, wenn die Wörter von einer ihnen bekannten 320 8 Sprachperzeption <?page no="322"?> Stimme geäußert werden im Vergleich zu einer ihnen unbekannten Stimme. Diese Formen episodischer Spuren (Engl. episodic traces) und Exemplarwolken sind nicht nur auf der Wortebene, sondern auch auf der Phonemebene zu finden (Pierrehumbert 2001). In den letzten Jahrzehnten sind sehr viele Studien wie die von Goldinger (1996) und Johnson (1997) hinzugekommen; sie zeigen experimentell auf, dass mentale Repräsen‐ tationen phonologischer Formen keine rein abstrakten Prototypen wie etwa distinktive Merkmale sind, sondern detaillierte Informationen aufweisen. Inzwischen geht man jedoch von einem hybriden Modell der kognitiv-phonologischen Repräsentation aus, bei der sowohl auf episodische Spuren als auch auf Abstraktionen zurückgegriffen wird (Pierrehumbert 2016): Während bei der Verarbeitung gesprochener Sprache detaillierte Repräsentationen mit episodischen Spuren hilfreich sind, so wird insbesondere bei der Verarbeitung neuer Wortformen auf abstrakte Repräsentationen zurückgegriffen. Die Exemplartheorie wie auch andere der hier vorgestellten Theorien entstam‐ men ursprünglich aus der Psychologie. Die Beschäftigung mit mentalen Vorgängen beim Sprechen wird auch in der eigenständigen Disziplin der Psycholinguistik (s. den gleichnamigen Exkurs unten) untersucht. Die Grenzen zwischen einerseits pho‐ netisch-phonologischen und andererseits psycholinguistischen Fragestellungen zur auditiven Sprachwahrnehmung können dabei nicht immer klar gezogen werden, insbesondere wenn es um (auditiv-phonetische) prälexikalische Prozesse geht, die vor dem eigentlichen lexikalischen Zugriff (Engl. lexical access) auf das mentale Lexikon, in dem unser Wortschatz samt grammatikalischen Informationen organisiert ist, operieren. Die Unterscheidung zwischen prälexikalem und lexikalem Zugriff soll hier nicht weiter ausgeführt werden. Sie wird in exemplartheoretischen Ansätzen der Psycholinguistik thematisiert (McQueen & Cutler 2013) und spielt auch in neueren formal-phonologischen, optimalitätstheoretischen Modellen der Sprachwahrnehmung eine Rolle, die zwischen drei Repräsentationsebenen unterscheiden, der zugrunde liegenden lexikalischen Form, einer phonologischen Oberflächenform und einer pho‐ netischen Form (Boersma & Hamann 2009: 11 f.) Psycholinguistik Eng mit der Sprachperzeptionsforschung verknüpft ist die Psycholinguistik. In diesem recht jungen Forschungsgebiet werden mentale Repräsentationen und Prozesse der Sprachproduktion und des Sprachverständnisses auf allen linguistischen Ebenen der gesprochenen und geschriebenen Sprache untersucht. Zentrale Punkte sind dabei das mentale Lexikon und das Speichern und Abrufen von Einträgen darin (z. B. Levelt et al. 1999). Erforscht wird beispielsweise, ob allein ganze Wörter oder Silben erkannt werden oder ob gleichzeitig die einzelnen Phoneme, aus denen das Wort zusammengesetzt ist, koaktiviert werden. Für die psycholinguistische Untersuchung des sogenannten (prä-)lexikalischen Zugriffs sind die Wahrnehmungseinheiten von zentraler Bedeutung. Weitere 8.3 Auditive Sprachwahrnehmung 321 <?page no="323"?> psycholinguistische Forschungsbereiche sind der Erst- und Zweitspracherwerb, Sprachplanung oder Fehlererkennung, wobei vielfach experimentelle Methoden zum Einsatz kommen, die nicht nur die Antworten auf Stimuli an sich auswerten (vgl. Experimente in 8.3), sondern auch die kognitive Sprachverarbeitung direkter messen (z. B. mittels Eye-tracking oder Elektroenzephalographie zur Analyse neu‐ ronaler elektrischer Aktivität). Die Psycholinguistik ist ihrerseits eng verbunden mit der Neurolinguistik und Neurophonetik, die ebenfalls neuronale sprachliche Repräsentationen und deren Verarbeitung untersucht. Übungsaufgaben 1. Füllen Sie den nachfolgenden Lückentext aus. Das empfängt Schallwellen und leitet diese durch den zum einer beweglichen weiter. Bereits im äußeren Ohr werden Frequenzen aufgrund der verstärkt. Das Trommelfell versetzt die im Mittelohr in Bewegung, wodurch die Schallwellen auf das übertragen werden. Im Mittelohr wird der Schall durch verstärkt. Die Schallverstärkung im Mittelohr ist notwendig, um den vom gefüllten Mittelohr zum gefüllten Innenohr auszugleichen. Die Druckbewegung am ovalen Fenster versetzt die Flüssigkeit in der Scala in Bewegung. Die bewegt sich entlang der , wobei die an unterschiedlichen Stellen entsteht. Dadurch gerät die in der Scala in Bewegung, was wiederum zum Abknicken der darin „badenden“ führt. Hierbei handelt es sich um Zellfortsätze der im Organ. Das Abknicken führt zu einer Änderung der Ladung und einem potential, wodurch das Signal über den zum Gehirn weitergeleitet wird. 322 8 Sprachperzeption <?page no="324"?> 2. Stellen Sie sich folgendes hypothetisches Experiment mit zwei Aufgaben vor: Abb. 81: F2 (kHz) im hohen, gespannten Vorderzungenvokal der ersten Silbe (V 1 ) als Funktion der Stimulusnummer. Horizontale Linien markieren den gleichbleibenden F2-Verlauf innerhalb des 150 ms langen Vokals V 1 . Zehn Muttersprachler: innen des Deutschen werden neun Stimuli (nachfolgend S) eines akustischen Kontinuums präsentiert, dessen Endpunkte (S 1 und S 9 ) den Wörtern fielen und fühlen entsprechen. Die Stimuli lassen auf eine Frauenstimme schließen und unterscheiden sich ausschließlich in der über die Zeit gleichmäßig verlaufenden zweiten Formantfrequenz im Nukleus der ersten Silbe (V 1 ). Mit jedem Stimulus entlang des Kontinuums wurde die F2-Frequenz um je 100 Hz von 2700 Hz in S 1 auf 1900 Hz in S 9 abgesenkt (s. Abb. 81). Bei der ersten Aufgabe handelt es sich um einen Identifikationstest: Pro auditiv präsentiertem Stimulus soll das Wort aus zwei orthographisch dargebotenen Alternativen (fielen oder fühlen) ausgewählt werden, nach dem sich der Stimulus anhört. In der zweiten Aufgabe, einem Diskriminationstest, werden Stimulustriplets der Form ABX präsentiert, wobei A einem der ersten 7 Stimuli (S 1 , …, S 7 ) und Stimulus B jeweils dem übernächsten Stimulus auf dem Kontinuum entspricht (d. h. wenn A = S 1 , dann B = S 3 , wenn A = S 7 , dann B = S 9 ) und X entweder mit A oder B übereinstimmt. Aufgabe der Hörer: innen ist es, zu beurteilen, ob der letzte Stimulus eines Triplets, X, mit dem zuerst präsentierten Stimulus A oder dem darauffolgenden Stimulus B übereinstimmt. Jede: r Hörer: in beurteilt in beiden Aufgaben jeden Stimulus bzw. jedes Triplett nur einmal. a. Skizzieren Sie in dem nachfolgenden Achsendiagramm eine hypothetische Ant‐ wortkurtkurve zum Identifikationstest, die eine kategoriale Wahrnehmung wider‐ spiegelt. Markieren Sie pro Stimulus einen hypothetischen Anteil der ‚fühlen‘-Ant‐ worten (%) an den insgesamt 10 vorliegenden Antworten. Zur Beurteilung der Stimulus-Vokal-Beziehung vgl. auch S. 178, Abb. 60 (rechts) in 4.3.2. Die über je 3 Wiederholungen × 5 Sprecherinnen gemittelten F2-Werte zum zeitlichen Mittelpunkt von [iː] und [yː] betragen in Abb. 60 (rechts) 2477 Hz bzw. 2118 Hz; 8.3 Auditive Sprachwahrnehmung 323 <?page no="325"?> die für [iː] gemessenen F2-Werte rangierten dabei von 2224 Hz bis 2741 Hz, die für [yː] von 1863-Hz bis 2461-Hz. b. Leiten Sie von der hypothetischen Antwortkurve zum Identifikationstest in 2a. eine für kategoriale Wahrnehmung prototypische Antwortkurve zum dazugehörigen Diskriminationstest ab. Tragen Sie hierfür pro A-B-Paar einen hypothetischen Anteil korrekter X-Stimulus-Identifikationen an den insgesamt 10 vorliegenden Antworten ein (z.-B. wenn A-B = 1-3, X = 3, Antwort B = korrekt). 3. Betrachten Sie die je zwei Antwortkurven zu den Identifikationstest in Abb. 79 und Abb. 80. Welche Kurven spiegeln eher kategoriale Wahrnehmung oder einen Phonemgrenzen-Effekt wider, welche kontinuierliche Wahrnehmung? 4. Welche Skala würde sich besser für das akustische Kontinuum in Aufgabe 2, Abb. 81 eignen als die verwendete Hertz-Skala und warum? 324 8 Sprachperzeption <?page no="326"?> Weiterführende Literatur Als Grundlagenliteratur im Bereich des Hörens seien das englischsprachige Buch Hearing von G E L F AND (2017) und das deutschsprachige Buch Hören von H E LL B RÜCK & E LL E R M E I E R (2004) empfohlen. Beide beschreiben ausführlich Anatomie und Physiologie des Gehörs sowie psychoakustische Aspekte, Sprachwahrnehmung jedoch gar nicht oder nur am Rande. Wer z. B. mehr zu Wevers Salventheorie oder zu den für die Psychoakustik zentralen Gesetzen (z. B. dem Weber-Fechner-Gesetz oder Stevens Potenzfunktion) erfahren will, wird hier fündig, wie auch in Kapitel 10-12 von G O LD S T E IN S (2002) „Wahrnehmungspsychologie“, das in deutschsprachiger Übersetzung vorliegt. Zur Vertiefung in einige Gebiete der Sprachwahrnehmung sei zudem auf die Artikel im Handbook of Speech Perception von P A R DO E T AL . (2021) hingewiesen. Eine sehr gute deutschsprachige Einführung in das große Gebiet der Psychoakustik bietet das Buch von F A S TL & Z WIC K E R (2007); darin finden sich auch ausführliche Erklärungen zur Ermittlung von Schwellwerten und Kurven. Das Konzept der Frequenzgruppen geht ursprünglich auf F L E TCH E R (1940) zurück. Nach mehreren Testreihen zu den Frequenzgruppen wurde zunächst eine Tabelle publiziert, in der die Grenzfrequenzen der Frequenzgruppen gelistet sind (Z WIC K E R 1961) und später die Formeln, mit denen der Zusammenhang zwischen Frequenzgrup‐ pen und Frequenzen gut abgebildet werden können (Z WICK E R & T E R HA R DT 1980). In phonetischen Studien erfolgt die Konversion von Hertz in Bark inzwischen oft mittels der von T R AUNMÜLL E R (1990) vorgeschlagenen modifizierten Formel, die das Verhältnis zwischen beiden Größen noch besser widerspiegelt. Viele der Skalierungsformeln zur Frequenzwahrnehmung, darunter die zur Bark-Skala, finden sich sehr gut erklärt in R E E TZ (2003) im abschließenden Kapitel zur ‚Akustischen Phonetik‘. Ein weiteres Kapitel in R E E TZ (2003) ist dem Gehör gewidmet, in dem auch verschiedene Hörtheorien diskutiert werden. Einen sehr umfangreichen, empfehlenswerten Überblick zum Thema Kategoriale Sprachwahrnehmung stellt R E P P (1984) dar. Eine frühe kritische Auseinandersetzung mit diesem Thema wie auch der Motor Theory of Speech Perception findet sich bei L AN E (1965). In P IC K E TT S 1999 erschienenem Buch „The Acoustics of Speech Communication“ bieten die Kapitel 11 und 12 von Winifred S T R AN G E sowie 14 und 15 von Sarah H AWKIN S sehr gute, teils vertiefende Überblicke zu Vokal- (11) und Konsonantenwahrnehmung (12) sowie Theorien der Sprachwahrnehmung (14 und 15), die dort auch kritisch evaluiert werden. Kapitel 15 führt zudem in weitere Modelle der Sprachwahrnehmung ein, die in diesem Buch nicht erwähnt werden. Auf weiterführende Literaturhinweise zu Sprachperzeptionstheorien sei an dieser Stelle verzichtet, da die in 8.3.3 genannten Quellen als weiterführend (und für Fortgeschrittene) zu betrachten sind und sich viele Quellen in den o.-g. Kapiteln in P IC K E TT (1999) finden. Die zunehmende Beschäftigung mit der wechselseitigen Beziehung zwischen Sprachperzeption und Phonologie spiegelt sich in Sammelbänden wie „The Role of Spech Perception in Phonology“ (H UM E & J OHN S ON 2001) oder „Phonology in Perception (B O E R S MA 8.3 Auditive Sprachwahrnehmung 325 <?page no="327"?> & H AMANN 2009) wider. Die jeweiligen Einführungskapitel der Herausgeber: innen sind zur Vertiefung auch für Einsteiger: innen geeignet. Zum Thema Psycholinguistik sei auf die Einführungen von D I E T R ICH & G E R WI E N (2017, deutschsprachig) und W A R R E N (2013, englischsprachig) hingewiesen sowie auf den Überblicksartikel von C UTL E R E T AL . (2005). Einen guten deutschsprachigen Überblick über die ungestörte Lautverarbeitung bietet zudem das gleichnamige Kapitel von S CHA R IN G E R (2016). 326 8 Sprachperzeption <?page no="328"?> 9 Prosodie und Intonation Überleitung und Ziele Nachdem es in den Kapiteln 7 und 8 nochmals vorrangig um phonetisch-phono‐ logische Aspekte auf der segmentalen Einzellautebene ging (wenn auch kontext‐ bedingte), baut Kapitel 9 wieder auf größere Einheiten auf. Im Fokus stehen nun die phonetisch kodierten Prominenzverhältnisse zwischen den Silben (Kap. 6) eines Wortes (Wortbetonung) und den Wörtern eines Satzes (Satzakzentuierung) sowie der globale f0-Verlauf über die Silben und Wörter, d. h. suprasegmentale oder prosodische Eigenschaften. Der f0-Verlauf wird als Sprechmelodie wahrge‐ nommen, einzelne Silben bzw. Wörter als prominenter als andere, was zu einem Sprechrhythmus führt. Mithilfe der Prominenzverhältnisse und des f0-Verlaufs strukturieren wir längere Äußerungen, um deren Sprachproduktion zu planen und sie auditiv besser wahrnehmen zu können. Wahrnehmbare Unterschiede in den Prominenzverhältnissen und des f0-Verlaufs haben zudem distinktive Funktionen und können die Bedeutung auf lexikalischer und postlexikalischer Ebene ändern, trotz gleichbleibender Segmente und Silbifizierung. Aufgrund dieser Eigenschaft und des Untersuchungsgegenstandes ganzer Wörter und Sätze weist das Gebiet der Prosodie u. a. Schnittstellen zur Syntax, Semantik und Pragmatik auf. Neben der ohrenphonetischen und experimentellen Analyse wahr‐ nehmbarer Prominenz- und Tonhöhenunterschiede spielt auch die signalphone‐ tische Untersuchung der akustischen Korrelate eine entscheidende Rolle in der Prosodieforschung. Dabei ist wichtig, sogenannte mikroprosodische Phänomene von den prosodierelevanten sogenannten makroprosodischen Phänomenen zu trennen. Ziel dieses Kapitels ist es daher, folgende Fragen zu klären: • Was ist Mikroprosodie und was Makroprosodie? • Was ist Wortbetonung und wie trägt sie zum Sprachrhythmus und zur Satzakzentuierung bei? • Was ist Satzakzentuierung und Intonation und welche postlexikalischen Bedeutungsänderungen kann Intonation bewirken? 9.1 Einleitung Der Begriff Prosodie geht auf das griechische Wort prosōdía (προσῳδία) für Betonung zurück, das sich aus den Wörtern prós (πρός) ‚hinzu’ und ōdḗ (ᾠδή) ‚Gesang, Lied’ zusammensetzt (Pfeifer 1993). Im eigentlichen Wortsinn hebt der Begriff somit die Eigenschaft gesprochener Sprache hervor, die wir auch im Deutschen mitunter als <?page no="329"?> Sprechmelodie bezeichnen. Die bereits bekannten akustischen Parameter Grundfre‐ quenz, Intensität und Dauer tragen maßgeblich zur prosodischen Struktur bei und verleihen gesprochener Sprache etwas Rhythmisches und Melodiöses. Ein leicht zugängliches Beispiel für eine Sprechmelodie ist der Abschiedsgruß Tschüß. Obwohl das Wort nur aus einer Silbe und nur einem sonoranten Laut besteht, wird es sehr häufig mit einer markanten Sprechmelodie über den stark gelängten Vokal geäußert, die hoch beginnt und tief endet (s. Abb. 82). Abb. 82: f0-Verlauf (weiß) über dem segmentierten und etikettierten Sonagramm der Äußerung Tschüss! . Die Skala links des Sonagramms gibt den Frequenzbereich des Sonagramms an, die Skala rechts den der Grundfrequenz. Diese Form der Sprechmelodie bzw. der f0-Verlauf wird als Intonation bezeichnet, die wiederum nur ein Aspekt der prosodischen Struktur einer Äußerung ist. Unabhängig davon, ob es sich um eine Einwortäußerung oder einen ganzen Satz handelt, ergibt sich die prosodische Struktur einer Äußerung aus • dem steuerbaren f0-Verlauf über die Zeit (Makroprosodie, s.-u.), • deutlichen Dauerunterschieden zwischen Segmenten, Silben und Wörtern, • Intensitätsunterschieden zwischen Segmenten, Silben und Wörtern. Alle drei akustischen Parameter führen zu auditiv wahrnehmbaren • Unterschieden im Tonhöhenverlauf (Intonation), • zu einem Sprachrhythmus, • zu Prominenzrelationen zwischen Silben (Wortbetonung) und Wörtern (Satzak‐ zentuierung), die zur Bedeutungsänderung führen kann, teils auf lexikalischer, teils auf postlexika‐ lischer Ebene (vgl. 7.4). Prosodische Aspekte gesprochener Sprache werden sowohl akustisch als auch auditiv analysiert, wobei es gilt, die Parameter sorgfältig zu 328 9 Prosodie und Intonation <?page no="330"?> trennen, auch wenn sie miteinander korrelieren, so wie z. B. die akustisch messbare Grundfrequenz und die wahrgenommene Tonhöhe (vgl. 3.2.1, 8.2). Prosodie beschreibt phonetische und phonologische Eigenschaften von Phonen und Phonemen, die (1) zu einer Veränderung in den Prominenzrelationen zwischen den Silben eines Wortes bzw. den Wörtern eines Satzes oder einer Phrase und (2) zur wahrnehmbaren Untergliederung einer längeren Einheit (z.-B. Phrase) in kleinere Einheiten (Wort) führt, so wie z. B. Dauer/ Quantität oder f0/ Tonhöhe. Die daraus resultierenden globalen, sich über mehrere Phone bzw. Phoneme erstreckende Eigenschaften (z. B. steigender Ton) werden insbesondere in der amerikanischen Literatur auch als Suprasegmentalia bezeichnet. Im Bereich der Prosodie finden sich viele Schnittstellen zu anderen linguistischen Teilgebieten, insbesondere zur Syntax und Pragmatik, wenn es um die sogenannte Informationsstruktur von Sätzen (s. 9.3) und die (damit verbundene) Bedeutungser‐ weiterung geht, so wie der in den Beispielsätzen in (63). (63) a. KEINER packt mehr mit an. (Niemand packt mit an.) - b. Keiner packt MEHR mit an. (Einer ganz besonders.) Wird das erste Wort prosodisch hervorgehoben, wird zum Ausdruck gebracht, dass niemand mit anpackt. Hebt man hingegen ausschließlich das Wort mehr prosodisch hervor, so weist man - ohne phonologische, morphologische oder syntaktische Ände‐ rung auf der segmentalen Ebene - darauf hin, dass einer ganz besonders anpackt. Die Hervorhebung erfolgt in den in Abb. 83 dargestellten Realisierungen von (63) a. und b. durch eine jeweils relativ höhere f0 und längere Dauer von keiner (a., links) bzw. mehr (b., rechts; hier und in den folgenden Abbildungen wird auf die Darstellung des Sonagramms verzichtet). Der f0-Verlauf über die anderen Wörter des Satzes weist viele Ähnlichkeiten auf, was auf einen vergleichbaren prosodischen Status in beiden Äußerungen hindeutet. Was es mit den kleineren Ausschlägen in den f0-Verläufen in Abb. 83 auf sich hat, wird weiter unten thematisiert. 9.1 Einleitung 329 <?page no="331"?> Abb. 83: Zeitlich mit der etikettierten Segmentebene synchronisierte f0-Verläufe über zwei Realisie‐ rungen des Satzes Keiner packt mehr mit an., geäußert mit je einer prosodischen Hervorhebung (H) auf keiner (a., links) bzw. mehr (b., rechts). Eine Reihe phonologischer Ansätze modelliert die prosodischen Aspekte gesprochener Sprache: • Mit den Regeln der Wortbetonung (s. 9.2) befasst sich z. B. die metrische Phonologie (z. B. Hayes 1995), ein nicht linearer phonologischer Ansatz (vgl. 6.2, s. 9.2.1). • Das auf Pierrehumbert (1980) zurückgehende ebenfalls nicht lineare autosegmen‐ tal-metrische (AM) Modell der Intonationsphonologie (s. Ladd 2008) nutzt Ansätze aus der metrischen und der Autosegmentalen Phonologie (vgl. 6.2), um sprachabhängige Gesetzmäßigkeiten in der Satzakzentuierung und Untergliede‐ rung von Sätzen (Phrasierung) zu beschreiben (s. 9.3.2). • Die prosodische Phonologie (Nespor & Vogel 2007) untersucht die Beziehung zwischen verschiedenen, hierarchisch geordneten prosodischen Konstituenten auf Wort- und Satzebene. Die Anzahl der angenommenen prosodischen Konstituenten variiert zwischen den Analysen unterschiedlicher Autor: innen. Eine Anordnung der wichtigsten Kompo‐ nenten entlang der prosodischen Hierarchie (Engl. prosodic hierarchy) ist in (64) dargestellt, wobei < eine links stehende, hierarchisch untergeordnete Konstituente von der rechts stehenden, hierarchisch übergeordneten Konstituente trennt. (64) Silbe < Fuß < phonologisches Wort < phonologische Phrase < Intonationsphrase < Äußerung. Eine entscheidende Grundannahme der prosodischen Phonologie stellt die sogenann‐ ten Strict Layer Hypothesis dar (Selkirk 1984; Nespor & Vogel 2007), wonach • eine übergeordnete prosodische Konstituente sich aus einer oder mehreren Einheiten der von ihr dominierten, unmittelbar untergeordneten Konstituente zusammensetzt; • eine untergeordnete Konstituente vollständig in der übergeordneten enthalten ist. 330 9 Prosodie und Intonation <?page no="332"?> Ein Beispiel für eine hierarchische Anordnung, die der Strict Layer Hypothesis folgt, ist in (65) dargestellt. (65) In Beispiel (65) wird die noch einzuführende Konstituente Fuß voerst ignoriert und die Konzepte des phonologischen Wortes und der phonologischen Phrase vereinfacht und im umgangssprachlichen Sinne als Wort und Satz klassifiziert. Auch enthält die Hierarchie in (65) noch keine Information zu Wortbetonung und Satzakzentuierung. Dennoch veranschaulicht sie, dass jede Silbe einem und nur einem Wort zugeordnet wird, das wiederum eindeutig einer Phrase zugeordnet werden kann. Das mag bei diesem Beispielsatz trivial erscheinen, ist aber ein wichtiger Grundsatz bei der Analyse gesprochener Sprache, die oft reduzierte Formen aufweiset, wie z. B. in Hast Du als [has.d̥ə] (vgl. S. 259, Abb. 70). Durch Klitisierung (auch Klise) können zwei morpholo‐ gische Wörter zu einem phonologischen Wort zusammengefasst werden und im Falle von [has.d̥ə] sind die zwei Silben vollständig im übergeordneten phonologischen Wort haste enthalten. Unter bestimmten Umständen kann auch die Strict Layer Hypothesis verletzt werden, z. B. wenn man von Ambisilbizität bei Konsonanten ausgeht (vgl. 6.2.3). Die Silbe und ihre autosegmentale Repräsentation haben wir bereits in Kapitel 6 kennengelernt. Aufgrund ihrer Bedeutung für die prosodische Struktur, kann sie auch als prosodische Einheit definiert werden (z. B. Pompino-Marschall 1993; vgl. 6.1.3, s. 9.2, 9.3). Auf die Konstituente Fuß wird kurz in 9.2 eingegangen, auf die Intonationsphrase in 9.3. Für eine Einführung in die anderen Konstituenten und ihre Beziehung zur Morphologie (Wort) und Syntax (Phrase) s. z. B. Fuhrhop und Peters (2013) oder Hall (2011). Dort finden sich auch Beispiele für phonologische Prozesse, mithilfe derer die prosodischen Konstituenten als Einheiten belegt werden (ähnlich der Argumentation im Exkurs ‚Auslautverhärtung als Silbenbeweis‘). In den nachfolgenden Unterkapiteln werden phonetische Realisierungen häufiger phonologischer Wortbetonungs- (s. 9.2) und Satzakzentuierungsformen (s. 9.3) haupt‐ sächlich des Deutschen beschrieben, sowie deren auditive Wahrnehmung und linguis‐ tische Funktionen. Im Vordergrund steht dabei oft die akustisch messbare f0 (vgl. 2.3.1, 3.2.1) bzw. die auditiv wahrgenommene Tonhöhe. Will man die f0 untersuchen, so gilt es, mikroprosodische und makroprosodische Eigenschaften zu trennen, und nur letztere zu analysieren. Die f0-Verläufe in Abb. 83 weisen neben größeren, makropro‐ sodischen, f0-Unterschieden mehrere kleinere, mikroprosodische, f0-Auslenkungen auf, wie z. B. die v-förmigen Einschnitte zu Beginn von Nasalen und die Minigipfel an deren Ende (vgl. auch die ähnlichen Minipeaks am Übergang von [m] zu [aɪ̯ ] in 9.1 Einleitung 331 <?page no="333"?> Abb. 24, S. 92). Mit Blick auf die prosodische Struktur einer Äußerung sind solch mikroprosodische f0-Veränderungen irrelevant, da sie lautinhärent sind. Sie entstehen automatisch, wenn ein bestimmter Laut beziehungsweise eine bestimmte Lautkette produziert wird; Sprecher: innen können mikroprosodischen f0-Effekten nicht bewusst entgegen wirken. Lautinhärente und phonetisch vorhersagbare prosodische Parameter zählen zur Mikroprosodie und sind für die Prosodiewahrnehmung irrelevant. Die Makro‐ prosodie ergibt sich aus den prosodischen Parametern, die phonetisch nicht vorhersagbar sind und zur Prosodiewahrnehmung beitragen. Die deutliche f0-Auslenkungen auf keiner und mehr in Abb. 83 sind hingegen makro‐ prosodischer Natur und tragen zur wahrnehmbaren prosodischen Struktur bei. Sie markieren die jeweils akzentuierten Wörter in dieser Äußerung und sind phonetisch nicht vorhersagbar. Diese extrinsischen, steuerbaren f0-Verläufe entsprechen der Intonation; sie kann, wie in (66) dargestellt, stilisiert werden (ungeachtet stimmloser Segmente im Lautstrom). (66) Eine so stilisierte f0-Kontur entspricht in etwa dem Resultat einer ohrenphonetischen prosodischen Analyse; mikroprosodische Effekte treten hier nicht zutage. Welche Rolle mikroprosodische Effekte dennoch in der auditiven Wahrnehmung gesprochener Spra‐ che spielen, ist im Onlinekapitel ‚Mikroprosodie‘ nachzulesen. Die nachfolgenden Unterkapitel behandeln nunmehr ausschließlich die makropro‐ sodische Struktur einer Äußerung. Makroprosodische Eigenschaften gesprochener Äußerungen sind auf unterschiedlichen Ebenen zu finden: der Wortebene und der übergeordneten Phrasenbzw. Satzebene. 9.2 Wortprosodie und Wortbetonung Die Wortprosodie umfasst die makroprosodische Struktur eines Wortes, zu der die Wortbetonung zählt. In Sprachen mit Wortbetonung, wie etwa dem Deutschen, enthält jedes mehrsilbige Wort eine primär betonte, starke Silbe, die akustisch und auditiv prominenter ist als die anderen, schwächeren Silben desselben Wortes. 332 9 Prosodie und Intonation <?page no="334"?> Starke Silben werden mitunter auch als tonische Silben bezeichnet; diesem Terminus entsprechend beschreiben die Termini prä- und posttonisch die jeweils unmittelbar davor und danach vorkommenden schwachen Silben. Welche Silbe stark ist, hängt u. a. von phonologischen Faktoren wie dem Silbentypus oder dem Silbengewicht ab (vgl. 6.2.3, s. 9.2.2). Die phonetische Implementierung der Wortbetonung wird weiter unten genauer beschrieben. Bei der phonetischen und phonologischen Untersuchung der Wortbetonung (Engl. word oder lexical stress, auch Wortakzent) liegt der Fokus auf mehrsilbigen (Inhalts-)Wörtern, da nur bei ihnen unterschiedliche Prominenzverhält‐ nisse zwischen den Silben entstehen. Nur in 9.2.2 werden wir kurz auf Einsilber und Funktionswörter eingehen. 9.2.1 Phonologische Konzepte In der prosodischen Hierarchie ist der Silbe der Fuß übergeordnet. Eine erste, allge‐ meine Definition kann wie folgt lauten. Ein Fuß (Engl. foot) umfasst eine starke Silbe und alle schwachen Silben, die der starken Silbe - je nach Sprache - entweder vorausgehen oder folgen. Die starke Silbe wird auch als Kopf des Fußes bezeichnet, die Zuweisung von Silben bzw. Silbenfolgen zu Füßen als Pedifizierung. In komplexeren Wörtern kann es zu Prominenzunterschieden zwischen starken und schwachen Füßen kommen. Diese und weitere wichtige Begriffe seien im Folgenden anhand der Beispiele in (67) erklärt. In der Transkription werden die primär betonten Silben mit [ˈ] gekennzeichnet; es wird dabei vor der entsprechenden Silbe platziert, wo es das Symbol für eine Silbengrenze [.] ersetzen kann. (67) zahlen [ˈʦaː.lən] Auto [ˈaʊ.to] - Arznei [aːɐ̯tsˈnaɪ̯] Bandit [b̥anˈd̥ɪt] - getrunken [ɡ̊əˈtrʊŋ.kən] - - - Wiegenlieder [ˈviː.ɡənˌliːdɐ] - - In der frühen, linearen Theorie der distinktiven Merkmale wurden betonte Silben mit einem eigenen distinktiven Merkmal markiert, dass im Gegensatz zu anderen Merkmalen weder binär noch privativ war, sondern einen bestimmten Wert aufwies (vgl. Kap. 5, s. Wiese 1996). In der metrischen Phonologie wird die Wortbetonung hingegen nicht linear analysiert, z. B. mittels metrischer Bäume (s. (68) a.) oder durch metrische Gitter (s. (68) b.), die sich besonders für vielsilbige, morphologisch komplexe Wörter wie z. B. Komposita eignen, die aus mehreren phonologischen Wörtern bestehen. Mit ihnen können u. a. die Prominenzverhältnisse zwischen Silben, 9.2 Wortprosodie und Wortbetonung 333 <?page no="335"?> Füßen und phonologischen Wörtern analysiert werden, wobei auf jeder Ebene starke (s für Engl. strong) und schwache (w für Engl. weak) Elemente unterschieden werden (vgl. Silbengewicht in 6.2.3). (68) Wird aus den beiden zweisilbigen Wörtern Wiegen und Lieder, die jeweils einen Fuß mit je einer starken und einer schwachen Silbe umfassen, das Kompositum Wiegenlieder gebildet, so weist der linke Fuß eine stärkere Prominenz auf als der zweite. Das metrische Gitter in (68) b. bildet diese Prominenzverhältnisse ab, indem jedes starke Element auf der nächsthöheren prosodischen Ebene durch ein zusätzliches x markiert wird; die sich daraus ergebende höchste x-Säule markiert so die prominenteste Silbe eines Wortes (auch wenn dieses aus zwei phonologischen Wörtern besteht). In der Transkription wird die starke Silbe des schwächeren Fußes bzw. Wortes innerhalb eines Kompositums durch das Symbol für Sekundärbetonung (auch Nebenakzent, Engl. secondary stress), [ˌ], gekennzeichnet. Die sekundär betonte Silbe weist nach der primär betonten Silbe die zweitstärkste prosodische Prominenz auf. Bei Komposita ist die Sekundärbetonung einer Silbe im Deutschen unumstritten, z. B. Salatbesteck [zaˈlaːt.bəˌʃtɛk]. Ob im Deutschen auch Silben in Simplizia, d. h. in nicht zusammengesetzten Wörtern sekundär betont sind, wie etwa im Englischen (z. B. encyclopedia [ɪnˌsaɪ.kləˈpiː.di.ə]), ist hingegen fraglich. Auf der Grundlage von Messungen akustischer Segmentdauern argumentiert Jessen (1999: 518 f.) für Sekundärbetonung auf Silben, die zwei Silben vor der primär betonten Silbe vorkommen. Demnach wären auch Transkription von Enzyklopädie und Medizin als [ɛn.tsyˌklo.pɛˈdiː] bzw. [ˌme.di.ˈtsiːn] möglich. In den folgenden Absätzen geht es ausschließlich um Simplizia und die Position der primär betonten Silbe; auf die explizite Nennung von ‚primär‘ wird dabei verzichtet. In den Beispielwörtern des vorangegangenen Abschnittes, wie auch in Arznei in (67), ist jeweils die letzte Silbe stark. Neben diesen sogenannten (und im Deutschen möglicherweise nur auf den ersten Blick) rechtsköpfigen Füßen überwiegen im Deutschen aber die linksköpfigen Füße deutlich. Der traditionellen Verslehre folgend unterscheidet man u.-a. zwischen folgenden Fußtypen: • Trochäus: linksköpfiger Zweisilber, z.-B. Auto, Wiege(n), Lieder • Jambus: rechtsköpfiger Zweisilber, z.-B. Arznei, Bandit, Idee (aber s.-u.), • Daktylus: linksköpfiger Dreisilber, z.-B. Himbeere, • Anapäst: rechtsköpfiger Dreisilber, z.-B. Medizin, Krokodil (aber s.-u.). 334 9 Prosodie und Intonation <?page no="336"?> Manche Phonolog: innen gehen davon aus, dass es in einer Sprache nur linksköpfige bzw. rechtsköpfige Füße geben kann (Hayes 1995). Das Deutsche zählt demnach zu den linksköpfigen Sprachen und Wörter wie Krokodil werden als zweifüßig analysiert (z. B. Wiese 1996: 274). Dem zugrunde liegt eine etwas andere Definition von Fuß als der auf S. 333 (s. Wiese 1996: 61). Ein Fuß besteht entweder aus einer starken Silbe gefolgt von einer oder mehreren schwächeren Silben (wie [kro.ko] in Krokodil) oder er ist degeneriert und besteht aus nur einer Silbe. Die Silbe eines degenerierten Fußes kann betont (wie [ˈdiːl] in Krokodil) oder nicht betont sein (wie [i] in Idee). Bei der Pedifizierung wird dabei auch auf Konzepte wie Extrametrizität zurückge‐ griffen. In Analogie zur Extrasilbizität (vgl. 6.4), zählen Silben wie z. B. das Präfix [ɡə] in Gewand als extrametrisch, d. h. nicht zum Fuß gehörig. Einer solch linksköpfigen Analyse zufolge weist Gewand im Singular einen degenerierten Fuß auf, der die betonte Silbe [ˈvant] umfasst, und die Pluralform Gewänder - einem Trochäus entsprechend - einen zweisilbigen Fuß, in dem die erste Silbe [ˈvan] stark und die zweite Silbe [dɐ] schwach ist. Unabhängig davon, ob man Sekundärbetonung in Simplizia annimmt oder nicht, werden schwache Silben untergliedert in • nicht betonte Silben mit sogenannten Vollvokalen (alle Vokale außer / ə/ oder / ɐ/ ) im Nukleus, • unbetonte Silben mit stark reduzierbaren Vokalen wie / ə/ oder / ɐ/ , die im Nukleus elidiert werden können. Die zweisilbigen Wörter Auto und Bandit enthalten neben der primär betonten Silbe jeweils eine nicht betonte Silbe. Eine Reduktion der nicht primär betonten Silben in Form von Vokalkürzung und -zentralisierung oder sogar Elision ist nicht möglich (*[b̥ənˈd̥ɪt], *[ˈaʊ.tə]). Das dreisilbige Wort getrunken weist im Gegensatz dazu zwei unbetonte Silben auf, von denen der Nukleus der letzten Silbe häufig elidiert wird ([ɡəˈkɔm], vgl. 7.3). Das Auftreten dieser phonologischen Prozesse in Abhängigkeit der prosodischen Struktur verdeutlicht, dass die Wortbetonung eine wichtige Rolle in der phonologischen Beschreibung einer Sprache spielt. Da die Prominenzunterschiede zwischen den Silben im Lexikon festgelegt sind, handelt es sich bei der Zuweisung der Wortbetonung um einen lexikalischen Prozess. Eine Veränderung der Prominenzverhältnisse führt in den meisten Fällen zu einer von Muttersprachler: innen falsch empfundenen Aussprache (*[aʊˈto] bzw. *[ˈb̥an.d̥ɪt]). Bei einigen Wörtern wie Salat gibt es regionale Unterschiede in der Wortbetonung, die - in diesem Beispiel - zu einer Realisierung als [ˈzalaːt] führen (z. B. Obersächsisch). In den phonologischen Systemen dieser regionalen Varietäten fällt die Betonung dann aber wiederum immer auf dieselbe Silbe eines Wortes. Muttersprachler: innen des Deutschen 9.2 Wortprosodie und Wortbetonung 335 <?page no="337"?> 63 Einige Forscher: innen gehen davon aus, dass dies nur für entlehnte Wörter gilt; viele legen diese Annahme jedoch der Betonungszuweisung für alle Wörtern zugrunde. müssen im Erstspracherwerb lernen, welche Silbe in einem mehrsilbigen Wort betont ist. Nur unter bestimmten Umständen kann es zu einem sogenannten Betonungs‐ wechsel (Engl. stress shift) kommen. Dies sei der Eindeutigkeit halber anhand eines Beispiels aus dem Englischen erklärt: Folgt auf thirteen [θɜːˈtiːn] das Wort men [men], so fällt die Primärbetonung auf die erste Silbe des Zahlwortes [ˈθɜː̩tiːnˈmen], um einen Betonungszusammenstoß (auch Akzentzusammenstoß, Engl. stress clash) zu verhin‐ dern. Im Deutschen sind ebenfalls Betonungswechsel zu beobachten; sie verhalten sich aber möglicherweise anders als im Englischen (s. Wiese 1996), auch aufgrund der Deklination (steinreich, steinreicher Mann) und der Abhängigkeit der gewählten Pedifizierung. 9.2.2 Typologie und Betonungsregeln In der Typologie werden Sprachen wortprosodisch wie folgt unterschieden: • Sprachen mit fester, d. h. vorhersagbarer (auch nicht phonemischer) Wortbeto‐ nung (Engl. fixed stress), in denen die Position für die betonte Silbe innerhalb eines Wortes vorgegeben ist (z. B. Polnisch, Ungarisch) oder nach Regeln zugewiesen wird (s.-u.); • Sprachen mit freier, d. h. unvorhersagbarer (auch phonemischer) Wortbetonung (Engl. free stress), in denen die Position für die betonte Silbe innerhalb eines Wortes variieren und zu Bedeutungsunterscheidungen auf der Ebene der Semantik führen kann (z.-B. Italienisch, Russisch); • Sprachen ohne Wortbetonung (häufig Tonsprachen, z. B. Kantonesisch), in denen keine starken und schwachen Silben unterschieden werden. Das Deutsche wird oft den Sprachen mit freier bzw. nicht fester Wortbetonung zugeordnet (z. B. Goedemans & van der Hulst 2013), da die primär betonte Silbe in verschiedenen Silbenpositionen vorkommen kann (vgl. (67)). Auf der anderen Seite kann das Deutsche auch als Sprache mit überwiegend fester Wortbetonung klassifiziert werden (s. z. B. Fuhrhop & Peters 2013), da es eine Reihe von Wortbetonungsregeln (oft Wortakzentregeln) aufweist (z. B. Kohler 1995; Wiese 1996). Die Regeln (69)-(71) beziehen sich auf Simplizia des Deutschen und sind Jessen (1999) zufolge relativ un‐ umstritten (im Gegensatz zu weiteren Regeln, die hier aber nicht besprochen werden). Regel (69) liegt die Annahme zugrunde, dass die Zuweisung der Wortbetonung von rechts nach links, d.-h. vom Wortende aus erfolgt. 63 336 9 Prosodie und Intonation <?page no="338"?> (69) Die Betonung fällt auf die (a) letzte (Ultima), (b) vorletzte (Pänultima) oder (c) vorvorletzte Silbe (Antepänultima), wenn deren Nukleus einen Vollvokal enthält, z.-B. (a) Polizei, (b) Rakete, (c) Schmetterling. Regel (69) markiert lediglich den Bereich des Wortes, innerhalb dessen die Wortbeto‐ nung auftritt; sie benennt nicht die Silbenposition, auf die die Betonung im Deutschen am häufigsten fällt, die Pänultima (s. u.). Die Betonung der ersten Silbe in einem viersilbigen Wort wie Abenteuer [ˈaːbn̩tɔɪ̯ɐ] entsteht nur aufgrund des unbetonbaren, dafür elidierbaren Schwas in der Antepänultima (s. Wiese 1996). Ist die Pänultima hingegen geschlossen kann die Betonung nur noch auf die letzten beiden Silben fallen, wie in Regel (70) spezifiziert. (70) Die Betonung fällt auf die Pänultima, wenn diese geschlossen bzw. schwer und die Ultima leicht ist, andernfalls auf die Ultima (z.-B. Bande, aber Bandit). Regel (70) verdeutlicht die Rolles des Silbengewichts in der Wortprosodie, voraus‐ gesetzt, man betrachtet das Deutsche als gewichtssensitive Sprache (vgl. 6.2.3). An‐ dernfalls kann die generelle Tendenz zur Pänultima-Betonung herangezogen werden (Kohler 1995: 186), um dieses Wortbetonungsmuster im Deutschen zu beschreiben (Wiese 1996). Dieses Muster ergibt sich auch aus Regel (71), die auf die Bedeutung von Schwa in der Ultima eingeht. (71) Die Betonung fällt auf die Pänultima, wenn die Ultima einen Onset gefolgt von einem Schwa im Nukleus enthält, z.-B. Rakete Die Regeln verdeutlichen die größtenteils feste Wortbetonung im Deutschen. Unvorhersagbar, und damit frei und phonologisch, ist die Wortbetonung hingegen bei den zugrunde liegenden Formen der Belegwörter in (72). Dort führt eine Verände‐ rung der Wortbetonung von der (a.) Ultima auf die Pänultima oder (b.) Pänultima auf die Antepänultima bzw. initialen Silbe zu einer Bedeutungsänderung, also einer Änderung auf der Ebene der Semantik. (72) a. August / aʊ̯ˈɡʊst/ / ˈaʊ̯.ɡʊst/ - b. umfahren / ʊmˈfaːʁ.ən/ / ˈʊm.faːʁ.ən/ - - übersetzen / yː.bɐˈzɛʦ̣ən/ / ˈyː.bɐ.zɛʦ̣ən/ Allerdings gibt es nicht viele solcher Minimalpaare im Deutschen; Wörter mit freier Betonung sind nur bedingt produktiv. Da sich diese Minimalpaare jedoch gut für die signalphonetische Untersuchung der phonetischen Implementierung von Wort‐ betonung eignen, soll diese in 9.2.3 anhand von August verdeutlicht werden. Die 9.2 Wortprosodie und Wortbetonung 337 <?page no="339"?> akustischen Merkmale, mit denen die Silbenprominenzverhältnisse auf lexikalischer Ebene angezeigt werden, gelten sowohl für Wörter mit fester als auch freier Betonung. Insbesondere Dauerverhältnisse zwischen Silben oder auch Moren tragen in Abhän‐ gigkeit einer Sprache zu einem charakteristischen Sprachrhythmus bei. Der Exkurs ‚Sprachrhythmus in den Sprachen der Welt‘ (s. unten) stellt die drei Rhythmustypen vor, nach den Sprachen typologisch klassifiziert werden. Sprachrhythmus beschreibt die wahrgenommene Regelmäßigkeit, mit der pro‐ minente prosodische Einheiten wie etwa Silben oder Füße wiederkehren. Der Fokus lag wie in 9.2 eingangs erwähnt bislang auf mehrsilbigen Inhaltswörtern. Auch in mehrsilbigen Funktionswörtern wie in der Präposition über ist eine Silbe prominenter als die andere, in diesem Fall die erste. Dass Funktionswörter unabhängig von ihrer Silbenanzahl häufig nur eine schwache prosodische Prominenz aufweisen, liegt an der prosodischen Strukturierung der übergeordneten Phrasenebene, die in 9.3 näher beschrieben wird. Sprachrhythmus in den Sprachen der Welt Sprachen, in denen prosodische Füße als rhythmische Einheit angenommen werden (z. B. Deutsch) werden zu den akzentzählenden Sprachen gezählt (auch Wortsprachen, Engl. stress-timed). In diesen Sprachen ist es der Abstand zwischen zwei starken Silben, der zumindest auditiv als ungefähr gleich lang wahrgenommen wird, unabhängig davon, wie viele schwache Silben zwischen den beiden starken Silben vorkommen. Ein charakteristisches Merkmal akzent‐ zählender Sprachen ist die Vokalreduktion. Im Unterschied dazu werden in silbenzählenden Sprachen (z. B. Französisch, Engl. syllable-timed) alle Silben als ungefähr gleich lang wahrgenommen. In silbenzählenden Sprachen gilt damit die Silbe als rhythmische Einheit. Die auf der Isochronie-Hypothese aufbauende Klassifizierung in akzent- und silbenzählende Sprachen, wonach bestimmte Ein‐ heiten gleich lang sind, wurde insbesondere seit Pike (1945) untersucht, auch wenn akustische Dauermessungen eine solche Kategorisierung nur schwach unterstützen (Grabe & Low 2002). In der sprachtypologisch dritten Rhythmus‐ gruppe der morenzählenden Sprachen, wie etwa dem Japanischen, bildet die Mora anstelle der Silbe die rhythmische Einheit. Jede Mora wird als gleich lang wahrgenommen, unabhängig von der Segmentanzahl, die einer Mora zugerechnet wird. Neben klassifizierten Sprachen gibt es zudem nicht klassifizierbare Sprachen (z. B. Griechisch), die in keine der Kategorien zu fallen scheinen und gemischte Sprachen (z. B. Polnisch), die Merkmale von mehr als einer Rhythmusgruppe aufweisen (Grabe & Low 2002). 338 9 Prosodie und Intonation <?page no="340"?> In Sprachen ohne Wortbetonung wird häufig auch die f0-Lage und/ oder der f0-Ver‐ lauf innerhalb einer Silbe zur lexikalischen Unterscheidung von Wörtern genutzt. Sogenannte Registertöne (Engl. level tones) weisen einen ebenen f0-Verlauf in einem bestimmten Register auf, sogenannte Konturtöne (Engl. contour tones) eine tonale Änderung. Neben der Wortbetonung sind diese lexikalischen Töne ein weiterer Bestandteil der Wortprosodie. Ein Beispiel für eine sogenannte Tonsprache ohne Wortbetonung ist Kantonesisch: Je nachdem, ob die Silbe / si/ mit einem hohen, tiefen und fallenden oder mit einem steigenden f0-Verlauf realisiert wird, tragen die Wörter ganz unterschiedliche Bedeutungen, in diesem Falle Seide, Zeit bzw. Geschichte. Dies sind nur drei der insgesamt sechs Töne, die Kantonesisch zur Bedeutungsunterschei‐ dung auf der lexikalischen Ebene nutzt. Die entsprechende IPA-Transkription der verschiedenen Formen und die entsprechenden Übersetzungen sind in (73) gelistet: (73) ˥ hohe Tonlage, ebener Verlauf si˥ Seide - ˧ mittlere Tonlage, ebener Verlauf si˧ versuchen - ˨ halbtiefe Tonlage, ebener Verlauf si˨ Angelegenheit - ˩ von halbtief bis tief fallend si˩ Zeit - ˦˥ von halbtief bis hoch steigend si˦˥ Geschichte - ˩˨ von halbtief bis mittel steigend si˩˨ Stadt - Beispiele aus Zee (1999) Dass Tonsprachen auch Wortbetonung aufweisen können, zeigt das Sprachbeispiel Mandarin: Standardchinesisch unterscheidet zwischen starken Silben mit lexikali‐ schem Ton und schwachen Silben ohne einen lexikalischen Ton. 9.2.3 Phonetische Analysen Wortbetonung wird meist durch ein Zusammenspiel verschiedener akustischer Merk‐ male kodiert, insbesondere durch die Segmentdauer, die Intensität und die f0. Dabei wird insbesondere der Vokal modifiziert: je prominenter eine Silbe und deren Nukleus, desto länger und lauter ist sie. Oft geht lexikalische Betonung auch mit verstärkter Hy‐ perartikulation einher, d. h., Vokale werden weniger stark zentralisiert oder gekürzt im Vergleich zu nicht betonten Vokalen (vgl. H&H-Theorie in 8.3.3.2). Der f0-Unterschied zu den nicht betonten Silben ist in der Regel deutlich, wobei innerhalb desselben Wortes die f0 steigen als auch fallen kann. Genauer: Um auf [aʊˈɡ̊ʊst] zu verweisen, kann die f0 auf der zweiten Silbe sowohl (a) hoch als auch (b) tief sein; in der Regel ist dann die f0 auf der nicht betonten Silbe (a) tiefer bzw. (b) höher. Aber auch die Realisierung mit einem flachen f0-Verlauf über beide Silben ist denkbar, vorausgesetzt die wortbetonte 9.2 Wortprosodie und Wortbetonung 339 <?page no="341"?> Silbe wird mit einem der anderen akustischen Merkmale gekennzeichnet (mehr dazu weiter unten). Abb. 84: Zeitlich mit der etikettierten Segmentebene synchronisierte f0-Verläufe über je eine Realisie‐ rung des Monats August (a., links) und des Männernamens August (b., rechts). Auf der untersten Ebene ist der Hochton auf der primär betonten Silbe markiert. Der Unterschied zwischen betonter und nicht betonter Silbe wird in Abb. 84 anhand von bestimmten Dauerverhältnissen und einer makroprosodischen f0-Änderung jeweils innerhalb des Wortes deutlich: Zwischen Pänultima und Ultima weist die Realisierung des männlichen Vornamens August (rechts) ein deutliches f0-Gefälle und einen relativ großen Dauerunterschied zwischen den Nuklei auf. Bei der Realisierung des Monats‐ namen August (links) hingegen steigt (in diesem Beispiel) die f0 über die Silbengrenze deutlich an und der Nukleus der ersten Silbe ist nicht viel länger als der der zweiten. Die relative Anpassung der Vokaldauerverhältnisse anstelle einer Änderung von lang-kurz zu kurz-lang ist den zugrunde liegenden Vokalquantitäten geschuldet: Während der betonte Langvokal (hier in Form des Diphthongs) deutlich länger als der unbetonte Kurzvokal ist, wird bei Betonung des Kurzvokals nur der Unterschied zum nicht betonten Langvokal kleiner. Dass nur einer der o. g. Parameter ausreichen kann, um die wortbetonte Silbe eindeu‐ tig zu kodieren, sei anhand von Sprachperzeptionsdaten aus Kleber & Niebuhr (2010) verdeutlicht. Für das dort veröffentlichte Perzeptionsexperiment wurde Vokaldauer als ein wichtiger Reiz für die Erkennung eines Wortbetonungsmusters isoliert. Analog zu den in 8.3 eingeführten Identifikationstests mit Stimuli, die ein akustisches Kontinuum bilden, wurde ein Kontinuum von [ˈaʊ.gʊstʰ] (Stimulus 1) zu [aʊˈgʊstʰ] (Stimulus 7) erstellt. Die Stimuli unterschieden sich allein in der sukzessiven Verschiebung der Dauerverhältnisse der beiden Silbennuklei, wobei von Stimulus 1 zu Stimulus 7 einerseits die Segmentdauer des Diphthongs [aʊ] gekürzt (von 265 ms auf 155 ms) und anderseits die Segmentdauer von [ʊ] in der zweiten Silbe gelängt wurde (von 120 ms auf 215 ms). Der f0-Verlauf und die Intensität wurden bei allen Stimuli konstant und ambig gehalten, sodass den Hörer: innen nur der akustische Dauerparameter als Reiz 340 9 Prosodie und Intonation <?page no="342"?> 64 Die hohe Anzahl an Wiederholungen ist verschiedenen Kontextlisten geschuldet, über die hier der Einfachheit halber gemittelt wurde. zur Verfügung stand, um einen dargebotenen Stimulus als männlichen Vor- oder als Monatsnamen zu klassifizieren. Abb. 85: Anteil an ‚Monat‘-Antworten (%) als Funktion von Stimulusnummer für je 600 Urteile pro Stimulusnummer (15 jüngere Hörer: innen × 40 Wiederholungen 64 pro Stimulusnr.; Daten aus Kleber & Niebuhr (2010). Abb. 85 zeigt den Anteil der Monat-Antwort pro Stimulus. Die Hörer: innen perzipierten auditiv fast ausschließlich den Namen [ˈaʊ.ɡʊst], wenn die erste Silbe proportional deutlich länger als die zweite ist. Ändert sich dieses Verhältnis, sodass der Vokal der zweiten Silbe verhältnismäßig lang und der der ersten Silbe verhältnismäßig kurz ist, so nahmen sie überwiegend den Monat [aʊˈɡʊst] wahr. Dieses Beispielexperiment zeigt, dass 1. Hörer: innen allein auf der Basis des akustischen Parameters Vokaldauerverhältnis das akustische Kontinuum in zwei klar voneinander getrennte Kategorien unter‐ teilten, 2. sich prosodische Fragestellungen mit ähnlichen Versuchsaufbauten prüfen lassen, wie wir sie für die segmentale Ebene in 8.3 kennengelernt haben. Im Vergleich zu einigen der dort besprochenen Antwortkurven fällt die Veränderung in der auditiven Wahrnehmung der wortbetonten Silbe allein als Funktion des Dauer‐ verhältnis jedoch gradueller aus. 9.2 Wortprosodie und Wortbetonung 341 <?page no="343"?> 9.3 Satzprosodie und Intonation Auch auf der prosodisch nächsthöheren Ebene der Phrase variiert die relative Promi‐ nenz einzelner Elemente zueinander und verändert die Bedeutung postlexikalisch. Die Elemente sind die Wörter und die Domäne, innerhalb der die Prominenzunterschiede auftreten, sind die prosodischen Phrasen. Äußerungen werden in prosodische Phrasen untergliedert. Sie können mit syn‐ taktischen Phrasen übereinstimmen, müssen dies aber nicht. Oft bestehen Phrasen aus mehreren Wörtern, mitunter aber auch nur aus einem. Jede Phrase hat mindestens ein satzakzentuiertes Wort, das eine höhere Prominenz im Vergleich zu nicht satzakzentuierten Wörtern derselben Phrase aufweist. In Phrasen mit nur einem Wort ist dieses satzakzentuiert. Der Satzakzent dockt grundsätzlich an die wortbetonte Silbe an und verstärkt somit die wahrgenommene Prominenz auf der Phrasenebene. Wiese (1996) argumentiert, dass im Deutschen die syntaktisch definierten phonologi‐ schen Phrasen wie etwa Nominal- oder Verbalphrasen die Domäne für die Satzakzen‐ tuierung ist. Anderen Ansätzen zufolge hängt die Satzakzentuierung auch von der Informationsstruktur ab (s. z. B. Büring 2006, Féry 2011), wonach neue Information bzw. im Fokus stehende einzelne oder mehrere Wörter einer prosodischen Phrase akzentuiert werden, alte Information hingegen nicht (s. auch Halliday 1967a, b). Auch in der nachfolgenden phonetisch-phonologischen Beschreibung spielen syntaktische Phrasen keine Rolle mehr, weshalb der Begriff prosodische Phrase nunmehr gleichbe‐ deutend mit Phrase verwendet und abgekürzt wird. Dabei werden zunächst in 9.3.1 die Phrasen näher beschrieben, bevor wir uns in 9.3.2 und 9.3.3 im Detail, einige tonale Realisierungen der Satzakzentuierung innerhalb bestimmter Phrasen im Deutschen anschauen. Grund hierfür ist, dass die Beschreibung von makroprosodischen Intonationsmustern anhand von Beispielphrasen, wichtige Komponenten umfassen, die Teil der Phrase sind (z.-B. Phrasengrenztöne). 9.3.1 Prosodische Phrasen Äußerungen werden in prosodische Phrasen untergliedert, um diese zu strukturieren. Diese Form der Strukturierung, die als Phrasierung bezeichnet wird, dient einerseits der sprecherseitigen Planung und andererseits einem besseren Verständnis auf Hö‐ rerseite. Die Beispiele in (74) zeigen zwei mögliche Phrasierungen einer längeren Äußerung, wobei jede Phrase durch eckige Klammern gekennzeichnet ist. (74) a. [Das große Schiff] [segelte majestätisch] [an uns vorbei.] 342 9 Prosodie und Intonation <?page no="344"?> b. [Das große Schiff segelte majestätisch] [an uns vorbei.] Die Anzahl der Wörter innerhalb einer Phrase ist nicht vorhersagbar, abgesehen von einer physiologisch bedingten Begrenzung nach oben durch die Atemphase (vgl. 2.1.1, s. u.). Syntaktisch motivierte Phrasierungen, in denen syntaktische und prosodische Phrasen zusammenfallen, sind intuitiv gut nachvollziehbar und sicherlich auch häufig in der gesprochenen Sprache zu beobachten. Mitunter tragen sie auch maßgeblich zur Bedeutungsunterscheidung bei, so wie in den Beispielen in (75). (75) a. [Schule ist einfach anders als Studium.] - b. [Schule ist einfach,] [anders als Studium.] Mittels der Phrasierung in (75b.), die mit einer durch Komma angezeigten Unterteilung in Haupt- und Nebensatz einhergeht, drücken wir aus, dass Schule im Gegensatz zum Studium einfach sei. Realisiert man hingegen alle sechs Wörter wie in (75a.) als eine Phrase, so beschreibt man den Unterschied zwischen Schule und Studium (s. Abb. 86). Abb. 86: Zeitlich mit der etikettierten Segment-, Ton- und Phrasenebene synchronisierte f0-Verläufe über zwei Realisierungen der Äußerung Schule ist einfach(,) anders als Studium: Eine Phrase (a., oben); zwei Phrasen mit Pause (b. unten). Auf der Tonebene (Mitte) sind makroprosodische Hochtöne und tiefe Grenztöne markiert. 9.3 Satzprosodie und Intonation 343 <?page no="345"?> Oft aber sind Phrasierungen in der gesprochenen Sprache nicht syntaktisch bedingt. Tatsächlich kann jedes Wort eines Satzes eine eigene Phrase bilden; man denke hier nur an einige Redner: innen, die zu Zwecken der Prominenzverstärkung Äußerungen über die Maßen prosodisch phrasieren, so wie in Beispiel (76). (76) [Nicht] [mit] [uns! ] In der Regel phrasieren wir natürlich moderater, aber eben nicht nur unter syn‐ taktischen Gesichtspunkten. Vielmehr bestimmen auch Sprachproduktionsabläufe und die zielgerichtete Untergliederung zur besseren perzeptiven Dekodierung die prosodische Phrasierung: (1) Beginn und Ende von Atemphasen markieren immer auch Beginn und Ende prosodischer Phrasen (aber andersherum nicht zwangsläufig). (2) Sucht man während des Sprechvorgangs nach einem Wort führt dies zu Verzöge‐ rungen, sogenannten Häsitationen, und Phrasengrenzen. (3) Phrasen können durch Isolierung von Wörtern entstehen, um diese für den oder die Hörer: in hervorzuheben. Wenn aber Phrasen nicht grundsätzlich mit syntaktischen Phrasen einhergehen und die Anzahl der Wörter nicht vorhersagbar ist, was zeichnet sie dann aus? Woran erkennt man sie? In gesprochener Sprache werden prosodische Phrasen über die Präsenz der folgen‐ den auditiv wahrnehmbaren phonetischen Merkmale beschrieben: • Die zeitlichen Intervalle von Phrasen umfassen in der Regel mehrere Silben bis hin zu mehreren Wörtern und weisen eine gewisse Dauer auf, über deren stimmhafte Phone … • … ein makroprosodischer f0-Verlauf realisiert wird (Intonationskontur). • Die Intonationskontur einer Phrase ist durch eine Deklination (Engl. declination, auch downdrift), d. h. durch ein leichtes Absinken der f0 gekennzeichnet (vgl. S. 332, Beispiel (66), S. 343, Abb. 86 und s. S. 350, Abb. 88). • Beginn und Ende einer Phrase sind durch Phrasengrenzen markiert (s.-u.). Die Deklination der f0 ist physiologisch bedingt, da der subglottale Luftdruck über die Zeit hin abnimmt (vgl. 2.3.1). Das Einsetzen einer neuen Phrase ist häufig mit einem sogenannten Pitch Reset verbunden, bei dem die f0 gewissermaßen zurückgesetzt wird. Phrasengrenzen oder Junkturen (Engl. junctures) dienen der Abgrenzung von Phrasen (Demarkation, Engl. demarcating function) und werden durch eine Kombi‐ nation verschiedener akustischer Merkmale phonetisch implementiert, wobei einige Merkmale auch fehlen oder nur schwach ausgeprägt sein können. Die wichtigsten Merkmale sind: 344 9 Prosodie und Intonation <?page no="346"?> • Pausen von unterschiedlicher Länge, • phrasenfinale Längung der letzten Silben (vgl. die längere Dauer von [fax] in Abb. 86 b. im Vergleich zu a. und die längere Dauer von [ə] und [ɐ] in finaler Position im Vergleich zu Kurzvokalen in der betonten, aber nicht finalen Silbe in Abb. 59), • Grenztöne, d.-h. tonale Ereignisse zu Beginn und am Ende von Phrasen, • Pitch Reset zu Beginn von Phrasen (vgl. die höhere f0 in [andɐs] in Abb. 86 b. im Vergleich zu a.). Grenztöne sind ein elementarer Bestandteil des AM-Modells der Intonationsphono‐ logie und werden in 9.3.2 genauer beschrieben. Hinsichtlich des Pausenmerkmals ist anzumerken, dass diese zwar eindeutige Phrasengrenzen signalisieren können, nicht jede Phrasengrenze aber durch eine Pause markiert sein muss. Ob eine Pause realisiert wird, hängt dabei oft von der zugrunde liegenden Phrasengröße und der damit verbundenen Grenzstärke ab. Viele Modelle unterscheiden zwei phonologische Phrasengrößen: Einen kleine‐ ren, hierarchisch untergeordneten und einen größeren, hierarchisch übergeordneten Phrasentyp. Der größere Phrasentyp wird als Intonationsphrase (IP) bezeichnet; die verwendeten Termini für den kleineren Phrasentyp sind sowohl sprachals auch modellabhängig. So geht man beispielsweise in einem AM-basierten Ansatz zum Koreanischen von Akzentphrasen mit prominenzverstärkender Funktion aus, und nicht von satzakzentuierten Wörtern, wie wir sie aus dem Deutschen kennen. Im Englischen werden solche Sprachen daher als edge languages klassifiziert ( Jun 2014). Das Deutsche zählt dieser Typologie zufolge zu den head languages, in denen prosodische Prominenz über Köpfe verstärkt wird, seien es Köpfe von Füßen auf der lexikalischen Ebene oder Köpfe in Form von Satzakzenten auf der Phrasenebene (s. 9.3.2). Aber auch der ebenfalls AM-basierte GToBI-Ansatz zum Deutschen (Grice et al. 2005; s. 9.3.3) geht von einem zusätzlichen kleineren Phrasentyp aus: Die in (74) a. markierten (phonologischen) Phrasen entsprechen sehr wahrscheinlich sogenannten Intermediärphrasen (ip), die in einer übergeordneten Intonationsphrase enthalten sind. Folglich sind keine Pausen und nur schwach ausgeprägte andere Grenzmerkmale an den Grenzen der Intermediärphrasen zu erwarten. Eine modifizierte Notation dieser Unterschiede in den Phrasengrenzen ist in (77) dargestellt. (77) [[Das große Schiff] ip [segelte majestätisch] ip [an uns vorbei.] ip ] IP Werden unterschiedliche Phrasengrößen unterschieden, so muss der Strict Layer Hypothesis zufolge ein untergeordneter Phrasentyp (z. B. eine ip) Teil eines übergeordneten Phrasentyps sein (z.-B. einer IP). 9.3 Satzprosodie und Intonation 345 <?page no="347"?> Abb. 87: Zeitlich synchronisierter f0-Verlauf über die Realisierung des Satzes August war im August im Urlaub. mit einem Satzakzent (H) auf der Monatsbezeichnung. Unterspezifizierte Töne auf den anderen, nicht satzakzentuierten Wörtern sind in Klammern angegeben. Prosodische Phrasen sind Ladd (2008: 288) zufolge erstaunlich schwer zu identifi‐ zieren, insbesondere bei kleineren Phrasen und wenn die akustischen Merkmale der Phrasierung nur schwach ausgeprägt sind. Folglich kann es bei der Transkription von Phrasen zu großen Abweichungen zwischen Transkribierer: innen kommen (vgl. 1.1.3), auch weil prosodische Phrasen nicht syntaktisch motiviert sein müssen. In 9.3.3 werden daher - der Einfachheit halber - f0-Verläufe über Intonationsphra‐ sen des Deutschen beschrieben, die jeweils nur eine Intermediärphrase enthalten. Da eine solche Beschreibung grundsätzlich auch die des obligatorischen Satzakzen‐ tes umfasst, soll dieser zuvor in 9.3.2 vorgestellt werden, und zwar im Rahmen des AM-Modells. 9.3.2 Satzakzentuierung und das AM-Modell der Intonationsphonologie Dieselben akustischen Parameter, mit denen die Wortbetonung markiert wird, können auf der nächsthöheren Ebene den/ die Satzakzent(e) (Engl. sentence oder phrasal stress) markieren (vgl. 9.2.3). Abb. 87 zeigt den Intonationsverlauf über eine Realisierung der Antwort auf die Frage in (78). (78) Frage: War August im September im Urlaub? - Antwort: August war im August im Urlaub. Die Monatsbezeichnung wird hier im Vergleich zu den anderen Wörtern in Form einer markanten f0-Bewegung hervorgehoben, da es sich bei ihr um die entscheidende neue Information handelt, die in der Antwort übermittelt wird, genau genommen um einen sogenannten korrektiven Fokus. Bei allen anderen Wörtern, inklusive des Namens August, handelt es sich um alte Information, die bereits Teil der Frage waren (zu den (L)-Markierungen in Abb. 87 s.-u.). 346 9 Prosodie und Intonation <?page no="348"?> Für die Platzierung eines oder mehrerer Satzakzente(s) ist auf Phrasenebene sehr viel Spielraum. So wird zwar in vielen Fällen in einer Nominalphrase wie der in (79) a. das letzte Wort satzakzentuiert (Nuclear Stress Rule, s. Wiese 1996: 303), aber Satzakzentplatzierungen wie in b. und c., in denen eines der Wörter einen Kontrast zu einem anderen (unter Umständen nicht ausgesprochenen) Wort bildet (Kontrast‐ akzent), sind möglich und intuitiv leicht vorstellbar, insbesondere wenn man sich den entsprechenden Kontext vorstellt. (79) a. [das große SCHIFF] (neutral) - b. [das GROSSE Schiff] (nicht das kleine Schiff) - c. [DAS große Schiff] (nicht das andere große Schiff) Selbst ein einsilbiges Funktionswort wie der Artikel kann unter Umständen den Satzakzent in einer Phrase tragen (c.). Zudem können auch Einzelwörter Phrasen mit Satzakzenten bilden, so wie in Beispiel (76) oder der Artikel das, der als Einzelwort-Rea‐ lisierung Bestandteil des Übungskorpus Datenbank2_emuDB ist. In einem metrischen Ansatz könnte man z. B. in einem Gitter die zusätzliche Prominenz auf der Phrasenebene markieren. In der sogenannten britischen Schule wurden Intonationskonturen als ganzheitliche Konturen analysiert und beispielsweise als steigend-fallend beschrieben (z. B. Halliday 1967a). Im Gegensatz zu diesem konturbasierten Ansatz werden im autosegmental-metrischen Ansatz nur funktionale tonale Ziele markiert. Tonale Ziele (Engl. tonal targets) in Form von Maxima in f0-Gipfeln oder Minima in f0-Tälern (im Engl. auch turning points) werden im AM-Modell als Autosegmente auf der autosegmentalen Ebene repräsentiert (vgl. 6.2), die mit starken Silben in der metrischen Äußerungsstruktur assoziiert sind (Engl. tune-text association). Für die Transkription einer Intonationskontur im Rahmen des AM-Modells wurde das sogenannte System der Tones and Break Indices, kurz ToBI, entwickelt, das im Gegensatz zum IPA jedoch nicht sprachunabhängig ist. Aufbauend auf dem ur‐ sprünglichen ToBI-System für amerikanisches Englisch wurden verschiedene Systeme für andere Sprachen entwickelt, darunter K-ToBI für Koreanisch und GToBi für das Deutsche (s. 9.3.3). Makroprosodische f0-Maxima korrespondieren in diesen Systemen mit Hochtönen und werden mit H (für Engl. high) abgekürzt, makroprosodische f0-Minima mit als L (für Engl. low) abgekürzten Tieftönen. Hohe und tiefe Ziele treten am Phrasenrand wie auch innerhalb von Phrasen auf. Unterschieden wird zwischen 9.3 Satzprosodie und Intonation 347 <?page no="349"?> 65 Hier wird der Terminologie in Grice & Baumann (2002) für das Deutsche bzw. Pierrehumbert (1980) für das Englische gefolgt, die den Begriff für postlexikalisch satzakzentuierte Wörter verwenden. Es sei aber darauf hingewiesen, dass manche Autor: innen den Begriff nur für lexikalisch distinktive Tonakzente verwenden, wie sie beispielsweise im Schwedischen zusätzlich zur Wortbetonung vorkommen (z. B. anden [ˈán.dən] ‚die Ente‘ vs. anden [ˈàn.dən] ‚der Geist‘; [ ́] und [ ̀] markieren hohe bzw. tiefe Tonakzente auf der lexikalischen Ebene). • phonologischen Tonakzenten 65 (von Engl. pitch accents, auch Tonhöhenakzente) zur Markierung von Satzakzenten innerhalb von Phrasen, • phonologischen Grenztönen (Engl. boundary tones) zur Markierung von Phrasen‐ grenzen. Hoch- und Tieftöne sind in diesem Ansatz die phonologischen Grundeinheiten der Intonation, nicht die ganzheitliche Kontur. Die tonal repräsentierte Intonationskontur ergibt sich im AM-Modell aus der Interpolation zwischen diesen Grundeinheiten, d. h. zwischen konsekutiven Tonakzenten und Grenztönen. Verschiedene, auditiv gut unterscheidbare Tonfolgen werden dabei postlexikalisch zur Bedeutungsänderung genutzt. Einige der Tonfolgen und ihre Funktionen werden in 9.3.3 vorgestellt. Nicht satzakzentuierte Wörter einer Phrase sind - wie auch die Präsenz der f0-Kontur bei stimmhaften Segmenten anzeigt - nicht tonlos; sie gelten im AM-Modell vielmehr als unterspezifiziert (vgl. 5.2). In Abb. 87 ist ein Autosegment H mit der zweiten Silbe des Monatsnamen August assoziiert, die eingeklammerten Töne beschreiben die unterspezifizierten Töne der nicht phrasenakzentuierten Wörter. Tonakzente werden durch einen * markiert und über • ihre Skalierung der f0 bzw. Tonhöhe und • ihre zeitliche Synchronisierung mit der betonten Silbe (Engl. Alignment) definiert. Genauer: Skalierung beschreibt die Höhe eines Tons oder auch f0-Wertes von sehr tief bis sehr hoch, die Synchronisierung, ob das tonale Ziel zeitlich früh (vor oder zu Beginn der Silbe) oder spät (in oder nach der Silbe) erreicht wird. Der gesternte Tonakzent gibt die Assoziation eines tonalen Autosegments mit einer wortbetonten Silbe auf der segmentalen Ebene an. Zwei Arten von Tonakzenten werden unterschieden: Sogenannte monotonale Tonakzente weisen keine starke f0-Bewegung auf, sondern sind entweder durch einen tiefen (L*) oder einen hohen (H*) Ton charakterisiert. Im Gegensatz dazu weisen bitonale Tonakzente eine starke f0-Bewegung und auditiv wahrnehmbare Tonhöhenänderung auf. Diese wird durch den entsprechenden Begleitton angezeigt, der dem Tonakzent vorausgehen oder nachfolgen kann, z. B. H+L* zur Markierung eines fallenden Tonakzentes oder L*+H zur Kennzeichnung eines tief steigenden Tonakzentes (mehr dazu in 9.3.3). Jede Phrase weist mindestens einen Tonakzent auf. Der letzte und mitunter einzige Tonakzent wird als Nuklearakzent bezeichnet. In Verbindung mit dem Grenzton ergeben sie die nukleare Kontur. 348 9 Prosodie und Intonation <?page no="350"?> 66 Neben dem GToBI-Modell gibt es andere sowohl ton- (Peters 2006) als auch konturbasierte (Kohler 1991, Niebuhr 2022) Modelle der Intonation des Deutschen. In 9.3.3 werden nun abschließend einige Tonakzente und obligatorische phrasenfinale Grenztöne von Intonationsphrasen des Deutschen vorgestellt. 9.3.3 Nukleare Konturen im GToBI-Modell In diesem Abschnitt werden vier, dem GToBI-Modell 66 folgende nukleare Konturen des Deutschen vorgestellt. Abb. 88 zeigt die zeitliche Synchronisierung der Realisierungen dieser Konturen mit der segmental gleichbleibenden Äußerung Mainau war malerisch. Die Etikettierung erfolgte in GToBI. Dieser Aussagesatz wurde für diese Beschreibung gewählt, da • die Bedeutung allein durch eine Änderung in der Intonation leicht verändert werden kann, • den meisten Segmenten die Merkmale [+son] bzw. [+sth] zugrunde liegen (vgl. Kap. 5) und die f0 somit kaum unterbrochen wird. Die Äußerungen a.-c. wurden mit derselben zugrunde liegenden nuklearen Kontur L+H* L-% realisiert; sie unterscheiden sich lediglich in der Position des Tonakzentes im Satz. Der bitonale Tonakzent L+H* ist durch einen deutlichen f0-Anstieg auf der wortbetonten Silbe des satzakzentuierten Wortes charakterisiert, das f0-Maximum wird zum Silbenende erreicht, mitunter auch etwas später. L+H* wird als steigender Tonakzent wahrgenommen und für Kontrastakzente genutzt. 9.3 Satzprosodie und Intonation 349 <?page no="351"?> Abb. 88: Realisierungen der nuklearen Konturen L+H*-L-% (a.-c.), L*-H-^H% (d.), H+L*-L-% (e.) und L*+H L-L% (f.) über die segmental gleichbleibende Äußerung Mainau war malerisch in Abhängigkeit der Satzposition (a.-c.), des Grenztons (L-% vs. H-^H%) und des Tonakzentes (L+H* vs. H+L* vs. L*+H), jeweils zeitlich synchronisiert mit der dazugehörigen segmentierten und etikettierten Segmentebene. Auf die Etikettierung der Wortbetonung wurde aus Platzgründen verzichtet; Pfeile markieren die jeweils satzakzentuierte Silbe. In Abb. 88a.-c. ist der f0-Anstieg zum Ende der jeweils wortbetonten Silbe erreicht. Nach einem kleinen f0-Plateau fällt die f0 deutlich in der posttonischen Silbe ab. Grund hierfür ist der tiefe Grenzton der Intonationsphrase, der in GToBI als L-% transkribiert wird. Der bitonale L+H* unterscheidet sich von dem ebenfalls als hoch wahrgenommenen monotonalen Tonakzent H* in dem Vorhandensein eines deutlichen Anstiegs. Während die hier nicht abgebildete Realisierung der nuklearen Kontur H* L-% in der Regel einer neutralen Aussage entspricht, führt die durch L+H* L-% repräsentierte Kontur zu einem Kontrastakzent auf dem entsprechenden Wort. Um den Anstieg realisieren zu können, wird auf der prätonischen Silbe ein f0-Minimum erreicht. In a. befindet sich dieses f0-Minimum in Ermanglung einer vorangehenden schwachen Silbe auf dem Onsetkonsonanten der betonten Silbe. Das leichte Abfallen der f0-Kontur vom Phrasenbeginn bis zum Beginn des Tonakzentes entspricht der Deklination (vgl. 9.3.1). Die Äußerungen in e. und f. von Abb. 88 weisen ebenfalls einen tiefen Grenzton L-% auf und wie schon in der in c. abgebildeten Äußerung ist der Nuklearakzent jeweils mit der betonten Silbe [ˈmaː] des letzten Wortes der Äußerung assoziiert. Der Unterschied zwischen den drei Äußerungen liegt in der zeitlichen Synchronisation des 350 9 Prosodie und Intonation <?page no="352"?> f0-Maximums und der f0-Skalierung, die in allen drei Fällen zu unterschiedlichen, d. h. distinktiven Tonakzenten führt. Der bitonale Tonakzent H+L* ist durch ein f0-Maximum auf der pretonischen Silbe und einen tief fallenden f0-Verlauf auf der starken Silbe charakterisiert. Der auch als frühe Gipfel bezeichnete Akzent wird als fallender Tonakzent wahrgenommen und mit der Bedeutung alter Information in Verbindung gebracht. Er ist häufig bei Lesesprache zu beobachten. Die f0-Verläufe in b. und e. von Abb. 88 mögen auf den ersten Blick recht ähnlich ausschauen, doch ein zweiter Blick zeigt Unterschiede auf, die auch den deutlich wahr‐ nehmbaren Unterschied zwischen den beiden Konturen L+H* L-% (b.) und H+L* L-% (e.) erklären. 1. In b. ist der Tonakzent mit war assoziiert und bildet dort einen Kontrastakzent. Auf dem im Verhältnis zu den Umgebungssegmenten gelängten Silbennukleus wird ein tiefes tonales Ziel erreicht bevor f0 ansteigt und den hohen Tonakzent zum Ende von [aːʁ̯] erreicht (daher L+H*). Dies führt zur Wahrnehmung eines steigenden Tonakzentes auf war. 2. In e. ist der Tonakzent mit [ˈmaː] in malerisch assoziiert und bildet dort keinen Kontrastakzent. Das hier nicht akzentuierte Wort war ist nicht gelängt. Der f0-Verlauf auf der starken und satzakzentuierten Silbe [ˈmaː] ist gekennzeichnet durch ein f0-Maximum auf [m] und einen darauffolgenden deutlichen f0-Abfall, wobei das f0-Minimum im Verlauf von [aː] erreicht wird (daher H+L*). Dies führt zur Wahrnehmung eines fallenden Tonakzentes auf malerisch. Während also der tiefe f0-Wert auf [ˈmaː] in b. einer tonalen Unterspezifikation entspricht (und daher nicht transkribiert ist), handelt es sich bei dem mit [ˈmaː] assoziierten L* in e. um ein phonologisches Ziel. Dass [ˈmaː] und die darauffolgenden schwachen Silben auch in b. (und a.) verhältnismäßig lang sind, d. h. in einer Äußerung, in der der Nuklearakzent nicht auf das letzte Wort fällt, liegt an der phrasenfinalen Längung (vgl. 9.3.1). Auch die f0-Verläufe in c. und f. weisen neben Unterschieden auch Ähnlichkeiten auf. Letztere zeigen sich am deutlichen f0-Anstieg auf derselben wortbetonten Silbe desselben satzakzentuierten Wortes, weshalb beide Konturen die Tonfolge LH aufwei‐ sen (anstelle z. B. von HL wie in e.). Ein entscheidender phonetischer Unterschied zwischen den in c. und f. dargestellten Beispieläußerungen liegt in der f0-Skalierung: In f. ist der Anstieg sehr steil, da er nicht nur später beginnt, sondern auch sehr hoch endet, weshalb die Kontur als tief-steigend wahrgenommen und phonologisch als L*+H analysiert werden kann, d. h. als tiefer Tonakzent, auf den ein hoher Begleitton folgt. Aufgrund der tief-steigenden Kontur, wird der hohe Begleitton oft auch erst in der 9.3 Satzprosodie und Intonation 351 <?page no="353"?> posttonischen Silbe erreicht, weswegen dieser Tonakzent mitunter auch als später Gipfel bezeichnet wird. Der bitonale Tonakzent L*+H ist durch ein f0-Minimum auf der starken Silbe und einen stark steigenden f0-Verlauf auf der posttonischen Silbe charakterisiert. Der auch als späte Gipfel bezeichnete Akzent wird als tief-steigender Tonakzent wahrgenommen und mit der Bedeutung Erstaunen in Verbindung gebracht. In unserem Beispiel zeigt sich der Unterschied weniger in der Synchronisierung des Hochtons als in der des Tieftons. In der in c. abgebildeten Kontur L+H* L-% wird das für L+H* relevante f0-Minimum recht früh in [ˈmaː] erreicht, bevor f0 ansteigt. In der in f. abgebildeten Kontur L*+H L-% beginnt der f0-Anstieg sehr viel später im Silbennukleus von [ˈmaː], was zur Wahrnehmung der tief-steigenden Kontur führt. Wie man die Rolle der Synchronisierung des f0-Maximums, die zu Begriffen wie früher und später Gipfel geführt haben, experimentell prüfen kann, ist im Exkurs ‚Kategoriale Intonationswahrnehmung‘ (s. unten) nachzulesen. Kategoriale Intonationswahrnehmung Die distinktive Funktion zwischen frühen (H+L*), mittleren (L+H*, H*) und späten Gipfeln (L*+H) wurde unabhängig von der autosegmental-metrischen ToBI-Analyse von Kohler (1987) in einer Perzeptionstestserie geprüft, die sich an der zur Kategorialen Wahrnehmung orientierte (vgl. 8.3.1). Aus dem Satz Sie hat ja gelogen. mit einer nuklearen Kontur der Form L*+H L-% auf gelogen leitete er zehn weitere Stimuli ab, die sich in der zeitlichen Synchronisierung des f0-Gipfels unterschieden. In den ersten Stimuli war das f0-Maximum mit der prätonischen Silbe synchronisiert, in den letzten Stimuli mit der posttonischen Silbe. Ein Diskriminationstest ergab, dass Hörer: innen die Stimuli insbesondere dann über Zufallsniveau korrekt unterscheiden können, wenn die Stimuluspaare je einen frühen und einen mittleren Gipfel-Stimulus enthielten. Die Ergebnisse eines indirekten Identifikationstests zeigten, dass Hörer: innen nur Stimuli mit einem mittleren Gipfel als passende Realisierung empfanden, wenn der Kontextsatz Jetzt versteh ich das erst. vorangestellt wurde. Zusammen mit den Ergebnissen aus der direkten Frage nach der Bedeutung einer Kontur wertete Kohler die Ergebnisse als Evidenz, dass mittlere Gipfel neue Information signalisieren (die zu o. g. Kontext passt) und frühe Gipfel alte Information (die nicht zu o. g. Kontext passt). Die kombinierten Ergebnisse aus dem Diskriminations- und dem Identifikationstest suggerieren zudem, dass ein Unterschied in der Synchronisierung des f0-Gipfels im (prä)tonischen Bereich zu kategorialen Wahrnehmungsunterschieden führt. Die auditive Unterscheidbarkeit zwischen späten und mittleren Gipfeln fiel hingegen nur graduell aus. Dennoch verbinden Hörer: innen mit späten Gipfeln 352 9 Prosodie und Intonation <?page no="354"?> besonderen Nachdruck oder auch Erstaunen, d. h. eine andere Bedeutung. Ob die Wahrnehmung der Gipfeltypen eher kategorial oder eher graduell ausfällt, hängt zudem von der Geschwindigkeit ab, mit der f0 ansteigt (Niebuhr 2007). Die in d. dargestellte Realisierung der nuklearen Kontur L* H-^H% steht exemplarisch für die Veränderung einer nuklearen Kontur in Abhängigkeit eines Grenztons. Diese Äußerung weist einen tiefen monotonalen Tonakzent auf dem letzten Wort auf, gefolgt von einem hohen Grenzton. Die f0 steigt in diesem Fall auf der posttonischen Silbe an und von dort weiter bis zum Phrasenende. Diese Tonfolge wird oft für Fragen verwendet und daher auch als Frageintonation bezeichnet. Analog dazu bezieht sich der Begriff Aussageintonation auf Konturen, die tief enden. Übungsaufgaben 1. Kreisen Sie in Abb. 83 und Abb. 87 mikroprosodische Abschnitte im f0-Verlauf ein. Lesen Sie sich das Onlinekapitel ‚Mikroprosodie‘ durch und finden Sie zwei Bei‐ spiele, die dem mikroprosodischen Einfluss der Stimmhaftigkeit von Plosiven auf die f0 geschuldet sind. 2. Untergliedern Sie die folgenden Wörter in die einzelnen Silben und klassifizieren Sie die Silben in starke, primär betonte (B) und schwache, nicht primär betonte Silben. Unterscheiden Sie bei den schwachen Silben, nicht betonte (N) und unbe‐ tonte (U) Silben. a. Gegenstand Ge.gen.stand B.N.U b. verneinen ____________ ____________ c. manchmal ____________ ____________ d. Ökonomie ____________ ____________ 3. Zeichnen Sie einen metrischen Baum für folgende Wörter unter Berücksichtigung der Ebenen Silbe, Fuß und Wort und leiten Sie jeweils das dazugehörige metrische Gitter ab. c. Busbahnhof d. Weihnachten e. Automat 9.3 Satzprosodie und Intonation 353 <?page no="355"?> 4. Ergänzen Sie die Liste deutscher Wörter mit freier Wortbetonung in (72) (S. 337). 5. Warum fällt bei übersetzen die Betonung je nach Bedeutung entweder auf die Pänultima oder die initiale Silbe, nicht aber auf die Antepänultima trotz der Wortbetonungsregel (69)? 6. In Abb. 83 (S. 330), Abb. 86 (S. 343) und Abb. 87 (S. 346) wurden satzakzentuierte Wörter jeweils nur durch ein H markiert. Welchen Tonakzenten entsprechen diese Realisierungen? Betrachten Sie hierfür die f0-Verläufe, hören Sie sich die jeweiligen Audiofiles an und benennen Sie die jeweiligen in 9.3.3 vorgestellten GToBI-Label. Abb. 83 a. keiner _____________________ b. mehr _____________________ Abb. 86 a. Schule _____________________ - anders _____________________ b. Schule _____________________ - anders _____________________ Abb. 87 August _____________________ 7. Ein Autohaus wirbt mit dem Slogan „Wir kaufen auch Ihr Auto“. Welches der Wörter muss satzakzentuiert werden, damit aus dem Satz ein für ein Autohaus passender Slogan wird? Was würden Betonungen auf anderen Wörtern suggerie‐ ren? 8. Platzieren Sie in den nachfolgenden Sätzen eine (oder mehrere) zusätzliche Phra‐ sengrenze(n), um die Satzbedeutung zu ändern. Ist innerhalb des Satzes bereits eine Phrasengrenze vorgegeben (durch [] markiert), kann diese auch verschoben werden. Beschreiben Sie die ursprüngliche und die neue Bedeutung. a. [Er übernimmt die Aufgabe der Bäcker.] b. [Sie sammelt neue Kunst] [mag sie am liebsten] c. [Sie denkt, er spaßt.] 354 9 Prosodie und Intonation <?page no="356"?> 9. Sprechen Sie die Sätze unter 8. mit den jeweiligen Bedeutungen durch (ggf. unter Verwendung von Praat, vgl. Kap. 7, Aufgabe 8) und beobachten Sie dabei die prosodischen Parameter, die Sie jeweils ändern. Notieren Sie die Ergebnisse der Introspektion. Weiterführende Literatur L ADD (2008) und G U S S E NHOV E N (2004) bieten ausführliche Einführungen allein in das Gebiet der Intonationsphonologie. G U S S E NHOV E N und J AC O B S (2017) führen in drei Kapiteln in prosodische Themen ein (beides englischsprachig). Im Rahmen der deutschsprachigen Einführungen in die Phonologie sind insbesondere die Kapitel 5-9 in F UH R HO P & P E T E R S (2013) als ausführliche Einführungen in die metrische Phonologie und Intonationsphonologie zu empfehlen. Auch K OHL E R (1995) widmet ein längeres Kapitel (6.2) der suprasegmentalen Phonetik. Den im Text genannten Quellen H AY E S (1995), N E S P O R & V O G E L (2007) und P I E R R E ‐ HUMB E R T (1980) sei an dieser Stelle noch ein Artikel von L IB E R MAN & P R IN C E (1977) hinzugefügt, der die Forschung zur Wortprosodie geprägt hat. Eine deutschsprachige Beschreibung des GToBI-Systems findet sich in G R IC E & B AUMANN (2002) sowie - zusammen mit Übungsmaterialien - online unter http: / / ww w.gtobi.uni-koeln.de/ (abgerufen am 10.05.2022, 10: 00 Uhr). Einen Überblick über mikro- und makroprosodische Aspekte der f0 bietet N I E B UH R E T AL . (2020). Das Thema Informationsstruktur wurde hier nur am Rande erwähnt, u. a. mit einem Verweis auf eine sehr frühe Quelle: H ALLIDAY (1967a, b) hat als Vertreter der britischen Schule Intonationskonturen mit Blick auf Konzepte wie neuer Information und Informationsstruktur analysiert. Neben den beiden im Text erwähnten Aufsätzen (für Fortgeschrittene) von B ÜR IN G (2006) und F É R Y (2011) finden sich neuere, revidierte und erweiterte Ansätze zur Informationsstruktur auch im „Oxford Handbook of Infor‐ mation Structure“ (F É R Y & I S HIHA R A 2016). 9.3 Satzprosodie und Intonation 355 <?page no="358"?> Literaturverzeichnis A B R A M S O N , Arthur S. & W H A L E N , Douglas H. (2017). Voice Onset Time (VOT) at 50: Theoretical and practical issues in measuring voicing distinctions. Journal of Phonetics, 63, 75-86. A L D E R E T E , John, F R I S C H , Stefan (2007). Dissimilation in grammar and the lexicon. In: P. de Lacy (Hrsg.), The Cambridge Handbook of Phonology. Cambridge: CUP, 379-398. A L E X A N D E R , James (1985). R-metathesis in English: a diachronic account. Journal of English Linguistics, 18, 33-40. [A N O N .] (1998). Pschyrembel Klinisches Wörterbuch. 258. Aufl. Berlin/ New York: De Gruyter. A R C H A N G E L I , Diana (1988). Aspects of Underspecification Theory. Phonology, 5, 183-207. A S H B Y , Michael (1989). A note on the vowel quadrilateral. Journal of the International Phonetic Association, 19, 83-88. A S U , Eva Liina & T E R A S , Pire (2009). Estonian. Journal of the International Phonetic Association, 39, 367-372. A S U , Eva Liina, N O L A N , Francis & S C HÖT Z , Susanne (2015). Comparative Study of Estonian Swe‐ dish Voiceless Laterals: Are Voiceless Approximants Fricatives? Proc. of the 18th International Congress of Phonetic Sciences, Edinburgh, UK. A U E R , Peter (1990). Phonologie der Alltagssprache: Eine Untersuchung zur Standard/ Dialekt-Varia‐ tion am Beispiel der Konstanzer Stadtsprache. Berlin/ New York: De Gruyter. A U E R , Peter, G I L L E S , Peter & S P I E K E R M A N N , Helmut (Hrsg.) (2002). Silbenschnitt und Tonakzente. Tübingen: Niemeyer. B A R B O U R , Stephen & S T E V E N S O N , Patrick (1998). Variation im Deutschen: Soziolinguistische Per‐ spektiven. Berlin/ New York: De Gruyter. B A R N E S , Jonathan A. (2002). Positional neutralization: a phonologization approach to typological patterns. PhD Dissertation, University of California, Berkeley. B A R R Y , William (1997). Another R-tickle. Journal of the International Phonetic Association, 27, 35-45. B A R R Y , William & T R O U V AI N , Jürgen (2008). Do we need a symbol for a central open vowel? Journal of the International Phonetic Association, 38, 349-357. B A U D O U I N D E C O U R T E N A Y , Jan (1895). Versuch einer Theorie phonetischer Alternationen: Ein Kapitel aus der Psychophonetik. Strassburg: K. J. Trübner. B A U E R , Laurie & W A R R E N , Paul (2008). New Zealand English: phonology. In: K. Burridge & B. Kortmann (Hrsg.), Varieties of English 3: The Pacific and Australaisa. Berlin/ New York: Mouton de Gruyter, 39-63. B E C K E R , Thomas (1998). Das Vokalsystem der deutschen Standardsprache. Frankfurt a. M.: Peter Lang. B E C K M A N , Jill, J E S S E N , Michael & R I N G E N , Catherine (2009). German fricatives: coda devoicing or positional faithfulness? Phonology, 26, 231-268. V O N B É K É S Y , Georg. (1928). Zur Theorie des Hörens: Die Schwingungsform der Basilarmembran. Physikalische Zeitschrift, 29, 793-810. <?page no="359"?> B E L L , Alan (2015). Syllabic consonants. In: J. H. Greenberg (Hrsg.), Universals of Human Language, Vol. 2: Phonology. Stanford, CA: SUP, 153-201. B E L T Z U N G , Jean-Marc, P A T I N , Cédric & C L E M E N T S , George N. (2015). The feature [ATR]. In: A. Rialland, R. Ridouane & H. van der Hulst (Hrsg.), Features in Phonology and Phonetics. Berlin: de Gruyter, 217-246. V A N D E N B E R G , J. (1958). Myoelastic-aerodynamic theory of voice production. Journal of Speech and Hearing Research, 1, 227-243. B L E V I N S , Juliette (2004). Evolutionary phonology: The emergence of sound patterns. Cambridge: CUP. B L E V I N S , Juliette & G A R R E T T , Andres (2004). The evolution of metathesis. In: B. Hayes, R. Kirchner & D. Steriade (Hrsg.), Phonetically based Phonology. Cambridge: CUP, 117-156. B O E R S M A , Paul & W E E N I N K , David (2018). Praat: doing phonetics by computer [Computer program]. Version 6.1.12 http: / / www.praat.org/ (abgerufen am 22.05.2022, 13: 00 Uhr). B O E R S M A , Paul & H A MA N N , Silke (2009). Introduction: models of phonology in perception. In: P. Boersma & S. Hamann (Hrsg.), Phonology in Perception. Berlin/ New York: Mouton de Gruyter, 1-24. B R E G M A N , Albert S. (1990). Auditory Scene Analysis: The Perceptual Organisation of Sound. Cambridge: MIT Press. B R O C K H A U S , Wiebke (2012). Final devoicing in the phonology of German. Tübingen: Niemeyer. (Linguistische Arbeiten; 337). B R O W M A N , Catherine P. & G O L D S T E I N , Louis (1988). Some notes on syllable structure in Articu‐ latory Phonology. Phonetica, 45, 140-155. B R O W M A N , Catherine P. & G O L D S T E I N , Louis (1990). Tiers in articulatory phonology, with some implications for casual speech. In: J. Kingston & M. E. Beckman (Hrsg.), Papers in laboratory phonology I: Between the grammar and physics of speech. Cambridge: CUP, 341-376. B R O W M A N , Catherine P. & G O L D S T E I N , Louis (1992). Articulatory Phonology: An Overview. Phonetica, 49, 155-180. B R O W M A N , Catherine P. & G O L D S T E I N , Louis (1995). Gestural syllable position effects in American English. In: F. Bell-Berti & L. J. Raphael (Hrsg.), Producing speech: Contemporary issues. For Katherine Safford Harris. New York, NY: American Institute of Physics, 19-33. B R O W M A N , Catherine P. & G O L D S T E I N , Louis (2000). Competing constraints on intergestural coordination and self-organization of phonological structures. Bulletin de la Communication Parlée, 5, 25-34. B ÜH L E R , Karl (1934). Sprachtheorie. Jena: Fischer. B Ü R I N G , Daniel (2006). Intonation und Informationsstruktur. In: H. Blühdorn, E. Breindl & U. H. Waßner (Hrsg.), Text-Verstehen: Grammatik und darüber hinaus. Berlin/ New York, NY: de Gruyter, 145-163. B UẞM A N N , Hadumod (2002). Lexikon der Sprachwissenschaft. 3. Aufl. Stuttgart: Kröner. B Y R D , Dani (1995). C-centers revisited. Phonetica, 52, 285-306. C A R A T I N I , Emilie (2007). There is no ambisyllabicity (in German). Proceedings of ConSOLE XIV, Vitoria-Gasteiz, Spain, 37-60. 358 Literaturverzeichnis <?page no="360"?> C A R R É , René, D I V E N Y I , Pierre & M R A Y A T I , Mohama (2017). Speech: A Dynamic Process. Berlin: De Gruyter. C A R O R E I N A , Javier & S Z C Z E P A N IA K , Renata (Hrsg.) (2014). Syllable and Word Languages. Ber‐ lin/ Boston: de Gruyter. C A T F O R D , John C. (1977). Fundamental Problems in Phonetics. Edinburgh: EUP. C A T F O R D , John C. (1985). ‘Rest’ and ‘open transition’ in a systemic phonology of English. In: J. D. Benson & W. S. Greaves (Hrsg.), Systemic Perspectives on Discourse: Selected Theoretical Papers from the Ninth International Systemic Workshop. Ablex: Norwood, NJ, 333-49. C A T F O R D , John C. (1988). A Practical Introduction to Phonetics. Nachdruck 1994. Oxford: OUP. C H E N , Michael (1970). Vowel length variation as a function of the voicing of the consonant environment. Phonetica, 22, 129-159. C H I B A , Tsutomu & K A J I Y A MA , Masato (l941). The Vowel: Its Nature and Structure. Tokyo: To‐ kyo-Kaiseikan Pub. Co. Ltd. C H I S T O V I C H , Ludmilla A. & L U B L I N S K A Y A , Valentina V. (1979). The ‘center of gravity’ effect in vowel spectra and critical distance between the formants: Psychoacoustical study of the perception of vowel-like stimuli. Hearing Research, 1, 185-195. C H I T O R A N , Iona (2002). A perception-production study of Romanian diphthongs and glide-vowel sequences. Journal of the International Phonetic Association, 32, 203-222. C H O , Taehong & L A D E F O G E D , Peter (1999). Variation and universals in VOT: evidence from 18 languages. Journal of Phonetics, 27, 207-229. C H O , Taehong, J U N , Sun-Ah & L A D E F O G E D , Peter (2002). Acoustic and aerodynamic correlates of Korean stops and fricatives. Journal of Phonetics, 30, 193-228. C H O L I N , Joana & L E V E L T , Willem J. M. (2009). Effects of syllable preparation and syllable frequency in speech production: Further evidence for syllabic units at a post-lexical level. Language and cognitive processes, 24, 662-684. C H O M S K Y , Noam & H A L L E , Morris (1968). The Sound Pattern of English. New York: Harper & Row. C L E M E N T S , George N. (1985). The Geometry of Phonological Features. Phonology Yearbook, 2, 223-250. C L E M E N T S , George N. (1990). The Role of the Sonority Cycle in Core Syllabification. In: J. Kingston & M. Beckman (Hrsg.), Papers in Laboratory Phonology I, Cambridge: CUP, 283-333 C L E M E N T S , G. N. (1992). Phonological primes: features or gestures. Phonetica, 49, 181-193. C L E M E N T S , George N. & K E Y S E R , Samuel Jay (1983). CV Phonology: A Generative Theory of the Syllable. Cambridge, Mass.: MIT Press. C R Y S T A L , David (2010). The Cambridge encyclopedia of language. Cambridge: CUP. C R Y S T A L , David (2011). A dictionary of linguistics and phonetics. 6. Aufl. Chichester: Wiley. C R U T T E N D E N , Alan (2001). Gimson’s pronunciation of English. 6. Aufl. London: Arnold. C U C C H IA R I N I , Catia (1996). Assessing transcription agreement: methodological aspects. Clinical Linguistics & Phonetics, 10, 131-155. C U T L E R , Anne, K L E I N , Wolfgang & L E V I N S O N , Stephen C. (2005). The cornerstones of twenty-first century psycholinguistics. In: A. Cutler (Hrsg.), Twenty-first century psycholinguistics: Four cornerstones. London: Lawrence Erlbaum, 1-20. Literaturverzeichnis 359 <?page no="361"?> C U T L E R , Anne, M E H L E R , Jacques, N O R R I S , Dennis & S E G U I , Juan (1995). The syllable’s differing role in the segmentation of French and English. Journal of Memory and Language, 25, 385-400. D A N K O V IČO VÁ , Jana (1999). Czech. In: International Phonetic Association (Hrsg.), Handbook of the International Phonetic Association: A guide to the use of the International Phonetic Alphabet. Cambridge: CUP, 70-73. D A V I D S O N , Lisa (2005). Adressing phonological questions with ultrasound. Clinical Linguistics and Phonetics, 19, 619-633. D A V I S , Barbara L. & M A C N E I L A G E , Peter F. (1995). The articulatory basis of babbling. Journal of Speech, Language, and Hearing Research, 38, 1199-1211. D E L A T T R E , Pierre, L I B E R M A N , Alvin M. & C O O P E R , Franklin S. (1951). Voyelles synthétiques à deux formantes et voyelles cardinals. Maître Phonétique, 96, 30-36. D E L A T T R E , Pierre, L I B E R M A N , Alvin M. & C O O P E R , Franklin S. (1955). Acoustic loci and transitional cues for consonants. Journal of the Acoustical Society of America, 27, 769-773. D E N E S , Peter B. & P I N S O N , Elliot N. (1973). The Speech Chain: The Physics and Biology of Spoken Language. Anchor Press. D I E H L , Randy L. & L I N D B L O M , Björn E. (2004). Explaining the structure of feature and phoneme inventories: the role of auditory distinctiveness. In: S. Greenberg, W. A. Ainsworth, A. N. Popper & R. R. Fay (Hrsg.), Speech Processing in the Auditory System. New York: Springer, 101-162. D I E H L , Randy L. & K L U E N D E R , Keith R. (1989). On the objects of speech perception. Ecological Psychology, 1, 121-144. D I E T R I C H , Rainer & G E R W I E N , Johannes (2017). Psycholinguistik: Eine Einführung. 3. Aufl. Stutt‐ gart: Metzler. D I N N S E N , Daniel A. (1980). Phonological rules and phonetic explanation. Journal of Linguistics, 16, 171-191. D O M A H S , Ulrike & P R I M U S , Beatrice (2016). Phonologie in drei Modalitäten: Einleitung. In U. Domahs & B. Primus (Hrsg.), Handbuch Laut, Gebärde, Buchstabe. Berlin / Boston: De Gruyter, IX-XX. D R A X L E R , Christoph & J ÄN S C H , Klaus (2004). SpeechRecorder - a Universal Platform Independent Multi-Channel Audio Recording Software. Proc. IVth International Conference on Language Resources and Evaluation, Lisbon, Portugal, 559-562. E A S T E R D A Y , Shelece (2017). Highly complex syllable structure: a typological study of its phonological characteristics and diachronic development. PhD dissertation University of New Mexico. (Verfügbar unter https: / / digitalrepository.unm.edu/ ling_etds/ 51, abgerufen am 12.05.2022, 13: 50 Uhr). E I S E N B E R G , Peter (2020). Grundriss der deutschen Grammatik: Das Wort. 5. Aufl. Berlin: Metzler. E G E R , Nikola, M I T T E R E R , Holger & R E I N I S C H , Eva (2019). Learning a new sound pair in a second language: Italian learners and German glottal consonants. Journal of Phonetics, 77, 100917. E N G S T R A N D , Olle (1988). Articulatory correlates of stress and speaking rate in Swedish VCV utterances. Journal of the Acoustical Society of America, 83, 1863-1875. 360 Literaturverzeichnis <?page no="362"?> E N G S T R A N D , Olle (1999). Swedish. In: International Phonetic Association (Hrsg.), Handbook of the International Phonetic Association: A guide to the use of the International Phonetic Alphabet. Cambridge: CUP, 140-142. F A N T , Gunnar (1960). Acoustic Theory of Speech Production. Den Haag: Mouton. F A R N E T A N I , Edda (1999). Labial coarticulation. In: W. J. Hardcastle & N. Hewlett (Hrsg.), Coarticulation: Theory, Data and Techniques. Cambridge: CUP, 144-163. F A S T L , Hugo & Z W I C K E R , Eberhard (2007). Psychoacoustics: Facts and Models. 3. Aufl. Berlin/ Hei‐ delberg: Springer. F É R Y , Caroline (1998). German word stress in Optimality Theory. Journal of Comparative Germanic Linguistics, 2, 101-142. F É R Y , Caroline (2011). German sentence accent and embedded prosodic phrases. Lingua, 121, 1906-1922. F É R Y , Caroline & I S H I H A R A , Shinichiro (Hrsg.) (2016). The Oxford Handbook of Information Structure. Oxford: OUP. F I S C H E R -J ØR G E N S E N , Eli (1985). Some basic vowel features, their articulatory correlates, and their explanatory power in phonology. In: V. A. Fromkin (Hrsg.), Phonetic Linguistics: Essays in Honor of Peter Ladefoged. Orlando [u.-a.]: Academic Press, 79-99. F L E I S C H E R , Jürg & S C H M I D , Stephan (2006). Zurich German. Journal of the International Phonetic Association, 36, 243-253. F L E T C H E R , Harvey (1940). Auditory patterns. Reviews of Modern Physics, 12, 47-65. F O U G E R O N , Cécile & S M I T H , Caroline L. (1999). French. In: International Phonetic Association (Hrsg.), Handbook of the International Phonetic Association: A guide to the use of the Interna‐ tional Phonetic Alphabet. Cambridge: CUP, 78-81. F O U G E R O N , Cécile & R I D O U A N E , Rachid (2008). On the Nature of Schwa-like Vocalic Elements within some Berber Clusters. Proceedings of the 8 th International Seminar on Speech Production, Strasbourg, France, 441-444. F O U R A K I S , Marios & I V E R S O N , Gregory K. (1984). On the ‘incomplete neutralization’ of German final obstruents. Phonetica, 41, 140-149. F O W L E R , Carol A. (1992). Vowel duration and closure duration in voiced and unvoiced stops: There are no contrast effects here. Journal of Phonetics, 20, 143-165. F O W L E R , Carol A. (1994). Speech perception: Direct realist theory. In R. E. Asher (Hrsg.), The Encyclopedia of Language and Linguistics. Oxford: Pergamon, 4199-4203. F U C H S , Susanne & R O C H E T -C A P E L L A N , Amélie (2021). The Respiratory Foundations of Spoken Language. Annual Review of Linguistics, 7, 13-30. F U C H S , Susanne & R O D G E R S , Blake (2013). Negative intraoral pressure in German: Evidence from an exploratory study. Journal of the International Phonetic Association, 43, 321-337. F U H R H O P , Nanna & P E T E R S , Jörg (2013). Einführung in die Phonologie und Graphematik. Stutt‐ gart/ Weimar: Metzler. F R A W L E Y , William (Hrsg.) (2003). International Encyclopedia of Linguistics, 4 Bände. 2. Aufl. Oxford: OUP. Literaturverzeichnis 361 <?page no="363"?> F R Y D , Marc. (2016). Étude de la variation dans le lexique toponymique anglais: le cas de la métathèse dans l'élément -thorp. In: I. Gaudy-Campbell & Y. Keromnes (Hrsg.), Variation, invariant et plasticité langagière. Besançon: Presses Universitaires de Franche-Comté, 19-38. G A N O N G , William F. (1980). Phonetic categorization in auditory word perception. Journal of Experimental Psychology: Human Perception and Performance, 6, 110-125. G E L F A N D , Stanley A. (2017). Hearing: An Introduction to Psychological and Physiological Acoustics. 6. Aufl. Boca Raton [et al.]: Taylor & Francis. G I B S O N , James J. (1979). The Ecological Approach to Visual Perception. Boston: Houghton Mifflin. G LÜC K , Helmut & R ÖD E L , Michael (2016). Metzler Lexikon Sprache. 5. Aufl. Stuttgart: J. B. Metzler. G O E D E M A N S , Rob & V A N D E R H U L S T , Harry (2013). Fixed Stress Locations. In: M. S. Dryer & M. Haspelmath (Hrsg.), The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary Anthropology. (Verfügbar unter http: / / wals.info/ chapter/ 1 4, abgerufen am 12.05.2022, 12: 20 Uhr). G O L D I N G E R , Stephen D. (1996). Words and voices: Episodic traces in spoken word identification and recognition memory. Journal of Experimental Psychology: Learning, Memory, and Cogni‐ tion, 22, 1166-1183. G O L D S M I T H , John A. (1976). Autosegmental Phonology. PhD Dissertation, MIT. G O L D S M I T H , John A. (2011). The syllable. In: J. A. Goldsmith, J. Riggle & A.C.L Yu (Hrsg.), The handbook of phonological theory, Chichester: Wiley, 164-196. G O L D S T E I N , E. Bruce (2002). Wahrnehmungspsychologie. 2. dt. Aufl. hrsg. v. Manfred Ritter. Heidelberg/ Berlin: Spektrum. G O R D O N , Matthew (2002). A phonetically driven account of syllable weight. Language, 78, 51-80. G R A B E , Esther & L O W , Ee Ling (2002). Durational variability in speech and the rhythm class hypothesis. In: C. Gussenhoven & N. Warner (Hrsg.), Laboratory phonology 7. Berlin/ New York: De Gruyter Mouton, 515-546. G R I C E , Martine & B A U M A N N , Stefan (2002). Deutsche Intonation und GToBI. Linguistische Berichte, 191, 267-298. G R I C E , Martine, B A U M A N N , Stefan & B E N Z MÜL L E R , Ralf (2005). German Intonation in Autosegmen‐ tal-Metrical Phonology. In: S.-A. Jun (Hrsg.), Prosodic Typology: The Phonology of Intonation and Phrasing. Oxford: OUP, 55-83. G U S S E N H O V E N , Carlos (1999). Dutch. In: International Phonetic Association (Hrsg.), Handbook of the International Phonetic Association: A guide to the use of the International Phonetic Alphabet. Cambridge: CUP, 74-77. G U S S E N H O V E N , Carlos (2004). The Phonology of Tone and Intonation. Cambridge: CUP. G U S S E N H O V E N , Carlos & J A C O B S , Haike (2017). Understanding phonology. 4. Aufl. London: Arnold. H AA G , Winfried Karl (1975). An Experimental Study of the Production of Voiced and Voicelesss Plosive Consonants in German. PhD Dissertation, University of Reading. H A L L , Tracy Alan (1992). Syllable structure and syllable-related processes in German. Tübingen: Niemeyer. H A L L , Tracy Alan (1997). The phonology of coronals. John Benjamins. 362 Literaturverzeichnis <?page no="364"?> H A L L , Tracy Alan (2001). Introduction: Phonological representations and phonetic implementa‐ tion of distinctive features. In: T. A. Hall (Hrsg.), Distinctive feature theory. Berlin/ New York: de Gruyter, 1-40. H A L L , Tracy Alan (2002). The distribution of superheavy syllables in Standard German. The Linguistic Review, 19, 377-420. H A L L , Tracy Alan (2011). Phonologie: Eine Einführung. 3. Aufl. Berlin/ New York: De Gruyter. H A L L , Tracy Alan (2012). An argument for the feature [dental]. Language Sciences, 34, 92-97. H A L L E , Morris (1959). The sound pattern of Russian. The Hague: Mouton. H A L L E , Morris & S T E V E N S , Kenneth N. (1971). A note on laryngeal features. MIT Quarterly Progress Report 101, 198-212. H A L L I D A Y , Michael A. K. (1967a). Intonation and Grammar in British English. Den Haag/ Paris: Mouton. H A L L I D A Y , Michael A. K. (1967b). Notes on Transitivity and Theme in English: Part I. Journal of Linguistics, 3, 37-81. H A R D C A S T L E , William J. & H E W L E T T , Nigel (1999). Introduction. In: W. J. Hardcastle & N. Hewlett (Hrsg.), Coarticulation: Theory, Data and Techniques. Cambridge: CUP, 1-4. H A R R I N G T O N , Jonathan (2013). Acoustic Phonetics. In: W. J. Hardcastle, J. Laver & F. E. Gibbon (Hrsg.), A Handbook of Phonetics. Chichester: Wiley-Blackwell, 81-129. H A R R I N G T O N , Jonathan (2010). Phonetic Analysis of Speech Corpora. Chichester: Wiley-Black‐ well H A R R I N G T O N , Jonathan, K L E B E R , Felicitas & S T E V E N S , Mary (2016). The Relationship Between the (Mis)-Parsing of Coarticulation in Perception and Sound Change: Evidence from Dissi‐ milation and Language Acquisition. In: A. Esposito, M. Faundez-Zanuy, A. M. Esposito, G. Cordasco, T. Drugman, J. Solé-Casals & F. C. Morabito (Hrsg.), Recent Advances in Nonlinear Speech Processing. Schweiz: Springer International Publishing, 15-34. H A R R I N G T O N , Jonathan, K L E B E R , Felicitas & R E U B O L D , Ulrich (2011). The contributions of the lips and the tongue to the diachronic fronting of high back vowels in Standard Southern British English. Journal of the International Phonetic Association, 41, 137-156. H A R R I N G T O N , Jonathan, K L E B E R , Felicitas & R E U B O L D , Ulrich (2012). The production and perception of coarticulation in two types of sound change in progress. In S. Fuchs, M. Weirich, D. Pape & P. Perrier (Hrsg.), Speech Planning and Dynamics. Frankfurt: Peter Lang, 39-62. H AẞL E R , Gerda & N E I S , Cordula (2009). Lexikon sprachtheoretischer Grundbegriffe des 17. und 18. Jahrhunderts. 2 Bände. Berlin/ New York: de Gruyter. H A W K I N S , Sarah (1999). Looking for invariant correlates of linguistic units: two classical theories of speech perception. In: J. M. Pickett (Hrsg.), The Acoustics of Speech Communication: Fundamentals, Speech Perception Theory, and Technology. Needham Heights: Allyn & Bacon, 198-231. H A W K I N S , Sarah & M I D G L E Y , Jonathan (2005). Formant frequencies of RP monophthongs in four age groups of speakers. Journal of the International Phonetic Association, 35, 183-199. H A Y , Jennifer, P I E R R E H U M B E R T , Janet, & B E C K M A N , Mary (2004). Speech perception, well-formed‐ ness and the statistics of the lexicon. In J. Local, R. Ogden & R. Temple (Hrsg.), Phonetic Interpretation: Papers in laboratory phonology VI, Cambridge: CUP, 58-74. Literaturverzeichnis 363 <?page no="365"?> H A Y E S , Bruce. (1995). Metrical Stress Theory: Principles and Case Studies. Chicago: The University of Chicago Press. H A Y E S , Bruce (2009). Introductory Phonology. Chichester: Wiley. H E L L B R ÜC K , Jürgen & E L L E R M E I E R , Wolfgang (2004). Hören: Physiologie, Psychologie und Pathologie. 2. aktual. u. erweit. Aufl. Göttingen [et al.]: Hogrefe. H E R M E S , Anne, M ÜC K E , Doris & G R I C E , Martine (2013). Gestural coordination of Italian word-in‐ itial clusters: the case of ‘impure s’. Phonology, 30, 1-25. H O C K E T T , Charles F. (1960). The origin of speech. Scientific American, 203, 88-96. H O N O R O F , Douglas & B R O W M A N , Catherine P. (1995). The center or edge: How are consonant clusters organized with respect to the vowel? Proc. 13th International Congress of Phonetic Sciences, Stockholm, Sweden, 552-555. H O O L E , Philip & M O O S H AM M E R , Christine (2002). Articulatory analysis of the German vowel system. In: P. Auer, P. Gilles & H. Spiekermann (Hrsg.), Silbenschnitt und Tonakzente. Tübingen: Niemeyer, 129-152. H O O L E , Philip & N G U Y E N , Noël (1999). Electromagnetic articulography in coarticulation research. In: W. J. Hardcastle & N. Hewlett (Hrsg.), Coarticulation: Theory, Data and Techniques. Cambridge: CUP, 260-269. H O O L E Philip & P O U P L I E R , Marianne (2017). Articulatory analysis of the German vowel system. Öhman returns: New horizons in the collection and analysis of imaging data in speech production research. Computer Speech & Language, 45, 253-277. H U A L D E , José I., S I M O N E T , Miquel & N A D E U , Marianna (2011). Consonant lenition and phonological recategorization. Laboratory Phonology, 2, 301-329. V A N D E R H U L S T , Harry (1985). Ambisyllabicity in Dutch. In: H. Bennis & F. Beukema (Hrsg.), Linguistics in the Netherlands. Dodrecht: Floris. 57-66. H U M E , Elizabeth V. (1994). Front vowels, coronal consonants and their interaction in nonlinear phonology. Nachdruck 2017. Abingdon/ New York: Routledge. H U M E , Elizabeth V. (2001). Metathesis: Formal and Functional Considerations. In: E. V. Hume, N. Smith & J. van der Weijer (Hrsg.), Surface Syllable Structure and Segment Sequencing. Leiden: Holland Institute of Generative Linguistics (HIL), 1-25. (HIL Occasional Papers; 4). H U M E , Elizabeth V. & J O H N S O N , Keith (2001). A model for the interplay of speech perception and phonology. In: E.-V. Hume & K. Johnson (Hrsg.), The Role of Speech Perception in Phonology. San Diego [et al.]: Academic Press, pp. 3-26. H U S S O N , Raoul (1950). Etude des phénomènes physiologiques et acoustiques fondamentaux de la voix chantée. PhD Dissertation, Paris. H Y M A N , Larry M. (1976). Phonologization. In: A. Juilland (Hrsg.), Linguistic studies presented to Joseph H. Greenberg. Saratoga: Anma Libri, 407-418. H Y M A N , Larry M. (1985). A theory of phonological weight. Dordrecht: Foris. (Publications in Language Sciences; 19). I N T E R N A T I O N A L P H O N E T I C A S S O C IA T I O N (1999). Handbook of the International Phonetic Association: A guide to the use of the International Phonetic Alphabet. Cambridge: CUP. I N T E R N A T I O N A L P H O N E T I C A S S O C IA T I O N (2010). The Principles of the International Phonetic Association (1949). Journal of the International Phonetic Association, 40, 299-358. 364 Literaturverzeichnis <?page no="366"?> J A K O B S O N , Roman, F A N T , Gunnar, & H A L L E , Morris (1951). Preliminaries to Speech Analysis: The Distinctive Features and Their Correlates. Cambridge, Mass: MIT Press. J A N D A , Richard D. (1999). Accounts of phonemic split have been greatly exaggerated - but not enough. Proceedings of the 14th Congress of Phonetic Sciences, San Francisco, USA, 329-332. J A N N E D Y , Stefanie & W E I R I C H , Melanie (2016). The Acoustics of Fricative Contrasts in Two German Dialects. Proceedings of P&P12, München, Deutschland, 70-73. J A S S E M , Wiktor (2003). Polish. Journal of the International Phonetic Association, 33, 103-107. J E N S E N , John T. (2000). Against Ambisyllabicity. Phonology, 17, 187-235. J E S S E N , Michael (1998). Phonetics and phonology of tense and lax obstruents in German. Amster‐ dam. J E S S E N , Michael (1999). German. In Harry van der Hulst (Hrsg.), Word Prosodic Systems in the Languages of Europe. Berlin: de Gruyter, 515-545. J E S S E N , Michael (2002). Spectral balance in German and its relevance for syllable cut theory. In P. Auer, P. Gilles & H. Spiekermann (Hrsg.), Silbenschnitt und Tonakzente. Tübingen: Niemeyer, 153-180. J E S P E R S E N , Otto (1913). Lehrbuch der Phonetik. 2. Aufl. 1919. Leipzig: Teubner. J O H N S O N , Keith (1997). Speech perception without speaker normalization: An exemplar model. In: K. Johnson & J. W. Mullenix (Hrsg.), Talker Variability in Speech Processing. San Diegeo [et al.]: Academic Press, 145-165. J O H N S O N , Keith (2011). Acoustic & Auditory Phonetics. Cambridge, MA/ Oxford: Wiley-Blackwell. J O H N S O N , Keith & M U L L E N I X , John W. (1997). Complex Representation used in speech perception: Overview of the book. In: K. Johnson & J. W. Mullenix (Hrsg.), Talker Variability in Speech Processing. San Diego [et al.]: Academic Press, 1-8. J O N E S , Daniel (1969). An Outline of English Phonetics. 9. Aufl. Cambridge: Heffer & Sons. J U N , Sun-Ah (2014). Prosodic typology: by prominence type, word prosody, and macro-rhythm. In S.-A. Jun (Hrsg.), Prosodic Typology II: The Phonology of Intonation and Phrasing. Oxford: OUP, 520-539. K A T AM B A , Francis (1989). An introduction to phonology. London: Longman. K A U S C H K E , Christina (2012). Kindlicher Spracherwerb im Deutschen: Verläufe, Forschungsmetho‐ den, Erklärungsansätze. Berlin/ Boston: de Gruyter. K E N S T O W I C Z , Michael J. (1994). Phonology in generative grammar (Vol. 7). Cambridge, MA: Blackwell. K H A N , Sameer & W E I S E , Constanze (2013). Upper Saxon (Chemnitz dialect). Journal of the International Phonetic Association, 43(2), 231-241. K I M , Hyunsoon & C L E M E N T S , George N. (2015). The feature [tense]. In A. Rialland, R. Ridouane & H. van der Hulst (Hrsg.), Features in Phonology and Phonetics, Berlin: de Gruyter, 159-178. K I M , Hyunsoon, C L E M E N T S , Geoge N. & T O D A , Martine (2015). The feature [strident]. In A. Rialland, R. Ridouane & H. van der Hulst (Hrsg.), Features in Phonology and Phonetics, Berlin: de Gruyter, 179-194. K I N G S T O N , John & D I E H L , Randy L. (1994). Phonetic knowledge. Language, 70, 419-454. K I P A R S K Y , Paul (1982). From cyclic phonology to lexical phonology. In: H. van der Hulst & N. Smith (Hrsg.), The structure of phonological representation. Dordrecht: Foris, 131-175. Literaturverzeichnis 365 <?page no="367"?> K I R B Y , James. & L A D D , Robert D. (2016). Effects of obstruent voicing on vowel F0: evidence from ‘true-voicing’ languages. Journal of the Acoustical Society of America, 140, 2400-2411. K L A T T , Dennis H. (1976). Linguistic uses of segmental duration in English: Acoustic and perceptual evidence. Journal of the Acoustical Society of America, 59, 1208-1221. K L E B E R , Felicitas (2018). VOT or quantity: What matters more for the voicing contrast in German regional varieties? Results from apparent-time analyses. Journal of Phonetics, 71, 466-486. K L E B E R , Felicitas, H A R R I N G T O N , Jonathan, R E U B O L D , Ulrich, S I D D I N S , Jessica (2012). Compensation for coarticulation in prosodically weak words. Proceedings 6th Speech Prosody Conference, Shanghai, China, 306-309. K L E B E R , Felicitas, J O H N , Tina & H A R R I N G T O N , Jonathan (2010). The implications for speech perception of incomplete neutralization of final devoicing in German. Journal of Phonetics, 38, 185-196. K L E B E R , Felicitas & N I E B U H R , Oliver (2010). Semantic-context effects on lexical stress and syllable prominence. Proceedings of the 5th Speech Prosody Conference, Chicago, USA. K L E I N E R , Stefan & K NÖB L , Ralf (2015). Das Aussprachewörterbuch. 7. überarb. u. aktual. Aufl. Berlin: Dudenverlag. K O H L E R , Klaus J. (1966). Is the syllable a phonological universal? Journal of Linguistics, 2, 207-208. K O H L E R , Klaus J. (1977). The production of plosives. Arbeitsberichte des Instituts für Phonetik der Universität Kiel, 8, 30-110. K O H L E R , Klaus J. (1984). Phonetic explanation in phonology: the feature fortis/ lenis. Phonetica, 41, 150-174. K O H L E R , Klaus J. (1987). Categorical pitch perception. Proc. 11 th International Congress of Phonetic Sciences, Tallinn, Estonia, 331-333. K O H L E R , Klaus J. (1990). Segmental reduction in connected speech in German: phonological facts and phonetic explanation. In: W. J. Hardcastle & A. Marchal (Hrsg.), Speech production and speech modelling. Dordrecht: Kluwer, 69-92. K O H L E R , Klaus J. (1991). A model of German intonation. In: K. J. Kohler (Hrsg.), Studies in German Intonation. AIPUK 25, 295-360. K O H L E R , Klaus J. (1992). Gestural reorganization in connected speech: a functional viewpoint on ‘articulatory phonology’. Phonetica, 49, 205-211. K O H L E R , Klaus J. (1995). Einführung in die Phonetik des Deutschen. 2. Aufl. Berlin: Erich Schmidt Verlag. K O H L E R , Klaus J. (1999). German. In: International Phonetic Association (Hrsg.), Handbook of the International Phonetic Association: A guide to the use of the International Phonetic Alphabet. Cambridge: CUP, 86-89. K O H L E R , Klaus J. (2000). The future of phonetics. Journal of the International Phonetic Association, 30, 1-24. K R A E H E N M A N N , Astrid (2001). Swiss German stops: geminates all over the word. Phonology, 18, 109-145. K R A K O W , Rena A. (1989). The articulatory organization of syllables: a kinematic analysis of labial and velar gestures. PhD Dissertation, Yale University. 366 Literaturverzeichnis <?page no="368"?> K R A K O W , Rena A. (1993). Nonsegmental influences on velum movement patterns: Syllables, sentences, stress and speaking rate. In: M.K. Huffman & R.A. Krakow (Hrsg.), Nasals, Nasalization, and the Velum. San Diego: Academic Press, 87-116. K R A K O W , Rena A. (1999). Physiological organization of syllables: a review. Journal of Phonetics, 27, 23-54. K R E C H , Eva-Maria, S T O C K , Eberhard, H I R S C H F E L D , Ursula & A N D E R S , Lutz-Christian (2009). Deutsches Aussprachewörterbuch. Berlin/ New York: de Gruyter. K R U S Z E W S K I , Mikołaj (1881). Über die Lautabwechslung. Kazan: Universitätsdruckerei. L A B O V , William (1966). Hypercorrection by the lower middle class as a factor in linguistic change. In: Sociolinguistics: Proceedings of the UCLA Sociolinguistic Conference. The Hague: Mouton, 84-113. (Nachdruck 1985). L A D D , D. Robert (2008). Intonational Phonology. 2. Aufl. Cambridge: CUP. L A D D , D. Robert & S C H M I D , Stephan (2018). Obstruent voicing effects on F0, but without voicing: Phonetic correlates of Swiss German lenis, fortis, and aspirated stops. Journal of Phonetics, 71, 229-248. L A D E F O G E D , Peter (1971). Preliminaries to Linguistic Phonetics. Chicago/ London: The University of Chicago Press. L A D E F O G E D , Peter (1972). Phonological features and their phonetic correlates. Journal of the International Phonetic Association, 2, 2-12. L A D E F O G E D , Peter (1973). The features of the larynx. Journal of phonetics, 1, 73-83. L A D E F O G E D , Peter & B R O A D B E N T , Donald E. (1957). Information conveyed by vowels. The Journal of the Acoustical Society of America, 29, 98-104. L A D E F O G E D , Peter & H A L L E , Morris (1988). Some major features of the International Phonetic Alphabet. Language, 64, 577-582. L A D E F O G E D , Peter (1996). Elements of Acoustic Phonetics. 2. Aufl. Chicago/ London: UCP. L A D E F O G E D , Peter (1997). Linguistic phonetic description. In: W. Hardcastle & J. Laver (Hrsg.), The Handbook of Phonetic Sciences. Oxford: Blackwell. L A D E F O G E D , Peter (2005). Vowels and Consonants. Oxford: Blackwell. L A D E F O G E D , Peter & J O H N S O N , Keith (2011). A Course in Phonetics. 6. Aufl. Boston: Wadsworth. L A D E F O G E D , Peter, L A D E F O G E D , Jenny, T U R K , Alice, H I N D , Kevin & S K I L T O N , St. John (1998). Phonetic structures of Scottish Gaelic. Journal of the International Phonetic Association, 28, 1-41. L A D E F O G E D , Peter & M A D D I E S O N , Ian (1990). Vowels of the world’s languages. Journal of Phonetics, 18, 93-122. L A D E F O G E D , Peter & M A D D I E S O N , Ian (1996). The sounds of the world’s languages. Oxford: Blackwell. L A H I R I , Aditi, G E W I R T H , Letitia & B L U M S T E I N , Sheila E. (1984). A reconsideration of acoustic invariance for place of articulation in diffuse stop consonants: Evidence from a cross-language study. The Journal of the Acoustical Society of America, 76, 391-404. L A H I R I , Aditi & M A R S L E N -W I L S O N , William (1991). The mental representation of lexical form: A phonological approach to the recognition lexicon. Cognition, 38, 245-294. L AH I R I , Aditi & R E E T Z , Henning (2010). Distinctive features: Phonological underspecification in representation and processing. Journal of Phonetics, 38, 44-59. Literaturverzeichnis 367 <?page no="369"?> L A M E L I , Alfred (2003). Standard und Regionalsprache: Konstanz und Wandel. In: E. Eggers, J. E. Schmidt, D. Stellmacher (Hrsg.), Moderne Dialekte, neue Dialektologie. Stuttgart: Steiner, 495-513. L A N E , Harlan (1965). The motor theory of speech perception: A critical review. Psychological Review, 72, 275-309. L A V E R , John (1980). The Phonetic Description of Voice Quality. Cambridge: CUP. L A V E R , John (1994). Principles of phonetics. Cambridge: CUP. L E H I S T E , Ilse (1960). An acoustic-phonetic study of internal open juncture. Phonetica, 5, Supple‐ mentum (1-54). L E H I S T E , Ilse & M E L T Z E R , David (1973). Vowel and speaker identification in natural and synthetic speech. Language and Speech, 16, 356-364. L E V E L T , Willem J. M., R O E L O F S , Ardi, & M E Y E R , Antje S. (1999). A theory of lexical access in speech production. Behavioral and Brain Sciences, 22, 1-75. L E V I N , Juliette (1985). A Metrical Theory of Syllabicity. PhD Dissertation, MIT. L I B E R M A N , Alvin M., C O O P E R , Franklin S., S H A N K W E I L E R , Donald P., & S T U D D E R T -K E N N E D Y , Michael (1967). Perception of the speech code. Psychological Review, 74, 431-461. L I B E R M A N , Alvin M., D E L A T T R E , Pierre C., C O O P E R , Franklin S. & G E R S T M A N , Louis J. (1954). The role of consonant-vowel transitions in the perception of the stop and nasal consonants. Psychological Monographs: General and Applied, 68, 1-13. L I B E R M A N , Alvin M., H A R R I S , Katherine S., H O F F M A N , Howard S. & G R I F F I T H , Belver C. (1957). The discrimination of speech sounds within and across phoneme boundaries. Journal of Experimental Psychology, 54, 358-368. L I B E R M A N , Alvin M. & M A T T I N G L Y , Ignatius G. (1985). The motor theory of speech perception revised. Cognition, 21, 1-36. L I B E R M A N , Mark & P R I N C E , Alan (1977). On stress and linguistic rhythm. Linguistic Inquiry, 8, 249-336. L I L J E N C R A N T S , Johan & L I N D B L O M , Björn E. (1972). Numerical simulation of vowel quality systems: The role of perceptual contrast. Language, 48, 839-862. L I N D B L O M , Björn E. (1963). Spectrographic study of vowel reduction. Journal of the Acoustical Society of America, 35,1773-1781. L I N D B L O M , Björn E. (1986). Phonetic universals in vowel systems. In: J. J. Ohala & J. J. Jaeger (Hrsg.), Experimental Phonology. Orlando: Academic Press, 13-44. L I N D B L O M , Björn E. (1990). Explaining phonetic variation. A sketch of the H&H theory. In: W. J. Hardcastle & A. Marchal (Hrsg.), Speech Production and Speech Modelling. Dordrecht: Kluwer, 403-439. L I N D B L O M , Björn E. (1995). Role of articulation in speech perception: Clues from production. The Journal of the Acoustical Society of America, 99, 1683-1692. L I N D B L O M , Björn E. & E N G S T R A N D , Olle (1989). In what sense is speech quantal? Journal of Phonetics, 17, 107-121. L I N D B L O M , Björn, L U B K E R , James & G A Y , Thomas (1979). Formant frequencies of some fixed-man‐ dible vowels and a model of speech motor programming by predictive simulation. Journal of Phonetics, 7, 147-161. 368 Literaturverzeichnis <?page no="370"?> L I N D B L O M , Björn E. & S T U D D E R T ‐K E N N E D Y , Michael (1967). On the role of formant transitions in vowel recognition. The Journal of the Acoustical Society of America, 42, 830-843. L I N D B L O M , Björn & S U N D B E R G , Johan (1969). A quantitative theory of cardinal vowels and the teaching of pronunciation. Speech Transmission Laboratory---Quarterly Progress and Status Report, 2/ 3, 19-25. L I S K E R , Leigh & A B R A M S O N , Arthur S. (1964). A cross-language study of voicing in initial stops: Acoustic measurements. Word, 20, 384-422. L U C E , Paul A. (1986). Neighborhoods of Words in the Mental Lexicon. PhD Dissertation, Indiana University. L U C E , Paul A., G O L D I N G E R , Stephen. D., A U E R , Edward T., & V I T E V I T C H , Michael S. (2000). Phonetic priming, neighborhood activation, and PARSYN. Perception & Psychophysics, 62, 615-625. L U C E , Paul A. & P I S O N I , David B. (1998). Recognizing spoken words: The neighborhood activation model. Ear and Hearing, 19, 1. M A C N E I L A G E , Peter F. (2008). The Origin of Speech. Oxford: OUP. M A D D I E S O N , Ian (1997). Phonetic Universals. In: J. Laver & W. J. Hardcastle (Hrsg.), The Handbook of Phonetic Sciences. Oxford: Blackwells, 619-639. M A D D I E S O N , Ian (2013a). Lateral Consonants. In: M. S. Dryer & M. Haspelmath (Hrsg.), The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary Anthropology. (Verfügbar unter http: / / wals.info/ chapter/ 8, abgerufen am 12.05.2022, 12: 30 Uhr). M A D D I E S O N , Ian (2013b). Vowel Quality Inventories. In: M. S. Dryer & M. Haspelmath (Hrsg.), The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary Anthropology. (Verfügbar unter http: / / wals.info/ chapter/ 2, abgerufen am 12. 05.2022, 12: 30 Uhr). M A D D I E S O N , Ian (2013c). Glottalized Consonants. In: M. S. Dryer & M. Haspelmath (Hrsg.), The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary Anthropology. (Verfügbar unter http: / / wals.info/ chapter/ 7, abgerufen am 12.05.2022, 12: 30 Uhr). M A N N , Virginia A. & R E P P , Bruno H. (1980). Influence of vocalic context on perception of the [ʃ]-[s] distinction. Perception & Psychophysics, 28, 213-228. M A R I N , Stefania & P O U P L I E R , Marianne (2010). Temporal organization of complex onsets and codas in American English: Testing the Predictions of a Gestural Coupling Model. Motor Control, 14, 380-407. M A R T Í N E Z -C E L D R ÁN , Eugenio, F E R NÁN D E Z -P L A N A S , Ana Ma. & C A R R E R A -S A B A T É , Josefina (2003). Castilian Spanish. Journal of the International Phonetic Association, 33, 255-259. M C C A R T H Y , John J. & P R I N C E , Alan (1994). The emergence of the unmarked: Optimality in Prosodic Morphology. In: M. Gonzàlez (Hrsg.), Proceedings of NELS 24. Amherst: GLSA, 333-379. M C C L E L L A N D , James L. & E L M A N , Jeffrey L. (1986). The TRACE model of speech perception. Cognitive Psychology, 18, 1-86. M C G O WA N , Richard S. (1992). Tongue-tip trills and vocal-tract wall compliance. Journal of the Acoustical Society of America, 91, 2903-10. Literaturverzeichnis 369 <?page no="371"?> M C G U R K , Harry & M A C D O N A L D , John (1976). Hearing lips and seeing voices. Nature, 264, 746-748. M C Q U E E N , James M. & C U T L E R , Anne (2013). Cognitive processes in speech perception. In: W. J. Hardcastle, J. Laver & F. E. Gibbon (Hrsg.), The Handbook of Phonetic Sciences. Chichester: Blackwell, 489-520. M I E L K E , Jeff (2008). The Emergence of Distinctive Features. Oxford: OUP. M I T T E R E R , Holger & R E I N I S C H , Eva (2015). Letters don’t matter: No effect of orthography on the perception of conversational speech. Journal of Memory and Language, 85, 116-134. M I T T E R E R , Holger, R E I N I S C H , Eva & M C Q U E E N , James M. (2018). Allophones, not phonemes in spoken-word recognition. Journal of Memory and Language, 98, 77-92. M O O N , Seung-Jae & L I N D B L O M , Björn (1994). Interaction between duration, context, and speaking style in English stressed vowels. Journal of the Acoustical Society of America, 96, 40-55. M O O S H A M M E R , Christine, H O O L E , Philip & G E U M A N N , Anja (2007). Jaw and Order. Language and Speech, 50, 145-176. M O O S MÜL L E R , Sylvia, S C H M I D , Carolin & B R A N D S TÄT T E R , Julia (2015). Standard Austrian German. Journal of the International Phonetic Association, 45, 339-348. M O O S MÜL L E R , Sylvia, S C H MI D , Carolin & K A S E S S , Christian H. (2016). Alveolar and velarized laterals in Albanian and in the Viennese Dialect. Language and Speech, 59, 488-515. M Y E R S , Scott & H A N S E N , Benjamin B. (2005). The origin of vowel length neutralisation in vocoid sequences: Evidence from Finnish speakers. Phonology, 22, 317-344. N A M , Hosung, G O L D S T E I N , Louis & S A L T Z M A N , Elliot (2009). Self-organization of syllable structure: A coupled oscillator model. In: F. Pellegrino, E. Marsico, I. Chitoran & C. Coupé (Hrsg.), Approaches to phonological complexity. Berlin: Mouton de Gruyter, 299-328. N A N C E , Claire & S T U A R T -S M I T H , Jane (2013). Pre-aspiration and post-aspiration in Scottish Gaelic stop consonants. Journal of the International Phonetic Association, 43, 129-152. N E P P E R T , Joachim & Pétursson, Magnús (1992). Elemente einer akustischen Phonetik. 3. Aufl. Hamburg: Buske. N E S P O R , Marina & V O G E L , Irene (2007). Prosodic Phonology. 2. Aufl. Berlin/ Boston: de Gruyter. N E T T E R , Frank H. (2015). Atlas der Anatomie. 6. Aufl. München: Elsevier Urban & Fischer. N I E B U H R , Oliver (2007). Perzeption und kognitive Verarbeitung der Sprechmelodie: Theoretische Grundlagen und empirische Untersuchungen. Berlin/ New York: de Gruyter. N I E B U H R , Oliver (2022). The Kiel Intonation Model - KIM. In: J. Barnes & S. Shattuck-Hufnagel (Hrsg.), Prosodic Theory and Practice. Cambridge, MA: MIT Press, 287-318. N I E B U H R , Oliver, R E E T Z , Henning, B A R N E S , Jonathan & Y U , Alan C. L. (2020). Fundamental aspects in the perception of f0. In: C. Gussenhoven & A. Chen (Hrsg.), The Oxford Handbook of Language Prosody. Oxford: OUP, 1-17. N ÜB L I N G , Damaris, D A M M E L , Antje, D U K E , Janet & S Z C Z E P A N IA K , Renata (2017). Historische Sprachwissenschaft des Deutschen: Eine Einführung in die Prinzipien des Sprachwandels. 5. Aufl. Tübingen: Narr. O H A L A , John J. (1974). Experimental historical phonology. In: J. M. Anderson & C. Jones (Hrsg.), Historical linguistics II. Theory and description in phonology. Amsterdam: North Holland, 353-389. 370 Literaturverzeichnis <?page no="372"?> O H A L A , John J. (1992). Alternatives to the sonority hierarchy for explaining segmental sequential constraints. Papers from the Parasession on the Syllable. Chicago: Chicago Linguistic Society, 319-338. O H A L A , John J. (1993). Sound change as nature's speech perception experiment. Speech Commu‐ nication, 13, 155-161. O H A L A , John J. (1997). Aerodynamics of phonology. Proc. 4th Seoul International Conference on Linguistics [SICOL], Korea, 92-97. O H A L A , John J. (2012). The listener as a source of sound change: an update. In: M.-J. Solé & D. Recasens (Hrsg.), The Initiation of Sound Change: Perception, Production, and Social factors. Amsterdam: John Benjamins, 21-36. Ö H M A N , Sven E. G. (1966). Coarticulation in VCV Utterances: Spectrographic Measurements. Journal of the Acoustical Society of America, 39, 151-168. P A D G E T T , Jaye & T A B AI N , Marija (2005). Adaptive dispersion theory and phonological vowel reduction in Russian. Phonetica, 62, 14-54. P A R D O , Jennifer S., N Y G AA R D , Lynne C., R E M E Z , Robert E. & P I S O N I , David B. (2021). The Handbook of Speech Perception. Second Edition. Cambridge, MA/ Oxford: Wiley-Blackwell. P A R K E R , Frank (1981). A functional-perceptual account of final devoicing. Journal of Phonetics, 9, 129-137. P E T E R S , Jörg (2006). Intonation deutscher Regionalsprachen. Berlin/ New York: de Gruyter. P F E I F E R , Wolfgang E T A L . (1993). Etymologisches Wörterbuch des Deutschen. Digitalisierte und von Wolfgang Pfeifer überarbeitete Version im Digitalen Wörterbuch der deutschen Sprache (Verfügbar unter https: / / www.dwds.de/ d/ woerterbuecher, abgerufen am 12.05.2022, 12: 35 Uhr). P I C K E T T , James M. (1999). The Acoustics of Speech Communication: Fundamentals, Speech Percep‐ tion Theory, and Technology. Needham Heights, MA: Allyn and Bacon. P I E R R E H U M B E R T , Janet B. (1980). The Phonology and Phonetics of English Intonation. PhD Disser‐ tation, MIT. P I E R R E H U M B E R T , Janet B. (2001). Exemplar dynamics: Word frequency, lenition, and contrast. In J. L. Bybee & P. J. Hopper (Hrsg.), Frequency Effects and the Emergence of Lexical Structure. Amsterdam: John Benjamins, 137-157. P I E R R E H U M B E R T , Janet B. (2016). Phonological representation: Beyond abstract versus episodic. Annual Review of Linguistics, 2, 33-52. P I K E , Kenneth L. (1943). Phonetics: A critical account of phonetic theory, and a technique for the practical description of sounds. Ann Arbor: University of Michigan Press. P I K E , Kenneth L. (1945). The Intonation of American English. Ann Arbor: University of Michigan Press. P O M P I N O -M A R S C H A L L , Bernd (1993). Die Silbe im Deutschen: Gesprochen, Geschrieben, Beschrie‐ ben. In: J. Baurmann, H. Günther & U. Knoop (Hrsg.), Homo Scribens: Perspektiven der Schriftlichkeitsforschung. Tübingen: Niemeyer, 43-65. P O M P I N O -M A R S C H A L L , Bernd (2009). Einführung in die Phonetik. 3. Aufl. Berlin/ New York: de Gruyter. Literaturverzeichnis 371 <?page no="373"?> P O R T , Robert & C R A W F O R D , Penny (1989). Incomplete neutralization and pragmatics in German. Journal of Phonetics, 17, 257-282. P O R T , Rober F. & O’D E L L , Michael L. (1985). Neutralization of syllable-final voicing in German. Journal of phonetics, 13, 455-471. P O T T E R , Ralph K., K O P P , George & G R E E N , Harriet (1966). Visible Speech. 3. Aufl. New York: Dover. P O U P L I E R , Marianne (2011). The atoms of phonological representations. In: M. van Oostendorp, K. Rice, E. Hume & C. Ewen (Hrsg.), The Blackwell Companion to Phonology. Wiley-Blackwell: Chichester, 107-129. P O U P L I E R , Marianne (2012). The gestural approach to syllable structure: universal, languageand cluster-specific aspects. In S. Fuchs, M. Weirich, D. Pape & P. Perrier (Hrsg.), Speech planning and dynamics. Frankfurt am Main: Lang. 63-96. P O U P L I E R , Marianne (2020). Articulatory Phonology. In: M. Aronoff (Hrsg.), Oxford Research Encyclopedia of Linguistics. Oxford: OUP, DOI: https: / / doi.org/ 10.1093/ acrefore/ 97801993846 55.013.745 (abgerufen am 25.05.2022, 12: 55 Uhr). P O U P L I E R , Marianne & B EŇU Š , Štefan (2010). On the phonetic status of syllabic consonants: Evidence from Slovak. Journal of Laboratory Phonology, 2, 243-273. P O U P L I E R , Marianne, & H A R D C A S T L E , William (2005). A re-evaluation of the nature of speech errors in normal and disordered speakers. Phonetica, 62, 227-243. P O U P L I E R , Marianne & H O O L E , Philip (2016). Articulatory and Acoustic Characteristics of German Fricative Clusters. Phonetica, 73, 52-78 P O U P L I E R , Marianne, H O O L E , Philip & Scobbie, James M. (2011). Investigating the asymmetry of English sibilant assimilation: Acoustic and EPG data. Journal of Laboratory Phonology, 2, 1-33. P R I N C E , Alan & S M O L E N S K Y , Paul (2004). Optimality Theory: Constraint interaction in generative grammar. Oxford: Basil Blackwell. P RÖL L , Simon, F R E I E N S T E I N , Jan-Claas & E R N S T , Oliver (2016). Exemplarbasierte Annäherungen an das Silbengelenk. Zeitschrift für germanistische Linguistik, 44, 149-171. R C O R E T E A M (2021). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, https: / / www.R-project.org/ (abgerufen am 12.05.2022, 12: 35 Uhr). R A P H A E L , Lawrence & B E L L -B E R T I , Fredericka (1975). Tongue Musculature and the Feature of Tension in English Vowels. Phonetica, 32, 61-73. R A T H C K E , Tamara, & M O O S H A M M E R , Christine (2022). ‘Grandpa’ or ‘opera’? Production and per‐ ception of unstressed / a/ and / əʁ/ in German. Journal of the International Phonetic Association, 33-58. R E C A S E N S , Daniel (1999). Lingual coarticulation. In: W. J. Hardcastle & N. Hewlett (Hrsg.), Coarticulation: Theory, Data and Techniques. Cambridge: CUP, 80-104. R E C A S E N S , Daniel & E S P I N O S A , Aina (2005). Articulatory, positional and coarticulatory characte‐ ristics for clear / l/ and dark / l/ : evidence from two Catalan dialects. Journal of the International Phonetic Association, 35, 1-25. 372 Literaturverzeichnis <?page no="374"?> R E C A S E N S , Daniel & E S P I N O S A , Aina (2009). An EMA investigation of lingual coarticulatory resistance and aggressiveness for consonants and vowels in Catalan VCV sequences. Journal of the Acoustical Society of America, 125, 2288-2298. R E C A S E N S , Daniel, P A L L A R È S , Maria Dolors & F O N T D E V I L A , Jordi (1997). A model of lingual coarticulation based on articulatory constraints. The Journal of the Acoustical Society of America, 102, 544-561. R E E T Z , Henning (2003). Artikulatorische und akustische Phonetik. 2. Aufl. Trier: WVT. R E P P , Bruno H. (1982). Phonetic trading relations and context effects: new experimental evidence for a speech mode of perception. Psychological Bulletin, 92, 81-110. R E P P , Bruno H. (1984). Categorical perception: Issues, methods, findings. In: N. J. Lass (Hrsg.), Speech and Language: Advances in Basic Research and Practice, Vol. 10. Orlando [et al.]: Academic Press, 243-335. R IA L L A N D , Annie, R I D O U A N E , Rachid & V A N D E R H U L S T , Harry (Hrsg.) (2015). Features in Phonology and Phonetics: Posthumous Writings by Nick Clements and Coauthors. Berlin/ New York: de Gruyter. R I D O U A N E , Rachid (2008). Syllables without vowels: phonetic and phonological evidence from Tashlhiyt Berber. Phonology, 25, 321-359. R O E T T G E R , Timo B. & B A E R -H E N N E Y , Dinah (2019). Toward a replication culture: Speech produc‐ tion research in the classroom. Phonological Data and Analysis, 1, 1-23. R O S E N B L U M , Lawrence D. (2019). Audiovisual speech perception and the McGurk effect. In: M. Aronoff (Hrsg.), Oxford Research Encyclopedia of Linguistics. Oxford: OUP, DOI: https: / / doi.o rg/ 10.1093/ acrefore/ 9780199384655.013.420 (abgerufen am 25.05.2022, 12: 55 Uhr). R U B I N , Henry J. (1960). The Neurochronaxic Theory of Voice Production-A Refutation. AMA Arch Otolaryngol, 71: 913-920. R U C H , Hanna & H A R R I N G T O N , Jonathan (2014). Synchronic and diachronic factors in the change from pre-aspiration to post-aspiration in Andalusian Spanish. Journal of Phonetics, 45, 12-25. R U E S , Beate, R E D E C K E R , Beate, K O C H , Evelyn, W A L L R A F F , Uta & S I M P S O N , Adrian P. (2007). Phonetische Transkription des Deutschen: Ein Arbeitsbuch. Tübingen: Narr. RS T U D I O T E AM (2020). RStudio: Integrated Development Environment for R. RStudio, PBC, Boston, MA, http: / / www.rstudio.com/ (abgerufen am 12.05.2022, 12: 40 Uhr). R U S S , Charles V. (Hrsg.) (1990). The dialects of modern German: A linguistic survey. Routledge: London. S A G E Y , Elizabeth C. (1986). The Representation of Features and Relations in Non-Linear Phonology. PhD Dissertation, MIT. D E S A U S S U R E , Ferdinand (1916). Cours de Linguistique Générale. Hrsg. von Charles Bally & Albert Séchehayet. Lausanne/ Paris: Payot et Cie. S K A R N I T Z L , Radek & Š T U R M , Pavel (2017). Voicing assimilation in Czech and Slovak speakers of English: Interactions of segmental context, language and strength of foreign accent. Language and Speech, 60, 427-453. S A L T Z M A N , Elliot & K E L S O , J. A. Scott (1987). Skilled actions: a task-dynamic approach. Psycholo‐ gical review, 94, 84-106. Literaturverzeichnis 373 <?page no="375"?> S C H A R I N G E R , Mathias (2016). Ungestörte Lautverarbeitung. In: U. Domahs & B. Primus (Hrsg.), Handbuch Laut, Gebärde, Buchstabe. Berlin/ Boston: de Gruyter, 163-181. S C H M I D T , Jürgen Erich & H E R R G E N , Joachim (2011). Sprachdynamik: Eine Einführung in die moderne Regionalsprachenforschung. Berlin: Erich Schmidt Verlag. S C H MI D T , Wilhelm (2000). Geschichte der deutschen Sprache: Ein Lehrbuch für das germanistische Studium. 8. Aufl. Stuttgart: S. Hirzel Verlag. S C O B B I E , James M. & P O U P L I E R , Marianne (2010). The role of syllable structure in external sandhi: an EPG study of vocalization and retraction in word-final English / l/ . Journal of Phonetics, 38, 240-259. S E L K I R K , Elisabeth (1982). The syllable. In H. van der Hulst & N. Smith (Hrsg.), The structure of phonological representations: Part II. Dordrecht: Foris, 337-381. S E L K I R K , Elisabeth (1984). Phonology and syntax: the relation between sound and structure. Cambridge, Mass.: MIT Press. S H A N N O N , Claude E. & W E A V E R , Warren (1949). The mathematical theory of communication. Urbana: University of Illinois Press. S H U L T Z , Amanda A., F R A N C I S , Alexander L. & L L A N O S , Fernando (2012). Differential cue weighting in perception and production of consonant voicing. The Journal of the Acoustical Society of America, 132, EL95-EL101. S I E V E R S , Eduard (1881). Grundzüge der Phonetik zur Einführung in das Studium der Lautlehre der indogermanischen Sprachen. 2. Aufl. Leipzig: Breitkopf & Härtl. S I M P S O N , Adrian P. (2007). Acoustic and auditory correlates of non-pulmonic sound production in German. Journal of the International Phonetic Association, 37, 173-182. S I M P S O N , Adrian P. (2014). Ejectives in English and German: Linguistic, sociophonetic, inter‐ actional, epiphenomenal? In: C. Celata & S. Calamai (Hrsg.), Advances in Sociophonetics. Amsterdam/ Philadelphia: John Benjamins, 189-204. S L A V I K , Korbinian, J O C H I M , Markus & K L A S E N , Verena (2020). Strategies and suggestions for singing in foreign languages based on phonetic musical notation. Proc. 7th TENOR Conference, Hamburg, Germany, 63-67. S M I T H , Bruce L., H A Y E S -H A R B , Rachel, B R U S S , Michael & H A R K E R , Amy (2009). Production and perception of voicing and devoicing in similar German and English word pairs by native speakers of German. Journal of Phonetics, 37, 257-275. S O L É , Maria-Josep (1999). The phonetic basis of phonological structure: the role of aerodynamic factors. Proceedings of the I Congress of Experimental Phonetics, Tarragona, Spain, 77-94. S P E N C E R , Andrew (1996). Phonology: Theory and Description. Oxford: Blackwell. S P I E K E R M A N N , Helmut (2002). Ein akustisches Korrelat des Silbenschnitts: Formen des Intensi‐ tätsverlaufs in Silbenschnitt- und Tonakzentsprachen. In P. Auer, P. Gilles & H. Spiekermann, H. (Hrsg.), Silbenschnitt und Tonakzente. Tübingen: Niemeyer, 181-200. S P I E K E R M A N N , Helmut (2007). Standardsprache im DaF-Unterricht: Normstandard-nationale Standardvarietäten-regionale Standardvarietäten. Linguistik online, 32, 3/ 07. DOI: https: / / do i.org/ 10.13092/ lo.32.541 (abgerufen am 25.05.2022, 15: 40 Uhr). S P R O A T , Richard & F U J I M U R A , Osamu (1993). Allophonic variation in English / l/ and its implica‐ tions for phonetic implementation. Journal of Phonetics, 21, 291-311. 374 Literaturverzeichnis <?page no="376"?> S T A F F E L D T , Sven (2010).-Zum Phonemstatus von Schwa im Deutschen - Eine Bestandsauf‐ nahme.-Studia Germanistica, 7, 83-96. S T E R IA D E , Donca (1995). Underspecification and Markedness. In. J. Goldsmith (Hrsg.), The Handbook of Phonological Theory. Oxford: Blackwell, 114-174. S T E V E N S , Kenneth N. (1972). The quantal nature of speech: Evidence from articulatory-acoustic data. In: E. E. David, Jr. & P. B. Denes (Hrsg.), Human communication: a unified view. New York: McGraw-Hill, 51-66. S T E V E N S , Kenneth N. (1989). On the quantal nature of speech. Journal of Phonetics, 17, 3-45. S T E V E N S , Kenneth N. (1998). Acoustic Phonetics. Cambridge/ MT: MIT Press. S T E V E N S , Kenneth N. (2002). Toward a model for lexical access based on acoustic landmarks and distinctive features. The Journal of the Acoustical Society of America, 111, 1872-1891. S T E V E N S , Kenneth N. (2005). Features in Speech Perception and Lexical Acces. In: D. B. Pisoni & R. E. Remez (Hrsg.), The Handbook of Speech Perception. Malden/ Oxford: Blackwell, 125-155. S T E V E N S , Kenneth N. & B L U M S T E I N , Sheila E. (1978). Invariant cues for place of articulation in stop consonants. The Journal of the Acoustical Society of America, 64, 1358-1368. S T E V E N S , Kenneth N. & B L U M S T E I N , Sheila E. (1981). The search for invariant acoustic correlates of phonetic features. In: P. D. Eimas & J. L. Miller (Hrsg.), Perspectives on the Study of Speech. Hillsdale: Erlbaum, 1-38. S T E V E N S , Mary & H A J E K , John (2007). Towards a phonetic conspectus of preaspiration: acoustic evidence from Sienese Italian. Proceedings of the 16 th International Congress of Phontic Sciences, Saarbrücken, Germany, 429-432. S T R A N G E , Winifred (1999). Perception of consonants: From variance to invariance. In: J. M. Pickett (Hrsg.), The Acoustics of Speech Communication: Fundamentals, Speech Perception Theory, and Technology. Needham Heights: Allyn & Bacon, 166-182. S T R A N G E , Winifred, J E N K I N S , James J. & J O H N S O N , Thomas L. (1983). Dynamic specification of coarticulated vowels. The Journal of the Acoustical Society of America, 74, 695-705. S U O MI , Kari, M E I S T E R , Einar, Y L I T A L O , Riikka & M E I S T E R , Lya (2013). Durational patterns in Northern Estonian and Northern Finnish. Journal of Phonetics, 41, 1-16. S W E E T , Henry. (1890). A primer of phonetics. Oxford: The Clarendon Press. S Y R D A L , Ann K. & G O P A L , H. S. (1986). A perceptual model of vowel recognition based on the auditory representation of American English vowels. The Journal of the Acoustical Society of America, 79, 1086-1100. T I L L M A N N , Hans G. & M A N S E L L , Phil (1980). Phonetik: Lautsprachliche Zeichen, Sprachsignale und lautsprachlicher Kommunikationsprozeß. Stuttgart: Klett. T I T Z E , Ingo R. (2006). The Myoelastic Aerodynamic Theory of Phonation. Iowa: National Center for Voice and Speech. T R A U N MÜL L E R , Hartmut (1990). Analytical expressions for the tonotopic sensory scale. The Journal of the Acoustical Society of America, 88, 97-100. T R A U N MÜL L E R , Hartmut & Ö H R S T RÖM , Niklas (2007). Audiovisual perception of openness and lip rounding in front vowels. Journal of Phonetics, 35(2), 244-258. T O R R E I R A , Francisco (2012). Investigating the nature of aspirated stops in Western Andalusian Spanish. Journal of the International Phonetic Association, 42, 49-63. Literaturverzeichnis 375 <?page no="377"?> T R U B E T Z K O Y , Nicolai S. (1931). Gedanken über Morphonologie. Travaux du Cercle Linguistique de Prague, 4, 160-163. T R U B E T Z K O Y , Nicolai S. (1935). Anleitung zur phonologischen Beschreibung. Nachdruck 1958. Göttingen: Vandenhoeck & Ruprecht. (Lautbibliothek der deutschen Mundarten; 2). T R U B E T Z K O Y , Nikolai S. (1939). Grundzüge der Phonologie. 7. Aufl. 1989. Göttingen: Vandenhoeck & Ruprecht. V E N N E M A N N , Theo (1991). Skizze der deutschen Wortprosodie. Zeitschrift für Sprachwissenschaft, 10, 86-111. V I H M A N , Marilyn M. (1996). Phonological development: the origins of language in the child. Cambridge, Mass.: Blackwell. W ÄN G L E R , Hans-Heinrich (1981). Atlas deutscher Sprachlaute. 7. Aufl. Berlin: Akademie-Verlag. W A L T L , Susanne & H O O L E , Philip (2008). An EMG Study of the German Vowel System. Proceedings of the 8 th International Seminar on Speech Production, Strasbourg, France, 445-448. W E L L S , John C. (1982). Accents of English 3: Beyond the British Isles. Cambridge: CUP. W A R R E N , Paul (2013). Introducing Psycholinguistics. Cambridge: CUP. W E R N E R , Otto (1972). Phonemik des Deutschen. Stuttgart: J. B. Metzlersche Verlagsbuchhandlung. W E R N E R , Raphael, T R O U V AI N , Jürgen, F U C H S , Susanne & M ÖB I U S , Bernd (2021). Exploring the presence and absence of inhalation noises when speaking and when listening. Proceedings of the 12 th International Seminar on Speech Production (ISSP 2020), Providence, USA, 214-217. W E V E R , Ernest Glen (1949). Theory of Hearing. New York: Wiley. W H A L E N , Douglas H. & L I B E R M A N , Alvin M. (1987). Speech perception takes precedence over nonspeech perception. Science, 237, 169-171. W I C K H A M , Hadley, E T A L . (2019). Welcome to the tidyverse. Journal of Open Source Software, 4(43), 1686, https: / / doi.org/ 10.21105/ joss.01686 (abgerufen am 12.05.2022, 13: 45 Uhr). W I E S E , Richard (1996). The Phonology of German. Oxford: OUP. W I E S I N G E R , Peter (1990). The Central and Southern Bavarian Dialects in Bavaria and Austria. In: C. Russ (Hrsg.), The dialects of Modern German. London: Routledge, 438-519. W I N K E L M A N N , Raphael, H A R R I N G T O N , Jonathan & J ÄN S C H , Klaus (2017). EMU-SDMS: Advanced speech database management and analysis in R. Computer Speech & Language, 45, 392-410. W I N K E L M A N N , Raphael, J A E N S C H , Klaus, C A S S I D Y , Steve & H A R R I N G T O N , Jonathan (2021). emuR: Main Package of the EMU Speech Database Management System. R package version 2.2.0. W R I G H T , Richard A. (2004). Factors of lexical competition in vowel articulation. In: John Local, Richard Ogden and Rosalind Temple (Hrsg.), Phonetic Interpretation: Papers in Laboratory Phonology. Cambridge: CUP, 75-87. Y U L E , George (1996). The study of language. 2. Aufl. Cambridge: CUP. Z A GÓR S K A B R O O K S , Maria (1964). On Polish Affricates. Word, 20, 207-210. Z E E , Eric (1999). Chinese (Hong Kong Cantonese). In: International Phonetic Association (Hrsg.), Handbook of the International Phonetic Association: A guide to the use of the International Phonetic Alphabet. Cambridge: CUP, 58-60. Z W I C K E R , Eberhard (1961). Subdivision of the Audible Frequency Range into Critical Bands (Frequenzgruppen). The Journal of the Acoustical Society of America, 33, 248. 376 Literaturverzeichnis <?page no="378"?> Z W I C K E R , Eberhard & T E R H A R D T , Ernst (1980). Analytical expressions for critical‐band rate and critical bandwidth as a function of frequency. The Journal of the Acoustical Society of America, 68, 1523-1525. Literaturverzeichnis 377 <?page no="380"?> Register Abduktion-→ Stimmlippen Abduktoren-55 Ableitung-→ Derivation Adaptive Dispersion Theory-100 Adduktion-→ Stimmlippen Adduktoren-54 Affrikate-147f, 203 Akzent-342 Kontrast--347 Satz--342, 346-349 Ton--348 Wort--333 alveolar-124, 137, 139f, 144, 152 bilabial-124, 137, 140 dental-144, 152 glottal-124, 147 homorgane-125, 148 labiodental-143 palatal-146, 154 pharyngal-210 postalveolar-145 retroflex-182 uvular-140, 146 velar-124, 137, 146 Artikulographie, elektromagnetische-62, 238 Aspiration-129ff Atemphase-→ Atmung Atmung-52 Atemmuskeln-52 Atemphase-52, 264, 343f Aus-, Exspiration-51, 63, 82 Sprech--52, 63, 66 nicht verzweigt/ einfach-233, 252 verzweigt/ komplex-233, 247, 252, 263 Deklination (prosodisch)-344, 350 Derivation-30f, 222, 226, 259 Deutsche Varietäten-34 Alemannisch-Schwäbisch-279 Mittelbairisch-21, 144, 154, 180 norddeutsche Varietäten-139, 176, 180, 278 Obersächsisch-39, 180, 266, 335 österreichische Standardaussprache-39, 167 Ostfränkisch-266 Plattdeutsch-21 Schweizerdeutsch-134, 235 Standarddeutsch-34 süddeutsche Varietäten-105, 116, 141, 144, 180 Wiener Dialekt-153 diachron 14, 100, 170, 189, 257, 265f, 268f, 271, Autosegment-232, 234, 347f Bairisch → Deutsche Varietäten- Band-88, 91, 159, 287 signalphonetisches-21 Behauchte Stimme-→ Stimmqualität Betonungswechsel → Wortbetonung- Betonung → Wortbetonung- Britische Schule-347 Buchstabe-18, 26, 28, 30, 33, 35, 40ff, 47, 71 Cochlea-289 Coda-229 akzentzählend-→ Sprachrhythmus Albanisch-154 Allophon-28 ambisilbisch → Konsonant- Amplitude-80, 84ff Ansatzrohr-→ Vokaltrakt apikal-→ Zunge Artikulationsart → Konstriktionstyp- Artikulationsort → Artikulationsstelle- Artikulationsstelle- <?page no="381"?> 276, 278, 280 Diakritikum-39 Diphthong-163f, 179, 235 öffnender-164 schließender-164, 178 distinktiv-25, 27 Distribution-→ Verteilung dorsal-→ Zunge egressiv-→ Luftstromrichtung Ejektiv-68, 71f, 202 EMU-SDMS-102f emuR-106, 109 EMU-webApp-107 Englische Varietäten-32 amerikanisch-140, 149, 153, 166, 182, 189, 276, 304, 307, 347 britisch-152, 164, 170 -frequenz-94, 159 -transition-125 verhältnistheorie-309 effektive Formant--309f Formant--94 Grund- (f0)-82, 90-94, 98 -gruppe-296f, 325 intrinsische f0-91 Lokus--125, 185 Anapäst-334 Daktylus-334 Jambus-334 Trochäus-334 Hörschwelle-294f Infraschall-78 Schmerzschwelle-295 Ultraschall-78, 295 Hypo- und Hyperartikulation-258, 318 Implosiv-68, 70ff, 202 380 Register neuseeländisch-265 Estnisch-135, 163 Etikettierung-18, 103, 106ff, 349f Experimentalphonetik-21 extrasilbisch → Konsonant- Finnisch-41, 134, 163 Flüstern-→ Stimmqualität Fokus-342 korrektiver-346 Form- Oberflächen--30 zugrunde liegende-30 Formant-94, 98, 107, 125, 152, 309 fortis-→ Phonationstyp Fourier-Transformation-86 Fränkisch → Deutsche Varietäten- Französisch-37, 132f, 165, 183, 189, 206, 210, 212, 256f, 267f, 338 Frequenz-78, 80, 85f, 88, 98, 291, 294, 296 Frikativ → Konstriktionstyp- Fuß-333, 335 linksköpfig-334 rechtsköpfig-334 Fußtypen-334 Ganong-Effekt-304 Gehörknöchelchen-287 Geminate-134f, 235, 239 Georgisch-71 Geräusch-82, 141, 147 gewichtssensitiv-→ Silbengewicht glottal-→ Luftstrommechanismus Glottalisierung-135 Graphem-41ff, 164, 263f Graphematik-41f Graphemverbindung-41ff Grenztöne-348 Griechisch-271, 338 Grundfrequenz-90 Hausa-65, 71 Hawaiianisch-32, 233 Hindi-133 homorgan → Artikulationsstelle- Hörfeld-78, 294f <?page no="382"?> Impuls-82, 84, 122, 135 indexikalisch-→ Information Information-24 indexikalische-24, 319f -struktur-329, 342, 355 Infraschall-→ Hörfeld ingressiv-→ Luftstromrichtung Instrumentalphonetik-21 Intonation-328, 332, 349 Aussage--353 Frage--353 -kontur-344, 347f -phrase-345 Intonationsphonologie-→ Phonologie Isländisch-137, 152, 201 Isochronie-338 Italienisch-137, 154, 235, 251, 336 Jambus-→ Fußtypen Japanisch-265, 338 Junkturen-344 Kantonesisch-64, 165, 336, 339 Kardinalvokal-166f, 171f, 176f primärer-167f sekundärer-169 Katalanisch-188, 263 Kehlkopf-50 -knorpel-53ff, 65, 67 -muskeln-53ff, 66, 92 Klang-82 Klicks-→ Schnalzlaut Knall-82, 122 Knarrstimme-→ Stimmqualität Koartikulation-183ff, 189, 256, 258, 314 Kompensation-311 -richtung-183 Konsonant- ambisilbischer-237, 239, 252, 331 extrasilbischer-251 -quantität-133 silbischer-242 Konstriktionstyp-69 Frikativ-141 Lateral-152 Nasal-137 Plosiv-122 Tap-139 Vibrant-139 glottal-63, 71 nicht pulmonal-63, 68f, 72 pulmonal-63f, 67 velar-63, 69 Luftstromquelle-→ Luftstrommechanismus Luftstromrichtung-63, 68 egressiv-63f, 67, 71 ingressiv-63, 69f Luganda-265 Mandarin-339 McGurk-Effekt-298 Register 381 Kontoid-121 Kontrast- akustischer-100, 319 phonologischer-27 Koreanisch-64, 71, 207, 345, 347 koronal-→ Zunge Kurdisch-265 Kurzzeitspektrum-→ Spektrum Labialisierung-153, 184 laminal-→ Zunge Lateinisch-189, 266, 268 Lateral → Konstriktionstyp- Lautheit-295 Lautschrift-36, 39 Lautstärke-295 lenis-→ Phonationstyp Lesesprache-18, 258, 264, 351 Lippenrundung-145, 155f, 160, 168, 171, 178, 182, 184, 206, 211, 213, 279, 298 Liquidlaut-203, 247 Logatom-22, 246, 312 Luftstrommechanismus-61, 63, 68 <?page no="383"?> Melpa-154 Merkmale- akustische 190f, 268, 303, 306, 317f, 339, 344 binäre-198, 204 distinktive 197, 213, 226, 235, 261, 270, 317f, 333 primäre-134, 176, 191, 264, 318 privative-199, 209 sekundäre-135, 191, 305, 318 Merkmalmatrix-214, 216 Merkmalsgeometrie-218, 232 Merkmalsmatrix-208 unterspezifizierte-211-214, 216 vollspezifizierte-211f Messphonetik-21 metrische- Bäume-333 Gitter-333f Minimalpaar-25ff, 33, 42, 116, 136, 150f, 177, 227, 337 Öffnungsgrad-→ Zungenhöhe Ohr-286 äußeres-286 Innen--289, 291 Mittel--287f aerodynamisch-myoelastische Theorie-66 Bernoulli-Effekt-68 Phonationstyp-64, 127 fortis-127 lenis-127 stimmhaft-64 stimmlos-64 Phonem-25 -inventar-26, 151 Phonologie-346 artikulatorische-62, 72f, 75, 188, 228f, 234, 243, 251, 268 autosegmentale-45, 232, 234, 236, 271, 276 autosegmental-metrisches (AM) Modell der Intonations--330, 345, 347 generative-30, 45, 259, 275 Labor--21, 45 metrische-330, 333, 347 prosodische-330 382 Register Analyse-25f, 42 Reihe-26, 173, 319 Modalstimme-→ Stimmqualität Monophthong-163ff, 172f, 177, 180 Mora-241, 338 Morentheorie-241 morenzählend-→ Sprachrhythmus Morphonologie-31 Musculus vocalis-54 Nasalierung-165f, 171, 189 Nasal → Konstriktionstyp- Navaho-71 Niederländisch-132, 263 Norddeutsch → Deutsche Varietäten- Normalisierung-307 extrinsische-308f intrinsische-308f Nukleus-231 Oberflächenrealisierung-30 Obstruent-200 Ohrenphonetik-20, 299 Onset-229 nicht verzweigt/ einfach-233, 252 verzweigt/ komplex-233, 247, 252 Onset-Maximierung-244, 246 Opposition-26 Optimalitätstheorie-31, 45, 276, 283 Orthographie-14, 26, 30, 35, 39-42, 44, 131, 239, 269, 278 Österreichisch → Deutsche Varietäten- Oszillogramm-83f, 107 Palatalisierung-153 Pedifizierung-333, 336 Periodendauer-81, 90 Pharyngalisierung-153, 171 Phon-25 Phonation-55, 65, 67, 91, 122, 127 <?page no="384"?> Phonologisierung-257, 265 Phonotaktik-32, 120, 151, 222, 244, 246ff, 252, 267, 269, 277 Phrasen-342 -finale Längung-345, 351 -grenzen-344, 348 -grenztöne-348 Intermediär--345 Intonations--345f prosodische-342, 344, 346 syntaktische/ phonologische-342 Makro--332 Mikro--332 Satz--342 Wort--332 prosodische Hierarchie-330, 333, 345 Prozesse- phonologische-262 (post-)lexikalische-278 Reduktions--258 spontansprachliche-257 Psycholinguistik-321 pulmonal-→ Luftstrommechanismus Quantaltheorie-100, 102, 171, 316f Quantität-207, 234 Konsonanten--133, 135, 235 Silben--235, 241 -sprache-134 Vokal--162, 171, 174, 176, 235 Quelle/ Filter-Theorie-90 radikal-→ Zunge Rauschen-82, 84 stochastisches-84, 98 Redundanz-23, 211f, 279f, 314, 318 Redundanzregel-212 Regel- Betonungs--336 Notation-259 phonologische-30, 260f Redundanz--212f, 215 Reim-231 Repräsentation- abstrakte-314, 321 autosegmentale-231f, 235, 241 kognitiv, mental-316, 320f lineare-32, 74, 238 Oberflächenform-30 orthographische-35, 40, 43 phonologische-72, 234, 321 zugrunde liegende Form-30 Resilbifizierung-233, 263 Resonanz- -frequenz-90, 93f, 96, 98, 125, 146f, 287, 294 -raum-92f, 95f, 130, 141ff, 147 -druck-80, 88 -druckpegel-86, 107, 294ff -geschwindigkeit-78, 94, 287 -intensität-78, 80, 127, 248, 293 -quelle-78f, 90, 92f, 287 -senke-78 Sprach--15 -verstärkung-286ff -welle-15, 78, 92, 287f, 291 Schildknorpel-53 Schnalzlaut-68-72 Register 383 Phrasierung-330, 342ff, 346 Plattdeutsch → Deutsche Varietäten- Plosiv → Konstriktionstyp- Polnisch-149, 151, 233, 241, 263, 336, 338 Portugiesisch-165, 256, 266 Praat-102 Prosodie-327, 329 Rhythmus-→ Sprachrhythmus Ringknorpel-53 Rohrmodell-93ff, 97, 159 R-Programmiersprache-106, 109 Russisch-35, 188, 263, 265, 336 Sächsisch → Deutsche Varietäten- Satzakzent-→ Akzent Satzakzentuierung-328, 342, 346 Schall-78 <?page no="385"?> absolute-292 Hör--295 Schmerz--295 Unterschieds--292 Schwingung-78, 80, 90 aperiodische-80 einfache periodische-80f komplexe periodische-82 quasi-periodische-82 Stimmlippen--55 Segment-108, 114, 235ff, 343 Segmentierung-18, 20, 71, 90, 103, 106ff, 116, 181 Sekundärartikulation-153, 184 Signal- Impuls--82 -phonetik-21 -typen-80, 84, 290 -verarbeitung-77 Silbe-120, 136, 165, 181f, 222, 224f, 228 -coda-279 Druck--238 -gewicht-236 -kern-225, 228 Kern--231 leichte-240f -nukleus-233 -onset-244 primär betonte/ starke-332f -quantität-234 -rand-225, 228 -reim-231 Schall--238 schwache-332, 335 schwere-240f sekundär betonte-334 superschwere-240 -typ-236 Silbengewicht-241 Silbenschnitt-238 -theorie-238 Silbenstruktur-231 -baum-232 -bedingung-227f Breitband--87f, 90f, 94 Schmalband--88f, 91 sonor-200, 248 Sonorant-200 Sonorität-248, 251f -prinzip-248, 250f -profil-250, 252 -skala-249f Spanisch-34, 41, 131, 141, 160, 206, 210, 266, 277 SpeechRecorder-102 Spektrogramm-→ Sonagramm Spektrum-86f, 89, 94, 317 Kurzzeit--86 Spezifikation-208, 210f, 213 Unter--211, 351 Voll--211 Spontansprache-18, 72, 225, 257f, 264, 266f, 269, 273, 279, 313 Sprachrhythmus-328, 338 Sprachwahrnehmung-298 audiovisuelle-298 auditive-298f, 303 kategoriale-300, 303 kontinuierliche-304 visuelle-298 384 Register Schwedisch-59, 188, 348 Schweizerdeutsch → Deutsche Varietäten- Schwelle- silbenzählend-→ Sprachrhythmus Silbifizierung-222, 234, 247, 263 silbisch → Konsonant- Singleton- einfacher Konsonant-134 einfacher Silbenrand-225, 229, 233 Sinuston-80 Slowakisch-243 Sonagramm-85f, 88 <?page no="386"?> Sprachwahrnehmungstheorien-313 Auditory Enhancement Theory-317 Direct Realist Theory-315 Exemplar-Modelle-319 H&H-Theorie-318 Motortheorie-314 Quantaltheorie-316 Abduktion-55, 65 Adduktion-54f, 64-67 -schwingung-55, 63f, 67 stimmlos-→ Phonationstyp Stimmqualität-64f, 166 Behauchte Stimme-65, 166 Flüstern-64, 137, 295 Knarrstimme-65, 135, 166 Modalstimme-64ff Transition-125ff, 138, 181, 183, 185f, 301, 313, 315 Transkription-13, 20f, 34-37, 39, 77, 125, 128, 131, 134, 141, 162, 164f, 167, 170, 176, 222, 225, 333f, 339, 346f breit-36, 60, 139, 193 eng-36, 39, 60, 139 Systeme-36, 40f Trochäus-→ Fußtypen Tschechisch-153, 240f, 263, 272 Typologie-14, 34, 180, 246, 336, 338, 345 Ultraschall-→ Hörfeld Umlaut-265, 275, 278 Umschrift-35f Ungarisch-149, 265, 336 velar-→ Luftstrommechanismus Velarisierung-153, 184, 188 Verteilung-27f Adaptive-Dispersion Theory-100 asymmetrisch-180 defektiv-27 Exemplar-Modelle der Sprachverarbeitung-320 freie Variation-28f, 140 Register 385 Sprechatmung-→ Atmung Sprechgeschwindigkeit-17f, 185, 257 Standarddeutsch → Deutsche Varietäten- Stellknorpel-53 Stimmbandspanner-54 stimmhaft-→ Phonationstyp Stimmhaftigkeit-→ Phonation Stimmlippen-5054f Stimmritzenerweiterer-55 Strict Layer Hypothesis-330f, 345 subglottal-50 subphonemisch-30, 45, 72, 197, 221 subsilbisch-231f, 244 Süddeutsch → Deutsche Varietäten- supraglottal-50 Symbolphonetik-20f synchron-14, 100, 257, 266, 269, 276 Tap → Konstriktionstyp- Taschelhit-243, 251, 271 Tonakzent-348 bitonaler-348f, 351f monotonaler-348, 350 Tones and Break Indices (ToBI)-347, 349 Tonhöhe-296 Trading Relations-305 komplementär-28, 33f, 152f, 184, 256 Vibrant → Konstriktionstyp- Vietnamesisch-71 Voice Onset Time (VOT)-132f, 304f, 307 Vokaldauer- intrinsische-157 Vokaldreieck-→ Vokaltrapez Vokalharmonie-274, 278 Vokalhöhe-157, 160, 199 Vokalqualität-84, 157, 162f, 180, 265 Vokaltrakt-50, 56 Vokaltrapez-155f, 162, 166, 171, 178f Vokalviereck-→ Vokaltrapez Vokoid-120f, 190, 200, 249 <?page no="387"?> fest-336f frei-336f Primärbetonung-332 Regeln-336 Sekundärbetonung-334 -wechsel-336 Zoque-277f Zulu-69 Zunge-58f -blatt, laminal-58f -grund, -wurzel, radikal-58 -körper, dorsal-58 -spitze, apikal-58 Vorder-, koronal-59 Zungenhöhe-156f, 160, 171 Zungenposition-156, 158, 160, 171 386 Register Wanderwelle-291, 316 -theorie-290 Wellenlänge-78, 81, 94, 96 Wiener Dialekt → Deutsche Varietäten- Wohlgeformtheit-222, 227 Wortbetonung- <?page no="388"?> Mit Zusatzmaterial ISBN 978-3-8233-8337-6 Dieses Buch führt in die Lehre sprachlautlicher Kommunikation auf phonetischer und phonologischer Ebene ein. Neun Kapitel beschreiben Form und Funktion von Einzellauten und Silben aus artikulatorischer, akustischer, perzeptiver und phonologischer Sicht, ebenso die Prozesse, denen sie auf Wort- und auf Phrasenebene unterliegen. Neben dem deutschen Lautsystem werden auch Laute anderer Sprachen und sprachübergreifende Aspekte besprochen sowie Schni�stellen mit anderen sprachwissenschaftlichen Gebieten thematisiert. Das Lehr- und Arbeitsbuch richtet sich an Studierende der Phonetik, Sprachwissenschaft und einzelner Philologien sowie an Studierende anderer Fächer, die einen Einblick in das Forschungsgebiet bekommen möchten. Übungsaufgaben, Besprechungen klassischer Experimente und signalphonetische Beispielanalysen mit ausgewählten Sprachverarbeitungstools und anhand eines Übungskorpus machen es gerade für das Selbststudium zu einem wertvollen Begleiter. Ergänzt wird das Buch durch online verfügbare Audiobeispiele, zusätzliche Kapitel, phonetische Analysen und Musterlösungen. Kleber Phone�k und Phonologie Phone�k und Phonologie Ein Lehr- und Arbeitsbuch Felicitas Kleber 18337_Umschlag_bel.indd 1-3 18337_Umschlag_bel.indd 1-3 14.07.2023 10: 00: 28 14.07.2023 10: 00: 28
![](media.xav/9783823393375.jpg?SID=&iid=4509&sinst=&ssinst=&_csrf=9D1D7E5430666B938241FA94AB7E6FD37FDBB340)