Korpusbasierte Sprachverarbeitung

Christoph Draxler

eBooks

Korpusbasierte Sprachverarbeitung

2008

978-3-8233-7394-0

Gunter Narr Verlag

Christoph Draxler

Gesprochene Sprache steht im Fokus moderner sprachwissenschaftlicher Forschung und sprachtechnologischer Entwicklung. Das vorliegende Buch gibt eine systematische Einführung in die technischen Grundlagen und zeigt auf, wie, ausgehend von konkreten Forschungsfragen, Sprachdaten erhoben, annotiert, gewichtet und in Form von Sprachdatenbanken zur Nutzung verfügbar gemacht werden. Ein besonderes Interesse gilt dabei innovativen web-basierten Verfahren, die es gestatten, im Feld oder Studio qualitativ hochwertige Aufnahmen durchzuführen und diese anschließend interaktiv zu bearbeiten. Begleitet wird das Buch von einer Webseite mit Sprachbeispielen und aktueller Sprachverarbeitungssoftware. Aus dem Inhalt: Einführung · Technische Grundlagen · Erstellung von Sprachdatenbanken · Phasenmodell · Die Ph@ttSessionz Sprachdatenbank · Zusammenfassung, Glossar, Literaturverzeichnis

narr studienbücher Christoph Draxler Korpusbasierte Sprachverarbeitung Eine Einführung narr studienbücher Für Gabi, Fiona und Felix Christoph Draxler Korpusbasierte Sprachverarbeitung Eine Einführung Gunter Narr Verlag Tübingen Dr. phil. habil. Christoph Draxler lehrt am Institut für Phonetik und Sprachverarbeitung der LMU München und leitet gemeinsam mit Florian Schiel das BAS, Bayerisches Archiv für Sprachsignale. Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http: / / dnb.d-nb.de> abrufbar. © 2008 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Gedruckt auf chlorfrei gebleichtem und säurefreiem Werkdruckpapier. Internet: http: / / www.narr-studienbuecher.de E-Mail: info@narr.de Druck: Gulde, Tübingen Bindung: Nädele, Nehren Printed in Germany ISSN 0941-8105 ISBN 978-3-8233-6394-1 Inhalt Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1 Sprachdatenbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2 Aufbau des Buches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3 F¨ ur wen ist dieses Buch? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1 Schwingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2 Signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3 Spektrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4 Digitalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3 Gesprochene Sprache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 1 Grundlagen gesprochener Sprache . . . . . . . . . . . . . . . . . . . . . . . . . 44 2 Sprachlaute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3 Sprachlaut und Signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4 Sprachsignale am Computer . . . . . . . . . . . . . . . . . . . . . . . . . 64 1 Oszillogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2 Sonagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3 Weitere Signalarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5 Signaldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 1 Dateiformate f¨ ur Signaldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2 Datenkompression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3 Digitales Audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4 Digitales Video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 6 Symbolische Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 1 Implizite und explizite Strukturierung . . . . . . . . . . . . . . . . . . . . . 110 2 Exkurs: Datenkonversion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 3 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 4 Datenbanksysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5 Weitere Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6 Inhalt 6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 7 Aufnahmetechnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 1 Mikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 2 Aufnahmeger¨ate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 3 Exkurs: Aufnahmekoffer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 4 R¨aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 5 Aufnahmen im Feld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 6 Aufnahmeverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 7 Einwilligung zu Aufnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 8 Exkurs: Sprecherdatenbank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 9 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 8 Annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 1 Annotation von Sprachsignalen . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 2 Klassen von Annotationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 3 Annotationen in Sprachdatenbanken . . . . . . . . . . . . . . . . . . . . . . 178 4 Exkurs: Wie kriege ich die / blød@n/ Zeichen in meinen Text? . 185 5 Annotationsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 9 Erstellung von Sprachdatenbanken . . . . . . . . . . . . . . . . . . . 192 1 Ein Beispiel vorab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 2 Phasenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 3 Spezifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 4 Vorbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 5 Datensammlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 6 Datenaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 7 Annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 8 Dokumentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 9 Validierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 10 Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 11 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 10 Die Sprachdatenbank Ph@ttSessionz . . . . . . . . . . . . . . . . . 222 1 Ausgangslage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 2 Die Vorl¨auferprojekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 3 Ph@ttSessionz Aufnahmespezifikation . . . . . . . . . . . . . . . . . . . . . 226 4 Verarbeitung der Signaldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 5 Ph@ttSessionz v.1.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 11 Wichtige Links . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 Inhalt 7 12 Checkliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 13 IPA Alphabet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 14 Kombi-Formular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 15 Glossar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 16 Abk¨ urzungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 17 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 Vorwort Das M¨ unchner Institut f¨ ur Phonetik und Sprachverarbeitung IPS ist in einer beneidenswerten Lage: institutionell eingebettet in die Geisteswissenschaften der LMU M¨ unchen, in regem akademischen Austausch mit der Computerlinguistik, Physik, Informatik, Elektrotechnik und der Neurolinguistik, und aktiv in der Kooperation mit der Industrie. Wie nur an wenigen Orten sonst in Deutschland kommen hier geistes- und naturwissenschaftliche Grundlagenforschung mit Technologieentwicklung zusammen, und das sorgt f¨ ur ein exzellentes Forschungs- und Arbeitsklima. Das Bayerische Archiv f¨ ur Sprachsignale BAS ist eine Einrichtung des IPS. Gegr¨ undet wurde es 1995 mit dem Ziel, in Deutschland eine zentrale Anlaufstelle f¨ ur Korpora gesprochener Sprache zu schaffen. Der Katalog des BAS umfasst mittlerweile ¨ uber 25 Sprachdatenbanken, das Aussprachelexikon Phonolex, frei erh¨altliche Software zur automatischen Segmentation, zur skriptgesteuerten web-basierten Sprachaufnahme, zur Visualisierung und Analyse von phonetischen Annotationen sowie zur automatischen Graphem-Phonem Konvertierung - und der Katalog wird laufend erweitert. Das vorliegende Buch ist die erste deutschsprachige Einf¨ uhrung in die Erstellung und Nutzung von Sprachdatenbanken. Es fasst die in vielen Jahren gewonnenen Erfahrungen in kompakter Form zusammen und soll Studierende, Forscher und Entwickler in die Lage versetzen, die optimale technische Ausr¨ ustung auszuw¨ahlen, selbst Sprachdatenbanken zu erstellen sowie vorhandene Datenbanken zu nutzen und sie zu erweitern. Ich bedanke mich bei meinen Kollegen und Kolleginnen am IPS f¨ ur die anregenden Diskussionen und wertvollen Beitr¨age zu diesem Buch, bei den Studierenden f¨ ur die kritischen Fragen und die Ermunterung, Dinge immer wieder mit neuen Augen zu sehen. Vorwort 9 Mein herzlicher Dank gilt auch den Korrekturleserinnen und -lesern Gabi Draxler, Stephan Euler, Katalin M´ady, Uwe Reichel, Florian Schiel, Hans Tillmann und dem Lektor des Verlags, J¨ urgen Freudl, f¨ ur seine Bereitschaft, sich in ein ganz neues Themengebiet einzuarbeiten. Lothar Lemnitzer danke ich f¨ ur die Unterst¨ utzung bei der Formatierung mit LaTeX. Ganz besonderer Dank geht an Klaus J¨ansch f¨ ur seine exzellente Programmierarbeit, ohne die web-basierte Sprachaufnahmen und damit die Sprachdatenbank Ph@ttSessionz nie m¨oglich gewesen w¨aren. M¨ unchen, im August 2008 Einleitung Es passiert nicht h¨aufig, dass eine Wissenschaft mit einer ¨ uber Jahrhunderte w¨ahrenden Tradition fast ¨ uber Nacht in ihren Grundfesten ersch¨ uttert wird. In der Phonetik ist dies 1930 mit der ¨offentlichen Pr¨asentation der ersten R¨ontgenfilme von sprechenden Personen geschehen. Zum ersten Mal waren hier bislang unsichtbare Vorg¨ange im K¨orper detailgetreu und in Bewegung abgebildet. Der Linguist E. W. Scripture ist angesichts eines solchen Films ¨ uberw¨altigt: The impression of such a film is overwhelming. The organs of speech do not remain still for an instant, every speech act is the combination of the movements of all organs of the mouth, the throat, the larynx etc., and this combination is deployed over time. und er kommt zu einer beunruhigenden Schlussfolgerung: Sound positions simply do not exist. One understands at once that the sound physiology up to now has been based on an illusion and one awaits new explanations. ([Scr32], S. 173, zitiert nach [Ash94] S. 3092) Paradoxerweise erfolgte diese Ersch¨ utterung ausgerechnet durch eben jene Mittel, von denen man sich eigentlich erhofft hatte, dass sie die bestehende Theorie st¨ utzen und festigen w¨ urden: The paradoxical situation was that instruments had been introduced to replace subjective hearing by objective measurements, but the resulting picture did not show what was originally looked for: visible speech sounds. These had disappeared and had to be reinvented by the new phonologists. [Til94] Aus wissenschaftshistorischer Sicht markiert die Entwicklung eines bildgebenden Verfahrens zur maschinellen Aufzeichnung von Sprechbewegungen im K¨orper den ¨ Ubergang von der Forschung durch Introspektion und direkte Beobachtung zur empirischen Forschung mit objektiven Messdaten - f¨ urwahr ein radikaler Umbruch. Einleitung 11 Doch damit nicht genug: zwei weitere technische Entwicklungen haben die M¨oglichkeiten und Anwendungsgebiete der Linguistik und Phonetik auf dem Gebiet der Verarbeitung gesprochener Sprache revolution¨ar ver¨andert: die Digitalisierung und das Internet. Der ¨ Ubergang von analoger auf digitale Technik hat dazu gef¨ uhrt, dass die Rohdaten nun beliebig h¨aufig und ohne Verlust kopiert, und dass unterschiedliche Datenarten zu komplexen Multimedia-Dokumenten kombiniert werden k¨onnen. Damit k¨onnen Forscher und Entwickler zum einen in verschiedenen Einrichtungen mit den gleichen Daten arbeiten und zum anderen durch die nun m¨ogliche einfache Verkn¨ upfung von Daten neue Erkenntnisse gewinnen. Das Internet, insbesondere das World Wide Web, erm¨oglicht nicht nur den unmittelbaren Zugriffauf weltweit verteilte Datenressourcen, sondern dar¨ uber hinaus die gemeinsame sukzessive Erweiterung und Verbesserung bestehender Ressourcen - neue Rohdaten, Annotationen und Ergebnisse werden in vorhandene Datenbest¨ande integriert und stehen allen Nutzern dann unmittelbar zur Verf¨ ugung. Der R¨ontgenfilm 1 in Abb. 1 ist ein anschauliches Beispiel daf¨ ur: die R¨ontgenaufnahmen wurden 1974 von C. Rochette in der Radiologie der Klinik Hˆ otel-Dieu de Qu´ebec in Kanada auf 35 mm Kinofilm aufgezeichnet. In den fr¨ uhen 90er Jahren wurden sie dann von K. Munhall, E. Vatikiotis-Bateson und Y. Tohkura in den Advanced Telecommunications Research Labors in Kyoto auf analoge Videodisk kopiert und im Jahr 2000 von Ph. Hoole am Institut f¨ ur Phonetik der LMU M¨ unchen digitalisiert. Letzterer hat diese digitalen Videos um ein Sonagramm, eine Text- und eine Phonemspur erweitert - diese Spuren sind animiert und zeigen synchron mit dem ablaufenden Film das entsprechende Wort und Phonem sowie die aktuelle Abspielposition im Sonagramm. Das digitale Video erlaubt nun nicht nur ein einfaches Abspielen, sondern auch ein bildweises Vor- und Zur¨ uckbl¨attern im Film, oder das wiederholte Abspielen einzelner Ausschnitte. Die zus¨atzlichen Spuren erm¨oglichen einen direkten Zugriffauf einzelne Filmausschnitte ¨ uber linguistische Kategorien: “Spiele das Wort ‘outside’ ab”, oder “wiederhole den Diphthong / aI/ zehn Mal”. Vom urspr¨ unglichen R¨ontgenfilm gab es nur ein Originalexemplar. Durch das Umkopieren auf Videodisk war eine Vervielf¨altigung zwar m¨oglich, wegen der prohibitiv hohen Kosten und der geringen Verbreitung von Abspielger¨aten jedoch wurden nur wenige Exemplare gepresst. Als digitales Video war dieser Film mit den zus¨atzlichen Spuren 1 Die Abbildung wurde freundlicherweise von Ph. Hoole vom Institut f¨ ur Phonetik der LMU M¨ unchen zur Verf¨ ugung gestellt. 12 Einleitung Abbildung 1. R¨ontgenbild des Mundraums bei der Artikulation des Diphthongs / aI/ und Sonagramm der ¨ Außerung “It’s ten below outside”. zun¨achst nur auf CD, aber bereits in Tausenden von Exemplaren und gratis, erh¨altlich. Mittlerweile kann man ¨ uber das WWW auf diesen Film - und viele weitere, in gleicher Weise aufbereitete Filme - zugreifen und ihn zu Forschungs-, Ausbildungs- und Entwicklungszwecken nutzen. 1 Sprachdatenbanken Der Aufbau und die Nutzung von Sprachkorpora sind zentrales Thema dieses Arbeitsbuchs. Der Terminus Sprachkorpus wird in der Literatur Einleitung 13 aufgrund der Mehrdeutigkeit des Wortes ’Sprache’ im Deutschen sowohl f¨ ur Korpora gesprochener Sprache als auch f¨ ur Textkorpora, z. B. in der Korpuslinguistik verwendet. In diesem Arbeitsbuch wird daher der Begriff Sprachdatenbank zur Bezeichnung eines strukturierten Datenbestandes mit gesprochener Sprache vorgeschlagen. Eine Sprachdatenbank ist ein auf Dauer angelegtes System zur Speicherung und Verwaltung unterschiedlicher sprachbezogener Daten. Sie hat den folgenden dreischichtigen Aufbau: • Prim¨ardaten: Signaldaten von gesprochenen ¨ Außerungen • Sekund¨ardaten: Repr¨asentation des Inhalts der Sprachsignaldaten in einem formalen kategorialen System • Terti¨ardaten: Metadaten, Protokoll- und administrative Daten, Dokumentation sowie Angaben zu Urheber- und Nutzungsrechten (siehe u.a. [Esl90, GMW97, Dra99b, IPA99, Oos00, LZ06]). S¨amtliche Daten sind in maschinenlesbarer, d. h. digitaler Form gespeichert. Am konkreten Beispiel des R¨ontgenfilms lassen sich die drei Datenebenen erl¨autern. Der digitalisierte R¨ontgenfilm sowie der per Mikrofon aufgezeichnete Sprachschall, dargestellt in Form eines Sonagramms, sind die Prim¨ardaten. Der Wortlaut der ¨ Außerung in englischer Standardorthographie und eine phonemische Transkription sind Sekund¨ardaten. Weitere Spuren, z. B. eine enge phonetische Transkription oder eine morphologische Annotation k¨onnen hinzugef¨ ugt und mit den vorhandenen Spuren verkn¨ upft werden. Die Terti¨ardaten beschreiben die Daten- und Annotationsebenen mit ihren Abh¨angigkeiten, z. B. Verwendung des englischen SAMPA Phonem-Inventars f¨ ur die Transkription, den Sprecher, z. B. Alter, Geschlecht und regionale Herkunft, sowie technische Parameter des Films, z. B. Videoformat und Dateigr¨oße. Die Prim¨ardaten sind prinzipiell unver¨anderlich, die Sekund¨ardaten dagegen ver¨anderlich: Annotationen werden korrigiert, hinzugef¨ ugt oder gel¨oscht, neue Annotationsebenen kommen hinzu usw. Diese ¨ Anderungen m¨ ussen in den Terti¨ardaten nat¨ urlich protokolliert werden, so dass auch diese ver¨anderlich sind. Die Definition von Sprachdatenbanken klammert quantitative Aspekte - ebenso wie die Festlegung auf bestimmte Speicher- und Kommunikationsmedien - bewusst aus. 14 Einleitung 1.1 Sprachdatenbanken in Forschung und Entwicklung Sprachdatenbanken sind die zentrale Ressource in allen sprachverarbeitenden Disziplinen. Je nach Aufgabenstellung sind sie unterschiedlich aufgebaut: • Zur Untersuchung theoretischer Fragestellungen sind h¨aufig Sprachdatenbanken mit nur wenigen Sprechern und Sprachmaterial in geringem Umfang, daf¨ ur aber in einer Vielzahl unterschiedlicher Signalarten notwendig, z. B. akustisches Signal, Sensordaten, biometrische Daten. • F¨ ur die Entwicklung sprachtechnologischer Anwendungen dagegen, z. B. Spracherkennung, Sprachsynthese oder Dialogsysteme, m¨ ussen Sprachdatenbanken m¨oglichst alle im sp¨ateren praktischen Einsatz vorkommenden sprachlichen Ph¨anomene abdecken. Deswegen bestehen TechnologieSprachdatenbanken ¨ ublicherweise aus nach demographischen Kriterien ausgew¨ahlten großen Sprecherpopulationen, anwendungsspezifischem Vokabular und realit¨atsnahen Signaldaten. Die Erstellung von Sprachdatenbanken ist zeitaufwendig und teuer. Eine ganz grobe Absch¨atzung erlaubt der sog. Echtzeitfaktor, der angibt, wie lang die reine Nachbearbeitung eines Sprachsignals im Verh¨altnis zur Dauer der ¨ Außerung ist. Dieser ist f¨ ur eine einfache ‘ok/ nicht ok’-Beurteilung > 1, denn die ¨ Außerung muss geladen, angeh¨ort und dann beurteilt werden. F¨ ur eine Niederschrift des Wortlauts liegt er bei ¨ uber 10, f¨ ur eine breite phonemische Transkription ¨ uber 100 und f¨ ur eine enge phonetische Transkription bei > 500. Eine Minute Sprache kann also ¨ uber 500 Minuten Nachbearbeitung ben¨otigen! Und der Aufwand f¨ ur die Planung der Aufnahmen, ihre Durchf¨ uhrung, den Datentransfer sowie die Dokumentation und Distribution der Daten ist hier noch gar nicht eingerechnet. Es ist daher notwendig, von Anfang an darauf zu achten, dass Sprachdatenbanken f¨ ur m¨oglichst viele Anwendungszwecke geeignet sind, und dass sie sowohl quantitativ, durch Hinzuf¨ ugen weiterer Daten, als auch qualitativ, durch zus¨atzliche Datenarten wie neue Annotationen oder Metadaten, erweitert werden k¨onnen. Im Vorwort zu seinem Handbuch zu einer “X-Ray Microbeam Speech Production Database” vergleichen Westbury et al. das Erstellen einer Sprachdatenbank mit dem eines Thesaurus ([WTD94] S. ii): It has taken much more work from members of our group than I first imagined, in no small part because our intent, like Roget’s, has been to produce a public resource that might benefit many, for years to come. ... The resulting resource was intended to be Einleitung 15 suﬃciently accurate and deep to withstand statistical scrutiny of variance, within and across speakers, and perhaps most importantly, to be an open resource, available for unlimited inspection and use by other speech scientists. Drei zentrale Aspekte von Sprachdatenbanken werden hier bereits angef¨ uhrt: 1) die Anwendungsunabh¨angigkeit und der uneingeschr¨ankte Zugriff: ‘public resource’ und ‘unlimited inspection’, 2) die Nutzung durch einen großen Anwenderkreis: ‘benefit many’, und 3) die langfristige Verf¨ ugbarkeit: ‘years to come’. Die meisten Sprachdatenbanken werden zielgerichtet f¨ ur einen speziellen Zweck erstellt, z. B. das Trainieren von Spracherkennungssystemen. Im Laufe der Zeit kommen dann - weil die Sprachdatenbanken nun bereits vorhanden sind - weitere Anwendungen hinzu, die zum Zeitpunkt der Erstellung noch gar nicht vorhersehbar waren. Diese neuen Anwendungen f¨ uhren zu Erweiterungen der Sprachdatenbank, da sie zus¨atzliche Annotationsebenen hinzuf¨ ugen, die dann wiederum den Nutzen der Sprachdatenbank f¨ ur weitere Anwendungen erh¨ohen: [LC98, GB00]: Once a [representative, extensive, and uniform] database is established, numerous commensurate studies on the same data can be made. ([Mad84], S. 3) oder It is increasingly common for layers of annotation to be added over time to existing databases ... these annotations have introduced new structure, which was then used by others. ([LC98], S. 163) und Both the potential and the motivation for re-use increase with the size of the corpus: larger corpora provide a better representation of linguistic diversity and variability, and so are richer objects of study for any research goal; also, the expense and effort that go into the creation of a large corpus, typically on behalf of a particular research program, can provide powerful leverage for researchers involved in other projects or areas of study. ([GB00], S. 427) So wurde beispielsweise die Sprachdatenbank TIMIT 1986 zur Entwicklung von Spracherkennungssystemen erstellt. Urspr¨ unglich enthielt sie nur die Sprachsignale, den Wortlaut des gelesenen Satzes und eine 16 Einleitung phonemische Segmentation in einem eigenen phonemischen Alphabet [GLF + 86]. Sukzessive sind dann phonetische Segmentationen, prosodische Annotationen sowie weitere Annotationsebenen hinzugef¨ ugt worden, und gleichzeitig wurde sowohl die urspr¨ ungliche Sprachdatenbank um neue Signaldaten wie Festnetz- und Mobiltelefon oder Elektromagnetische Artikulographie erweitert als auch das Design der Datensammlung auf andere Sprachen ¨ ubertragen, so dass es nun z. B. franz¨osische, deutsche, japanische und andere TIMIT-artige Sprachdatenbanken gibt. Außerdem wurde die Sprachdatenbank immer wieder zur Entwicklung neuer Anwendungen herangezogen, z. B. zur Extraktion von Sprechermerkmalen f¨ ur die Sprecherverifikation [FG96] oder eine automatische Alinierung von phonetischen Segmenten [Sj¨o01]. Sogar f¨ ur soziolinguistische Untersuchungen wurde TIMIT herangezogen [Str]. ¨ Uber 20 Jahre nach der ersten Ver¨offentlichung ist TIMIT also immer noch eine viel genutzte und aktuelle Sprachdatenbank! 1.2 Bedarf an Sprachdatenbanken In der Linguistik und Phonetik hat die empirische Arbeit mit Text- und Sprachkorpora eine lange Tradition, und es wurden einige Sprachdatenbanken erstellt. Die rasante Entwicklung der Sprachtechnologie, insbesondere der Spracherkennung und Sprachsynthese, aber auch anderen Anwendungen, hat den Bedarf an Sprachdatenbanken geradezu explosionsartig anwachsen lassen. Spracherkennungssysteme werden in einem statistischen Verfahren trainiert: eine sprachgesteuerte Ger¨atebedienung erfordert Sprachaufnahmen von hunderten von Sprechern, die alle m¨oglichen Kommandos zur Bedienung des Ger¨ats sprechen, ein Diktiersystem tausende von Stunden von Sprachbeispielen. 2 Eine konkatenative Sprachsynthese (vgl. Abschnitt 1.6) setzt ihre generierten ¨ Außerungen aus Fragmenten von zuvor aufgenommener menschlicher Sprache zusammen. Sie klingt umso nat¨ urlicher, je besser die einzelnen Fragmente zueinander passen - und nur eine große Sprachdatenbank bietet diese Auswahl. Viele der Ans¨atze, die in der Sprachtechnologie entwickelt wurden, haben nun auch Eingang in die Phonetik und Linguistik gefunden: so 2 Dieses Training erfolgt bei der Entwicklung der Diktiersystemsoftware. Das kurze Sprechen von Tests¨atzen durch den Anwender der Software bei der erstmaligen Verwendung des Diktiersystems ist nur zur Anpassung der Software an die Stimme und Sprechweise des Anwenders notwendig, und es dauert meist nur Minuten. Einleitung 17 sind z. B. probabilistische Verfahren nicht mehr nur auf die Spracherkennung beschr¨ankt, sondern erweisen sich auch als erfolgreich in der Syntaxanalyse, der Informationsextraktion, Textzusammenfassung und der maschinellen ¨ Ubersetzung, was den Bedarf an geeigneten Korpora erh¨oht. Zudem hat sich herausgestellt, dass jede neue technische Anwendung zun¨achst einmal eine Sprachdatenbank zu ihrer Entwicklung ben¨otigt - und dass sich andererseits jeder Fortschritt in der Sprachtechnologie sofort auf die Erstellung von Sprachdatenbanken auswirkt. So war z. B. die PhonDat Sprachdatenbank notwendig, um das automatische Segmentationsverfahren MAUS (Munich Automatic Segmentation) zu entwickeln [Sch97, KWS97, Kip99, Sch99, Sch04a]. Dieses Verfahren wird seitdem in vielen weiteren Datensammlungen zur phonetischen Segmentation eingesetzt und vereinfacht und beschleunigt auf diese Weise die Erstellung neuer Sprachdatenbanken. In den folgenden Abschnitten wird, stellvertretend f¨ ur weitere Anwendungsgebiete, die Verwendung von Sprachdatenbanken f¨ ur die empirische Grundlagenforschung und die Technologieentwicklung beschrieben. 1.3 Dialektologie Die Dialektologie interessiert sich f¨ ur regionale Variet¨aten von Sprachen. Diese Variet¨aten manifestieren sich vor allem in gesprochener Sprache, und dort auf verschiedenen linguistischen und phonetischen Ebenen wie Syntax, Lexik, Prosodie und Phonetik. 3 Zur Dokumentation und Erforschung von regionalen Variet¨aten werden in der Regel Sprachaufnahmen durchgef¨ uhrt. Die Sprecher - h¨aufig auch Gew¨ahrsleute oder Informanten genannt - sind nach regionalen Merkmalen ausgew¨ahlt, z. B. Muttersprache, Dialekt, Sprache in der Familie, Ausbildung, Beruf usw. Ebenfalls interessant sind die bisherigen Wohnorte und der aktuelle Wohnort. Das Sprachmaterial besteht sowohl aus f¨ ur die konkrete Fragestellung konstruiertem Material (z. B. Wortlisten, regionaltypische Redewendungen, phonetisch reiche S¨atze) als auch aus Aufnahmen spontan gesprochener Sprache (z. B. Bildbeschreibungen, freie Interviews usw.), sowohl in monoals auch dialogischer Sprechsituation. ¨ Uber die Sprachaufnahmen wird Protokoll gef¨ uhrt: Aufnahmeort, -datum und -zeit, beteiligte Sprecher, technische Ausr¨ ustung usw. 3 Eine sch¨one Einf¨ uhrung in die Dialektologie gibt [L¨of03]. Soziolinguistische Aspekte stehen bei [BS98a] im Vordergrund. 18 Einleitung Nach der eigentlichen Aufnahme werden die Sprachsignale auf ihre technische Qualit¨at gepr¨ uft, inventarisiert und mindestens phonemisch oder phonetisch transkribiert. H¨aufig kommt sogar noch eine Segmentation hinzu, d. h. die Transkriptionen werden mit Zeitangaben, die auf Abschnitte im Sprachsignal verweisen, versehen. Anschließend werden alle in den Transkriptionen vorkommenden Wortformen in einer Wortliste gesammelt, aus der dann ein Lexikon erstellt wird. Eine Sprachdatenbank f¨ ur regionale Variet¨aten enth¨alt als Prim¨ardaten die Audio- und evtl. Videosignale der Sprachaufnahmen in digitaler Form. Die Sekund¨ardaten bestehen aus den Text- und Bildvorgaben und Anleitungen f¨ ur die Sprecher, den w¨ahrend oder nach den Aufnahmen erstellten Transkriptionen sowie der Wortliste und dem Lexikon. Die Prim¨ar- und Sekund¨ardaten sind miteinander verkn¨ upft, so dass z. B. eine Suche nach der Wortkombination ‘haben wir’ auf der Ebene der Sprechervorgaben die Transkriptionen der tats¨achlichen Realisierungen wie ‘hammwa’, ‘mir hennt’ oder ¨ahnliche findet und die entsprechenden Audiosignale zum Anh¨oren bereitstellt. Protokolle, Angaben zum Sprecher und zur Aufnahmetechnik sowie zus¨atzliche Dokumentation wie Fotos usw. sind Teil der Terti¨ardaten. 1.4 Artikulatorische Phonetik Die artikulatorische Phonetik untersucht die Bewegungen des Sprechapparats beim Sprechen. Diese Bewegungen werden mit Sensoren erfasst und zur weiteren Analyse oder zur Pr¨asentation aufbereitet. Diese Aufnahmen werden einerseits f¨ ur die Grundlagenforschung ben¨otigt, andererseits k¨onnen sie auch zur Diagnose von motorischen Sprachst¨orungen durchgef¨ uhrt werden. Der apparative Aufwand f¨ ur diese Aufnahmen ist hoch, in der Regel ist Spezialausr¨ ustung notwendig, z. B. Laryngoskope, Artikulographen, Magnetresonanz-Tomographen (MRT) oder R¨ontgenger¨ate. Einige dieser Aufnahmetechniken sind f¨ ur die Sprecher sehr belastend: im MRT liegen die Sprecher bewegungslos in einer engen R¨ohre, beim R¨ontgen sind sie einer hohen Strahlenbelastung ausgesetzt. Diese Aufnahmen k¨onnen daher nur selten durchgef¨ uhrt werden - umso wichtiger ist es, sie dauerhaft verf¨ ugbar zu halten. Aufgenommen werden meist nur wenige Sprecher, diese unter Umst¨anden aber mehrfach, z. B. zur Beurteilung des Erfolgs einer Operation oder Therapie. Das zu sprechende Material besteht aus unter phonetischen oder linguistischen Gesichtspunkten konstruierten sinnlosen Wort- und Lautfolgen oder S¨atzen. Sprachdatenbanken f¨ ur die artikulatorische Phonetik enthalten als Prim¨ardaten die synchronisierten Audio-, Video- und Sensordaten der Einleitung 19 Aufnahmen. Sekund¨ardaten sind die Vorgaben an die Sprecher, zeitalinierte Transkriptionen sowie Wortlisten und ein Lexikon. Die Terti¨ardaten umfassen Aufnahmeprotokolle, Angaben zum Sprecher sowie, besonders im medizinischen Umfeld, Arztberichte und Patientenakten. 1.5 Spracherkennung Bei der Spracherkennung geht es darum, dass der Computer den Inhalt einer gesprochenen ¨ Außerung extrahiert, z. B. den Wortlaut einer Informationsabfrage wie “Wann geht der n¨achste Zug nach Frankfurt? ”, Kommandowort und Parameter eines gesprochenen Befehls, z. B. “Computer: Browser starten! ”, oder diktierten Text, z. B. “Neuer Absatz bei der Spracherkennung geht es darum Komma dass der Computer...”. 4 Die derzeit erfolgreichsten Verfahren zur Spracherkennung basieren auf einem probabilistischen Ansatz: eine ¨ Außerung wird in eine Folge von Merkmalsvektoren zerlegt. Diese Folge wird mit gespeicherten Modellen der zu erkennenden Einheiten verglichen. Der Vergleich der Merkmalsvektoren mit den Modellen liefert einen Wahrscheinlichkeitswert; wenn dieser ¨ uber einer vorgegebenen Schwelle liegt, gilt die Einheit als erkannt. Die zu erkennenden Einheiten sind z. B. Phoneme, Silben oder W¨orter - aus diesen muss die gesamte ¨ Außerung in einem zweiten Schritt zusammengesetzt werden. Hierbei kann zur Verbesserung des Ergebnisses der pragmatische Kontext oder linguistisches Wissen einbezogen werden, wobei auch hier verst¨arkt probabilistische Verfahren zum Einsatz kommen. Die Modelle eines Spracherkennungssystems erh¨alt man durch einen Trainingsvorgang mit einer Sprachdatenbank. Ein mit zuf¨alligen Werten initialisiertes System berechnet in mehreren Iterationen die empirische Beziehung zwischen Audiosignal und den zu erkennenden Einheiten. Nach jeder Iteration wird getestet, ob sich die Erkennungsleistung verbessert hat - wenn nicht, dann ist das Training beendet. Sprachdatenbanken dienen zum einen dem Trainieren von Spracherkennungssystemen, zum anderen dem Testen. Als Prim¨ardaten enthalten sie Audioaufnahmen mit einer Sprecherpopulation, einer technischen Signalqualit¨at und einem Vokabular, die dem sp¨ateren Anwendungsgebiet des Erkennungssystems m¨oglichst gut entsprechen. Die Sekund¨ardaten sind der Wortlaut der ¨ Außerungen, eine Transkription auf der Ebene der zu erkennenden Einheiten inklusive Marker f¨ ur 4 Eine gute ¨ Ubersicht gibt das Kapitel ‘Spracherkennung’ von [Hai05] in [CEE + 04], eine vertiefte Einf¨ uhrung mit vielen praktischen Beispielen [Eul06]. 20 Einleitung nichtsprachliche Ereignisse, sowie ein Aussprachelexikon mit den beobachteten Aussprachevarianten. Terti¨ardaten sind die Unterteilung der Sprachdatenbank in disjunkte Trainings- und Testdatenbank, demographische Angaben zu den Sprechern, technische Angaben zur Signalqualit¨at sowie Beschreibungen des aufgenommenen Sprachmaterials. 1.6 Sprachsynthese Mit Sprachsynthese bezeichnet man die Produktion von sprachlichen ¨ Außerungen durch den Computer. Die zu synthetisierende ¨ Außerung ist entweder eine konkrete Wortfolge, z. B. “Ich bin am 22. 04. mit dem Wagen nach Bonn gefahren” oder ein sog. Konzept, das durch Parameter angepasst werden kann, z. B. greeting(’de’, ’08: 15’, ’male’, ’Hansen’) f¨ ur eine deutsche oder greeting(’en’, ’08: 15’, ’male’, ’Hansen’) f¨ ur eine englische Begr¨ ußung. Man nennt diese Verfahren entsprechend Text-to-Speech (TTS) bzw. Concept-to-Speech (CTS). 5 In beiden F¨allen ist eine linguistische Vorverarbeitung der zu produzierenden ¨ Außerungen notwendig. In der konkreten Wortfolge muss die Datumsangabe zu ‘zweiundzwanzigsten vierten’ oder ‘zweiundzwanzigsten April’ expandiert werden, d. h. Kasus und Numerus m¨ ussen korrekt gew¨ahlt und die f¨ uhrende 0 bei der Monatsangabe ignoriert werden. Bei der Expansion des Konzepts muss aus den Parametern die passende Ausgabe abgeleitet werden, z. B. aus der Uhrzeit die Begr¨ ußungsphrase, etwa ‘Guten Morgen’ oder ‘Good morning’. Es gibt zwei prinzipielle Verfahren der Sprachsynthese: artikulatorische und konkatenative Synthese. Bei der artikulatorischen Synthese wird die ¨ Außerung aus einem mathematischen Modell der menschlichen Artikulation erzeugt. Die Qualit¨at der synthetisierten ¨ Außerung, meist bestimmt aus Nat¨ urlichkeit und Verst¨andlichkeit, ist nicht sehr hoch. Bei konkatenativer Synthese wird die ¨ Außerung durch die Verkettung von Signalfragmenten produziert. Dazu werden aus einer großen Menge von Sprachaufnahmen Signalfragmente extrahiert, aus denen die ¨ Außerung dann zusammengesetzt wird. Die Qualit¨at der Sprachausgabe h¨angt entscheidend von der Auswahl der Signalfragmente ab: die Fragmente m¨ ussen nat¨ urlich die ben¨otigten Laute enthalten, aber sie sollten auch optimal zueinander passen, d. h. Betonung, Lautst¨arke, Sprechtempo usw. sollten ¨ ubereinstimmen. Da die Fragmente jedoch nie perfekt passen, m¨ ussen die Verkettungsstellen durch Signalverarbeitung gegl¨attet werden, was in der ¨ Außerung h¨orbar sp¨ater stets h¨orbar ist. 5 Eine kurze Einf¨ uhrung in die Sprachsynthese gibt [M¨ob04] in [CEE + 04] S. 517-523 Einleitung 21 Sprachdatenbanken f¨ ur Sprachsynthese enthalten als Prim¨ardaten Aufnahmen von nur wenigen Sprechern, den Synthesestimmen. Aufgenommen werden ¨ Außerungen, die mindestens s¨amtliche Phonemkombinationen einer Sprache abdecken, meist aber noch zus¨atzliches Material, etwa gelesene S¨atze, Texte aus dem sp¨ateren Anwendungsgebiet, oder auch emotional gef¨arbte Sprache umfassen. Die Sekund¨ardaten bestehen aus exakten phonetischen Segmentierungen und sehr genauen Etikettierungen (vgl. Kapitel 8 Abschnitt 3.1), meist sind auch noch die Betonung, das Sprechtempo und weitere Signalparameter erfasst. Die Terti¨ardaten umfassen Aufnahmeprotokolle, Listen der gesprochenen ¨ Außerungen und die Kontaktdaten der Sprecher, um diese f¨ ur zus¨atzliche Aufnahmen ansprechen zu k¨onnen. 1.7 Neurolinguistik Die Neurolinguistisk besch¨aftigt sich mit den neuronalen Grundlagen gesprochener Sprache, entweder allgemein in der Grundlagenforschung, oder anwendungsorientiert in der Diagnose und Therapie von Sprachst¨orungen. Die neuronalen Vorg¨ange beim Sprechen und H¨oren sind nicht direkt zu beobachten, sondern nur indirekt zu erschließen. Fr¨ uhe Untersuchungen von Patienten mit Hirnverletzungen haben zun¨achst nur eine grobe Lokalisierung der sprachverarbeitenden Areale im Gehirn erlaubt. Erst in neuerer Zeit kann man mit funktionalen Magnetresonanzaufnahmen den Stoffwechsel im Gehirn beobachten, so dass nun auch dynamische Abl¨aufe sichtbar werden - sowohl bei gesunden als auch bei erkrankten Personen. Die Diagnose von Sprachpathologien erfordert einerseits Erfahrung auf Seiten des Untersuchenden, andererseits aussagekr¨aftige und zuverl¨assige Tests zur Feststellung von Art und Ausmaß der St¨orung. Ein Beispiel daf¨ ur ist das ‘M¨ unchner Verst¨andlichkeits-Profil’ (MVP) zur Diagnose dysarthrischer Sprecher, d. h. Patienten mit Sprechst¨orungen [ZHW92, ZH93]. Im MVP sprechen Patienten 72 nach phonetischen Kriterien ausgew¨ahlte W¨orter, entweder isoliert oder in Tr¨agers¨atze eingebettet. Trainierte H¨orer w¨ahlen f¨ ur jede ¨ Außerung aus einer Vorschlagsliste aus, welches Wort sie geh¨ort haben. Das Ergebnis des Tests besteht aus einem Gesamtwert zur Verst¨andlichkeit des Patienten, und separaten Werten f¨ ur einzelne Lautklassen. Sprachdatenbanken in der Neurolinguistik werden meist zu Lehr- und Ausbildungszwecken, aber auch als Referenz f¨ ur konkrete Auspr¨agungen von Sprachst¨orungen aufgebaut. Außerdem wird die Reliabilit¨at diagnostischer Tests an solchen Datenbanken ¨ uberpr¨ uft. Die 22 Einleitung Prim¨ardaten bestehen aus Audio- und Videoaufnahmen von gesunden und erkrankten Personen, gegebenenfalls erweitert um neurologische Sensordaten wie z. B. einem Elektroenzephalogramm (EEG). Sekund¨ardaten sind sind standardisierte Textvorgaben, die von den Sprechern ge¨außert werden sollen, sowie Transkriptionen oder Auswertungen der Tests. Terti¨ardaten sind die Angaben zum Sprecher und zu den durchgef¨ uhrten Untersuchungen. Besonderes Gewicht liegt auf einer vollst¨andigen Dokumentation - sie ist die Grundlage verl¨asslicher statistischer Auswertungen. 2 Aufbau des Buches Dieses Buch gibt eine Einf¨ uhrung in Sprachkorpora und damit in die Verarbeitung gesprochener Sprache am Computer. Zu dem Buch gibt es unter www.narr-studienbuecher.de begleitende Webseiten im Internet. Auf diesen Webseiten befinden sich alle im Text verwendeten Audio- und Videobeispiele, L¨osungen zu Aufgaben, Verweise auf Software und weitere Sprachdaten sowie Korrekturen und ein Benutzerforum. Im Kapitel ‘Grundlagen’ werden zun¨achst in allgemein verst¨andlicher Form die Begriffe Schwingung und Signal eingef¨ uhrt und es wird erl¨autert, wie das Signal f¨ ur die Verarbeitung am Computer digitalisiert wird, damit es anschließend auf dem Computer weiterverarbeitet werden kann. Das Kapitel ‘Gesprochene Sprache’ beginnt mit einer Unterscheidung verschiedener Arten von Schall und zeigt auf, in welcher Form sie in gesprochener Sprache zu finden sind. Die physikalischen Gr¨oßen und ihre Einheiten werden beschrieben. Das Quelle-Filter-Modell veranschaulicht den Zusammenhang zwischen dem beobachteten Signal und der Artikulation von gesprochener Sprache. Daran schließt sich eine Beschreibung der Sprachlaute entsprechend dem Klassifikationssystem der International Phonetic Association (IPA) an. Die Kapitel 2 und 3 schließen jeweils mit einer sehr knappen Zusammenfassung. Das vierte Kapitel behandelt die beiden wichtigsten Signaldarstellungen gesprochener Sprache am Computer eingehender: das Oszillogramm und das Sonagramm. Dar¨ uber hinaus wird eine Auswahl weiterer Signalarten und -darstellungen pr¨asentiert, die zur Beantwortung st¨arker phonetisch, klinisch oder neurologisch ausgerichteter Fragestellungen herangezogen werden. Einleitung 23 Kapitel 5 behandelt Daten- und Dateiformate f¨ ur Audio- und Videodaten auf dem Computer, Kapitel 6 f¨ ur Textdaten. Diese beiden Kapitel geben eine ¨ Ubersicht ¨ uber den Aufbau von Dateien, die Kompression von Datenstr¨omen, die Kodierung von Daten und die Erkennung von Dateiformaten. Ein eigener Abschnitt zu Datenbanksystemen f¨ uhrt ganz knapp in das Thema Datenmodellierung und die Datenbanksprache SQL ein. Den Abschluss von Kapitel 6 bilden zwei Abschnitte zu modernen web-basierten Softwareanwendungen wie Wiki und Forum, die sowohl in gr¨oßeren Projekten zur Erstellung von Sprachdatenbanken als auch bei der Nutzung solcher Datenbanken h¨ochst hilfreich sind. Praktische Hinweise zur Aufnahme von Sprachsignalen gibt das Kapitel 7. Angefangen bei Mikrofonen, Kabeln und Aufnahmeger¨aten geht es ¨ uber verschiedene f¨ ur Aufnahmen geeignete R¨aume bzw. Feldaufnahmen bis hin zu Aufnahmeverfahren. Das Kapitel gibt Empfehlungen f¨ ur die Konfiguration von Aufnahmetechnik und zum Prozedere, damit in einer Vielzahl von Aufnahmesituationen eine technisch m¨oglichst einwandfreie Signalqualit¨at erzielt werden kann. Sprachdaten m¨ ussen annotiert werden, um sie einer systematischen Bearbeitung zug¨anglich zu machen. Kapitel 8 stellt die Grundlagen von Annotation vor, klassifiziert diese und pr¨asentiert Empfehlungen zu Minimalannotationen und Annotationsstandards. Das Kapitel endet mit Annotationsgraphen, einem flexiblen Annotationsmodell, das sich als Grundlage f¨ ur eigene Annotationsarbeiten gut eignet. In Kapitel 9 wird ein Phasenmodell zur Erstellung von Sprachdatenbanken entwickelt. Ausgehend von einem konkreten Beispiel, der Erstellung einer Sprachdatenbank f¨ ur eine akademische Abschlussarbeit, werden die Phasen und Arbeitsschritte im Detail beschrieben. Die Sprachdatenbank Ph@ttSessionz ist Gegenstand von Kapitel 10. Dieses Kapitel beschreibt ausf¨ uhrlich das Entstehen der Sprachdatenbank und die dabei gewonnenen Erfahrungen, gibt eine ¨ Ubersicht ¨ uber den Inhalt und einen Ausblick auf Fragestellungen, die mit dieser Sprachdatenbank bearbeitet werden k¨onnen. Die ¨ uber das Buch verteilten und mit ‘Exkurs’ ¨ uberschriebenen Abschnitte enthalten Hintergrundinformation oder schildern Beispiele aus der Praxis. Sie sind nicht immer ganz ironiefrei! Der Anhang umfasst ein ausf¨ uhrliches Glossar, Reproduktionen der Zeichentabellen der IPA und wichtige Internetadressen zu Software f¨ ur die Bearbeitung von Sprachdaten und -datenbanken sowie zu Institutionen, die Sprachdatenbanken zu wissenschaftlichen und kommerziellen Zwecken anbieten und vertreiben. 24 Einleitung 3 F¨ ur wen ist dieses Buch? Die traditionell geisteswissenschaftlichen Disziplinen Linguistik und Phonetik haben sich in Richtung der Naturwissenschaften entwickelt. Sichtbares Zeichen daf¨ ur sind zum einen die Akzeptanz empirischer Forschung wie sie z. B. die Korpuslinguistik und die Instrumentalphonetik betreiben, zum anderen aber vor allem die zunehmende Verbreitung sprachbezogener Forschung in natur- und ingenieurwissenschaftlichen F¨achern und der Medizin. Dieses Buch richtet sich an Studenten und Wissenschaftler, die in irgendeiner Form gesprochene Sprache bearbeiten. Das umfasst in erster Linie Studenten und Wissenschaftler der F¨acher Phonetik, Linguistik sowie der sprachtechnologischen F¨acher Computerlinguistik und Signalverarbeitung, schließt aber auch empirisch Arbeitende in den F¨achern Psychologie und Neuropsychologie, Fremdsprachen-Didaktik, Informatik, Elektrotechnik und Ergonomie ein. Das Arbeitsbuch deckt ein sehr weites Feld ab. Leser, die haupts¨achlich bestehende Sprachdatenbanken nutzen, sollten die Kapitel 2 bis 6 und 8 lesen. Dabei k¨onnen Leser mit technischem oder Informatik- Hintergrund das Kapitel 2, Leser mit Phonetik- oder Phonologie- Kenntnissen das Kapitel 3 ¨ uberspringen - jeweils mit Ausnahme der Zusammenfassung. Leser, die selbst Sprachaufnahmen durchf¨ uhren wollen 6 , k¨onnen Kapitel 4 ¨ uberspringen und Kapitel 5 und 6 ¨ uberfliegen, sollten aber Kapitel 7 und 9 unbedingt lesen und von den Querverweisen zu den Technik- Kapiteln Gebrauch machen. 6 oder m¨ ussen Grundlagen Dieses Kapitel gibt eine Einf¨ uhrung in Sprachsignale und ihre maschinelle Verarbeitung und bildet damit die Grundlage f¨ ur die weiteren Kapitel des Buches. Weiterf¨ uhrendes zur allgemeinen Signalverarbeitung oder zur maschinellen Sprachsignalverarbeitung finden Sie z. B. in [Hes93, Ter98, VHH98, JM00, HAH01, Col04, Ree03]. Zun¨achst ein einfaches Beispiel: Stellen Sie sich einen Raum mit einem Deckenventilator vor. Dieser Ventilator wird ¨ uber einen Schalter mit festen Stufen zur Einstellung der Geschwindigkeit, z. B. 0, min , med , max gesteuert. ¨ Uber den Tag verteilt wird nun mehrmals die Geschwindigkeit verstellt. Abb. 2 a) zeigt links den Schalter, rechts die im Laufe des Tages eingestellte Geschwindigkeit. Die Ver¨anderung der Geschwindigkeit erfolgt in Schritten - sie ist diskret. Mit einer stufenlosen Regelung wie in Abb. 2 b) kann man jede beliebige Geschwindigkeit von 0 bis max einstellen - die Ver¨anderung ist kontinuierlich. a) 0 min med max o min med max t b) t Abbildung 2. a) diskrete und b) kontinuierliche Ver¨anderung. Wenn die Steuerung des Ventilators zu beliebigen Zeitpunkten bet¨atigt wird, dann ist die Ver¨anderung der Geschwindigkeit aperiodisch wie in Abb. 2. Und wird der Ventilator hingegen von einer Zeitschaltuhr - also zu festgelegten und immer wiederkehrenden Zeitpunkten - gesteuert, dann ist die Ver¨anderung periodisch (Abb. 3). 26 Grundlagen t t Abbildung 3. Periodische Ver¨anderung. Mit diskret und kontinuierlich sowie periodisch und aperiodisch kann man Ver¨anderungen anschaulich beschreiben. 1 Schwingungen Zur formalen Beschreibung von Ver¨anderungen geht man h¨aufig von der Sinusschwingung aus, da sich damit viele Eigenschaften dieser Ver¨anderungen gut beschreiben lassen. Man kann sich diese Schwingung anschaulich als Rad vorstellen, das sich um seine Achse dreht und das an einer Stelle mit einer Markierung versehen ist. Zeichnet man die H¨ohe dieser Markierung relativ zur Radachse nach, bekommt man eine Kurve - die Sinuskurve (Abb. 4). Abbildung 4. Veranschaulichung der Sinuskurve. 1.1 Periode Die L¨ange einer Schwingung, d. h. ein vollst¨andiger Durchlauf einer Schwingung, ist die Periode. Sie kann prinzipiell auf zwei Arten angegeben werden: als Ver¨anderung eines Winkels oder als Strecke auf der x-Achse. Dabei kann man jede Strecke auch als Winkel angeben, und umgekehrt. In Abb. 4 dreht sich das Rad jeweils um 45 ◦ im Uhrzeigersinn weiter, eine volle Umdrehung entspricht 360 ◦ . Alternativ kann man sagen, das Rad hat bei seiner Umdrehung eine Strecke auf der x-Achse Grundlagen 27 zur¨ uckgelegt - man gibt diese Strecke dann in Vielfachen von π an, da der Umfang eines Kreises 2 πr ist. 1 1.2 Amplitude Die Amplitude ist die Auslenkung der Schwingung, oder, anders gesagt, der Abstand der Kurve von der Nulllinie. Bei der einfachen Sinusschwingung ist die Amplitude 1. 1.3 Transformation von Schwingungen Die Form einer Sinusschwingung kann man durch Ver¨anderung von Amplitude und Periode einfach modifizieren. Dazu wird f¨ ur die Amplitude ein Faktor vor die Sinusfunktion und f¨ ur die Periode ein Faktor vor das x in der Sinusfunktion geschrieben: y = a ∗ sin( p ∗ x ). Je gr¨oßer a ist, umso gr¨oßer die Amplitude, je gr¨oßer p , umso k¨ urzer die Periode der Schwingung - das Ergebnis ist aber immer wieder eine einfache Sinusschwingung. Zusammengesetzte Schwingungen kann man durch die Addition mehrerer einfacher Schwingungen erzeugen. Dieser Vorgang wird Synthese genannt. Bei dem entgegengesetzten Vorgang, der Analyse, werden zusammengesetzte Schwingungen in ihre elementaren Bestandteile zerlegt. Dies ist mit dem Verfahren der Fourier-Transformation f¨ ur periodische Schwingungen immer m¨oglich. Beispiel Abb. 5 zeigt eine einfache Sinusschwingung y = sin( x ). Die x-Achse ist in Abschnitte von jeweils 1 2 π unterteilt. An den Punkten xπ mit x einer ganzen Zahl kreuzt die Schwingung die x-Achse, bei xπ 2 erreicht sie jeweils ihren Maximalbzw. Minimalwert 1 bzw. − 1. Abb. 6 zeigt eine aus der Addition zweier einfacher Sinusschwingungen zusammengesetzte Schwingung. Die Periode der einen Schwingung ist doppelt so lang wie die der anderen. Die Amplitude ist nun deutlich gr¨oßer als 1, da die y-Werte beider Schwingungen addiert werden. Alle π 2 wiederholt sich die Schwingung - sie ist also ebenfalls periodisch (vgl. Abschnitt 2.1). 1 Ist r = 1 oszilliert die Sinusschwingung zwischen +1 und − 1 und nimmt f¨ ur die Winkel 0 , π, 2 π, .. gerade den Wert 0 an. 28 Grundlagen Abbildung 5. Einfache Sinusschwingung: y = sin ( x ). Abbildung 6. Periodische zusammengesetzte Schwingung y = sin( x ) + sin(2 x ). Grundlagen 29 2 Signal Ein Signal ist die Aufzeichnung einer Ver¨anderung einer oder mehrerer physikalischer Gr¨oßen ¨ uber die Zeit. Ein Signal ist analog, wenn die aufgezeichneten Messdaten den Verlauf der ¨ Anderung widerspiegeln, das Ausmaß der ¨ Anderung der physikalischen Gr¨oße also dem Ausmaß der ¨ Anderung der Messwerte entspricht. Im Falle des Ventilators aus dem Beispiel am Anfang des Kapitels ist die physikalische Gr¨oße die Geschwindigkeit, mit der sich der Ventilator dreht, und das Signal ist die beobachtete Ver¨anderung der Geschwindigkeit. Andere Signale sind z. B. das Auf und Ab der Tagestemperatur oder die sich ¨andernde Lautst¨arke von Musik. Diese Signale unterscheiden sich, abgesehen von der physikalischen Gr¨oße, die sich ver¨andert, in weiteren Eigenschaften: Regelm¨aßigkeit oder Periodizit¨at, H¨aufigkeit oder Frequenz und Ausmaß oder Dynamik der Ver¨anderung sind davon die wichtigsten. 2.1 Periodizit¨at und Frequenz Die Periodizit¨at gibt an, ob sich ein Signal oder ein Teil davon in regelm¨aßigen Abst¨anden wiederholt. Es ist nicht immer m¨oglich festzustellen, ob ein Signal periodisch ist oder nicht. Wenn das Signal durch eine periodische Funktion beschrieben werden kann, dann ist das Signal trivialerweise periodisch. Wenn man die Periodizit¨at jedoch durch Beobachtung feststellen will, h¨angt die Beurteilung vom Beobachtungszeitraum ab. Dieser Zeitraum muss mindestens so lang sein wie zwei Perioden, um die Periodizit¨at ¨ uberhaupt feststellen zu k¨onnen. Man muss jedoch mehrere Perioden beobachten, um mit einiger Sicherheit urteilen zu k¨onnen. Solange das Signal andauert, kann man sich sogar nie ganz sicher sein - vielleicht ver¨andert sich die Periode des Signals gerade im n¨achsten Moment. Um diese Unsicherheit zu vermeiden, schr¨ankt man Aussagen ¨ uber die Periodizit¨at ¨ ublicherweise durch die Angabe des Beobachtungszeitraums ein. Treten innerhalb eines Beobachtungszeitraums kleinere Schwankungen der Periodizit¨at auf, die jedoch f¨ ur die Beurteilung vernachl¨assigt werden k¨onnen, dann spricht man von quasi-periodischen oder quasistation¨aren Signalen. Beispiel Wenn in Abb. 3 mit dem Ventilator die x-Achse in Stunden unterteilt ist, dann kann man fr¨ uhestens nach sechs Stunden Beobachtung 30 Grundlagen ¨ uberhaupt sagen, ob die Geschwindigkeitsver¨anderung des Ventilators periodisch sein kann. Erst nach drei bis vier Perioden, also nach neun oder zw¨olf Stunden, kann man etwas sicherer sein, und ganz sicher erst, wenn der Ventilator ausgeschaltet wurde. Andersherum kann man bereits mit der ersten beobachteten Abweichung von der Periode feststellen, dass die Geschwindigkeitsver¨anderung nicht periodisch ist. Die Anzahl der periodischen Schwingungen pro Zeiteinheit ist die Frequenz, angegeben in Schwingungen pro Sekunde oder Hertz (abgek¨ urzt Hz). Die Frequenz ist also der Kehrwert der Periodendauer - eine Schwingung mit einer Periodendauer von 10 ms hat eine Frequenz von 100 Hz. Ganzzahlige Vielfache einer Frequenz nennt man Harmonische. So sind Frequenzen von 200 Hz, 300 Hz, 400 Hz alle Harmonische von 100 Hz. Eine wichtige Gr¨oße im Zusammenhang mit zusammengesetzten Schwingungen ist die Grundfrequenz. Sie ist definiert als der gr¨oßte gemeinsame Teiler aller Frequenzen im zusammengesetzten Signal, d. h. die Frequenzen aller einfachen Schwingungen in einer zusammengesetzten periodischen Schwingung sind Harmonische der Grundfrequenz. Beispiel Die Grundfrequenz der additiven ¨ Uberlagerung zweier Schwingungen von 100 Hz und 200 Hz betr¨agt 100 Hz: 100 ist der gr¨oßte gemeinsame Teiler von 100 und 200. Konkret bedeutet das, dass sich die Schwingung alle 10 ms wiederholt (Abb. 7). Die Grundfrequenz muss nicht als eigener Frequenzbestandteil in der zusammengesetzten Schwingung vorkommen! So ist die Grundfrequenz der Addition zweier Schwingungen von 200 Hz und 300 Hz ebenfalls 100 Hz - auch hier wiederholt sich die Schwingung alle 10 ms - obwohl in der zusammengesetzten Schwingung keine Schwingung mit 100 Hz enthalten ist. 2.2 Energie Die Energie eines Signals berechnet sich aus der Amplitude und der Frequenz des Signals. Es ist leicht einzusehen, dass eine einzelne Schwingung weniger Energie enth¨alt als mehrere Schwingungen mit derselben Amplitude. Bei der Bestimmung der Energie eines Signals tritt ein Problem auf: die positiven Anteile einer Schwingung werden durch die negativen ausgeglichen. Wie kann man dann die Energie des Signals messen? Ein Grundlagen 31 1 2 3 4 5 6 7 8 9 10 11 12 1 -2 -1 1 2 Abbildung 7. Zusammengesetzte Schwingung (schwarz) und die Grundfrequenz dieser Schwingung (grau), die selbst in dieser Schwingung nicht enthalten ist. g¨angiges Verfahren ist RMS (von engl. root mean square). Hierbei wird das Signal quadriert, es werden also die einzelnen Signalwerte mit sich selbst multipliziert. Das Ergebnis ist ein Signal mit lauter positiven Werten. Diese positiven Signalwerte werden summiert und es wird der Mittelwert gebildet. Die Quadrierung der Signalwerte wird durch das Ziehen der Wurzel aus dem Mittelwert r¨ uckg¨angig gemacht - ¨ ubrig bleibt ein einziger Wert aus dem Wertebereich der Amplitude. Beispiel Abb. 8 enth¨alt links 10 Messwerte und die quadrierten Werte in einer Tabelle, rechts ihre graphische Darstellung. Die Messwerte entsprechen den Signalwerten der Schwingung y = 2 sin( x ) mit x ∈ { 0 , 1 , 2 , ..., 9 } . Der Mittelwert der quadrierten Werte ist 1 , 3719. 2.3 Dynamik Die Dynamik ist der Unterschied zwischen der Energie des schw¨achsten und des st¨arksten Signalabschnitts. Sie kann in absoluten Werten oder relativ, als Verh¨altnis, angegeben werden. Absolute Angaben erfolgen direkt in den Einheiten der physikalischen Gr¨oße: ein Temperaturanstieg von 10 ◦ C , 20 km/ h zu schnell gefahren usw. Eine relative Angabe dagegen geht von einem Verh¨altnis zu einem Referenzwert aus: halb so viel, zehnmal mehr. Eine solche relative Angabe ist in jenen F¨allen hilfreich, wo absolute Werte wenig aussagen, um das Ausmaß der Ver¨anderung anschaulich zu machen: eine ¨ Anderung um 20 von 5 auf 25 ist eine Verf¨ unffachung, 32 Grundlagen x sin(2 x ) (sin( x )) 2 0 0,0000 0,0000 1 1,6829 2,8323 2 1,8186 3,3073 3 0,2822 0,0797 4 -1,5136 2,2910 5 -1,9178 3,6781 6 -0,5588 0,3123 7 1,3140 1,7265 8 1,9787 3,9153 9 0,8242 0,6794 -4 -3 -2 -1 0 1 2 3 4 0 1 2 3 4 5 6 7 8 9 Abbildung 8. 10 Messwerte und die quadrierten Werte in einer Wertetabelle und in einer graphischen Darstellung. Das Ausgangssignal ist schwarz, das quadrierte Signal grau wiedergegeben. ein gleich großer Anstieg von 60 auf 80 dagegen nur eine Erh¨ohung um ein Drittel. Mit relativen Angaben kann man also Ver¨anderungen verschiedener Signale miteinander vergleichen, wo dies in absoluten Werten nicht m¨oglich oder sinnvoll ist. Die menschliche Wahrnehmung ist meist relativ: bei kleinen Werten k¨onnen wir kleine Unterschiede erkennen, bei großen nur große - den Unterschied zwischen 1 und 2 kg k¨onnen wir sofort erkennen, den zwischen 25 und 26 kg nicht. Eine standardisierte Form relativer Angaben ist, den Unterschied zwischen zwei Werten als eine Anzahl von Verzehnfachungen anzugeben: der Unterschied zwischen 1 und 10 ist eine Verzehnfachung, der zwischen 1 und 100 zwei Verzehnfachungen, der zwischen 1 und 1000 drei Verzehnfachungen usw. In der Exponentialschreibweise wird dies deutlich sichtbar: 1 = 10 0 , 10 = 10 1 , 100 = 10 2 , 1000 = 10 3 usw. Bei Division durch zehn verringert sich der Exponent jeweils um 1: 0 , 1 = 10 −1 , 0 , 01 = 10 −2 usw. Mit dem Logarithmus hat man eine Funktion zur Verf¨ ugung, die die Anzahl Verzehnfachungen f¨ ur eine Zahl angibt: log(1000) = 3, log(0 , 1) = − 1. Mit der Einheit Bel (B) kennzeichnet man den Logarithmus des Verh¨altnisses zweier Gr¨oßen. Aus praktischen Gr¨ unden wird allerdings meist die Einheit Dezibel (dB) verwendet, wobei 1 B = 10 dB ist. Die Verdoppelung einer linearen Gr¨oße entspricht einer Ver¨anderung um ca. 3 dB, die Verzehnfachung 10 dB. Bei quadrierten Gr¨oßen wie der Energie einer Schwingung muss man die Angabe entsprechend der Formel log x 2 = 2 log x umrechnen, d. h. eine Verdoppelung entspricht dann 6 dB, eine Verzehnfachung dementsprechend 20 dB. Grundlagen 33 Zu einem dB-Wert geh¨ort auch die Angabe, auf welchen Referenzwert er sich bezieht - diese Angabe ist meist als Index angegeben. 2.4 D¨ampfung und Verst¨arkung Bei den bisherigen Betrachtungen waren die Schwingungen sowohl in der Frequenz als auch in der Amplitude konstant. Ver¨andert sich die Amplitude mit der Zeit, dann spricht man je nach Richtung der Ver¨anderung von D¨ampfung oder Verst¨arkung (Abb. 9). Beide werden ebenfalls meist in dB ¨ uber der Zeit angegeben, z. B. D¨ampfung um 4 dB/ s. 0 2 3 4 5 6 -1 1 Abbildung 9. Ged¨ampfte Schwingung - mit zunehmendem x sinkt die Amplitude. Die Verst¨arkung eines Signals ist das Resultat der Zufuhr von Energie, die D¨ampfung das Resultat des Endes dieser Zufuhr. Beispiel Eine Schaukel muss angestoßen werden oder eine Stimmgabel angeschlagen - Energie wird also zugef¨ uhrt. Wenn man die Schaukel mit mehr Kraft anschiebt als zum normalen Schwingen notwendig ist, also immer mehr Energie zuf¨ uhrt, dann schwingt sie immer h¨oher - die Amplitude der Schwingung w¨achst, sie wird verst¨arkt. Gleicht die Kraft genau die Verluste durch Reibung aus, dann schwingt die Schaukel stets gleich hoch. H¨ort man mit dem Anstoßen auf, dann schwingt die Schaukel aus - die Amplitude verringert sich, sie wird ged¨ampft. 34 Grundlagen 2.5 ¨ Uberlagerung von Signalen Von einer Signal¨ uberlagerung spricht man, wenn ein zusammengesetztes Signal Anteile unterschiedlicher Qualit¨at enth¨alt, das Signal sich also z. B. in Nutz- und St¨orsignale unterteilen l¨asst. Welche Signalanteile Nutzsignale sind und welche St¨orsignale, ist vom Zweck der Messung abh¨angig. Mit geeigneten Filtern versucht man, Nutz- und St¨orsignal voneinander zu trennen. Dies gelingt umso besser, je deutlicher sich Nutz- und St¨orsignale in ihren charakteristischen Eigenschaften unterscheiden. Das Maß f¨ ur die Signalqualit¨at ist der Signal-Rausch-Abstand (engl. SNR, signal to noise ratio), der das Verh¨altnis der Signalst¨arke des Nutzsignals zu dem des St¨orsignals beschreibt und meist in dB angegeben wird. Ist dieses Verh¨altnis positiv, dann ist das Nutzsignal st¨arker als das St¨orsignal, ist es negativ, dann ist das Nutzsignal schw¨acher. Beispiel Unterh¨alt man sich mit einer Person w¨ahrend des Mittagessens in der Mensa, dann sind Geschirrgeklapper, St¨ uhler¨ ucken und die Unterhaltungen der anderen Personen St¨orsignale, und das, was das Gegen¨ uber sagt, das Nutzsignal. Man kann nun den Signal-Rausch- Abstand erh¨ohen, indem man lauter spricht - weil dann aber die anderen st¨arker gest¨ort werden, fangen auch sie an, lauter zu sprechen... man kann auch einfach n¨aher zusammenr¨ ucken. 3 Spektrum Die bisherigen Darstellungen von Schwingungen zeigen den Verlauf der Schwingung als Funktion von x , wobei x eine Zeitangabe ist - es ist eine Darstellung im Zeitbereich. Diese Darstellung ist gut geeignet, um die zeitliche Entwicklung eines Signals zu zeigen. Eine alternative Darstellung ist die Darstellung im Frequenzbereich, das sog. Spektrum. Hier stellt die x-Achse Frequenzen dar, die y-Achse den Anteil der entsprechenden Frequenz am Gesamtsignal. Bei einfachen Schwingungen zeigt diese Darstellung eine einzelne Linie mit der L¨ange 1 an der Stelle der Frequenz auf der x-Achse. Bei zusammengesetzten Schwingungen ist jede beteiligte Schwingung durch eine eigene Linie dargestellt, wobei die L¨ange der Linien proportional zum Anteil dieser Frequenz an der gesamten Schwingung ist (Abb. 10). Grundlagen 35 0 500 Hz 1 0 500 Hz 1000 Hz 1 Abbildung 10. Frequenzdarstellung a) eines einfachen Signals mit 100 Hz b) der zusammengesetzten Schwingung 100 Hz + 1 3 ∗ 300 Hz + 1 5 ∗ 500 Hz + 1 7 ∗ 700 Hz. In Messungen realer Signale kommen derartige ideal abgegrenzten Frequenzanteile nicht vor. Die Frequenzanteile sind vielmehr gestreut und k¨onnen als Kurve dargestellt werden (Abb. 11). 0 500 Hz 1000 Hz 1 0 500 Hz 1 Abbildung 11. Frequenzanteile einer gemessenen einfachen bzw. zusammengesetzten Schwingung. Um die Frequenzanteile in einem Signal ¨ uberhaupt ermitteln zu k¨onnen, muss ein ausreichend langer Signalabschnitt bekannt sein. Daraus ergeben sich zwei Fragen: wie lang muss dieser Signalabschnitt sein, und darf sich das Signal w¨ahrend der Beobachtungszeit ¨andern? Die niedrigste Frequenz, die w¨ahrend eines gegebenen Zeitraums beobachtet werden kann, hat eine Periodendauer von der L¨ange eben jenes Zeitraums. Mit einer Beobachtungsdauer von 10 ms L¨ange kann also als niedrigster Frequenzanzeil eine Frequenz von 100 Hz berechnet werden; die Berechnung der Anteile h¨oherer Frequenzen ist unproblematisch, da diese eine Periodendauer haben, die deutlich k¨ urzer ist als der Signalabschnitt im Beobachtungszeitraum. Wenn sich das Signal w¨ahrend des Beobachtungszeitraums ¨andert, dann verf¨alscht das auch die Berechnung der Frequenzanteile. Man nimmt daher m¨oglichst kurze Signalabschnitte und geht zudem vereinfachend davon aus, dass das Signal in diesem kurzen Abschnitt quasistation¨ar ist, sich in diesem Abschnitt also wie eine echte periodische Schwingung verh¨alt. 36 Grundlagen 3.1 Filter Ein Filter entfernt einzelne Schwingungsanteile aus einer zusammengesetzten Schwingung. Ein Tiefpassfilter entfernt diejenigen Frequenzanteile, die ¨ uber der Grenzfrequenz des Filters liegen, und l¨asst diejenigen Frequenzanteile ungehindert passieren, die unter dieser Grenzfrequenz liegen. Ein Hochpassfilter l¨asst nur die Frequenzanteile ¨ uber seiner Grenzfrequenz passieren, ein Bandpassfilter nur die Frequenzen, die zwischen unterer und oberer Grenzfrequenz liegen (Abb. 12). + = Abbildung 12. Schematische Darstellung im Frequenzbereich der Wirkung eines Tiefpass-, Hochpassbzw. zweier Bandpassfilter auf ein Quellsignal. Die oberen drei Filter in Abb. 12 sind ideale Filter, da sie exakt an der Grenzfrequenz vom Zustand ‘passieren’ auf den Zustand ‘entfernen’ - oder umgekehrt - wechseln. In der Realit¨at jedoch gibt es um die Grenzfrequenz herum einen graduellen ¨ Ubergang zwischen beiden Zust¨anden - das untere Bandpassfilter in derselben Abbildung unten zeigt einen solchen ¨ Ubergang. Ein Filter l¨asst sich mathematisch als Funktion der Frequenz modellieren; ¨ ublich sind Polynomfunktionen. Die Steilheit der Funktionskurve bestimmt die Breite des ¨ Ubergangsbereichs. Grundlagen 37 4 Digitalisierung F¨ ur die Verarbeitung am Computer muss ein analoges Signal in ein digitales Signal umgewandelt werden, also digitalisiert werden. Hierbei wird zu bestimmten Zeitpunkten, den Abtast- oder Samplepunkten, der Signalwert gemessen. Das Ergebnis der Digitalisierung ist also eine Folge von Messwerten (Abb. 13). t t5 t10 t15 X t5 t10 t15 Abbildung 13. Digitalisierung analoger Signale. 4.1 Abtastrate Die Anzahl der Abtastpunkte pro Zeiteinheit ist die Abtast- oder Samplerate f s . Sie wird meist in Hertz angegeben. Es ist leicht einzusehen, dass die Digitalisierung eines Signals umso genauer ist, je h¨oher die Abtastrate ist. Aber wie viele Abtastpunkte braucht man mindestens? Das Nyquist-Theorem 2 besagt, dass die Samplerate mehr als doppelt so hoch sein muss wie die h¨ochste im abzutastenden Signal enthaltene Frequenz. Konkret bedeutet dies, dass man f¨ ur eine vollst¨andige Periode einer Schwingung mindestens drei Messpunkte braucht. Beispiel Verbindet man im Signal in Abb. 13 jeden f¨ unften Messpunkt, also die Punkte t 0 , t 5 , t 10 usw. paarweise mit einer Linie, dann folgen diese Linien ungef¨ahr dem Signalverlauf: zwei Maxima, zwei Minima - ein ziemlich eckiges Signal, aber ansonsten nah am urspr¨ unglichen Signalverlauf (Abb. 14). Selbst wenn man Messpunkte nimmt, die nicht direkt bei den Maxima oder Minima liegen, etwa t 1 , t 6 , t 11 usw., dann wird 2 Der Name wird ‘N¨ uhkwist’ ausgesprochen. Im IPA Alphabet (vgl. Kapitel 3 Abschnitt 2) w¨ urde man die Aussprache [n y: k v I s t] schreiben, in SAMPA / n y: k v I s t/ (vgl. Kapitel 8 Abschnitt 3.1). 38 Grundlagen nur die Amplitude des Signals nicht korrekt erfasst - die Frequenzinformation bleibt trotzdem erhalten, und sie ist im Kontext von Sprache meist wichtiger als die Amplitude. Nimmt man dagegen nur jeden sechsten Messpunkt, also t 0 , t 6 , t 12 usw., dann sieht das Ergebnis ganz anders aus - die Linie folgt dem Signalverlauf gar nicht mehr! t t 5 t 10 t 15 t t 5 t 10 t 15 Abbildung 14. Bei einer Digitalisierung mit einer Abtastrate ¨ uber dem doppelten der h¨ochsten Frequenz im Signal ( f s > 2 ∗f max ) ist das Originalsignal noch erkennbar - bei einer niedrigeren Samplerate f s ≤ 2 ∗ f max nicht mehr. Eine nachtr¨agliche Ver¨anderung der Samplerate bezeichnet man als Resampling. Sie wird meist aus technischen Gr¨ unden durchgef¨ uhrt, z. B. zur Vereinheitlichung von Signalen aus unterschiedlichen Quellen. Beim upsampling wird die Abtastrate erh¨oht; dabei werden neue Abtastwerte durch Interpolation eingef¨ ugt, und die Signalqualit¨at bleibt unver¨andert. Beim downsampling wird die Samplerate reduziert, was bei Unterschreiten der Nyquist-Frequenz zur Verschlechterung der Signalqualit¨at f¨ uhrt. 4.2 Quantisierung Ein zweiter Aspekt bei der Digitalisierung ist, wie genau die Amplitude des Signals erfasst werden kann. Pro Samplepunkt wird ein Signalwert gemessen. ¨ Ahnliche Signalwerte werden zu Klassen von Werten zusammengefasst und als ein diskreter Messwert betrachtet. Die Quantisierung gibt an, mit welcher Zeit- und Amplitudenaufl¨osung das Signal digitalisiert wird, d. h. wie fein die Zeitpunkte und Signalmesswerte unterschieden werden. Zwischen dem tats¨achlichen Signalwert und dem diskreten Messwert besteht in der Regel eine Differenz, der Quantisierungsfehler. Je h¨oher die Quantisierung, je feiner also die Abstufungen zwischen den einzelnen Messwerten sind, umso genauer l¨asst sich die Signalamplitude abbilden, umso geringer ist der Quantisierungsfehler - und umgekehrt: Grundlagen 39 je geringer die Quantisierung, je weiter also die Messwerte auseinanderliegen, umso weniger genau kann die Signalamplitude abgebildet werden. Die Quantisierung wird f¨ ur die Verarbeitung am Rechner ¨ ublicherweise in Bit angegeben: mit einer 1-Bit Quantisierung kann man zwei Werte unterscheiden, z. B. 0 und 1. Bei 2 Bit sind es 4 Werte, bei 8 Bit sind es 256, bei 16 Bit 65536 usw. Welche Quantisierung man w¨ahlt h¨angt also einerseits von der gew¨ unschten Genauigkeit ab - wie viele verschiedene Signalwerte m¨ ussen unterschieden werden - und andererseits vom verf¨ ugbaren Speicherplatz - eine 8-Bit Quantisierung braucht pro Samplepunkt 8 Bit oder 1 Byte, eine 16-Bit Quantisierung 2 Byte. 3 Beispiel Das Signal in Abb. 15 wird mit 3 Bit Quantisierung gespeichert, d. h. die Messwerte k¨onnen einen von nur 8 = 2 3 verschiedenen Werten annehmen. Der Quantisierungsfehler ist leicht zu erkennen, vor allem im Bereich der Maxima und Minima: die drei Samplepunkte t 3 , t 4 und t 5 haben alle denselben Messwert 3 und sind damit nur eine sehr grobe Ann¨aherung an den tats¨achlichen Signalverlauf. t X X X X X X X X X X X X X X X X X X X t5 t10 t15 Abbildung 15. Digitalisierung mit einer linearen Quantisierung von 3 Bit. Die Angabe der Quantisierung, also z. B. ‘16 Bit’, gibt nur die Anzahl der unterschiedenen Werte wieder. Zur Berechnung eines konkreten Signalwerts muss man diese Zahl mit der verwendeten Skala multiplizieren: bei einer linearen Skala sind die einzelnen Werte gleich weit voneinander entfernt oder ¨aquidistant, bei einer nicht-linearen Skala lie- 3 Ein Bit ist die kleinste Einheit, mit der ein digitaler Computer arbeitet. Es hat entweder den Wert 0 oder 1. Die kleinste Speichereinheit ist ein Byte, das 8 Bit umfasst und 2 8 = 256 verschiedene Werte annehmen kann. Ein Kilobyte, abgek¨ urzt KB, enth¨alt 1024 Byte, ein Megabyte oder MB 1024 KB, ein Gigabyte oder GB 1024 MB 40 Grundlagen gen sie unterschiedlich weit auseinander. Nicht-lineare Skalen verwendet man z. B. zur Modellierung psychoakustischer Ph¨anomene wie dem Lautheitsempfinden oder der F¨ahigkeit, Frequenzunterschiede wahrzunehmen (vgl. auch Abschnitt 2.3 bzw. Kapitel 5 Abschnitt 2). 4.3 Datenrate Die Datenrate ist ein Maß f¨ ur den Umfang eines digitalen Signals. Sie ist das Produkt aus Samplerate f s und Quantisierung q und wird in Bit/ s oder Byte/ s angegeben: f s ∗ q . Multipliziert man die Datenrate mit der Dauer des Signals, dann erh¨alt man den zur Speicherung des Signals ben¨otigten Speicherplatz in Bit oder Byte. 5 Zusammenfassung Die Grundform einer Schwingung ist die Sinusschwingung oder allgemeiner eine sinoidale Schwingung. Bei der Synthese werden aus der Kombination einfacher Schwingungen zusammengesetzte Schwingungen erzeugt, bei der Analyse zusammengesetzte Schwingungen in ihre einfachen Bestandteile zerlegt. Ein Signal ist die Ver¨anderung einer physikalischen Gr¨oße ¨ uber die Zeit. Diese Ver¨anderung wird mit in der Regel zusammengesetzten Sinusschwingungen modelliert. Die Frequenz ist die Anzahl der Schwingungen pro Zeiteinheit, die Periode die Dauer einer einzelnen Schwingung und die Amplitude das Ausmaß der Schwingung. Die Grundfrequenz F 0 ist der gr¨oßte gemeinsame Teiler aller harmonischen Frequenzen einer zusammengesetzten Schwingung. D¨ampfung und Verst¨arkung bezeichnen die Ver¨anderung der Signalamplitude ¨ uber die Zeit, Dynamik das Verh¨altnis der Energie zwischen dem schw¨achsten und dem st¨arksten Signalabschnitt. Von einem ¨ uberlagerten Signal spricht man, wenn das Signal aus Nutz- und St¨orsignal besteht. Die Darstellung im Zeitbereich gibt den Verlauf der Schwingung ¨ uber die Zeit wieder, die Darstellung im Frequenzbereich den Anteil der jeweiligen einfachen Schwingungen - das Spektrum ist eine solche Darstellung im Frequenzbereich. Mit einem Filter entfernt man Frequenzanteile aus einem zusammengesetzten Signal. Bei der Digitalisierung wird der Signalwert an einzelnen Abtastpunkten gemessen. Die Abtastrate ist die Anzahl Abtastpunkte pro Zeiteinheit, die Quantisierung gibt an, wie viele Signalwerte unterschieden werden k¨onnen. Grundlagen 41 6 Aufgaben 1. Nennen Sie je drei Beispiele aus dem Alltag f¨ ur diskrete bzw. kontinuierliche Ver¨anderungen. 2. Nennen Sie je zwei Beispiele aus dem Alltag f¨ ur periodische und nicht-periodische Ver¨anderungen. 3. Wie hoch ist die maximale Amplitude der einfachen Schwingung a) y = sin(4 x ), b) y = 3 ∗ sin( x )? 4. Wie hoch ist die maximale Amplitude der aus zwei Sinusschwingungen zusammengesetzten Schwingung y = 1 7 sin( x ) + 4 7 sin(2 x )? 5. Was ist die Grundfrequenz der zusammengesetzten Schwingung, die aus der Addition der drei einfachen gleich starken Schwingungen mit a) 225 Hz, 75 Hz und 525 Hz? b) 100 Hz, 80 Hz und 640 Hz? 6. Ist die Grundfrequenz in den zusammengesetzten Schwingungen in Aufgabe 5 a) und b) als Bestandteil enthalten? 7. Wie sehen die zusammengesetzten Schwingungen in Aufgabe 5 a) und b) in der Darstellung im Frequenzbereich aus? 8. Was ist ein Spektrum? 9. Wie berechnet man die Energie einer Schwingung? 10. Welche Frequenzanteile passieren a) ein Hochpassfilter mit der Eckfrequenz von 800 Hz? b) eine Hintereinanderreihung von einem Hochpassfilter mit einer Eckfrequenz von 400 Hz und ein anschließendes Tiefpassfilter mit einer Eckfrequenz von 1200 Hz? Stellen Sie das Ergebnis grafisch dar. Gesprochene Sprache Physikalisch betrachtet ist Schall eine mittelfrequente Ver¨anderung des Luftdrucks. In seinem Kapitel zur Artikulation von gesprochener Sprache st¨ utzt sich [Ree03] auf die Industrienorm DIN 1320 und unterscheidet entsprechend f¨ unf Arten von Schall: Ton, Klang, Ger¨ausch, Rauschen und Knall. Er charakterisiert die unterschiedlichen Arten wie folgt: Ton und Klang sind echt periodische Signale, das Ger¨ausch ist quasi-periodisch, und Rauschen und Knall sind echt aperiodisch. Ton und Klang unterscheiden sich darin, dass der Ton ein reiner Sinuston ist, Klang dagegen eine zusammengesetzte Schwingung. Im Unterschied zum Rauschen hat ein Knall eine kurze Dauer und einen abrupten Anfang. 1 Beispiel In einer Darstellung von gesprochener Sprache im Zeitbereich, als Oszillogramm (vgl. Kapitel 4 Abschnitt 1), kann man diese verschiedenen Arten von Schall mehr oder weniger deutlich erkennen. Abb. 16 zeigt die ¨ Außerung “Ich bin mit dem Wagen nach Bonn gefahren.”, gesprochen von einem m¨annlichen Sprecher in normaler Geschwindigkeit und gesprochen in umgangssprachlichem Sprechstil. An der x-Achse steht die Zeit, an der y-Achse der vom Mikrofon gemessene Schalldruckpegel. Die Aufnahme ist knapp 2.7 s lang. Zoomt man nun in das Signal hinein und schaut es sich entlang der x-Achse St¨ uck f¨ ur St¨ uck an, dann findet man z. B. im Signalabschnitt • von 0,291 bis 0,349 s einen (kleinen) Knall • von 0,437 bis 0,53 s ein Rauschen, • von 0,704 bis 0,792 s einen Klang, und • von 1,105 bis 1,113 s ein Ger¨ausch. Diese Signalabschnitte sind in Abb. 17 vergr¨oßert dargestellt. Abb. 18 zeigt dieselben Signalabschnitte, dieses Mal als Spektren, d. h. im Frequenzbereich, wobei die Frequenzanteile jeweils in der Mitte der Signalabschnitte bestimmt wurden. 1 Diese Klassifikation von Schall auf der Basis akustischer Ph¨anomene hat (noch) nichts mit Sprachlauten zu tun. Gesprochene Sprache 43 Abbildung 16. Die ¨ Außerung “Ich bin mit dem Wagen nach Bonn gefahren”, gesprochen von einem m¨annlichen Sprecher. Die ¨ Außerung ist als Signal im Zeitbereich wiedergegeben. a) b) c) d) Abbildung 17. Arten von Schall in gesprochener Sprache: a) Knall, b) Rauschen, c) Klang, d) Ger¨ausch, dargestellt als Signal im Zeitbereich. Die einzelnen Schallarten unterscheiden sich im Beispielsatz auch in der Darstellung im Frequenzbereich: der Knall zeigt recht geringe Frequenzanteile in den Frequenzbereichen oberhalb von ca. 500 Hz, das Rauschen hohe Anteile in fast allen Frequenzbereichen. Der Klang hat große Frequenzanteile unterhalb von 2800 Hz, ein absolutes Minimum bei ca. 3100 Hz und dann noch ein Maximum bei 4200 Hz, beim Ger¨ausch f¨allt der Frequenzanteil mit der H¨ohe der Frequenz kontinuierlich ab, mit vier lokalen Maxima bei ca. 1000 Hz, 1500 Hz, 2300 Hz und 3500 Hz. 44 Gesprochene Sprache a) b) c) d) Abbildung 18. Arten von Schall in gesprochener Sprache: a) Rauschen, b) Knall, c) Klang, d) Ger¨ausch, dargestellt als Signal im Frequenzbereich. Diese Signalabschnitte mit den unterschiedlichen Schallarten haben offensichtlich etwas mit den verschiedenen Sprachlauten zu tun, die deutschsprachige H¨orer in dieser ¨ Außerung erkennen. So klingt der Knall wie der Anfang des Wortes ‘ich’, noch vor dem Vokal. Das Rauschen klingt wie das Ende von ‘ich’, der Klang wie der Laut / n/ und das Ger¨ausch wie der Anfang von ‘Wagen’. Im Folgenden wird es um genau diesen Zusammenhang zwischen Sprachlaut und Signal gehen - [Til94] spricht von einer systematic relationship. 1 Grundlagen gesprochener Sprache Das signalphonetische Band in Abb. 19 stellt gesprochene Sprache schematisch als miteinander verkn¨ upfte Prozesse auf physiologischer und physikalischer Ebene dar. Diese Prozesse verbinden das zentrale Nervensystem eines Sprechers mit dem eines H¨orers. Die Akustik der gesprochenen Sprache ist ein f¨ ur einen externen Beobachter direkt wahrnehmbarer Vorgang, die anderen Prozesse sind intern und daher einer externen Beobachtung nur teilweise, wie bei der Artikulation, oder gar nicht zug¨anglich. Bei der Artikulation einer ¨ Außerung regt das zentrale Nervensystem die Artikulationsorgane mit elektrischen Reizen an und koordiniert ihre Bewegungen. Die mechanischen Bewegungen der Stimmlippen, des Gaumensegels, der Zunge, des Unterkiefers und der Lippen bewirken Gesprochene Sprache 45 neuronale Prozesse neuromuskuläre Prozesse Artikulation Akustik Perzeption Reiztransformation im Ohr neuronale Prozesse zentrales Nervensystem zentrales Nervensystem Abbildung 19. Das signalphonetische Band (nach [PM95]). Ver¨anderungen des aus der Lunge austretenden Luftstroms - sie bilden Laute, die sich als Schallwellen durch die Luft ausbreiten. Bei der Perzeption verl¨auft der Vorgang genau umgekehrt. Die eintreffenden Schallwellen versetzen das Trommelfell im Ohr in mechanische Schwingungen, die ¨ uber die Ohrkn¨ochelchen, die Basilarmembran und die Fl¨ ussigkeit in der Innenohrschnecke auf die Haarzellen ¨ ubertragen werden. Diese Haarzellen erzeugen elektrische Impulse, die von Nervenzellen an das Gehirn weitergeleitet werden. 1.1 Physikalische Gr¨oßen Die physikalische Gr¨oße f¨ ur den Luftdruck ist Pascal, abgek¨ urzt Pa. Nicht jede Luftdruckschwankung wird vom menschlichen Geh¨or als Schall wahrgenommen - ihre Frequenz muss zwischen ca. 20 Hz und 20 kHz und ihr Ausmaß zwischen 10 −5 und 10 2 Pa liegen. Interessant ist der Vergleich mit dem normalen Luftdruck, der auf Meeresh¨ohe etwas ¨ uber 100000 Pa, also 10 5 Pa betr¨agt und normalerweise maximal ± 1000 Pa schwankt. Die Empfindlichkeit des Geh¨ors ist frequenzabh¨angig: die gr¨oßte Empfindlichkeit hat das Geh¨or im f¨ ur die Sprache wichtigsten Frequenzbereich von ca. 1000-5.000 Hz, bei niedrigen und hohen Frequenzen ist die Empfindlichkeit deutlich geringer. Abb. 20 stellt dies anschaulich in Form einer sogenannten H¨orfl¨ache dar. Auf der x-Achse ist die Frequenz in kHz angetragen, an der y-Achse der Schalldruckpegel in dB bezogen auf den als Referenz festgelegten Wert von 2 ∗ 10 −5 Pa. Der Bereich der gesprochenen Sprache nimmt nur einen Teil der H¨orfl¨ache ein - die Artikulation von Lauten ist also auf den relativ kleinen Frequenzbereich von ca. 50 - 5000 Hz und eine Dynamik von ca. 35 - 75 dB beschr¨ankt. Musik nutzt einen deutlich gr¨oßeren Teil der H¨orfl¨ache, sowohl was den Frequenzumfang als auch was die Dynamik betrifft. 46 Gesprochene Sprache Abbildung 20. H¨orfl¨ache des Menschen (aus wikipedia.de). Die H¨orschwelle gibt an, bei welcher Lautst¨arke ein Ton einer gegebenen Frequenz h¨orbar wird, die Schmerzgrenze, ab welcher Lautst¨arke er Schmerzen verursacht. Das menschliche Geh¨or ist im Frequenzbereich von 2 bis 5 kHz besonders empfindlich - dieser Bereich ist f¨ ur die Diskriminierung von Vokalen und die Erkennung von Sprechern relevant. 1.2 Quelle-Filter-Modell Zur Beschreibung der Akustik von Sprachlauten hat sich das von Fant [Fan60] vorgeschlagene einfache Quelle-Filter-Modell bew¨ahrt. Damit l¨asst sich erkl¨aren, wie die unterschiedlichen Stellungen der Artikulationsorgane zu unterschiedlichen Lauten f¨ uhren. Gem¨aß diesem Modell produziert eine Quelle Schallwellen, die von einem nachfolgenden Filter modifiziert werden. Die ¨ Ubertragungsfunktion berechnet aus der Anregung der Quelle und dem Filter einen Schall. Bei der Artikulation von stimmhaften Lauten ist die Quelle der Luftstrom, der aus der Lunge ausstr¨omt und von den Stimmlippen in pulsierende Luftdruckschwankungen versetzt wird. Das Quellsignal enth¨alt Anteile in der Grundfrequenz und, sich nach oben abschw¨achend, den Harmonischen. Der Vokaltrakt, bestehend aus dem Raum vom Kehlkopf bis zu den Lippen und dem Nasenraum, wirkt wie ein Filter. Die Ver¨anderung Gesprochene Sprache 47 dieses Raumes durch Bewegungen des Gaumensegels, der Zunge und der Lippen verst¨arkt einzelne Frequenzbereiche durch Resonanzen und schw¨acht andere durch D¨ampfung ab. + = f f f Abbildung 21. Darstellung des Quelle-Filter-Modells im Frequenzbereich (nach [PM95], S. 103). Das resultierende Signal enth¨alt die urspr¨ unglichen Frequenzen in neuen Anteilen. Die Maxima der ¨ Ubertragungsfunktion entsprechen den durch Resonanz hervorgehobenen Frequenzen. Die Lage dieser Maxima, man nennt sie Formanten, ist charakteristisch f¨ ur einzelne Sprachlaute. Die Formanten sind in aufsteigender Folge durchnummeriert, z. B. F 1, F 2, F 3 usw. Das Quelle-Filter-Modell macht eine Reihe von vereinfachenden Annahmen, etwa dass der Vokaltrakt als ein gerades Rohr mit schallharten W¨anden und wohldefiniertem, aber variablem Durchmesser aufgefasst werden kann - in Wirklichkeit ist das Gewebe weich und st¨andig in Bewegung. Dennoch kann man mit diesem Modell viele Vorg¨ange bei der Artikulation anschaulich beschreiben und Voraussagen ¨ uber die akustische Auswirkung von Positionsver¨anderungen der Artikulationsorgane machen. 2 Sprachlaute Die Laute in der gesprochenen Sprache lassen sich anhand der Art, wie sie artikuliert werden, in Klassen unterteilen. Eine erste Unterteilung ist in Vokale und Konsonanten. Vokale sind Laute, bei denen der Vokaltrakt oberhalb des Kehlkopfs eine offene Passage bildet und der Luftstrom weitgehend ohne Turbulenzen ausstr¨omt. Bei Konsonanten dagegen besteht im Vokaltrakt ein teilweiser oder vollst¨andiger Verschluss, eine ‘ger¨auschverursachende Enge’ ([PM95] S. 172). Die International Phonetical Association (IPA) hat die Sprachlaute aller Sprachen der Welt erfasst und zu ihrer Klassifizierung f¨ ur Vokale und Konsonanten je ein eigenes Schema entwickelt, das Vokalviereck und die Konsonantentabellen. Beide werden in den folgenden Abschnitten motiviert und beschrieben. 48 Gesprochene Sprache Ausf¨ uhrlichere Erl¨auterungen finden sich im Handbuch der IPA [IPA99], zur Phonetik des Deutschen siehe [Koh95], zur Transkription des Deutschen siehe [RRK + 07]. 2.1 Vokale Bei der Artikulation von Vokalen str¨omt Luft aus der Lunge durch die Stimmlippen und den freien Vokaltrakt aus. In Abschnitt 1.2 wird der Vokaltrakt als Filter betrachtet. Die Geometrie des Vokaltrakts, und damit die Wirkung des Filters, h¨angt im wesentlichen von drei Parametern ab: der Lage der Zunge (vorne bzw. hinten), der H¨ohe von Zunge und Unterkiefer hoch bzw. tief und der Rundung der Lippen (gerundet bzw. ungerundet) beschrieben. Statt H¨ohe gibt man h¨aufig auch den Abstand zwischen Zunge und Gaumen an. Dabei entspricht die H¨ohe hoch dem Abstand eng, und tief dem Abstand offen. Die physiologisch m¨oglichen Extrempositionen der Zunge - vornehoch, vorne-tief, hinten-hoch und hinten-tief - begrenzen den Bereich, der von der Zunge zur Artikulation von Vokalen genutzt werden kann (Abb. 22). a) i u b) a Abbildung 22. Zungen- und Kieferstellung bei den a) oberen Eckvokalen / i/ und / u/ , b) unteren Eckvokalen / a/ und / 6/ (nach [IPA99] S. 11). Das Vokalviereck (engl. vowel quadrilateral) der IPA [IPA99], das auf Daniel Jones zur¨ uckgeht, stellt diesen Bereich schematisch dar (Abb. 23). In den vier Ecken stehen die sog. Eckvokale (engl. extreme vowels): links oben [i], rechts oben [u], links unten [a], rechts unten [6]. Die linke und rechte Seite des Vokalvierecks sind in drei ¨aquidistante Abschnitte unterteilt, an denen sich links die vorderen Vokale [e] und [E] und rechts Gesprochene Sprache 49 die hinteren Vokale [o] und [O] befinden. Diese acht Vokale nennt man Kardinalvokale. Auf der Mittellinie befinden sich die zentralen Vokale. Jeder Vokal wird entweder mit gerundeten oder ungerundeten Lippen artikuliert. Man unterscheidet prim¨are und sekund¨are Vokale: bei den prim¨aren Vokalen sind die vorderen Vokale [i, e, E, a] ungerundet, die hinteren Vokale [u, o, O, 6] dagegen gerundet. Bei den sekund¨aren Vokalen sind die vorderen Vokale [y, ø, œ, Œ] gerundet und die hinteren Vokale [W, 7, 2, A] ungerundet. Front Central Back Close Close-mid Open-mid Open Abbildung 23. (links) Die Position der Zunge bei der Artikulation der Kardinalvokale. (rechts) Das Vokalviereck der IPA ([IPA99] S. 13) ordnet die Vokale entsprechend der Zungenlage und -h¨ohe an. Befinden sich zwei Symbole nebeneinander, dann steht das rechte f¨ ur den gerundeten Vokal. 2.1.1 Akustische Eigenschaften von Vokalen Im Signal sind Vokale aus vielen Frequenzen zusammengesetzte Kl¨ange. Im Oszillogramm zeigen sie, bedingt durch ihre recht hohe Energie, ausgepr¨agte Signalausschl¨age mit einer Grundfrequenz von ca. 80-120 Hz bei M¨annern, 180-220 Hz bei Frauen, und ¨ uber 400 Hz bei Kindern (Abb. 24). Die einzelnen Vokale sind durch die Frequenzen der ersten drei Formanten (vgl. Abschnitt 1.2) charakterisiert. F 1 und F 2 haben einen direkten Bezug zum Vokalviereck: in einer Formantkarte bilden F 1 und F 2 die Achsen eines zweidimensionalen Koordinatensystems; die Achsen stellen die Formanten in absteigender Frequenz dar. In diesem stehen die vorderen hohen Vokale oben links, die hinteren hohen Vokale oben rechts, die vorderen tiefen Vokale unten links von der Mitte und die hinteren tiefen unten rechts von der Mitte. Eine solche Formantkarte zeigt Abb. 25 rechts. Die Formantfrequenzen sind f¨ ur Kinder, Frauen und M¨anner aufgrund der unterschiedlichen Gr¨oße des Vokaltrakts verschieden, ansons- 50 Gesprochene Sprache a) b) c) d) Abbildung 24. Signal des Vokals / a/ , gesprochen von a) einer Frau (45 Jahre), b) einer weiblichen Jugendlichen (15 J.), c) einem Mann (45 J.), d) einem m¨annlichen Jugendlichen (13 J.). Das Oszillogramm zeigt jeweils einen Ausschnitt von ca. 70 ms aus der Mitte des Vokals. ten aber vokalspezifisch [Mac95, PM95]. Abb. 25 gibt die Werte f¨ ur die Grundfrequenz und die ersten drei Formanten F 1 , F 2 , F 3 der deutschen Vokale f¨ ur 16 Sprecher des PhonDat-2 Korpus wieder ([Hei98] S. 352). 2.2 Konsonanten Konsonanten werden durch einen Verschluss im Vokaltrakt, ¨ Offnen des Nasaltrakts oder Verwirbelungen des Luftstroms im Vokaltrakt gebildet. Der Luftstrom entsteht entweder durch Aus- oder Einatmen, oder durch den Aufbau und das L¨osen lokaler Druckunterschiede. Gesprochene Sprache 51 IPA F 0 F 1 F 2 F 3 a: 160 691 1339 2533 A 161 673 1362 2540 6 173 535 1367 2490 O 167 529 1162 2505 E 169 486 1784 2633 9 168 477 1579 2290 @ 178 449 1584 2569 E: 176 443 2022 2660 o 165 416 927 2497 U 173 413 1093 2424 2 177 395 1464 2249 e 172 383 2076 2704 Y 168 383 1541 2350 I 175 368 1943 2698 y 174 337 1588 2292 u 199 328 946 2416 i 185 324 2071 2698 a: A 6 O E 9 @ E: o: U 2: e: Y I y: u: i: 2000 1800 1600 1400 1200 1000 700 600 500 400 F2 F1 Abbildung 25. (links) Grundfrequenz F0 sowie die Formantfrequenzen (in Hz) der ersten drei Formanten f¨ ur 16 Sprecher der PhonDat-2 Sprachdatenbank, (rechts) Formantkarte F1/ F2 f¨ ur die deutschen Vokale (in SAMPA). Die Verwirbelungen des Luftstroms entstehen, wenn die Luft durch Engstellen im Vokaltrakt str¨omt, oder beim L¨osen eines Verschlusses im Vokaltrakt. Eine Engstelle oder Verschluss kann von den Lippen, der Zunge oder dem Kehlkopf gebildet werden, z. B. durch vollst¨andigen oder teilweisen Kontakt von Zungenr¨ ucken und Gaumen, Zungenspitze und Zahndamm oder der Lippen. 2.2.1 Pulmonare Konsonanten Pulmonare Konsonanten werden durch den Luftstrom beim Aus- oder Einatmen gebildet. Sie werden nach der Art der Enge, dem Ort der Engstelle und der Stimmhaftigkeit klassifiziert. Die IPA Tabelle der pulmonaren Konsonanten (Abb. 27) enth¨alt in den Spalten den Artikulationsort. Sie unterscheidet von links nach rechts elf Orte der Enge- oder Verschlussbildung. An den ersten beiden Artikulationsorten bilden Lippen und Schneidez¨ahne die Engstelle, an den nachfolgenden sieben Orten die Zunge am Gaumen bzw. Z¨apfchen, dann der Rachen und am letzten die Glottis. Bilabial Unter- und Oberlippe Labiodental Unterlippe und obere Schneidez¨ahne bilden einen vollst¨andigen oder teilweisen Verschluss. 52 Gesprochene Sprache 1 23 4 5 6 7 8 9 10 11 12 1) labial 2) labiodental 3) dental 4) alveolar 5) postalveolar 6) retroflex 7) palatal 8) velar 9) uvular 10) pharyngal 11) epiglottal 12) glottal Abbildung 26. Schematische Darstellung des Vokaltrakts mit den Artikulationsstellen f¨ ur Konsonanten. Bilabial Labiodental Dental Alveolar Post alveolar Retroflex Palatal Velar Uvular Pharyngeal Glottal Plosive ! " # $ % & ' ( ) * Nasal + , - . / 0 Trill 1 2 3 Tap or Flap 4 5 Fricative 6 7 8 9 : ; < ==> ? @ A B C D E F G H I J K L Lateral fricative M N Approximant O P Q R S Lateral approximant T U V W Abbildung 27. Die IPA Tabelle der Konsonanten [IPA99] gibt schematisch Artikulationsort und -art an; links, bei bilabial, ist der Artikulationsort die Mund¨offnung mit den Lippen, rechts, bei glottal, der Kehlkopf. Abb. 44 mit MRI-Aufnahmen der Frikative [s] und [f] zeigt dies sehr anschaulich. Gesprochene Sprache 53 Dental, alveolar, postalveolar Die Zungenspitze ber¨ uhrt die oberen Schneidez¨ahne, den flachen Teil des Gaumens unmittelbar hinter den Schneidez¨ahnen, den Zahndamm oder den steilen ¨ Ubergang zum harten Gaumen. Retroflex Die Zungenspitze ist nach hinten gerollt und ber¨ uhrt mit der Unterseite den harten Gaumen. Palatal Der Zungenr¨ ucken ber¨ uhrt den harten Gaumen. Velar Der Zungenr¨ ucken ber¨ uhrt den weichen Gaumen Uvular Der Zungenr¨ ucken ber¨ uhrt das Gaumensegel Pharyngal Die Zunge ber¨ uhrt den Rachen zwischen Gaumensegel und Kehlkopf Glottal Die Stimmlippen bilden einen vollst¨andigen oder teilweisen Verschluss und l¨osen ihn pl¨otzlich. In den Zeilen der Konsonantentabelle steht die Artikulationsart. Die Tabelle unterscheidet acht Arten von Konsonantenartikulation: Plosiv Der Vokaltrakt ist vollst¨andig geschlossen und wird abrupt ge¨offnet. Nasal Der Vokaltrakt ist geschlossen, das Gaumensegel ist gesenkt und ¨offnet somit den Nasenraum. Vibrant (Engl. trill) im Vokaltrakt wird mehrmals in kurzer Folge ein Verschluss gebildet und wieder gel¨ost. Getippt, Geschlagen (Engl. tap, flap) im Vokaltrakt wird ein Verschluss nur einmal kurzzeitig gebildet und gel¨ost. Frikativ Im Vokaltrakt wird eine Engstelle gebildet, so dass eine Turbulenz entsteht. Lateraler Frikativ Die Engstelle wird durch die Zungenspitze gebildet, so dass seitlich eine Turbulenz entsteht. Approximant Zentrale und nicht ger¨auschverursachende Engestelle. Lateral-Approximant Zentraler Verschluss mit seitlicher und nicht ger¨auschverursachender Engstelle. Graue Felder in der Konsonantentabelle sind physiologisch ausgeschlossene Kombinationen von Artikulationsort und -art, weiße Felder wurden noch in keiner Sprache beobachtet. Konsonanten k¨onnen stimmhaft oder stimmlos sein. Bei stimmhaften Konsonanten schwingen die Stimmlippen, bei stimmlosen nicht. Befinden sich zwei Symbole nebeneinander in einem Tabellenfeld, dann steht das rechte f¨ ur den stimmhaften Konsonanten. 54 Gesprochene Sprache 2.2.2 Nicht-pulmonale Konsonanten Nicht-pulmonale Konsonanten sind Clicks, Implosive oder Ejektive. Sie werden ohne die ausgeatmete Luft aus den Lungen erzeugt. Bei Clicks bildet die Zunge einen doppelten Verschluss: im vorderen Mundraum und velar. Durch Senken der Zunge entsteht ein Unterdruck, der den vorderen Verschluss l¨ost. Bei Implosiven und Ejektiven bewegt sich der Kehlkopf und erzeugt auf diese Weise einen Unter- oder ¨ Uberdruck. 2 2.2.3 Akustische Eigenschaften von Konsonanten Im Signal sind Nasale als Klang erkennbar, Plosive als mehr oder weniger ausgepr¨agte Signalpause (engl. silent interval) mit einem kurzen L¨osungsger¨ausch (engl. burst), und alle anderen Konsonanten als Rauschen. Zur Unterscheidung der einzelnen Klassen von Konsonanten ist das Oszillogramm nicht ausreichend, da sich die Signale sehr ¨ahneln. So lassen sich z. B. Frikative im Oszillogramm nicht voneinander unterscheiden. Im Sonagramm (vgl. Kapitel 4 Abschnitt 2) dagegen kann man stimmhafte und stimmlose Konsonanten sehr klar unterscheiden: stimmhafte Konsonanten zeigen einen leicht erh¨ohten Frequenzanteil im Bereich der Grundfrequenz, und in den h¨oheren Frequenzbereichen ‘schimmern’ die Formanten durch. Stimmlose Konsonanten haben kaum Anteile in den niedrigen Frequenzbereichen und einheitliche Anteile an h¨oheren Frequenzbereichen. Plosive zeigen aufgrund des Verschlusses zun¨achst gar kein Signal, beim Burst dann ein pl¨otzlich einsetzendes Signal, Nasale deutlich hervorgehobene Frequenzbereiche und Frikative ein Signal mit verschiedensten Frequenzanteilen (Abb. 36). 2.3 Lautsysteme verschiedener Sprachen Das IPA-Lautinventar erhebt den Anspruch, die bedeutungsunterscheidenden Sprachlaute aller Sprachen abbilden zu k¨onnen. Das Lautinventar einzelner Sprachen besteht meist aus einer Untermenge dieser Sprachlaute. Diese Untermengen sind in den sog. Illustrations of the 2 Clicks als Sprachlaute kommen in europ¨aischen Sprachen nicht vor. In gesprochener Kommunikation findet man sie jedoch h¨aufig, z. B. in ¨ Außerungen des Erstaunens oder der Missbilligung: ”t t t, nicht zu fassen! ”. In s¨ udafrikanischen Sprachen, z. B. Xhosa, kommen sie als ganz normale Laute vor. Auf youtube findet man ein Video von Miriam Makeba, in dem sie Clicklaute vorf¨ uhrt und in einem Lied verwendet: http: / / www.youtube.com/ watch? v=2Mwh9z58iAU. Gesprochene Sprache 55 IPA beschrieben, und diese Beschreibungen gibt es sowohl f¨ ur die Standardaussprache einer Sprache, z. B. Standarddeutsch in Deutschland [Koh99], als auch f¨ ur regionale oder andere Varianten, z. B. Z¨ urcher Deutsch [FS06] 3 Sprachlaut und Signal Zu Beginn von Kapitel 3 wurden f¨ unf Arten von Schall unterschieden und anhand ihrer typischen akustischen Eigenschaften im Signal, d. h. als physikalische Messgr¨oße, beschrieben. Im vorangegangenen Abschnitt wurden Sprachlaute entsprechend dem Vorgehen der IPA aufgrund ihrer artikulatorischen Eigenschaften klassifiziert - diese Klassifikation basiert weitgehend auf Introspektion, da einer externen Beobachtung nur die sichtbaren Artikulationsorgane zug¨anglich sind. 3 Die interessante Frage ist nun: Wie h¨angen Signal und Sprachlaut zusammen? • Gibt es f¨ ur jeden Signalabschnitt einen eindeutig zuordnenbaren Laut? • Und umgekehrt, k¨onnen wir jedem wahrgenommenen Laut einen Signalabschnitt zuordnen? • Kann man Grenzen zwischen verschiedenen Arten von Schall bestimmen? • Entsprechen diese Grenzen auch Grenzen zwischen Lauten? Die Beantwortung dieser Fragen ist nicht trivial. Es gibt offensichtlich einen Zusammenhang - aber weder sieht man dem Signal direkt an, ob es einen, und wenn ja, welchen Sprachlaut es realisiert, noch kann man aus der Beschreibung eines Sprachlauts ein Signal direkt ableiten. Die Entwicklung von Instrumenten und Verfahren zur objektiven Messung von Sprachlauten, eigentlich gedacht zur Verifizierung von durch Introspektion gewonnener Erkenntnis ¨ uber die Sprachlaute, st¨ urzte die traditionelle phonetische Forschung in eine tiefe Krise. Vereinfacht gesagt, waren die traditionelle Phonetik und Linguistik davon ausgegangen, dass es Sprachlaute per se gibt: man konnte - mit etwas Gesp¨ ur und Geschick - an Hand einer Beschreibung jeden beliebigen Sprachlaut auf Kommando produzieren, und umgekehrt auch jeden beliebigen Sprachlaut zun¨achst imitieren und dann seine 3 Mit artikulatorischen Messverfahren wie z. B. EPG oder EMA (vgl. Abschnitt 3.1.2 und Abschnitt 3.1.3 in Kapitel 4) kann diese Klassifikation ¨ uberpr¨ uft werden. 56 Gesprochene Sprache Beschreibung angeben (das Verfahren nennt man ‘Analyse durch Synthese’). Aus dieser Sicht war gesprochene Sprache dann nichts weiter als eine Aneinanderreihung von diskreten Lauten mit einem unerkennbar schnellen ¨ Ubergang. Das Sprachsignal zeigte demgegen¨ uber ein ganz anderes Bild: verschiedene Arten von Schall, in unterschiedlich langen Signalabschnitten, teilweise klar voneinander abgegrenzt, meist aber mehr oder weniger weit ¨ uberlagert. Mehr noch: je nach Messung ergaben sich andere Daten und mit unterschiedlicher Aussagef¨ahigkeit in Bezug auf die Sprachlaute. Die zentrale Erkenntnis war, dass zwischen dem kontinuierlichen Sprachsignal und dem kategorialen, also auf diskreten Einheiten basierenden, System der Sprachlaute zwar ein offensichtlicher Zusammenhang besteht. Dieser Zusammenhang ist aber nicht analytisch, d. h. es gibt keine eineindeutige Zuordnung zwischen Sprachlaut und Signal, sondern empirisch, d. h. f¨ ur jeden Sprachlaut gibt es eine Vielzahl m¨oglicher, untereinander zwar im Groben recht ¨ahnlicher, aber im Detail doch sehr verschiedener Signale. Dieser empirische Zusammenhang muss erlernt werden, er kann sich mit der Zeit ver¨andern und er ist abh¨angig vom Individuum und seiner sprachlichen Umgebung. ¨ Uberspitzt ausgedr¨ uckt: das kategoriale System der Sprachlaute erkl¨art, wie Laute geformt und gr¨oßere Einheiten gebildet werden, aber es hat wenig mit der messbaren Wirklichkeit zu tun. Das gemessene Signal kann gesprochene Sprache exakt wiedergeben, aber es kennt keine phonetischen oder linguistischen Kategorien - keine Laute, Phoneme, W¨orter usw. Beispiel Ein deutscher Sprecher spricht den ungarischen Namen ‘Katalin’ in der Regel als / k ’a t a l i n/ , d. h. die beiden / a/ sind zentralisiert, die Lippen sind ungerundet und der Akzent ist auf der ersten Silbe ‘ka’. Spricht ein ungarischer Sprecher den Namen aus, dann sind die ‘a’ mit tiefer und hinterer Zunge realisiert, der Sprecher rundet die Lippen und der Akzent ist ebenfalls auf der ersten Silbe. Ein deutscher Sprecher h¨ort dann / k ’O t O l i: n/ - das ungarische ‘a’ kommt ihm wie ein deutsches / O/ vor. F¨ ur einen ungarischen H¨orer w¨are immer klar, dass es sich um ‘a’ handelt. Gesprochene Sprache 57 3.1 Segment und Segmentierung Eine praktikable M¨oglichkeit, diesen Zusammenhang formal zu fassen, ist die Einf¨ uhrung eines eigenen Beschreibungselements: Ein Segment besteht aus einer Signaladresse, d. h. einem Verweis auf ein Signal bzw. einen Signalausschnitt und einem kategorialen Etikett oder Label, z. B. einem Phon, einer Phonemsequenz, oder einer Folge von W¨ortern. Mithilfe von Segmenten verkn¨ upft man also kategoriale Systeme mit Signaldaten - und bringt damit phonetisches und linguistisches Wissen in die Analyse von Signalen ein beziehungsweise kann so Eigenschaften des Signals auf ihre phonetische und linguistische Relevanz hin untersuchen. Das Segment, verstanden als Datensatz oder Tupel aus Signalabschnitt und Etikett, ist damit die grundlegende Einheit der Arbeit mit gesprochener Sprache (vgl. Kapitel 8). Bei der Segmentierung ordnet man einem Sprachsignal eine kategoriale Beschreibung zu. Bei der Beurteilung des Signals werden meist mehrere Signaldarstellungen, z. B. das Oszillogramm und das Sonagramm, herangezogen, um die Segmentgrenzen und das Etikett m¨oglichst exakt bestimmen zu k¨onnen. Eine Segmentierung ist stets theorieabh¨angig, denn ihr Ergebnis h¨angt vom zugrundeliegenden kategorialen System ab. 3.1.1 Top-down-Segmentierung Die Top-down-Segmentierung geht von linguistischen und phonetischen Kategorien aus und sucht im Signal nach Korrelaten zu linguistischen Einheiten. Der Segmentierer weiß also, welche Segmente vorkommen m¨ ussen, er muss nur noch die Grenzen dieser Segmente im Signal bestimmen. Allerdings werden nicht immer alle Laute auch tats¨achlich realisiert. H¨aufig werden Flexionsendungen, Funktionsw¨orter oder Pronomen und Artikel gar nicht oder verschliffen realisiert, oder es werden Laute substituiert oder eingef¨ ugt: aus ‘mit dem’ wird [m I d @ m], d. h. das / t/ wird nicht realisiert, oder gar [m I m], bei dem nur noch das initiale und das finale / m/ ¨ ubrigbleiben, / t/ und / d/ wegfallen und aus / I/ und / @/ ein einziger Vokal wird. Ein Beispiel f¨ ur Substitution oder Einf¨ ugung ist das Wort ‘f¨ unf ’, aus dem unter anderem [f Y M f] oder [f Y n @ f] werden kann. Diese Modifikationen sind teils systematisch und damit vorhersagbar, teils individuell und abh¨angig vom Sprechstil - bei der Segmentation kann es also durchaus vorkommen, dass ein erwarteter Sprachlaut im Signal nicht lokalisiert werden kann. 58 Gesprochene Sprache 3.1.2 Bottom-up-Segmentierung Bei der Bottom-up-Segmentierung wird das Signal visuell und akustisch in Abschnitte zerlegt, so dass das Signal innerhalb eines Abschnitts m¨oglichst homogen ist und sich m¨oglichst deutlich von umgebenden Abschnitten unterscheidet. Die so ermittelten Abschnitte werden dann in Segmenten mit einem phonetischen oder linguistischen Label etikettiert. Die Bottom-up-Segmentierung wird dann eingesetzt, wenn keine ausreichende linguistische Beschreibung vorliegt, wenn also z. B. das Phonem-Inventar einer Sprache noch nicht bekannt ist, sondern erst ermittelt werden soll. Beispiel In der ¨ Außerung in Abb. 16 wird der Satz “Ich bin mit dem Wagen nach Bonn gefahren” gesprochen - vor dem ersten und nach dem letzten Wort ist kein Signal vorhanden. Der Satz l¨asst sich also auf den Signalabschnitt zwischen dem ersten und letzten erkennbaren Signalausschlag abbilden, oder anders formuliert, das Segment besteht aus dem Etikett “Ich bin mit dem Wagen nach Bonn gefahren” und enth¨alt den Signalabschnitt von 0,203 s bis 2,544 s. Zerlegt man den Satz in W¨orter, dann bekommt man acht Segmente. Durch sukzessives Ausw¨ahlen und Anh¨oren von Signalabschnitten kann man die Grenzen jedes Segments festlegen - wobei einige Grenzen nicht einfach zu bestimmen sind, z. B. die zwischen ‘bin’ und ‘mit’ oder ‘Wagen’ und ‘nach’. Abbildung 28. Acht Wortsegmente des Satzes “Ich bin mit dem Wagen nach Bonn gefahren”. Gesprochene Sprache 59 Ersetzt man jedes Wort durch seine Standardaussprache, wie man sie z. B. in einem Aussprachew¨orterbuch findet, dann erh¨alt man eine Folge von 30 Phonemen. Tab. 1 enth¨alt einen Ausschnitt eines solchen Lexikons f¨ ur den Beispielsatz. Wort Aussprache SAMPA IPA bin b I n b I n Bonn b O n b O n dem d e: m d e m gefahren g @ f a: R @ n g @ f a: R @ n ich ? I C P I ç mit m I t m I t nach n a: x n a: x Wagen v a: g @ n v a: g @ n Tabelle 1. Ausschnitt aus einem Ausssprachew¨orterbuch mit dem deutschen Phonem-Inventar in SAMPAbzw. IPA-Alphabet. Abb. 29 zeigt eine m¨ogliche Phonem-Segmentierung des Beispielsatzes. Einige der f¨ ur das gesprochene Deutsch typischen Verschleifungen k¨onnen beobachtet werden: das / t/ in / m I t/ ist mit dem nachfolgenden / d/ von / d e m/ verschmolzen, / @/ in / v a: g @ n/ wurde nicht realisiert, und / g @ f a: r @ n/ am Ende des Satzes wurde zu [g @ f a: n] verk¨ urzt. Abbildung 29. Phonem-Segmente des Satzes “Ich bin mit dem Wagen nach Bonn gefahren” in SAMPA. 60 Gesprochene Sprache 3.1.3 Analyse des Signals Segmente erlauben nun den Zugriffauf das Signal zu Analysezwecken. 4 So ergibt z. B. der Vergleich der Realisierungen des / I/ untereinander sowie mit dem / e/ einige erstaunliche Resultate - die Signale der Segmente sehen ziemlich verschieden aus! Die Segmentl¨ange f¨ ur das [I] reicht von 0,055 s bis 0,09 s, das [e] ist sogar noch k¨ urzer, n¨amlich 0,054 s lang, obwohl das / e/ in SAMPA-Notation laut Aussprachew¨orterbuch ein langer Vokal sein sollte (Abb. 30). Ein Grund f¨ ur die kurze Dauer des / e/ k¨onnte sein, dass das Wort ‘dem’ bei der ¨ Außerung des Satzes ziemlich verschliffen wurde. Die Spektren (gemessen bei einer Fensterbreite von 5 ms in der Mitte des Segments) zeigen eine recht ¨ahnliche Makrostruktur mit drei Maxima bei ca. 350-400 Hz, 1900-2200 Hz und 2500-3000 Hz. In der Mikrostruktur sind sie recht verschieden: das erste und das zweite Spektrum sind rund mit ausgepr¨agten Maxima, das dritte und das vierte haben viele kleine Maxima. Aus Abschnitt 1.2 ist bekannt, dass die Maxima Resonanzen im Vokaltrakt darstellen, d. h. sie sind Formanten. Die Berechnung der Formanten in der Software Praat ergibt die Werte in Tab. 2. Segment Dauer (s) F 1 F 2 F 3 I 0,09 345 2206 2857 I 0,062 360 2001 2543 I 0,055 367 1927 2554 e 0,054 399 1884 2564 Tabelle 2. Segmentdauer (in s) und Frequenzen (in Hz) der ersten drei Formanten f¨ ur die drei [I]-Segmente und das [e]-Segment des Beispielsatzes (Abb. 25). 4 Zusammenfassung Sprachschall ist eine lokale Ver¨anderung des Luftdrucks mit einer Frequenz von ca. 20-20.000 Hz im Bereich von 10 −5 − 10 2 Pa. Der Frequenzbereich gesprochener Sprache ist ca. 50-5000 Hz mit einer Dynamik von max. 75 dB. Mit dem Quelle-Filter-Modell kann man die Vorg¨ange bei der Artikulation von Sprachlauten anschaulich beschreiben: Die Glottis liefert das Quellsignal, der Vokaltrakt wirkt wie ein Filter und verst¨arkt oder d¨ampft einzelne Frequenzanteile. 4 Die Signalanalyse in diesem Kapitel wurde mit dem Programm Praat durchgef¨ uhrt. Gesprochene Sprache 61 Abbildung 30. Vergleich der Oszillogramme und Spektren der drei [I]- und des [e]-Segments des Beispielsatzes. Sprachlaute werden in zwei Klassen unterteilt: Vokale und Konsonanten. Gem¨aß dem Schema der IPA werden Vokale ¨ uber die Zungenh¨ohe und -position sowie die Rundung der Lippen, Konsonanten ¨ uber die Art und den Ort der Enge- oder Verschlussbildung im Vokaltrakt sowie die Stimmhaftigkeit klassifiziert. Zwischen Sprachlaut und Signal besteht ein empirischer Zusammenhang. Ein Segment gibt den Zusammenhang zwischen Signal und Kategorie wieder. Es besteht aus einer Signaladresse und einem phonetisch- 62 Gesprochene Sprache linguistischen Label. Bei der Segmentierung wird ein Sprachsignal in Segmente unterteilt. Gesprochene Sprache 63 5 Aufgaben 1. Was ist Schall, physikalisch gesehen? Nennen Sie die Einheit dieser physikalischen Gr¨oße. Welches Naturph¨anomen wird mit derselben Einheit gemessen? 2. Welche Abtastrate muss man mindestens w¨ahlen, um Sprache zu digitalisieren? Und welche f¨ ur Musik? Nehmen Sie Abb. 20 als Ausgangspunkt. Begr¨ unden Sie Ihr Ergebnis. 3. Was beschreibt das Quelle-Filter-Modell? 4. Was sind Formanten? 5. Was ist der Unterschied zwischen Vokalen und Konsonanten? 6. Wie klassifiziert die IPA Vokale? Wie Konsonanten? 7. Was stellt das Vokalviereck der IPA dar? 8. Geben Sie die IPA-Klassifikation der Laute der folgenden W¨orter an: a) ‘Bienen’ b) ‘Binsen’ c) ‘Firmung’ d) ‘Schlauch’ 9. Welche Laute entsprechen den folgenden IPA-Klassifikationen? Geben Sie jeweils ein Wortbeispiel an: a) vorderer oberer gerundeter Vokal b) stimmhafter alveolarer Nasal c) stimmhafter uvularer Trill d) stimmloser dentaler Frikativ 10. Bestimmen Sie die Grundfrequenz F0 f¨ ur die vier Sprecher in Abb. 24. 11. Laden Sie die ¨ Außerungen ‘Kap3Satz1.wav’ und ‘Kap3Satz2.wav’ herunter und segmentieren Sie sie phonetisch in Praat. Vergleichen Sie Ihre Segmentation mit der Musterl¨osung. K¨onnen Sie erkennen, in welcher Sprache ‘Kap3Satz2.wav’ gesprochen ist? Sprachsignale am Computer In den vorangegangenen Kapiteln wurden Signale und Sprachlaute ohne expliziten Bezug auf ihre Verarbeitung mit dem Computer eingef¨ uhrt. Tats¨achlich stammen die in diesen Kapiteln beschriebenen Techniken der Signalverarbeitung und das Klassifizierungsschema der IPA aus dem 19. Jahrhundert oder sind sogar noch ¨alter. In diesem Kapitel werden verschiedene, in der aktuellen Forschung h¨aufig verwendete Arten von Signalen vorgestellt. 1 Oszillogramm Ein Oszillogramm gibt den am Mikrofon aufgenommenen Pegel des Schalls als Zeitsignal wieder. Im Oszillogramm kann man energiereiche Signalabschnitte und Pausen gut erkennen. Auch die f¨ unf Arten von Schall k¨onnen recht klar unterschieden werden. Zur Darstellung von Signalen wurden in den vorangegangenen Kapiteln wiederholt Oszillogramme verwendet. Bei gesprochener Sprache sind die energiereichen Signalabschnitte meist Silben - der Silbenkern ist ein Vokal oder Sonorant, d. h. die Luft str¨omt ungehindert und somit mit hoher Energie aus, die umliegenden Konsonanten reduzieren den Luftstrom durch Engebildung oder Verschluss. Im Oszillogramm findet man sehr h¨aufig ¨ Uberlagerungen der verschiedenen Arten von Schall. So ist in Abb. 31 auch im Rauschen des [x]-Segments noch die periodische Anregung aus dem [a: ] zu erkennen, ebenso wie das [a: ] am Ende immer verrauschter wird. Die Erkennung einzelner Laute ist mit dem Oszillogramm allein nicht m¨oglich. 2 Sonagramm Ein Spektrum gibt die Anteile der einzelnen Frequenzen in einem Signal wieder. Um diese Frequenzanteile berechnen zu k¨onnen, muss man einen l¨angeren Signalabschnitt, ein sog. Fenster, betrachten. F¨ ur ein einzelnes Spektrum w¨ahlt man eine Signalposition aus und berechnet das Spektrum f¨ ur das Fenster. Dabei multipliziert man den Signalwert mit dem entsprechenden Fensterwert. Sprachsignale am Computer 65 Abbildung 31. ¨ Uberlagerung des Vokals [a: ] durch das Rauschen des Frikativs [x]. Wiederholt man dies mit aufeinanderfolgenden Positionen, dann erh¨alt man eine Folge von Einzelspektren, die die zeitliche Entwicklung der Frequenzanteile widerspiegeln. Ein Spektrogramm, im Kontext gesprochener Sprache Sonagramm genannt, besteht aus einer solchen Folge einzelner Spektren. ¨ Ublicherweise werden die Abst¨ande zwischen den einzelnen Positionen so gew¨ahlt, dass sich die Fenster teilweise ¨ uberlappen. Außerdem werden die Signalanteile am Rand des Fensters schw¨acher gewichtet als in der Fenstermitte, die durch die Beschr¨ankung auf den Signalabschnitt innerhalb eines Fensters entstehen, zu vermeiden (Abb. 32). Dazu stehen verschiedene Fenster zur Verf¨ ugung, etwa das Hamming- oder das Hanning-Fenster, aber auch Dreiecks- oder Kaiser-Fenster. Die ¨ ubliche Darstellung eines Sonagramms ist die eines farbkodierten Diagramms. Dazu werden die Maxima schwarz oder warmfarbig (z. B. gelb orange rot) eingef¨arbt, die Minima weiß oder kaltfarbig (z. B. gr¨ un blau violett), und um 90 ◦ gedreht, so dass die y-Achse die Frequenz repr¨asentiert. Diese transformierten Spektren reiht man nun entlang der x-Achse auf (Abb. 33). 1 In dieser Darstellung kann das Sonagramm gemeinsam mit dem Oszillogramm angezeigt werden (Abb. 34). In Kapitel 3 Abschnitt 3 wurde die Abh¨angigkeit eines Spektrums von der L¨ange des Signalabschnitts beschrieben. Im Sonagramm wird diese Abh¨angigkeit deutlich sichtbar. 1 Eine alternative Darstellung ist das sog. Wasserfalldiagramm, bei dem die einzelnen Spektren perspektivisch angeordnet werden und Maxima als H¨ohenz¨ uge oder Wellenk¨amme sichtbar werden. 66 Sprachsignale am Computer Abbildung 32. Analysefenster zur Berechnung eines einzelnen Spektrums und ¨ uberlappende Fenster. 1000 2000 3000 4000 5000 1000 2000 3000 4000 5000 1000 2000 3000 4000 5000 t Abbildung 33. Farbcodierung eines Spektrums und Rotation um 90 ◦ f¨ ur die Darstellung als Sonagramm. 2.1 Breitband-Sonagramm Bei einem Breitband-Sonagramm ist der betrachtete Signalabschnitt 5- 10 ms lang. Im Breitband-Sonagramm k¨onnen Frequenzen, die weniger als 200-100 Hz auseinander liegen, nicht mehr voneinander unterschieden werden - die Frequenzaufl¨osung ist niedrig. Im Breitband-Sonagramm kann wegen der kurzen Signalabschnitte die zeitliche Entwicklung des Signals sehr genau verfolgt werden, d. h. die zeitliche Aufl¨osung ist hoch. Sprachsignale am Computer 67 0 1000 2000 3000 4000 5000 0 0.5 1 1.5 2 2.5 Abbildung 34. Oszillogramm und Sonagramm der ¨ Außerung “Ich bin mit dem Wagen nach Bonn gefahren”, gesprochen von einem m¨annlichen Erwachsenen. 2.2 Schmalband-Sonagramm Bei einem Schmalband-Sonagramm ist der betrachtete Signalabschnitt > 40 ms lang. Im Schmalband-Sonagramm k¨onnen noch Frequenzen, die nur um 25 Hz auseinander liegen, unterschieden werden, d. h. die Frequenzaufl¨osung ist hoch. Die zeitliche Aufl¨osung dagegen ist wegen der langen betrachteten Signalabschnitte niedrig - nahe beieinanderliegende Schallereignisse, z. B. das L¨osen eines Verschlusses, werden nicht abgebildet. Beispiel Abb. 35 zeigt das Wort ‘Wagen’ aus dem Beispielsatz. Oben ist das Oszillogramm abgebildet, in der Mitte das Breitband- und unten das Schmalband-Sonagramm. Im Breitband-Sonagramm erkennt man einige deutlich ausgepr¨agte horizontale Schw¨arzungen mit einer regelm¨aßigen vertikalen Gliederung, die mit den Ausschl¨agen im Oszillogramm ¨ ubereinstimmt. Im Schmalband-Sonagramm sind die horizontalen Streifen sehr viel schmaler und deutlicher voneinander abgesetzt, daf¨ ur ist die vertikale Struktur verschwunden. 68 Sprachsignale am Computer Die horizontalen Streifen geben den Anteil der jeweiligen Frequenz an - im Breitband-Sonagramm verschmelzen erster und zweiter Formant fast, im Schmalband-Sonagramm sind sie deutlicher getrennt. Die vertikalen Muster zeigen die Schwingungen der Glottis: sind die Stimmlippen geschlossen, ist der Luftstrom unterbrochen und im Oszillogramm ist nur ein geringer Ausschlag zu sehen, im Sonagramm ein heller vertikaler Strich. Sobald wieder Luft str¨omt, schl¨agt das Oszillogramm aus, und im Sonagramm werden die Formanten der Schwingung sichtbar. 0 1000 2000 3000 4000 5000 0 1000 2000 3000 4000 5000 Abbildung 35. Oszillogramm (oben), Breitband- (Mitte) und Schmalband- Sonagramm (unten) am Beispiel des Wortes ‘Wagen’. Im Sonagramm kann man einzelne Laute anhand ihrer charakteristischen Muster identifizieren. Das Sonagramm ist daher die Grundlage der phonetischen Transkription [Mac95, RRK + 07]. Sprachsignale am Computer 69 Beispiel Im Beispielsatz kommen die in Tab. 3 aufgef¨ uhrten Phoneme vor. Plosive / b/ , / d/ , / g/ , / P/ Frikative / ç/ , / x/ , / v/ , / f/ Nasale / n/ , / m/ Vokale / a: / , / e/ , / I/ , / O/ , / @/ Tabelle 3. Realisierte Phoneme des Beispielsatzes “Ich bin mit dem Wagen nach Bonn gefahren.”. Abb. 36 zeigt jeweils ca. 65 ms lange Signalabschnitte aus dem Beispielsatz aus den Phonemen / I/ , / b/ , / n/ und / f/ . Das Breitband- Sonagramm zeigt Frequenzen zwischen 0 und 5000 Hz. In den beiden linken Diagrammen sind im Oszillogramm Schwingungen mit einer Periodendauer von etwas unter 10 ms zu sehen, d. h. die Grundfrequenz des Sprechers betr¨agt etwas ¨ uber 100 Hz. Oben links sind das Oszillogramm und das Breitband-Sonagramm des ersten / I/ -Vokals im Satz zu sehen. Der erste Formant ist deutlich sichtbar, er liegt bei knapp unter 500 Hz. Zweiter und dritter Formant sind nur recht undeutlich zu sehen - sie liegen im Bereich von 2000 bis 3000 Hz (Tab. 2). Oben rechts ist das / b/ , ein stimmhafter Plosiv. W¨ahrend der Verschlussphase ist das Signal sehr schwach, denn die geschlossenen Lippen d¨ampfen sehr stark. Das Sonagramm zeigt nur eine blasse Schw¨arzung in den niedrigen Frequenzen. Sobald der Verschluss gel¨ost ist, steigt das Signal sprunghaft an und es bilden sich harmonische Strukturen im Sonagramm. Das / n/ unten links zeigt ein sehr konstantes Oszillogramm mit klaren, aber schwachen Formantstrukturen. Sehr deutlich sind auch die Glottis-Impulse zu erkennen. Beim stimmlosen Frikativ / f/ ist der Anteil von Frequenzen unterhalb von ca. 1000 Hz sehr gering, dar¨ uber stark. Im Sonagramm sind keine weiteren Strukturen zu erkennen. 3 Weitere Signalarten Oszillogramm und Sonagramm sind nur zwei Darstellungen des akustischen Sprachsignals. Dar¨ uber hinaus gibt es eine Vielzahl weiterer Signalarten. Diese lassen sich grob unterteilen in Sensor- und in Bilddaten. 70 Sprachsignale am Computer 0 1000 2000 3000 4000 5000 / I / / b / 0 1000 2000 3000 4000 5000 / n / / f / Abbildung 36. Oszillogramme und Breitband-Sonagramme von jeweils ca. 65 ms langen Signalabschnitten der Phoneme / I/ , / b/ , / n/ und / f/ aus dem Beispielsatz. Bildgebende Verfahren liefern eine graphische Darstellung, und erst die Interpretation dieser Bilddaten ergibt Messwerte. Der Aufwand zur Messung dieser Signaldaten ist teilweise enorm hoch, in manchen F¨allen, wie z. B. bei R¨ontgenaufnahmen, sogar gesundheitssch¨adlich. Daher ist es sinnvoll, diese Daten nur dann zu erheben, wenn es notwendig ist, und sie in Form von Sprachdatenbanken dauerhaft verf¨ ugbar zu machen. 3.1 Sensordaten Als Sensordaten bezeichnet man Messdaten, meist in nummerischer Form, die mit den menschlichen Sinnen nicht direkt erfasst werden k¨onnen, f¨ ur die also technische Messger¨ate notwendig sind. Zur Dar- Sprachsignale am Computer 71 stellung werden sie geeignet visualisiert, z. B. als Kurven, Matrizen oder Diagramme. Die Datenrate von Sensordaten berechnet sich aus der Anzahl Messkan¨ale, der Samplerate und der Quantisierung. 3.1.1 Laryngographie Bei der Laryngographie zeichnen Elektroden auf der Haut ¨ uber dem Kehlkopf die Bewegungen der Stimmlippen auf. Damit l¨asst sich der Beginn der Schwingungen der Stimmlippen exakt bestimmen, so dass stimmhafte Signalabschnitte exakt von stimmlosen unterschieden oder auch St¨orungen in der Artikulation erkannt werden k¨onnen. Abbildung 37. Oszillogramm und Laryngographensignal der ¨ Außerung / p a t a x/ . Die stimmlosen Plosive / p/ und / t/ und der stimmlose Frikativ / x/ sind im Oszillogramm deutlich zu erkennen, im Laryngogramm nicht. Die beiden / a/ -Vokale sind, da sie stimmhaft sind, als synchrone Schwingungen sowohl im Oszillogramm als auch im Laryngogramm zu sehen. Aufgenommen wird meist mit einem Elektrodenpaar, d. h. einem Aufnahmekanal, und mit derselben Samplerate und Quantisierung wie Audiosignale, d. h. mit mindestens 16 Bit bei 16 kHz. Damit k¨onnen Laryngogramme gemeinsam mit den Audiodaten in einer einfachen Signaldatei gespeichert und ohne weitere Umrechnung parallel zu Oszillogramm und Sonagramm angezeigt werden (Abb. 37). 72 Sprachsignale am Computer 3.1.2 Elektropalatographie (EPG) Bei der Elektropalatographie zeichnen in einer Matrix angeordnete Sensoren in einem k¨ unstlichen Gaumen die Koordinaten eines Zungenkontakts am Gaumen auf. Damit k¨onnen die Artikulation von Lauten, insbesondere von Konsonanten mit einer Engebildung durch die Zunge, untersucht und Abweichungen von ‘normalen’ Kontaktmustern erkannt werden. Die Samplerate der EPG betr¨agt mindestens 100 Hz, die Quantisierung h¨angt ab von der Anzahl Sensoren - ¨ ublich sind bei 62 Elektroden 64 Bit (Abb. 38). Abbildung 38. K¨ unstlicher Gaumen mit 62 Elektroden f¨ ur die Elektropalatographie (aus [GC01]). Elektropalatogramme werden entweder zweidimensional als einzelne Matrix oder als Folge von EPG-Matrizen dargestellt, oder es wird eine dreidimensionale Modellierung erstellt. In den EPG-Matrizen ist die Mund¨offnung oben, der Kontakt der Zunge mit dem Gaumen ist schwarz gekennzeichnet, weiße Stellen markieren die Elektrodenpunkte (Abb. 39 a)). EPG Folgen und die 3-D Modellierung k¨onnen animiert werden (Abb. 39b) 2 ). 3.1.3 Elektromagnetische Artikulographie (EMA) Bei der elektromagnetischen Artikulographie bewegen sich auf den Artikulationsorganen aufgebrachte Sensoren in einem Magnetfeld. 2D- EMA erfasst die Bewegung in einer Ebene, 3D-EMA die Bewegung im Raum. 2 Der Autor dieser Animationen ist leider unbekannt. Sprachsignale am Computer 73 a) b) Abbildung 39. a) Elektropalatogramm des / s/ in der ¨ Außerung / a s a/ und b) 3D-Animation von EPG-Daten. Der Artikulograph besteht aus einem durchsichtigen Kunststoffger¨ ust, in dem fest installierte Spulen ein Magnetfeld erzeugen. Die Versuchsperson sitzt aufrecht in diesem Ger¨ ust und sie kann den Kopf frei bewegen. Die Sensoren sind auf die Artikulationsorgane der Versuchsperson geklebt (Abb. 40). a) b) Abbildung 40. a) Ansicht des 3D-EMA Artikulographen am IPS und b) Position der Sensoren auf der Zunge. Abb. 41 zeigt zwei einzelne Zungenkonturen bei der Artikulation des Wortes ‘tote’. Die obere Linie ist der harte Gaumen, links ist die Mund¨offnung. Die untere, eckige Kontur ist eine Zungenkontur f¨ ur eine lang gehaltene Artikulation des Phonems / o: / . Wie aus dem IPA Klassifikationsschema ersichtlich, ist die Zungenposition hinten und die Zungenh¨ohe ist mittel. Diese Kontur ist nur zu Vergleichszwecken ein- 74 Sprachsignale am Computer geblendet. Die Kreise in der Mitte geben die Position der Messspulen auf der Zunge an, sie sind paarweise durch eine Linie verbunden. Die einzelnen Konturen sind Realisierungen der Phoneme / t/ und / o/ . Es ist deutlich zu erkennen, dass die Zunge beim [o] sich zwar vom Gaumen entfernt, aber nie so weit wie bei einem gehaltenen / o/ . Die Spule links ber¨ uhrt auch beim / t/ den Gaumen nie - das liegt daran, dass sie sich nicht direkt an der Zungenspitze befindet, sondern etwas weiter hinten auf dem Zungenr¨ ucken. Abbildung 41. Folge von EMA-Zungenkonturen f¨ ur die Phoneme / t/ und / o/ in der ¨ Außerung ‘tote’. EMA wird vorwiegend in der phonetischen Grundlagenforschung zur Visualisierung der Artikulationsbewegungen eingesetzt. Sie hat gegen¨ uber anderen Verfahren einige Vorteile: die einzelnen Messpunkte k¨onnen mit hoher zeitlicher und r¨aumlicher Aufl¨osung gemessen werden, und aus diesen Messpunkten k¨onnen automatisch Geschwindigkeiten und Beschleunigungen, z. B. der Zungenspitze, berechnet werden. Außerdem kann die Versuchsperson aufrecht sitzen und ihren Kopf beim Sprechen frei bewegen - dies ist bei Verfahren wie MRI oder Ultraschall nicht der Fall. EMA ist nicht-invasiv und liefert sofort digitale Daten, im Gegensatz zu anderen Verfahren, bei denen diese erst abgeleitet werden m¨ ussen. EMA-Ger¨ate tasten mit einer Samplerate von 200 Hz und mit einer Quantisierung von 16 Bit ab und haben eine Messgenauigkeit im Bereich von Zehntelmillimetern. Aufgenommen werden in der Regel mindestens acht Sensorkan¨ale plus zwei Audio- und ein Videokanal. 3.2 Bildgebende Verfahren Bei bildgebenden Verfahren ist das Ergebnis eines Messvorgangs ein statisches zweidimensionales Bild oder eine dynamische Folge von Ein- Sprachsignale am Computer 75 zelbildern, ein Film. Die Auswertung der Bilder oder Bildfolgen erfolgt entweder visuell durch Experten, oder halb- oder vollautomatisch durch geeignete Bild- und Filmanalyse-Programme. Bei halbautomatischer Auswertung werden manuell relevante Bildausschnitte bestimmt, z. B. St¨ utzpunkte der Zungenkontur im Ultraschall, und der Computer erg¨anzt die fehlenden Punkte der Kontur. Vollautomatische Verfahren kommen ohne manuelle Interaktion aus, allerdings sind sie nur f¨ ur sehr wenige Untersuchungen verf¨ ugbar. Bei den Videoverfahren fallen zum Teil erhebliche Datenmengen an. Zur Reduktion der Datenmenge wird daher fast immer verlustbehaftete Datenkompression verwendet (vgl. Kapitel 5 Abschnitt 4.2). 3.2.1 Laryngoskopie Mit Laryngoskopie bezeichnet man optische Aufnahmen der Stimmlippen im Kehlkopf. Damit lassen sich m¨ogliche Deformationen der Stimmlippen erkennen und die komplexen Bewegungen der Stimmlippen beobachten. Zu diesem Zweck wird eine flexible optische Sonde durch den Nasenraum in die Luftr¨ohre oberhalb des Kehlkopfes eingef¨ uhrt. An diese Sonde ist eine Videokamera angeschlossen. Je nach Sprechweise ver¨andern die Stimmlippen ihre Bewegung. Abb. 42 zeigt das reißverschlussartige ¨ Offnen und Schließen der Stimmlippen bei normalem Sprechen; beim Fl¨ ustern schwingen die Stimmlippen auch bei normalerweise stimmhaften Lauten nicht, sondern sie sind bis auf eine kleine ¨ Offnung am im Bild oberen Ende geschlossen. Um die schnellen Schwingungen der Stimmlippen aufnehmen zu k¨onnen, sind Hochgeschwindigkeits-Videokameras mit Bildraten von 200 Bildern pro Sekunde und mehr notwendig. Die Samplerate von Laryngoskopie-Aufnahmen betr¨agt daher 200 Hz und mehr, die Bildgr¨oße ist 320x240 Pixel mit 8 Bit (schwarz/ weiß) bzw. 24 Bit (Farbe) Quantisierung pro Pixel. 3.2.2 Ultraschall Weiches und hartes K¨orpergewebe sowie Luft reflektieren Schall unterschiedlich. Dies wird beim Ultraschall-Verfahren - in der Medizin auch Sonographie genannt - ausgenutzt, um die Bewegungen der Zunge bei der Artikulation von außen zu beobachten. Hierbei sendet eine an der Haut aufliegende Sonde Schallwellen im Bereich von 2-8 MHz aus und misst die Reflexionen im Gewebe [Sto04]. Aus diesen Daten werden Einzelbilder berechnet, die zu einem Film zusammengef¨ ugt werden. 76 Sprachsignale am Computer Abbildung 42. Folge von Laryngoskopie-Einzelbildern mit normalen Bewegungen der Stimmlippen (aus [Deu04]). Zur besseren Erkennung werden h¨aufig Hilfslinien eingeblendet, z. B. der Gaumen oder die Zungenoberfl¨ache. In Ultraschallaufnahmen erscheinen Grenzfl¨achen, die senkrecht zur Ausbreitungsrichtung der Ultraschallwellen stehen, am deutlichsten, solche in Ausbreitungsrichtung kaum oder gar nicht. Das bedeutet, dass nur bestimmte Positionen des Sensors sinnvoll sind, und dass der Kopf der Versuchsperson w¨ahrend der Aufnahme fixiert sein muss. Außerdem k¨onnen n¨aher am Sensor liegende Grenzfl¨achen weiter entfernte verdecken. So sind bei der ¨ ublichen Position der Sonde im ¨ Ubergang vom Kinn zum Hals die Zungenspitze und die Zungenbasis kaum zu erkennen. Die Samplerate von Ultraschall-Aufnahmen betr¨agt 30 Hz und mehr, die Bildgr¨oße ist 640x480 Pixel, die Quantisierung 8 Bit pro Pixel. 3.2.3 Magnetresonanz-Aufnahmen Beim Magnetresonanzverfahren (MRI von engl. magnet resonance imaging) werden, angeregt durch ein starkes Magnetfeld, die Ver¨anderungen Sprachsignale am Computer 77 Abbildung 43. Ultraschallaufnahme der Zungenbewegung. Die Zungenkontur ist durch die helle Linie deutlich sichtbar. Unten links ist die Sensorposition eingeblendet, unten rechts das Oszillogramm der ¨ Außerung (aus [Sto04]). im Spin der Elektronen im K¨orpergewebe gemessen. Mit MRI l¨asst sich besonders das weiche Gewebe gut abbilden und vor allem von Hohlr¨aumen abgrenzen. MRI ist neben R¨ontgenfilmen das einzige Verfahren, das eine direkte Beobachtung des gesamten Vokaltrakts erlaubt. Bei MRI Aufnahmen liegt der Sprecher im Magnetresonanz-Tomographen auf einer beweglichen Unterlage, die sich schrittweise am Sensor vorbei bewegt. Pro Schritt wird eine Messung vorgenommen und daraus ein Schnittbild berechnet. Aus diesen Schnittbildern kann anschließend ein Film oder ein dreidimensional animiertes Modell berechnet werden. ¨ Ublich sind sagittale, frontale oder koronale Schnittbilder, d. h. man blickt von der Seite, von vorne oder von oben auf den Probanden [BGBN87, NAH95]. Die r¨aumliche Aufl¨osung von MRI liegt im Bereich von 1-2,5 Millimetern. Die zeitliche Aufl¨osung hat sich durch Verbesserungen der Technologie von 0,3 Frames/ s auf ca. 10 Frames/ s verbessert [DMS00, NNL + 04]. Durch neuentwickelte Analysealgorithmen kann eine virtuelle Aufl¨osung von bis zu 25 Frames/ s erzielt werden, die zur Erfassung 78 Sprachsignale am Computer der relativ langsamen Bewegungen der Lippen, der Zungenmitte und des Velums ausreichend ist (Abb. 44). Abbildung 44. MRI mitt-sagittale Schnitte des Sprechers MI bei den zwei stimmlosen Frikativen / f/ und / s/ im Amerikanischen Englisch (aus [NAH95]). MRI wird vorwiegend in der medizinischen Diagnostik und der phonetischen Grundlagenforschung eingesetzt. Die Aufnahmen sind f¨ ur die Versuchsperson ziemlich belastend, da sie in einer engen R¨ohre liegen muss, in der es zudem sehr laut ist. Die Lage auf dem R¨ ucken kann die Bewegungen der Artikulationsorgane beeinflussen, und wegen des lauten Ger¨auschs sind Audioaufnahmen kaum m¨oglich. MRI-Aufnahmen k¨onnen in der Regel nur an entsprechend ausger¨ usteten Kliniken und unter ¨arztlicher Aufsicht durchgef¨ uhrt werden. 3.2.4 R¨ontgen R¨ontgenstrahlen sind elektromagnetische Wellen mit Wellenl¨angen im Bereich von 10 −8 bis 10 −12 m. R¨ontgenstrahlung wird von Knochen und Gewebe unterschiedlich stark absorbiert, so dass ihre Umrisse abgebildet werden k¨onnen (Abb. 1). Mit Kontrastmittel auf der Oberfl¨ache der Organe oder in den Blutgef¨aßen k¨onnen diese deutlich hervorgehoben werden. R¨ontgenfilme machen die Bewegungen der Zunge und des Kehlkopfes beim Sprechen sichtbar. Die r¨aumliche Aufl¨osung betr¨agt wenige Millimeter, wobei genaue Messungen wegen der ¨ Uberlagerung von Knochen und Gewebe schwierig sind - insbesondere Zahnf¨ ullungen verdecken h¨aufig die Zunge. Mit Hochgeschwindigkeitskameras sind Bildra- Sprachsignale am Computer 79 ten von mehr als 30 Bildern pro Sekunde m¨oglich, so dass auch die schnelle Bewegung der Zungenspitze erfasst werden kann. Mit X-Ray Microbeam wurde ein Verfahren speziell zur Erfassung der Zungenbewegungen entwickelt [Per69]. Dabei wurden kleine Markerkugeln auf die Zunge geklebt, die dann vom R¨ontgenstrahl verfolgt wurden. Außerdem wurde ein pulsierender R¨ontgenstrahl verwendet, der die Strahlenbelastung deutlich verringerte. R¨ontgenaufnahmen sind stark gesundheitssch¨adlich. Sie werden daher nur noch in der medizinischen Diagnostik eingesetzt, z. B. zur Planung oder Nachsorge von Operationen, und auch nur, wenn es keine Alternativen gibt. In der phonetischen Forschung haben die Artikulographie sowie die MRI-Technik R¨ontgenbilder und -filme weitgehend ersetzt. Es existieren noch eine Reihe historischer R¨ontgenfilme aus den 50er bis 70er Jahren mit Aufnahmen von artikulierenden Personen. Um diese Aufnahmen f¨ ur die phonetische Forschung weiterhin nutzen zu k¨onnen, wurden sie in Sprachdatenbanken zusammengefasst und verf¨ ugbar gemacht [MVBT95, ABB + 00] (vgl. auch Abb. 1 in der Einleitung). 80 Sprachsignale am Computer 4 Aufgaben 1. Was zeigt das Oszillogramm einer ¨ Außerung? 2. Was zeigt ein Sonagramm einer ¨ Außerung? 3. Was ist der grundlegende Unterschied zwischen einem Schmalband- und einem Breitband-Sonagramm? Was erkennt man im vertikalen Muster im Breitband-Sonagramm? 4. Wie hoch ist die h¨ochste Frequenz, die ein Sonagramm einer mit 16 kHz gesampelten ¨ Außerung darstellen kann? 5. In welchen Signalabschnitten treten deutlich sichtbare und recht klar abgegrenzte Schw¨arzungen im Sonagramm auf? Was stellen diese Schw¨arzungen dar? 6. Charakterisieren Sie a) stimmlose Plosive, b) stimmhafte Frikative im Sonagramm. 7. Welche Laute kann man mit einem Elektropalatographen gut, welche nicht gut erkennen? Warum? 8. Was misst man in der elektromagnetischen Artikulographie? 9. Warum erkennt man im Laryngographensignal in Abb. 37 weder den Frikativ / x/ noch den Plosiv / p/ ? Signaldaten Ein Computer speichert Daten in Dateien. Diese Dateien haben, je nach Datenart, unterschiedliche Dateiformate und damit verbundene Eigenschaften. Sie unterscheiden sich nach der Art des Zugriffs, der maximalen Dateigr¨oße, der internen Struktur der Datei usw. Das Dateisystem ist das Bindeglied zwischen den Speichermedien und dem Betriebssystem des Computers; es bildet die logische Struktur einer Datei auf die physikalischen Gegebenheiten ab, z. B. auf die Speicheradressen des Hauptspeichers, auf Platten, Spuren und Bl¨ocke einer Festplatte, oder auf eine Folge von Bl¨ocken auf CD oder DVD. Das Dateisystem h¨angt vom Betriebssystem, dem verwendeten Speichermedium und dem Stand der Technologie ab. Fr¨ uhe PC-Betriebssysteme kannten z. B. nur einen Benutzer, und ihre Dateisysteme haben daher keine Information ¨ uber Zugriffsberechtigungen speichern m¨ ussen. Heutige Betriebssysteme dagegen unterscheiden verschiedene Benutzer mit unterschiedlichen Zugriffsrechten. Das Dateisystem muss daher f¨ ur jede Datei die Zugriffsberechtigungen verwalten. Alte Dateisysteme sind h¨aufig f¨ ur neue Speichermedien nicht geeignet, z. B. aufgrund von Beschr¨ankungen des maximal adressierbaren Speicherbereichs. All dies hat zu einer Vielzahl von Dateisystemen gef¨ uhrt. Die meisten Betriebssysteme k¨onnen von Haus aus mit verschiedenen Dateisystemen umgehen oder durch Systemerweiterungen an neue Dateisysteme angepasst werden. Die Dateisysteme optischer Wechselmedien sind von Anfang an f¨ ur den Einsatz auf m¨oglichst vielen Plattformen entwickelt worden, so dass sie sich hervorragend f¨ ur die Archivierung und den Austausch großer Datenbest¨ande eignen. 1 Dateiformate f¨ ur Signaldaten Die Speicherung von Signaldaten auf dem Computer erfolgt in sogenannten Bin¨ardateien, d. h. Dateien, die die Signalwerte als bin¨ar kodierte Zahlenwerte enthalten. Es gibt zwei große Klassen solcher Dateien: reine Bin¨ardateien, die nur Signaldaten enthalten, und gemischte Dateien, die aus beschreibenden Daten und Signaldaten bestehen. Gemischte Dateien sind entweder linear, d. h. sie haben einen Kopf (engl. header) mit einer Beschreibung der Signaldaten und einen Rumpf 82 Signaldaten (engl. body) mit den eigentlichen Signaldaten, oder sie sind hierarchisch strukturiert, d. h. die Datei enth¨alt mehrere miteinander verkn¨ upfte Spuren (engl. tracks), mit je eigenem Kopf und Rumpf (Abb. 45). Es ist auch m¨oglich, dass eine hierarchisch strukturierte Bin¨ardatei auf externe Daten, d. h. in anderen Bin¨ardateien gespeicherte Daten, verweist. a) S b) S B c) B B B S S S S B B B B Abbildung 45. a) reine Bin¨ardatei, b) gemischte lineare Bin¨ardatei, c) gemischte hierarchische Bin¨ardatei (B = beschreibende Daten, S = Signaldaten). Hierarchische Bin¨ardateien erlauben ¨ uber die Verweise einen direkten Zugriffauf die einzelnen Spuren, und es ist zudem m¨oglich, dass die einzelnen Spuren verschiedene Signaldaten enthalten, z. B. Audio-, Video- und Sensordaten. Damit ist dieses Dateiformat sehr flexibel. Einige Speichermedien speichern ihre Daten strikt sequentiell, d. h. blockweise hintereinander. Auch bei der Daten¨ ubertragung, z. B. ¨ uber das Internet, werden die Daten sequentiell ¨ ubertragen. Das bedeutet f¨ ur hierarchische Dateiformate, dass einzelne Spuren schon vollst¨andig gespeichert bzw. ¨ ubertragen sind, andere dagegen erst teilweise oder noch gar nicht. Eine synchrone Wiedergabe mehrerer Datenspuren, z. B. das Abspielen einer Audio- und einer Videospur, kann bei diesen Dateiformaten problematisch sein. Um die synchrone Wiedergabe zu gew¨ahrleisten, m¨ ussen daher die entsprechenden Spuren der Datei vor der Wiedergabe in einen Datenpuffer im Hauptspeicher des Rechners geladen werden. Um auch auf sequentiellen Speichermedien oder bei langsamer Daten¨ ubertragung eine synchrone Wiedergabe von Signaldaten zu erm¨oglichen, werden sogenannte Datenstromformate (engl. streaming formats) verwendet. Bei diesen Dateiformaten sind kurze Datenbl¨ocke der Signaldaten 83 verschiedenen Signaldaten abwechselnd linear angeordnet - man nennt dieses Verfahren interleaving (Abb. 46). Der Computer liest jeweils einige aufeinanderfolgende Datenbl¨ocke in einen Puffer ein und gibt sie von dort synchronisiert aus. A V V A V V A V V Abbildung 46. Datenstromdatei bestehend aus einer blockweisen Anordnung von je einem Audio- und zwei Videodatenbl¨ocken. Generell ist festzuhalten, dass es zwar sehr viele verschiedene Signaldateiformate gibt, und dass ihr interner Aufbau komplex sein kann. Allerdings benutzt man in der Regel spezielle Software wie Wiedergabe-, Aufnahme- oder Annotationsprogramme, um auf die Signaldaten zuzugreifen, so dass man sich um den genauen Aufbau der Dateien nicht k¨ ummern muss. Es ist viel wichtiger, den prinzipiellen Unterschied zwischen den Signaldateiformaten zu kennen, um zu wissen, welche M¨oglichkeiten ein Format gegen¨ uber einem anderen bietet. Wenn man selbst Software zum Verarbeiten von Signaldateien entwickelt, dann ist die genaue Kenntnis der Dateistruktur von Signaldateien unumg¨anglich. Hierzu gibt es umfangreiche Programmbibliotheken, die f¨ ur viele Aufgaben vorgefertigte Programmfragmente bereitstellen. Es ist unbedingt empfehlenswert, diese auch zu nutzen. Beispiel Die Programmiersprache Java hat eine Programmbibliothek f¨ ur Audiodaten. Diese befindet sich im Paket javax.sound.sampled, das Bestandteil des Java Development Kits ist. In diesem Paket sind Klassen f¨ ur Audiokan¨ale, Mixer und eine Vielzahl von Audioformaten enthalten, mit denen das Aufnehmen, Abspielen und Verarbeiten von Audiodaten in Java m¨oglich ist. F¨ ur die Skriptsprache perl listet das Comprehensive Perl Archive Network (CPAN) ¨ uber 40 Software-Pakete zur Audioverarbeitung in Perl auf. C und C++ sind die ‘klassischen’ Programmiersprachen f¨ ur die Implementation von Signalverarbeitung. Auch hier gibt es eine Vielzahl von Programmbibliotheken f¨ ur die Audioverarbeitung, bis hin zum Hidden Markov Toolkit (HTK), einer Programmbibliothek f¨ ur die Entwicklung von Spracherkennungssystemen. 84 Signaldaten 1.1 Containerformate Containerformate speichern verschiedene Datenarten in unterschiedlichen Kodierungen. Es sind hierarchische Dateiformate, bei denen im Kopf der jeweiligen Spur die Datenart, die Kodierung sowie weitere, zur Bearbeitung der Daten notwendige Parameter angegeben sind. Containerformate werden haupts¨achlich f¨ ur Multimediadaten verwendet. Bekannte Containerformate sind AVI Audio Video Interleave f¨ ur Windows, QuickTime f¨ ur Windows und Macintosh oder das Plattform-unabh¨angige MPEG-4. Diese Formate werden laufend weiterentwickelt und z. B. um neue Kodier- oder Kompressionsverfahren erweitert. Der Vorteil von Containerformaten ist, dass verschiedene Datenarten in einer Datei gespeichert werden, und dass in der Regel eine Vielzahl an Editoren zum Bearbeiten und Anzeigen dieser Dateien existieren. Die Flexibilit¨at dieser Formate ist jedoch auch ein Nachteil, weil die zur Bearbeitung oder zum Betrachten notwendige Software laufend aktualisiert werden muss, um Inkompatibilit¨aten zu vermeiden. Diese Aktualisierung erfordert in der Regel Administratorrechte und muss auf jedem Rechner, auf dem diese Formate bearbeitet werden sollen, durchgef¨ uhrt werden. Desweiteren stehen selbst bei Plattformunabh¨angigen Containerformaten nicht alle Codecs (vgl. Abschnitt 2.2) f¨ ur jede Plattformen zur Verf¨ ugung. 1.2 Austauschformate Die meisten Programme zur Signalverarbeitung verf¨ ugen auch ¨ uber die M¨oglichkeit des Datenimports und -exports, so dass ein Datenaustausch mit anderen Programmen m¨oglich wird. Diese Austauschformate ben¨otigen meist deutlich mehr Speicherplatz als spezialisierte Dateiformate, daf¨ ur k¨onnen sie von vielen verschiedenen Programmen verarbeitet werden. Ein typisches Austauschformat sind reine Text- oder XML-Dateien (vgl. Kapitel 6 Abschnitt 6). Hier werden die Signalwerte nicht bin¨ar kodiert, sondern explizit als nummerische Zeichenketten dargestellt - z. B. die Zahl 127 als Zeichenkette aus den drei Ziffern ‘1’, ‘2’ und ‘7’, getrennt von anderen Signalwerten durch ein Leerzeichen oder ein Tabulatorzeichen. 1.3 Erkennung von Dateiformaten Die Vielzahl verschiedener, meist zueinander inkompatibler Bin¨ardateiformate macht es notwendig, diese Formate eﬃzient und sicher erken- Signaldaten 85 nen zu k¨onnen. Dazu haben sich drei Verfahren herausgebildet: Kodierung des Formats in der Dateiextension, interne und externe Kennzeichnung. 1.3.1 Dateiextensionen Mit Extension bezeichnet man die Zeichen im Dateinamen nach dem letzten Punkt, also z. B. .doc, .wav oder .mov f¨ ur Microsoft Word-, Wave Audio- oder QuickTime Videodateien. Dateiextensionen wurden urspr¨ unglich als Hinweis f¨ ur den Computernutzer eingef¨ uhrt. In modernen, grafischen Benutzeroberfl¨achen werden die Dateiextensionen bestimmten Anwendungsprogrammen und Bildschirmsymbolen zugeordnet, so dass ein Doppelklick auf diese Symbole die Datei mit dem dazugeh¨origen Anwendungsprogramm ¨offnet (Abb. 47). Kuvert_C4.pdf Abbildung 47. Darstellung unterschiedlicher Dateitypen anhand der Dateiextension. Dateiextensionen sind ein sehr einfacher und f¨ ur den Menschen recht ¨ ubersichtlicher Mechanismus zur Kodierung des Dateiformats. Dateiextensionen haben jedoch gravierende Nachteile: ihre L¨ange war urspr¨ unglich auf drei Zeichen beschr¨ankt - diese Beschr¨ankung gilt auch heute noch f¨ ur einige Speichermedien, z. B. CD-ROM mit ISO 9660 Dateisystem. 1 Viele Dateiextensionen sind nicht eindeutig, z. B. .pl f¨ ur perl- oder Prologprogramme, man kann sie aus Versehen ¨andern und damit die 1 Diese L¨angenbeschr¨ankung gilt theoretisch nicht mehr. Wenn aber die theoretische M¨oglichkeit besteht, dass die Daten auf CD gespeichert werden sollen, dann sollte man Extensionen mit mehr als drei Zeichen nicht verwenden. Damit ist die Anzahl m¨oglicher Dateiextensionen recht klein. 86 Signaldaten Zuordnung zu den passenden Anwendungsprogrammen verlieren, und sie sind abh¨angig vom Betriebssystem. 1.3.2 Interne Kennzeichnung F¨ ur die interne Kennzeichnung des Dateiformats werden meist die ersten vier Byte der Datei verwendet. Diese vier Byte enthalten, als Buchstaben in 8-Bit Kodierung interpretiert, eine Zeichenkette, die das Dateiformat kodiert (das Verfahren wird auch FOURCC von engl. four character codes genannt). Beispiele daf¨ ur sind .snd oder RIFF in Abb. 48. Interpretiert man diese vier Byte als ganze Zahl, dann kann man damit 2 32 , d. h. mehr als 2 Milliarden Werte unterscheiden - diese magic number findet man in vielen Spezifikationen von Dateiformaten. Die Verwendung einer Magic Number ist f¨ ur die maschinelle Erkennung von Dateiformaten gut geeignet. Sie belegt wenig Speicherplatz und wird nur von Anwendungsprogrammen gelesen bzw. geschrieben, d. h. sie kann nicht aus Versehen ver¨andert werden. 1.3.3 Externe Kennzeichnung Die externe Kennzeichnung des Dateiformats in Metadaten basiert meist auf dem MIME Standard (engl. multipurpose Internet mail extensions). Ein MIME-Type besteht aus einem Tupel aus Ober- und Untertyp (engl. content-type und subtype) und optionaler Angabe zur Beschreibung des Dateiinhalts, z. B. text/ html; charset=utf-8. Der hierarchische Aufbau und die unbeschr¨ankte L¨ange der Bezeichnungen von MIME-Types sowie die Angabe der Kodierung machen das Verfahren eﬃzient und erweiterbar. Listen der bereits vergebenen Bezeichnungen f¨ ur Ober- und Untertypen sind bei den Standardisierungsgremien f¨ ur das Internet verf¨ ugbar, und die meisten Web-Browser bieten die M¨oglichkeit, die Zuordnung von MIME-Types zu Programmaufrufen manuell einzustellen. Keines der Verfahren zur Erkennung des Dateiinhalts oder -formats ist eindeutig und sicher! In der Regel untersucht man eine unbekannte Datei mit allen drei Verfahren und kann sich, wenn die Ergebnisse ¨ ubereinstimmen, recht sicher sein, dass die Datei tats¨achlich in diesem Format vorliegt. Bei widerspr¨ uchlichen Ergebnissen sollte ein Anwendungsprogramm eine Datei entweder gar nicht ¨offnen, oder erst nach einem Warnhinweis an den Benutzer. Manche Programme erlauben jedoch das ¨ Offnen jeder beliebigen Datei, was zu unerwarteten Ergebnissen f¨ uhren kann - unleserliche Zeichen auf dem Bildschirm, verzerrtes Audio, u. ¨a. Signaldaten 87 1.4 Speichermedien Speichermedien werden nach Gr¨oße, Zugriffsart, Geschwindigkeit und Technologie klassifiziert. Diese Eigenschaften sind teilweise voneinander abh¨angig. Die Speicherkapazit¨at eines Speichermediums wird in Byte, d. h. Vielfachen von 8 Bit, angegeben. Die Zugriffist entweder wahlfrei (engl. random access) oder sequentiell, und er erfolgt meist blockweise. Ein Block fasst einen bestimmten Speicherbereich zu einer organisatorischen Einheit zusammen. Bei wahlfreiem Zugrifferfolgt der Zugriffunabh¨angig von vorangegangenen Zugriffen, bei sequentiellem Zugriffmuss eine bestimmte Reihenfolge eingehalten werden. Die Zugriffsart bestimmt im Wesentlichen die Geschwindigkeit des Speichermediums, die als Datenrate in Byte/ s angegeben wird. Als Speichertechnologie werden magnetische, optische oder Halbleiterspeicher verwendet. Magnetische und optische Speicher behalten ihren Inhalt auch ohne Stromzufuhr, bei Halbleiterspeichern ist dies bei Speicherkarten und Solid State Drives der Fall. Andere Halbleiterspeicher, vor allem der Hauptspeicher, sind fl¨ uchtig, d. h. ihr Inhalt geht ohne Stromzufuhr verloren. Es gibt optische Medien, die man nur einmal, und solche, die man mehrfach beschreiben kann. Erstere sind f¨ ur Archivzwecke sehr gut geeignet, da einmal geschriebene Daten nicht mehr ver¨andert oder gel¨oscht werden k¨onnen. F¨ ur die Zuverl¨assigkeit gibt es mehrere Maße: die Bitfehlerrate (engl. bit error rate, BER) ist das Verh¨altnis von fehlerhaften Bits zu einer gegebenen Speichergr¨oße, z. B. 10 −6 Bit/ MB. Bei mechanischen Ger¨aten mit fest eingebauten Speichermedien kommt die Angabe einer durchschnittlichen Betriebszeit MTBF oder MTTF f¨ ur das Ger¨at hinzu (engl. mean time between failures bzw. mean time to failure). Diese Angaben sind statistische Werte, die nichts ¨ uber die Zuverl¨assigkeit eines konkreten Ger¨ats aussagen. Bei Wechselmedien gibt man die Haltbarkeit des Mediums an. Sie ist vor allem abh¨angig von der Qualit¨at des Tr¨agermaterials, aber auch von der Art der Herstellung. Optische Medien, die gepresst wurden, haben eine Haltbarkeit von 100 Jahren. Werden die Daten auf einen Rohling gebrannt - wie dies bei allen CD- und DVD-Brennern der Fall ist -, dann liegt die Haltbarkeit nur bei ca. 5 Jahren. Werden magnetische Medien Magnetfeldern ausgesetzt, dann kann dies ihren Inhalt l¨oschen. miniDV-Kassetten sollten daher einmal j¨ahrlich komplett vor- und zur¨ uckgespult werden, um zu verhindern, dass sich die Magnetisierung einer Lage auf die umliegenden Lagen ¨ ubertr¨agt. 88 Signaldaten Optische Medien, vor allem ein- oder mehrmals beschreibbare, m¨ ussen lichtgesch¨ utzt aufbewahrt werden. Tab. 4 stellt verschiedene Speichermedien einander gegen¨ uber. Speichermedium Gr¨oße Geschwindigkeit Haltbarkeit GB max. MB/ s Hauptspeicher > 1 3000 fl¨ uchtig Speicherkarte 0,5 - 32 120 Solid State Drive 64 - 250 125 > 100.000 Schreibzyklen Festplatte 100 - 1000 150 10 Jahre miniDV 18 5 30 Jahre CD-R, -RW 5 Jahre CD-ROM 0,8 50 ∗ 0 , 175 100 Jahre DVD-R, -RW 5 Jahre DVD-ROM 4,7 - 18 10 ∗ 1 , 35 100 Jahre Blu Ray 27 - 54 8 ∗ 4 , 5 50 Jahre Tabelle 4. Vergleich verschiedener Speichermedien. Die Haltbarkeit gilt f¨ ur optimale Lagerung und kann in ung¨ unstigen F¨allen vor allem bei magnetischen und optischen Medien deutlich k¨ urzer sein. Prinzipiell k¨onnen alle Speichermedien an jedem beliebigen Rechner verwendet werden. In der Praxis gibt es jedoch wegen unterschiedlicher Dateisysteme fallweise Inkompatibilit¨aten. 2 Datenkompression Die Datenrate von Signaldaten bestimmt den Speicherplatzbedarf und die zum Transfer der Daten notwendige ¨ Ubertragungskapazit¨at. Mit Datenkompression kann man die Datenrate verringern, um auf diese Weise Speicherplatz zu sparen oder Daten schneller zu ¨ ubertragen. Die Kompressionsrate ist ein Maß f¨ ur die Datenreduktion, sie wird entweder in Prozent oder als Verh¨altnis von unkomprimierten zu komprimierten Daten angegeben, z. B. 50 % oder 2 : 1 f¨ ur eine Kompression auf die H¨alfte des urspr¨ unglichen Datenbestands. Datenkompression ist entweder verlustfrei (engl. lossless) oder verlustbehaftet (engl. lossy). 2.1 Verlustfreie Kompression Bei verlustfreier Kompression werden redundante Signalanteile entfernt und die Daten eﬃzienter kodiert. Aus den komprimierten Daten kann das Originalsignal rekonstruiert werden. Signaldaten 89 Drei bekannte verlustfreie Kompressionsverfahren sind die Laufl¨angenkodierung RLE (f¨ ur engl. run length encoding) sowie das W¨orterbuchverfahren LZW (nach den Erfindern Lempel, Ziv und Welch) und die variable L¨angenkodierung nach Huffman. Bei RLE werden Folgen gleicher Signalwerte durch einen Z¨ahler und den Signalwert ersetzt, also z. B. die Folge ‘aaaaabbbaa’ durch ‘5a3b2a’ - eine Ersparnis von 40 %. Beim LZW-Verfahren werden die h¨aufigsten Signalmuster durch einen Kode, der k¨ urzer ist als das Muster, ersetzt. F¨ ur die vorherige Folge kann etwa ‘aa’ durch den Kode ‘x’, ‘bb’ durch ‘y’ ersetzt werden, so dass sich als Ergebnis die neue Folge ‘xxayx’ ergibt - eine Reduktion um die H¨alfte. 2 Bei der Huffman-Kodierung wird ebenfalls jedem Signalmuster ein Kode zugewiesen, der k¨ urzer ist als das Muster. Dieser Kode darf variabel lang sein, und sein Pr¨afix unterscheidet sich von allen anderen Kodes. Die Folge ‘aaaaabbbaa’ enth¨alt nur zwei verschiedene Zeichen. Ersetzt man nun das Zeichen ‘a’ durch ein Bit mit dem Wert 1 und ‘b’ durch ein Bit mit dem Wert 0, dann ist die Folge durch die neun Bits 111110011 darstellbar. Die Kompression ergibt sich aus der Tatsache, dass ein Zeichen, das je nach verwendeter Kodierung ein oder mehrere Byte belegt, nun durch ein optimal kurzes Bitmuster dargestellt wird. 2.1.1 Die Leistung verlustfreier Kompression Die Leistung verlustfreier Kompressionsverfahren h¨angt stark von den Ausgangsdaten ab, und sie l¨asst sich nicht vorhersagen. Sie sind f¨ ur Textdaten recht gut geeignet, da Texte ¨ ublicherweise aus wenigen W¨ortern, die sehr h¨aufig vorkommen, und vielen W¨ortern, die selten vorkommen, bestehen. Die wenigen h¨aufig vorkommenden W¨orter belegen dabei meist mehr Speicherplatz als die vielen selten vorkommenden, so dass eine Ersetzung dieser h¨aufig vorkommenden W¨orter durch einen kurzen Kode bereits zu guten Kompressionsergebnissen f¨ uhrt. Bei ung¨ unstigen Ausgangsdaten - und Signaldaten z¨ahlen in der Regel dazu - kann das Ergebnis einer verlustfreien Kompression sogar gr¨oßer sein als die Ausgangsdaten! So ergibt z. B. eine RLE- Kompression der Folge aabababaaa’ die Folge ‘2a1b1a1b1a1b3a’, die mit 14 Zeichen um 40 % l¨anger ist als das Original. 2 Allerdings muss bei diesem Verfahren der Speicherplatz f¨ ur das W¨orterbuch, das die Zuordnung von Kode zu Signalmuster enth¨alt und Teil der Datei wird, hinzugerechnet werden. Im vorliegenden Beispiel k¨ame also noch der Platzbedarf des W¨orterbuchs mit den Eintr¨agen x-aa und y-bb hinzu. 90 Signaldaten Beispiel Das Grundgesetz der Bundesrepublik Deutschland in der Fassung vom 28. August 2006 und heruntergeladen von der Webseite des Bundesministeriums f¨ ur Justiz 3 enth¨alt nach Entfernung der Zeichenkette ‘Nichtamtliches Inhaltsverzeichnis’ 24.763 Wort-Tokens und 3.578 Wort-Types und belegt in ISO-8859-1 Kodierung 157.936 Byte (vgl. Kapitel 6 Abschnitt 1.3.1). Mit Type bezeichnet man die unterschiedlichen Wortformen im Text, mit Tokens, wie h¨aufig dieser Type im Text vorkommt. So findet sich der Type ‘der’ im Grundgesetz in 923 Tokens vor. Die Frage ist nun: welche Kompressionsrate l¨asst sich mit verlustfreier Kompression erzielen? Um diese Frage zu beantworten, m¨ ussen die Worth¨aufigkeit und -verteilung sowie der Platzbedarf berechnet werden. Bei der Analyse der Datei sind Types die echten W¨orter und Abk¨ urzungen wie ‘Art’, ‘BGBl’. Satzzeichen wie ‘.’, ‘,’ und Zahlenangaben wie in ‘(1)’ oder in Artikelverweisen wie ‘Artikel 107 Abs. 2’ werden ausgeschlossen. Tab. 5 enth¨alt die Anzahl der Types, die 100, 50, 20, 10, 5, 2 bzw. 1 mal oder h¨aufiger vorkommen, und den Platzbedarf der entsprechenden Tokens in der Datei. Die Differenz zwischen dem Platzbedarf der Tokens von 130.388 und der Dateigr¨oße von 157.936 Byte machen die ausgeschlossenen Satzzeichen, Zahlen und Leerzeichen aus. H¨aufigkeit Types Tokens Platzbedarf ≥ 100 30 7.247 25.419 50 - 99 38 2.564 12.937 20 - 49 62 1.809 12.495 10 - 19 135 1.831 15.169 5 - 9 305 2.005 18.205 2 - 4 1.034 2.693 26.683 Zw. Summe 1.604 18.149 110.908 1 1.718 1.718 19.480 Summe 3.322 19.867 130.388 Tabelle 5. H¨aufigkeiten von W¨ortern mit Anzahl und Platzbedarf in der Datei in ISO-8859-1 Kodierung. Ersetzt man nun alle 1.604 Types, die mindestens zweimal vorkommen, durch einen zwei Byte langen Kode, dann belegen die entsprechenden Tokens in der Datei 18 . 149 ∗ 2 = 36 . 298 Byte gegen¨ uber 3 http: / / www.gesetze-im-internet.de Signaldaten 91 110.908 Byte, eine Kompressionsrate von ca. 67 %. Hinzu kommt allerdings noch der Platzbedarf f¨ ur das W¨orterbuch mit 1604 Eintr¨agen (ca. 20.000 Byte) - aber auch dann liegt die Kompressionsrate immer noch bei ca. 50 %. Das Grundgesetz verwendet nur 78 verschiedene Buchstaben. In der ISO 8859-1 Kodierung sind 8 Bit pro Zeichen vorgesehen, aber zur Unterscheidung von 78 Zeichen ben¨otigt man nur 7 Bit - durch die Wahl eines anderen Kodierverfahrens k¨onnte man eine Kompression um 12 , 5 % erreichen. Das Programm gzip, das auf allen g¨angigen Rechnern verf¨ ugbar ist und eine Kombination von LZW und Huffman-Kompression implementiert, also sowohl ein W¨orterbuch als auch eine eﬃzientere Kodierung verwendet, komprimiert in der Standardeinstellung den Text des Grundgesetzes auf 44.547 Byte, d. h. es erreicht eine Kompressionsrate von ca. 70 %. 4 2.2 Verlustbehaftete Kompression Bei verlustbehafteter Kompression werden Signalanteile entfernt und das Originalsignal ist nicht rekonstruierbar. In vielen F¨allen ist dies akzeptabel, vor allem, wenn Signalanteile entfernt werden, die ohnehin nicht wahrgenommen oder als unwichtig betrachtet werden. Das menschliche Geh¨or kann z. B. w¨ahrend eines lauten Ger¨auschs - und auch noch f¨ ur kurze Zeit danach - leise Ger¨ausche gar nicht wahrnehmen. Daher kann man aus dem Audiosignal leise Abschnitte in der Umgebung lauter Passagen herausfiltern, um auf diese Weise das Signal zu vereinfachen und die Datenrate zu reduzieren. Die Leistung verlustbehafteter Kompressionsverfahren kann man ¨ uber Parameter einstellen. Die ¨ ublicherweise verwendeten Parameter Kompressionsrate und Signalqualit¨at sind voneinander abh¨angig: gibt man die zu erzielende Kompressionsrate vor, dann ist die Signalqualit¨at variabel, und umgekehrt. In den meisten F¨allen ist die Vorgabe der Kompressionsrate sinnvoll, da man auf diese Weise den ben¨otigten Speicherplatz oder die ¨ Ubertragungskapazit¨at angeben kann. Die Kompression wird durch einen sog. Codec (von engl. coder decoder) geleistet. Codecs sind entweder als Hardware-Komponenten in die Aufnahme-, Wiedergabe- oder ¨ Ubertragungsger¨ate eingebaut, oder Bestandteil von Signalverarbeitungs-Software. 4 Vergleichen Sie die verlustfreie Kompression von Textdaten mit der Leistung verlustfreier und verlustbehafteter Kompressionsverfahren von Signaldaten im Beispiel in Abschnitt 3.4. 92 Signaldaten Beispiel Verlustbehaftete Kompression wird f¨ ur Textdaten nicht verwendet. Die verschiedenen, nicht immer ernstgemeinten Vorschl¨age zur Vereinfachung der deutschen Rechtschreibung, veranschaulichen das Verfahren aber sehr gut: 5 • Erster Schritt: Wegfall der Großschreibung einer sofortigen einf¨ uhrung steht nichts mehr im weg, zumal schon viele grafiker und werbeleute zur kleinschreibung ¨ ubergegangen sind. • zweiter schritt: wegfall der dehnungen und sch¨arfungen diese masname eliminirt schon di gr¨oste felerursache in der grundschule, den sin oder unsin unserer konsonantenverdopelung hat onehin nimand kapirt. • driter schrit: v und ph ersetzt durch f, z ersetzt durch s, sch verk¨ urzt auf s das alfabet wird um swei buchstaben redusirt, sreibmasine und setsmasinen fereinfachn sich, wertfole arbeitskr¨afte der wirtsaft sugef¨ urt werden. • firter srit: g, c und ch ersetst durch k, j und y ersetst durch i ietst sind son seks bukstaben auskesaltet, di sulseit kann sofort fon neun auf swei iare ferk¨ urtst werden, anstat aktsik prosent rektsreibunterikt n¨ utslikere f¨aker wi fisik, kemi oder auk reknen mer kepflekt werden. • f¨ unfter srit: wekfal fon ¨a, ¨o, ¨ u-seiken ales uberflusike ist ietst auskemertst, di ortokrafiwider slikt und einfak. naturlik benotikt es einike seit, bis diese fereinfakung uberal riktik ferdaut ist, fileikt ein bis swei iare. anslisend durfte als nekstes sil di fereinfakung der nok swirikeren und unsinikeren kramatik anfisirt werden. • ps: mein ansats fur den 6. srit: wekfal der lerseiken dadurkspartmanfilplaz Dass sich aus diesen Texten der Inhalt zumindest teilweise rekonstruieren l¨asst, zeigt die Eingabe von ‘uberflusike ist ietst auskemertst’ in Google, denn dort wird nachgefragt: “Meinten Sie: ‘uberfl¨ ussige ist jetzt auskemertst’ ? ”, d. h. Google konnte aus ‘ietst’ die korrekte Form und aus ‘uberflusike’ immerhin noch ‘uberfl¨ ussige’ rekonstruieren. 5 Das angef¨ uhrte Beispiel kann im Internet an vielen verschiedenen Stellen gefunden werden. Der Autor ist nicht bekannt. Signaldaten 93 3 Digitales Audio Audiodaten sind durch die Angabe der Abtastrate, Quantisierung, Anzahl der Audiokan¨ale, Kodierung und das Dateiformat beschrieben. Samplerate, Quantisierung und die Anzahl der Kan¨ale sind nummerische Angaben, die Kodierung eine Zeichenkette. Das Dateiformat ergibt sich bei reinen Bin¨ardateien meist aus der Extension des Dateinamens, bei gemischten Bin¨ardateien steht es in der Regel explizit als Zeichenkette im Kopf der Datei (vgl. Abschnitt 1.3.2). 3.1 Allgemeine Audiodateiformate Die meistverbreiteten Dateiformate f¨ ur allgemeine Audiosignaldateien sind das lineare Format SND mit der Dateiendung .au sowie die hierarchischen Formate WAVE und AIFF (.wav bzw. .aif). Die meisten Audioformate verwenden als Quantisierung PCM (von engl. pulse code modulation), bei der jeder Abtastpunkt durch einen Abtastwert auf einer linearen Skala repr¨asentiert wird. Abb. 48 zeigt den Aufbau einer SND- und einer WAVE-Audiodatei. Die SND-Datei ist eine lineare Bin¨ardatei mit variabel langem Kopf. In den ersten vier Byte der Datei steht das Format der Audiodatei, danach folgt eine Angabe der L¨ange des Kopfes und der Audiodaten. Anschließend folgen die Signalparameter, danach ein Bereich zum Eintragen beliebiger weiterer Information, z. B. Titel des Musikst¨ ucks oder weitere Angaben zum Inhalt der Audiodatei. Die WAVE-Datei ist eine hierarchische Audiodatei mit den vier Spuren ‘RIFF’, ‘WAVE’, ‘fmt ’ und ‘data’. ‘RIFF’ ist die allgemeine Bezeichnung f¨ ur eine ganze Reihe von Mediendatenformaten von Microsoft, ‘WAVE’ die Bezeichnung f¨ ur dieses Audiodateiformat. ‘fmt ’ enth¨alt die Kodierung in Form eines ‘Format-ID’ Werts sowie weitere Signalparameter, ‘data’ die eigentlichen Audiodaten und ihre L¨ange in Byte. In beiden Formaten sind f¨ ur die Angabe der Dateil¨ange vier Byte, also 32 Bit vorgesehen. Damit ist die maximale Dateigr¨oße auf 2 32 Bit, d. h. 2 Gigabyte, beschr¨ankt. 3.2 Spezielle Dateiformate f¨ ur Sprachdaten Sprachsignale werden entweder in allgemeinen Audiodateiformaten gespeichert, oder in speziellen Dateiformaten wie NIST Sphere u. ¨a. Diese speziellen Formate enthalten in ihrem Kopf zus¨atzlich zu den Signalparametern Attribute zur Beschreibung des Sprachsignals, z. B. Mikrofontyp und Aufnahmeort, oder den Wortlaut der ¨ Außerung. 94 Signaldaten Audiodaten ".snd" Länge des Headers Länge der Audiodaten Codierung Samplerate Anzahl Kanäle Information 0 4 8 16 24 20 12 "RIFF" Dateilänge "WAVE" "fmt " Länge Format-Teil Format-ID Anzahl Kanäle Samplerate Bytes pro Sekunde Bytes pro Sample Quantisierung pro Kanal "data" Länge Daten-Teil Audiodaten 0 4 8 16 20 12 22 24 28 32 34 36 40 44 Abbildung 48. Aufbau einer SND- und einer WAVE- Audiodatei. Aus der Sicht von Sprachdatenbanken sind Prim¨ar-, Sekund¨ar- und Terti¨ardaten unterschiedliche Datenarten mit jeweils eigenen Eigenschaften. Die gemeinsame Speicherung von Prim¨ar-, Sekund¨ar- und Terti¨ardaten in einer Datei verringert die Anzahl der Dateien und stellt sicher, dass stets alle notwendigen Daten vorhanden sind. Eine Speicherung in getrennten Dateien hat demgegen¨ uber zwar den Nachteil, dass logisch zusammengeh¨orende Daten an verschiedenen Orten gespeichert werden, aber auch den Vorteil, dass die Daten unabh¨angig voneinander verarbeitet werden k¨onnen, z. B. korrigiert und erg¨anzt. Bei separater Speicherung ist es auch m¨oglich, f¨ ur jede Datenart eine dem Anwendungszweck optimal angepasste Speicherung zu finden - Prim¨ardaten z. B. auf DVDs, auf Servern im WWW oder im Dateisystem des Rech- Signaldaten 95 ners, Sekund¨ar- und Terti¨ardaten in einem Datenbanksystem zur komfortablen Abfrage und schnellen Suche. Beispiel Abb. 49 zeigt den Kopf der Audiodatei g231acn1 000 AHY.nis aus der Verbmobil Sprachdatenbank. Diesen Kopf erh¨alt man, wenn man die ersten 1024 Byte der Datei einliest und in einem Texteditor anzeigt. Die erste Zeile gibt an, gem¨aß welchem NIST-Standard die Datei formatiert ist, die zweite Zeile die L¨ange des Kopfes in Byte. Danach folgen zeilenweise Attributnamen, z. B. speaker id, Angaben zum Datentyp des Attributwerts, z. B. -s3, also eine Zeichenkette der L¨ange drei, und der Attributwert, z. B. AHY. Mit end head ist der Kopf abgeschlossen; die restlichen Bytes bis zum Beginn der Audiodaten an Position 1024 sind mit dem Bin¨arwert 0 aufgef¨ ullt. NIST_1A 1024 database_id -s10 VERBMOBIL2 database_version -s3 1.0 scenario_language -s6 german scenario_id -s4 main dialog_id -s3 231 speaker_id -s3 AHY recording_site -s3 LMU recording_medium -s5 close recmed_spec -s8 neckband sample_coding -s3 pcm sample_n_bytes -i 2 channel_count -i 1 sample_count -i 313217 sample_byte_format -s2 01 sample_rate -i 16000 scenario_date -s6 980101 sample_sig_bits -i 16 turn_id -s16 g231acn1_000_AHY end_head Abbildung 49. NIST Kopf der Verbmobil Signaldatei g231acn1 000 AHY.nis. 3.3 Kompression und Audiocodecs Audiodaten in CD-Qualit¨at haben bei 44.1 kHz Samplerate und 16 Bit Quantisierung eine Datenrate von 88.2 kB/ s pro Kanal. In eine Datei von einem Megabyte Gr¨oße passen also nicht einmal 12 Sekunden Audio. Das ist nicht nur ein Problem der Speicherung, sondern auch des Datentransfers, z. B. im Internet. Hat das Netzwerk eine 96 Signaldaten ¨ Ubertragungskapazit¨at, die geringer ist als die Datenrate der Audiodaten, dann ist eine Wiedergabe der Daten in Echtzeit nicht m¨oglich, da die ¨ Ubertragung l¨anger dauert, als das Signal lang ist. Universelle verlustfreie Kompressionsverfahren wie RLE oder Huffman-Kodierung erreichen bei Audiodaten nur eine Kompressionsrate von 5-10 %. Spezielle Kompressionsalgorithmen f¨ ur Sprachsignaldaten wie Shorten [GRF94] bzw. [Rob94] oder das frei verf¨ ugbare flac (free lossless audio compression)[FLA03] erreichen bis zu 25-40 %. Die Leistung der Verfahren h¨angt aber stark von der Qualit¨at des Ausgangssignals ab - bei Signalen mit extrem niedrigem oder gar negativem Signal-Rausch-Abstand k¨onnen die komprimierten Signaldateien sogar gr¨oßer werden als das Ausgangssignal (Tab. 6). Verlustbehaftete Kompressionsverfahren erreichen Kompressionsraten von ¨ uber 90 %. Die dazu ben¨otigten Codecs sind in der Regel f¨ ur einen bestimmten ¨ Ubertragungskanal, z. B. Telefon, oder einen Signalinhalt, z. B. Sprache oder Musik optimiert. Telefoncodecs sind auf die ¨ Ubertragung von Sprache ¨ uber das Telefon spezialisiert. F¨ ur Festnetz und Mobilnetz gibt es wegen der sehr unterschiedlichen Technologien jeweils eigene Codecs: • alaw und μ law sind Codecs f¨ ur das ISDN Telefon. Ein Bandpassfilter entfernt aus dem Sprachsignal die Frequenzanteile unter 300 und ¨ uber 3000 Hz. Damit kann die Samplerate auf 8 kHz reduziert werden. Die Quantisierung ist an das menschliche Geh¨or angepasst, das hohe Frequenzen nicht so fein unterscheiden kann wie tiefe. Dazu wird eine nichtlineare Quantisierungsskala verwendet, die in den hohen Frequenzen gr¨oßere Abst¨ande zwischen den darstellbaren Werten hat als in den tiefen Frequenzen. • GSM (von engl. Global System for Mobile communications) ist der weltweit meistverwendete Codec f¨ ur das Mobiltelefon. Das Sprachsignal wird mit 3,1 kHz Samplerate abgetastet, die Quantisierung basiert auf LPC (von engl. linear predictive coding), d. h. ein Samplewert berechnet sich aus der Differenz zu vorangegangenen Samplewerten. Die Datenrate betr¨agt f¨ ur Telefongespr¨ache 13 kBit/ s, von denen f¨ ur das mit dem enhanced full rate codec komprimierte eigentliche Sprachsignal 12,2 kBit/ s zur Verf¨ ugung stehen. • VoIP (von engl. Voice over Internet Protocol) ist der Oberbegrifff¨ ur das Telefon ¨ uber das Internet. Bei diesem Verfahren wird Sprache wie andere Daten in kleinen Datenpaketen ¨ uber das Internet verschickt. Am Bestimmungsort wird das Sprachsignal aus den Datenpaketen wieder extrahiert. Zur Kompression von Sprache werden Signaldaten 97 bei VoIP entweder der offene Standard G.711 oder propriet¨are Standards verwendet. Allgemeine Audiocodecs wurden meist zur Kompression von Musikdaten f¨ ur die ¨ Ubertragung im Internet und zur Speicherung auf tragbaren Abspielger¨aten mit beschr¨anktem Speicherplatz wie Minidisk- und mp3-Player oder iPod entwickelt. Als Referenz f¨ ur die Leistung dieser allgemeinen Codecs dient ¨ ublicherweise die Musik-CD, sowohl in Bezug auf die Kompressionsrate als auch die Signalqualit¨at. MP3 wurde vom Fraunhofer Institut f¨ ur Integrierte Schaltungen in N¨ urnberg entwickelt. Der Codec erreicht eine Kompressionsrate von 10 : 1, ein Qualit¨atsverlust gegen¨ uber einer CD ist f¨ ur die meisten Menschen nicht zu h¨oren. MP3 ist sicherlich einer der meistverbreiteten Audiocodecs und er wird von vielen Ger¨aten unterst¨ utzt, gilt aber mittlerweile als veraltet. Neuere Audiocodecs bieten noch bessere Kompressionsraten oder bessere Signalqualit¨at bei gleicher Kompressionsrate. Diese lassen sich unterteilen in propriet¨are Codecs wie RealAudio oder ATRAC f¨ ur Minidisk, deren Spezifikation nicht ver¨offentlicht wurde, lizenzpflichtige Codecs wie AAC (Advanced Audio Coding), deren Verwendung in Ger¨aten oder Software die Mitgliedschaft in einem Standardisierungskonsortium erfordern, und freie Codecs wie Vorbis oder flac, deren Spezifikation ¨offentlich und frei verf¨ ugbar ist. Die Leistung der einzelnen Audiocodecs wird regelm¨aßig in auditiven Vergleichstests ermittelt. Dabei zeigt sich, dass propriet¨are, lizenzpflichtige und frei verf¨ ugbare Codecs sich in ihrer Leistung kaum unterscheiden. Entscheidungskriterium f¨ ur die Verwendung sind daher die mit einem Codec verbundenen zus¨atzlichen Eigenschaften wie z. B. Kopierschutz, Rechteverwaltung und Verf¨ ugbarkeit. 3.4 Verlustbehaftete Audiocodecs und Sprachkorpora F¨ ur die Verwendung in Sprachkorpora sind verlustbehaftet komprimierte Audiosignale nur dann zul¨assig, wenn diese Kompression essentieller Bestandteil der Signal¨ ubertragung ist. Dies ist z. B. bei der Entwicklung von Spracherkennern f¨ ur das Telefon der Fall, denn der Spracherkenner muss sowohl f¨ ur das GSM-komprimierte Mobiltelefonsignal als auch f¨ ur das digitale ISDN- und das analoge Festnetz-Telefon funktionieren. Die in der linguistischen Feldforschung g¨angige Praxis, mit den kompakten Minidisk-Recordern Sprachaufnahmen durchzuf¨ uhren, ist problematisch, da die Minidisk wegen des Kopierschutzes keine direkte Konversion der Audiodaten in ein anderes Datenformat erlaubt. Zudem sind die Signaldaten stets nach dem ATRAC-Verfahren verlustbehaftet 98 Signaldaten komprimiert - auch wenn sie am Ende als WAVE-Dateien mit linearer Quantisierung vorliegen. [CM02] diskutieren die Eigenschaften von Minidisk und vergleichen sie mit DAT, das in professionellen Tonstudios verwendet wird. Eine Alternative zur Minidisk sind portable Festplatten- oder Festspeicher-Rekorder, oder die Verwendung eines tragbaren Rechners, z. B. eines Laptops (vgl. Kapitel 7). Letzterer bietet den Vorteil, dass durchg¨angig digitale Aufnahmetechnik verwendet werden kann, dass das Aufnahmebuch (vgl. Kapitel 7 Abschnitt 6) mit dem aufzunehmenden Sprachmaterial ebenfalls in digitaler Form auf dem Rechner vorliegt, und dass ein Umkopieren der Audiodaten problemlos und schnell erfolgen kann. Beispiel Der Vergleich der Leistung von verlustfreien und verlustbehafteten Kompressionsverfahren verwendet die Audiodatei des Satzes “Ich bin mit dem Wagen nach Bonn gefahren” aus Kapitel 3. Eine Kopie dieser Aufnahme wurde mit weißem Rauschen ¨ uberlagert. Abb. 50 zeigt Oszillogramm und Sonagramm der beiden Signale. Abbildung 50. Satz “Ich bin mit dem Wagen nach Bonn gefahren” ohne Ger¨ausch bzw. mit weißem Rauschen ¨ uberlagert. F¨ ur die verlustfreie Kompression wurden das universelle Kompressionsprogramm gzip und das auf Audiodaten spezialisierte Kompressionsverfahren flac verwendet. F¨ ur die verlustbehaftete Kompression wurden die Verfahren Vorbis, MP3, AC3 und AAC verwendet. Tab. 6 zeigt die jeweiligen Dateigr¨oßen. Sie k¨onnen in einem Perzeptionsexperiment die Qualit¨at der komprimierten Signale selbst ¨ uberpr¨ ufen. Besuchen Sie dazu die Webseite zum Buch! Signaldaten 99 Kompression Studio- K-Rate verrauscht K-Rate aufnahme (kB) % (kB) % unkomprimiert 232 232 gzip 180 22,5 196 15,4 flac 100 66,9 164 29,4 Vorbis (mittl. Qualit¨at) 36 84,5 33 85,8 MP3 (96 kBit/ s) 32 86,2 32 86,2 AC3 (56 kBit/ s) 20 91,4 20 91,4 AAC (32 kBit/ s) 16 93,2 12 94,9 Tabelle 6. Vergleich der verlustfreien und verlustbehafteten Kompression des Beispielsatzes. Deutlich zu sehen ist die schlechtere Kompressionsleistung verlustfreier Verfahren bei verrauschtem Signal. 4 Digitales Video Videodaten sind zweidimensionale Einzelbilder, die in rascher Abfolge pr¨asentiert werden, so dass sie zu einem kontinuierlichen Eindruck verschmelzen. Die einzelnen Bilder sind durch ihre Breite und H¨ohe sowie durch die Farbtiefe definiert. Die Farbtiefe ist eine Quantisierung des Farbraums. Graustufenbilder enthalten nur die Helligkeitsunterschiede, Farbbilder zus¨atzlich noch Farbinformation. F¨ ur Graustufen wird ¨ ublicherweise eine 8 Bit Quantisierung verwendet, f¨ ur Farbbilder 8 Bit pro Farbkanal bei drei Farbkan¨alen. Die Anzahl der Einzelbilder pro Zeiteinheit ist die Bild- oder Framerate, sie wird in fps (engl. frames per second) angegeben. 4.1 Fernseh- und Computervideos Fernsehvideos und Computervideos unterscheiden sich grunds¨atzlich im Hinblick auf den Bildaufbau und die Farbkodierung. Ein Bild eines Fernsehvideos wird zeilenweise aufgebaut. Im Zeilensprungverfahren werden zwei um je eine Zeile versetzte Halbbilder nacheinander pr¨asentiert - ein Frame besteht also aus zwei Halbbildern (engl. interlaced). Auf diese Weise wird das Ausmaß der Hell-dunkel-Wechsel verringert, das Bild flackert nicht. Farbe wird in Fernsehvideos nach dem YUV-Standard kodiert, bei dem die Helligkeitsvon der Farbinformation getrennt ¨ ubertragen wird. Die Einzelbilder eines Computervideos bestehen aus Vollbildern, d. h. ein Frame entspricht einem kompletten Bild (engl. progressive scan). Die Farbinformation ist in drei Farbkan¨alen entsprechend den Prim¨arfarben rot, gr¨ un und blau (RGB-Farbraum) kodiert. Die Helligkeitsinformation ist in der Farbkodierung enthalten. 100 Signaldaten Die Konvertierung der Farbkodierungen zwischen Fernseh- und Computervideos ist ohne sichtbare Verluste m¨oglich. Bei der Konvertierung der Halbbilder in Vollbilder gibt es bei Szenen mit horizontalen Bewegungen wegen der Zeitdifferenz zwischen zwei Halbbildern st¨orende Streifen, sog. Kammartefakte (Abb. 51). Diese k¨onnen durch Gl¨attungsalgorithmen reduziert werden. Abbildung 51. TV-Bild und von TV importiertes Computervideo mit Kammartefakten. Weltweit haben sich drei Fernsehnormen etablieren k¨onnen: NTSC, PAL und Secam. Sie sind zueinander inkompatibel, denn sie unterscheiden sich in der Bildrate, der Bildgr¨oße und der Farbkodierung (Tab. 7). Dies hat zur Konsequenz, dass f¨ ur jeden Standard eigene Ger¨ate verwendet werden m¨ ussen. Eine Alternative sind Multinorm-Ger¨ate, die jedoch in der Regel deutlich teurer sind. Die Verarbeitung von Video auf dem Computer erfolgt in einem eigenen Computerformat, unabh¨angig von einer Fernsehnorm. Wenn das Video nach Ende der Bearbeitung zum Betrachten am Fernseher exportiert werden soll, dann sollten Bildgr¨oße und Framerate zur Fernsehnorm des Ausgabeger¨ats passen, um zus¨atzliche Qualit¨atsverluste zu vermeiden. Entsprechendes gilt f¨ ur den Import des Videos von einem Camcorder, einer DVD oder einer Videokassette. Dateiformate f¨ ur digitales Video sind entweder hierarchische Bin¨ardateien mit separaten Spuren f¨ ur das Videosignal und optionale Audio- und Text- oder Sensordaten, oder es sind Datenstrom-Dateien. F¨ ur die Wiedergabe m¨ ussen die Datenspuren synchronisiert werden. 4.2 Kompression und Videocodecs Die Datenrate von unkomprimiertem Video mit normaler Bildrate und TV-Gr¨oße ist mit ¨ uber 20 MB/ s selbst f¨ ur moderne Speichermedien Signaldaten 101 zu groß: auf eine CD mit 700 MB Kapazit¨at passen nur ca. 20 Sekunden Video, auf eine DVD mit 4,7 GB Kapazit¨at 160 Sekunden, und selbst auf Blu-Ray Disks passen nicht einmal 30 Minuten. Es ist also notwendig, die Videodaten zu komprimieren. Zur Videokompression verwendet man im Wesentlichen drei verschiedene Verfahren: • Einzelbildkompression, • Differenzverfahren und • Bewegungskompensation. Bei der Einzelbildkompression wird jedes einzelne Bild eines Videos komprimiert, in der Regel verlustbehaftet. Hierbei k¨onnen Verfahren wie JPEG, die f¨ ur die digitale Fotografie entwickelt wurden, und f¨ ur die es eﬃziente Implementierungen gibt, eingesetzt werden. Beim Differenzverfahren wird ausgenutzt, dass sich zwei aufeinanderfolgende Bilder eines Videos meist nur gering unterscheiden. Aus einem Ausgangsbild kann das aktuelle Bild dann aus der Differenz zum Vorg¨anger- und Nachfolgerbild berechnet werden. Bei der Bewegungskompensation (engl. motion compensation) k¨onnen Bildinhalte durch einen Bewegungsvektor von einem Bild zum n¨achsten verschoben werden. Bei verlustbehafteter Kompression verringert sich die Signalqualit¨at. Wird ein Videosignal wiederholt komprimiert, z. B. bei der Konvertierung eines Videos in ein anderes Format, dann multiplizieren sich diese Qualit¨atsverluste - man nennt diese Verluste Generationsverluste. 4.2.1 MPEG Kompression Zur Videokompression haben die als MPEG (engl. motion picture experts group) bekannten Gremien in der International Standardisation Organisation (ISO) eine Reihe von Videokompressionsverfahren entwickelt. Die MPEG-Standards verwenden zur Reduktion der Datenrate sowohl Einzelbildkompression als auch das Differenzverfahren und die Bewegungskompensation. Das Differenzverfahren in MPEG verwendet drei Arten von Frames: I-Frames (engl. intra-coded pictures), die die gesamte Bildinformation enthalten, sowie P- und B-Frames (engl. predictive bzw. bidirectional coded pictures), die nur die Differenz zum vorangegangenen bzw. zu den beiden Nachbarframes enthalten. I-Frames, auch Keyframes genannt, sind Standbilder. Sie werden entweder in gleichm¨aßigen Abst¨anden ge- 102 Signaldaten setzt oder in Abh¨angigkeit vom Betrag der Differenz zwischen zwei Frames, z. B. bei Szenenwechseln. Die unterschiedlichen Arten von Frames erschweren das exakte Schneiden von MPEG-Videos: geschnitten werden kann prinzipiell nur an Keyframes; gegebenenfalls m¨ ussen an den Schnittgrenzen neue Keyframes berechnet werden. Die MPEG-Standards sind nummeriert und haben folgende Eigenschaften: • MPEG-1 unterst¨ utzt nur Vollbilder und erlaubt eine Datenrate von maximal 1,5 MBit/ s. Der Standard ist mittlerweile veraltet. • MPEG-2 ist der Nachfolger von MPEG-1. Es unterst¨ utzt das Zeilensprungverfahren und ist somit sowohl f¨ ur TVals auch f¨ ur Computervideo geeignet, und es erlaubt in sog. Profilen und Ebenen (engl. Level) unterschiedliche Bildgr¨oßen, Frameraten und Qualit¨atsstufen. MPEG-2 ist das Standardformat f¨ ur Video auf DVD sowie digitales (DVB) und hochaufl¨osendes (HDTV) Fernsehen. MPEG-2 schreibt keine Codecs vor, sondern erlaubt Herstellern, eigene Codecs zu verwenden. Die Kompatibilit¨at von MPEG-2-Datenstr¨omen gew¨ahrleisten standardisierte Profile (Kodierverfahren) und Ebenen (Bildgr¨oßen und Frameraten). • MPEG-4 wurde prim¨ar f¨ ur Video im Internet und auf mobilen Endger¨aten entwickelt. MPEG-4 unterst¨ utzt eine Vielzahl an Video- , Audio-, Grafik- und Textformaten sowie grafische Objekte. Der Standard verwendet ein hierarchisches Dateiformat, umfasst f¨ ur jeden Datentyp eine Reihe von vorgegebenen Profilen und definiert Kompatibilit¨atsstufen (z. B. 3GG f¨ ur Videotelefonie, ISMA f¨ ur Streaming Video im Internet) und erlaubt eine Erweiterung um neuentwickelte Codecs. Es gibt viele propriet¨are und offene Videocodecs, die aber inkompatibel zueinander sind. Daher muss zum Abspielen von MPEG-4 Videos der passende Codec auf dem eigenen Rechner installiert sein. 4.2.2 Digital Video Das Videoformat Digital Video (DV) verwendet eine eﬃziente Kompression von Einzelbildern, so dass jeder Frame unabh¨angig von Vorg¨anger- oder Nachfolgerframes dargestellt werden kann. Dadurch ist ein Frame-genauer Videoschnitt ohne Qualit¨atsverlust m¨oglich. DV hat sich als Standardformat f¨ ur digitales Video vom Amateurbis hin zum professionellen Bereich, d. h. Fernsehen und Kinofilm, etabliert und kann problemlos f¨ ur Fernsehals auch Computervideos verwendet wer- Signaldaten 103 den, da es sowohl das Zeilensprungverfahren als auch das Vollbildverfahren unterst¨ utzt. Audio wird mit einer Samplerate von 32, 44,1 oder 48 kHz, einer Quantisierung von 16 Bit linear und auf zwei Kan¨alen gespeichert. Zur DV-Spezifikation geh¨ort auch ein standardisiertes Interface zur Steuerung des Aufnahmeger¨ats von einem Rechner aus, meist ¨ uber einen FireWire-Anschluss. Dies erlaubt ein softwaregesteuertes Importieren und Schneiden von Video. Tab. 7 stellt die Eigenschaften aktueller Fernsehnormen und Videokompressionsverfahren bei der Verarbeitung am Computer gegen¨ uber. Typ Bildgr¨oße Framerate Anmerkungen Pixel fps DV PAL 720 ∗ 576 25 qualitativ hochwertiges digitales Videoformat, verlustfreier Videoschnitt m¨oglich DV NTSC 720 ∗ 480 30 MPEG-1 ≤ 352 ∗ 240 25 bzw. 30 max. 1.5 MBit/ s, veraltet MPEG-2 176 ∗ 144 bis 1920 ∗ 1080 15-60 geringe Qualit¨at bei niedrigeren Bitraten, ab ca. 3 MBit/ s gute Qualit¨at, unterst¨ utzt Halb- und Vollbildverfahren, wird f¨ ur DVD und HDTV verwendet MPEG-4 176 ∗ 144 bis > 4000 ∗ 4000 > 10 hierarchisches Dateiformat, sehr flexibel, gute Qualit¨at bereits bei geringen Bitraten, Einsatzbereich von mobilen Abspielger¨aten bis zur Kinoprojektion; Videoschnitt problematisch Tabelle 7. Eigenschaften von Fernsehnormen und Videokompressionsverfahren. 4.3 Video Dateiformate Dateiformate f¨ ur digitales Video sind mit Ausnahme der ¨alteren MPEG- Dateiformate stets Containerformate (vgl. Kapitel 6 Abschnitt 1.1). Tab. 8 gibt eine ¨ Ubersicht der meistverbreiteten Videodateiformate. 4.3.1 MPEG-Dateiformate Die MPEG-Dateiformate f¨ ur MPEG-1 und MPEG-2 sind gemischte Bin¨ardateien. Der Kopf enth¨alt einige technische Parameter wie Samplerate, Quantisierung, Kodierung f¨ ur Audio- und Bildgr¨oße, Bildrate und Codec der Videodaten, sowie Angaben zur Anordnung der ver- 104 Signaldaten schiedenen Datenarten in der Datei. Der Rumpf einer MPEG-Datei enth¨alt die Audio- und Videodaten in einem Datenstrom. Das MPEG-4 Dateiformat ist ein Containerformat auf der Basis von QuickTime. 4.3.2 QuickTime QuickTime ist eine von der Firma Apple entwickelte Multimedia- Architektur f¨ ur Macintosh und Windows Betriebssysteme. Sie besteht aus drei Komponenten: der QuickTime Systemerweiterung zum Editieren und Abspielen von Multimedia-Inhalten, einer Programmierschnittstelle f¨ ur externe Software und dem QuickTime-Dateiformat. Die QuickTime Systemerweiterung wird laufend aktualisiert, neue Codecs k¨onnen als Plug-ins einfach hinzugef¨ ugt werden und stehen dann systemweit allen Programmen sofort zur Verf¨ ugung. Das Dateiformat ist ein Containerformat, das neben Audio- und Videodaten auch Text-, Grafik-, und Markup-Daten enthalten kann. Verweise k¨onnen auf Abschnitte innerhalb der Datei, aber auch auf externe Dateien, z. B. im Internet, zeigen. Die Spezifikation des Dateiformats ist ¨offentlich verf¨ ugbar, und das Format ist die Grundlage des MPEG-4 Dateiformat-Standards. Zu den unterst¨ utzten Audioformaten z¨ahlen unkomprimierte und verlustbehaftet komprimierte Audiodaten, zu den Videoformaten DV und MPEG-4 mit verschiedenen Codecs. Der QuickTime Player ist frei erh¨altlich, mit einem kostenpflichtigen Update kann man damit auch Audio und Video aufnehmen und Multimedia-Inhalte erstellen und in verschiedene Formate konvertieren und exportieren. 4.3.3 Windows Media Framework Das Windows Media Framework ist die Multimedia-Architektur von Microsoft. Sie besteht aus Systemerweiterungen zum Abspielen und Editieren von Multimedia-Inhalten, einer Reihe von Dateiformaten und Codecs, einer Programmierschnittstelle sowie einem Server f¨ ur Multimediadaten. Das verwendete Dateiformat ASF (engl. Advanced Systems Format) ist ein Containerformat f¨ ur Audio und Video. Es ersetzt das AVI- Format (engl. Audio Visual Interleave), das weniger flexibel und z. B. f¨ ur das Streaming von Video im Internet nicht geeignet war. Die Spezifikation des Dateiformats ist ¨offentlich verf¨ ugbar. Zur Kodierung von Audio- und Videodaten k¨onnen in ASF eine Vielzahl von Codecs verwendet werden. Die meistverwendeten sind WMV Signaldaten 105 und WMA, da sie vom kostenlos erh¨altlichen Media Encoder erzeugt werden. 4.3.4 Flash Video Flash Video ist das Multimedia-Containerformat der Firma Adobe. Flash Video hat im Internet große Verbreitung gefunden und ist das bevorzugte Dateiformat vieler Videoportale wie z. B. YouTube, Yahoo! Video und von Nachrichtenagenturen. Diese Popularit¨at ist darauf zur¨ uckzuf¨ uhren, dass Flash Video • viele Videocodecs unterst¨ utzt, • eine Programmiersprache zur Steuerung des Videos beinhaltet und • mit einem kostenlos erh¨altlichen Plug-in in jedem Browser auf allen g¨angigen Plattformen abgespielt werden kann. Mit dem Plug-in ist es m¨oglich, Videos direkt in Webseiten abzuspielen, mit der eingebauten Programmiersprache kann das Video ¨ uber eine grafische Benutzeroberfl¨ache gesteuert werden, z. B. durch interaktive Bedienelemente wie Start/ Stop-Buttons oder Symbole f¨ ur schnelles Vor- und Zur¨ uckspulen. Daneben k¨onnen Flash-Videos auch von vielen eigenst¨andigen Programmen abgespielt werden. Audio ist in Flash Video ¨ ublicherweise verlustbehaftet in mp3 kodiert, aber das Dateiformat erlaubt auch eine unkomprimierte Speicherung mit verschiedenen Sampleraten und linearer Quantisierung. 4.3.5 Weitere Videoformate RealMedia ist ein propriet¨ares Containerformat f¨ ur Audio- und Videodaten der Firma Real Networks. RealMedia verwendet propriet¨are verlustbehaftete Codecs zum Komprimieren von Audio und Video. Die Software zum Erstellen von RealMedia-Inhalten ist kostenpflichtig und wird daher haupts¨achlich von kommerziellen Anbietern wie Rundfunk- oder Fernsehanbietern verwendet. Zum Abspielen von RealMedia-Inhalten ist eine Playersoftware f¨ ur viele Plattformen frei verf¨ ugbar. Matroska und Ogg sind moderne Open-source Containerformate f¨ ur Audio und Videodaten. Sie werden von vielen Open-source Abspiel- und Editierprogrammen verwendet, nicht aber von den propriet¨aren Frameworks wie QuickTime oder Windows Media Framework. 4.4 Video in Sprachdatenbanken Bei der Verwendung von Video in Sprachdatenbanken steht man vor einem Dilemma: einerseits muss die Qualit¨at des Videosignals m¨oglichst 106 Signaldaten Bezeichnung Extension MIME-Type und Beschreibung WAVE .wav audio/ x-wave Standardformat f¨ ur Audiodateien unter Windows AIFF .aif audio/ x-aiff Audio Interchange File Format, hierarchisches Dateiformat f¨ ur Audiodaten SND .au audio/ basic weitverbreitetes Audioformat unter Unix und Linux WMA .wma audio/ x-ms-wma Windows Media Audio MP3 .mp3 audio/ x-mp3 MPEG Layer 3 Audio DV .dv video/ x-dv Digital Video RealVideo .rv video/ vnd.rn-realmedia Propriet¨ares Containerformat f¨ ur Real Video MPEG .mpg, .mp2 video/ x-mpeg MPEG-1 und -2 Datenstromformat f¨ ur Video WMV .wmv video/ x-ms-wmv Containerformat f¨ ur Windows Media Video und Audio QuickTime .mov, .qt video/ quicktime Containerformat f¨ ur Multimediadaten MPEG-4 .mp4, .m4v, .m4a video/ mpeg, video/ x-mpeg Plattform-unabh¨angiges Containerformat Flash Video .swf, .flv video/ x-shockwave-flash, video/ x-flv Plattform-unabh¨angiges, aber propriet¨ares Containerformat der Firma Adobe, Standardformat f¨ ur Video im WWW Matroska .mkv, .mka video/ x-matroska Open-source Containerformat Ogg .ogv, .oga, .ogg, .ogx video/ x-ogg, audio/ x-ogg Open-source Containerformat Tabelle 8. Verbreitete Formate f¨ ur Signaldaten. Signaldaten 107 gut sein, andererseits ist der verf¨ ugbare Speicherplatz begrenzt. Anders als bei Audio in Sprachdatenbanken gibt es aber zur verlustbehafteten Kompression bei Video keine Alternative, so dass man strikt darauf achten muss, trotz der notwendigen Kompression qualitativ hochwertige Videodaten zu erzielen. Zun¨achst muss sichergestellt sein, dass die technischen Parameter der Videoaufnahmen f¨ ur die geplante Verwendung geeignet sind - etwa, dass die Bildrate hoch genug ist zum Erfassen schneller Bewegungen, oder dass der Kontrast zum Bestimmen von Konturen ausreicht. Sollen die Videodaten maschinell ausgewertet oder bearbeitet werden, z. B. beim automatischen Verfolgen der Blickrichtung oder der Gestik, dann m¨ ussen Videocodec und Auswertungssoftware zusammenpassen. Soll das Videomaterial geschnitten werden, z. B. zum Extrahieren interessanter Ausschnitte, dann muss das Videosignal Frame-genaue Schnitte erlauben. Da viele der m¨oglichen Anwendungen zum Zeitpunkt der Aufnahme noch nicht bekannt sind, hat sich die sog. oﬄine-Verarbeitung bew¨ahrt. Dabei erfolgt die Videoaufnahme in m¨oglichst hoher technischer Qualit¨at. Diese Videoaufnahmen werden in voller Signalqualit¨at auf einem Speichermedium gesichert - dieses Speichermedium muss nur ausreichend groß und sehr zuverl¨assig sein, Geschwindigkeit spielt hier nur eine geringe Rolle. Dann wird eine Kopie des Videomaterials in einem Format angefertigt, das deutlich weniger Speicherplatz ben¨otigt - die Arbeitskopie. Diese Arbeitskopie wird gesichtet, d. h. die interessierenden Abschnitte werden markiert und in eine sog. Schnittliste (engl. edit decision list) eingetragen. Anhand dieser Schnittliste werden dann aus dem Originalvideo die einzelnen Abschnitte automatisch extrahiert und in das endg¨ ultige Format konvertiert (Abb. 52). Die Vorteile der oﬄine-Verarbeitung sind der geringe Ressourcenbedarf beim Sichten, die Flexibilit¨at bei der Auswahl des Exportformats sowie die Vermeidung von Generationsverlusten durch die Verwendung des Originalsignals. Der Nachteil der oﬄinegegen¨ uber der online-Verarbeitung, bei der stets mit dem Originalsignal gearbeitet wird, ist der zus¨atzliche Zeitaufwand f¨ ur den abschließenden Schnitt- und Exportvorgang. F¨ ur Video in Sprachdatenbanken ist die Verwendung eines qualitativ hochwertigen Camcorders oder einer direkt an den Rechner angeschlossenen normalen oder Spezialkamera und Aufnahme im DV- oder DVPro-Format sinnvoll, denn damit ist ein Frame-genauer Videoschnitt m¨oglich und die Qualit¨at der Einzelbilder ist sehr hoch, bei akzeptablem Speicherbedarf (ca. 18 GB/ h). Die Arbeitskopie verwendet irgendein Videoformat, das von der zum Sichten verwendeten Soft- 108 Signaldaten Aufnahme Sichern Sichten Schneiden Exportieren Speicher Arbeitskopie Schnittliste Orignalvideo Videoclip 1 Arbeitskopie Videoclip 2 Videoclip n … Abbildung 52. Blockdiagramm des oﬄine-Videoschnitt-Verfahrens. ware verarbeitet werden kann, z. B. QuickTime, WMV oder MPEG-4, und f¨ ur den Export kann das Videoformat frei gew¨ahlt werden, etwa MPEG-2 f¨ ur eine DVD, MPEG-4 f¨ ur die Distribution im Internet oder DV f¨ ur die automatische Signalverarbeitung. Signaldaten 109 5 Aufgaben 1. Skizzieren Sie den Aufbau einer a) linearen b) hierarchischen gemischten Bin¨ardatei. 2. Was ist ein Containerformat? 3. An welchen Merkmalen erkennen Sie eine Audiodatei im WAV- Format? 4. Was bewirkt Datenkompression? Nennen Sie die beiden Hauptklassen von Kompressionsverfahren? Worin unterscheiden sie sich? 5. Warum kann man Audiodaten recht gut, d. h. ohne h¨orbaren Qualit¨atsverlust, komprimieren? 6. Was ist der Generationsverlust? 7. Was sind die drei Haupttechniken bei der verlustbehafteten Kompression von Video? 8. Warum muss man in Sprachdatenbanken Video komprimieren, Audio dagegen m¨oglichst nicht? 9. Woran erkennt man in Abb. 50 das weiße Rauschen a) im Oszillogramm, b) im Sonagramm? 10. Machen Sie das Perzeptionsexperiment zur Signalqualit¨at auf der Webseite des Buchs. In diesem Experiment werden verschiedene verlustbehaftete Audiokompressionsverfahren miteinander verglichen. Symbolische Daten Symbolische Daten sind im Wesentlichen Daten in Textform: ein Alphabet definiert die erlaubten Zeichen, lexikalische Regeln bestimmen die m¨oglichen Kombinationen der Zeichen zu komplexen Einheiten, und die Syntax regelt die Kombination dieser Einheiten zu Datens¨atzen. 1 Implizite und explizite Strukturierung Die Struktur von Textdaten kann implizit durch eine geeignete Formatierung (Abb. 53), z. B. beim Vertikalformat in Spalten, oder explizit durch Marker oder Tags beschrieben - der Fachterminus ist ausgezeichnet - werden (Abb. 54). Diese Marker sind selbst wieder komplexe Textdaten, die eine innere Struktur besitzen k¨onnen. Die korrekte technische Bezeichnung f¨ ur implizit strukturierte Texte ist plain text, h¨aufig findet man jedoch auch noch die Bezeichnung ASCII Text. Explizit strukturierte Texte bezeichnet man allgemein als markup text, oder direkt mit der verwendeten Auszeichnungssprache, z. B. als XML- oder HTML-Text. Typische Beispiele von plain text Dokumenten sind Programmcode und Messdaten. Editoren f¨ ur plain text Dokumente stellen den Text in der Regel in einheitlichem Zeichensatz und Schriftbild dar; Programmier-Editoren k¨onnen den Programmcode h¨aufig farblich hervorheben (engl. Syntax highlighting). Textdaten mit impliziter Strukturierung sind h¨aufig kompakt und auch f¨ ur Menschen gut zu lesen, aber anf¨allig f¨ ur Interpretationsfehler. So enth¨alt der Text in Abb. 53 keinerlei Angaben ¨ uber die verwendete Zeichentabelle oder das Dateiformat, und die Bedeutung der einzelnen Spalten muss erschlossen werden. Zur besseren Darstellung wurde in die Zeile mit dem Label TRN am Anfang ein Zeilenumbruch vor dem Wort ‘gefahren’ eingef¨ ugt - ein Parser f¨ ur BPF-Dateien h¨atte an dieser Stelle einen Fehler melden m¨ ussen, weil durch den Zeilenumbruch die Datei nicht mehr korrekt formatiert ist. Textdaten mit expliziter Strukturierung sind meist deutlich l¨anger und f¨ ur den Menschen wegen der sichtbaren Tags schlecht zu lesen. Die explizite Strukturierung erleichtert aber eine formale Konsistenzkontrolle und ¨ uber sprechende Bezeichnungen den gezielten Zugriffauf Symbolische Daten 111 LHD: Partitur 1.2 REP: Munich, Germany SNB: 2 SAM: 22050 SBF: 01 SSB: 16 NCH: 1 SPN: 0 LBD: TRN: 6001 49618 0,1,2,3,4,5,6,7 ich bin mit dem Wagen nach Bonn gefahren KAN: 0 Q’IC KAN: 1 b’In KAN: 2 m’It KAN: 3 d’e: m KAN: 4 v’a: g@n KAN: 5 n’a: x KAN: 6 b’On KAN: 7 g@f’a: r@n MAU: 0 6882 -1 <p: > MAU: 6883 881 0 Q MAU: 7765 1763 0 I MAU: 9529 2865 0 C MAU: 12395 1763 1 b MAU: 14159 1322 1 I MAU: 15482 1322 1 n MAU: 16805 660 2 m MAU: 17467 1542 2 I MAU: 19010 1542 3 d MAU: 20554 1101 3 e: MAU: 21656 1983 3 m MAU: 23641 881 4 v MAU: 24523 4629 4 a: MAU: 29153 1763 4 N MAU: 30917 1763 5 n MAU: 32681 881 5 a: MAU: 33563 2204 5 x MAU: 35768 1542 6 b MAU: 37312 2424 6 O MAU: 39737 2865 6 n MAU: 42604 660 7 g MAU: 43265 1101 7 @ MAU: 44368 2424 7 f MAU: 46793 1101 7 a: MAU: 47896 3306 7 6 MAU: 51203 2204 7 n MAU: 53408 5523 -1 <p: > Abbildung 53. Implizit strukturierte Textdaten, hier eine zeitalinierte Transkription auf Phonem-Ebene in SAMPA f¨ ur den Beispielsatz im BAS Partitur Format (BPF) [SBGW98]. 112 Symbolische Daten <? xml version="1.0" encoding="UTF-8" standalone="yes" ? > <! DOCTYPE session SYSTEM "annotation.dtd"> <annotation> <signal name="AAA2057B2_0.wav" / > <annotator id="CHD" / > <orthography> <segment begin="0" end="0.328" unit="s"> [pau] </ segment> <segment begin="0.328" end="0.580" unit="s"> ich </ segment> <segment begin="0.580" end="0.753" unit="s"> bin </ segment> <segment begin="0.753" end="0.851" unit="s"> mit </ segment> <segment begin="0.851" end="1.058" unit="s"> dem </ segment> <segment begin="1.058" end="1.421" unit="s"> Wagen </ segment> <segment begin="1.421" end="1.618" unit="s"> nach </ segment> <segment begin="1.618" end="1.931" unit="s"> Bonn </ segment> <segment begin="19.31" end="2.445" unit="s"> gefahren </ segment> <segment begin="2.445" end="2.582" unit="s"> [pau] </ segment> </ orthography> </ annotation> Abbildung 54. Explizit strukturierte Textdaten, hier eine zeitalinierte orthographische Transkription des Beispielsatzes in XML. einzelne Elemente. Außerdem gibt es f¨ ur eine Vielzahl von Dokumenttypen bereits frei verf¨ ugbare Dokumenttyp-Definitionen, so dass keine eigene solche Definition erstellt werden muss. Zur Verbesserung der Lesbarkeit bieten viele Editoren f¨ ur explizit strukturierte Texte verschiedene Ansichten eines Dokuments, z. B. farblich abgesetzte Tags oder eine hierarchische Anordnung der Textelemente. Symbolische Daten 113 1.1 Hyperlinks Textdaten bestehen meist aus mehreren Dokumenten, und diese Dokumente haben eine innere Struktur. Die Verkn¨ upfung von Textdaten erfolgt ¨ uber Verweise oder Hyperlinks. Mit Verweisen k¨onnen logische oder organisatorische Beziehungen zwischen Textdaten unabh¨angig vom Speicherort dieser Daten dargestellt werden. Ausgangs- und Zielpunkte von Verweisen werden Anker genannt. Ein Hyperlink kann auf Anker innerhalb desselben Dokuments verweisen, auf andere Dokumente als Ganzes, oder auf Anker in anderen Dokumenten. Beispiel Das Inhaltsverzeichnis eines Buches ist eine hierarchisch angeordnete Liste von Verweisen auf den Inhalt des Buches. Die Kapitelnamen sind die sichtbaren Bezeichner des Verweises, die Seitenzahl der eigentliche Verweis. Der Stichwortindex eines Buches ist eine alphabetisch sortierte Liste von Verweisen; die alphabetische Organisation ist unabh¨angig vom logischen Aufbau des Buches. 1.2 Mixed-Media Dokumente Mixed-Media-Dokumente enthalten Daten unterschiedlichen Typs. Dies ist besonders bei elektronisch gespeicherten Dokumenten der Fall, da prinzipiell alle maschinell speicherbaren Datenarten verwendet werden k¨onnen. Zur Erstellung von Mixed-Media-Dokumenten sind in der Regel eigene Editoren notwendig, ebenso zum Betrachten der Dokumente. Im Kontext von Sprachdatenbanken sollten Mixed-Media-Dokumente nicht verwendet werden, um Plattform- und Software-Abh¨angigkeiten weitgehend zu vermeiden. Statt dessen sollten alle Daten in eigenen Dateien in ihrem nat¨ urlichen Format gespeichert und ¨ uber Verweise zu virtuellen Mixed-Media-Dokumenten verkn¨ upft werden, die dann z. B. mit Browsern betrachtet werden k¨onnen. Beispiel Viele Internetseiten verwenden als Blickf¨anger Animationen auf der Startseite. Diese bestehen aus Grafiken, Fotos und Text; die einzelnen Inhalte werden mit ¨ Uberblendungen, Ein- und Ausblenden oder ¨ Ahnlichem animiert. Zum Erstellen solcher Animationen muss der Inhalt in das Animationsdokument eingebunden, die Animation zusammengestellt und das Dokument abschließend gespeichert werden. 114 Symbolische Daten Die im Internet weitverbreiteten Flash-Animationen wurden in der Regel mit dem Flash-Editor der Firma Adobe erstellt und dann als SWF-Dateien (von Shockwave Flash) auf einem Server im Internet abgelegt (vgl. Kapitel 5 Abschnitt 4.3.4). Betrachtet werden k¨onnen diese Animationen dann von allen Browsern, auf denen die Flash-Erweiterung (engl. plug-in) installiert ist. 1.3 Zeichentabellen Zur maschinellen Verarbeitung m¨ ussen die Zeichen eines Alphabets kodiert werden. Dazu dienen Zeichentabellen, die alle grafischen Zeichen, Glyphe genannt, und optional den Namen der Glyphe enthalten. Jede Glyphe ist eindeutig durch ihre Position in der Tabelle gekennzeichnet. Bei den Zeichentabellen hat sich eine Entwicklung von relativ kleinen, fest mit einem Kodierverfahren verbundenen Tabellen, hin zu im Prinzip unbeschr¨ankt großen Zeichentabellen mit verschiedenen Kodierverfahren vollzogen. Um eine Austauschbarkeit von Textdokumenten zu gew¨ahrleisten, wurden Standards f¨ ur Zeichentabellen definiert. 1.3.1 ISO-8859 Die ISO-8859-Zeichens¨atze sind ein solcher, weitverbreiteter Standard mit einer 8 Bit großen Zeichentabelle: auf den Positionen 0 bis 31 stehen Steuerzeichen wie Zeilenende, Tabulator usw., auf den Positionen 32 bis 127 die Buchstaben des amerikanischen Alphabets, Ziffern, sowie Interpunktions- und mathematische Zeichen. 1 Auf den Positionen 128- 255 sind sprachspezifische Glyphen untergebracht: in ISO-8859-1 die Zeichen westeurop¨aischer Sprachen, in ISO-8859-6 arabische Zeichen, in ISO-8859-8 hebr¨aische usw. 1.3.2 Unicode F¨ ur große Alphabete mit mehr als 256 Zeichen, z. B. die chinesischen, japanischen oder koreanischen Alphabete, und f¨ ur mehrsprachige Dokumente oder solche mit speziellen Zeichen, z. B. mathematische oder phonetische Symbole, sind 8 Bit-Tabellen nicht ausreichend - sie sind zu klein. Allerdings ist eine einfache Erweiterung der Zeichentabelle aus 1 Die Steuerzeichen enthalten auch einige Zeichen, an denen man dem maschinenlesbaren Alphabet seine Abstammung von der Schreibmaschine ansieht: je ein Zeichen f¨ ur den Wagenr¨ ucklauf (engl. carriage return) und Zeilenvorschub (engl. line feed) sowie das Klingeln, das fr¨ uher das baldige Erreichen des rechten Seitenrandes signalisierte. Symbolische Daten 115 zwei Gr¨ unden nicht sinnvoll: Erstens ist auch eine Tabelle mit 16 Bit langen Kodes mit 65.536 Eintr¨agen sicherlich irgendwann zu klein, und zweitens ist eine Tabelle mit 32 Bit langen Kodes zwar wahrscheinlich ausreichend groß, aber der Speicherplatzbedarf von vier Byte f¨ ur jedes Zeichen ist sehr hoch. Mit dem Unicode-Standard wurden Zeichentabelle und Kodierung entkoppelt. Unicode ist eine Zeichentabelle, die alle Glyphen aller Schriftsprachen der Welt - inklusive des IPA-Alphabets - enth¨alt [DEF + 01] Die Unicode-Tabelle ist erweiterbar, d. h. sie kann um neue Glyphen, z. B. durch Hinzuf¨ ugen neuer Alphabete oder einzelner Zeichen, erweitert werden. 2 Das Unicode-Konsortium ist f¨ ur die Spezifikation des Standards verantwortlich. Auf den Webseiten ist unter www.unicode.org stets die aktuellste Version des Standards zu finden. Diese Seiten enthalten alle in Unicode definierten Glyphe in ihrer grafischen Darstellung, als auch ihre Unicode-Nummer, den Namen und Angaben zur Verwendung der Glyphe bzw. zu verwandten Glyphen. 1.4 Kodierung Prinzipiell gibt es zur Kodierung von Positionen in Zeichentabellen viele verschiedene Verfahren. Bei 8 Bit langen Kodes verwendet man meist einfach die Bin¨arkodierung der Nummer der Position in der Zeichentabelle. Kodierungen mit mehr als einem Byte sind etwas problematischer, weil die verschiedenen Prozessoren Folgen von mehreren Byte unterschiedlich interpretieren: f¨ ur einige Prozessoren entspricht in einer Folge von zwei Bytes das erste Byte den vorderen 8 und das zweite Byte den hinteren 8 Stellen der dazugeh¨origen Bin¨arzahl, f¨ ur andere Prozessoren ist es genau andersherum. Greift nun ein Prozessor auf Daten in der falschen Kodierung zu, dann werden die Daten nicht korrekt erkannt und dargestellt. F¨ ur Unicode haben sich im Wesentlichen die UTF-Kodierungsverfahren (von Unicode Transformation Format) durchgesetzt, die sich untereinander im Platzbedarf, der Kompatibilit¨at zu anderen Kodierverfahren und der maximalen Anzahl m¨oglicher Kodes unterscheiden. In UTF-8 wird jedes Unicode-Zeichen durch eine variabel lange Folge von Bytes kodiert (maximal erlaubt sind vier Bytes), in UTF-16 durch zwei Bytes, in UTF-32 durch vier Bytes. 2 Ein gutes Beispiel ist das e Symbol, das im Jahr 2002 eingef¨ uhrt wurde. 116 Symbolische Daten UTF-8 ist kompatibel zu US-ASCII, d. h. Texte, die nur Zeichen aus dieser Zeichentabelle verwenden, bleiben unver¨andert. Das betrifft eine Vielzahl von Textdokumenten, aber in erheblichem Umfang auch Quelltexte von Computerprogrammen! UTF-8 ist zudem unabh¨angig von der Bytereihenfolge, da die einzelnen Bytes separat betrachtet werden. Die Nachteile von UTF-8 sind der erh¨ohte Berechnungsaufwand f¨ ur ein Zeichen durch die variabel langen Kodes, und die beschr¨ankte Gr¨oße auf (immerhin) ca. 1.14 Mio. Eintr¨age. UTF-16 verwendet stets mindestens zwei Bytes pro Zeichen, maximal vier. UTF-32 verwendet immer vier Bytes pro Zeichen. Die UTF-Kodierungen werden von vielen Rechnerplattformen, Anwendungsprogrammen und Programmiersprachen unterst¨ utzt. Bei der Konversion eines Textes von einer Zeichentabelle in eine andere, oder auch beim Wechsel der Kodierung, ist Vorsicht geboten, da die verschiedenen Kodierungen nicht kompatibel sind! Beispiel Der Text ‘Unm¨oglich! ’ in ISO-8859-1 Kodierung besteht aus der Bytefolge mit den Werten (in Dezimalschreibweise) [85, 110, 109, 246, 103, 108, 105, 99, 104, 33]. Der gleiche Text in UTF-8 Kodierung besteht aus der Bytefolge (wieder in Dezimalschreibweise) [85, 110, 109, 195, 182, 103, 108, 105, 99, 104, 33], also aus einem Byte mehr. ¨ Offnet man diese UTF-8 Bytefolge nun wieder als ISO-8859-1 kodierten Text, dann erh¨alt man den Text ‘Unm ˜ A ¶ glich! ’ - tats¨achlich unm¨oglich! 1.5 Formate Textdaten liegen in einem vorgegebenen Format vor - in Dateien, als Attributwerte in Datenbanken, oder von Anwendungsprogrammen dynamisch generiert. Das Format definiert die zul¨assigen Zeichentabellen und Alphabete f¨ ur Inhalt und Marker sowie die Struktur der Dokumente. Zur Bearbeitung von Textdaten ist es unabdingbar, a) das Format dieser Daten richtig zu erkennen und b) den passenden Editor f¨ ur diese Daten zu verwenden. In Kapitel 5 Abschnitt 1.5 werden verschiedene Verfahren zur Erkennung des Dateiformats beschrieben. Bei der Auswahl eines Editors sollte man darauf achten, dass der Editor verschiedene Zeichentabellen und Kodierungsformate erkennt und diese auch explizit anzeigt, und dass er wirklich nach jeder ¨ Anderung der Datei eine entsprechende Warnung beim Sichern der Datei ausgibt, auch wenn diese Ver¨anderung gar nicht sichtbar ist, sondern Symbolische Daten 117 nur den Zeichensatz oder die Kodierung betrifft. Viele vorinstallierte Texteditoren ver¨andern stillschweigend Zeichentabelle und Kodierung und geben dem Benutzer keine Warnung. 2 Exkurs: Datenkonversion Im Seminar ‘Regionale Variation in Sprachdatenbanken’ hatten Studenten die Aufgabe, in der Literatur beschriebene regional bedingte Lautph¨anomene in einem Referat vorzustellen und dann in der Sprachdatenbank Ph@ttSessionz Belege f¨ ur diese Ph¨anomene zu finden. Ausgew¨ahlt wurden vier Themen: • das / a: / , das in Bayern eher als hinteres [6] gesprochen wird, ansonsten als [a: ], • der Lehrer-Schwa / 5/ , der als [@], [5], [R] oder als ‘Zwischending’ zwischen [@] und [5] gesprochen werden kann, • die Realisierung des Frikativs / ç/ , der im Norden Deutschlands als [ç], in der Mitte als [S] und im S¨ uden als [k] gesprochen wird und • der Formantverlauf der Diphthonge / aI/ , / aU/ und / OY/ . Sprachbelege sollten in den phonetisch reichen S¨atzen der Sprachdatenbank gefunden werden, und zwar so, dass S¨atze ausgew¨ahlt werden, die in m¨oglichst vielen verschiedenen Orten gesprochen werden und die zu analysierenden Ph¨anomene enthalten. Die Ph@ttSessionz Sprachdatenbank war zum Zeitpunkt des Seminars orthographisch transliteriert, aber noch nicht segmentiert. Die Segmentierung der ausgew¨ahlten S¨atze war Teil der Aufgabe. Zur Segmentierung sollte die Software Praat verwendet werden, zur eigentlichen Auswertung das Statistikpaket R in Kombination mit dem Analyseprogramm Emu. Abb. 55 gibt die ben¨otigten Ressourcen, Programmpakete und den Datenfluss wieder. Die Transliterationen sind in einem relationalen Datenbanksystem gespeichert. Mit der Exportfunktion des Datenbanksystems wurden die phonetisch reichen S¨atze, die den Suchbedingungen gen¨ ugten, in eine Textdatei in UTF-8 Format exportiert - insgesamt waren dies ca. 1500 S¨atze. Diese Textdatei wurde von einem perl-Skript in das BAS-Partitur Format konvertiert, damit es als Eingabe f¨ ur die automatische Segmentation durch MAUS geeignet war. Das BPF erstellt eine explizite Hierarchie der Annotationsebenen, und es erlaubt nur 7 Bit codierte Zeichen, d. h. Umlaute und ß mussten gem¨aß LaTeX Konvention konvertiert werden. So wurde z. B. aus ¨a ein "a. 118 Symbolische Daten Datenbankexport perl Skript Konversion MAUS Vorsegmentation R Skript EMU Import Praat Segmentation Rohtext BAS Partitur EMU Dateien TextGrid Diagramme, Tabellen TextGrid Lexikon Datenbank Abbildung 55. Ressourcen, Softwarepakete und Datenfluss bei der Annotation und Analyse von Sprachdaten. MAUS erzeugt als Ergebnis eine Segmentationsdatei in BPF, die es in eine TextGrid-Datei konvertieren kann. TextGrid ist das Dateiformat f¨ ur Annotationen in Praat. In Praat sind die Annotationsebenen unabh¨angig voneinander, Beziehungen werden nicht explizit dargestellt, sondern man muss sie implizit durch die Verwendung gleicher Zeitangaben auf den Ebenen nachbilden. Seit Version 5 erlaubt Praat neben ISO-8859 auch Unicode in verschiedenen Kodierungen, z. B. UTF-8, UTF-16 LE und UTF-16 BE. Die Studenten haben die ihnen zugewiesenen S¨atze teils unter Linux auf den Institutsrechnern, teils unter Windows oder Mac auf ihren eigenen Rechnern segmentiert und anschließend als TextGrid-Dateien auf den Institutsrechnern gespeichert. Da die Segmentationsarbeit sehr viel l¨anger dauerte als urspr¨ unglich gedacht, konnten nur knapp 630 S¨atze bearbeitet werden. Deren Segmentierungen lagen dann zwar als TextGrid-Dateien, aber in drei unterschiedlichen Kodierungen vor. Diese mussten mit dem Konversionsprogramm iconv in UTF-8-kodierte Unicode-Dateien konvertiert werden. Das Abfrage- und Analyseprogramm Emu erlaubt zwar den direkten Import von TextGrid-Dateien. Da es jedoch die Beziehungen zwischen den Annotationsebenen ebenso wie das BPF explizit angibt, musste diese Hierarchie aus den TextGrid-Dateien, wo sie nicht mehr vorhanden waren, erst wieder erzeugt werden. Bei l¨angeren S¨atzen und solchen, bei denen die Zeitmarken nicht exakt ¨ ubereinstimmten, kam es dabei zu Problemen, so dass insgesamt nur 612 S¨atze erfolgreich importiert werden konnten. Symbolische Daten 119 Die abschließende Auswertung der Daten in Emu erfolgt durch Skripte im Statistikpaket R. Die dabei erzeugten Diagramme wurden mit Kopieren und Einf¨ ugen direkt in ein Pr¨asentationsprogramm eingebunden und in der abschließenden Seminarsitzung vorgestellt. Die wesentlichen Ergebnisse sind: • das / a: / wird von m¨annlichen Sprechern im Vokalraum breit gestreut, bei weiblichen bilden sich zwei Cluster - unabh¨angig von der Sprachregion, • / 5/ wird in den unterschiedlichen Dialektgebieten unterschiedlich variabel realisiert und von alveolaren Plosiven st¨arker beeinflusst als von bilabialen, • die Realisierungen des / ç/ verteilen sich wie vorhergesagt, wobei / S/ auch im Norden h¨aufig zu finden ist, • die Diphthonge der bairischen Sprecherinnen sind, bei Betrachtung der ersten Diphthong-Vokals, tendenziell offener realisiert als bei allen anderen Sprechern. Bei allen Analysen wurde bem¨angelt, dass in den 612 Datens¨atzen viel zu wenige Belege gefunden wurden, und dass die S¨atze nicht nach Geschlecht, Alter und Region ausgewogen verteilt waren. 3 XML Kennzeichen von Markup-Sprachen ist eine strikte Trennung von Struktur und Darstellung: eine Dokumenttyp-Definition (DTD) spezifiziert die Struktur von Dokumentklassen, die Darstellung eines konkreten Dokuments wird ¨ uber Stilvorlagen (engl. style sheets) an das jeweilige Ausgabemedium angepasst. XML (engl. eXtensible Markup Language) ist eine Markup-Sprache zur Beschreibung strukturierter Dokumente. Bei der Entwicklung von XML wurde auf eine einfache Syntax geachtet, um die Implementation von Editoren und Parsern zu vereinfachen [BPSM98]. Die Struktur eines XML Dokuments ist stets streng hierarchisch. Netzwerk-Strukturen lassen sich mit der Standoff-Technik realisieren [CMI02, Sch04b], d. h. ¨ uber Hyperlinks, die auf externe XML Dokumente oder auf Anker innerhalb von XML Dokumenten verweisen. Eine Dokumenttyp-Definition legt die zul¨assigen Zeichentabellen, das Tag-Inventar und die Syntax der Tags fest. Das Tag-Inventar ist an das Anwendungsgebiet angepasst. Liegt f¨ ur ein XML Dokument keine DTD vor, dann gilt es als wohlgeformt, wenn es der allgemeinen XML- Syntax entspricht. Ein XML Dokument ist g¨ ultig, wenn es wohlgeformt 120 Symbolische Daten ist und zudem nur die in einer Dokumenttyp-Definition vereinbarten Tags verwendet. F¨ ur die Dokumenttyp-Definition haben sich zwei Formate etabliert: • Das DTD-Format beschreibt das Inventar der Tags und die Dokumentstruktur in einem einfachen Plain Text Format durch Angabe der erlaubten Tags und ihrer formalen Eigenschaften, z. B. optional, einfach, wiederholt usw. DTDs erlauben nur die sehr allgemeine Unterscheidung von Datentypen als entweder parseable character data bzw. character data. Standard-DTDs k¨onnen in XML- Dokumente eingebettet werden oder in separaten DTD-Dateien stehen (Abb. 56). • XML-Schema ist eine DTD in XML-Syntax, so dass zu ihrer Erstellung und Pr¨ ufung die normalen XML-Editoren und Parser verwendet werden k¨onnen. XML-Schema verf¨ ugt ¨ uber ein komplexes Typsystem inklusive Kollektionen und unterst¨ utzt die objektorientierte Modellierung von Dokumenttypen. ¨ Uber sog. Namensr¨aume erlaubt XML-Schema die Disambiguierung von Tags und somit die Verwendung mehrerer Dokumenttyp-Definitionen innerhalb eines XML-Dokuments [CT00, TBMM99, BM00]. XML-Editoren unterst¨ utzen mindestens das DTD-Format und XML- Schema. Alternativen zum komplexen XML-Schema sind Relax-NG [CM01] oder Schematron [Sch05]. <! ELEMENT annotation (signal, annotator, orthography)> <! ELEMENT signal (#PCDATA)> <! ATTLIST signal name #CDATA required> <! ELEMENT annotator (#PCDATA)> <! ATTLIST id CDATA #REQUIRED> <! ELEMENT orthography (segment+)> <! ELEMENT segment (#PCDATA)> <! ATTLIST segment begin CDATA #REQUIRED end CDATA #REQUIRED unit CDATA #REQUIRED > Abbildung 56. DTD f¨ ur die einfache zeitalinierte Annotation aus Abb. 54. Im Kontext von Sprachdatenbanken hat sich XML bei der Erstellung und Konfiguration von Software als universelles Format f¨ ur An- Symbolische Daten 121 <? xml version="1.0" encoding="UTF-8"? > <xs: schema xmlns: xs="http: / / www.w3.org/ 2001/ XMLSchema" elementFormDefault="qualified"> <xs: element name="annotation"> <xs: complexType> <xs: sequence> <xs: element ref="signal"/ > <xs: element ref="annotator"/ > <xs: element ref="orthography"/ > </ xs: sequence> </ xs: complexType> </ xs: element> <xs: element name="signal"> <xs: attribute name="name" use="required"/ > </ xs: element> <xs: element name="annotator"> <xs: attribute name="id" use="required"/ > </ xs: element> <xs: element name="orthography"> <xs: element minOccurs="1" maxOccurs="unbounded" ref="segment"/ > </ xs: element> <xs: element name="segment"> <xs: complexType mixed="true"> <xs: attribute name="begin" use="required"/ > <xs: attribute name="end" use="required"/ > <xs: attribute name="unit" use="required"/ > </ xs: complexType> </ xs: element> </ xs: schema> Abbildung 57. XML-Schema f¨ ur die einfache zeitalinierte Annotation aus Abb. 54. notationen sowie als Austauschformat f¨ ur komplex strukturierte Dokumente durchgesetzt. Um XML herum haben sich eine Reihe von zus¨atzlichen Technologien etablieren k¨onnen. XSLT ist ein Standard zur Transformation von XML Dokumenten, XPointer und XLink sind Standards f¨ ur die Notation von Hyperlinks, XPath und XQuery erlauben den Zugriffauf die Elemente eines XML-Dokuments. Die Spezifikationen dieser Standards sind auf den Webseiten des World Wide Web Konsortiums (W3C) unter www.w3c.org verf¨ ugbar. 122 Symbolische Daten 4 Datenbanksysteme Eine Datenbank ist eine selbstst¨andige, auf Dauer und f¨ ur flexiblen und sicheren Gebrauch ausgelegte Datenorganisation, umfassend einen Datenbestand (auch Datenbasis genannt) und die dazugeh¨orige Datenverwaltung [Zeh89]. Eine Datenbank hat die folgenden charakteristischen Eigenschaften: • Datenmodellierung: die Daten haben eine logische, ¨ uberschaubare Struktur, • Datenintegrit¨at: die Daten sind frei von inneren Widerspr¨ uchen, gesch¨ utzt vor Verlust und unberechtigtem Zugriff, • Datenunabh¨angigkeit: die Daten bestehen unabh¨angig von verarbeitenden Programmen, und • Datenpermanenz: die Daten sind auf Dauer nutzbar. Ein Datenbankverwaltungssystem (engl. database management system) ist eine Kombination von Hard- und Software, die die charakteristischen Eigenschaften einer Datenbank realisiert. 4.1 Datenmodellierung Bei der Datenmodellierung wird ein Sachverhalt, die sog. Miniwelt, in einem Datenmodell beschrieben. Das relationale Datenmodell basiert auf mathematischen Relationen, den Mengenoperatoren Vereinigung ∪ , Durchschnitt ∩ und Subtraktion \ sowie den speziellen relationalen Operatoren Selektion, Projektion und Verbund. 3 Das objekt-orientierte Datenmodell definiert komplexe Datenstrukturen in Klassen und organisiert diese Klassen in einer Hierarchie. 4.1.1 ER-Diagramm Zur Darstellung von Datenmodellen verwendet man das anschauliche ER-Diagramm (engl. Entity-Relationship diagram) von [Che76] oder eine Erweiterung dieser Diagrammtechnik wie UML [BRJ98]. Das ER-Diagramm kennt Entit¨aten und Beziehungen: Entit¨aten haben eine Bezeichnung und sie bestehen unabh¨angig voneinander oder stehen miteinander in Beziehung. Beziehungen bestehen zwischen zwei Entit¨aten, sie sind somit von Entit¨aten abh¨angig. Eine Beziehung hat eine Bezeichnung, und sie quantifiziert das Verh¨altnis von Entit¨aten: bei einer 1: 1-Beziehung zwischen zwei Entit¨aten E 1 und E 2 steht jedes Element e 1i aus E 1 mit einem Element e 2j aus E 2 in Beziehung, 3 Gute Einf¨ uhrungen in Datenbanken geben z. B. [EN99, Heu97, STS97] Symbolische Daten 123 bei einer 1: n Beziehung ein e 1i mit vielen e 2j , ..., e 2m , bei einer n: m Beziehung viele e 1i , ..., e in mit vielen e 2j , ..., e 2m . Entit¨aten und Beziehungen werden durch Attribute beschrieben. Beispiel Bei Sprachaufnahmen f¨ ur eine Sprachdatenbank nehmen viele Sprecher an je mindestens einer Aufnahmesitzung teil. In jeder Aufnahmesitzung werden viele einzelne Vorgaben zum Vorlesen oder Beantworten pr¨asentiert, und jede Vorgabe kann in vielen Sitzungen pr¨asentiert werden. Abb. 58 zeigt das entsprechende ER-Diagramm. Sprecher teilnehmen Sitzung Aufnahme resultieren Vorgabe präsentieren 1 n 1 n n m Abbildung 58. Einfaches ER-Diagramm f¨ ur Sprachaufnahmen. Mit einem solch einfachen ER-Diagramm kann man bereits die wesentlichen Akteure und Daten bei Sprachaufnahmen und ihre Beziehungen zueinander beschreiben. Das ER-Diagramm ist dabei einerseits so intuitiv, dass auch Nicht-Informatiker verstehen, was es darstellt, andererseits aber auch schon so pr¨azise, dass ein Programmierer es in eine konkrete Datenbank-Implementation umsetzen kann. In einem zweiten Schritt werden die Attribute hinzugef¨ ugt. F¨ ur einige Attribute ist es ganz einfach: alle Sprechereigenschaften kommen in die Entit¨at ‘Sprecher’, alle Aufnahmeeigenschaften zu ‘Aufnahme’. Manchmal ist es jedoch nicht ganz einfach zu entscheiden, was wohin kommt: sind Datum und Uhrzeit Eigenschaften einer Sitzung oder der Beziehung zwischen Sprecher und Sitzung? In Abb. 59 sind Attribute angegeben. Datum und Uhrzeit sind als Eigenschaften der Beziehung ‘teilnehmen’ modelliert, da sie erst dann angegeben werden k¨onnen, wenn der Sprecher tats¨achlich an der Aufnahmesitzung teilnimmt. 124 Symbolische Daten Sitzung Aufnahme resultieren Vorgabe präsentieren 1 n m n Sprecher Mutterspr. Akzent Raucher Text Typ Dateiname Format Status Raum Technik Geb.Datum Geschlecht teilnehmen Datum Uhrzeit 1 n Abbildung 59. Erweitertes ER-Diagramm f¨ ur Sprachaufnahmen mit Attributen. 4.2 Datendefinition Das ER-Diagramm muss zur Realisierung der Datenbank in ein konkretes Datenmodell ¨ uberf¨ uhrt werden. F¨ ur das relationale Datenmodell hat sich die Sprache SQL (engl. structured query language) durchgesetzt, f¨ ur das objekt-orientierte Datenmodell ist es OQL (engl. object query language). Sowohl SQL als auch OQL beinhalten Befehle zur Datendefinition, d. h. zur Beschreibung der Struktur einer Datenbank. Beispiel Die Entit¨aten ‘Sprecher’ und ‘Sitzung’ sowie die Beziehung ‘teilnehmen’ zwischen diesen Entit¨aten wird in SQL als zwei Tabellen Sprecher und Sitzung definiert. Beide Tabellen erhalten ein zus¨atzliches Attribut zur eindeutigen Identifizierung jedes Tabelleneintrags namens ID, das Schl¨ usselattribut. create database sample_sdb encoding = ’utf-8’; create table sprecher ( id integer, geb_datum date, geschlecht char(1), muttersprache text, Symbolische Daten 125 akzent text, raucher boolean, primary key (id)); create table sitzung ( id integer, technik text, raum text, teilnehmen integer, datum date, uhrzeit time, primary key (id), foreign key (teilnehmen) references sprecher(id)); Die Beziehung ‘teilnehmen’ ist durch die Attribute teilnehmen, datum und uhrzeit in der Tabelle Sitzung implementiert. 4 Der Zugriffauf den Datenbestand wird durch die Vergabe von Zugriffsrechten geregelt. Man sollte mindestens zwei Klassen von Datenbankbenutzern vorsehen: einen Administrator, der Daten eingeben und ¨andern darf, und Nutzer, die die Daten nur lesen d¨ urfen. Ist man als Nutzer angemeldet, kann man auf die Daten zugreifen und Auswertungen durchf¨ uhren, aber man kann die Daten nicht ¨andern, also z. B. keine Daten aus Versehen l¨oschen. create user nutzer; grant select on sprecher, sitzung to nutzer; 4.3 Datenmanipulation Die Datenmanipulation gliedert sich in die zwei Bereiche ¨ Anderung und Abfrage. Zur ¨ Anderung z¨ahlen die Befehle zum Einf¨ ugen, L¨oschen und ¨ Andern, zur Abfrage die Auswahl und das Anordnen von Datens¨atzen. 4.3.1 Einf¨ ugen, L¨oschen und ¨ Andern Das Eintragen von Daten in die Datenbank erfolgt in SQL mit dem Befehl insert, L¨oschen mit delete und ¨ Andern mit upate . Die Befehle insert into sprecher values (200, ’1904/ 01/ 06’, ’m’, ’deutsch’, ’bairisch’, false); insert into sprecher values (201, ’1970/ 01/ 01’, ’f’, 4 Eine alternative Implementierung k¨onnte die Beziehung ’teilnehmen’ als eigene Tabelle vorsehen, mit den Attributen sprecher id, sitzung id, datum und uhrzeit. 126 Symbolische Daten ’deutsch’, ’alemannisch’, true); insert into sitzung values (1, ’mobile-pre usb; beyerdynamic opus54’, ’studiobox’, 200, ’2008/ 08/ 24’, ’14: 02’); insert into sitzung values (2, ’mobile-pre usb; beyerdynamic opus54’, ’studiobox’, 201, ’2008/ 08/ 24’, ’14: 46’); insert into sitzung values (3, ’mobile-pre usb; at3031’, ’studiobox’, 200, ’2008/ 08/ 25’, ’10: 54’); insert into sitzung (id, technik, raum) values (4, ’mobile-pre usb; at3031’, ’studiobox’); f¨ ugen der Datenbank zwei Sprecher mit den Sprecher-IDs 200 und 201 und vier Aufnahmesitzungen mit den IDs 1, 2, 3 und 4 hinzu. An den Aufnahmesitzungen haben der Sprecher 200 zweimal, der Sprecher 201 einmal teilgenommen. Die Sitzung 4 ist geplant, aber noch nicht aufgenommen, da die Attribute teilnehmen, datum und uhrzeit noch leer gelassen sind. Viele SQL-Datenbanksysteme bieten auch eine grafische Schnittstelle zur Eingabe und Abfrage von Daten (Abb. 60). a) b) Abbildung 60. Grafische Schnittstelle zur Eingabe von Daten in einer SQL- Datenbank am Beispiel der Software pgAdmin. a) zeigt zwei Datens¨atze in der Tabelle Sprecher, b) vier Datens¨atze der Tabelle Sitzung. Die unterste Zeile der Tabelle erlaubt die Eingabe neuer Datens¨atze. Symbolische Daten 127 4.3.2 Abfrage Eine Abfragesprache erlaubt den Zugriffauf den Datenbestand. Sie besteht aus Operatoren zur Auswahl von Spalten und Zeilen der Tabelle, und zur Verkn¨ upfung mehrerer Tabellen miteinander. Beispiel Eine Datenbankabfrage in SQL beginnt mit dem Befehl select und einer Folge von Spaltenbezeichnungen. Alle weiteren Bestandteile der Abfrage sind optional; sie beginnen jeweils mit einem Schl¨ usselwort, gefolgt von Argumenten. Die Abfrage select spr.id,spr.muttersprache,spr.akzent,spr.raucher from sprecher spr order by spr.muttersprache; gibt alle Spalten der Tabelle sprecher sortiert nach muttersprache aus. F¨ ugt man noch eine Suchbedingung hinzu, werden nur die Datens¨atze zur¨ uckgegeben, die der Bedingung gen¨ ugen: select spr.id,spr.muttersprache,spr.akzent,spr.raucher from sprecher spr where spr.raucher order by spr.muttersprache; Ihre eigentliche M¨achtigkeit zeigt die Abfragesprache bei der Verkn¨ upfung mehrerer Tabellen. In der folgenden Abfrage wird nach der Sprechernummer, Muttersprache und nach dem Aufnahmeraum aller Raucher gesucht: select spr.id, spr.muttersprache, si.raum from sprecher spr inner join sitzung si on spr.id = si.teilnehmen where spr.raucher order by spr.muttersprache; In grafischen Benutzeroberfl¨achen sind Abfragen ¨ uber mehrere Tabellen nur schwierig zu realisieren - sp¨atestens hier erweist es sich als n¨ utzlich, die Abfragesprache SQL zu lernen. 128 Symbolische Daten 5 Weitere Software Neben Dateien und Datenbanksystemen gibt es weitere technische Hilfsmittel zur Verwaltung von Daten. Im Kontext von Sprachdatenbanken sind dies vor allem Wikis und Foren, die bei der Erstellung von Sprachdatenbanken und ihrer sp¨ateren Verwendung sehr n¨ utzlich sind. 5.1 Wiki Ein Wiki ist eine Software zur raschen Erfassung und Wiedergabe unstrukturierter Information ¨ uber einen Internet Browser. Benutzer melden sich beim Wiki an und haben dann entsprechend den ihnen zugeteilten Zugriffsrechten die M¨oglichkeit, Inhalte des Wiki zu lesen oder selbst Inhalte zu erstellen. In der Regel bietet ein Wiki einen Kalender, in den man Aufgaben eintr¨agt und der die betroffenen Benutzer rechtzeitig an die Termine erinnert, einen Texteditor zum Verfassen und ¨ Andern von Mitteilungen, eine Suchfunktion sowie eine Funktion zum Hochladen von Dateien, die dann Bestandteil des Wiki-Inhalts werden. Ein Wiki eignet sich hervorragend zur Sammlung von Informationen und Dokumenten, die im Laufe einer Sprachdatensammlung anfallen oder erstellt werden. Durch die Verwendung des Internets ist der Zugriff ¨ uber jeden Browser und von jedem Ort aus m¨oglich. Das Hochladen von beliebigen Dokumenten und Signaldateien erleichtert den Datenaustausch und kann in vielen F¨allen den Versand per E-Mail oder Datentr¨ager vermeiden. Technisch sind Wikis als Client-Server Systeme implementiert. Der Client, d. h. der Browser, fordert vom Wiki Server Daten an, pr¨asentiert sie auf dem Bildschirm und f¨ uhrt elementare Verarbeitungsschritte, z. B. die syntaktische Pr¨ ufung von E-Mail Adressen, durch. Auf dem Server l¨auft das eigentliche Wikiprogramm mit Kalender, Editor und Datenverwaltung. Die Datenverwaltung des Wiki erledigt ein Datenbanksystem. Beispiel Das klassische Beispiel eines Wikis ist nat¨ urlich das online-Lexikon Wikipedia. In Wikipedia kann jeder einen Artikel zu einem Stichwort anlegen. Sobald der Artikel auf den Wikipedia-Server ¨ ubertragen ist, kann er von allen Internetnutzern gelesen und ver¨andert werden. Die Nutzer von Wikipedia k¨onnen aber nicht nur Artikel lesen, erstellen oder vorhandene ¨andern, sondern offensichtlich falsche oder Symbolische Daten 129 verbotene Inhalte melden, so dass diese Artikel von den Wikipedia- Administratoren korrigiert oder auch gel¨oscht werden k¨onnen. In der Praxis hat sich Wikipedia als sehr brauchbares Lexikon erwiesen, auch wenn es immer wieder zu heftigen Diskussionen ¨ uber den Inhalt einiger Artikel kommt. Wikipedia ist nicht nur in oﬃziellen Landessprachen, sondern auch in teilweise noch gar nicht oder erst seit kurzem kodifizierten regionalen Varianten verf¨ ugbar, z. B. Schweizerdeutsch oder Letzeburgisch. 5.2 Forum Ein Forum ist ein System zur Verwaltung von Diskussionsbeitr¨agen ¨ uber das Internet. Ein Forum wird meist zu einem allgemeinen Thema eingerichtet. Benutzer melden sich beim Forum an und k¨onnen dann alle oder ausgew¨ahlte Diskussionen verfolgen oder selbst dazu beitragen. Die Diskussionen sind in Themen unterteilt, wobei diese Themen h¨aufig auch von den Benutzern selbst initiiert werden k¨onnen. Diskussionsbeitr¨age beziehen sich dann auf ein solches Thema oder auf vorangegangene Beitr¨age. Ein Thema ist so lange aktiv, wie neue Beitr¨age hinzugef¨ ugt werden, oder bis es vom Forumsbetreiber geschlossen wird. Zum Betrachten und Erstellen von Forumsbeitr¨agen verwendet man einen beliebigen Internet-Browser. Damit ist die Nutzung eines Forums von jedem Ort aus m¨oglich. Die Darstellung der Beitr¨age ist ¨ ublicherweise nach Themen und darin nach Datum sortiert, so dass man den chronologischen Ablauf der Diskussion nachverfolgen kann. ¨ Offentliche Foren stellen ihre Diskussionsbeitr¨age so ins Internet, dass sie von Suchmaschinen indexiert werden k¨onnen. Dies ist vor allem dann n¨ utzlich, wenn Verfahrensfragen diskutiert oder technische Tipps und Ratschl¨age gesucht werden. Im Kontext von Sprachdatenbanken sind Foren dann sinnvoll, wenn mehrere Personen, die m¨oglicherweise geografisch verteilt sind, eine Aufgabe bearbeiten. Außerdem eignet sich ein Forum hervorragend als Ausgangsbasis f¨ ur die Dokumentation einer Sprachdatensammlung, da es schon thematisch gegliedert ist und alle Beitr¨age chronologisch angeordnet sind. Technisch ist ein Forum wie ein Wiki ein Client-Server System. Der Server speichert die Beitr¨age in einem Datenbanksystem und implementiert die Suchfunktion, der Client fordert die Beitr¨age zu den einzelnen Themen an, stellt sie auf dem Bildschirm dar und erlaubt das Erstellen neuer Beitr¨age oder das Anlegen neuer Themen. 130 Symbolische Daten Beispiel Abb. 61 zeigt einen Ausschnitt aus dem Benutzerforum der Software Praat. Dieses Forum ist auf einem ¨offentlich zug¨anglichen Forums- Server installiert und kann von jedem Browser aus genutzt werden. Abbildung 61. Bildschirmauszug des Praat Benutzerforums http: / / uk.groups.yahoo.com/ group/ Praat-users/ . Am oberen Bildschirmrand sind die typischen Navigations- und Suchelemente zu finden. Mit ‘Messages: Simplify ! Expand’ kann man die Ansicht der einzelnen Beitr¨age zur besseren ¨ Ubersicht auf die ersten paar Zeilen beschr¨anken bzw. sich die Beitr¨age in der ganzen L¨ange anschauen. Symbolische Daten 131 6 Aufgaben 1. Was ist der Unterschied zwischen implizit und explizit strukturierten Dokumenten? Nennen Sie je zwei Beispiele. 2. Was sind Hyperlinks oder Verweise? 3. Warum gibt es verschiedene ISO-8859 Zeichentabellen und worin unterscheiden sie sich? 4. Worin unterscheidet sich Unicode von anderen Zeichentabellen? 5. Warum gibt es f¨ ur Unicode verschiedene Kodierungsverfahren? 6. Was ist XML? Wozu dient eine Dokumenttyp-Definition? 7. Ist jedes wohlgeformte XML-Dokument auch g¨ ultig? Begr¨ unden Sie Ihre Antwort. 8. Zeichnen Sie in das ER-Diagramm in Abb. 58 eine neue Entit¨at ‘Segment’ und ihre Beziehung zu anderen Entit¨aten ein. 9. Welche Attribute ben¨otigt die Entit¨at ‘Segment’ ? Begr¨ unden Sie Ihre Entscheidung. 10. Formulieren Sie eine Suchanfrage in SQL, mit der Sie nach allen Sitzungen suchen, die im Raum ‘Studio 1‘ stattgefunden haben. Erweitern Sie die Anfrage so, dass Sie auch das Geschlecht der Sprecher bekommen, die an diesen Sitzungen teilgenommen haben. Aufnahmetechnik Dieses Kapitel behandelt die f¨ ur Sprachaufnahmen ben¨otigte Technik, d. h. Mikrofone und Aufnahmeger¨ate, beschreibt die Akustik von R¨aumen und anderen Aufnahmeumgebungen und erl¨autert einige h¨aufig angewendete Aufnahmeverfahren. 1 Mikrofone Ein Mikrofon wandelt auftreffende Schallwellen in elektrische Signale um. Mikrofone unterscheiden sich technisch im Wesentlichen nach • Wirkungsprinzip, • ¨ Ubertragungsbereich und Frequenzgang, • Richtcharakteristik und • Bauform. Qualitative Unterschiede zeigen sich nat¨ urlich in den technischen Daten der Mikrofone, aber auch in den vom Hersteller garantierten Toleranzen sowie der Dokumentation. Auch g¨ unstige Mikrofone k¨onnen eine gute Signalqualit¨at liefern, aber dies ist dann eine Eigenschaft dieses einen Mikrofonexemplars. F¨ ur einfache Mikrofone machen Hersteller meist nur sehr pauschale Angaben, die qualitative Streuung in einer Produktionsserie ist mitunter recht groß und die Verf¨ ugbarkeit auf dem Markt kurz. Mikrofone f¨ ur den professionellen Einsatz kommen mit ausf¨ uhrlicher Dokumentation, es gibt umfangreiches Zubeh¨or und Ersatzteile, und sie sind langfristig erh¨altlich. In diesem Kapitel werden nur die f¨ ur Sprachaufnahmen wichtigsten Eigenschaften beschrieben, weiterf¨ uhrende Information liefern [Ter98, HAH01, WSAG04] sowie die Webseiten der einschl¨agigen Mikrofonhersteller. 1.1 Wirkungsprinzip Das Wirkungsprinzip eines Mikrofons ist entweder piezoelektrisch, dielektrisch oder elektro-dynamisch. Die Wandlung von Schall in elektrischen Strom findet in der Mikrofonkapsel statt. In einem piezoelektrischen Mikrofon trifft Schall auf eine Membran, die mechanisch mit einem piezoelektrischen Element verbunden ist. Die Aufnahmetechnik 133 Bewegungen der Membran verformen das piezoelektrische Element, das dadurch eine elektrische Spannung erzeugt. Piezoelektrische Mikrofone eignen sich wegen ihres hohen Klirrfaktors nicht f¨ ur qualitativ hochwertige Aufnahmen und werden daher nicht mehr verwendet. Historische Aufnahmen aus den Jahren 1930-1960 k¨onnen mit solchen Mikrofonen erstellt worden sein. Beim dielektrischen Mikrofon ver¨andert der Schall den Abstand zwischen den elektrisch geladenen Fl¨achen eines Kondensators. Beim Kondensatormikrofon wird diese Ladung durch Anlegen einer sog. Phantomspeisung erzeugt. Diese Phantomspeisung wird von Batterien oder einem Mikrofonvorverst¨arker geliefert. Kondensatormikrofone werden wegen ihrer guten Signalqualit¨at vor allem in Tonstudios eingesetzt. Sie sind allerdings mechanisch empfindlich und k¨onnen schon durch sehr hohen Schalldruck, wie er z. B. beim Singen in wenigen Zentimetern Abstand vom Mund auftritt, besch¨adigt werden. Elektretmikrofone sind ebenfalls dielektrische Mikrofone. Hier wird die elektrische Ladung durch eine Elektretfolie permanent bereitgestellt, ein solches Mikrofon ben¨otigt daher keine Phantomspeisung. In der Mikrofonkapsel befindet sich immer auch ein Mikrofonvorverst¨arker, der meist aus einer Batterie gespeist wird. Elektretmikrofone k¨onnen sehr g¨ unstig hergestellt und sehr klein gebaut werden, zudem sind sie mechanisch unempfindlich. Sie sind daher in fast allen Einsatzbereichen und Bauformen zu finden. Gute Elektretmikrofone liefern eine sehr gute Signalqualit¨at, solange der Schalldruck nicht zu hoch wird, denn dann erzeugen sie deutliche Verzerrungen. Bei elektro-dynamischen Mikrofonen bewegt der auftreffende Schall einen Anker in einem elektromagnetischen Feld, wodurch ein geringer Strom induziert wird. Elektro-dynamische Mikrofone werden h¨aufig f¨ ur Live-Aufnahmen von Musik verwendet, da sie auch bei hohem Schalldruck sehr gute Signalqualit¨at liefern. 1.2 ¨ Ubertragungsbereich und Frequenzgang Der ¨ Ubertragungsbereich gibt an, welchen Frequenzbereich ein Mikrofon aufnehmen kann. F¨ ur Sprachaufnahmen sollte dieser Bereich von 40 - 20.000 Hz reichen. Die ¨ Ubertragungsfunktion gibt das Verh¨altnis von Eingangszu Ausgangssignal wieder. Beim Mikrofon ist dies das Verh¨altnis zwischen auftreffendem Schall und abgegebenem Pegel. Der Frequenzgang stellt die ¨ Ubertragungsfunktion grafisch als zweidimensionale Matrix dar. An der x-Achse ist die Frequenz in Hz, ¨ ublicherweise in logarithmischer Skala, angetragen, auf der y-Achse der relative Pegel in dB. 134 Aufnahmetechnik Bei geringem Abstand der Schallquelle vom Mikrofon tritt der Nahbesprechungseffekt auf, bei dem tiefe Frequenzen betont werden, die sog. Bassanhebung. ¨ Ublicherweise wird daher die ¨ Ubertragungsfunktion zus¨atzlich in Abh¨angigkeit von der Entfernung der Schallquelle angegeben (Abb. 62). Abbildung 62. Empfindlichkeit des Beyerdynamic opus54 Nahbesprechungsmikrofons. Deutlich sichtbar der Nahbesprechungseffekt unterhalb ca. 500 Hz [Bey]. 1.3 Richtcharakteristik Die Richtcharakteristik beschreibt die Empfindlichkeit des Mikrofons in Abh¨angigkeit von der Richtung, aus der der Schall kommt. Sie wird meist in Form eines zwei- oder dreidimensionalen Koordinatensystems angegeben. Die Richtcharakteristik ist frequenzabh¨angig. Daher werden im Diagramm f¨ ur charakteristische Frequenzen je eigene Linien gezeichnet (Abb. 63). Man unterscheidet grob drei Richtcharakteristiken: ungerichtet oder Kugelcharakteristik, bidirektional oder Acht- Charakteristik und gerichtet oder Keulencharakteristik (engl. omni-, bi- und directional). Mikrofone mit Kugelcharakteristik nehmen den Schall unabh¨angig von seiner Richtung auf. Mikrofone mit Acht-Charakteristik nehmen Schall haupts¨achlich entlang der L¨angsachse der Mikrofonkapsel in den Bereichen vor und hinter dem Mikrofon auf. Sind diese Bereiche unterschiedlich groß, dann spricht man auch von Nierencharakteristik. Mikrofone mit Keulencharakteristik, auch Richtrohrmikrofone genannt, nehmen nur Schall in L¨angsrichtung der Mikrofonkapsel auf. Die Richtcharakteristik wird von der Form der Mikrofonkapsel bestimmt. Druckmikrofone haben eine geschlossene Kapsel. Auf die Membran auftreffender Schall ver¨andert den Luftdruck in der Kapsel, unabh¨angig von der Richtung des Schalls. Druckmikrofone haben also eine Kugelcharakteristik. Druckgradientenmikrofone dagegen haben eine hinten offene Kapsel, die Membran wird durch den Druckunterschied Aufnahmetechnik 135 auf ihrer Vorder- und R¨ uckseite bewegt. Dieser Druckunterschied ist am st¨arksten, wenn der Schall von vorne auf die Membran trifft. Mikrofone mit Acht-, Nieren- oder Keulencharakteristik sind also stets Druckgradientenmikrofone. Abbildung 63. Diagramm mit der Nieren-Richtcharakteristik des Beyerdynamic opus54 Nahbesprechungsmikrofons. Bei Frequenzen unterhalb von ca. 125 Hz und oberhalb von ca. 4000 Hz ver¨andert sich die Richtcharakteristik z. T. deutlich [Bey]. 1.4 Mikrofonarray Die Richtcharakteristik eines Mikrofons reicht f¨ ur die Lokalisierung von Schallquellen in der Regel nicht aus. Dazu verwendet man ein Mikrofonarray. Ein Mikrofonarray besteht aus einer Anordnung von mehreren Mikrofonen in genau spezifizierter Position in einer Reihe oder Fl¨ache. Aufgrund der Laufzeitunterschiede des Schallsignals von der Schallquelle zu den einzelnen Mikrofonen kann die Position der Schallquelle ermittelt werden; umgekehrt kann durch eine geeignete Ver¨anderung der Empfindlichkeit einzelner Mikrofone im Array eine bestimmte Position im Raum bevorzugt erfasst werden. Damit k¨onnen z. B. einzelne Sprecher in einer Gruppenkommunikation herausgehoben werden. 1.5 Bauformen Neben diesen technischen Merkmalen lassen sich Mikrofone auch nach ¨außerer Form und Einsatzgebiet unterteilen. 136 Aufnahmetechnik 1.5.1 Nahbesprechungsmikrofon Ein Nahbesprechungsmikrofon (engl. close-talk microphone) ist ein kleines Mikrofon, das ¨ uber eine flexible Befestigung in die N¨ahe des Mundes gebracht wird (Abb. 65 a)). Die Entfernung vom Mund betr¨agt 1-3 cm, bei Mikrofonen mit Windschutz bis zu 5 cm. Um zu vermeiden, dass der Luftstrom aus Mund und Nase direkt auf das Mikrofon trifft, wird es im Mundwinkel platziert (Abb. 64). Abbildung 64. Beispiel f¨ ur die korrekte Position eines Nahbesprechungsmikrofons aus der Bedienungsanleitung des AKG C555. Deutlich sichtbar die seitliche Platzierung im Mundwinkel. Nahbesprechungsmikrofone sind h¨aufig mit ein- oder beidseitigen Kopfh¨orern zu sog. Headsets kombiniert (Abb. 66 a)). Bei ihrer Verwendung bleiben die H¨ande frei, so dass sie gut an Computer- oder Telefonarbeitspl¨atzen eingesetzt werden k¨onnen. Die Qualit¨at reicht von einfachen Ausf¨ uhrungen f¨ ur den Arbeitsplatz bis hin zu hochwertigen Ausf¨ uhrungen f¨ ur Studio- und B¨ uhnenaufnahmen. Ein Nahbesprechungsmikrofon ist entweder ¨ uber ein langes und flexibles Kabel oder drahtlos mit dem Aufnahmeger¨at verbunden. F¨ ur Sprachaufnahmen haben Nahbesprechungsmikrofone den Vorteil, dass Umgebungsger¨ausche weitgehend ausgeblendet werden, dass sie aufgrund der festen Position relativ zum Mund den Sprecher kaum in seiner Bewegungsfreiheit einschr¨anken, und dass sie vom Sprecher nach einer kurzen Eingew¨ohnungsphase nicht mehr als st¨orend empfunden werden. Nachteile sind starke Wind- und Ploppger¨ausche bei ung¨ unstiger Platzierung im Luftstrom beim Sprechen, deutliche Ger¨ausche beim Ber¨ uhren des Mikrofons oder der Ohrb¨ ugel, z. B. mit Brillengestellen oder Ohrringen, und bei unwillk¨ urlichen Gesten des Sprechers, z. B. Aufnahmetechnik 137 Spielen mit den Haaren, Finger im Gesicht usw. Hinzu kommt, vor allem in Dialogsituationen oder bei TV-Aufnahmen, die Sichtbarkeit des Mikrofons f¨ ur die anderen Dialogteilnehmer bzw. im Bild. a) b) Abbildung 65. a) Nahbesprechungsmikrofon Beyerdynamic opus54 und b) Ansteckmikrofon Sennheiser MKE 40. a) b) Abbildung 66. a) Headset Sennheiser PC 136 USB und b) Freisprechheadset Sennheiser MM 50. 1.5.2 Ansteckmikrofon Ein Ansteckmikrofon (engl. lapel microphone), auch Lavalier-Mikrofon genannt, ist ein kleines Mikrofon, das am Kragen bzw. vorne an der 138 Aufnahmetechnik Kleidung des Sprechers befestigt wird und haupts¨achlich das Sprachsignal aufnimmt (Abb. 65 b)). Die typische Entfernung betr¨agt ca. 20 - 30 cm vom Mund. Die Verbindung zum Aufnahmeger¨at erfolgt ¨ uber ein Kabel oder drahtlos. Ansteckmikrofone sind ein Kompromiss zwischen Nahbesprechungs- und Studiomikrofon. Ihre Vorteile sind, dass sie sehr unauff¨allig sind, wegen der geringen Entfernung zu Mund und Nase ein gutes, wenn auch Bass-verst¨arkendes, Signal liefern, dass weiter entfernte Schallquellen, z. B. andere Sprecher, kaum aufgenommen werden, und dass der Sprecher ein großes Maß an Bewegungsfreiheit beh¨alt. Nachteilig ist, dass Bewegungen des Kopfes gegen¨ uber dem Mikrofon zu starken Signalschwankungen f¨ uhren, dass verrutschende Kleidung die Mikrofonposition ver¨andern oder das Mikrofon ganz abdecken kann, und dass die Gefahr von unbeabsichtigten Ber¨ uhrungen besteht, z. B. mit Schmuck, Kn¨opfen oder dem Sicherheitsgurt bei Aufnahmen im Auto. Freisprechanlagen f¨ ur Mobiltelefone sind eine Spezialform des Ansteckmikrofons in besonders kompakter Bauform. Kabelgebundene Freisprecheinrichtungen ¨ahneln Ohrh¨orern f¨ ur Musikabspielger¨ate, haben aber ein Mikrofon und Bedienungselemente im Kabel. Drahtlose Freisprecheinrichtungen werden am Ohr befestigt, ihr Mikrofon ist aus 5 - 12 cm Entfernung auf den Mund gerichtet (Abb. 66 b)). 1.5.3 Studiomikrofon Ein Studiomikrofon ist meist auf einem Mikrofonstativ montiert und mit einem Plopp- und Windschutz gegen Atemger¨ausche und Speicheltropfen versehen. Die Verbindung zum Stativ ist h¨aufig flexibel, um Schall¨ ubertragungen zwischen Mikrofon und Stativ zu minimieren. Die typische Aufnahmeentferung liegt zwischen 1 und 100 cm, und sie sind meist ¨ uber ein Kabel mit dem Aufnahmeger¨at verbunden (Abb. 67 a)). Vorteile von Studiomikrofonen sind die hervorragende Signalqualit¨at und ihre f¨ ur eine Aufnahmesitzung fixierte Position im Raum. Ihr Hauptnachteil ist die stark eingeschr¨ankte Bewegungsfreiheit des Sprechers. 1.5.4 Reportagemikrofon Ein Reportagemikrofon ist ein mechanisch robustes Mikrofon mit Handgriff und Windschutz (Abb. 67 b)). Es verf¨ ugt ¨ uber einen Anschluss f¨ ur ein Tisch- oder Kamerastativ oder eine sog. Angel, mit der das Mikrofon in die N¨ahe des Sprechers gehalten werden kann. Es hat h¨aufig eine Aufnahmetechnik 139 zwischen Kugel und verschiedenen Nierenformen umschaltbare Richtcharakteristik sowie eine einstellbare Empfindlichkeit. Die typische Aufnahmeentfernung betr¨agt zwischen 30 und 100 cm. Reportagemikrofone sind besonders f¨ ur Aufnahmen im Feld geeignet, wo die Aufnahmebedingungen oft nicht vorhersehbar sind und daher Flexibilit¨at besonders wichtig ist. Die Signalqualit¨at ist in der Regel ausgezeichnet und f¨ ur Sprachaufnahmen gut geeignet. Eine Spezialform des Reportagemikrofons sind kompakte Aufnahmeger¨ate mit eingebauten Mikrofonen (vgl. Abschnitt 2.1). a) b) Abbildung 67. a) Studiomikrofon Audiotechnica AT3031 und b) Reportagemikrofon Beyerdynamic MCE58. 1.5.5 Raum- und B¨ uhnenmikrofon Raum- und B¨ uhnenmikrofone sind f¨ ur Aufnahmeentfernungen von ¨ uber 3 m geeignet. Sie sind in der Regel auf Mikrofonstativen befestigt oder h¨angen von der Decke frei im Raum (Abb. 68 a)). Da sie oft unzug¨anglich angebracht sind, werden sie ¨ uber eine Fernbedienung angesteuert. Sie haben eine ausgepr¨agte Keulen-Richtcharakteristik und liefern eine ausgezeichnete Signalqualit¨at. Bei großem Aufnahmeabstand k¨onnen allerdings einzelne Schallquellen, z. B. ein Sprecher in einer Gruppe von Sprechern, nicht isoliert aufgenommen werden. 140 Aufnahmetechnik Eine Sonderform sind Audioanlagen f¨ ur Konferenzen. An solchen Anlagen sind sehr viele Mikrofone angeschlossen, aber zu jedem Zeitpunkt ist immer nur ein einziges Mikrofon aktiviert. Der Aufnahmeabstand ist mit 30 - 80 cm recht gering, so dass nur ein einziger Sprecher aufgenommen wird. B¨ uhnen- und Konferenzmikrofone sind immer an eine Audioanlage mit einem Mischpult angeschlossen. Sie lassen sich daher sehr gut f¨ ur Sprachaufnahmen nutzen, da die Aufnahmeger¨ate direkt an das Mischpult angeschlossen werden k¨onnen. 1.5.6 Mausmikrofon Ein Mausmikrofon ist ein Mikrofon in Form einer kleinen Computermaus zum Anbringen auf einer Fl¨ache oder in einer Fassung zum Einbau in Ger¨ate oder Fahrzeuge (Abb. 68 b)). Die Aufnahmeentfernung betr¨agt ca. 30 - 60 cm mit einer Ausrichtung auf eine typische bevorzugte Sprecherposition, z. B. den Fahrersitz im Auto. Da Mausmikrofone meist in Massenprodukten verwendet werden, m¨ ussen sie einerseits sehr billig sein, andererseits aber auch eine Signalqualit¨at liefern, die f¨ ur die automatische Spracherkennung ausreicht. Diese Signalqualit¨at wird durch eine auf die Reduktion von Nebenger¨auschen optimierte Geh¨auseform und durch eine elektronische Signalverarbeitung bereits im Mikrofon erreicht. 1.6 Kabel und Stecker Mikrofone, Aufnahmeger¨ate und Rechner werden ¨ uber Kabel und Stecker miteinander verbunden. Bei Steckern und Kabeln gibt es eine Vielzahl von Varianten - bei Steckern ist stets sofort ersichtlich, ob sie zusammenpassen oder nicht, bei Kabeln ist dies nicht immer so einfach zu erkennen. In der Praxis f¨ uhrt dies h¨aufig dazu, dass abenteuerliche Konstruktionen aus Adaptern und Zwischenst¨ ucken gezimmert werden, die fehleranf¨allig sind und zu schlechter Signalqualit¨at f¨ uhren. Zwei Faustregeln sind: 1. Gibt es f¨ ur die gew¨ unschte Kombination von Anschl¨ ussen kein fertig konfektioniertes Kabel zu kaufen, dann ist diese Kombination mit großer Wahrscheinlichkeit nicht sinnvoll. 2. Eine Kabelverbindung darf h¨ochstens ¨ uber einen Adapter gehen. Leider ist es mit vertretbarem Aufwand fast unm¨oglich, die Qualit¨at von Kabeln und Steckern zu bestimmen. Generell sind vergoldete Kontakte, eine solide mechanische Bauweise und eine pr¨azise Typ- Aufnahmetechnik 141 a) b) Abbildung 68. a) H¨angemikrofon AKG CHM 21 und b) Mausmikrofon AKG Q400. beschreibung oder Normangabe Anzeichen f¨ ur qualitativ hochwertiges Material. Abbildung 69. Stecker f¨ ur Audiokabel. Von links nach rechts: XLR, Cinch und 3,5 mm Klinkenstecker mit Adapter auf 6,35 mm. 142 Aufnahmetechnik Kabel und Stecker m¨ ussen sorgf¨altig behandelt werden. Knicke k¨onnen Kabeladern durchtrennen, gewaltsames Einstecken, Abziehen oder Verkanten von Steckern L¨otverbindungen im Ger¨at zerbrechen - im besten Fall funktionieren die Kabel oder Stecker dann gar nicht mehr, im schlimmsten Fall nur manchmal. 1.6.1 Kabel Kabel unterscheiden sich nach ihrem inneren Aufbau und der ¨außeren H¨ ulle. Das Signal wird bei analogen Signalen elektrisch, bei digitalen auch optisch ¨ ubertragen. Zur ¨ Ubertragung elektrischer Signale sind ein positiver und ein negativer Pol mit je einer eigenen Leitung oder Ader notwendig. Diese Adern k¨onnen parallel nebeneinander verlaufen order paarweise verdrillt sein. Koaxialkabel bestehen aus einem Kern und einer umgebenden Abschirmung. Optische Kabel bestehen aus einer oder mehreren Glasfaseradern. Um bestimmte elektrische oder optische Eigenschaften zu garantieren, werden Kabel meist in fertig konfektionierten L¨angen und teilweise auch mit D¨ampfungselementen an den Kabelenden angeboten. Die ¨außere H¨ ulle von Kabeln sch¨ utzt die Adern vor mechanischen Einfl¨ ussen und isoliert sie. Farbige Kabel erleichtern die Zuordnung von Ger¨aten. Ein gutes Kabel hat einen Knickschutz an den Steckern, ist bei kalten und warmen Temperaturen flexibel und hat eine schmutzabweisende Oberfl¨ache. 1.6.2 Klinkenstecker Klinkenstecker sind zylindrische Stecker, bei denen eine Ader zur Spitze des Steckers f¨ uhrt und die anderen Adern mit ringf¨ormigen Segmenten im zylindrischen Teil des Steckers verbunden sind. ¨ Ublich sind Klinkenstecker mit 3,5 mm und 6,35 mm Durchmesser. Klinkenstecker f¨ ur Audio haben drei Kontakte, f¨ ur Video-Camcorder vier. F¨ ur optische digitale Verbindungen, beispielsweise f¨ ur das S/ PDIF- Protokoll, gibt es auch eine Variante des 3,5 mm Klinkensteckers aus Kunststoff. 3,5 mm Klinkenstecker werden wegen ihrer geringen Gr¨oße und des niedrigen Preises in kompakten Ger¨aten verwendet. Sie sind allerdings wegen der kleinen Kontaktfl¨achen und der h¨aufig sehr billigen Bauweise anf¨allig f¨ ur St¨orungen oder Besch¨adigungen. Aufnahmetechnik 143 Klinkenstecker mit 6,35 mm sind deutlich stabiler und werden gerne auch bei B¨ uhnenauftritten oder in rauen Umgebungen eingesetzt. Man findet sie nur bei professionellen Audioger¨aten. Qualitativ hochwertige Kopfh¨orer weisen h¨aufig einen Adapter f¨ ur 6,35 mm Klinkenstecker auf. Adapter mit Gewinde sind stabiler, passen aber nicht f¨ ur jeden Stecker. 1.6.3 Cinch-Stecker Cinch-Stecker sind farbcodierte Stecker f¨ ur Koaxialkabel. Sie werden haupts¨achlich zum Anschluss analoger Audioger¨ate an Stereoanlagen und Fernsehger¨ate verwendet, aber auch f¨ ur digitale Verbindungen. Rote und weiße Stecker sind f¨ ur den rechten bzw. linken Audiokanal, gelbe f¨ ur Video und orange f¨ ur S/ PDIF-Verbindungen bestimmt. Adapterkabel von Cinch auf 3,5 mm Klinkenstecker sind weitverbreitet, um portable Musikger¨ate anzuschließen. 1.6.4 XLR-Stecker XLR ist eine mechanisch robuste Steckverbindung, die haupts¨achlich f¨ ur professionelle Ausr¨ ustung und im Studio verwendet wird. XLR- Stecker k¨onnen nur in einer Ausrichtung eingesteckt werden, und sie sind durch einen kleinen Haken gegen unabsichtliches Herausziehen aus der Buchse gesichert. Moderne Ger¨ate haben Buchsen, die sowohl XLR-Stecker als auch 6,35 mm Klinkenstecker aufnehmen k¨onnen (Abb. 72). Bei Ansteck- und Nahbesprechungsmikrofonen sind Mini-XLR Stecker gebr¨auchlich, f¨ ur die es Adapter auf den großen XLR-Stecker gibt. 1.6.5 Digitale Audiokabel Mit S/ PDIF haben Sony und Philips einen Standard zur Verbindung digitaler Audioger¨ate geschaffen, der weite Verbreitung gefunden hat. S/ PDIF ist das Protokoll, als ¨ Ubertragungskabel kommen Koaxialkabel mit Cinch-Steckern oder optische Kabel mit TOSLink oder optischen 3,5 mm Klinkensteckern zum Einsatz. 2 Aufnahmeger¨ate Das schwache Mikrofonsignal muss verst¨arkt werden, damit es aufgezeichnet werden kann. Bei Elektretmikrofonen ist dieser Verst¨arker h¨aufig bereits in das Mikrofongeh¨ause integriert, bei den anderen Mikrofontypen wird meist ein separater Vorverst¨arker verwendet. 144 Aufnahmetechnik Die Digitalisierung des analogen Audiosignals ¨ ubernehmen Analog/ digital-Wandler, abgek¨ urzt A/ D-Wandler (engl. A/ D-converter). Diese A/ D-Wandler befinden sich bei digitalen Aufzeichnungsger¨aten wie DAT-Recordern (Digital Audio Tape), Camcordern oder ¨ahnlichen direkt im Ger¨at. Auf dem Rechner erfolgt die Digitalisierung entweder mittels einer eingebauten Soundkarte oder einem extern angeschlossenen Audio-Interface. Das Ergebnis der A/ D-Wandlung h¨angt nicht nur von der Qualit¨at des eigentlichen Konverters ab, sondern auch von den auf das Signal einwirkenden St¨orungen wie Schwankungen in der Stromversorgung oder Einstrahlungen anderer Komponenten und Ger¨ate wie z. B. Lichtmaschine im Fahrzeug, Schaltnetzteil bei tragbaren Rechnern oder Mobiltelefon beim Verbindungsaufbau (Abb. 71). F¨ ur Sprachaufnahmen sollte ausschließlich digitale Technik zum Einsatz kommen, denn sie bietet gegen¨ uber analogen Aufnahmen viele Vorteile: sobald das Signal digitalisiert ist, bleibt auch in den folgenden Verarbeitungsschritten die Qualit¨at unver¨andert. Abtastrate und Quantisierung k¨onnen frei gew¨ahlt werden, Daten sind ohne Generationsverlust kopierbar und Speichermedien sind billig, robust und haben eine große Speicherkapazit¨at. F¨ ur Sprachaufnahmen werden typischerweise folgende Ger¨ate bzw. Ger¨atekombinationen verwendet: portable digitale Recorder, Video- Camcorder mit externen Mikrofonen oder Rechner mit externem Audio- Interface bzw. mit digitalem Mischpult. 2.1 Portable digitale Recorder Digitale Recorder sind kompakte Aufzeichnungsger¨ate mit fest eingebauten Mikrofonen und integriertem digitalen A/ D-Wandler. Sie speichern das Audiosignal auf Speicherkarten, die entweder fest eingebaut oder auswechselbar sind. Batterien erlauben einen Einsatz unabh¨angig vom Stromnetz. Die Richtcharakteristik der eingebauten Mikrofone l¨asst sich umschalten, und viele Recorder erlauben den Anschluss externer Mikrofone. Aus Platzgr¨ unden ist allerdings h¨aufig nur der Anschluss eines externen Mikrofons m¨oglich, und dann auch nur ¨ uber den mechanisch instabilen 3,5 mm Klinkenstecker. Der Anschluss an den Computer erfolgt ¨ uber ein USB-Kabel oder drahtlos, wobei das Ger¨at auf dem Rechner als externes Speichermedium mit eigenem Dateisystem erscheint. Der Datenaustausch erfolgt dann in hoher Geschwindigkeit ¨ uber das Kopieren von Dateien. Portable digitale Recorder haben den Vorteil, dass sie kompakt sind und Mikrofon und Speicher in einem Ger¨at vereinen. Damit eignen sie Aufnahmetechnik 145 sich hervorragend f¨ ur Aufnahmen im Feld. Bedingt durch die kompakte Bauweise sind die Bedien- und Anzeigeelemente h¨aufig sehr klein, und die Mikrofone nehmen Ger¨ausche von der Bedienung oder Ber¨ uhrung des Ger¨ats ebenfalls auf. Abbildung 70. portabler digitaler Recorder Zoom H2. 2.2 Video-Camcorder Video-Camcorder bestehen aus einem optischen System, einem Bildwandler und einem Speichermedium. Das optische System besteht aus einem Objektiv fester oder variabler Brennweite (Zoom); die Blenden¨offnung kann zur Steuerung der einfallenden Lichtmenge variiert werden, die Fokussierung erfolgt manuell oder automatisch. Der Bildwandler wandelt das einfallende Licht in elektrische Signale um. Hierzu werden sog. CCD (engl. charge coupled device) verwendet. Bei analogem Video wird das Signal der CCD auf Magnetband geschrieben. Bei digitalem Video wird das Signal in einem Codec digitalisiert und dann auf Magnetband, DVD, Festplatte oder Speicherkarte geschrieben. 146 Aufnahmetechnik 2.2.1 Camcorder Einfache Camcorder haben eine CCD mit Zellen, die jeweils f¨ ur eine der drei Prim¨arfarben rot, gr¨ un und blau empfindlich sind. Bedingt durch die hohe Dichte der Zellen kann die durch auftreffendes Licht in einer Zelle entstehende Ladung in benachbarte Zellen abfließen, so dass auch diese ein Signal liefern, zu Lasten von Farbeindruck und Sch¨arfe. Fokussierung, Helligkeit und Lautst¨arke der Audioaufnahme werden automatisch eingestellt, Codec und Videoformat sind fest vorgegeben. Qualitativ hochwertige Videokameras haben drei CCD, eine f¨ ur jede Prim¨arfarbe. Ein Prisma im Strahlengang zerlegt das Licht in die Prim¨arfarben und lenkt jede Farbe auf die entsprechende CCD. Camcorder dieser Klasse haben ein lichtstarkes Zoomobjektiv mit geringer Verzeichnung, und Fokussierung, Blenden¨offnung und Verschlusszeit k¨onnen neben der automatischen Steuerung auch von Hand erfolgen. Statt der eingebauten k¨onnen externe Mikrofone angeschlossen werden, deren Aussteuerung automatisch oder manuell erfolgt. Codecs und Videoformat k¨onnen eingestellt oder ¨ uber Parameter ver¨andert werden, und h¨aufig sind mehrere Speichermedien m¨oglich. 2.2.2 Video-Walkman Neben Camcordern gibt es auch Recorder ohne eigene Optik, den sog. Video-Walkman. An diese Recorder k¨onnen unterschiedliche Kameras und optische Systeme angeschlossen werden. Auf diese Weise ist es m¨oglich, Aufnahmeger¨at und Optik r¨aumlich zu trennen. Dies ist z. B. in medizinischen Umgebungen, an unzug¨anglichen Orten oder bei Aufnahmen unter besonderen akustischen Bedingungen notwendig. 2.2.3 Spezialkameras F¨ ur spezielle Anwendungen gibt es Hochgeschwindigkeitskameras mit Bildraten von mehr als 100 Bildern pro Sekunde (engl. frames per second, fps), Infrarotkameras f¨ ur Tracking oder Aufnahmen bei Dunkelheit, und miniaturisierte Spezialobjektive f¨ ur medizinische Aufnahmen oder den Einbau in Fahrzeuge oder Ger¨ate. Videosplitter erlauben die synchrone Aufnahme mehrerer Kameras in einer Videospur. Damit k¨onnen ohne nachtr¨agliche Synchronisation mehrere Videospuren zeitgleich aufgezeichnet werden, was in vielen experimentellen Situationen notwendig ist, z. B. bei der gleichzeitigen Aufnahme von Gestik, Mimik und Blickbewegungen. Da die verschiedenen Videospuren in eine normale Videospur geschrieben werden, reduziert sich die Gr¨oße jeder Einzelspur entsprechend. Aufnahmetechnik 147 2.2.4 Anschluss digitaler Videoger¨ate Der Anschluss digitaler Videokameras an einen Rechner erfolgt ¨ uber ein schnelles serielles Interface wie IEEE 1394 (auch FireWire oder iLink genannt), USB oder drahtlos mit einer Datenrate von ¨ uber 100 MBit/ s. USB erlaubt nur die Daten¨ ubertragung, per FireWire kann auch der Camcorder durch die Videosoftware auf dem Rechner gesteuert werden, z. B. zum Starten und Stoppen von Aufnahmen. 2.3 Rechner Laptops und Arbeitsplatzrechner eignen sich mit geeigneter zus¨atzlicher Hardware f¨ ur Audio- und Sprachaufnahmen. 2.3.1 Audiokarten Audioaufnahmen und -wiedergabe mit dem Rechner erfolgen ¨ uber eingebaute oder nachtr¨aglich installierte Audiokarten, auch Soundkarten genannt. Die Karten haben normalerweise einfache 3,5 mm Klinkenstecker f¨ ur den Anschluss analoger Audioger¨ate. Diese Karten werden ¨ uber sog. Treiber (engl. driver) in das Betriebssystem eingebunden und stehen somit allen Anwendungsprogrammen zur Verf¨ ugung. Diese eingebauten Karten sind meist von recht geringer Qualit¨at, da sie nicht gut abgeschirmt sind. St¨orungen durch andere Systemkomponenten wie Netzteil, optische Laufwerke, drahtlose Netzwerktechnologie usw. strahlen in das analoge Audiosignal ein und verf¨alschen es. In tragbaren Rechnern sind diese Einstrahlungen wegen der kompakten Bauweise der Rechner besonders ausgepr¨agt (Abb. 71). Arbeitsplatzrechner lassen sich durch Einschubkarten erweitern. Die meisten hochwertigen Audio-Einschubkarten sind gegen Einstrahlungen relativ unempfindlich, und sie verf¨ ugen meist ¨ uber Anschl¨ usse f¨ ur mehrere analoge und digitale Audioger¨ate und mechanisch stabile Stecker wie 6,35 mm Klinken- oder XLR-Stecker. 2.3.2 Externe A/ D Wandler Eine Alternative zu internen Audiokarten sind externe A/ D Wandler oder Audio-Interfaces. Diese Ger¨ate verf¨ ugen ¨ uber mehrere analoge und digitale Eing¨ange, haben eine zuschaltbare Phantomspeisung f¨ ur Kondensatormikrofone, Regler zur Aussteuerung der Aufnahme und Kopfh¨oreranschluss zu Kontrollzwecken. Sie sind ¨ uber eine digitale Schnittstelle, meist USB oder FireWire, mit dem Rechner verbunden; 148 Aufnahmetechnik a) b) Abbildung 71. Oszillogramm und Sonagramm eines Audiosignals, aufgenommen auf einem Laptop a) im Batteriebetrieb, b) im Netzbetrieb. Die Einstrahlungen durch das Netzteil sind im Sonagramm als Harmonische der Netzfrequenz von 50 Hz in Form eng begrenzter horizontaler Streifen deutlich zu erkennen. dieser Anschluss versorgt das Ger¨at auch mit Strom, so dass ein eigenes Netzteil meist nicht notwendig ist (Abb. 72). Abbildung 72. Externes Audio-Interface f¨ ur Sprachaufnahmen am Beispiel des M- Audio FireWire 410. Die Vorderseite (oben) bietet zwei regelbare Eing¨ange f¨ ur XLR bzw. 6,35 mm Klinkenstecker mit zuschaltbarer Phantomspeisung f¨ ur Kondensatormikrofone, Anzeigen f¨ ur die Eing¨ange sowie zwei regelbare Kopfh¨orerausg¨ange; die R¨ uckseite (unten) digitale MIDI-, FireWire- und S/ PDIF Anschl¨ usse und analoge 6,35 mm Eing¨ange. Aufnahmetechnik 149 Der r¨aumliche Abstand zu St¨orquellen im Rechnergeh¨ause und der digitale Anschluss an den Rechner erlauben eine Digitalisierung des Audiosignals weitgehend frei von Einstrahlungen. Der Rechner bietet als Aufnahmeger¨at gegen¨ uber portablen digitalen Recordern eine Reihe von Vorteilen (vgl. dazu Abschnitt 6): • Die Aufnahme erfolgt direkt auf den Rechner, ein Kopieren der Daten ist nicht notwendig. • Mit einer geeigneten Software k¨onnen Sprachaufnahmen halb- oder vollautomatisch ablaufen. • Außerdem kann der Rechner zur Anzeige von Stimuli verwendet werden, wobei auch Audio- und Videostimuli m¨oglich sind. Nachteilig ist, dass Rechner deutlich gr¨oßer sind als portable Recorder, und dass Sprecher durch den Rechner eingesch¨ uchtert oder abgelenkt werden k¨onnen. Außerdem produzieren viele Rechner ein mehr oder weniger lautes Arbeitsger¨ausch, z. B. durch L¨ ufter oder die Bedienung der Tastatur. 3 Exkurs: Aufnahmekoffer F¨ ur Sprachaufnahmen im Feld habe ich einen eigenen Aufnahmekoffer gepackt, der griffbereit im Rechnerraum des Instituts bereitsteht (Abb. 73). Er enth¨alt • ein externes USB Audio-Interface zum Anschluss der Mikrofone an den Rechner, • ein Nahbesprechungsmikrofon, • ein Tischmikrofon, • einen einfachen Kopfh¨orer, • die Mikrofon- und das USB-Kabel, • Personenbogen und eine Einverst¨andniserkl¨arung sowie • Schreibblock auf einer stabilen Unterlage und einen Stift. Den Aufnahmerechner, meistens einen Laptop, nehme ich in einer Tasche oder Rucksack mit, ebenso eine Mehrfachsteckdose. Ich versuche, immer mit der gewohnten Ausr¨ ustung zu arbeiten, um mich m¨oglichst wenig mit der Technik besch¨aftigen zu m¨ ussen. Am Aufnahmeort baue ich die Ausr¨ ustung auf und teste sie kurz - erst dann fange ich mit einer Aufnahmesitzung an. Zu Beginn der Aufnahmesitzung erl¨autere ich Sinn und Umfang der Aufnahmen; w¨ahrend dieses eher lockeren Gespr¨achs teste ich die Technik noch einmal und f¨ ulle gemeinsam mit dem Sprecher den Personenbogen und die Einverst¨andniserkl¨arung aus (vgl. Abschnitt 7). Diese ist wichtig, um die 150 Aufnahmetechnik Abbildung 73. Aufnahmekoffer f¨ ur Feldaufnahmen. Sprach- und Videoaufnahmen sp¨ater f¨ ur wissenschaftliche Zwecke nutzen und publizieren zu k¨onnen. 4 R¨aume Generell unterscheidet man Studio- und Feldaufnahmen. Bei Studioaufnahmen k¨onnen die Aufnahmebedingungen pr¨azise kontrolliert und reproduziert werden, bei Aufnahmen im Feld sind diese Bedingungen variabel. Ein Raum ist akustisch durch die Schalld¨ammung und die Nachhallzeit (engl. reverberation time) charakterisiert. Die Schalld¨ammung gibt an, wie stark Außenger¨ausche innerhalb des Raumes noch wahrnehmbar sind. Die Nachhallzeit ist die Zeit, die vergeht, bis ein Schallsignal im Raum nach seinem Ende nicht mehr wahrzunehmen ist. Die Nachhallzeit wird bestimmt von der Gr¨oße des Raums und den Reflexionseigenschaften der W¨ande und Decken, sowie von den Gegenst¨anden und Personen im Raum. Glatte, harte Fl¨achen reflektieren Schall gut, raue und weiche Fl¨achen dagegen reflektieren Schall nur diffus. Der Nachhall entsteht aus den Schallreflexionen im Raum. Aufnahmetechnik 151 Als Maß f¨ ur die Nachhallzeit wird angegeben, wie lange es dauert, bis der Schalldruckpegel um 60 dB, d. h. auf ein Millionstel des urspr¨ unglichen Wertes, abgenommen hat (vgl. Kapitel 2 Abschnitt 2.3). Die Nachhallzeit ist abh¨angig von der Frequenz (Abb. 74). F¨ ur Musik ist eine lange Nachhallzeit im Bereich von 1 - 2,5 s f¨ ur einen nat¨ urlichen und angenehmen Klangeindruck erw¨ unscht; in Kirchen kann sie sogar bis zu 8 s betragen. Die Verst¨andlichkeit von Sprache leidet jedoch bei langen Nachhallzeiten. Allgemein wird f¨ ur sprachliche Kommunikation in R¨aumen eine Nachhallzeit von 0,3 bis 0,5 s als angenehm empfunden. In Tab. 9 sind einige typische Nachhallzeiten aufgelistet. Die Nachhallzeit f¨ ur den Konzertsaal gilt f¨ ur den vollbesetzten Saal. Der ¨ Ubungsraum ist gegen Außenger¨ausche schallged¨ammt. Im ged¨ammten Klassenzimmer sorgen eigene Schallabsorber f¨ ur eine gute Sprachverst¨andlichkeit. Die Nachhallzeit in B¨ uros und Wohnr¨aumen ist f¨ ur tiefe Frequenzen deutlich l¨anger als f¨ ur h¨ohere, und sie ist abh¨angig von der M¨oblierung und sonstigen Ausstattung. Raum Volumen Nachhallzeit m 3 s Konzertsaal 20.000 1,5 - 2,5 Probeb¨ uhne 600 1,4 ¨ Ubungsraum 30 0,6 normales Klassenzimmer 150 0,7 - 0,8 ged¨ammtes Klassenzimmer 150 0,4 - 0,5 B¨ uro 25 0,3 - 0,5 Wohnraum 25 - 100 0,3 - 0,8 Studiokabine 15 - 60 0,05 - 0,2 Tabelle 9. Typische Nachhallzeiten von R¨aumen. 4.1 Reflexionsarmer Raum Ein reflexionsarmer Raum, umgangssprachlich auch schalltoter Raum genannt, ist zum einen stark schallged¨ammt, um Außenger¨ausche nicht eindringen zu lassen, zum anderen extrem reflexionsarm, d. h. Schall wird von den Oberfl¨achen absorbiert. Dies wird ¨ ublicherweise mit keilf¨ormigen Elementen aus Mineralwolle erreicht. Zudem stehen reflexionsarme R¨aume h¨aufig auf einem eigenen, vom umgebenden Geb¨aude m¨oglichst getrennten Fundament. Reflexionsarme R¨aume werden f¨ ur akustisch reine Aufnahmen und zu Messzwecken verwendet. F¨ ur Sprachaufnahmen sind sie nur bedingt 152 Aufnahmetechnik geeignet, da ein l¨angerer Aufenthalt in einem solchen Raum f¨ ur viele Sprecher unangenehm ist. 4.2 Studiokabine Eine Studiokabine ist gew¨ohnlich gut schallged¨ammt und hat eine kurze Nachhallzeit von 0,05 bis 0,2 Sekunden. Diese kurze Nachhallzeit wird durch in verschiedenen Winkeln zueinander versetzte Oberfl¨achen und schallabsorbierendes Material erzielt. Da die Kabinen in standardisierten Bauformen angeboten werden, dokumentieren die Hersteller die Schalld¨ammung und die Nachhallzeit f¨ ur eine ganze Baureihe (Abb. 74). Abbildung 74. Nachhallzeit der Premium-Reihe von Studiokabinen der Firma Studiobox. Studiokabinen haben meist ein Fenster, damit die visuelle Kommunikation mit Personen außerhalb der Kabine, z. B. einem Aufnahmeleiter oder Toningenieur, m¨oglich ist. Die Kabinen sind entweder fest eingebaut, oder als Raum im Raum realisiert. Studiokabinen sind f¨ ur Sprachaufnahmen f¨ ur fast alle Zwecke gut geeignet. Der akustische Eindruck f¨ ur die Sprecher ist sehr nat¨ urlich, und Aufnahmetechnik 153 das Sprachsignal ist weitgehend frei von ¨außeren Einfl¨ ussen. Zwei Studiokabinen mit Sichtverbindung eignen sich gut f¨ ur Dialogaufnahmen mit mimischer oder gestischer Interaktion bei gleichzeitiger akustischer Kanaltrennung. 5 Aufnahmen im Feld Mit Aufnahmen im Feld bezeichnet man Aufnahmen, die nicht in akustisch kontrollierten R¨aumen stattfinden. Das reicht von ganz normalen B¨ uro- und Wohnr¨aumen ¨ uber ¨offentliche R¨aume wie Bahnh¨ofe und Gastst¨atten bis hin zu mobilen Umgebungen, etwa im Auto. Auch Aufnahmen auf der Straße und am Arbeitsplatz in Betrieben, Fabrikhallen oder auf dem Feld z¨ahlen zu den Feldaufnahmen. Bei Feldaufnahmen dominiert das Umgebungsger¨ausch den Nachhall. Bei B¨ uroaufnahmen sind h¨aufig der Rechner, andere Personen oder Ger¨ate zu h¨oren, in Wohnr¨aumen Hintergrundger¨ausche wie Musik oder Verkehrsl¨arm. Bei Aufnahmen in ¨offentlichen R¨aumen ist das Umgebungsger¨ausch in der Regel sehr laut und meist auch sprachlich, bei Aufnahmen im Fahrzeug ist das Ger¨ausch eher technisch und abh¨angig von externen Faktoren wie Fahrbahnbeschaffenheit, Wetter, Geschwindigkeit und L¨ uftung. Eine vollst¨andige akustische Erfassung und Messung der Umgebung ist bei Feldaufnahmen wegen des hohen Aufwands und der variablen Bedingungen nicht ¨ ublich. Sinnvoll und einfach ist es, einen Teil der Sprachaufnahmen dazu zu verwenden, das Umgebungsger¨ausch aufzunehmen, um einen Eindruck von den vorherrschenden Bedingungen zu bekommen, und diese gegebenenfalls mit Video oder Fotos zu dokumentieren. 5.1 Ausr¨ ustung Genausowenig wie es ‘die’ Feldaufnahme gibt, gibt es ‘die’ Standardausr¨ ustung f¨ ur solche Aufnahmen. Generell gilt allerdings: • Die Speicherung und Verarbeitung von Signalen erfolgt ausschließlich digital. • Audiosignale werden gar nicht oder allenfalls verlustfrei komprimiert. • Video wird h¨ochstens mit DV-Codecs komprimiert. • Alle Ger¨ate sollten sowohl mit Batterien oder Akkus als auch am Stromnetz betrieben werden k¨onnen. 154 Aufnahmetechnik Letzteres ist besonders wichtig, wenn am Aufnahmeort gar kein oder ein un¨ ublicher Stromanschluss (wie z. B. eine Autosteckdose mit Laptop-Adapter) vorhanden ist. Die folgenden Konfigurationen f¨ ur typische Aufnahmesituationen sind f¨ ur Feldaufnahmen geeignet, da sie transportabel sind und keine feste Installation der Aufnahmetechnik voraussetzen. 5.2 Freies Gespr¨ach Bei einem freien Gespr¨ach sind die Gespr¨achspartner r¨aumlich nah beieinander, haben Blickkontakt und sprechen miteinander; die Gespr¨achsanteile sind in etwa gleich verteilt. Sie bleiben an einem Ort, z. B. sitzend an einem Tisch oder auf der Wohnzimmercouch. Hier eignen sich portable Recorder als Aufnahmeger¨at. Bei leisen Umgebungsger¨auschen kann man das eingebaute Mikrofon verwenden, ansonsten ein Ansteckmikrofon oder ein Tischmikrofon mit ausgepr¨agter Nierencharakteristik. In Simulations- oder Spielsituationen, z. B. MapTask 1 , in denen die Teilnehmer sich auf eine Aufgabe konzentrieren m¨ ussen, k¨onnen auch Nahbesprechungsmikrofone gut eingesetzt werden. Bewegen sich die Gespr¨achspartner im Raum, z. B. bei einem Rundgang durch ein Geb¨aude, dann bekommt jeder Gespr¨achsteilnehmer entweder einen eigenen portablen Recorder mit Ansteckmikrofon, oder ein Ansteckmikrofon mit Funkverbindung. F¨ ur jedes solche Mikrofon muss dann ein Funkempf¨anger am Aufnahmeger¨at angeschlossen werden. Wenn man zwei Recorder verwendet, ist eine Synchronisierung der Aufnahmen aufwendig, bei Funkmikrofonen ist der apparative Aufwand hoch. Ein Spezialfall des Gespr¨achs ist die Aufnahme einer einzigen Person in einer Vielzahl allt¨aglicher Situationen, z. B. in der Familie oder in der Freizeit mit Freunden. Hier verwendet man ein unauff¨alliges Ansteckmikrofon, das prim¨ar das Signal des Sprechers aufnimmt, und einen portablen Recorder. 2 1 Bei MapTask-Aufgaben erhalten die Teilnehmer leicht unterschiedliche Karten oder Kalender, und sie m¨ ussen dann eine f¨ ur beide akzeptable Wegbeschreibung oder einen gemeinsamen Termin vereinbaren. 2 Werden auch die Stimmen weiterer Personen aufgezeichnet, dann m¨ ussen diese auf die Aufzeichnungen hingewiesen worden sein und ihr Einverst¨andnis zumindest m¨ undlich gegeben haben. Aufnahmetechnik 155 5.3 Interview Das Interview ist die klassische Gespr¨achssituation in vielen Sprachaufnahmen. Ein Interview ist ein Gespr¨ach mit klar verteilten Rollen: der Interviewer leitet das Gespr¨ach. Im Extremfall besteht ein solches Interview aus dem Abarbeiten einer Wort- und Aufgabenliste. H¨aufig wird in einem Interview Bezug auf weiteres Material genommen, z. B. Abbildungen, Karten oder Aufgabenbl¨atter, Audio oder Video. Dieses Material muss in geeigneter Weise pr¨asentiert werden k¨onnen, z. B. ausgebreitet auf einem Tisch oder auf einem Bildschirm angezeigt. a) portabler Recorder b) A/ D Wandler Abbildung 75. Aufnahmesituation beim Interview mit a) gedrucktem Aufnahmebuch bzw. b) Pr¨asentation von Stimuli auf dem Bildschirm. Als Mikrofone eignen sich Nahbesprechungs- und Ansteckmikrofone f¨ ur die interviewte Person und zus¨atzlich ein Tischmikrofon mit Nierencharakteristik zur Aufzeichnung sowohl des Interviewers wie der interviewten Person. Die Aufnahmen erfolgen auf portablen Recordern, einem Video-Camcorder mit externem Mikrofon, oder ¨ uber ein externes Audio-Interface direkt auf einen (leisen! ) Rechner, z. B. einen Laptop. Die Verwendung eines Video-Camcorders hat die Vorteile, dass man einen zus¨atzlichen Signalkanal aufnehmen kann, und dass Audio und Video synchron sind. Videoaufnahmen lassen sich auch mit einem Rechner erstellen; wenn dieser ohnehin zur Pr¨asentation von Material ben¨otigt wird, dann kann man ihn auch f¨ ur die Aufnahmen verwenden. 5.4 Mehrparteien-Gespr¨ache Bei Sprachaufnahmen mehrerer Personen, z. B. in Sitzungen, Diskussionsrunden oder Freundesgespr¨achen, ist das technische Hauptproblem 156 Aufnahmetechnik die Trennung der einzelnen Sprecherbeitr¨age. Akustisch kann man diese Trennung durch die Verwendung von Nahbesprechungs- oder Ansteckmikrofonen erreichen, allerdings erfordern diese jeweils ein Anpassen oder Anstecken des Mikrofons. Bewegen sich die Personen nicht im Raum umher, dann kann man kabelgebundene Mikrofone benutzen, ansonsten Funkmikrofone. Ein oder zwei auf die Sprecher gerichtete Raummikrofone mit Nierencharakteristik zeichnen das Gespr¨ach aller Teilnehmer auf und dienen zugleich als Reserve f¨ ur den Fall, dass ein Ansteckmikrofon ausf¨allt. Mischpult Rechner Abbildung 76. Mehrparteiengespr¨ach mit einem Ansteckmikrofon pro Sprecher plus optionalen Raummikrofonen. F¨ ur die Aufnahme der Mikrofonsignale ben¨otigt man einen A/ D- Wandler mit ebenso vielen Eing¨angen wie angeschlossenen Mikrofonen. Damit kommen eigentlich nur externe Mehrkanal-A/ D-Wandler oder digitale Mischpulte in Frage, die an einen Rechner angeschlossen werden. 5.5 Mobile Umgebungen Aufnahmen in mobilen Umgebungen werden haupts¨achlich f¨ ur die Entwicklung von Sprachtechnologie durchgef¨ uhrt, z. B. Sprachsteuerung von Navigationssystemen. Mit der zunehmenden Verbreitung von sprachbasierten Diensten ¨ uber das Mobiltelefon oder Internet r¨ ucken die praxisnahe Evaluation solcher Systeme und Dienste sowie die klas- Aufnahmetechnik 157 sische Gespr¨achsanalyse zunehmend in den Vordergrund, die ebenfalls Sprach- und Videoaufnahmen ben¨otigen. Mobile Umgebungen sind das Auto, aber auch der ¨offentliche Nahverkehr und die Bahn. Im Auto kann die Aufnahmetechnik fest installiert werden, in Fahrzeugen des Nahverkehrs oder der Bahn in der Regel nicht. Bei Aufnahmen im Auto sind die externen Einfl¨ usse wie Verkehr, Wetter und Straßenbedingungen sehr variabel, und die Aufnahmen selbst k¨onnen, besonders wenn der Sprecher auch noch fahren muss, sehr belastend sein. Die Aufnahmetechnik muss daher in m¨oglichst vielen Umgebungsbedingungen einwandfrei funktionieren, und sie darf nicht dazu f¨ uhren, dass die Sicherheit beeintr¨achtigt wird. Als Mikrofone eignen sich fest eingebaute oder angebrachte Mausmikrofone; diese befinden sich meist am Fahrzeughimmel und sind auf den Fahrer ausgerichtet. Zus¨atzlich kann der Fahrer auch ein Nahbesprechungsmikrofon tragen, dessen Kabel ¨ uber die Schulter nach hinten gelegt wird. Ansteckmikrofone eignen sich wegen der vielen Arm- und Kopfbewegungen nicht, da sie dabei leicht ber¨ uhrt oder abgestreift werden k¨onnen. 12 V Laptop Bildschirm A/ D Wandler Abbildung 77. Aufnahmesituation im Auto mit 2-4 Audiokan¨alen und Aufnahmerechner mit zweitem Bildschirm und zuschaltbarer Stromversorgung. Zwar bietet ein Auto eine Stromversorgung mit 12 V Gleichstrom, z. B. aus dem Zigarettenanz¨ under oder eigenen Steckdosen im Innenraum. Starke Einstrahlungen aus der Motorsteuerung, aus den bordeigenen Kommunikationskan¨alen und der angeschlossenen Ger¨ate bewirken, dass die Spannung der Stromversorgung gest¨ort wird, und dass sich diese St¨orungen auf weitere angeschlossene Ger¨ate ¨ ubertragen. Da- 158 Aufnahmetechnik her ist es empfehlenswert, die eigentlichen Aufnahmen mit Ger¨aten im Batteriebetrieb durchzuf¨ uhren, und die Batterien außerhalb der Aufnahmezeiten wieder aufzuladen. F¨ ur Aufnahmen im Auto eignen sich Laptop-Rechner mit externem Audio-Interface gut, gegebenenfalls mit separatem Display im oder am Armaturenbrett zur Pr¨asentation von Stimuli. 6 Aufnahmeverfahren Aufnahmeverfahren lassen sich unterteilen in serverbasierte und in interaktive Verfahren. Serverbasierte Verfahren sind automatisch ablaufende Telefon- oder Internet-Aufnahmen, bei denen Sprecher und Versuchspersonen im Wesentlichen auf Stimuli des Servers reagieren. Interaktive Verfahren sind Wizard-of-Oz Aufnahmen, bei denen sprachgesteuerte Systeme simuliert werden (vgl. Abschnitt 6.4), und das von einem Aufnahmeleiter gef¨ uhrte standardisierte Interview. 6.1 Aufnahmebuch und -skript Der Aufnahmeablauf sowohl bei serverbasierten als auch bei interaktiven Verfahren ist weitgehend festgelegt. Bei serverbasierten Verfahren dient dazu das Aufnahmeskript, bei Interviews das Aufnahmebuch. 3 Aufnahmeskript und -buch enthalten die Anweisungen und Vorgaben f¨ ur alle zu sprechenden ¨ Außerungen f¨ ur eine Aufnahmesitzung. Jeder Eintrag besteht aus einem sog. Stimulus oder Prompt. Dieser Prompt kann ein zu lesender Text, eine Aufforderung zu einer Benennung oder Aktivit¨at, eine zu beschreibende Abbildung, oder eine Frage des Interviewers an den Sprecher sein. Die zeitliche und r¨aumliche Anordnung von Prompts kann einen großen Einfluss auf die evozierten ¨ Außerungen haben. Das Ablesen langer gleichf¨ormiger Eintr¨age von einem Fragebogen f¨ uhrt zu sog. Listeneffekten, bei denen die Betonung sich auf einen Rhythmus einstellt und der Betonungsverlauf gegen Ende der Liste absinkt. Eine randomisierte, d. h. eine zuf¨allige Anordnung der Items dagegen kann dazu f¨ uhren, dass Sprecher den abrupten Themenwechseln nur mit Anstrengung folgen k¨onnen und rasch erm¨ uden. Aus dem Promptmaterial muss klar ersichtlich sein, wann der Sprecher sprechen soll. Bei visueller Promptpr¨asentation kann dazu ein Si- 3 Alternativ werden auch die Bezeichnungen ‘Fragebuch’, ‘Fragebogen’, ‘Testbogen’ oder ‘Datenblatt’ verwendet Aufnahmetechnik 159 gnal, z. B. in Form einer Ampel oder eines Handzeichens, gegeben werden, bei akustischer Pr¨asentation ist dies meist ein Piepton oder eine explizite Aufforderung. 6.1.1 Aufnahmeskript Ein Aufnahmeskript ist ein sowohl f¨ ur Menschen als auch f¨ ur Maschinen lesbares Dokument, das die einzelnen Prompts und dar¨ uber hinaus Aufnahmeparameter wie z. B. minimale und maximale Aufnahmedauer, Zeitpunkt der Prompt-Pr¨asentation, Audioformat und Name und Speicherort der aufgenommenen Signaldatei angibt. Vorteile des Aufnahmeskripts sind die pr¨azise Aufnahmesteuerung inklusive der Dateiverwaltung, die M¨oglichkeit, Interviews voll- oder halbautomatisch durchf¨ uhren zu k¨onnen und neben Text und Grafik auch Audio und Video pr¨asentieren zu k¨onnen. Nachteilig ist, dass ein Rechner notwendig ist, der vom Interviewer bedient werden muss und den Sprecher u. U. einsch¨ uchtert. 6.1.2 Aufnahmebuch Das Aufnahmebuch ist ein gedrucktes Dokument, das die zu sprechenden ¨ Außerungen in der vorgegebenen Reihenfolge enth¨alt. H¨aufig erlaubt das Aufnahmebuch die Eintragung von Notizen, Roh- und Feintranskriptionen oder Beurteilungen. In der Regel wird pro Interview ein Aufnahmebuch verwendet; auf dem Deckblatt werden administrative Angaben eingetragen, und beim Durchlauf der Aufnahmesitzung werden die einzelnen Aufgaben abgehakt, sobald sie erledigt sind. Das traditionelle Aufnahmebuch kann als gedrucktes Buch oder Blatt ohne weitere Hilfsmittel verwendet werden und es erlaubt dem Interviewer, flexibel zu reagieren, z. B. f¨ ur Korrekturen, Wiederholungen oder Ab¨andern der Reihenfolge. Nachteilig ist, besonders bei umfangreichen B¨ uchern, ihre Gr¨oße und das Gewicht, die Notwendigkeit einer manuellen Erfassung von Transkriptionen und Befunden, sowie die Beschr¨ankung auf Text- und Grafikprompts. 6.2 Telefon Sprachaufnahmen ¨ uber das Telefon erfolgen ¨ uber einen Telefonserver. Das ist ein Rechner mit einer Einschubkarte f¨ ur den Anschluss an das Telefonnetz, in der Regel ISDN. Es gibt Karten f¨ ur den ISDN Basisanschluss mit zwei Nutzkan¨alen und f¨ ur den Prim¨aranschluss mit 30 Nutzkan¨alen. 160 Aufnahmetechnik Bei servergesteuerten Aufnahmen f¨ uhrt der Telefonserver durch die Aufnahmesitzung, d. h. er pr¨asentiert einen Stimulus nach dem anderen und nimmt die Sprache des Sprechers auf. Auf diese Weise k¨onnen mit geringem technischen Aufwand große standardisierte Sprachdatensammlungen, z. B. f¨ ur die Entwicklung von Sprachtechnologie, erstellt werden. H¨aufig erhalten die Sprecher f¨ ur die Sprachaufnahmen einen Fragebogen, den sie dann bei der Aufnahme durcharbeiten. Durch individualisierte Frageb¨ogen ist es auf diese Weise m¨oglich, ohne ¨ Anderungen an der Software unterschiedliche Sprachdaten zu erheben. Einige servergesteuerte Telefonsprachaufnahmen erlauben eine gewisse Anpassung des Aufnahmeablaufs an die Eingaben der Sprecher. Mit automatischer Pausenerkennung kann das Ende einer Aufnahme erkannt werden, mit einer Pegelkontrolle k¨onnen zu stark oder zu schwach ausgesteuerte Aufnahmen wiederholt werden, und mittels Wort- oder Spracherkennung kann der Inhalt der ¨ Außerung erfasst werden. Technisch ¨ahnlich, aber im eigentlichen Sinne keine servergesteuerte Telefonaufnahme sind Telefongespr¨ache zwischen Personen. Diese k¨onnen ebenfalls mit einem Telefonserver aufgezeichnet werden. Das erfolgt technisch am einfachsten ¨ uber eine Konferenzschaltung, bei der der Telefonserver die Konferenz startet und beendet und ansonsten nur das Gespr¨ach der anderen Teilnehmer aufnimmt. Problematisch bei Telefonaufnahmen ist, dass man ¨ uber das verwendete Endger¨at der Teilnehmer und ¨ uber die Verbindung zwischen Anrufer und Telefonserver nur in Ausnahmef¨allen exakte Informationen erh¨alt, geschweige denn die volle Kontrolle hat. Die Anrufer k¨onnen alte analoge, neuere digitale oder Mobiltelefone und zunehmend auch Headsets f¨ ur ihren Anruf benutzen - jedes Ger¨at hat eigene akustische Eigenschaften und verwendet andere ¨ Ubertragungsverfahren. Das Telefonnetz selbst ist, zumindest in den Industriel¨andern, weitgehend digitalisiert, aber ein zunehmender Anteil der Telefonate wird als VOIP (engl. voice over IP) mit wieder anderen ¨ Ubertragungsverfahren gef¨ uhrt. Beispiel In den SpeechDat-Projekten der EU wurden in allen europ¨aischen L¨andern große Sprachdatensammlungen zur Entwicklung von sprachgesteuerten Diensten ¨ uber das Telefon erstellt. In Deutschland wurden 5000 Sprecher ¨ uber das Fest- und 1000 ¨ uber das Mobilnetz aufgenommen. Die Sprecher haben dabei einen Telefonserver angerufen und einen Fragebogen durchgearbeitet (Abb. 78). Aufnahmetechnik 161 " # + , ( " - ## ! " , " " + , , , ( " " # +, , ( $ ' , Abbildung 78. Ausschnitt aus dem SpeechDat-II Fragebogen f¨ ur Telefonsprachaufnahmen. Der Sprecher bekam den Fragebogen zugeschickt und hat damit den Sprachserver angerufen. Der Sprachserver f¨ uhrte die Aufnahmen vollautomatisch durch. Ansagen des Sprachservers sind im Fragebogen normal gedruckt, der zu lesende Text ist fett, Kommentare sind kursiv gedruckt. Ein schwarzer Punkt stellt den Aufnahmepiep des Servers dar. Der Fragebogen ist in nummerierte Abschnitte gegliedert, die vom Server angesagt wurden. Im Projekt Switchboard des LDC (Linguistic Data Consortium) hat ein Telefonserver Freiwillige angerufen, sie miteinander verbunden und aufgefordert, ¨ uber ein ausgew¨ahltes Thema zu sprechen. Auf diese Weise konnten ¨ uber 3600 f¨ unfmin¨ utige Telefongespr¨ache mit Spontansprache zwischen mehr als 650 Versuchspersonen aufgenommen werden. 6.3 Internet Sprachaufnahmen ¨ uber das Internet verbinden die Vorteile von Aufnahmen in kontrollierten Umgebungen mit der M¨oglichkeit des Telefons, an geografisch weit verteilten Orten aufnehmen zu k¨onnen. Bei Internetaufnahmen melden sich Versuchspersonen bei einem Server an und starten eine Aufnahmesitzung. Der Server pr¨asentiert einen Stimulus nach dem anderen auf dem Bildschirm der Versuchsperson, die diesen Prompt dann bearbeitet, d. h. vorliest, beantwortet oder eine Aktion ausf¨ uhrt. Die Sprachaufnahme erfolgt lokal auf dem Rechner der Versuchsperson, und die Signaldaten werden bereits w¨ahrend der Aufnahmesitzung als Datenpakete an den Server ¨ ubertragen. Auf diese Weise k¨onnen prinzipiell beliebig viele Kan¨ale in jeder Samplerate und Quantisierung aufgenommen werden, und zwar an jedem Internetzugang weltweit. Internetaufnahmen k¨onnen an vielen Orten parallel ablaufen. Auf dem Server kann man in laufende Sitzungen hineinh¨oren und gegebenenfalls R¨ uckmeldungen an den Aufnahmeleiter schicken. Zudem hat 162 Aufnahmetechnik man auf dem Server stets einen ¨ Uberblick ¨ uber den aktuellen Stand aller Aufnahmen. Wie bei Telefonaufnahmen hat man bei internet-basierten Aufnahmen nur eingeschr¨ankte Information ¨ uber das verwendete Aufnahmeger¨at. Man kann aber die Aufnahmeparameter per Programm so einstellen, dass eine Mindestqualit¨at erreicht wird; bei vielen Aufnahmeger¨aten l¨asst sich die Typbezeichnung auch per Software auslesen. Beispiel Die Sprachdatenbank Ph@ttSessionz des BAS wurde als weltweit erste große Sprachdatensammlung ¨ uber das Internet durchgef¨ uhrt. Die Aufnahmen erfolgten parallel an ¨ uber 40 Gymnasien in allen Dialektregionen Deutschlands. Aufgenommen wurden anwendungsnahes Vokabular, phonetisch reiche S¨atze sowie Spontansprache. Die Aufnahmen erfolgten mit 22,05 kHz Abtastrate und 16 Bit Quantisierung und zwei Kan¨alen. Zur Demonstration der Technik erfolgte auch eine Aufnahme auf der Alfred-Neumeyer-Forschungsstation im antarktischen Winter - die Entsendung eines Aufnahmeteams w¨are schwierig geworden! 6.4 Wizard of Oz Bei Wizard-of-Oz-Aufnahmen (WOZ) interagieren Versuchspersonen mit einem simulierten sprachverstehenden Computersystem. 4 Auf diese Weise kann man rasch testen, wie die sprachliche Interaktion beim L¨osen einer bestimmten Aufgabe, z. B. dem Erfragen touristischer Information, der Bestellung von Bahnfahrkarten oder der Eingabe von Fahrzielen in Navigationssystemen abl¨auft. Das System wird durch einen Experten, den sog. Wizard, simuliert. Entscheidend f¨ ur die Validit¨at von WOZ-Simulationen ist, dass die Versuchsperson immer glaubt, mit dem System zu kommunizieren, damit sie ihre Eingaben und Anforderungen an das System und dessen vermeintliche F¨ahigkeiten anpasst, und nicht an die eines menschlichen Experten. Der Wizard erkennt die Spracheingabe der Versuchsperson, entscheidet, welche Aktion ausgef¨ uhrt werden muss und formuliert die Ausgabe des Systems. Diese Ausgabe kann rein sprachlich, aber auch multimodal, z. B. visuell und akustisch, erfolgen. 4 In Lyman Frank Baums Buch ‘Der Zauberer von Oz’ war der Zauberer ein weiser alter Mann, der hinter einem Vorhang stand und Ratschl¨age gab. Aufnahmetechnik 163 Ein WOZ-System ist sehr flexibel, da im Zuge der Systementwicklung einzelne Bestandteile wie Spracherkennung, Funktionalit¨at des Systems oder Sprachausgabe sukzessive maschinell ablaufen k¨onnen und der Wizard nur die noch fehlenden Komponenten simulieren oder sogar nur noch in Ausnahmef¨allen eingreifen muss. Auch kann man den Wizard ohne großen Aufwand anweisen, die Spracherkennung, Funktionalit¨at oder Sprachausgabe mit einer vorgegebenen Fehlerrate zu leisten. WOZ-Aufnahmen stellen hohe technische Anforderungen. Der Wizard muss versteckt sein, aber er muss sehen, was die Versuchsperson gerade macht bzw. was sie gerade auf ihrem Bildschirm sieht. Seine Sprachausgabe muss klanglich und inhaltlich so modifiziert werden, dass sie f¨ ur eine Ausgabe des Systems gehalten wird. Hinzu kommt, dass neben der sprachlichen Interaktion meist auch noch zus¨atzliche Daten erfasst werden, z. B. Mausklicks, Blickbewegungen, Video, und dass diese mit dem Sprachsignal synchronisiert werden m¨ ussen. Beispiel Im Verbundprojekt SmartKom wurde u. a. eine WOZ-Simulation eines Touristeninformationssystems durchgef¨ uhrt. F¨ ur diese Simulation wurde am Institut f¨ ur Phonetik ein eigener Aufnahmeraum mit separatem Kontrollraum eingerichtet. Die Versuchsperson hatte die Aufgabe, sich eine Reise nach Heidelberg planen und touristische Informationen inklusive des Kinoprogramms geben zu lassen. Das SmartKom System simuliert eine multimodale akustische, visuelle und gestische Ein- und Ausgabe. Aufgenommen wurden vier Videokan¨ale (Totale, Frontalansicht, Bildschirm und Infrarot zur Gestenerkennung) sowie zehn Audiokan¨ale (Nahbesprechungsmikrofon, je ein qualitativ einfaches und ein hochwertiges Raummikrofon sowie ein Mikrofonarrary zur Bestimmung der Richtung, in die die Versuchsperson spricht). 6.5 Interview mit Aufnahmebuch Viele Sprachaufnahmen erfolgen in Form von gef¨ uhrten Interviews. Das reicht von klassischen Dialekterhebungen ¨ uber soziolinguistische Interviews, linguistisch oder phonetisch motivierte Artikulationsaufnahmen und Aufnahmen f¨ ur Sprachtechnologieentwicklung bis hin zu diagnostischen Tests in der Medizin. Grundlage dieser Interviews ist stets das Aufnahmebuch, das den Ablauf und Inhalt der Sprachaufnahmen festlegt. W¨ahrend einer Auf- 164 Aufnahmetechnik nahmesitzung hakt der Aufnahmeleiter die bearbeiteten Prompts ab. H¨aufig wird auch schon w¨ahrend des Interviews eine Transkription oder zus¨atzliche Information zur Aufnahme in das Aufnahmebuch eingetragen. Gedruckte Aufnahmeb¨ ucher ben¨otigen Platz zum Ausbreiten und evtl. eine feste Unterlage, falls etwas in das Buch geschrieben werden soll. Das Buch kann z. B. durch Papierrascheln, Bl¨attern usw. zu einer Quelle von St¨orger¨auschen werden, besonders wenn seine Entfernung zum Mikrofon gering ist. Ein Aufnahmeskript mit grafischer Ausgabe auf einem Bildschirm vermeidet diese Probleme, erfordert aber die Bedienung des Rechners durch den Aufnahmeleiter. Außerdem kann auch der Rechner St¨orger¨ausche verursachen, z. B. durch einen L¨ ufter, Tastatur- oder Mausklicks. Beispiel Die Sprachaufnahmen zum Sprachatlas des Dolomitenladinischen ALD- II wurden mit einem Fragebuch durchgef¨ uhrt [GHS + 04]. Das Fragebuch enth¨alt in seinem Hauptteil von 182 Seiten Frage-Items und Anweisungen an Interviewer und Sprecher. Auf jeder Seite steht oben ein allgemeiner thematischer Begriff, darunter mit Nummern versehene S¨atze und Satzbestandteile. In der Tabelle stehen links die Satzbestandteile einzeln pro Zeile, in der Mitte die w¨ahrend des Gespr¨achs vom Interviewer angefertigte Rohtranskription, rechts die endg¨ ultige Transkription (Abb. 79). Abbildung 79. Auszug aus dem Fragebuch des Sprachatlas des Dolomitenladinischen ALD-II zum Eintrag ‘Il calzolaio’ (der Schuster). Aufnahmetechnik 165 6.6 Aufnahmen ‘in the loop’ F¨ ur viele Anwendungen von Sprachtechnologie sind Aufnahmen unter realit¨atsnahen Bedingungen notwendig, m¨oglichst sogar in der konkreten Anwendung. So l¨asst sich z. B. das Dialogsystem f¨ ur die automatische Bahnauskunft am besten dadurch verbessern, dass man die tats¨achlich gef¨ uhrten Dialoge mitschneidet und auswertet. Aufnahmen ‘in the loop’ sind Aufnahmen in realen Anwendungen. Hierbei spielen einerseits rechtliche, andererseits technologische Randbedingungen eine Rolle. Rechtlich gesehen d¨ urfen Telefongespr¨ache ohne Wissen aller Gespr¨achsteilnehmer nicht aufgezeichnet werden; es muss also sichergestellt sein, dass die Gespr¨achspartner ihre Einwilligung zur Aufnahme des Gespr¨achs explizit gegeben haben. Technisch sind Mitschnitte von Telefondialogen als Telefonkonferenz m¨oglich, wobei der aufzeichnende Computer einfach ein weiterer, passiver Teilnehmer an der Telefonkonferenz ist. Aufnahmen in Anwendungen mit direkter Mensch-zu-Mensch Kommunikation sind rechtlich unproblematisch, wenn f¨ ur die Gespr¨achspartner erkennbar ist, dass Aufnahmen gemacht werden. In der Regel ist der Sprecher mit der eigentlichen Aufgabe so besch¨aftigt, dass die Tatsache, dass Aufnahmen stattfinden, nicht mehr beachtet wird. Allerdings ist es schwierig, eine technisch gute Signalqualit¨at zu erzielen, da die Umgebungsbedingungen sehr variabel und f¨ ur Sprachaufnahmen ung¨ unstig sein k¨onnen, z. B. laute Hintergrundger¨ausche oder stark schwankender Signalpegel aufgrund wechselnder Sprecherpositionen. Relativ einfach zu realisieren ist die Aufnahme eines Gespr¨achspartners, z. B. des Beraters im Reiseb¨ uro, ¨ uber ein Nahbesprechungs- oder Ansteckmikrofon, und die Aufnahme des Kunden ¨ uber ein Tischmikrofon mit Nieren-Richtcharakteristik. Auf diese Weise ist eine recht gute Trennung der Aufnahmekan¨ale m¨oglich. Die Mikrofone sind an einen portablen Recorder oder einen Rechner angeschlossen. Pro Kundengespr¨ach wird eine neue Aufnahmesitzung angelegt, mit je einer Spur pro Mikrofon. 7 Einwilligung zu Aufnahmen Sprach- und vor allem Videoaufnahmen ber¨ uhren die Pers¨onlichkeitsrechte der aufgenommenen Personen. Vielen Personen ist es unangenehm, aufgenommen zu werden - sie finden ihre Stimme nicht sch¨on, sind gerade heute nicht dazu aufgelegt, haben keine Zeit, f¨ uhlen sich beobachtet oder sonstwie unwohl dabei. H¨aufig besteht auch eine diffuse Angst vor unabsehbaren Folgen: die Sprecher f¨ urchten, zu viel von 166 Aufnahmetechnik sich preiszugeben, vor anderen schlecht dazustehen oder ausgenutzt zu werden. Um diese Bedenken zu zerstreuen, muss man zum einen eine vertrauensvolle und pers¨onliche Beziehung zu den Sprechern aufbauen, zum anderen mit einer schriftlichen Vereinbarung Art und Umfang der Nutzung der aufgenommenen Sprach- und Videodaten regeln. Verdeckte Aufnahmen, d. h. Aufnahmen, die ohne das Wissen und die Zustimmung des Sprechers erfolgen, sind ethisch bedenklich - man sollte sie nur durchf¨ uhren, wenn es keine Alternative gibt, und wenn man nach der Aufnahme den Sprecher ¨ uber die Aufnahme informiert und ihn die Einverst¨andniserkl¨arung unterschreiben l¨asst. Willigt er nicht in die Aufnahme ein, dann muss man sie f¨ ur ihn nachpr¨ ufbar l¨oschen. In der Praxis verwendet man normalerweise drei Formulare: 1. einen Personenbogen, 2. eine Einverst¨andniserkl¨arung sowie 3. eine Quittung Zur besseren Handhabung kann man diese drei Formulare auch auf einem Blatt unterbringen. Auf dem Blatt sollten die Formulare dann aber graphisch abgesetzt sein, so dass man die einzelnen Teil-Formulare voneinander trennen kann. Abschnitt 14 enth¨alt ein solches Kombi- Formular. Der Personenbogen enth¨alt in anonymer Form alle notwendigen demographischen Angaben zum Sprecher, also z. B. Geschlecht, Alter oder Geburtsdatum (h¨aufig reicht auch eine ungef¨ahre Angabe wie ‘Okt. 1995’), Muttersprache, Gr¨oße und Gewicht usw. Er enth¨alt keine Kontaktdaten wie Adresse, Telefonnummer oder E-Mail. Der Personenbogen ist mit einer eindeutigen Nummer gekennzeichnet. Die Einverst¨andniserkl¨arung enth¨alt den Namen des Sprechers, eine Referenz auf die Aufnahme, f¨ ur die sie gilt (z. B. einen Aufnahmecode o. ¨a.) und eine allgemeinverst¨andliche Vereinbarung dar¨ uber, wie die aufgenommenen Daten genutzt und ggf. publiziert werden d¨ urfen. Hier stehen sich die Interessen des Forschers und des Sprechers am deutlichsten gegen¨ uber: der Forscher will die Aufnahmen m¨oglichst uneingeschr¨ankt nutzen und sie publizieren k¨onnen, der Sprecher sie dagegen vielleicht gar nicht freigeben. F¨ ur dieses Problem gibt es keine allgemeing¨ ultige L¨osung, sondern sie muss f¨ ur jedes Aufnahmeprojekt neu gefunden werden. Aus Sicht der Forschung sollte man dabei aus zwei Gr¨ unden auf m¨oglichst weitgehende Nutzungs- und Publikationsrechte achten: 1) sind Sprachdatenbanken dazu da, wiederverwendet zu werden, d. h. die in ihnen gespeicherten Signal- und Annotationsdaten werden f¨ ur mehr als eine An- Aufnahmetechnik 167 wendung oder Untersuchung herangezogen, und 2) besitzen aus nicht ¨ uberpr¨ ufbaren Quellen gewonnene Aussagen nur eine geringe wissenschaftliche Aussagekraft. Am einfachsten ist eine pauschale Abtretung aller Rechte, etwa der Art: “Ich ¨ ubertrage alle Rechte an den Sprach- und Videoaufnahmen an das Institut X und seine Kooperationspartner”. Eine etwas engere Formulierung schr¨ankt die Nutzungsm¨oglichkeiten nur wenig ein, gibt dem Sprecher aber einen Eindruck von dem, wozu die Daten verwendet werden k¨onnen: “Mit der wissenschaftlichen Nutzung und einer auszugsweisen oder vollst¨andigen Ver¨offentlichung und Weitergabe der Sprach- und Videoaufnahmen bin ich einverstanden.” Vermeiden sollte man in jedem Fall Festlegungen auf ein bestimmtes Projekt oder eine Person! Die Einverst¨andniserkl¨arung muss pers¨onlich unterschrieben sein, bei Minderj¨ahrigen ist die Unterschrift der gesetzlichen Vertreter notwendig. Unter Umst¨anden kann es sinnvoll sein, einen Dritten mit dem Einholen des Einverst¨andnis zu beauftragen und dann von diesem Dritten eine pauschale Erkl¨arung unterschreiben zu lassen, dass f¨ ur alle Aufnahmen die notwendigen Einverst¨andniserkl¨arungen vorlagen - dieses Vorgehen erlaubt eine vollst¨andige Anonymit¨at der Aufnahmen und gleichzeitig eine rechtliche Absicherung. Die Quittung ¨ uber die Bezahlung eines Sprecherhonorars enth¨alt Namen und Anschrift des Sprechers oder eines beauftragten Dritten. Diese Quittung ist ein Beleg daf¨ ur, dass der Sprecher f¨ ur seine Aufnahme eine Gegenleistung erhalten hat, dass also zwischen Forscher und Sprecher eine Art Vertrag zustandegekommen ist. Diese drei Formulare werden getrennt voneinander aufbewahrt: Quittung in der Buchhaltung, Einverst¨andniserkl¨arung im Sekretariat oder Institutsarchiv, Personenbogen beim Forscher. Bei einer maschinellen Erfassung ist darauf zu achten, dass die Daten nur berechtigten Personen zug¨anglich gemacht werden. Dies ist bei Datenbanksystemen mit der Vergabe von entsprechenden Benutzerrechten m¨oglich. Die Korpusprojekte Talkbank und DobeS (Dokumentation bedrohter Sprachen) haben ethische Richtlinien zur Durchf¨ uhrung von Sprach- und Videoaufnahmen und zur Nutzung der Korpora ver¨offentlicht: • www.talkbank.org/ share/ ethics.html • www.mpi.nl/ DOBES/ ethical legal aspects/ 168 Aufnahmetechnik 8 Exkurs: Sprecherdatenbank Ein sehr teurer und aufwendiger Teil der Erstellung einer Sprachdatenbank ist sehr h¨aufig die Rekrutierung der Sprecher. Mit einer Sprecher- oder Versuchspersonen-Datenbank kann man diesen Aufwand reduzieren. Eine Sprecherdatenbank enth¨alt die wichtigsten demographischen Angaben und Kontaktdaten von Sprechern sowie ihr bisheriges Mitwirken in Aufnahmeprojekten. Mithilfe dieser Datenbank kann man sehr schnell ¨ uberpr¨ ufen, ob f¨ ur ein geplantes Aufnahmeprojekt bereits Sprecher vorhanden sind, oder ob weitere Sprecher rekrutiert werden m¨ ussen. Die Sprecherdatenbank enth¨alt sensible Daten. Der Zugang zu dieser Datenbank muss daher stark beschr¨ankt werden - es kann auch sinnvoll sein, die Kontaktdaten von den pers¨onlichen Angaben zu trennen und sie von getrennten Benutzern bearbeiten zu lassen. So kann z. B. ein Forscher in der Sprecherdatenbank die interessierenden Personen anhand ihrer pers¨onlichen Merkmale wie Alter, Geschlecht, regionaler Herkunft usw. markieren. Das Sekretariat kann dann die markierten Personen anrufen oder ihnen Serienbriefe zuschicken und mit ihnen Aufnahmetermine vereinbaren. Es verbietet sich von selbst, dass Daten aus der Sprecherdatenbank an Dritte weitergegeben werden. Das schließt andere Institute oder Projektpartner ein! Allenfalls kann man diesen anbieten, in ihrem Auftrag Sprecher zu kontaktieren. Dabei sollte man aber stets auch dem Sprecher gegen¨ uber darauf hinweisen, dass man seine Adresse nicht herausgegeben hat, z. B. durch einen Zusatz im Anschreiben: “Sie erhalten diesen Brief, weil Sie sich bei uns als Versuchsperson gemeldet haben. Ihre Adresse geben wir nicht an Dritte weiter.” Die Sprecherdatenbank muss kontinuierlich gepflegt werden, damit sie aktuell bleibt. Dazu ist es notwendig, dass alle beim Kontaktieren der Sprecher bekannt werdenden Adress¨anderungen in der Datenbank nachgetragen werden, und dass die Teilnahme eines Sprechers an Aufnahmen in der Datenbank vermerkt wird. Neue Personen nimmt man am einfachsten ¨ uber die Quittung und den Sprecherbogen bei den Sprachaufnahmen in die Datenbank auf, da sie die Anschrift und den Namen des Sprechers enthalten. Es reicht in der Regel ein zus¨atzliches Feld, z. B. mit dem Text: “Ich m¨ochte ¨ uber weitere Aufnahmen des Instituts informiert werden: ja/ nein”. Eine weitere M¨oglichkeit, Sprecher “auf Vorrat” zu rekrutieren, ist eine Werbeseite im Internet, z. B. als Teil des Webauftritts eines Instituts. Interessenten k¨onnen hier Name, Adresse und die wichtigsten Aufnahmetechnik 169 demographischen Angaben hinterlegen. Eine freundliche E-Mail, verbunden mit einer Einladung zur Teilnahme an Aufnahmen oder einem Experiment, z. B. einem Perzeptionsexperiment ¨ uber das Web, zeigt dem Interessenten, dass seine Eingabe registriert wurde. 170 Aufnahmetechnik 9 Aufgaben 1. Welches sind die drei Haupt-Richtcharakteristiken von Mikrofonen? 2. Welche Richtcharakteristik hat das Mikrofon in Abb. 63 bei 250 - 2000 Hz? Welche bei 8000 Hz? 3. Was leistet ein Mikrofonarray? 4. Warum positioniert man ein Nahbesprechungsmikrofon im Mundwinkel? 5. Warum gibt es kein Kabel, das auf der einen Seite einen 6,35 mm Klinkenstecker und auf der anderen einen TOSLink-Stecker hat? 6. Was leistet ein A/ D-Wandler? Warum sollte man stets ein externes Audio-Interface an den Rechner anschließen? 7. Was ist die Nachhallzeit? Wovon h¨angt sie ab? 8. Was ist ein Aufnahmeskript? 9. Wozu setzt man die Wizard-of-Oz-Aufnahmetechnik meistens ein? 10. Skizzieren Sie das Prinzip der Internet-basierten Sprachaufnahmen. 11. Worin unterscheiden sich Quittung, Einverst¨andniserkl¨arung und Personenbogen? Annotation Mit Annotation bezeichnet man eine inhaltliche Beschreibung von Signaldaten. Erst mit der Annotation werden Signaldaten einer weiteren systematischen Bearbeitung zug¨anglich - Klassifikation, Analyse, Suche usw. setzen einen annotierten Datenbestand voraus. Das Erstellen einer Annotation ist eine Zuordnung, ein Kategorisierungsprozess, bei dem einem gegebenen Signal aufgrund bestimmter Eigenschaften eine Kategorie, ein Symbol aus einem vorab spezifizierten Symbolinventar, zugeordnet wird. Diese Zuordnung ist analytisch, wenn sie sich als exakte Funktion, und empirisch, wenn sie sich als Wahrscheinlichkeitswert ausdr¨ ucken l¨asst. Die Annotation einer analytischen Beziehung zwischen Signal und beschreibendem Symbol kann aus dem Signal berechnet oder abgeleitet werden. F¨ ur eine solche Beziehung kann man daher stets angeben, ob die Annotation korrekt ist. F¨ ur die Annotation einer empirischen Beziehung kann man diese Aussage nicht mehr treffen, denn die Annotation h¨angt vom Wissen und der Erfahrung des Annotierers ab. Verschiedene Annotierer k¨onnen durchaus zu unterschiedlichen Ergebnissen kommen. Es ist also nur eine schw¨achere Aussage m¨oglich: eine Annotation ist mehr oder weniger plausibel. F¨ ur ein Signal gibt es in der Regel viele Annotationen, je nachdem, welche Eigenschaft des Signals betrachtet wird. Diese Annotationen k¨onnen unabh¨angig voneinander sein, oder sich aufeinander beziehen. Beispiel Der Ventilator aus dem einf¨ uhrenden Beispiel in Kapitel 2 zeigt eine analytische Beziehung zwischen Schalterstellung und Geschwindigkeit, und zwar sowohl f¨ ur den diskreten Schalter als auch den kontinuierlichen Regler. Die gemessene Geschwindigkeit des Ventilators ist das Signal, der Skalenwert am Schalter ist die symbolische Beschreibung: beim diskreten Schalter sind die erlaubten Werte 0, min, med, max, beim kontinuierlichen Schalter eine der Schalterposition entsprechende Zahl. Zu jedem Zeitpunkt ist mit einer bestimmten Geschwindigkeit eine Schalterstellung verbunden, und umgekehrt, mit jeder Schalterstellung eine bestimmte Geschwindigkeit. 172 Annotation Zur Illustration dieser Beziehung sind die Schalterstellungen und die gemessenen Umdrehungsgeschwindigkeiten in Tab. 10 eingetragen und in Abb. 80 grafisch in einem Koordinatensystem dargestellt. diskret kontinuierlich Stufe U/ min Position U/ min 0 0 0 0 min 50 5 15 med 100 25 75 max 150 50 150 Tabelle 10. Schalterstellung und gemessene Geschwindigkeit f¨ ur den diskreten Schalter und den kontinuierlichen Regler. a) min med max 50 100 150 U/ min b) 50 100 150 10 20 30 40 50 U/ min Abbildung 80. Darstellung der gemessenen Werte f¨ ur den diskreten Schalter und den kontinuierlichen Regler. Mit dem Regler lassen sich beliebige Zwischengeschwindigkeiten einstellen, z. B. ergibt eine Reglerposition bei 30 mm gem¨aß der aus den Messwerten abgeleiteten Formel y = 3 x eine Geschwindigkeit von 90 U/ min. Dagegen besteht zwischen einer Ampel und der Anzahl Fußg¨anger auf der Kreuzung eine empirische Beziehung: die Ampelfarbe ist das Signal, die Anzahl Fußg¨anger auf der Kreuzung die Beschreibung. Abb. 81 enth¨alt die Z¨ahlungen f¨ ur je 10 rote und gr¨ une Ampelphasen einmal als Tabelle, einmal in grafischer Darstellung. Die Werte Annotation 173 der Z¨ahlungen ¨ uberschneiden sich teilweise - sowohl bei gr¨ unen als auch bei roten Ampelphasen sind zwischen f¨ unf und acht Fußg¨anger auf der Kreuzung. Wenn man sich den ¨ Uberschneidungsbereich genauer anschaut, dann sieht man, dass w¨ahrend vier Rotphasen f¨ unf bis acht Fußg¨anger auf der Kreuzung sind, dagegen nur w¨ahrend drei Gr¨ unphasen. Mit einer Wahrscheinlichkeit von ca. 57 % k¨onnen wir also sagen, dass, wenn auf der Kreuzung zwischen f¨ unf und acht Fußg¨anger sind, die Ampel auch rot ist. rot gr¨ un 2 17 0 19 3 10 6 5 0 20 4 12 2 17 8 9 6 5 7 7 0 10 20 rot grün Abbildung 81. Grafische Darstellung der Beziehung zwischen Ampelphase und der Anzahl Fußg¨anger auf der Kreuzung. Die d¨ unnen horizontalen Striche geben Minimal- und Maximalwert an, der fette horizontale Strich den Median, d. i. der Wert, der die Menge der Messwerte in zwei H¨alften teilt. Die K¨astchen geben den Bereich an, innerhalb dessen sich die H¨alfte der Messwerte befindet. Der Punkt markiert den arithmetischen Mittelwert der Messwerte. 1 Annotation von Sprachsignalen Zwischen Sprachsignal und Beschreibung besteht eine empirische Beziehung. Ein gegebenes Sprachsignal kann unter vielen Aspekten beschrieben werden: als syntaktische Struktur, als Folge von Phonemen, als Folge konkret realisierter Laute, als Intonationskontur, als Teil eines Gespr¨achsakts usw. Eine Annotation, im Kontext gesprochener Sprache h¨aufig auch Transkription genannt, erfordert daher eine Selektion der zu annotierenden Ph¨anomene von gesprochener Sprache, und eine Theorie, gem¨aß derer die Annotation durchgef¨ uhrt und in formaler Weise notiert wird. 174 Annotation [Sch04b] (S. 30) diskutiert die Selektivit¨at und Theorieabh¨angigkeit von Transkriptionen ausf¨ uhrlich und zitiert [Och79] (S. 44): Transcription is a selective process reflecting theoretical goals and definitions. [Lee97] (S. 2) schreibt dazu: [Corpus annotation] can be defined as the practice of adding interpretative, linguistic information to an electronic corpus of spoken and/ or written language data. Die F¨ahigkeit des Computers, sowohl Signalals auch symbolische Daten verarbeiten zu k¨onnen, erlaubt eine Verkn¨ upfung von Signaldaten und Annotation. Der Zugriffdirekt aus einer Annotation heraus auf das dazugeh¨orige Signal, die Visualisierung von Signaleigenschaften oder Annotationen, ausdrucksm¨achtige Abfrage- und Suchm¨oglichkeiten ¨ uber das WWW und die technisch problemlose Kopierbarkeit von Signal und Annotation sind erst mit dem Computer und dem Internet m¨oglich geworden. Zur Unterscheidung der verschiedenen Annotationen von Sprachsignalen werden folgende Begriffe verwendet: • Annotation als der Oberbegriff, • Transkription f¨ ur symbolbzw. zeitbezogene Annotation, und • Segmentation f¨ ur zeitbezogene Annotation von Sprachsignalen. Beispiel Der Beispielsatz “Ich bin mit dem Wagen nach Bonn gefahren.” kann auf vielen Ebenen annotiert werden. Abb. 82 zeigt eine Segmentation des Satzes auf Phonem-Ebene, Abb. 83 die syntaktische Struktur gem¨aß einer einfachen generativen Grammatik, und Abb. 84 die Transkription auf Wortebene. Die Theorieabh¨angigkeit besteht auf allen drei Ebenen, wenn auch in unterschiedlichem Maß: die theoretische Grundlage f¨ ur die phonemische Segmentierung ist, dass sich sprachliche ¨ Außerungen in Segmente zerlegen lassen, und dass das deutsche SAMPA-Alphabet alle zur Beschreibung des Standarddeutschen notwendigen Phoneme bereitstellt. Eine Beschreibung der artikulatorischen Eigenschaften wie Stimmhaftigkeit, Plosivit¨at oder Frikativit¨at o. ¨a. w¨ urde eine andere Annotation ergeben. Die Theorieabh¨angigkeit der syntaktischen Beschreibung besteht in der Verwendung einer generativen Grammatik, nach der h¨ohere Annotation 175 I C b I m I d e: m v n … Abbildung 82. Annotation des Beispielsatzes auf der Phonem-Ebene mit l¨ uckenlos aufeinander folgenden Phonem-Segmenten in SAMPA. Einheiten hierarchisch aus niedrigeren aufgebaut sind. Eine syntaktische Annotation etwa gem¨aß einer Phrasenstruktur- oder Montague- Grammatik 1 w¨ urde eine ganz andere Struktur ergeben. V N Prep N Det NP Prep PP PP Pron VP NP S VP Abbildung 83. Syntaktische Struktur des Beispielsatzes gem¨aß einer einfachen generativen Grammatik. Auch die Wortebene ist theorieabh¨angig: zur Reduzierung der Anzahl verschiedener Schreibweisen von W¨ortern, und weil sie f¨ ur die Laute der ¨ Außerung irrelevant ist, wird hier auf die im Deutschen ¨ ubliche Großschreibung am Satzanfang sowie die Satzzeichen verzichtet. 1 Richard Montague, amerik. Mathematiker und Linguist, 1930-1971 176 Annotation ich bin mit dem Wagen nach Bonn gefahren Abbildung 84. Annotation des Beispielsatzes auf der Wortebene ohne Interpunktion und satzinitiale Großschreibung. 1.1 Erstellung von Annotationen Die Annotation von Sprachsignalen erfordert in jedem Fall das Wissen menschlicher Experten. Die Erstellung von Annotationen kann rein manuell erfolgen, oder der Experte kann durch semi- oder vollautomatische Verfahren unterst¨ utzt werden. Bei der manuellen Annotation beurteilen menschliche Experten ein Sprachsignal und annotieren es. Dieses Vorgehen ist zeitaufwendig und in hohem Maße von der inter- und intraindividuellen Konsistenz der Annotierer abh¨angig. Es ist aber auch hochgradig flexibel und fehlertolerant - ein menschlicher Experte kann am Telefon gesprochene Sprache ebenso annotieren wie Studioaufnahmen, oder fremde Sprachen beschreiben. Bei der semi-automatischen Annotation wird eine Basisannotation maschinell erstellt und von menschlichen Experten korrigiert, bei der vollautomatischen Annotation entf¨allt diese Korrekturphase [SW04]. Eine vollautomatische Annotation steht im ¨ Ubrigen nicht im Widerspruch zur Notwendigkeit von Expertenwissen, denn bei dieser Form der Annotation ist das Expertenwissen in Form eines Verfahrens implementiert und in der Regel mit einem Wahrscheinlichkeitswert versehen. Semi- und vollautomatische Annotation k¨onnen den Annotationsvorgang erheblich beschleunigen, allerdings bleibt der Aufwand f¨ ur die Korrektur und abschließende Validierung durch den Experten bestehen. 1.2 Richtlinien f¨ ur die Erstellung von Annotationen F¨ ur jede Erstellung von Annotationen gelten Richtlinien zur Ausbildung der Annotierer, zu Datenformaten, Dokumentation und Qualit¨atskontrolle. [Lee97] (S. 6/ 7) hat diese Richtlinien wie folgt formuliert (zitiert nach [LZ06]) 1. Die Annotation sollte so notiert sein, dass man den Ursprungstext wiederherstellen kann. 2. Es sollte m¨oglich sein, die Annotation unabh¨angig vom Ursprungstext abzuspeichern und auszuwerten. Annotation 177 3. Die Annotation sollte dokumentiert werden, z. B. in der Form von Richtlinien. Die Dokumentation sollte dem sp¨ateren Nutzer zur Verf¨ ugung stehen. a) Die Annotierer und die Annotationsumst¨ande sollten bekannt sein. b) Die Qualit¨at des Korpus sollte ¨ uberpr¨ uft und dokumentiert werden. Die Benutzer sollten erfahren, wie konsistent die Annotation ist. 4. Das Annotationsschema sollte so weit wie m¨oglich theorieneutral sein. 5. Kein Annotationsschema kann a priori als Standard gelten - Standards bilden sich durch Konsens der Nutzer heraus. F¨ ur Korpora gesprochener Sprache gelten diese Richtlinien mit leichten Modifikationen: die erste Richtlinie entf¨allt, da Annotation und Signaldaten von Haus aus unterschiedliche Datenarten sind. Diese Richtlinien sind mittlerweile allgemein anerkannt und liegen allen modernen Sprachdatenbanken zugrunde. 2 Klassen von Annotationen Allgemein lassen sich Annotationen von Sprachsignalen nach ihrem Bezugssystem, der Extension der Bez¨ uge und der Beziehung zwischen Annotationen klassifizieren. Das Bezugssystem ist entweder die Zeit oder ein eigenes, frei gew¨ahltes symbolisches Bezugssystem, z. B. eine Nummerierung oder linguistische Kategorien. Zeitbezogene oder zeitalinierte Annotationen verweisen auf Zeitpunkte auf einer Zeitachse. Das Sprachsignal wird hierbei in Segmente unterteilt (vgl. Abschnitt 3.1), deren Beginn und Ende Zeitmarken sind, und deren Label Symbole des verwendeten Annotationssystems enthalten. Die Anordnung der Segmente ist entsprechend dem Zeitverlauf des Signals linear. Die Segmente k¨onnen unmittelbar aneinander anschließen, durch L¨ ucken getrennt sein oder auch ¨ uberlappen (Abb. 82). Bei symbolbezogenen Annotationen sind Beginn und Ende der Segmente durch frei w¨ahlbare Marker, z. B. laufende Nummern oder Kategoriensymbole, angegeben. Eine Anordnung der Segmente ist in der Regel nicht vorgegeben, sie erfolgt meist in m¨oglichst ¨ ubersichtlicher Form, z. B. als Strukturbaum. Die Extension der Bez¨ uge erstreckt sich entweder ¨ uber ein Intervall oder besteht aus einem Punkt. Intervalle sind durch Beginn und Ende oder Dauer angegeben, Punkte nur durch den Beginn. 178 Annotation Annotationen sind unabh¨angig, wenn sie nicht auf andere Annotationen verweisen, ansonsten abh¨angig. Die Beziehungen zwischen abh¨angigen Annotationen sind hierarchisch, wenn zwischen ihnen eine 1: n Beziehung, und netzwerkartig, wenn eine n: m Beziehung besteht. 1: n heißt hierbei, dass einem Element der einen Annotation ein oder mehrere Elemente der zweiten Annotation zugeordnet sind, n: m, dass einem Element der ersten Annotation keines, ein oder mehrere Elemente der zweiten Annotation zugeordnet sind, und einem Element der zweiten keines, eines oder mehrere der ersten. Beispiel Abb. 85 zeigt die Beziehungen zwischen der syntaktischen Annotation, der Wortebene und der Phonem-Segmentation des Beispielsatzes. Das Bezugssystem der Phonem-Ebene ist die Zeit, das der Wortebene die Wortformen und das der Syntaxebene Konstituentenbezeichnungen. Wortformen und Konstituenten k¨onnen nummeriert sein, um sie eindeutig zu benennen. So enth¨alt der Syntaxbaum viele Elemente mit gleichen Bezeichnungen, z. B. VP, NP oder PP, die in der grafischen Darstellung durch ihre Position unterscheidbar sind, in einer linearen Textdarstellung z. B. durch einen Index eindeutig gekennzeichnet werden k¨onnten. Zwischen syntaktischer Struktur und den W¨ortern des Satzes besteht eine 1: n Beziehung: jede Konstituente auf der untersten Ebene des Syntaxbaums besteht aus einem oder mehreren W¨ortern, und jedes Wort geh¨ort zu genau einer Konstituente. Zwischen Wort und den Segmenten einer phonemischen oder phonetischen Segmentation besteht eine n: m Beziehung, denn ein Wort besteht aus mehreren Segmenten, und gleichzeitig kann ein Segment mehr als einem Wort zugeordnet werden. Im Beispielsatz sind z. B. das finale / n/ und das initiale / m/ von ‘bin’ und ‘mit’ zu einem einzigen Segment verschmolzen. ‘bin’ besteht somit aus einer Folge der drei Segmente / b/ / I/ / m/ , w¨ahrend das / m/ sowohl dem Wort ‘bin’ als auch dem Wort ‘mit’ zugeordnet ist. 3 Annotationen in Sprachdatenbanken Eine Sprachdatenbank umfasst mindestens eine der oben genannten Annotationsebenen. Die IPA empfiehlt f¨ ur Sprachdatenbanken mindestens die Annotation auf drei Ebenen [Esl90]: Annotation 179 ich bin mit dem Wagen nach Bonn gefahren I C b I m I d e: m v n … V N Prep N Det NP Prep PP PP Pron VP NP S VP Abbildung 85. Beziehungen zwischen den Annotationsebenen Syntax, Wort und Phonem-Segmentation f¨ ur den Beispielsatz. 1. orthographische Transliteration in der Standardorthographie der Sprache, 2. breite phonemische Etikettierung gem¨aß der Standardaussprache der Sprache und 3. enge phonetische Segmentierung der tats¨achlich realisierten Aussprache. Die orthographische Ebene dient der raschen Erfassung des Inhalts und der groben Suche zur Vorauswahl von Material f¨ ur die weitere Bearbeitung. Auf der phonemischen Ebene wird das vorselektierte Material nach sprachsystematischen Gesichtspunkten weiter gefiltert und mit den lautsprachlichen Realisierungen auf der phonetischen Ebene in Bezug gesetzt. Zur Notation empfiehlt die IPA auf der phonetischen und der phonemischen Ebene die Verwendung des IPA-Alphabets. Dieses Alphabet ist Bestandteil der Unicode Zeichentabelle und somit in moderner Textverarbeitungs- und Datenbanksoftware verf¨ ugbar, allerdings ist die Eingabe ¨ uber die Tastatur m¨ uhsam - h¨aufig muss ein IPA-Zeichen als Tastenkombination oder Ziffernfolge eingegeben werden. 180 Annotation Weitere, vor allem linguistische Annotationsebenen, sind optional. Die gebr¨auchlichsten sind • Prosodie: Beschreibung des Betonungsverlaufs einer ¨ Außerung durch Markieren von Tonakzenten und Grenzpunkten, z. B. in ToBI (Tone and Break Indices) [BA93, BGB01] • Morphologie: Angaben zur Wortbildung mittels Markierung von Wortstamm und Suﬃxen oder Neologismen • POS (Part of Speech): grammatische Funktion lexikalischer Einheiten im Kontext • Syntax: Beschreibung der Phrasen-, Satz- oder Textstruktur • Semantik: Bedeutung eines Textes • Pragmatik: diskursive Funktion von Textabschnitten in ihrem situativen Kontext Kennzeichen dieser und weiterer Annotationsebenen ist, dass sie jederzeit zu einer Sprachdatenbank hinzugef¨ ugt werden k¨onnen und diese damit neuen Anwendungen zug¨anglich machen. 3.1 SAMPA SAMPA (von engl. Speech Assessment Methods Phonetic Alphabet ist ein von einer Gruppe von Phonetikern gemeinsam erarbeiteter Vorschlag zur Transkription von gesprochener Sprache und zur Kodierung von Phonem-Inventaren. Eine Transkription gesprochener Sprache nach SAMPA ist eine phonemische Transkription. F¨ ur jedes Phonem einer Sprache gibt es daher ein eigenes SAMPA-Zeichen, in der Regel aber nicht f¨ ur die Allophone dieses Phonems. SAMPA basically consists of a mapping of symbols of the International Phonetic Alphabet onto ASCII codes in the range 33..127, the 7-bit printable ASCII characters. [Wel97] Die Beschr¨ankung auf den 7-Bit Zeichensatz hatte damals pragmatische Gr¨ unde: alle Rechner unterst¨ utzen den US-ASCII Zeichensatz und die meisten Zeichen lassen sich mit jeder Tastatur direkt eingeben. Mittlerweile hat sich Unicode als Standard-Zeichensatz etabliert, so dass die Beschr¨ankung auf den US-ASCII Zeichensatz nicht mehr zeitgem¨aß ist. Das Problem der Tastatureingabe dagegen bleibt bestehen: die Eingabe von Unicode Zeichen aus einem Spezialalphabet wie dem phonetischen Alphabet der IPA ist nur ¨ uber eine Tastenfolge, einen Annotation 181 nummerischen Code oder sogar die Auswahl aus einem grafischen Men¨ u m¨oglich, was sehr fehleranf¨allig und langsam ist (vgl. Abschnitt 4). 2 SAMPA wurde in den Jahren 1987-89 zun¨achst f¨ ur die Sprachen D¨anisch, Deutsch, Englisch, Franz¨osisch, Italienisch und Niederl¨andisch entwickelt, sp¨ater kamen zuerst weitere europ¨aische, dann auch nichteurop¨aische Sprachen hinzu. SAMPA ist auf die Darstellung segmentaler Einheiten wie Phone und Phoneme beschr¨ankt. Mit SAMPROSA kam eine Notation f¨ ur prosodische Annotation hinzu, mit X-SAMPA eine Konvention zur Kodierung s¨amtlicher IPA-Zeichen inklusive aller Diakritika. Da sich jedes SAMPA-Zeichen auf ein IPA-Zeichen abbilden l¨asst, ist die Verwendung von SAMPA keine Einschr¨ankung, sondern stellt im Gegenteil eine große Arbeitserleichterung dar. Zur Konversion von SAMPA nach IPA stehen auf den SAMPA-Internetseiten eine Reihe von Software-Tools zur Verf¨ ugung. In der englischen Ausgabe von Wikipedia gibt es unter der Adresse en.wikipedia.orgwiki/ SAMPA chart und in der deutschen unter de.wikipedia.org/ wiki/ SAMPA-Transkribierungscodes jeweils einen Artikel zur Abbildung von SAMPA auf IPA. 3.2 Orthographische Transkription Bei der orthographischen Transkription wird ein Sprachsignal im Wortlaut wiedergegeben. Die orthographische Transkription ist das weitgehend theorieneutrale Bindeglied zwischen den phonetischen und phonemischen Annotationen auf der einen und den linguistischen Annotationen auf der anderen Seite, sie erlaubt einen nat¨ urlichen Zugriffauf den Inhalt eines Sprachsignals, und sie ist die Grundlage des Aussprachelexikons einer Sprachdatenbank. Die orthographische Transkription gesprochener Sprache ist problematisch, da eine ¨ Außerung typischerweise nicht lexikalische Ph¨anomene wie H¨asitationen, spontan gebildete Neologismen, Versprecher und dialektale Varianten enth¨alt, f¨ ur die es keine oder noch keine orthographische Norm gibt. Daher werden h¨aufig Markersymbole zur Kennzeichnung von Ger¨auschen und Signalst¨orungen bzw. von paralinguistischen Ph¨anomenen wie Aussprachevarianten, Versprecher, Reparaturen usw. verwendet. 2 F¨ ur Schreibsysteme wie das chinesische, koreanische oder japanische, aber auch f¨ ur die schnelle Texteingabe von SMS auf der Mobiltelefontastatur, haben sich statistische Eingabeverfahren auf der Basis von Tastenfolgen durchgesetzt. Hierbei ermittelt der Computer w¨ahrend der Tastatureingabe die an dieser Position im Text wahrscheinlichsten Zeichen oder W¨orter, der Benutzer w¨ahlt dann das passende Zeichen oder Wort aus. 182 Annotation Die Transkription von Dialogen ist ¨ ublicherweise in die einzelnen Dialogbeitr¨age (sog. Turns) der Sprecher unterteilt. Die einzelnen Beitr¨age sind dabei mit einer Sprecherkennung versehen. Ein besonderes Problem sind hierbei zeitlich ¨ uberlappende Dialogbeitr¨age, da sie sich in der linearen Abfolge des Textes nur schwer erfassen lassen. Bew¨ahrt haben sich eigene Marker f¨ ur ¨ uberlappende Beitr¨age, aber sie erschweren das Lesen des Transkripts. Eine Alternative ist die Partiturschreibweise, bei der jedem Sprecher wie in einer Musikpartitur eine eigene Spur zugeordnet ist, in die die Dialogbeitr¨age geschrieben werden. Dialogtranskripte in Partiturnotation, die auf ein Blatt oder ein Doppelseite passen, sind gut zu lesen, wobei die Anordnung der Beitr¨age in den Spuren eine zeitliche Pr¨azision suggeriert, die sie nicht liefern kann. 3.3 Phonemische Etikettierung Bei der phonemischen Etikettierung wird eine ¨ Außerung als Folge von Phonemen aus dem Phonem-Inventar einer Sprache annotiert. Diese Annotation ist ohne Zeitbezug. Wortgrenzen, Pausen, nichtsprachliche Ph¨anomene wie Lachen, R¨auspern usw. werden i.A. nicht ber¨ ucksichtigt. F¨ ur die meisten europ¨aischen Sprachen hat sich das SAMPA Alphabet bew¨ahrt; es wird laufend um weitere Sprachen erg¨anzt [Wel89]. Ein weiteres, viel verwendetes Phonem-Inventar ist TIMIT, das urspr¨ unglich f¨ ur das Phonem-Inventar des amerikanischen Englisch entwickelt wurde und vor allem in Sprachtechnologie- Anwendungen zu finden ist. Die phonemische Annotation ist das Bindeglied zwischen der orthographischen Transkription und der phonetischen Segmentierung. Zum einen l¨asst sich eine phonemische Annotation automatisch aus einem Aussprachelexikon generieren, zum anderen erlaubt sie die Ber¨ ucksichtigung phonologischer Prozesse, z. B. / @/ -Elision in ‘-en’ Endsilben im Deutschen. Sie ist damit schon recht nahe am Sprachsignal, allerdings noch ohne Zeitbezug. Die phonemische Annotation wird zur Illustration von Dialekten, aber auch f¨ ur die Sprachtechnologie verwendet: Spracherkenner bilden ein Sprachsignal h¨aufig auf eine Phonemkette ab, f¨ ur die im Aussprachelexikon nach den passenden orthographischen Eintrag gesucht wird. Bei der Sprachsynthese wird eine Wortfolge mit Hilfe des Aussprachelexikons in eine Phonemfolge konvertiert, die dann an die eigentliche Sprachgenerierungskomponente ¨ ubergeben wird. Ein gravierendes Problem bei der phonemischen Etikettierung ist die Bearbeitung multilingualer ¨ Außerungen, da hier verschiedene Phonem- Annotation 183 Inventare zusammenkommen. Sind diese Phonem-Inventare disjunkt, d. h. sie haben kein gemeinsames Phonem, dann k¨onnen sie nebeneinander verwendet werden, ansonsten muss der Sprachwechsel explizit markiert oder ein m¨oglichst gut passendes Phonem der Hauptsprache ausgew¨ahlt werden. 3.4 Phonetische Segmentierung Die theoretische Grundlage der phonetischen Segmentierung ist, dass in gesprochener Sprache Laute identifiziert und ihre zeitlichen Grenzen bestimmt werden k¨onnen. Bei der Segmentierung wird das Sprachsignal visuell als Oszillogramm und Sonagramm, akustisch isoliert oder im Kontext ausgegeben. In der grafischen Darstellung des Signals markiert der Annotierer einen Bereich anhand akustischer Eigenschaften und visueller Merkmale und ¨ uberpr¨ uft das markierte Signalfragment akustisch. Stehen die Grenzen fest, wird dem Signalfragment ein phonetisches Label zugeordnet und als Segment abgespeichert (siehe Abb. 86). 0 1000 2000 3000 4000 5000 m v a: g n n Time (s) 1.0204 1.4505 Abbildung 86. Phonetische Segmentierung des Beispielsatzes, hier der Signalabschnitt mit dem Wort ‘Wagen’. Die Segmentgrenzen werden nach akustischen und visuellen Kriterien gesetzt. 184 Annotation Als Label werden meist die Symbole des IPA-Alphabets verwendet [IPA99, Esl90]. Das Alphabet umfasst sowohl Symbole zur Beschreibung von Sprachlauten als auch Symbole zur Beschreibung der Modifikation von Lauten und von T¨onen. Alternative Alphabete sind z. B. Worldbet [Hie94] und X-SAMPA [Wel95]. Bei der engen phonetischen Segmentierung wird einem Signalabschnitt ein sprachunabh¨angiges phonetisches Label zugeordnet, bei der breiten phonemischen Segmentierung ein sprachabh¨angiges Phonemsymbol. 3.5 Gespr¨achsanalytische Transkription Die Gespr¨achsanalytische Transkription GAT ist ein Instrument zur Transkription von Gespr¨achen zwischen mehreren Kommunikationspartnern. Im Vordergrund steht, anders als bei der phonemischen Transkription oder phonetischen Segmentierung, die Interaktion im Gespr¨ach. Besonderes Gewicht wird auf prosodische Aspekte gelegt. GAT versteht sich als schulen¨ ubergreifender Vorschlag f¨ ur die formbezogene Transkription von Gespr¨achen. (aus [Sel01] S. 1061, zitiert nach [Sch04b]). [SAB + 98] nennt Kriterien, die der Entwicklung von GAT zugrundeliegen, z. B. Ausbaubarkeit und Verfeinerbarkeit, Lesbarkeit des Transkripts, ¨ Okonomie und Einfachheit und weitere, darunter auch Kompatibilit¨at zu bestehenden Transkriptionssystemen. In GAT gliedert sich ein Gespr¨ach in Sprecherbeitr¨age (engl. turn). Vereinfacht gesagt, ist dies die ‘Rede eines Gepr¨achsteilnehmers zwischen Sprecherwechseln’. Ein Sprecherbeitrag besteht aus Phrasierungseinheiten, die aufgrund prosodischer, syntaktischer und semantischer Kriterien gebildet werden und meist aus mehreren W¨ortern bestehen. GAT unterscheidet Basis- und Feintranskript. Im Basistranskript werden nur die prosodischen Merkmale Tonh¨ohenbewegung, Dehnung und Akzent ber¨ ucksichtigt, im Feintranskript weitere Merkmale wie Sprechgeschwindigkeit, Lautst¨arke, Register und andere. Zus¨atzlich werden in GAT non-verbale Handlungen, Ereignisse und nicht-phonologische Ph¨anomene wie Atmen und Lachen erfasst. Beispiel Ein Frage-Antwort-Paar in einem Gespr¨ach zwischen zwei Sprechern k¨onnte in GAT wie folgt aussehen: Annotation 185 ... 20 S1: und (.) bist du mit der bahn 21 S2: nein ich bin mit dem WAgen nach bonn gefahren ... In GAT wird generell Kleinschreibung verwendet, Großschreibung wird zur Notation von Akzenten ben¨otigt. Sprecher S1 macht eine kurze Pause zwischen dem ‘und’ und dem Rest der unvollst¨andigen Frage- Phrase. In seiner Antwort darauf setzt Sprecher S2 einen Akzent auf die erste Silbe des Wortes ‘Wagen’, um den Kontrast zu ‘Bahn’ in der Frage deutlich zu machen. GAT wird aktuell ¨ uberarbeitet und erweitert. Zu den Erweiterungen z¨ahlen eine verbesserte Darstellung der segmentellen Interaktion, die Darstellung von Multimodalit¨at der Interaktion, die ¨ Ubersetzung von GAT ins Englische sowie die Programmierung eines GAT 2 Editors. 4 Exkurs: Wie kriege ich die / blød@n / Zeichen in meinen Text? Mit Unicode steht nach nur 60 Jahren Entwicklung in der Computertechnologie nun eine Zeichentabelle zur Verf¨ ugung, die alle Zeichen aller Schriftsprachen der Welt enth¨alt - oder enthalten wird, wenn das Unicode Gremium neu hinzukommende Zeichen aufnimmt. Die meisten Tastaturen jedoch haben nur ca. 100 Tasten, deren Layout und Funktion l¨ander-, hersteller- oder auch modellspezifisch ‘standardisiert’ ist. Es gibt also eine deutsche Tastaturnorm, eine schweizerische, eine amerikanische; dazu Standard-Tastaturlayouts f¨ ur Windows oder Mac OS X und weitere f¨ ur tragbare und Arbeitsplatzrechner usw. Zur Eingabe von Zeichen, die im normalen Schreibalphabet einer Sprache nicht vorkommen, und dazu z¨ahlen die phonetischen Zeichen, aber auch mathematische Symbole, chinesische, koreanische und japanische Schriftzeichen und noch viele weitere, kann man die direkte Eingabe per Tastatur nicht verwenden. Es haben sich zwei Verfahren etabliert: die Umschrift, bei der ein Zeichen durch eine Kombination oder Folge von Tastatureingaben eingegeben wird, oder die Auswahl aus einer Zeichenpalette. Beide Verfahren haben Vor- und Nachteile: die Eingabe per Tastenkombination kann man sich meist nur schlecht merken und sie ist zudem von Rechner zu Rechner, ja sogar von Editor zu Editor verschieden. Eine Zeichenpalette dagegen verdeckt immer einen Teil des Bildschirms, und die Auswahl der Zeichen erfordert Scrollen in der Palette und die visuelle Suche nach dem richtigen Zeichen. 186 Annotation Trotz dieser Nachteile ist die Verwendung von Unicode in Kombination mit einer der beiden Eingabemethoden allen anderen Verfahren vorzuziehen. Beispiel Dieses Buch wurde mit dem Schriftsatzsystem LaTeX unter Mac OS X erstellt. Mit dem LaTeX-Paket tipa stehen phonetische Zeichen zur Verf¨ ugung. Sie werden entweder als LaTeX-Kommandos im normalen Text eingegeben, z. B. \ textturnscripta f¨ ur das [6], oder, meist f¨ ur l¨angere Passagen, in einer Phonetik-Umgebung, die mit \ begin { IPA } g@Pœfn@t PUnt h mIt \ end { IPA } geschlossen wird. In einem grafischen Editor, z. B. Microsoft Word oder anderen, kann man phonetische Zeichen ¨ uber eine Zeichenpalette eingeben, wie sie Abb. 87 zeigt. Abbildung 87. Zeichenpalette von Mac OS X zur Eingabe von Zeichen, die nicht direkt ¨ uber die Tastatur eingegeben werden k¨onnen. Im Texteditor einer Programmierumgebung k¨onnen Sonderzeichen z. T. nur durch einen Zahlencode mit dem Pr¨afix \ u dargestellt werden, z. B. \ u0252 f¨ ur das schon oben verwendete [6]. Und f¨ ur eine Webseite verwendet man dann einfach entweder ɒ oder tippt, falls einem die Dezimalschreibweise besser liegt, die Kombination ɒ f¨ ur dasselbe Zeichen ein. Annotation 187 Welchen Zeichensatz soll ich nehmen? Mit Umschrift und Zeichenpalette stehen zwar zwei M¨oglichkeiten zur Verf¨ ugung, phonetische Zeichen in einem Editor einzugeben, aber damit ist noch nicht gekl¨art, wie der Text bei der Ausgabe aussieht. Ein Zeichensatz legt fest, wie aus einem Zeichencode ein sichtbares grafisches Zeichen wird. Zur Darstellung von Texten mit phonetischen oder anderen Sonderzeichen ben¨otigt man also einen Zeichensatz, der alle Zeichen enth¨alt, die man im Text verwenden will. Fr¨ uher war alles besser Die Anwendung der fr¨ uher beliebten Methode, f¨ ur bestimmte Zeichen einen eigenen Zeichensatz (Font) vorzuschreiben, etwa f¨ ur einen normalen, in lateinischen Buchstaben geschriebenen Text den Zeichensatz Times New Roman, Symbol f¨ ur mathematische Symbole und die IPA93 Zeichens¨atze des SIL (Summer Institute of Linguistics) f¨ ur phonetische Zeichen, sollte mit einer phonetisch engen Transkription von mindestens f¨ unf Stunden spontaner Dialoge bestraft werden - denn auf diese Weise entstandene Dokumente k¨onnen nur korrekt wiedergegeben werden, wenn auf jedem Rechner, auf dem sie ge¨offnet oder sonstwie verwendet werden, alle notwendigen Zeichens¨atze installiert sind und die Information, dass an bestimmten Stellen im Text ein Zeichensatzwechsel notwendig ist, bei einer Konversion der Dokumente nicht verloren gegangen ist. Auf den Internetseiten des SIL 3 wird dies klipp und klar gesagt: The older, “legacy” fonts were designed to work with text in a custom 8-bit encoding, not a recognized character encoding standard, and required changing fonts when switching between normal text and IPA transcription. Alles wird gut Neue, Unicode-basierte Zeichens¨atze vermeiden dieses Problem. Dazu, auf derselben Seite: With Unicode-encoded fonts, the user can produce both normal text and IPA transcription with a single font. In addition, Unicode provides cross-platform compatibility. There were built-in 3 http: / / scripts.sil.org/ IPAhome 188 Annotation incompatibilities between Windows and Mac versions of the legacy fonts, whereas Unicode has been adopted as a standard for Windows, Mac, and Linux systems. Alle Betriebssysteme bieten nun mindestens einen Zeichensatz an, der den gr¨oßten Teil der Unicode Zeichentabelle abdeckt. Unter Windows ist dies z. B. der Zeichensatz Arial Unicode MS, auf dem Mac Lucida. 4 Andere Anbieter stellen Zeichens¨atze zur Verf¨ ugung, die nur einen Teil der Unicode Zeichentabelle abdecken. Diese Zeichens¨atze erf¨ ullen dann besondere typografische Anforderungen und d¨ urfen teilweise frei verwendet werden, z. B. die Zeichens¨atze Doulos und Charis des SIL. In der Zeichenpalette erkennt man sehr schnell, ob ein Zeichen der Unicode-Zeichentabelle vom aktuell ausgew¨ahlten Zeichensatz ¨ uberhaupt angeboten wird. Wenn nicht, dann steht an der entsprechenden Stelle in der Palette ein leeres K¨astchen wie in der zweiten Reihe in Abb. 88. Abbildung 88. Zeichenpalette mit einem Zeichensatz, der nicht alle Unicode- Zeichen enth¨alt. Mit Unicode und einem Zeichensatz, der Unicode abdeckt, ist es also ohne Wechsel des Zeichensatzes m¨oglich, einen deutschen Text zu schreiben, der phonetische Zeichen, mathematische Symbole und Zitate in japanischen Kanji und arabischer Schrift enth¨alt, und der sich zudem noch von einem Rechner auf einen anderen ¨ ubertragen l¨asst, ohne dass man Angst haben muss, dass er dort einen ganz anderen Inhalt hat - vielleicht sieht man nicht alle Zeichen, aber es wird immerhin kein Zeichen durch ein anderes ersetzt, wie das fr¨ uher mit den 8-Bit Zeichentabellen passiert w¨are. 4 Eine gute ¨ Ubersicht zu diesem Thema geben die Internetseiten von Alan Wood http: / / www.alanwood.net/ unicode/ Annotation 189 5 Annotationsmodell [BL01] haben Annotationsgraphen als Modell f¨ ur Annotationen vorgeschlagen. Die Grundlage der Annotationsgraphen ist die Trennung von Struktur und Daten, wie sie bei der Datenmodellierung in der Informatik ¨ ublich ist. Ein Annotationsgraph ist ein gerichteter azyklischer Graph mit den folgenden Eigenschaften: • einer Menge L von linguistischen Labeln, wobei ein Label aus einer Liste von Attribut-Wert-Paaren besteht, • einer Menge N Knoten, • einer Menge von Kanten, die mit je einem Label aus L beschriftet sind, und • einer Zeitfunktion t, die Knoten einen Zeitpunkt auf einer Zeitachse zuordnet. Es gelten die zus¨atzlichen Bedingungen, dass jeder Knoten mindestens eine Kante haben muss, und dass f¨ ur zwei Knoten n 1 und n 2 , f¨ ur die t ( n 1 ) und t ( n 2 ) definiert sind, t ( n 1 ) ≤ t ( n 2 ) ist. Die erste Bedingung bedeutet, dass in einem Annotationsgraphen kein Knoten isoliert ist, die zweite Bedingung, dass die Zeitpunkte auf den Zeitachsen geordnet sind, auch wenn sie auf unterschiedliche Zeitachsen verweisen, z. B. einen Abtastpunkt in einer Audiodatei und einen Videoframe in einer Videospur. Ein verankerter Annotationsgraph ist ein Annotationsgraph, bei dem jeder Knoten, der Start- oder Endknoten ist, d. h. der nur eingehende oder ausgehende Kanten hat, einem Zeitpunkt auf einer Zeitachse zugeordnet ist. Bei einem vollst¨andig verankerten Annotationsgraphen sind alle Knoten einem Zeitpunkt auf einer Zeitachse zugeordnet. Ein Annotationsgraph kann isolierte Subgraphen enthalten, d. h. Subgraphen, die nicht mit anderen Graphen ¨ uber Kanten verbunden sind. In Annotationsgraphen werden Annotationsebenen einerseits durch die Menge der Label, andererseits durch Kanten mit gleichem Attribut notiert. Beispiel Abb. 89 zeigt die Wortebene und die Segmentation des Beispielsatzes als Annotationsgraph. Die Zeitfunktion t ist als gestrichelte Linie dargestellt, die Knoten mit der Zeitachse verbindet. Sowohl die Phonemals auch die Wortebene sind vollst¨andig verankerte Annotationsgraphen. 190 Annotation W: ich W: bin W: mit P: ç P: b P: P: n P: m P: 0,3287 0,3448 0,4349 0,5802 0,7064 0,7531 0,7966 P: P: 0,6439 Abbildung 89. Annotationsgraph des Beispielsatzes mit den zwei Annotationsebenen Wort- und Phonem-Segmentation (W: bzw. P: Label an den Kanten). Annotationsgraphen haben sich als universelle Notation f¨ ur Annotationen auf mehreren Ebenen etablieren k¨onnen. Zur Speicherung und zum Austausch von Annotationsgraphen gibt es ein XML-Austauschformat, und viele Software-Tools zur Erstellung und Verarbeitung von Annotationen unterst¨ utzen Annotationsgraphen [Sch04b]. Annotation 191 6 Aufgaben 1. Nennen Sie je zwei Beispiele f¨ ur eine analytische und eine empirische Beziehung zwischen Signal und kategorialer Beschreibung. 2. Wozu dienen Annotationsebenen? Wie viele gibt es? 3. Was bedeutet es, wenn zwischen Annotationsebenen eine hierarchische 1: n-Beziehung besteht? 4. Was ist eine zeitalinierte Annotation? 5. Was ist der Unterschied zwischen einer phonemischen und einer phonetischen Annotation? 6. Wie funktioniert das Eingabeverfahren der Umschrift? Nennen Sie zwei typische F¨alle, bei denen dieses Verfahren eingesetzt wird. 7. Was ist das Besondere an Annotationsgraphen? 8. Welche Annotationsebenen empfiehlt die IPA f¨ ur Sprachdatenbanken? Erstellung von Sprachdatenbanken Dieses Kapitel behandelt die Erstellung von Sprachdatenbanken. Ausgangspunkt ist ein realistisches Beispiel einer Sprachdatensammlung f¨ ur eine Abschlussarbeit. 1 Im Anschluss an das Beispiel wird ein Phasenmodell vorgestellt, das die Erfahrungen bei der Erstellung sowohl von kleineren als auch von großen Sprachdatenbanken f¨ ur Abschlussarbeiten, kleinere Auftragsprojekte als auch mehrj¨ahrige Industrie- und Forschungsprojekte widerspiegelt. Jede Phase des Modells wird in einem eigenen Kapitel behandelt. Im Anhang des Buches befindet sich eine Checkliste, die bei eigenen Sprachdatenbank-Projekten ein systematisches Vorbereiten der einzelnen Arbeitsschritte und eine Pr¨ ufung auf Vollst¨andigkeit erlaubt. Diese Checkliste l¨asst sich einfach kopieren und bildet die Grundlage f¨ ur die Erstellung einer eigenen Sprachdatenbank. 1 Ein Beispiel vorab In einer Bachelorarbeit sollen ausgew¨ahlte lautliche Ph¨anomene von Regionalsprachen untersucht werden. Die Literatur beschreibt solche Ph¨anomene, aber die zugrundeliegenden Audiodaten stehen nicht (oder nicht mehr) zur Verf¨ ugung - es sollen also neue Aufnahmen gemacht werden. Die Bachelorarbeit beginnt damit, dass der Betreuer das Thema vorgibt. In einer ersten Besprechung diskutieren dann Betreuer und Student ¨ uber die Arbeit: welche und wie viele Sprecher sollen aufgenommen werden, in welcher Signalqualit¨at, wie m¨ ussen die Aufnahmen ablaufen, damit die Signaldaten zur Beantwortung der Fragestellung passen, wie soll annotiert werden usw. In dieser Besprechung wird auch ein Zeitplan erstellt, der die wichtigsten Arbeitsschritte und Termine enth¨alt. 1 Unrealistisch ist daran nur, dass Hilfskr¨afte f¨ ur die Aufnahmen und die Annotation zur Verf¨ ugung stehen - meist muss man doch alles selbst machen. Erstellung von Sprachdatenbanken 193 Im Anschluss an diese Besprechung stellt der Student das Material zusammen, konfiguriert die Aufnahmesoft- und -hardware, kontaktiert die m¨oglichen Sprecher und legt einen Terminkalender f¨ ur die Aufnahmen an. Wenn mehrere Personen an und mit den Daten arbeiten sollen, dann stellt der Student ein Arbeitsteam zusammen und verteilt die Aufgaben: Aufnahmeleitung, Annotation usw. Sobald die ersten Sprechertermine vereinbart sind, k¨onnen die Aufnahmen beginnen. Der Aufnahmeleiter f¨ uhrt ein, zwei Aufnahmesitzungen durch, sichert die Signaldaten auf dem Institutsrechner und l¨asst sie vom Team annotieren oder annotiert sie selbst. Dann ¨ uberpr¨ uft er die Signaldateien, die Kopien auf dem Rechner und die Annotation in Hinblick auf die urspr¨ ungliche Spezifikation - liefern die Aufnahmen das gew¨ unschte Material, ist eine Weiterverarbeitung auf den Institutsrechnern m¨oglich, sind die Annotationen in der vorgegebenen Zeit machbar? K¨onnen alle Fragen positiv beantwortet werden, dann werden die restlichen Aufnahmen durchgef¨ uhrt, gesichert und annotiert. W¨ahrend aller Arbeitsschritte wird ein Protokoll gef¨ uhrt: Aufnahmetermine, wichtige Ergebnisse aus Besprechungen, Tipps f¨ ur die t¨agliche Arbeit usw. Sobald die Annotation abgeschlossen ist, wird die Dokumentation angefertigt. Sie besteht aus einem kurzen einleitenden Kapitel zur geleisteten Arbeit, und je einem ausf¨ uhrlicheren Kapitel zu den Aufnahmen, der Datenaufbereitung und der Annotation. Außerdem werden nun die endg¨ ultigen Wortlisten und das Aussprachelexikon erstellt sowie Statistiken berechnet. Die Signaldaten, Annotationen und die Dokumentation werden jetzt dem Betreuer vorgelegt und mit ihm besprochen - wenn alles in Ordnung ist, werden alle Daten und Dokumente auf DVD gesichert oder auf dem Institutsserver abgelegt. Damit ist die Sprachdatenbank fertiggestellt, und sie kann nun f¨ ur die eigentlichen Auswertungen und Untersuchungen verwendet werden. 2 Phasenmodell Das Phasenmodell von [SDB + 03] ist eine sowohl zeitliche als auch nach Aufgaben gegliederte Darstellung der Erstellung einer Sprachdatenbank. Es beginnt mit den vorbereitenden Arbeiten der Spezifikation und endet mit der Freigabe der Sprachdatenbank zur Nutzung und Distribution. Die Akteure sind zum einen der Datenbankersteller, also derjenige, der die Arbeiten durchf¨ uhrt und f¨ ur sie verantwortlich ist, zum ande- 194 Erstellung von Sprachdatenbanken ren externe Partner, das sind z. B. Betreuer, Auftraggeber, Dienstleister oder andere, die in irgendeiner Weise mit dem Datenbankersteller kooperieren. Die horizontale Achse gibt den zeitlichen Verlauf, ¨ ublicherweise in Monaten wieder. Mit t i werden Zeitpunkte auf der Zeitachse markiert, z. B. Intervalle von drei Monaten, Phasengrenzen oder Meilensteine. Ein Meilenstein ist ein Zeitpunkt, zu dem bestimmte Arbeiten abgeschlossen sein m¨ ussen. Meilensteine k¨onnen regelm¨aßige Termine sein wie z. B. ein monatlicher Fortschrittsbericht, als auch einzelne Arbeitsschritte, wie z. B. der Versand von Unterlagen, als auch nat¨ urlich der Abschluss einer Phase. Vertikal ist das Diagramm in zwei Bereiche unterteilt: ‘intern’ ist der Bereich, der diejenigen Phasen enth¨alt, die der Datenbankersteller durchf¨ uhren muss, ‘extern’ ist der Bereich der anderen Partner. Einige Phasen werden von beiden Partnern gemeinsam bearbeitet. Phasen werden durch Bl¨ocke innerhalb der Bereiche dargestellt. Im Regelfall sind die Phasen sequentiell angeordnet, d. h. eine neue Phase beginnt erst mit Abschluss der vorangegangenen. Einige Phasen k¨onnen parallel ablaufen, da die darin durchgef¨ uhrten Arbeiten voneinander unabh¨angig sind - sie sind durch parallel angeordnete Bl¨ocke im Diagramm dargestellt. Datensammlung Datenaufbereitung Annotation Zeit Prävalidierung Validierung Dokumentation Distribution Spezifikation Vorbereitung extern intern t 0 t 3 t 6 t 9 t E Abbildung 90. Phasenmodell der Erstellung von Sprachdatenbanken aus [SDB + 03]. Das Phasenmodell ist eine idealisierte Darstellung. In der Praxis wird es vorkommen, dass eine nachtr¨agliche Revision fr¨ uherer Phasen notwendig ist. So kann sich z. B. herausstellen, dass die Aufnahmen Erstellung von Sprachdatenbanken 195 nicht in der Qualit¨at erfolgen k¨onnen, wie dies in der Spezifikation festgelegt wurde, so dass die Spezifikation angepasst werden muss. Inhaltlich sind Datensammlung und Annotation die wichtigsten Phasen bei der Erstellung einer Sprachdatenbank, da sie die eigentlichen Sprach- und Annotationsdaten liefern. Diese Phasen stehen deswegen fast automatisch im Fokus aller Planungen. Unter zeitlichen Aspekten gesehen, aber auch in Hinblick auf Personaleinsatz und materielle Ressourcen, k¨onnen die Phasen Spezifikation, Vorbereitung, Datenaufbereitung, Dokumentation und Validierung aber deutlich aufwendiger und teurer sein als die eigentliche Datensammlung mit Annotation. Es ist daher wichtig, dass bei der Planung einer jeden Sprachdatenbank, unabh¨angig von ihrem Umfang und dem zu leistenden Aufwand, alle Phasen ber¨ ucksichtigt werden. 3 Spezifikation In der Spezifikation wird definiert, welchen Inhalt die Sprachdatenbank haben und nach welchem Vorgehen sie erstellt werden soll. Die Spezifikation beschreibt die • sprachlichen Inhalte, • Sprecherpopulation, • Aufnahmetechnik sowie die angestrebte Signalqualit¨at, • Annotation, • Dokumentation, • Validierung und • Datenformate sowie die Dateistruktur. Außerdem gibt sie einen Terminplan mit Meilensteinen und einzuhaltenden Fristen vor. 3.1 Sprachlicher Inhalt Der sprachliche Inhalt umfasst die Sprechsituation, den Sprachstil und das Szenario mit Aufgabe und Vokabular. Zwischen diesen drei Inhalten bestehen starke gegenseitige Abh¨angigkeiten, ebenso zwischen dem sprachlichen Inhalt und der Aufnahmetechnik. 3.1.1 Sprechsituation und Sprachstil Sprechsituation bezeichnet den ¨außeren Rahmen eines Gespr¨achs bzw. einer Sprachaufnahme. Die Sprechsituation l¨asst sich nach formalen 196 Erstellung von Sprachdatenbanken Merkmalen wie Kommunikationspartner, r¨aumlicher Distanz, Richtung und zeitlichem Ablauf klassifizieren. Kommunikationspartner sind entweder Menschen, die miteinander sprechen, oder Menschen im Dialog mit einer Maschine. Die r¨aumliche Distanz ist bei face-to-face-Gespr¨achen gering, bei Telefon- oder Internetaufnahmen dagegen groß. Die Richtung ist unidirektional, wenn nur einer spricht, oder bi- oder multidirektional, wenn Sprecher und H¨orer sich abwechseln. Der zeitliche Ablauf ist synchron, wenn die gesprochene Nachricht ohne Verz¨ogerung vom H¨orer aufgenommen wird, asynchron, wenn es eine Verz¨ogerung gibt und diese dem Sprecher auch bewusst ist. Alternativ kann man Sprechsituationen auch umschreiben, etwa als ‘Terminabsprache unter Gesch¨aftskollegen’, ‘computergef¨ uhrtes Interview ¨ uber das Telefon’ oder ‘Wizard-of-Oz Simulation eines touristischen Auskunftssystems’. Beide Beschreibungen von Sprechsituationen sind n¨ utzlich: die erste erlaubt auf einfache Weise eine Klassifikation von Sprechsituationen und damit Vergleiche zwischen solchen Situationen, die zweite gibt einen intuitiven Eindruck von einer konkreten Sprechsituation. Mit Sprachstil bezeichnet man die Art und Weise, wie ein Sprecher in einer gegebenen Sprechsituation tats¨achlich spricht. Der Sprachstil l¨asst sich an Hand objektiver Daten wie globaler und lokaler Sprechgeschwindigkeit, Intonationsverlauf, Verwendung von Dialekt oder regionaler F¨arbung sowie dem Grad der Wohlartikuliertheit beschreiben, oder durch die Angabe von Konzepten von Sprachstilen wie z. B. ‘Diktiersprache’, ‘Nachrichtensprecher’, ‘Umgangssprache’ oder ‘Berufsjargon’. Die objektiven Kriterien zur Klassifikation von Sprachstilen sind in der Praxis problematisch. Sie lassen sich w¨ahrend der Aufnahme kaum ¨ uberpr¨ ufen und f¨ uhren in der Regel zu unnat¨ urlicher Sprache, da der Sprecher ¨ uber seine Sprechweise reflektieren muss. In Experiment- Situationen, in denen eine nat¨ urliche Sprechweise zugunsten der gesuchten Ph¨anomene zur¨ uckstehen kann, sind objektive Angaben hilfreich. Mit einer indirekten Methode kann man die Einhaltung objektiver Angaben auch ohne explizite Anweisungen erreichen: so kann man z. B. mit einem Metronom-Takt ¨ uber einen Kopfh¨orer dem Sprecher eine Sprechgeschwindigkeit vorgeben, oder mit einem Rauschen eine besonders laute Aussprache erzielen, oder man kann ihn mit verz¨ogerter Wiedergabe der eigenen Stimme zum Stammeln bringen. Sprachstil-Konzepte sind einerseits anschaulich, andererseits in hohem Maße abh¨angig vom Kulturkreis und der pers¨onlichen Erfahrung Erstellung von Sprachdatenbanken 197 sowohl derjenigen Personen, die die Sprachdatenbank spezifizieren, als auch der aufzunehmenden Sprecher. 3.1.2 Szenario, Aufgabe und Vokabular Ein Szenario (engl. scenario) ist eine knappe Beschreibung der prim¨aren Verwendung der Sprachdatenbank. Das Szenario informiert ganz allgemein ¨ uber die Sprachdatenbank: es umfasst Angaben zum Zweck der Aufnahmen und gibt einen ersten ¨ Uberblick ¨ uber die eingesetzten Aufnahmetechnik und verf¨ ugbaren Annotationen. Die Aufgabe (engl. task) beschreibt den konkreten Ablauf einer Aufnahme und den Beitrag der Sprecher. Die Beschreibung der Aufgabe besteht aus zwei Teilen: einer konkreten Aufgabe, die die Sprecher bearbeiten m¨ ussen, und dem Aufnahmeskript, das den Ablauf der Aufnahmesitzung festlegt. Die konkrete Aufgabe reicht vom Lesen eines vorgegebenen Texts oder Fragebogens ¨ uber die freie Beantwortung von Fragen am Telefon bis hin zu spontanen ¨ Außerungen in vorgegebenen Situationen. Das Aufnahmeskript regelt den zeitlichen Ablauf und die Koordination der ¨ Außerungen. Im einfachsten Fall besteht ein Skript aus einer einfachen Aufforderung zur Produktion einer ¨ Außerung, in der Regel besteht es aber aus einer Folge von Anweisungen. Diese Folge kann streng sequentiell oder in zuf¨alliger Reihenfolge durchlaufen werden, wobei die Schritte bei nicht ¨ uberwachten Aufnahmen automatisch erfolgen, bei kontrollierten Aufnahmen manuell gesteuert werden (vgl. Kapitel 7 Abschnitt 6.1.1). Das Vokabular (engl. vocabulary) legt fest, welche Ausdr¨ ucke die aufgenommenen Sprachdaten enthalten m¨ ussen. Es wird durch Umschreibung oder durch explizite Auflistung angegeben. Die Umschreibung erfolgt als Freitext oder formale Anleitung. 3.2 Sprecherpopulation Die Anzahl der Sprecher erlaubt eine erste Klassifikation von Sprachdatenbanken: kleine Sprachdatenbanken haben bis zu 20 Sprecher, mittlere bis zu 100 Sprecher, und große mehr als 100 Sprecher. Kleine Datenbanken werden meist f¨ ur akademische Abschlussarbeiten, als Pilot-Sprachdatenbanken oder bei apparativ sehr aufwendigen Aufnahmen wie EMA oder EPG erstellt. Mittlere Sprachdatenbanken dienen h¨aufig zum Testen von Sprachtechnologiesystemen, z. B. bei der Evaluation von Spracherkennungs- oder Dialogsystemen, oder zur gezielten Erweiterung bestehender großer Sprachdatenbanken, z. B. um 198 Erstellung von Sprachdatenbanken eine zus¨atzliche Sprecherpopulation oder ein neues Aufnahmeverfahren. Große Sprachdatenbanken werden f¨ ur repr¨asentative Abdeckung und zum Trainieren statistisch basierter Verfahren verwendet. Die Spezifikation der Sprecherpopulation einer Sprachdatenbank basiert auf demographischen und biometrischen Merkmalen. Je nach Einsatzgebiet der Sprachdatenbank werden f¨ ur diese Kriterien Vorgaben definiert. Die Erhebung dieser Merkmalsdaten ist nicht trivial, da diese Angaben nur zum Teil vom Sprecher selbst geleistet werden k¨onnen, zum Teil auch durch einen Experten erfolgen m¨ ussen, z. B. die Beurteilung einer Dysfunktion. Außerdem muss ber¨ ucksichtigt werden, dass die Angaben der Sprecher opportunistisch sein k¨onnen - geeignete Kontrollmechanismen m¨ ussen daher vorgesehen werden. 2 Aus Gr¨ unden des Datenschutzes und der Wahrung der Pers¨onlichkeitsrechte m¨ ussen die Aufnahmen einer Sprachdatenbank anonym erfolgen oder nachtr¨aglich anonymisiert werden. Deshalb d¨ urfen die Angaben zu den Sprechern nicht so detailliert erhoben werden, dass sie eindeutige R¨ uckschl¨ usse auf einzelne Sprecher erlauben. 3 MacWhinney stellt in [Mac01] neun ‘levels of confidentiality’ vor, die von uneingeschr¨anktem ¨offentlichen Zugriff (Level 1) bis hin zum Zugriffnur durch die aufnehmende Person (Level 9) reichen. Allgemein verf¨ ugbare Sprachdatenbanken sollten mindestens die ‘Level 5’-Anforderungen - oder weniger strenge - erf¨ ullen: “Access is restricted to researchers who have signed non-disclosure forms. Additionally, copying is disallowed.” 4 3.2.1 Demographische Merkmale Zu den demographischen Angaben z¨ahlen die Muttersprache(n) und Fremdsprachenkenntnisse, regionale Herkunft sowie der soziale Status (Ausbildung, Beruf). Muttersprache sowie Fremdsprachenkenntnisse haben einen unmittelbaren Einfluss auf den Sprachstil, z. B. beim Sprechtempo, der Prosodie und der Aussprache von Fremdw¨ortern. 2 Bei der Anmeldung zur Teilnahme an den Aufnahmen zum Projekt RVG-J (Regional Variants of German - Junior) in M¨ unchen haben ca. 30 % der Eltern ihrem Kind ‘hochdeutsch’ statt einer der vorgesehenen Sprachregionen zugeordnet. Auf dem Anmeldebogen war eine Deutschlandkarte mit sieben großen Sprachregionen angegeben; die Eltern haben handschriftlich eine achte Angabe hinzugef¨ ugt. 3 Das stellt in den F¨allen ein Problem dar, wo ausgeschlossen sein muss, dass ein Sprecher mehrfach aufgenommen wurde, wie z. B. bei Sprachdatenbanken f¨ ur Sprecheridentifikation. 4 Man sollte stets versuchen, m¨oglichst weitreichende Nutzungsrechte zu vereinbaren, um die Daten - auch ausschnittsweise - in Ver¨offentlichungen verwenden, sie Kollegen zur Verf¨ ugung stellen oder auch als Sprachdatenbank vertreiben zu k¨onnen. Erstellung von Sprachdatenbanken 199 Die regionale Herkunft zeigt sich in der Alltags- und Umgangssprache als Dialekt oder als regionale F¨arbung. Die Erhebung dieses Merkmals kann problematisch sein, da die Angaben der Sprecher hierzu von der subjektiven Beurteilung des Sprechers selbst abh¨angen. Objektive Angaben wie der Ort des Grundschulbesuchs, Umz¨ uge und die Aufenthaltsdauer am aktuellen Wohnort k¨onnen Hinweise auf einen Dialekt oder die regionale F¨arbung geben. Sie vermeiden das Problem der inkonsistenten Datenerhebung, vernachl¨assigen aber die wertvolle Selbsteinsch¨atzung des Sprechers. Sie werden von vielen Sprechern auch argw¨ohnisch betrachtet, da sie meist per Formular erhoben werden und dadurch den Sprechern das Gef¨ uhl geben, ‘oﬃziell registriert’ worden zu sein. Eine Kombination objektiver und subjektiver Angaben ist sinnvoll. Ein Teil der Angaben kann auch w¨ahrend der eigentlichen Datensammlung erhoben werden und liefert somit zugleich Sprachals auch demographische Daten. Zur Beurteilung des sozialen Status werden meist der h¨ochste erreichte Ausbildungsabschluss und der aktuell ausge¨ ubte Beruf abgefragt. 3.2.2 Biometrische Merkmale Die biometrischen Angaben umfassen Geschlecht und Alter, Gr¨oße und Gewicht sowie sprach- und stimmrelevante Merkmale wie Rauchen, Zahnspangen, Piercings im Mundbereich, Dysfunktionen usw. Die biometrischen Angaben sind in der Regel objektiv zu bestimmen. Eine Mindestangabe ist das Geschlecht der aufgenommenen Person, da sich die Stimmen von Frauen und M¨annern grunds¨atzlich unterscheiden. Als Altersangabe ist das Alter zum Zeitpunkt der Aufnahme relevant, wobei ab einem Alter von ca. sechs Jahren eine Jahresangabe ausreicht; bei j¨ ungeren Sprechern m¨ ussen Monat und Jahr erhoben werden, da bei diesen Sprechern sprachliche Entwicklungen sehr rasch ablaufen. Gr¨oße und Gewicht sind h¨aufig ebenfalls interessant, z. B. f¨ ur physiologische Untersuchungen oder f¨ ur die Entwicklung von sprachbasierten Verifikations- und Identifikationssystemen. Sie k¨onnen relativ leicht erhoben werden. Die Erhebung der Angaben zu stimm- und sprachrelevanten Merkmalen dagegen ist problematisch, da sie zum einen die pers¨onliche Lebensf¨ uhrung betreffen (Trinken, Rauchen, Einnahme von Drogen) und somit von den Sprechern h¨aufig nicht wahrheitsgem¨aß beantwortet wer- 200 Erstellung von Sprachdatenbanken den, zum anderen betreffen sie Sprach- oder Sprechst¨orungen, die nur ein Experte ausreichend genau spezifizieren kann. 3.3 Aufnahmetechnik und Signalqualit¨at Die Spezifikation der Aufnahmetechnik legt die zu verwendenden Mikrofone, Aufnahmeger¨ate und das Aufnahmeverfahren mit dem Ablauf der einzelnen Aufnahmen fest. Welche Aufnahmetechnik verwendet wird, richtet sich nur zum Teil nach der angestrebten Signalqualit¨at; einen mindestens ebenso starken Einfluss haben Sprechsituation und Sprachstil. Im Wesentlichen kommen Telefonaufnahmen, Aufnahmen ¨ uber das Internet, Studioaufnahmen oder Feldaufnahmen in Frage. Telefongespr¨ache werden nach Art der Netzverbindung klassifiziert: Festnetz, Mobilnetz und VoIP, und danach, ob das Endger¨at oder eine Freisprecheinrichtung benutzt wird. Neben reinen Sprach-Telefonaten sind mit UMTS auch Videotelefonate m¨oglich. F¨ ur Aufnahmen ¨ uber das Internet werden die Signalparameter Abtastrate, Quantisierung und Anzahl der Kan¨ale angegeben, und ob eine Komprimierung angewendet werden soll - zul¨assig ist allenfalls eine verlustfreie Komprimierung. Außerdem wird spezifiziert, ob eine bestimmte Konfiguration aus Mikrofonen und A/ D-Wandler verwendet werden soll, und wie sichergestellt werden kann, dass sie auch an allen Aufnahmeorten verf¨ ugbar ist. Alternativ kann man einfach die am Aufnahmeort vorhandenen Ger¨ate f¨ ur die Aufnahmen nutzen. F¨ ur Studioaufnahmen werden der verwendete Studioraum, die Mikrofone und ihre Platzierung, ihr Anschluss an das studioeigene Mischpult und den Aufnahmerechner, sowie die Technik f¨ ur die Stimuluspr¨asentation festgelegt. Dar¨ uber hinaus wird angegeben, welche Sprachmerkmale und Sprechereigenschaften das Aufnahmeteam bereits bei der Aufnahme ¨ uberwachen und kontrollieren muss, und wie sichergestellt werden kann, dass diese eingehalten werden. F¨ ur Feldaufnahmen werden die erlaubten Umgebungsbedingungen angegeben, ebenso wie Mikrofone, A/ D-Wandler und Aufnahmeger¨at. 3.4 Annotation In der Spezifikation wird angegeben, auf welchen Ebenen die Sprachsignaldaten annotiert, welche Verfahren dazu angewendet und in welchem Format die Annotationen abgespeichert werden. Mindestvoraussetzung ist eine orthographische Transkription mit einer Wortfrequenzliste. Die orthographische Annotation wird meist Erstellung von Sprachdatenbanken 201 erweitert um Marker f¨ ur nicht-lexikalische und nicht-sprachliche Ph¨anomene wie Wortabbr¨ uche, Signalst¨orungen oder Atmen und Lachen. Die Wortfrequenzliste enth¨alt Angaben zur kanonischen oder tats¨achlichen Aussprache. Die Beschreibung des Annotationsverfahrens enth¨alt Angaben dar¨ uber, ob das Signal f¨ ur die Annotation aufbereitet, z. B. geschnitten, gefiltert oder konvertiert wird. Außerdem werden die Anforderungen an die Annotierer und die technischen Angaben zur Annotation festgelegt. Die Richtlinien zur Annotation werden Teil der Dokumentation. 3.5 Dokumentation Die Spezifikation legt fest, welche Dokumente erstellt werden, welche Zugriffsrechte f¨ ur sie gelten, und ob sie Bestandteil der oﬃziellen Dokumentation der Sprachdatenbank werden. Typische Dokumenttypen sind die Datenbankspezifikation, technische Berichte, Aufnahme-Handb¨ ucher und Annotationsrichtlinien. Diese werden von Projektmitarbeitern oder Arbeitsgruppen zu festgelegten Terminen erstellt. Bei akademischen Sprachdatenbanken sind sie in der Regel ¨offentlich zug¨anglich, bei kommerziellen werden sie, wenn ¨ uberhaupt, h¨aufig erst nach einer Sperrfrist oder nach Ende des Projekts ¨offentlich verf¨ ugbar gemacht. Wissenschaftliche Ver¨offentlichungen ¨ uber Sprachdatenbanken sollten ebenfalls in die Dokumentation aufgenommen werden, wenn dies mit dem Copyright der Herausgeber vereinbar ist. Weitere Dokumenttypen sind Forums- und Wikibeitr¨age und automatisch angelegte Protokolldaten. Die Spezifikation listet auf, welche dieser Dokumente Bestandteil der Sprachdatenbank werden. Zur Dokumentation geh¨oren in jedem Fall auch die Validierungsberichte. 3.6 Validierung In der Spezifikation wird festgelegt, welche Eigenschaften eine Sprachdatenbank haben soll, und ob und in welchem Ausmaß Abweichungen davon zul¨assig sind. Diese Eigenschaften werden in der Validierung (vgl. Abschnitt 9) abgepr¨ uft. Die Spezifikation schreibt vor, wann welche Validierung durchgef¨ uhrt wird und wer diese ausf¨ uhrt. Ein kritischer Aspekt, besonders in Kooperationsprojekten mit mehreren voneinander abh¨angigen Partnern, ist, ob und unter welchen Bedingungen eine Sprachdatenbank auch dann akzeptiert werden kann, 202 Erstellung von Sprachdatenbanken wenn sie Validierungskriterien nicht erf¨ ullt. ¨ Ublich sind entweder ein Mehrheitsvotum der Projektleitung, eine Kompensation durch die Nachlieferung zus¨atzlichen Materials, das Einbehalten von Geldern, eine Konventionalstrafe, oder die Neuvergabe der Datensammlung an einen anderen Partner. 3.7 Datenformate und Dateistruktur Die Spezifikation legt die Dateistruktur der Sprachdatenbank, den Aufbau der Dateinamen und die verwendeten Dateiformate fest. 3.7.1 Dateisystem und Dateinamen Die Dateistruktur besteht aus hierarchisch strukturierten Verzeichnissen, z. B. doc/ , log/ , data/ , html/ f¨ ur die Dokumentation, Protokolldateien, die Signal- und Annotationsdaten und HTML-Seiten zur Darstellung in einem Browser. Es gibt im Wesentlichen zwei Klassen von Dateinamen: semantische und nummerische Dateinamen. Bei semantischen Dateinamen sind Inhaltsmerkmale wie das Geschlecht des Sprechers, Wortlaut der ¨ Außerung oder Dialektregion und laufende Nummer im Namen kodiert, z. B. m OND Strasse 0.wav f¨ ur die Aufnahme mit der laufenden Nummer 0 eines m¨annlichen Sprechers aus der Dialektregion ostniederdeutsch, der das Wort ‘Straße’ gesprochen hat. Nummerische Dateinamen bestehen aus einer oder mehreren laufenden Nummern wie der Nummer der Aufnahmesitzung und des ¨ Außerungstyps, z. B. A 2028 P2.wav mit den drei Bestandteilen Projektcode, Sitzungsnummer und ¨ Außerungscode. Semantische Dateinamen haben den Vorteil, dass sie eine direkte Auswahl der Dateien nach inhaltlichen Kriterien erlauben, aber den Nachteil, dass die Dateinamen nicht automatisch generiert werden k¨onnen, weil sie von Sprecher- und anderen Merkmalen abh¨angen, die zum Zeitpunkt der Aufnahme u. U. nicht bekannt sind. Nummerische Dateinamen k¨onnen automatisch generiert werden, sagen aber wenig ¨ uber den Inhalt der Datei aus. Beide Verfahren m¨ ussen garantieren, dass jede Datei einen eindeutigen Namen erh¨alt, um das unabsichtliche ¨ Uberschreiben von Dateien zu verhindern. Erstellung von Sprachdatenbanken 203 3.7.2 Dateiformate S¨amtliche Daten werden in Plattform-unabh¨angigen Standard-Datenformaten abgelegt. Sinnvoll sind folgende Formate: • PDF f¨ ur die Dokumentation. Das Layout und die Zeichens¨atze in PDF sind Plattform-unabh¨angig, die Dokumente k¨onnen durchsucht und Links im Text verfolgt werden. • XML f¨ ur die Annotation und das Aussprachelexikon. XML mit einer DTD oder Schema-Beschreibung erlaubt die formale Konsistenzpr¨ ufung der Datei und erleichtert den Datenaustausch zwischen Anwendungsprogrammen. • TXT f¨ ur Protokolldaten. Die Formate der Audiosignaldateien sind entweder reine Bin¨arformate wie alaw f¨ ur ISDN-Telefondaten, oder allgemeine Audiodateiformate f¨ ur alle anderen Audiosignale. F¨ ur Videodaten verwendet man immer Containerformate wie QuickTime, mpeg-4 oder Windows Media. M¨ ussen spezielle Dateiformate verwendet werden, z. B. weil die verwendete Software nur diese Formate verarbeiten kann, dann m¨ ussen Konversionstools f¨ ur diese Datenformate oder Programmbibliotheken zum Zugriffauf die Dateiinhalte Bestandteil der Sprachdatenbank oder ¨offentlich verf¨ ugbar sein (vgl. die Annotationsmaximen von Leech in Kapitel 8 Abschnitt 1.2). 3.8 Distribution Die Spezifikation legt fest, in welcher Form eine Sprachdatenbank zur Distribution und Nutzung freigegeben wird. Diese Distribution wird durch Lizenzabkommen geregelt und erfolgt entweder oﬄine auf Datentr¨agern oder online ¨ uber das Netz. Die Lizenzen bestimmen, wer zu welchen Konditionen Zugriffauf die Sprachdatenbank erh¨alt. ¨ Ublich sind eine akademische oder Forschungslizenz, eine Entwicklungs- und eine kommerzielle Lizenz. Bei der akademischen Lizenz d¨ urfen Bildungs- und Forschungseinrichtungen die Daten im Unterricht oder der Forschung nutzen. Die Entwicklungslizenz erlaubt die Nutzung zur Entwicklung produktnaher Technologien, die kommerzielle Lizenz schließt die Verwendung von Teilen der Sprachdatenbank in einem kommerziellen Produkt ein. Weitere Lizenztypen sind z. B. die Gnu Public License (GPL) und ihre Varianten, die vor allem f¨ ur die Distribution von Software verwendet werden. 204 Erstellung von Sprachdatenbanken 3.9 Dokumentation der Spezifikation Die Spezifikation wird in einem eigenen Dokument festgehalten. Dieses ist die Grundlage aller weiteren Phasen und Arbeiten, insbesondere der Validierungen. Bei einer kommerziellen Produktion von Sprachdatenbanken m¨ ussen sowohl Auftraggeber als auch der Datenbankersteller das Spezifikationsdokument unterschreiben. 4 Vorbereitung In der Phase Vorbereitung werden die eigentlichen Sprachaufnahmen, die Datenaufbereitung und die Annotation entsprechend der Spezifikation vorbereitet. Dazu z¨ahlen folgende Arbeiten: • Zusammenstellung von Arbeitsteams • Bereitstellung von Arbeits- und Aufnahmer¨aumen • Einrichten von Rechnern und Aufnahmetechnik • Installation von Software • Sprecherrekrutierung • Erstellen des Promptmaterials und weiterer Unterlagen • Organisation der projektinternen Kommunikation • Erstellung von Dokumentvorlagen Diese Arbeiten fallen bei der Erstellung jeder Sprachdatenbank an, egal wie groß diese ist. Der Umfang dieser Arbeiten h¨angt nat¨ urlich von der Gr¨oße und Komplexit¨at der Sprachdatenbank ab. 4.1 Arbeitsteams Bei kleinen Sprachdatenbanken mit einfachen Sprachaufnahmen kann eine Person alle Arbeiten durchf¨ uhren und sich die Zeit daf¨ ur frei einteilen. Aber bereits hier ist es notwendig, einen Terminkalender mit Aufnahme- und Besprechungsterminen anzulegen. Bei mittleren und großen Sprachdatenbanken werden Arbeitsteams gebildet, z. B. f¨ ur administrative Aufgaben, Aufnahmen, Datenaufbereitung, Annotation, Dokumentation und Validierung. Werden f¨ ur einzelne Aufgaben Spezialkenntnisse ben¨otigt, z. B. ein geschultes phonetisches H¨oren oder Erfahrung mit bestimmter Software oder Aufnahmetechnik, dann m¨ ussen die entsprechenden Personen verf¨ ugbar sein. Mit zunehmender Gr¨oße und Dauer von Sprachdatenbank-Projekten werden Urlaubsplanung, Ausf¨alle wegen Krankheit oder auch Zu- und Abg¨ange von Personal immer wichtiger. Erstellung von Sprachdatenbanken 205 4.2 Arbeits- und Aufnahmer¨aume Bei kleinen Sprachdatenbanken, die von einer Person durchgef¨ uhrt werden, k¨onnen die Arbeiten im B¨ uro oder am heimischen Schreibtisch erledigt werden. Sollen die Aufnahmen in speziellen Aufnahmer¨aumen wie Studios, Laborr¨aumen, klinischen Untersuchungszimmern, aber auch Fahrzeugen o. ¨a. durchgef¨ uhrt werden, dann muss man diese R¨aume rechtzeitig reservieren. Werden diese R¨aume im gleichen Zeitraum f¨ ur unterschiedliche Aufnahmeprojekte genutzt, dann muss man den Aufwand zum Auf- und Abbauen der ben¨otigten Technik einplanen. Bei großen Aufnahmeprojekten kann dies zu einer erheblichen Beeintr¨achtigung des normalen Betriebs an einem Institut oder in der Firma f¨ uhren. Zus¨atzlich zu den eigentlichen Aufnahmer¨aumen wird weitere Infrastruktur wie Warter¨aume f¨ ur Sprecher oder Lagerr¨aume f¨ ur Technik und Material u. ¨a. ben¨otigt. 4.3 Rechner und Aufnahmetechnik In der Vorbereitungsphase m¨ ussen Rechner und Aufnahmetechnik angeschafft und die Datensicherung organisiert werden. 4.3.1 Rechner F¨ ur die meisten Sprachaufnahmen reichen normale tragbare oder Arbeitsplatzrechner mit externem A/ D Wandler aus. Sollen mehr als zwei Kan¨ale oder besondere Signaldaten aufgenommen werden, ben¨otigt man eine geeignete Audio- oder Videokarte bzw. das passende Sensordaten-Interface. Erfolgen die Aufnahmen ¨ uber das Telefon oder das Internet auf einem Server, dann muss dieser rund um die Uhr bereitstehen. Aus Sicherheitsgr¨ unden sollte ein identisch konfigurierter zweiter Server innerhalb von Sekunden oder Minuten aktiviert werden k¨onnen. Neben dem Aufnahme- und Arbeitsrechner ben¨otigt man f¨ ur die Datensicherung noch einen weiteren Rechner oder den Zugriffauf einen Server. 4.3.2 Datensicherung S¨amtliche Daten m¨ ussen regelm¨aßig gesichert werden. Eine inkrementelle Sicherung speichert nur die ¨ Anderungen seit der letzten Sicherung, eine volle Sicherung den gesamten Datenbestand. Statische Daten wie Signaldaten, die nach der Aufnahme nicht mehr ver¨andert werden, m¨ ussen zus¨atzlich zur normalen Datensicherung so- 206 Erstellung von Sprachdatenbanken fort auf einem dauerhaften Datentr¨ager archiviert werden, z. B. auf DVD oder Blu-Ray Disks. F¨ ur dynamische Datenbest¨ande wie z. B. Annotation und Dokumentation, legt eine rollierende Sicherung eine bestimmte Anzahl von gesicherten Dateien an und ¨ uberschreibt dann immer die ¨alteste. Bei einer rollierenden Sicherung mit beispielsweise sieben Versionen und t¨aglicher Sicherung kann man stets zu einem beliebigen Stand innerhalb der letzten Woche zur¨ uckgehen. Die Sicherung sollte m¨oglichst automatisch und zu festgelegten Zeitpunkten erfolgen. 4.3.3 Aufnahmetechnik F¨ ur die geplanten Sprachaufnahmen muss die Aufnahmetechnik zusammengestellt und getestet werden. F¨ ur Aufnahmen im Studio und kleine Sprachdatenbanken reicht normalerweise ein Aufnahmeset aus A/ D-Wandler, Mikrofonen und weiteren Aufnahmeger¨aten aus. Bei großen Sprachdatenbanken ist es sinnvoll, mehrere identische Aufnahmesets bereitzustellen, um Aufnahmen parallel durchf¨ uhren zu k¨onnen. Es sollten m¨oglichst fr¨ uhzeitig Aufnahmen unter realit¨atsnahen Bedingungen gemacht werden, um zu pr¨ ufen, ob die Technik funktioniert und in der Praxis verwendbar ist. Wenn mehrere Personen die Aufnahmetechnik bedienen sollen, dann m¨ ussen sie eingewiesen werden. Die Installation und Bedienung sollte so dokumentiert werden, dass auch Laien die Anleitung verstehen. Hilfreich sind eine maximal zweiseitige Kurzanleitung in A4 Format, die nur die auszuf¨ uhrenden Schritte auflistet, sowie eine ausf¨ uhrlichere Anleitung mit Erkl¨arungen und zus¨atzlicher Information. 4.4 Software F¨ ur Aufnahme, Signalverarbeitung, Annotation, Auswertung, Dokumentation, Pr¨asentation und Kommunikation ben¨otigt man jeweils eigene Software. W¨ahrend der Vorbereitungsphase wird diese Software auf den Rechnern installiert und die Benutzer werden in die Bedienung dieser Software eingewiesen. H¨aufig ist es notwendig, eigene Skripte zur Datenkonversion zu schreiben. Diese Skripte sollten vor Beginn der eigentlichen Datensammlung mit Beispieldaten getestet werden. Generell sollten so viele Erstellung von Sprachdatenbanken 207 Arbeitsschritte wie m¨oglich per Skript ausgef¨ uhrt werden, damit die fehleranf¨allige manuelle Bearbeitung vermieden wird. Werden die Aufnahme- und Arbeitsrechner an wechselnden Orten ans Internet angeschlossen, dann muss eine aktuelle Virenschutz- Software installiert und aktiviert sein. F¨ ur Server gilt, dass der Zugriffnur einem beschr¨ankten Benutzerkreis erlaubt sein darf und zur Vermeidung von Sicherheitsproblemen stets die aktuellste Softwareversion mit allen Sicherheits-Updates verwendet werden sollte. 4.5 Sprecherrekrutierung In der Vorbereitungsphase muss die Sprecherrekrutierung nicht nur geplant, sondern auch schon begonnen werden, um rechtzeitig ausreichend viele Sprecher f¨ ur die Aufnahmen zur Verf¨ ugung zu haben. Die Sprecherrekrutierung ist sehr zeitaufwendig und, vor allem, wenn auf die Dienste externer Personen oder Firmen zur¨ uckgegriffen werden muss, sehr teuer. 5 Kann man f¨ ur die Sprecherrekrutierung auf eine hauseigene Versuchspersonen-Datenbank zugreifen, dann kann die Rekrutierung in der Regel mit einigen Anrufen pro Sprecher bzw. personalisierten Anschreiben eﬃzient erledigt werden. Zugleich k¨onnen auf diese Weise die Versuchspersonen-Datenbank aktualisiert, die Telefonnummern und Anschriftdaten korrigiert, neue Sprecher hinzugef¨ ugt und solche, die nicht mehr angesprochen werden m¨ochten, aus der Datenbank gel¨oscht werden. Muss eine Sprecherrekrutierung ohne eigene Versuchspersonen-Datenbank durchgef¨ uhrt werden, dann sollte man sp¨atestens mit dieser Rekrutierung eine solche Datenbank aufbauen. Bei kleinen Sprachdatenbanken sind die Sprecher meist im n¨aheren Umfeld der Datenbankproduzenten zu finden, z. B. Familienangeh¨orige oder, in klinischen Umgebungen oder f¨ ur Aufnahmen von Sprach- und Sprechst¨orungen, die eigenen Patienten. Bei mittleren Datenbanken erfolgt die Rekrutierung im Kreis der Kollegen, Mitarbeiter oder Studenten oder unter den Patienten einer Fachabteilung in Krankenh¨ausern. Bei großen Sprachdatenbanken m¨ ussen in der Regel mehrere verschiedene Rekrutierungsverfahren verwendet werden. Diese lassen sich unterteilen in direkte und indirekte Verfahren: bei direkten Verfahren 5 Marktforschungsfirmen und andere Anbieter von Sprecherrekrutierungen garantieren in der Regel nicht eine Anzahl von rekrutierten Personen, sondern nur die der kontaktierten Personen. 208 Erstellung von Sprachdatenbanken erhalten die angesprochenen Personen sofort alles zur Teilnahme an der Sprachaufnahme notwendige Material, bei indirekten m¨ ussen sie es erst anfordern. Direkte Verfahren sind vor allem dann geeignet, wenn alle Sprecher dieselbe Aufgabe bearbeiten m¨ ussen, z. B. einen einheitlichen Fragebogen beantworten. Indirekte Verfahren sind notwendig bei individualisierten Aufgaben, z. B. personalisierten Frageb¨ogen, oder wenn die Teilnahme an Aufnahmen auf Personen mit bestimmtem demographischem Profile beschr¨ankt sein soll. Als Rekrutierungsstrategien kommen direkte Ansprache, ¨offentliche Aufrufe zur Teilnahme oder Schneeball-Systeme in Frage. Zur Beurteilung des Erfolgs einer Strategie dient die Antwortrate, das Verh¨altnis von angesprochenen zu rekrutierten Sprechern. Bei direkter Ansprache werden potentielle Sprecher angeschrieben, entweder durch den Datenbankproduzenten oder eine externe Institution, z. B. ein Marktforschungsinstitut. Anschreiben (engl. mailing) erreichen bei unspezifisch angeschriebenen Populationen im besten Fall Antwortraten von 0,5 - 2 %; bei speziellen Populationen wie einer Versuchspersonen-Datenbank kann die Rate bis zu 40 % betragen. ¨ Offentliche Aufrufe zur Teilnahme sind Anzeigen oder Artikel in Tageszeitungen, Zeitschriften oder auf Handzetteln sowie Werbespots im Radio oder Fernsehen. Bezahlte Anzeigen sind in der Regel sehr teuer und ihr Erfolg h¨angt von vielen, schwer zu beurteilenden Faktoren ab: Qualit¨at der Publikation, Gestaltung der Anzeige oder des Spots und Zeitpunkt der Ver¨offentlichung. Artikel in Publikumszeitschriften oder Tageszeitungen kosten nichts, aber sie m¨ ussen erst einmal zur Ver¨offentlichung angenommen werden, und dann das Zielpublikum erreichen. F¨ ur Sprachdatensammlungen mit bestimmter regionaler Distribution der Sprecher bieten Lokalzeitungen eine gute M¨oglichkeit, die gew¨ unschten Sprecher zu erreichen [LCDS98]. 4.5.1 Einverst¨andniserkl¨arung Um eine Sprachdatenbank erstellen und vertreiben zu k¨onnen, m¨ ussen alle Sprecher explizit ihr Einverst¨andnis zur Sprachaufnahme und zur Verwendung ihrer Stimme erkl¨art haben. Dieses Einverst¨andnis wird im besten Fall schriftlich gegeben, alternativ auch durch die M¨oglichkeit, eine Aufnahme abzubrechen, bevor die ersten ¨ Außerungen aufgenommen wurden, z. B. durch Auflegen des Telefons. Bei minderj¨ahrigen Sprechern m¨ ussen die Erziehungsberechtigten ihr Einverst¨andnis geben. Erstellung von Sprachdatenbanken 209 4.5.2 Honorar Ein Honorar erf¨ ullt zwei Zwecke: zum einen entsch¨adigt es den Sprecher f¨ ur den Aufwand, den er geleistet hat, zum zweiten ist es eine Anerkennung, dass ein Vertrag zustande gekommen ist. Dieses Honorar sollte in angemessenem Verh¨altnis zur Leistung stehen und darf eine Notsituation des Sprechers nicht ausnutzen. Alternativ zur Zahlung eines Honorars kann man auch eine indirekte Belohnung vorsehen, bei der z. B. nicht viele kleine, auch f¨ ur den einzelnen nicht sonderlich attraktive Betr¨age gezahlt werden, sondern ein gr¨oßerer Betrag vielen Personen gemeinsam oder einer Einrichtung zugute kommt, etwa der Theater-AG. Mit indirekter Belohnung kann man auch in Kulturkreisen, wo die Entgegennahme von Geld f¨ ur eine Leistung wie die Teilnahme an Sprachaufnahmen als anst¨oßig gilt, erfolgreich Sprecher rekrutieren. 4.6 Promptmaterial und Unterlagen Sprecher werden mit geeigneten Stimuli (engl. Prompts) zur Produktion von ¨ Außerungen angeregt. In der Phase Vorbereitung wird das gesamte Stimulusmaterial erstellt, zu Aufnahmeb¨ uchern oder Aufnahmeskripten zusammengestellt und im Hinblick auf ¨ Ubereinstimmung mit der Spezifikation ¨ uberpr¨ uft. Bei formalen Promptspezifikationen lassen sich die einzelnen Stimuli automatisch aus einem gegebenen Vokabular generieren. Dies ist typischerweise f¨ ur Datums- und Zeitangaben, Ziffern- und Zahlenfolgen f¨ ur Telefonnummern und Kreditkartennummern usw. der Fall. Mit einer solchen automatischen Generierung k¨onnen vorgegebene Distributionseigenschaften sichergestellt werden, wie Mindesth¨aufigkeiten f¨ ur Wochentage, Ziffernkombinationen usw. Bei manuell erstellten Stimuli - das sind typischerweise Satzlisten, Fragen oder Aufforderungen sowie Audio- und Bildprompts - m¨ ussen diese in einem eigenen Arbeitsgang mindestens nach dem ‘Vier-Augen- Prinzip’ ¨ uberpr¨ uft werden. Missverst¨andliche oder anst¨oßige Stimuli m¨ ussen aus dem Material entfernt werden. 6 Neben dem Promptmaterial werden weitere Unterlagen ben¨otigt: Informationsbl¨atter, Quittungen, Einverst¨andniserkl¨arungen usw. Diese sollten vor Beginn der eigentlichen Aufnahmen erstellt sein. Wenn diese Unterlagen in elektronischer Form auf einem Server bereitliegen, 6 In der deutschen SpeechDat-Car Datensammlung wurde dies nicht sorgf¨altig durchgef¨ uhrt, so dass bei Aufnahmen im fahrenden Fahrzeug S¨atze wie “der Jugendliche war kurze Zeit sp¨ater in einem Krankenhaus verblutet” oder “der Wagen wurde bei dem Unfall v¨ollig zerst¨ort” vorzulesen waren. 210 Erstellung von Sprachdatenbanken dann k¨onnen sie bedarfsgerecht ausgedruckt werden. Dies ist besonders bei geografisch verteilten Aufnahmen hilfreich. Die M¨oglichkeit, Sprecherdaten und andere Angaben online einzugeben, vermeidet Probleme mit unleserlichen Formulareintr¨agen, erlaubt eine automatische Konsistenzkontrolle und kann zur ¨ Uberwachung des Projektfortschritts verwendet werden. 4.7 Kommunikation Die projektinterne Kommunikation ben¨otigt eine technische Infrastruktur sowie einen organisatorischen Rahmen. Zur technischen Infrastruktur geh¨oren Kommunikationsmedien wie Telefon, E-Mail, Wikis und Foren. Telefon und E-Mail sind am Arbeitsplatz selbstverst¨andlich, Wikis und Foren erfordern die Installation der entsprechenden Software durch einen Administrator und eine Einweisung der Benutzer. Um eine gute Akzeptanz dieser Systeme zu erreichen, ist es wichtiger, dass sie einfach(st) zu bedienen sind, als dass sie einen m¨oglichst großen Funktionsumfang haben. Besonders bei mittleren und großen Projekten sollten Arbeitsteams jeweils unter einer eigenen E-Mail-Adresse ¨ uber einen Verteiler erreichbar sein, z. B. aufnahme@mein projekt.de, damit sichergestellt ist, dass alle Mitglieder eines Teams die Mails auch erreichen. Organisatorisch m¨ ussen Treffen der Arbeitsgruppen, der Projektleitung und des Plenums vorgesehen werden. Ein regelm¨aßiger Termin, m¨oglichst am Anfang einer Woche, sorgt f¨ ur einen guten Informationsaustausch und die kurzfristige Planung. Leitungssitzungen sind f¨ ur mittel- und langfristige Planungen und wichtige Projekt-, Budget- und Personalentscheidungen zust¨andig. Plenartreffen finden zu Beginn eines Projekts, zu wichtigen Meilensteinen und am Projektende statt und dienen der Information aller Projektmitarbeiter. Alle Treffen werden in den Kalender des Projekt-Wikis eingetragen. Zur besseren Strukturierung sollte jedes Treffen eine Tagesordnung haben, und es muss protokolliert werden. Die Protokolle werden ins Wiki aufgenommen, damit sie allen Mitarbeitern zug¨anglich sind. 4.8 Dokumentvorlagen Das Schreiben von Dokumentation und Protokollen ist eine langweilige Routinet¨atigkeit. Sie ist jedoch aus zwei Gr¨ unden notwendig: 1) zur Dokumentation des Projektfortschritts, vor allem gegen¨ uber Geldgebern, und 2) als dauerhafte Wissensquelle auch ¨ uber das Projektende hinaus. Erstellung von Sprachdatenbanken 211 Um den Aufwand zur Erstellung von Dokumentation zu minimieren, sollten f¨ ur alle mehrfach ben¨otigten Dokumente Vorlagen entwickelt werden, die dann nur ausgef¨ ullt werden m¨ ussen. F¨ ur Tagesordnungen, Protokolle und ¨ahnliche Dokumente ist dies trivial. Sie k¨onnen teilweise sogar gleich online bearbeitet werden, z. B. im Wiki. Gerade aber bei umfangreicheren Dokumenten wie der Spezifikation und den Validierungsberichten sind Vorlagen hilfreich. So hat es sich bew¨ahrt, dass Spezifikation und Validierungsberichte eine identische Struktur haben. Auf diese Weise kann aus dem Spezifikationsdokument ein leerer Validierungsbericht erstellt werden, der bei der Validierung nur Punkt f¨ ur Punkt durchgearbeitet werden muss und damit automatisch alle in der Spezifikation vereinbarten Eigenschaften der Sprachdatenbank zum Abpr¨ ufen bereith¨alt. Die Checkliste im Anhang kann als Ausgangspunkt f¨ ur Dokumentvorlagen dienen. 4.9 Dokumentation der Vorbereitung Die Phase Vorbereitung wird mit einer einfachen Checkliste, in der alle erledigten Arbeiten aufgelistet sind, abgeschlossen. 5 Datensammlung Die Datensammlung ist die zentrale Phase bei der Erstellung einer Sprachdatenbank, auch wenn sie nicht unbedingt die aufwendigste sein muss. Bei der Datensammlung ist besondere Sorgfalt vonn¨oten, da Fehler und Ungenauigkeiten dazu f¨ uhren k¨onnen, dass eine Sprachdatenbank f¨ ur den vorgesehenen Zweck nicht zu gebrauchen ist. Die Aufgaben innerhalb der Datensammlung umfassen • Terminplanung, sowie • Vorbereitung, • Durchf¨ uhrung und • Abschluss der Aufnahmen. Bei der Erledigung der Aufgaben sollte sich m¨oglichst schnell eine Routine einstellen, um Fehler zu vermeiden. 5.1 Terminplanung Bei der Terminplanung m¨ ussen Sprecher, Aufnahmeleiter sowie weiteres Personal und die eigentliche Aufnahme koordiniert werden. 212 Erstellung von Sprachdatenbanken Aufnahmen im Feld ben¨otigen einiges an Vor- und Nachbereitung: Anfahrt, Aufbau und Test der Technik, Datensicherung usw. Bei Studioaufnahmen entf¨allt zwar die Anfahrt, aber die Technik muss ebenfalls eingerichtet und getestet werden. H¨aufig sind diese Arbeiten zeitaufwendiger als die eigentlichen Aufnahmen! Bei Feldaufnahmen ist die Kommunikation zwischen dem heimischen Institut und den Aufnahmeleitern im Feld besonders wichtig: kurzfristige ¨ Anderungen, Verz¨ogerungen oder ¨ahnliches m¨ ussen mitgeteilt und Alternativm¨oglichkeiten ausgearbeitet werden. H¨aufig kann man dabei nicht auf Telefon und E-Mail zur¨ uckgreifen, da diese bei Aufnahmen st¨oren und in vielen Aufnahmeumgebungen, z. B. Studior¨aumen, Bibliothek oder Klassenzimmer gar nicht vorhanden sind. Auch das Mobiltelefon ist keine zuverl¨assige L¨osung, denn es darf bei Aufnahmen meist nicht angeschaltet sein, weil es h¨orbare St¨orungen im Signal hervorruft. Ein web-basierter Kalender im Wiki und ein Laptop mit Internetzugang ¨ uber ein Mobiltelefon oder ein drahtloses Netzwerk ist eine flexible L¨osung. Der Aufnahmeleiter muss dann nur w¨ahrend der Aufnahme die Mobiltelefonverbindung beenden, kann aber unmittelbar vor und nach der Aufnahme noch auf den Terminkalender zugreifen. Software f¨ ur Internet-basierte Aufnahmen beinhaltet in der Regel auch ein Kommunikationsmodul, mit dem sogar w¨ahrend der Aufnahmen Nachrichten zwischen dem Aufnahmeleiter vor Ort und dem heimischen Labor ausgetauscht werden k¨onnen, z. B. zur R¨ uckmeldung der Signalqualit¨at. 5.2 Vorbereitung Die Vorbereitung einer Aufnahme hat zum Ziel, technisch einwandfreie Aufnahmen sicherzustellen. Das ist manchmal nicht einfach: wenn viele Personen Aufnahmen durchf¨ uhren, muss gew¨ahrleistet sein, dass sie alle nach demselben Verfahren vorgehen. Wenn Technik h¨aufig auf- und abgebaut wird, dann muss sie vor jeder Aufnahme getestet werden. Und wenn die Aufnahmen in zeitlich großem Abstand erfolgen, dann ist die Gefahr groß, dass man von einem Mal zum n¨achsten etwas vergessen hat. Eine praktikable L¨osung sind einfache Checklisten f¨ ur jede Aufnahmesitzung. Sie m¨ ussen knapp sein, damit sie tats¨achlich verwendet werden, und sie m¨ ussen vollst¨andig sein. Die Checkliste in Abschnitt 12 enth¨alt unter ‘Datensammlung’ nur sechs Punkte, diese sind aber essentiell. Erstellung von Sprachdatenbanken 213 Zur Vorbereitung z¨ahlt auch das Ausf¨ ullen der Formulare mit den Sprecherangaben sowie der Einverst¨andniserkl¨arung. Es hat sich bew¨ahrt, einen Teil der Vorbereitung gemeinsam mit dem Sprecher durchzuf¨ uhren. Damit kann man ihn in lockerer Weise an die Aufnahmen heranf¨ uhren, Zusatzinformationen erfragen und dokumentieren, dass er korrekt informiert und die Zustimmung zur Aufnahme gegeben wurde. 5.3 Durchf¨ uhrung Bei der Durchf¨ uhrung der Aufnahme werden die Signaldaten erhoben. St¨orende externe Einfl¨ usse und Einstrahlungen sollten, sofern sie nicht zum Szenario geh¨oren, ausgeschlossen werden. Das heißt konkret, dass Mobiltelefone und sonstige Ger¨ate ausgeschaltet werden, damit sich der Sprecher auf die Aufnahmen konzentrieren kann. Bei automatisch ablaufenden Aufnahmen, z. B. computergef¨ uhrten Interviews am Telefon oder ¨ uber das Internet, reagiert der Sprecher auf Befehle des Servers, bei Interview-artigen Aufnahmen oder Gespr¨achsrunden f¨ uhrt der Aufnahmeleiter durch die Aufnahme. W¨ahrend der Aufnahme muss der Aufnahmeleiter viele Aufgaben gleichzeitig erledigen: den Sprecher sicher und gelassen f¨ uhren, den sprachlichen Inhalt und die sprachliche Qualit¨at der Sprecher¨außerungen ¨ uberwachen, die Technik im Blick behalten und auf die Umgebung achten. Dies erfordert ein hohes Maß an Konzentration, ein Gesp¨ ur f¨ ur den Sprecher und Vertrautheit mit der Aufnahmetechnik. Bei Studioaufnahmen, insbesondere bei technisch aufwendigen Aufnahmen oder Aufnahmen mit besonderen Anforderungen an die Sprachqualit¨at ist es sinnvoll, dass ein Aufnahmeteam die Aufnahmen durchf¨ uhrt. Im Team ist dann jeder f¨ ur einen Bereich zust¨andig, z. B. je eine Person f¨ ur die Interaktion mit dem Sprecher, die Kontrolle der Sprachqualit¨at und die Technik. Solche Aufnahmen werden in der Regel in Studios durchgef¨ uhrt, wo Sprecher und Aufnahmeteam in verschiedenen R¨aumen mit Sicht- und Sprachkontakt sitzen. Die Teammitglieder k¨onnen dann miteinander kommunizieren, ohne dass der Sprecher das bemerkt, um z. B. Wiederholungen einzelner ¨ Außerungen oder ¨ahnliches zu besprechen. W¨ahrend der Aufnahmesitzung macht sich der Aufnahmeleiter Notizen: zu wiederholende ¨ Außerungen, Nachfragen, gezielte Hinweise zur Aussprache u. ¨a. Diese Notizen arbeitet er dann noch w¨ahrend der Aufnahme oder zum Abschluss der Aufnahme ab. Pausen w¨ahrend der Aufnahmen sind problematisch: einerseits k¨onnen sie bei anstrengenden Aufnahmen notwendig sein, andererseits 214 Erstellung von Sprachdatenbanken unterbrechen sie den Fluss der Aufnahmen. Besonders bei technisch aufwendigen Aufnahmen wie EMA oder Laryngoskopie, bei denen ein Sprecher sich nicht frei bewegen kann, kann der Aufwand, der notwendig ist, um die Aufnahmen nach einer Pause fortzusetzen, den Nutzen einer Pause ¨ uberwiegen. Hier ist ein gutes Einf¨ uhlungsverm¨ogen des Aufnahmeleiters in den Sprecher besonders wichtig. In der Regel sind Sprecher sehr kooperativ, und es ist nur selten notwendig, eine Aufnahme abzubrechen, weil sich der Sprecher nicht mehr wohlf¨ uhlt oder aus sonstigen Gr¨ unden aufh¨oren will. Ein Aufnahmeleiter muss einen entsprechenden Wunsch des Sprechers ohne Diskussion und mit Verst¨andnis akzeptieren. Andererseits muss auch der Sprecher akzeptieren, dass der Aufnahmeleiter eine Aufnahme vorzeitig beendet, z. B. wegen technischer Probleme oer absehbarem Misserfolg. Der Sprecher sollte durch den Abbruch der Aufnahmen keinen Nachteil erleiden, d. h. er bekommt auch in diesem Fall das vereinbarte Honorar. 5.4 Zusatzdaten Neben den eigentlichen Aufnahmen m¨ ussen h¨aufig zus¨atzliche Daten erhoben werden. Diese werden dann Bestandteil des Protokolls oder der abschließenden Dokumentation. Dazu z¨ahlen das Aufnahmeprotokoll, aber auch Fotos von der Aufnahmesituation oder -umgebung, die Beschaffung von Informationsmaterial wie Stadtpl¨ane, Wetterkarten, Veranstaltungskalender, touristische Orts-Informationen usw. Diese Daten werden in der Regel f¨ ur eine Reihe von zeitlich oder r¨aumlich eng beieinander liegenden Aufnahmesitzungen gesammelt. In der Regel f¨ uhrt das Aufnahmebuch auf, welche Zusatzdaten erhoben werden sollen. 5.5 Nachbereitung Die Nachbereitung umfasst im Wesentlichen eine stichprobenartige Kontrolle der aufgenommenen Daten, die Verabschiedung des Sprechers, eine erste Datensicherung, ein kurzes Protokoll der Aufnahmesitzung und eventuell den Abbau der Aufnahmetechnik. Die ¨ Uberpr¨ ufung einer Stichprobe der Aufnahmen muss unbedingt noch durchgef¨ uhrt werden, solange der Sprecher noch verf¨ ugbar ist, damit gegebenenfalls Aufnahmen wiederholt werden k¨onnen. In der Regel ist dies mit viel geringerem Aufwand m¨oglich, als wenn ein neuer Termin vereinbart werden muss. Wenn die Aufnahmen technisch in Ordnung sind, bekommt der Sprecher das vereinbarte Honorar und quittiert den Empfang. Erstellung von Sprachdatenbanken 215 Zur ersten Datensicherung werden die Signaldaten auf ein zweites Speichermedium kopiert, beispielsweise von der Speicherkarte eines portablen Recorders auf die Festplatte eines Laptops, oder von der Festplatte auf eine CD oder DVD. Auch diese Sicherung muss auf Vollst¨andigkeit ¨ uberpr¨ uft werden - dies erfolgt ¨ uber das Berechnen der Dateigr¨oßen im Betriebssystem und eine manuelle ¨ Uberpr¨ ufung einzelner Dateien. Solange noch gen¨ ugend Platz auf dem urspr¨ unglichen Speichermedium ist, sollten keine Signaldaten gel¨oscht werden. Jede Aufnahme wird protokolliert. Das Protokoll muss Datum, Uhrzeit, einen Sprechercode, den Aufnahmeort und den Aufnahmeleiter sowie eine erste Beurteilung der Aufnahme enthalten. Diese Beurteilung kann bei normal verlaufenen Aufnahmen einfach ein H¨akchen sein, ansonsten ein Satz, der die Aufnahme kurz charakterisiert, z. B. “Im zweiten Teil starke Umgebungsger¨ausche”. Abschließend wird die Aufnahmetechnik wieder in den Ausgangszustand versetzt, so dass die n¨achste Aufnahme erfolgen kann, oder sie wird abgebaut. 6 Datenaufbereitung Bei der Datenaufbereitung werden die Signaldaten dauerhaft gesichert und alle f¨ ur die Annotation notwendigen Daten und Ressourcen bereitgestellt. Die dazu notwendigen Arbeitsschritte sind meist Datenkonversion, elementare Signalverarbeitung, Organisation des Datenbestands f¨ ur die Annotation, oder ¨ahnliches. Diese Arbeitsschritte k¨onnen weitgehend automatisiert werden, meist mittels einfacher Skriptprogramme. Solche Skriptprogramme erzeugen h¨aufig Protokolldateien, in denen die bearbeiteten Dateien sowie der Bearbeitungserfolg festgehalten sind. Diese Protokolldateien werden gesichert und als zus¨atzliche Dokumentation in die Sprachdatenbank aufgenommen. H¨aufig sind viele Konversions- und Verarbeitungsschritte in Folge notwendig. Dabei muss man besonders darauf achten, dass diese Schritte vertr¨aglich sind, d. h. dass Daten- und Dateiformate zueinander passen. Ein typisches Problem sind implizite Annahmen der Anwendungssoftware ¨ uber Zeichenkodierungen oder ¨ uber Eigenschaften des verwendeten Betriebssystems wie Zeilenende-Zeichen, Trennzeichen bei Pfadangaben usw. (vgl. Kapitel 6 Abschnitt 2). 216 Erstellung von Sprachdatenbanken 7 Annotation Sobald die ersten Aufnahmen erfolgt und die Daten aufbereitet worden sind, kann mit der Annotation begonnen werden. In der Phase Annotation werden • die zu annotierenden Daten auf die Annotierer verteilt, • die Annotation durchgef¨ uhrt und die dabei erzeugten Annotationstexte gesichert sowie • das Aussprachew¨orterbuch generiert. Das Erstellen der Annotation kann extrem zeitaufwendig sein (vgl. Kapitel 1 Abschnitt 1.1). Daher sollte zum einen ausreichend viel Zeit eingeplant werden, zum anderen jede M¨oglichkeit der Verbesserung der Eﬃzienz, z. B. durch Automatisieren von Arbeitsschritten, genutzt werden. 7.1 Verteilung der Annotationen Je nach Annotationsebene sind unterschiedliche Fach- und Softwarekenntnisse notwendig. Eine orthographische Annotation kann auch von Personen durchgef¨ uhrt werden, die keine phonetische Ausbildung erfahren haben; hier reichen eine sichere Rechtschreibung und Erfahrung mit einem Texteditor. Phonemische Transkription oder phonetische Segmentierung setzen eine entsprechende Ausbildung und Erfahrung im Umgang mit Segmentationssoftware voraus. Bei anspruchsvollen Annotationen kann man Annotierer zun¨achst einige Annotationen von ausgew¨ahlten Signalen anfertigen lassen und diese mit ihnen besprechen. Erst danach d¨ urfen sie in großem Umfang mit der eigentlichen Annotationsarbeit beginnen. Die Leistung eines Annotierers setzt sich aus der ben¨otigten Zeit und der erzielten Qualit¨at der Annotation zusammen. Die Qualit¨at l¨asst sich entweder im Vergleich mit gegebenen Annotationen oder im direkten Vergleich mit anderen Annotierern feststellen. 7.2 Durchf¨ uhrung der Annotation W¨ahrend der Annotation sollten die Annotierer regelm¨aßig den Stand der Arbeit und vor allem aufgetretene Probleme miteinander besprechen. Damit der normale Arbeitsfluss nicht durch aufgetretene Probleme verlangsamt wird, sollten problematische Signale als solche markiert, zur¨ uckgestellt und erst nach einer Kl¨arung der Probleme wieder bearbeitet werden. Eine Alternative ist, problematische F¨alle gleich an erfahrenere Teammitglieder weiterzuleiten. Erstellung von Sprachdatenbanken 217 Eine Unterteilung der Annotation in Roh- und Feinannotation erlaubt eine flexible Zuordnung von Annotationsaufgaben zu Annotierern und kann damit wesentlich zur Beschleunigung der Annotation beitragen. H¨aufig l¨asst sich auch eine Rohannotation automatisch erstellen - diese muss dann nur noch nachbearbeitet werden. Bei der Annotation muss sichergestellt werden, dass Dateien weder doppelt bearbeitet noch aus Versehen ¨ uberschrieben oder ¨ ubersehen werden. Organisatorisch ist dies dadurch zu erreichen, dass f¨ ur jede Datei die Information ¨ uber den aktuellen Bearbeitungsstatus erfasst wird. Annotationen mit einem bestimmten Status sind dann f¨ ur alle anderen Annotierer gesperrt, bis sie entweder vollst¨andig bearbeitet oder wieder freigegeben wurden. Mit einem Datenbanksystem kann dieses Verfahren leicht realisiert werden. Leider greifen die meisten Annotationseditoren aber nicht auf Datenbanksysteme, sondern direkt auf Dateien im Dateisystem oder im lokalen Netzwerk zu. Die Statusinformation muss hier entweder in einer separaten Datei erfasst oder durch eine bestimmte Anordnung der Dateien im Dateisystem erkennbar sein. Dazu organisiert man die Daten in Verzeichnissen, deren Namen den Verarbeitungsstand wiedergeben und ggf. in pers¨onlichen Unterverzeichnissen der einzelnen Annotierer. Zu Beginn werden die Dateien beispielsweise aus dem Verzeichnis start/ in den Editor eingelesen und aus start/ gel¨oscht. Nach der Bearbeitung wird die Datei in das Verzeichnis erste/ gesichert und die n¨achste Datei aus start/ eingelesen. In den folgenden Annotationsschritten - das schließt normale Annotationen und Korrekturen von Annotationen ein - wird die Datei ins jeweils n¨achste Verzeichnis weitergereicht, bis sie im Zielverzeichnis gelandet ist (Abb. 91). 7.3 Aussprachelexikon W¨ahrend der Dokumentation wird eine Wortliste erstellt. Diese enth¨alt s¨amtliche Wort-Types im Korpus, h¨aufig erg¨anzt um die Anzahl Tokens. Diese Wortliste bildet die Grundlage f¨ ur ein Aussprachew¨orterbuch, das f¨ ur s¨amtliche Types mindestens die standardnahe Aussprache in phonemischer Schreibweise, enth¨alt. Meist ist es auch sinnvoll, die am h¨aufigsten beobachteten Aussprachevarianten ebenfalls in das Aussprachew¨orterbuch aufzunehmen - in vielen F¨allen treten sie h¨aufiger auf als die standardnahe Variante, vor allem in spontaner Sprache. Die meisten Sprachdatenbanken, besonders f¨ ur sprachtechnologische oder kommerzielle Anwendungen, enthalten einen hohen Anteil an fremd- oder fachsprachlichen W¨ortern, f¨ ur die eine Aussprache angegeben werden muss. Daher sind f¨ ur die Erstellung des W¨orterbuchs gute 218 Erstellung von Sprachdatenbanken start/ erste/ ende/ / projekt/ session/ 001_0.wav … 099_0.wav 001_0.wav … 099_0.wav annotation annotation annotation annotierer_1/ annotation annotation annotation Signaldateien Annotationsdateien annotation annotation annotation Abbildung 91. Organisation der Annotationsarbeit auf der Basis von Verzeichnissen, die jeweils die Daten eines Verarbeitungsstandes enthalten. Die Prim¨ardateien, d. h. die Signaldateien, liegen an einem festgelegten Speicherort und werden nicht mehr ver¨andert, die Annotationsdaten ‘wandern’ in jedem Verarbeitungsschritt von einem Verzeichnis ins n¨achste. phonologische Kenntnisse unbedingt notwendig, m¨oglichst in mehreren Sprachen. 8 Dokumentation In der Phase Dokumentation werden die angelegten Dokumentvorlagen vervollst¨andigt und abgeschlossen. Wiki und Forum werden geschlossen und so archiviert, dass sie zu einem sp¨ateren Zeitpunkt auch ohne die zu ihrer Erstellung benutzte Software gelesen werden k¨onnen. Eine redaktionelle ¨ Uberarbeitung erleichtert die sp¨atere Verwendung, ist jedoch aufwendig. Maschinell erstelle Protokolle und Annotationsprotokolle werden ebenfalls archiviert. Die Dokumentation wird in Plattform-unabh¨angigen Textformaten in einem eigenen Verzeichnis in der Sprachdatenbank gespeichert. 9 Validierung Die Validierung einer Sprachdatenbank pr¨ uft, ob die Eigenschaften der Sprachdatenbank innerhalb der in der Spezifikation vereinbarten Tole- Erstellung von Sprachdatenbanken 219 ranzen liegen. Eine Validierung ist also keine Evaluation, d. h. sie pr¨ uft nicht, ob eine Sprachdatenbank f¨ ur einen Zweck geeignet ist. Validierungskriterien beschreiben, welche Aspekte der Sprachdatenbank einer Validierung unterzogen werden und sie definieren quantitative Mindestanforderungen, die die Sprachdatenbank erf¨ ullen muss, um die Validierung zu bestehen, z. B. ‘Anteil der weiblichen bzw. m¨annlichen Sprecher ist 50 % ± 2 , 5 %.’ Jede Sprachdatenbank sollte validiert werden. Die Validierung kann intern, d. h. vom Produzenten der Sprachdatenbank, oder extern erstellt werden. Bei einer internen Validierung muss sichergestellt sein, dass sie m¨oglichst nicht von Personen ausgef¨ uhrt wird, die an der Erstellung der Sprachdatenbank mitgewirkt haben, oder dass sie mindestens nach dem ‘Vier-Augen-Prinzip’ durchgef¨ uhrt wird. 7 Eine externe Validierung erfolgt durch einen unabh¨angigen Dritten, der nicht an der Erstellung der Sprachdatenbank beteiligt ist. Eine externe Validierung ist teuer und zeitaufwendig. Besonders bei industriell genutzten Sprachdatenbanken und in Verbundprojekten ist sie h¨aufig vorgeschrieben, denn nur sie gew¨ahrleistet eine unabh¨angige Pr¨ ufung. Ergebnis der Validierung ist ein Validierungsbericht, der Bestandteil der Sprachdatenbank-Dokumentation wird. In der Regel werden mindestens zwei Validierungen durchgef¨ uhrt: eine Pr¨avalidierung nach den ersten Aufnahmen und Annotationen, und eine Abschlussvalidierung. Zwischenvalidierungen sind beim Erreichen bestimmter Meilensteine m¨oglich, und sie erlauben eine einigermaßen sichere Nutzung auch von Vorabversionen der Sprachdatenbank. 9.1 Pr¨avalidierung Die Pr¨avalidierung hat zum Ziel, die Vollst¨andigkeit des Stimulusmaterials und die Arbeitsabl¨aufe und Ergebnisse der Aufnahmen, der Datenaufbereitung und der Annotation zu ¨ uberpr¨ ufen. Die Pr¨avalidierung sollte m¨oglichst fr¨ uhzeitig erfolgen, damit ¨ Anderungen noch m¨oglich sind. Das Stimulusmaterial wird im Hinblick auf Vollst¨andigkeit und Verteilung ¨ uberpr¨ uft, aber auch auf seine Eignung: werden mit den gew¨ahlten Stimuli tats¨achlich die angestrebten ¨ Außerungen erhoben? F¨ ur die Pr¨avalidierung werden einige Aufnahmen unter realistischen, normalen Aufnahmebedingungen durchgef¨ uhrt und anschließend aufbereitet und annotiert. Diese Aufnahmen und Annotationen werden auf technische Qualit¨at und Korrektheit ¨ uberpr¨ uft. Erst wenn diese 7 Man findet die eigenen Fehler nicht! 220 Erstellung von Sprachdatenbanken Pr¨avalidierung erfolgreich abgeschlossen wurde, d¨ urfen weitere Aufnahmen erfolgen. 9.2 Abschlussvalidierung Nach Beendigung der Aufnahmen, Annotation und Dokumentation wird die Sprachdatenbank abschließend validiert. Kleine und mittlere Sprachdatenbanken k¨onnen vollst¨andig, große nur stichprobenartig validiert werden. Bei der Auswahl einer Stichprobe ist darauf zu achten, dass diese repr¨asentativ und ausreichend groß ist. Fehler in der Annotation, im Lexikon und in der Dokumentation k¨onnen meist behoben werden, indem diese ¨ uberarbeitet werden. Fehler bei der Datensammlung, etwa eine falsche Alters- oder Geschlechterdistribution, k¨onnen kaum mehr korrigiert werden. Werden bei der Validierung korrigierbare Fehler gefunden, dann wird die Validierung unterbrochen, bis die Fehler behoben sind. 10 Distribution Den Abschluss der Erstellung einer Sprachdatenbank bildet die Distribution. Hierbei wird an der Datenbank inhaltlich nichts mehr ver¨andert, sondern die Daten werden nur noch auf geeignete Speichermedien ¨ ubertragen oder auf einem Server abgelegt. Annotation, Lexikon und Dokumentation sind dynamische Daten, die sich im Lauf der Zeit ¨andern: es kommen neue Annotationen hinzu, Fehler werden korrigiert usw. Daher ist es notwendig, einfach zu benutzende Kommunikationsm¨oglicheiten f¨ ur Fehlermeldungen, Korrekturvorschl¨age oder das Hochladen eigenen Materials vorzusehen. Dazu eignen sich generische E-Mail- oder Webadressen wie support@mein projekt.de oder www.mein projekt.de/ support, oder auch die Einrichtung eines eigenen Forums f¨ ur diese Sprachdatenbank. Die neuen Versionen sollten in Form von Aktualisierungen herausgegeben werden, wobei es sinnvoll ist, auch ¨altere Versionen auf dem Server bereitzuhalten. Erstellung von Sprachdatenbanken 221 11 Aufgaben 1. Erstellen Sie einen Zeitplan f¨ ur eine kleine Sprachdatensammlung mit 20 Sprechern. Promptmaterial und Ausr¨ ustung sind vorhanden. Sie rekrutieren die Sprecher in der Cafeteria der Uni, wobei nur jeder 10. Kontakt auch zu einer Aufnahme f¨ uhrt. Im Durchschnitt brauchen Sie 3 Minuten f¨ ur einen Kontakt. Die eigentliche Aufnahme dauert 45 Minuten, die Vorbereitung und Einweisung 15 Minuten, die Nachbereitung 5 Minuten. Der Weg zwischen Cafeteria und Aufnahmeraum dauert 5 Minuten. 2. Die Aufnahmen in Aufgabe 1 erfolgen mit einer Abtastrate von 22,05 kHz und einer Quantisierung von 16 Bit und zwei Mikrofonen. Wie groß ist der Speicherbedarf f¨ ur die Signaldaten? 3. Die Aufnahmen ergeben pro Aufnahmesitzung ca. 20 Minuten auswertbares Sprachsignal. Sie wollen eine phonemische Annotation erstellen. Wieviel Zeit brauchen Sie f¨ ur die Annotation? Was kostet eine solche Sprachdatenbank, wenn Sie nur Ihre Arbeitszeit (mit 10 e / h) und ein Sprecherhonorar von 10 e pro Aufnahme rechnen? Die Sprachdatenbank Ph@ttSessionz Dieses Kapitel beschreibt die konkrete Erstellung der deutschen Sprachdatenbank Ph@ttSessionz von der Spezifikation bis zur Distribution. Diese Beschreibung greift dabei auf das Phasenmodell aus dem vorangegangenen Kapitel zur¨ uck. Das Kapitel soll einen Eindruck geben vom notwendigen Aufwand, von positiven und negativen Erfahrungen und vom Inhalt der ersten Version dieser Sprachdatenbank. Man erkennt dabei leicht, dass Vorbereitung - und hier insbesondere die Rekrutierung - und Annotation deutlich zeitaufwendiger waren als die eigentlichen Aufnahmen. Es macht auch deutlich, dass die Arbeit an Ph@ttSessionz noch nicht abgeschlossen ist: zwar ist die gesamte Sprachdatenbank orthographisch annotiert, aber nur zu einem sehr kleinen Teil auch phonetisch segmentiert. Weitere Annotationsebenen sollen noch hinzukommen - dies wird nur in gemeinsamer Arbeit mit m¨oglichst vielen Nutzern dieser Sprachdatenbank m¨oglich sein. Das Arbeitsprinzip dabei wird sein, neue Annotationen m¨oglichst rasch in die Sprachdatenbank aufzunehmen und allen Nutzern von Ph@ttSessionz zur Verf¨ ugung zu stellen, damit diese wiederum neue Annotationen erstellen k¨onnen. 1 Ausgangslage Ph@ttSessionz 1 ist eine große deutsche Sprachdatenbank mit den Stimmen Jugendlicher. Motivation f¨ ur Ph@ttSessionz waren die folgenden ¨ Uberlegungen: F¨ ur das Deutsche stehen eine Reihe von Sprachdatenbanken aus verschiedenen Anwendungsbereichen zur Verf¨ ugung, aber keine mit den Stimmen Jugendlicher, d. h. mit Sprechern zwischen ca. 12 und 18 Jahren. Eine solche Datenbank w¨ urde also die bestehenden Sprachdatenbanken hervorragend erg¨anzen. 1 Ein Kunstwort, das f¨ ur eine rege Forumsdiskussion auf den Webseiten des ‘Vereins f¨ ur deutsche Sprache’ sorgte. Diese l¨asst sich unter http: / / www.vds-ev.de/ forum/ viewtopic.php? TopicID=2034 nachlesen. Die Sprachdatenbank Ph@ttSessionz 223 Diese Sprachdatenbank sollte ausreichend groß sein f¨ ur das Trainieren von Spracherkennungssystemen. Sie sollte dar¨ uber hinaus die Beantwortung phonetischer, soziolinguistischer und regionalsprachlicher Fragestellungen erlauben. Schließlich sollte sie als Machbarkeitsstudie belegen, dass das am Institut f¨ ur Phonetik entwickelte Verfahren der Internet-basierten Aufnahme und Annotation von Sprachdaten zum Aufbau einer solchen Sprachdatenbank geeignet ist. 2 Dazu sollte eine Sprachdatenbank mit den folgenden Eigenschaften erstellt werden: • 1000 jugendliche Sprecher im Alter zwischen 13 und 18 • ausgeglichenes Verh¨altnis der Geschlechter • regional ausgewogene Verteilung der Aufnahmen in Deutschland • hohe Signalqualit¨at • applikationsorientiertes Vokabular und spontane Sprache Spracherkennungssysteme funktionieren mit den Stimmen Jugendlicher deutlich schlechter als mit denen von Erwachsenen. Ein Grund daf¨ ur liegt darin, dass bislang keine Sprachdatenbank mit den Stimmen Jugendlicher verf¨ ugbar war, so dass Spracherkennungssysteme nur mit den Stimmen Erwachsener entwickelt werden konnten. Sprachaufnahmen mit Sprechern zwischen 13 und 18 Jahren sind in mehrfacher Hinsicht besonders interessant: physiologisch ver¨andert sich die Stimme in dieser Zeit besonders stark, insbesondere bei m¨annlichen Jugendlichen [LPN99, PN03]. Die sprachliche Entwicklung, und hier vor allem die Textproduktion, in diesem Alter ist gekennzeichnet durch den Einfluss sozialer Faktoren (Pubert¨at, Cliquen, Slang) sowie den Fremd- und Fachsprachenerwerb in der Schule. Außerdem sind Jugendliche eine interessante Zielgruppe f¨ ur Produkte mit neuen Technologien (Computerspiele, Mobiltelefone, Lernsoftware usw.). Bei der Erstellung der Sprachdatenbank Ph@ttSessionz wurde organisatorisch und technologisch Neuland betreten: die Sprachaufnahmen erfolgen in Kooperation mit Schulen geographisch verteilt an ¨ uber 40 Standorten in Deutschland. Das Promptmaterial wird vom Ph@ttSessionz-Server individuell f¨ ur jeden Sprecher heruntergeladen, die Sprachdaten werden bereits w¨ahrend der Aufnahmesitzung auf den Server ¨ ubertragen, so dass sie sofort weiterverarbeitet werden k¨onnen. 2 Im Projekt ‘Deutsch heute’ des Instituts f¨ ur Deutsche Sprache, das unter der Leitung von Stefan Kleiner fast zeitgleich durchgef¨ uhrt wurde, wurden zur Dokumentation regionalsprachlicher Variation im gesamten deutschsprachigen Raum an insgesamt 160 Orten je vier Sprecher im Alter von 18 Jahren in klassischer Interview-Technik aufgenommen. Es wird interessant sein, die Aufnahmen von Ph@ttSessionz mit denen von ‘Deutsch heute’ zu vergleichen! 224 Die Sprachdatenbank Ph@ttSessionz Ph@ttSessionz wurde im Rahmen des BITS-Projektes am Institut f¨ ur Phonetik und Sprachverarbeitung der LMU M¨ unchen erstellt und vom Bundesministerium f¨ ur Bildung und Forschung unter dem F¨orderkennzeichen 01IVB01 finanziert. 2 Die Vorl¨auferprojekte Ph@ttSessionz basiert auf den drei Vorl¨auferprojekten RVG (Regional Variants of German [BS98b]), LivingRoom, und RVG-J (Regional Variants of German - Junior [DS02]). 2.1 RVG RVG ist eine vom Bayerischen Archiv f¨ ur Sprachsignale (BAS) in Kollaboration mit AT&T aufgenommene Sprachdatenbank mit 498 erwachsenen Sprechern aus dem gesamten deutschsprachigen Raum, d. h. einschließlich ¨ Osterreich und der Schweiz. Die Sprecherpopulation bestand aus erwachsenen Sprechern, sie ist nach Geschlecht und Dialekt ausgewogen. Das Sprachmaterial bestand aus den f¨ ur sprachgesteuerte Applikationen typischen Ziffern und Zahlen, Datums- und Zeitausdr¨ ucken, Buchstabierungen, phonetisch reichen S¨atzen, Kommandos¨atzen zur Steuerung von Anwendungsprogrammen sowie einigen spontansprachlichen ¨ Außerungen. Das Material wurde auf einem Bildschirm pr¨asentiert. Aufgenommen wurden vier Kan¨ale: ein Nahbesprechungs-, je ein qualitativ hochwertiges, ein einfaches und ein von AT&T vorgegebenes Tischmikrofon. Die Samplerate ist 22.05 kHz mit 16 Bit linearer Quantisierung. Die Annotation ist orthographisch mit wenigen Markersymbolen f¨ ur Sprecher- und andere Ger¨ausche. 2.2 LivingRoom LivingRoom ist ein Kooperationsprojekt des BAS mit der ELRA im Auftrag eines Industrieunternehmens. In LivingRoom wurden 600 jugendliche Sprecher, klassifiziert nach regionaler Herkunft, in drei akustisch einem Wohnzimmer ¨ahnlichen Aufnahmer¨aumen des Instituts f¨ ur Phonetik und Sprachverarbeitung aufgenommen. Das Sprachmaterial bestand aus gelesenen ¨ Außerungen aus dem Bereich der Unterhaltungselektronik, aufgenommen wurde ¨ uber ein Headset und ein Tischmikrofon mit 22.05 kHz Samplerate und 16 Bit Quantisierung. Aus Gr¨ unden der Geheimhaltung durften f¨ ur die Aufnahmen Die Sprachdatenbank Ph@ttSessionz 225 nur vom Auftraggeber gestellte Rechner, die mit einem eigenen, vom Institut unabh¨angigen Netzwerk verbunden waren, verwendet werden. Die Signaldaten wurden t¨aglich auf CD gebrannt und per Kurier an den Auftraggeber verschickt. Die Sprecher wurden per Informationsblatt mit Anmeldeformular an Schulen in M¨ unchen geworben. Die Rekrutierung der Sprecher war aus zwei Gr¨ unden sehr aufwendig: 1) mussten die Eltern der Jugendlichen schriftlich ihr Einverst¨andnis zu den Sprachaufnahmen geben, und 2) konnten in M¨ unchen nicht ausreichend viele Jugendliche aus den geforderten Regionen gefunden werden, so dass ganze Schulklassen mit dem Bus nach M¨ unchen gefahren werden mussten. 2.3 RVG-J RVG-J ist eine Erweiterung von RVG auf jugendliche Sprecher. RVG-J umfasst neben dem RVG-Material zus¨atzlich auch die phonetisch reichen SpeechDat-S¨atze sowie einige spontane ¨ Außerungen, z. B. Antworten auf die Frage “Was hast Du in der letzten Stunde gemacht? ”. Sprecher f¨ ur RVG-J wurden nicht eigens rekrutiert, sondern es wurden diejenigen Sprecher aufgenommen, die sich f¨ ur LivingRoom angemeldet hatten, dort aber nicht mehr ben¨otigt wurden. Insgesamt wurden 198 Jugendliche aus M¨ unchen und dem Umland aufgenommen. Die Aufnahmen fanden in Studior¨aumen des IPS statt; die Sprecher bekamen eine kurze Einweisung und absolvierten im Beisein der Aufnahmeleiter f¨ unf Testaufnahmen. Die eigentlichen Aufnahmen liefen dann un¨ uberwacht und automatisch ab. Nach der Beendigung jeder Aufnahme wurde eine Qualit¨atskontrolle anhand von f¨ unf zuf¨allig ausgew¨ahlten ¨ Außerungen durchgef¨ uhrt. 2.4 Erfahrungen Die wesentlichen Erfahrungen aus den drei Projekten lassen sich wie folgt zusammenfassen: • Automatisch ablaufende, nicht ¨ uberwachte Aufnahmen sind effektiv und eﬃzient durchf¨ uhrbar. Durch eine geringe Anzahl zus¨atzlicher Sprecher bzw. zus¨atzlicher ¨ Außerungen pro Sprecher k¨onnen fehlerhafte Aufnahmen kompensiert werden. • Bestimmte demographische Kriterien , z. B. regionale Herkunft, sind bei Aufnahmen an einem einzigen Ort sehr schwierig zu erf¨ ullen. • Sprachaufnahmen in großer Zahl an einem einzigen Ort bzw. im laufenden Institutsbetrieb erfordern einen hohen organisatorischen 226 Die Sprachdatenbank Ph@ttSessionz und technischen Aufwand und k¨onnen zu Konflikten in Bezug auf Infrastruktur- und Personalbelastung f¨ uhren. • Eine erfolgreiche Rekrutierung erfordert eine direkte Ansprache der Sprecher. Die Rekrutierung jugendlicher Sprecher ¨ uber Schulen ist m¨oglich, wenn den Schulen dadurch nur geringer Aufwand entsteht. In RVG wurden die Aufnahmen immer dann durchgef¨ uhrt, wenn passende Sprecher verf¨ ugbar waren, so dass sich Phasen mit vielen Aufnahmen mit solchen mit sehr wenigen abwechselten; da kein Termin f¨ ur den Abschluss der Aufnahmen vorgegeben war, war dieses Vorgehen praktikabel. In LivingRoom dagegen f¨ uhrten die Probleme bei der Rekrutierung dazu, dass der vereinbarte Termin f¨ ur den Projektabschluss nicht eingehalten werden konnte, und dass trotz einer deutlich h¨oheren Anzahl aufgenommener Sprecher als der geforderten Anzahl die regionale Verteilung nicht den Vorgaben entsprach. 3 Ph@ttSessionz Aufnahmespezifikation Aus den Erfahrungen der Vorl¨auferprojekte wurden f¨ ur Ph@ttSessionz die folgenden Anforderungen formuliert: • Die Sprachaufnahmen sollten in einheitlich hoher Signalqualit¨at erfolgen und geographisch auf alle Dialektregionen Deutschlands verteilt sein. • Die Aufnahmen sollten automatisch auf dem Sprachserver des IPS gespeichert werden, um die Speicherung von Signaldaten auf dem Schulrechner sowie den Aufwand f¨ ur Medienproduktion und -transport zu vermeiden. • Der administrative Aufwand sowohl am IPS wie auch am Aufnahmeort sollte minimal sein, Personal und Infrastruktur am Aufnahmeort nur gering belastet werden. Mit der am IPS entwickelten Software SpeechRecorder ist die Technologie f¨ ur die verteilten Sprachaufnahmen mit zentraler Datenspeicherung verf¨ ugbar. Die einheitliche Signalqualit¨at wird durch die Verwendung standardisierter Aufnahmeausr¨ ustung erreicht. Die Durchf¨ uhrung der Sprachaufnahmen erfolgt in Kooperation mit Schulen im gesamten Bundesgebiet. Schulen haben in der Regel eine schnelle Anbindung an das Internet, geeignete R¨aume sowie qualifiziertes und motiviertes Personal (Informatik-Lehrer, Fachleiter, Internet- Arbeitsgruppen u. ¨a.). Die technische Ausr¨ ustung f¨ ur die Aufnahmen wird vom IPS gestellt, ebenso das Honorar f¨ ur die Sprecher. Die Sprachdatenbank Ph@ttSessionz 227 3.1 Sprecherrekrutierung Die Rekrutierung jugendlicher Sprecher ist problematisch, weil bei minderj¨ahrigen Personen das - in der Regel schriftliche - Einverst¨andnis der Erziehungsberechtigten notwendig ist. Zudem sollen die Aufnahmen einerseits anonym sein, andererseits muss die Einverst¨andniserkl¨arung einer Aufnahme zugeordnet werden k¨onnen. Bei geographisch verteilten Aufnahmen kommt hinzu, dass Sprecher und das IPS indirekt ¨ uber Aufnahmeleiter am Aufnahmeort kommunizieren, was einen erh¨ohten administrativen Aufwand und Verz¨ogerungen mit sich bringt. F¨ ur Ph@ttSessionz wurde folgendes Vorgehen spezifiziert: 1. Eine teilnehmende Schule benennt eine f¨ ur die Sprachaufnahmen verantwortliche Person, den Aufnahmeleiter. 2. Die Schule verteilt Informationsbl¨atter in den Klassen. 3. Interessierte Sch¨ uler melden sich bei dem Aufnahmeleiter zu einem Aufnahmetermin an und bringen die Einverst¨andniserkl¨arung der Eltern mit. 4. Wenn die geforderte Anzahl Aufnahmen (in der Regel 30) erreicht ist, dann schickt der Aufnahmeleiter dem IPS eine Best¨atigung, dass f¨ ur alle Aufnahmen die Einverst¨andniserkl¨arungen vorlagen und die Aufnahmen abgeschlossen sind. 5. Das IPS ¨ uberweist das vereinbarte Honorar von 200 e an die Schule. Mit diesem Vorgehen ist sichergestellt, dass einerseits das IPS die Signaldaten f¨ ur die Sprachdatenbank nutzen darf, und andererseits alle personenbezogenen Daten bei der Schule verbleiben, die diese Angaben ohnehin schon hat. Die Zuordnung von Aufnahmen zu Sprechern ist ¨ uber einen Sprecher-Code m¨oglich - auf diese Weise kann vom IPS eine Korrektur fehlerhafter Aufnahmen angefordert werden. Die ¨ Uberweisung des Sprecherhonorars in einer Summe erlaubt es der Schule, dieses Geld nach eigenen Ermessen zu verwenden. 3.2 Aufnahmeorte Die regionale Abdeckung der Sprecher in Ph@ttSessionz umfasst alle großen Sprachregionen Deutschlands. Diese Regionen wurden zuerst von RVG ¨ ubernommen und dann nochmals ¨ uberarbeitet. F¨ ur jede Region wurden Großst¨adte mit mindestens zehn Gymnasien ermittelt, und aus diesen wurden anschließend die dialektal interessantesten St¨adte ausgew¨ahlt. Zus¨atzlich wurden f¨ ur Pilotaufnahmen aus pragmatischen Gr¨ unden Schulen ausgew¨ahlt, zu denen Projektmitarbeiter eine engere Beziehung hatten, z. B. durch fr¨ uheren Schulbesuch. 228 Die Sprachdatenbank Ph@ttSessionz Im Laufe der ersten Aufnahmen stellte sich heraus, dass die urspr¨ unglich geplanten 50 Aufnahmen pro Schule nicht zu erreichen waren. Die Gr¨ unde daf¨ ur waren zum Teil technischer (deutlich l¨angere Dauer von Aufnahmesessions als in den Feldtests), zum Teil organisatorischer Natur (z. B. Aufnahmen nur außerhalb des Schulbetriebs am Nachmittag m¨oglich, kein Betrieb w¨ahrend der Schulferien). Daher wurde beschlossen, die Anzahl Aufnahmen pro Schule auf 30 zu reduzieren und weitere Schulen in zus¨atzlichen Orten anzuschreiben. 30 Sch¨ uler pro Schule waren deutlich einfacher zu rekrutieren, da dies der durchschnittlichen Klassenst¨arke am Gymnasium entspricht und sich somit an einer Schule nur ein Klassenlehrer finden musste, der bereit war, an den Aufnahmen teilzunehmen. Zur Standardisierung des Kontakts zur Schule wurde ein Leitfaden f¨ ur die Telefonanrufe und das Protokollieren der Aktivit¨aten verfasst. Damit konnte sichergestellt werden, dass alle Mitarbeiter stets auf dem gleichen Informationsstand waren und somit eine wechselnde Betreuung der Schulen m¨oglich war. 3.3 Versand Nachdem eine Schule sich zu Aufnahmen entschlossen hatte und ein Termin f¨ ur die Aufnahmen vereinbart worden war, schickte das IPS die Aufnahmehardware und alle zur Durchf¨ uhrung der Aufnahmen notwendigen Unterlagen in einem Koffer an die Schule. Das IPS ¨ ubernahm s¨amtliche Versandkosten. Die Aufnahmehardware besteht aus einem Mobile Pre USB A/ D- Wandler, einem Beyerdynamic opus54 Nackenb¨ ugelmikrofon und einem Tischmikrofon vom Typ AudioTechnica AT3031 sowie allen Anschlusskabeln und einem Stativ f¨ ur das Tischmikrofon. Diese Hardware wird im Aufnahmeraum an einen Standard-PC in der Schule angeschlossen (Abb. 73 auf S. 150 und Abb. 75 auf S. 155). Die Unterlagen bestehen aus Informations- und Anmeldebl¨attern, die an der Schule verteilt werden. Außerdem geh¨oren dazu ein Mini- Vertrag, in dem die wichtigsten Eckdaten der Aufnahmen festgehalten sind (Ansprechpartner, Zeitplan, Kontaktadresse am IPS) und der vor Beginn der Aufnahmen unterschrieben ans IPS zur¨ uckgeschickt werden muss, sowie ein Aufnahmeprotokollbogen und ein Rechnungsformular. Desweiteren liegen dem Koffer eine Teileliste und eine Anleitung zur Durchf¨ uhrung der Aufnahmen bei. Die Anleitung ist in zwei Teile gegliedert: eine Kurzanleitung, die den Aufbau und die Aufnahmen in Stichworten beschreibt, und eine ausf¨ uhrlichere Beschreibung. Die Sprachdatenbank Ph@ttSessionz 229 Die urspr¨ ungliche Anzahl von f¨ unf Koffern erwies sich als nicht ausreichend, so dass weitere vier Aufnahmeausr¨ ustungen angeschafft wurden. Zus¨atzlich wurde ein Laptop angeschaftt, um an Schulen, an denen kein eigener Rechner zur Verf¨ ugung stand, dennoch Aufnahmen durchf¨ uhren zu k¨onnen. 3.4 Testen der lokalen Aufnahmekonfiguration Die Audiohardware erfordert die Installation von Treibersoftware auf dem Rechner der Schule. Dazu sind in der Regel Zugriffsrechte als Administrator notwendig. Da die Treibersoftware f¨ ur die Schulen kein Sicherheitsrisiko darstellt und nach Ende der Aufnahmen problemlos deinstalliert werden kann, war die Installation auf Schulrechnern an allen Aufnahmeorten m¨oglich. Die Aufnahmesoftware SpeechRecorder wird als Java Web Start Applikation geladen. Eine Installation auf dem lokalen Rechner ist als normaler Benutzer ohne Administratorrechte m¨oglich. Zum Herunterladen der Software und zum Hochladen der aufgenommenen Signaldaten ist ein Internetzugang notwendig. Nach der Softwareinstallation sollte eine Testaufnahme erfolgen. Diese bestand aus einem kompletten Durchlauf einer Aufnahmesession, wobei statt Sprache vom Computer generierte Sinust¨one aufgenommen wurden. Mit diesem Sinustest kann ¨ uberpr¨ uft werden, ob der A/ D-Wandler richtig angeschlossen und konfiguriert ist, mit welcher ¨ Ubertragungskapazit¨at f¨ ur die Signaldaten gerechnet werden kann, und ob die Aufnahme technisch in Ordnung ist. Das IPS pr¨ uft den Sinustest und gibt, wenn keine Probleme gefunden wurden, die Prompts f¨ ur die Aufnahmen an dieser Schule frei. 3.5 Ablauf der Aufnahmesitzungen Der Ablauf einer Aufnahmesitzung ist wie folgt: • der Aufnahmeleiter gibt die demographischen Angaben zum Sprecher ein, • der Server startet eine neue Aufnahmesession und schickt ein Aufnahmeskript an den Aufnahmerechner, • der Schulrechner arbeitet das Aufnahmeskript ab und ¨ ubertr¨agt die Signaldaten in einem Hintergrundprozess an den Server, • nach Ende der Aufnahmen oder bei Unterbrechungen meldet sich der Sprecher ab. Auf den lokalen Schulrechnern wird nur der f¨ ur die ¨ Ubertragung der Signaldaten notwendige Pufferspeicher belegt. Nach Ende der Aufnahme 230 Die Sprachdatenbank Ph@ttSessionz bzw. der ¨ Ubertragung liegen keine Signaldaten mehr auf dem Schulrechner. 3.6 Ph@ttSessionz Infrastruktur am IPS Am IPS wurde eine eigene Webpr¨asenz f¨ ur die Ph@ttSessionz Sprachaufnahmen eingerichtet. Die Webseiten sind in einen ¨offentlich zug¨anglichen und einen Passwort-gesch¨ utzten Bereich unterteilt. F¨ ur den Passwort gesch¨ utzten Bereich wurden vier Klassen von Benutzern definiert: Administrator, Ph@ttSessionz-Mitarbeiter am IPS, Annotierer und die Aufnahmeleiter an den Schulen. Auf den ¨offentlichen Seiten befinden sich eine knappe Projektbeschreibung, eine Kontaktadresse, detailliertere Projektinformationen sowie Links auf die Seiten des BITS Projekts, des IPS und der LMU M¨ unchen. Außerdem sind auf diesen Seiten die Systemvoraussetzungen f¨ ur die Sprachaufnahmen sowie Installations- und Bedienungsanleitungen zu finden. Die Passwort-gesch¨ utzten Seiten sind je nach Benutzerklasse unterschiedlich aufgebaut. Die Aufnahmeleiter an den Schulen k¨onnen neue Aufnahmesitzungen anlegen und Sprecherdaten eingeben. Annotierer k¨onnen die Qualit¨atskontrolle und Annotation der vorhandenen Sprachdaten durchf¨ uhren. Die Ph@ttSessionz-Mitarbeiter haben Zugriffauf die Schuldatenbank und aktualisieren laufend das Wiki mit der Aktivit¨aten-Datenbank. In dieser Datenbank werden s¨amtliche Ph@ttSessionz-Arbeitsschritte manuell protokolliert. Zu diesen z¨ahlen Anrufe bei den Schulen, Terminvereinbarungen, Versand, Empfang und Testen der Audiohardware, Problembeschreibungen usw. Der Administrator hat Zugriffauf die gesamte Datenbank und ist f¨ ur ihren Betrieb verantwortlich. Die Ph@ttSessionz-Gruppe am IPS bestand aus f¨ unf Personen: einem Programmierer, einem Projektleiter, zwei Mitarbeiterinnen f¨ ur die Korrespondenz mit Schulen und die Organisation der Aufnahmen, sowie einem Mitarbeiter f¨ ur die Erstellung des Promptmaterials und die Dokumentation. Dazu kamen noch studentische Hilfskr¨afte f¨ ur die Qualit¨atskontrolle und die Annotation der Sprachdaten. Es wurde eine Hotline-Telefonnummer eingerichtet, unter der tags- ¨ uber stets ein Mitarbeiter zu erreichen war. Um die Kosten f¨ ur die Schulen gering zu halten, wurden sie jeweils vom IPS zur¨ uckgerufen. Die Sprachdatenbank Ph@ttSessionz 231 3.7 Erfahrungen Bei den Ph@ttSessionz Sprachaufnahmen waren einige technische und organisatorische Probleme zu ¨ uberwinden. Diese Probleme tauchten erst nach den beiden Feldversuchen auf, und sie erforderten rasche L¨osungen, um die laufenden Aufnahmen nicht unterbrechen zu m¨ ussen [DJ06]. 3.7.1 Langsame Daten¨ ubertragung Bei den Feldversuchen in M¨ unchen konnte eine Datenrate von 40- 70 kB/ s erzielt werden, abh¨angig von der Anzahl Nutzer im Schulnetz (und somit abh¨angig von der Tageszeit). Bei vielen anderen Schulen jedoch war die Datenrate wesentlich niedriger, teilweise lag sie bei unter 10 kB/ s. Das f¨ uhrte dazu, dass die Aufnahmen einer Aufnahmesitzung zwar wie geplant ca. 20-30 Minuten dauerten, dass aber die ¨ Ubertragung nach Ende der Aufnahmen mindestens noch einmal so lange dauerte. Weitere Aufnahmesitzungen konnten erst nach Beendigung der ¨ Ubertragung erfolgen, so dass wesentlich weniger Aufnahmen als geplant in der vorgesehenen Zeit durchgef¨ uhrt werden konnten. Hauptursache f¨ ur die langsame Daten¨ ubertragung war die geringe Upload-Datenrate der DSL-Anschl¨ usse der Schulen. Zur Verk¨ urzung der ¨ Ubertragungsdauer wurde als erste Maßnahme eine verlustfreie Kompression der Audiosignale mittels flac implementiert. Damit war eine Reduktion der zu ¨ ubertragenden Datenmenge auf ca. 50 % des urspr¨ unglichen Volumens m¨oglich. Als weitere Maßnahme wurde SpeechRecorder um eine Option auf verz¨ogerten Upload erweitert. Damit k¨onnen neue Aufnahmesitzungen begonnen werden, bevor der Transfer der Signaldaten aus den vorangegangenen Sitzungen beendet war. Damit wird zwar die tats¨achlich erreichbare Datenrate nicht erh¨oht, aber der Transfer der Daten kann zu einem sp¨ateren Zeitpunkt erfolgen. Diese Option ist in der Regel nicht aktiviert, da dabei das Risiko besteht, dass nicht alle Daten ¨ ubertragen werden. Sie wird nur dann aktiviert, wenn eine Schule ansonsten die Aufnahmen nicht durchf¨ uhren kann. 3.7.2 Betriebssystem- und Java-Probleme An fast allen Schulen, die an Ph@ttSessionz teilgenommen haben, kam das Betriebssystem Microsoft Windows in den Versionen 98, 2000 und XP zum Einsatz. Einige Schulrechner mussten vor den Aufnahmen durch Installation eines oder mehrerer Service Packs auf den aktuellsten Stand des Betriebssystems gebracht werden, um die System- 232 Die Sprachdatenbank Ph@ttSessionz voraussetzungen f¨ ur den Anschluss von USB Audioger¨aten bzw. einen sicheren Netzzugang zu erf¨ ullen. Diese Service Packs lagen der Aufnahmeausr¨ ustung auf CD bei. Zwei technische Probleme, die bei den Aufnahmen auftraten, ließen sich auf Inkompatibilit¨aten zwischen Betriebssystem, Java Audio Implementation und USB Audio-Treibern zur¨ uckf¨ uhren: 1) unregelm¨aßig auftretende Signalaussetzer, und 2) H¨angenbleiben oder Absturz der Aufnahmesoftware SpeechRecorder. Das erste Problem konnte nicht zuverl¨assig gel¨ost, aber durch eine Verbesserung der Software deutlich reduziert und mit dem Sinustest immerhin erkannt werden. Trat es bei einer Schule auf, wurde zun¨achst ein anderer Rechner f¨ ur die Aufnahmen verwendet. Wenn auch dies nicht half, wurden die Aufnahmen an dieser Schule abgebrochen (wobei die Schule f¨ ur die geleistete Arbeit einen Anerkennungsbetrag erhielt). Das zweite Problem wurde als Implementationsfehler der javax. sound.sampled-Programmbibliothek an SUN gemeldet und dort als Fehler in der Software anerkannt. Dieser Fehler ist in den aktuellen Java Ausgaben korrigiert. 3.7.3 Programm- und Bedienfehler Die Verwendung eines Pufferspeichers in SpeechRecorder beschleunigte zwar den Ablauf einer Aufnahmesitzung, eine neue Sitzung konnte jedoch erst begonnen werden, wenn alle Daten der vorangegangenen Sitzung ¨ ubertragen waren. Um diese Wartezeit zu vermeiden, haben findige Aufnahmeleiter weitere Kopien der Aufnahmesoftware gestartet und damit neue Sitzungen begonnen. Die zuerst verwendete Version von SpeechRecorder war so implementiert, dass sie nur eine Datei mit festem Namen und Speicherort als Pufferspeicher verwendete. Das f¨ uhrte dazu, dass die verschiedenen Instanzen von SpeechRecorder in unvorhersehbarer Weise auf diese Pufferdatei zugriffen und sich gegenseitig Daten ¨ uberschrieben. Dieser mehrfache Aufruf der Software war nur m¨oglich, wenn die Aufnahmeleiter Aufnahmesitzungen nicht wie vorgesehen ¨ uber das Navigationsmen¨ u, sondern per ‘zur¨ uck’-Button im Browser starteten. Zur Vermeidung dieses Problems wurde a) die Implementation von SpeechRecorder so ge¨andert, dass jede Instanz ihren eigenen Pufferspeicher verwendet, und b) der Aufnahmeleiter im Falle gewarnt wird, wenn eine Aufnahmesitzung zu Beginn der Aufnahmen bereits Audiodateien enth¨alt. Die Sprachdatenbank Ph@ttSessionz 233 3.7.4 Bew¨ahrte Maßnahmen Die folgenden Maßnahmen haben sich in Ph@ttSessionz bew¨ahrt: • Postversand der Ausr¨ ustung • Wiki mit Aktivit¨aten-Datenbank und Leitfaden • Enge Betreuung der Schulen Die Aufnahmeausr¨ ustung wurde als unversichertes Paket mit der Post verschickt. S¨amtliche Sendungen erreichten ihr Ziel p¨ unktlich und ohne Besch¨adigungen. Alle Koffer kamen vollst¨andig zur¨ uck. Die Teileliste im Koffer und die Benennung eines verantwortlichen Aufnahmeleiters an jeder Schule haben sicherlich geholfen, Verluste zu vermeiden. Da die meisten Ph@ttSessionz-Mitarbeiter am IPS Teilzeit-besch¨aftigt waren, war ein eﬃzienter Informationsaustausch unabdingbar. Alle relevanten Vorg¨ange in der Rekrutierung und der Betreuung der Schule wurden in der Aktivit¨aten-Datenbank manuell protokolliert. Die Verwendung einer Datenbank erlaubt sowohl die gezielte Suche nach Vorg¨angen nach unterschiedlichen Kriterien als auch ein Bl¨attern im Datenbestand. F¨ ur die Ansprache der Schulen am Telefon wurde nach den ersten erfolgreichen Rekrutierungen ein Leitfaden f¨ ur die Telefonate entwickelt. Darin sind alle notwendigen Informationen f¨ ur die Schulen und Argumente f¨ ur die Teilnahme an Ph@ttSessionz aufgelistet, ebenso wie die am IPS zu protokollierenden Vorg¨ange. Die zunehmende Erfahrung der Ph@ttSessionz-Mitarbeiter bei den Telefongespr¨achen in Kombination mit dem Leitfaden haben zu einer einheitlichen und positiven Pr¨asentation des Projekts bei Schulen gef¨ uhrt und die Rekrutierung neuer Schulen erleichtert. Die ersten Schulen, die an Ph@ttSessionz teilgenommen hatten, wurden vom IPS nur wenig betreut. Sie haben sich in der Regel nur gemeldet, wenn es akute technische Probleme gab, und auch nur dann, wenn die Probleme von der Schule ¨ uberhaupt erkannt werden konnten. Einige Fehler, wie z. B. die Signalaussetzer oder unvollst¨andige Aufnahmesitzungen, wurden daher erst am IPS und teilweise zu sp¨at erkannt. Eine weitere Konsequenz war, dass Schulen den vereinbarten Zeitplan nicht einhielten und sich somit andere Aufnahmen verz¨ogerten. Um diese Probleme zu vermeiden wurde der Mini-Vertrag mit Zeitplan in die Unterlagen aufgenommen, und die Aufnahmeleiter wurden in regelm¨aßigen Abst¨anden angerufen, um Auskunft ¨ uber den Stand der Aufnahmen zu erhalten und um Erfahrungen von anderen Schulen weiterzugeben. Damit war es den meisten Schulen m¨oglich, innerhalb des vereinbarten Zeitraums die Aufnahmen durchzuf¨ uhren. Die 234 Die Sprachdatenbank Ph@ttSessionz durchschnittliche Dauer der Aufnahmeserie an einer Schule betrug ca. drei Wochen, dazu kommen noch einige Tage zur Installation und Durchf¨ uhrung der Tests. 4 Verarbeitung der Signaldaten 4.1 Speicherung der Daten Der Ph@ttSessionz-Server lief als eigener Webkontext auf einem Tomcat Webserver am IPS. Die Sprecher- und Aufnahmedaten werden in einer relationalen PostgreSQL-Datenbank abgelegt, die Signaldaten im lokalen Dateisystem. Dieses Dateisystem wurde regelm¨aßig automatisch gesichert. 4.2 Qualit¨atskontrolle Die Qualit¨atskontrolle bestand aus zwei Teilen: einer simultanen ¨ Uberwachung der Testaufnahmen und einer laufenden Kontrolle eingehender Aufnahmen. 4.2.1 Simultane ¨ Uberwachung Bei den ersten Aufnahmen an einer Schule wird simultan mit den Testaufnahmen zu Beginn der ersten Aufnahmesitzung die Signalqualit¨at dieser Testaufnahmen ¨ uberwacht. Treten hier technische Probleme zutage, z. B. Aussteuerungsfehler oder zu laute Umgebungsger¨ausche, dann k¨onnen noch f¨ ur die laufende Aufnahmesitzung Hinweise zur Verbesserung der Aufnahme gegeben werden. 4.2.2 Laufende Qualit¨atskontrolle In der laufenden Qualit¨atskontrolle wird f¨ ur jede abgeschlossene Aufnahmesitzung eine Stichprobe der Aufnahmen ¨ uberpr¨ uft. Hierbei geht es einerseits wiederum um die technische Qualit¨at, andererseits aber auch um eine erste inhaltliche Beurteilung, besonders der spontan gesprochenen Items. Aufnahmesitzungen mit besonders interessanten Eigenschaften, wie ausgepr¨agtem Dialekt oder witzigen Beitr¨agen werden markiert, um aus ihnen Material f¨ ur die Webseite und Medienberichte zu extrahieren. Wenn die Stichprobe keine technischen M¨angel ergibt, dann wird die Aufnahmesitzung zur Annotation freigegeben. Die Sprachdatenbank Ph@ttSessionz 235 4.3 Annotation Die Annotation der Ph@ttSessionz erfolgt nach den Konventionen von SpeechDat [WSC + 96], d. h. sie ist im Wesentlichen eine orthographische Annotation mit den folgenden Markersymbolen: • [fil] (engl. filled pause) f¨ ur H¨asitationen wie hm, ¨ahm, ¨ah usw., • [int] (engl. intermittent noise) f¨ ur kurze, deutlich h¨orbare Ger¨ausche wie T¨ urknallen, Mikrofonber¨ uhrungen usw., • [spk] (engl. speaker noise) f¨ ur Ger¨ausche und ¨ Uberlagerungen der Sprache durch den Sprecher wie lautes Atem, Lachen usw. und • [sta] (engl. f¨ ur stationary noise) f¨ ur langandauernde laute Ger¨ausche wie Verkehrsl¨arm, Musik oder Radio im Hintergrund usw. Daneben gibt es noch die Marker ‘*’ f¨ ur falsch ausgesprochene W¨orter oder Wortfragmente, ‘**’ f¨ ur unverst¨andliche Passagen sowie ‘ ∼ ’ f¨ ur Signalabbruch, d. h. am Anfang oder Ende abgeschnittene Aufnahmen. Im Gegensatz zu SpeechDat werden in Ph@ttSessionz die annotierten Signalabschnitte als Intervall mit Segmentgrenzen markiert. Die Annotation erfolgt mit WebTranscribe [Dra05], wobei ein eigenes, auf Ph@ttSessionz zugeschnittenes, Plug-in f¨ ur den Annotationseditor verwendet wird (Abb. 92). Dieser Editor zeigt in einem Signaldisplay in der Standardansicht das gesamte Signal, das bei Bedarf vergr¨oßert werden kann. Beide Kan¨ale werden parallel angezeigt, damit sich technische Probleme wie St¨orungen oder l¨angere Signalaussetzer gut erkennen lassen. Der eigentliche Editor besteht aus einem Textfeld f¨ ur den Annotationstext sowie einer Reihe von Buttons zur Konvertierung von Text, z. B. von Ziffern in Zahlw¨orter, bzw. zur Eingabe von Markersymbolen. Das Textfeld enth¨alt zu Beginn der Annotation den Inhalt des Prompt- Items, so dass nur Abweichungen davon eingegeben werden m¨ ussen. Der Annotationstext wird automatisch auf formale Konsistenz ¨ uberpr¨ uft. Wenn diese Konsistenzkontrolle einen Fehler findet, wird eine Fehlermeldung mit Angabe der Fehlerposition ausgegeben. Die Beurteilung der Qualit¨at der aktuellen Aufnahme erfolgt mittels Radiobuttons: ‘OK’, ‘schlechtes Signal’ f¨ ur Aussteuerungsfehler, leerer Signalkanal usw., ‘unbrauchbar’ f¨ ur keine oder unverst¨andliche ¨ Außerungen, und ‘interessant’ f¨ ur sprachlich oder inhaltlich auff¨allige ¨ Außerungen. Die Annotation der Aufnahme ist beendet und wird gesichert, wenn ein Bereich im Signal mit Grenzen markiert, ein syntaktisch korrekter Annotationstext eingegeben und die Qualit¨at beurteilt wurde. 236 Die Sprachdatenbank Ph@ttSessionz Abbildung 92. WebTranscribe mit Ph@ttSessionz Annotationseditor. WebTranscribe holt automatisch die n¨achste noch nicht annotierte Aufnahme vom Server und zeigt sie an. Die Annotation einer Aufnahme kann zur¨ uckgestellt werden, z. B. wenn bei Problemen ein zweiter Annotierer hinzugezogen werden soll. Auf dem Server werden neben den Annotationsdaten auch administrative Daten wie Datum und Uhrzeit der Annotation sowie das K¨ urzel des Annotierers gespeichert. 4.4 Dokumentation Die Ph@ttSessionz Dokumentation ist in einen internen, nicht-¨offentlichen und einen ¨offentlichen Teil untergliedert. Der nicht-¨offentliche Teil umfasst die Protokolle der w¨ochentlichen Sitzungen, Schriftverkehr, die Aktivit¨aten-Datenbank sowie Annotationsprotokolle. Der ¨offentliche Teil der Dokumentation besteht aus den Webseiten von Ph@ttSessionz, die laufend und auch nach Ende des Projekts Die Sprachdatenbank Ph@ttSessionz 237 aktualisiert werden. Dazu kommen ausf¨ uhrliche Dokumentationstexte zur Durchf¨ uhrung der Datensammlung, die Spezifikation der Annotation, Beschreibungen der verwendeten Software, Konferenzbeitr¨age usw. Diese Dokumentationstexte sind integraler Bestandteil der Datenbank und werden gemeinsam mit den Signaldaten distribuiert. 4.5 Validierung Die Validierung der technischen Qualit¨at, der formalen Korrektheit und des Annotationsinhalts wird als interne Validierung am BAS durchgef¨ uhrt. Sie folgt der Validierungsspezifikation von SpeechDat [vdH98, vdHBC + 00]. 4.6 Distribution Die Dateihierarchie folgt der SpeechDat Spezifikation [Sen97, Dra99a], d. h. die Dateinamen sind nummerisch. Sie besteht auf der obersten Ebene der Dateihierarchie aus einer Copyright-Datei und der Kurzbeschreibung der Sprachdatenbank und ihrer Dateistruktur. Die Dokumentation ist auf f¨ unf Verzeichnisse unterteilt: Dokumentationstexte in doc/ , Indexdateien zum raschen Zugriffauf die Daten in index/ , das gesamte Promptmaterial in prompt/ , tabellarische ¨ Ubersichten des Datenbankinhalts in table/ sowie Applikationen und Quellcode von Skripten zur Verarbeitung der Daten in source/ . Die eigentlichen Signaldaten sind in einer zweistufigen Dateihierarchie abgelegt. Diese besteht aus Verzeichnissen mit der vierstelligen Sitzungsnummer. Ein solches Verzeichnis enth¨alt s¨amtliche Aufnahmen dieser Aufnahmesitzung und die zugeh¨origen Annotationsdateien. Der Dateiname einer Audiodatei setzt sich zusammen aus der Datenbankkennung, der Sitzungsnummer, dem Aufnahmecode und der Dateiextension. Im Gegensatz zu den Vorgaben von SpeechDat werden die Dateinamen in kleinen Buchstaben geschrieben, die Annotationsdateien sind als reine Textdateien formatiert und in Unicode UTF-8 kodiert. 5 Ph@ttSessionz v.1.0 In der ersten Edition der Sprachdatenbank umfasst Ph@ttSessionz 864 Aufnahmesessions mit insgesamt 109.215 ¨ Außerungen. Eine Aufnahmesession besteht aus zwischen 102 und 138 ¨ Außerungen mit einem Durchschnitt von 126,41. Jede ¨ Außerung wurde orthographisch tran- 238 Die Sprachdatenbank Ph@ttSessionz skribiert, wobei Beginn und Ende des transkribierten Sprachsignals markiert wurden. Tab. 11 listet die Aufnahmeorte, ihre Dialektregion und die Anzahl Sprecher pro Ort auf. Zu Beginn des Projektes haben die Aufnahmesitzungen deutlich l¨anger gedauert als geplant. Daher konnte an einigen Orten innerhalb des von der Schule vorgesehenen Zeitraums die geplante Anzahl Sprecher nicht aufgenommen werden. Mit der verbesserten Aufnahmesoftware reduzierte sich die Aufnahmedauer auf die angek¨ undigten 30 Minuten pro Sprecher, so dass deutlich mehr Sch¨ uler pro Ort aufgenommen werden konnten. Die Aufnahmeorte sind in Abb. 93 graphisch dargestellt. In dieser Abbildung sind zur Orientierung die ‘mundartlichen Großr¨aume’ aus [K¨on98] eingezeichnet. Die Verteilung nach Geschlecht ist nicht ganz ausgewogen. Aufgenommen wurden 406 (46,9 %) Sprecher mit 51073 ¨ Außerungen und 457 (52,9 %) Sprecherinnen mit 58015 ¨ Außerungen, von einer Person ist das Geschlecht unbekannt. Die Altersverteilung ist in Abb. 94 wiedergegeben. Die Gesamtdauer der transkribierten ¨ Außerungen betr¨agt ungef¨ahr 121 Stunden mit einer durchschnittlichen ¨ Außerungsdauer von 2,89 Sekunden. Tab. 12 gibt die Summe und den Durchschnitt der Dauern der einzelnen Prompt-Items wieder. 5.1 Lexikon Das Ph@ttSessionz Lexikon ist in UTF-8 kodiert und enth¨alt die W¨orter der orthographischen Transkription mit Angabe der Aussprache und Wortfrequenz. Die Aussprache wurde aus dem Lexikon Phonolex des BAS ¨ ubernommen und wo notwendig manuell erg¨anzt. Die Aussprache ist gem¨aß dem deutschen SAMPA notiert; zus¨atzlich werden die Phoneme / w/ , / T/ , / D/ sowie / a ∼ / , / e ∼ / und / o ∼ / aus dem englischen und franz¨osischen SAMPA f¨ ur englische bzw. franz¨osische W¨orter verwendet. Aussprachevarianten wurden nicht notiert. Die in den spontanen ¨ Außerungen vorkommenden Titel von Filmen oder Fernsehsendungen wurden durchwegs als Mehrwort-Eintr¨age in das Lexikon aufgenommen, wobei sie in doppelte Anf¨ uhrungszeichen gesetzt und die einzelen Bestandteile mit einem Unterstrich verbunden wurden , z. B. “Desperate Housewives”. Die Sprachdatenbank Ph@ttSessionz 239 Ort Dialektregion Sprecher Alt¨otting BAI 59 Bad Freienwalde OND 31 Berlin OMD 18 Bitterfeld (bei Halle) OMD 30 Brunsb¨ uttel WND 9 Burg (bei Magdeburg) OMD 30 Cottbus OMD 29 Dresden OMD 28 Duisburg WND 19 Eisleben OMD 27 Emmendingen (bei Freiburg) ALE 30 Erfurt OMD 9 Essen WND 18 Esslingen (bei Stuttgart) ALE 31 Flensburg WND 27 G¨ unzburg ALE 30 Geretsried BAI 23 Greifswald OND 13 Hannover WND 9 Hof OFR 28 Kaiserslautern WMD 5 K¨oln WMD 24 Karlsruhe ALE 12 Marburg WMD 15 Meppen WND 5 N¨ urnberg OFR 2 Neum¨ unster (N¨ahe Kiel) WND 25 Neustadt a. d. Waldnaab BAI 19 Nordhorn WND 29 Plauen OMD 10 Saarbr¨ ucken WMD 29 S¨ommerda OMD 32 Schwerin OND 14 Trier WMD 5 Tuttlingen ALE 28 Vechta WND 11 Villingen-Schwenningen ALE 25 W¨ urzburg OFR 8 Weiden BAI 15 Westerland WND 24 Wiesbaden WMD 29 Tabelle 11. Aufnahmeorte und Anzahl Sprecher der Ph@ttSessionz Sprachdatenbank. 240 Die Sprachdatenbank Ph@ttSessionz WND WMD OND OMD BAI ALE OFR Abbildung 93. Aufnahmeorte und Dialektregionen nach [K¨on98] der Ph@ttSessionz Sprachdatenbank. Die Sprachdatenbank Ph@ttSessionz 241 Alter Sprecher ¨ Außerungen 12 9 1136 13 74 9406 14 153 19412 15 125 15703 16 121 15436 17 147 18543 18 145 18237 19 56 7035 20 13 1630 unbek. 21 2677 0 50 100 150 200 12 13 14 15 16 17 18 19 20 Abbildung 94. Altersverteilung Ph@ttSessionz Sprachdatenbank. Beschreibung Typ Summe Durchschnitt h s Ziffer 3,51 0,88 Zahl zw. 10 und 100 6,15 1,03 Ortsnamen 1,33 1,35 Firmennamen 1,49 1,51 Computer-Befehl 6,77 1,71 Personennamen 1,89 1,91 Zeitausdr¨ ucke 2,35 2,38 Ziffernketten 2,78 2,82 Datumsausdr¨ ucke Anwendung 3,10 3,14 Telefonnummer 14,31 3,34 Buchstabierung Orts-/ Firmenname 6,43 3,90 Phonetische Tests¨atze 2,39 4,77 Zuf¨allige Buchstabensequenz 3,23 5,29 Ziffernkette 10 Ziffern, *, # 5,34 5,66 Buchstabierung Personnename 6,21 6,27 Kreditkartennummer 7,23 7,35 Textproduktion kurz Spontan- 7,50 5,18 Textproduktion lang sprache 9,82 11,97 Phonetisch reiche S¨atze Phonetik 29,32 2,96 121,22 2,89 Tabelle 12. Summe und Durchschnitt der Dauer aller Ph@ttSessionz- ¨ Außerungen, gruppiert nach Anwendungstyp, sortiert nach der Durchschnittsdauer in s. 5.2 Editionen Ph@ttSessionz 1.0 wird in zwei unterschiedlichen Editionen vertrieben: die erste, haupts¨achlich gedacht f¨ ur phonetische, linguistische und sprachtechnologische Forschungsarbeiten, enth¨alt die phonetisch reichen S¨atze, die spontanen ¨ Außerungen sowie die Telefonnummern. Insgesamt sind das bis zu 50 Items pro Sprecher und Aufnahmesitzung. Damit ist eine gute Kompatibilit¨at zu RVG gegeben, so dass mit bei- 242 Die Sprachdatenbank Ph@ttSessionz den Sprachdatenbanken ein Altersspektrum von 12 bis ¨ uber 85 Jahre in vergleichbarer Signalqualit¨at abgedeckt wird. Die zweite Edition ist f¨ ur die Entwicklung von industrieller und kommerziell genutzter Sprachtechnologie gedacht. Sie umfasst das Anwendungsvokabular, d. h. die Ziffern, Ziffernketten, Zahlen, Geld-, Datums- und Zeitausdr¨ ucke, Personen-, Orts- und Firmennamen, und die Buchstabierungen. Beide Editionen k¨onnen ¨ uber das BAS bezogen werden. Wichtige Links Webseiten www.narr-studienbuecher.de Webseiten zu diesem Arbeitsbuch Software audacity.sourceforge.net Audacity, ein f¨ ur viele Plattformen verf¨ ugbarer grafischer Audioeditor und -rekorder emu.sourceforge.net EMU Annotationseditor und Auswertungsprogramm www.lat-mpi.eu/ tools/ IMDI Metadaten-Editor und -Browser htk.eng.cam.ac.uk HTK Hidden Markov Toolkit, die meistverwendete Entwicklungsumgebung f¨ ur Spracherkennungssysteme www.bas.uni-muenchen.de/ software/ maus MAUS automatische Segmentation www.Praat.org Praat Annotationseditor www.r-system.org R Statistikpaket www.speechrecorder.org SpeechRecorder Aufnahmesoftware sox.sourceforge.net Sound Exchange, ein Befehlszeilentool zur Konversion von Audiodateien Institutionen www.bas.uni-muenchen.ed BAS, Bayerisches Archiv f¨ ur Sprachsignale am Institut f¨ ur Phonetik und Sprachverarbeitung, LMU M¨ unchen www.elda.org ELRA, European Language Resources Association, Paris www.ids-mannheim.de IDS, Institut f¨ ur Deutsche Sprache, Mannheim www.ldc.upenn.edu LDC, Linguistic Data Consortium, Philadelphia www.mpi.nl MPI, Max-Planck-Institut f¨ ur Psycholinguistik, Nijmegen 244 Wichtige Links Standards www.arts.gla.ac.uk/ ipa/ Homepage der Internationalen Phonetischen Assoziation IPA an der Universit¨at Glasgow www.phon.ucl.ac.uk/ home/ sampa/ SAMPA-Homepage am University College, London www.unicode.org Unicode-Konsortium www.w3c.org WWW-Konsortium, verantwortlich f¨ ur Standards f¨ ur das World Wide Web wie HTML, XML und viele damit verbundene Technologien Firmen-Links Die folgenden Firmen haben Abbildungen und weiteres Informationsmaterial zur Verf¨ ugung gestellt. Vielen Dank daf¨ ur! www.akg.com Mikrofone und Zubeh¨or www.audio-technica.com Mikrofone und Zubeh¨or www.beyerdynamic.de Mikrofone und Zubeh¨or www.m-audio.de FireWire und USB A/ D Wandler www.sennheiser.de Mikrofone und Zubeh¨or www.senncomm.de Headsets www.studiobox.de Studiobox Akustikkabinen www.zoom.co.jp Zoom Portable Recorder Checkliste Datenbank-Info © Projekt © Kurzname © Vollst¨andiger Name © Sprachdatenbank-ID © Ersteller © Datum Spezifikation Sprachlicher Inhalt © Sprechsituation © Sprachstil © Szenario © Vokabular © Aufgabe Sprecherpopulation © Anzahl Demographische Merkmale © Muttersprache © Fremdsprachen © Dialekt, regionale F¨arbung © Ausbildung, sozialer Status 246 Checkliste Biometrische Merkmale © Geschlecht © Alter © Gr¨oße, Gewicht © Raucher © Zahnspange © Piercing im Vokaltrakt © Sprach- oder Sprechfehler Aufnahmetechnik und -umgebung © Akustische Umgebung © Skript © Umgebungsger¨ausch © Mikrofone © Hardware © Unterlagen Ablaufkontrolle © automatisch, semi-automatisch, manuell © ¨ uberwachte bzw. nicht-¨ uberwachte Aufnahmen Telefonaufnahmen © Serverhard- und -software © Telefonnetz © Aufnahmeumgebung © Endger¨at, Freisprecheinrichtung Feldaufnahmen © Testaufnahme Wizard of Oz © Wizard-Simulation Checkliste 247 Weitere Angaben © Abtastrate © Quantisierung und Kan¨ale © Signaldatenformat © Annotationsebenen und -verfahren © Annotationsformat © Metadateninhalt © Metadatenformat © Lexikonformat © Korpusstruktur © Terminologie © Dokumentation © Validierung © Distributionsform und -medien Vorbereitung der Datensammlung Arbeitsteams zusammenstellen © Administration © Aufnahme © Datensicherung © Annotation © Dokumentation © Validierung R¨aume reservieren und einrichten © Arbeitspl¨atze © Aufnahmer¨aume, Studios, Fahrzeuge © Warte- und Lagerr¨aume Rechner und Aufnahmetechnik installieren Telefonaufnahmen © ISDN Anschluss (geb¨ uhrenfrei? ) © ISDN Hardware © Telefonserver © Ansageprompts und Piepton © Aufnahmeskript © Pausenerkennung, Sprach-Erkennung © Aufnahmeparameter justieren © Echos vermeiden 248 Checkliste Studio- und WOZ-Aufnahmen © akustische Umgebungsbedingungen © Mikrofone © Vorverst¨arker, A/ D-Wandler © Aufnahmeger¨ate © Aufnahmesoftware Feldaufnahmen © Batterien, Akkus © Stromversorgung, St¨orungen © Mobiltelefone ausschalten © Aufnahmeger¨ate testen © Ausweichplan f¨ ur schlechtes Wetter © t¨agliche Datensicherung Wizard of Oz © Beobachtungstechnik © Schallisolierung Aufnahme- und Kontrollraum © Sprachausgabe synthetisieren © Dialogfluss und Ablaufplan f¨ ur Simulation Kommunikationssoftware und Datenfluss © Aufnahme- und Annotationssoftware © Wiki- und Forum-Software © Datenfluss © Datensicherung © Probedurchlauf Aufnahme Sprecher © Sprecherrekrutierung © Honorar © Unterlagen, Formulare Organisation © Promptmaterial © rechtliche Aspekte pr¨ ufen © Kommunikation © Projekt- und Terminkalender © Dokumentvorlagen Checkliste 249 Datensammlung Aufnahmen und Protokolle © Sprecherdatenblatt © Aufnahmeprotokoll © Speicherplatz © Signalqualit¨at © Datensicherung © Zusatzdaten erheben Pr¨avalidierung © Daten ausw¨ahlen und aufbereiten Datenaufbereitung © Daten¨ ubertragung auf Arbeitsrechner bzw. Server © Dateisystem-Struktur und Dateibenennung © Abtastrate, Quantisierung anpassen © Schnitt, Filterung © Formatkonversion Signaldateien © Formatkonversion Text- und Annotationsdaten © automatische Fehlerpr¨ ufungen © Datenfluss initialisieren Annotation Annotierer © Einweisung © Annotiererkenntnisse © Inter-Annotierer-Konsistenz Annotationen © Transkriptionsrichtlinien festschreiben © Dateiformat f¨ ur Annotationen © Annotationseditoren © Prozeduren f¨ ur Annotation © Annotationen in Datenfluss © Implementation formaler Konsistenzkontrolle 250 Checkliste Lexikon und Dokumentation Aussprachew¨orterbuch © Kategorien © Liste der Eintr¨age © statistische Angaben © Aussprache automatisch generieren, manuell ¨ uberarbeiten © Zweitkorrektur © Abgabeformat und -kodierung Dokumente © Versionsnummer und Editionsdatum © Spezifikation © Aufnahme-Handb¨ ucher © Annotations-Richtlinien © Forums- und Wikibeitr¨age © Softwareprotokolle © Validierungsbericht(e) © Konferenz- und Zeitschriftenartikel © Pressebeitr¨age Validierung Pr¨avalidierung © Validierer bestimmen (intern/ extern) © Zeitplan und Termin Pr¨avalidieren © Empfehlungen aus Pr¨avalidierungsbericht umsetzen Abschlussvalidierung © Validierer bestimmen © Zeitplan und Termin Validierung © Validierungsbericht in Dokumentation aufnehmen Checkliste 251 Distribution © Speichermedien und Datentr¨ager f¨ ur Signaldaten © Kompression und Kodierung © separate Distribution von symbolischen Daten © Datensicherheit und Pr¨ ufdaten © Katalogank¨ undigung © Metadaten bereitstellen © Ver¨offentlichung IPA Alphabet Die Abbildung des “International Phonetic Alphabet”wird von der IPA, der International Phonetic Association in Kooperation mit dem Department of Theoretical and Applied Linguistics, School of English, Aristotle University of Thessaloniki, Thessaloniki 54124 in Griechenland, zur freien Verf¨ ugung gestellt. Die Tabelle finden Sie auch auf den Webseiten der IPA unter www.arts.gla.ac.uk/ ipa/ IPA Alphabet 253 THE INTERNATIONAL PHONETIC ALPHABET (revised to 2005) CONSONANTS (PULMONIC) Front Central Back Close Close-mid Open-mid Open Where symbols appear in pairs, the one to the right represents a rounded vowel. Bilabial Labiodental Dental Alveolar Post alveolar Retroflex Palatal Velar Uvular Pharyngeal Glottal Plosive ! " # $ % & ' ( ) * Nasal + , - . / 0 Trill 1 2 3 Tap or Flap 4 5 Fricative 6 7 8 9 : ; < ==> ? @ A B C D E F G H I J K L Lateral fricative M N Approximant O P Q R S Lateral approximant T U V W Where symbols appear in pairs, the one to the right represents a voiced consonant. Shaded areas denote articulations judged impossible. CONSONANTS (NON-PULMONIC) SUPRASEGMENTALS VOWELS OTHER SYMBOLS Clicks Voiced implosives Ejectives X Bilabial Y Bilabial ’ Examples: Z Dental [ Dental/ alveolar ’ Bilabial ! (Post)alveolar \ Palatal ’ Dental/ alveolar ] Palatoalveolar ^ Velar & ’ Velar Alveolar lateral _ Uvular < ’ Alveolar fricative Primary stress Secondary stress 8 - ? - ` Long ` a Half-long a Extra-short Minor (foot) group Major (intonation) group Syllable break P & Linking (absence of a break) TONES AND WORD ACCENTS LEVEL CONTOUR =b 2 c Extra high ˆ or d Rising e High f Falling g h Mid i High rising j k Low l Low rising m n Extra low o Risingfalling p Downstep q Global rise r Upstep s Global fall © 2005 IPA DIACRITICS Diacritics may be placed above a symbol with a descender, e.g. / t Voiceless -u ! u v Breathy voiced v v Dental = ! Voiced < = Creaky voiced w w Apical =x ! x y Aspirated y ! y Linguolabial =z =! z { Laminal ={ ! { More rounded | } Labialized } ! } Nasalized Less rounded ~ Palatalized ! Nasal release ! Advanced Velarized =! Lateral release ! Retracted Pharyngealized ==! No audible release ! = = Centralized Velarized or pharyngealized Mid-centralized Raised = ( P = voiced alveolar fricative) Syllabic - Lowered ( 7 = voiced bilabial approximant) Non-syllabic Advanced Tongue Root Rhoticity Retracted Tongue Root Voiceless labial-velar fricative Alveolo-palatal fricatives = Voiced labial-velar approximant Voiced alveolar lateral flap Voiced labial-palatal approximant Simultaneous ? and E Voiceless epiglottal fricative = = Voiced epiglottal fricative Affricates and double articulations can be represented by two symbols = = Epiglottal plosive joined by a tie bar if necessary. & < ( ( Abbildung 95. IPA Tabelle (Stand 2005). Kombi-Formular Das Kombi-Formular mit Personenbogen, Einverst¨andniserkl¨arung und Quittung ist eine Kopiervorlage. F¨ ur beste Ergebnisse auf A4-Papier stellen Sie den Kopierer auf 125 % Vergr¨oßerung ein. Das Formular finden Sie auch auf den Webseiten zum Buch unter www.narr-studienbuecher.de Kombi-Formular 255 Projekt Sprechercode Skript Aufnahmeleiter Raum Angaben zur Person Geburtsmonat _ _ / _ _ _ _ Geschlecht W / M Größe (cm) Gewicht (kg) Muttersprache Grundschule besucht in Bundesland Raucher J / N Zahnspange J / N Sonstiges Erklärung Sprechercode: …………… Ich bin damit einverstanden, an Sprachaufnahmen für das Projekt …………………………… teilzunehmen. Mir ist bekannt, dass • ich die Sprachaufnahmen jederzeit ohne Nachteil für mich beenden kann. • die Sprachaufnahmen in anonymisierter Form veröffentlicht und zu Forschungs-, Ausbildungs-, Präsentations- und Entwicklungszwecken genutzt werden. • alle Rechte an den Sprachaufnahmen an ……………………………………………… ……………………………………………………………………………… übergehen. Ort, Datum Unterschrift Adresse Sprechercode: …………… Name Vorname E-Mail (Mobil)-Telefon Fax Straße PLZ, Ort Ich möchte in die Sprecherdatenbank des IPS aufgenommen werden ja / nein Bitte überweisen Sie das Versuchspersonen-Honorar in Höhe von ___ auf mein Konto Konto-Nr.: Bank: BLZ: Ich habe das Versuchspersonen-Honorar in Höhe von ___ erhalten. Ort, Datum Unterschrift Glossar A/ D-Wandler, D/ A-Wandler Ger¨at zur Konvertierung von analogen in digitale Signale bzw. umgekehrt. A/ D Wandler zum Anschluss an einen Rechner werden auch als Audio-Interface bezeichnet. Abtastrate (engl. sample rate) Anzahl der Messpunkte pro Zeiteinheit bei der Digitalisierung von Signalen, meist angegeben in Hz. Amplitude Auslenkung einer Schwingung. Analogsignal Signal, dessen Amplitude jeden beliebigen Wert zwischen dem Minimum und Maximum annehmen kann. Annotation Beschreibung des Signalinhalts, ¨ ublicherweise in einer kategorialen symbolischen Notation, z. B. Phonem-Alphabet f¨ ur eine gesprochene ¨ Außerung. Annotationsgraph Von Bird und Liberman [BL01] vorgeschlagenes allgemeines Datenmodell f¨ ur die Annotation von Sprachaufnahmen und Videodaten. Artikulation Produktion von Lauten beim Sprechen oder Singen. Audiocodec Hard- oder Software zum Kodieren und Dekodieren von digitalen Audiodaten. ¨ Ublicherweise werden Audiocodecs bei der verlustbehafteten Kompression verwendet. Audiodateiformat(e) Dateiformat zur Speicherung von Audiosignalen, meist reine Bin¨ardateien oder gemischte Dateien mit Kopf (engl. header) f¨ ur die Signalparameter und Rumpf (engl. body) f¨ ur die eigentlichen Signaldaten. Aufnahmebuch Zusammenstellung von Prompts und dazugeh¨origen Unterlagen zur Durchf¨ uhrung von Sprachaufnahmen. Aufnahmeskript Maschinenlesbares und automatisch ausf¨ uhrbares Skript zur Steuerung von Sprachaufnahmen. Austauschformat Dateiformat f¨ ur den Austausch von Daten zwischen unterschiedlichen Anwendungsprogrammen, z. B. .slk f¨ ur Tabellenkalkulationsprogramme. Bildgebende Verfahren Messverfahren, die ein einzelnes Standbild, eine Bildfolge oder einen Film ergeben, z. B. R¨ontgen- oder MRI- Bilder, Laryngoskopie. Codec (von engl. Coder/ Decoder). Hard- oder Software zum Kodieren bzw. Dekodieren von Signaldaten, ¨ ublicherweise Audio oder Video. Glossar 257 Containerformat Dateiformat, das eine Vielzahl von Datenarten in unterschiedlicher Kodierung speichern und ¨ uber eine einheitliche Programmierschnittstelle zug¨anglich machen kann, z. B. .mp4, .mov, .wmv. D¨ampfung (engl. damping) Verringerung der Amplitude einer Schwingung mit der Zeit, ¨ ublicherweise hervorgerufen durch Reibung und fehlende Energiezufuhr. Dateiextension (engl. file extension, file name suﬃx) Bestandteil des Dateinamens, h¨aufig zur expliziten Kennzeichnung das Dateityps und -formats verwendet, z. B. .doc f¨ ur Microsoft Word-Dokumente, .pdf f¨ ur Dokumente im Portable Document Format. Datenrate Maßeinheit f¨ ur die ¨ Ubertragung digitaler Daten. Sie ist definiert als Datenumfang pro Zeiteinheit; bei Audiosignalen berechnet sie sich als Produkt aus der Abtastrate, der Quantifizierung sowie der Anzahl Audiokan¨ale, geteilt durch die Zeit in Sekunden. Digitale Recorder Portable Audioaufzeichnungsger¨ate mit eingebautem A/ D Wandler und digitalem Speichermedium, h¨aufig eine Speicherkarte oder, bei ¨alteren Ger¨aten, DAT. Digitalisierung Vorgang der Kodierung eines analogen Signals in ein digitales Signal. Dabei werden mit einer vorgegebenen Abtastrate Signalwerte gemessen und in diskrete Zahlenwerte umgewandelt. Diese sind in der Regel als Bin¨arzahl kodiert. Digitalsignal Signal, dessen Signalwerte durch diskrete Zahlenwerte, z. B. ganze Zahlen, wiedergegeben werden. Dokumenttyp-Definition (DTD) Formale Beschreibung von Klassen von XML-Dokumenttypen. Eine Weiterentwicklung von DTD ist XML-Schema, das selbst wieder in XML geschrieben ist. DV Digital Video. Digitaler Videostandard auf der Basis verlustbehafteter Einzelbildkompression und guter Eignung f¨ ur Videoschnitt. Kompakte Kassetten (miniDV) mit ¨ ublicherweise 60 bzw. 90 Minuten Spielzeit. Dynamik Unterschied zwischen dem schw¨achsten und st¨arksten Signal, meist ausgedr¨ uckt als Verh¨altnis und angegeben in dB (Dezibel). Editieren Manuelles Bearbeiten von Dateien, ¨ ublicherweise zur Eingabe oder zum ¨ Andern von Text oder zum Schneiden und Konvertieren von Signaldaten. Elektromagnetische Artikulographie (EMA) Ein Messverfahren der artikulatorischen Phonetik, bei dem auf die Artikulatoren geklebte Sensoren die r¨aumlichen Bewegungen dieser Artikulatoren beim Sprechen erfassen. 258 Glossar Elektropalatographie (EPG) Messverfahren der artikulatorischen Phonetik, bei dem ¨ uber einen k¨ unstlichen Gaumen der Kontakt der Zunge mit dem Gaumen beim Sprechen erfasst wird. Elision Weglassen unbetonter Laute in gesprochener Sprache, z. B. des [@] in deutschen Endsilben auf ‘-en’.. Energie Leistung mal Zeit. Die Energie einer Schwingung berechnet sich aus der Summe der Quadrate der Signalwerte ¨ uber der Zeit: ∑ s 2 ( t ). Feldaufnahme (engl. field recording) Sprachaufnahme außerhalb eines Aufnahmestudios, ¨ ublicherweise in der Umgebung, in der sich der Sprecher normalerweise befindet, z. B. B¨ uro, zuhause, im Auto usw. Filter (Tiefpass-, Hochpass-, Bandpassfilter) Ein Filter entfernt aus einem zusammengesetzten Signal die Anteile eines gegebenen Frequenzbereichs. Ein Tiefpassfilter l¨asst die Anteile unterhalb einer Eckfrequenz passieren und entfernt die dar¨ uberliegenden Anteile. Ein Hochpassfilter l¨asst die Anteile oberhalb der Eckfrequenz passieren und entfernt die darunterliegenden. Ein Bandpassfilter l¨asst die Anteile zwischen unterer und oberer Eckfrequenz passieren und entfernt alle anderen. Forum Web-basiertes System zur Verwaltung von thematisch organisierten Beitr¨agen. Frequenz (engl. frequency) Anzahl Schwingungen pro Zeiteinheit, ¨ ublicherweise angegeben in Schwingungen pro Sekunde mit der Einheit Hertz, Hz. Frequenzgang Abh¨angigkeit einer physikalischen Gr¨oße eines Signals von der Frequenz, z. B. Empfindlichkeit eines Mikrofons oder ¨ Ubertragungsbereich eines Lautsprechers. Frikativ (engl. fricative) Sprachlaut aus der Lautklasse der Konsonanten, bei dem die aus der Lunge ausstr¨omende Luft im Vokaltrakt an einer Engestelle verwirbelt wird und einen Zischlaut bildet, z. B. / s/ , / f/ , oder / S/ . Gesprochene Sprache Form der menschlichen Kommunikation, bei der sprachliche Inhalte akustisch ¨ ubermittelt und rezipiert werden. Glyphe Essentielle Form eines Schriftzeichens. Basis des Unicode Standards. GSM Global Systems for Mobile communication. Weltweiter Kommunikations-Standard f¨ ur das digitale Mobiltelefon. H¨asitation Non-verbale Interjektion in gesprochener Sprache, die ein Z¨ogern, ¨ Uberlegen oder Zustimmen ausdr¨ uckt oder floskelhaft verwendet wird, z. B. ‘¨ah’, ‘¨ahm’, ‘mhm’. Glossar 259 Hamming-Fenster Fenster einer vorgegebenen Breite M , das ¨ uber ein Signal bewegt wird. Die Signalwerte werden mit dem entsprechenden Wert des Fensters multipliziert. Die Signalwerte im mittleren Bereich des Fensters werden im Vergleich zu den Werten am Rand des Fensters deutlich st¨arker gewichtet. Die Formel f¨ ur das Hamming-Fenster lautet w ( n ) = 0 , 54 + 0 , 46 ∗ cos( 2πn M )) (mit n dem aktuellen Wert des Eingangssignals). . Harmonische Schwingung mit einer Frequenz, die ein ganzzahliges Vielfaches der Grundfrequenz betr¨agt. Hertz Maßeinheit f¨ ur die Frequenz von Schwingungen; gibt die Anzahl Perioden pro Sekunde an. H¨orschwelle niedrigster Schalldruck eines Sinustons, der vom menschlichen Geh¨or gerade noch wahrgenommen werden kann. Die H¨orschwelle ist frequenzabh¨angig; ihr niedrigster Wert liegt im Bereich zwischen 2 und 5 kHz. Hyperlink Begriffaus der Informatik. Ein Hyperlink verkn¨ upft verschiedene Textstellen im selben oder in unterschiedlichen Dokumenten durch Verweise. JPEG Joint Photography Expert Group. Gremium zur Standardisierung von digitalen Fotoformaten und Codecs. Klirrfaktor (engl. total harmonic distortion) Maß f¨ ur den Anteil an Verzerrungen in einem akustischen Signal. Kompression Verringerung des Umfangs von Daten. Bei verlustfreier Kompression wird redundante Information entfernt und die Originaldaten k¨onnen wiederhergestellt werden, bei verlustbehafteter Kompression wird irrelevante Information entfernt, und die Originaldaten k¨onnen nicht wiederhergestellt werden. Konsonant Sprachlaut, der durch eine Engestelle oder einen Verschluss im Vokaltrakt gebildet wird. Gem¨aß den Konventionen der IPA werden Konsonanten durch die Angabe der Art und Position der Engestelle und Stimmhaftigkeit klassifiziert, z. B. ist der Laut [b] ein stimmhafter bilabialer Plosiv. Laryngographie Messverfahren in der artikulatorischen Phonetik, bei dem die Bewegungen der Glottis ¨ uber zwei auf der Haut ¨ uber dem Kehlkopf angebrachte Elektroden gemessen werden. Laryngoskopie Messverfahren aus der artikulatorischen Phonetik, bei dem Standbilder oder Filme von der Glottis bei der Artikulation gemacht werden. Magnetresonanz-Aufnahmen Bildgebendes Verfahren, mit dem der Stoffwechsel im K¨orpergewebe beobachtet werden kann. Metadaten Daten, die Struktur und Umfang eines Datenbestands beschreiben. Im Kontext von Sprachdatenbanken sind dies Angaben 260 Glossar ¨ uber die Aufnahmen, die Sprecher, die Annotation und Dokumentation des Korpus. Mikrofon Ger¨at zur Umwandlung von Schall in elektrische Signale. Mikrofone klassifiziert man nach Wirkungsprinzip, Richtcharakteristik und Bauart. Mikrofonarray Ein- oder zweidimensionale Anordnung mehrerer Mikrofone zur Lokalisierung von Schallquellen. MIME-Type (engl. Multi-purpose Internet Mail Extensions) Standardisierte Kennzeichnung von Dateiinhalten und -formaten, vor allem f¨ ur den Datentransfer im Internet. Mixed-Media Dokumente Dokument- und Dateiformat, das Inhalte unterschiedlicher Medientypen, z. B. Text und Audio, enth¨alt. MP3 Verlustbehaftete Kodierung von Audioinhalten. Mit MP3 lassen sich vor allem Musikdaten ohne f¨ ur Laien h¨orbaren Qualit¨atsverlust auf ca. 1 / 10 ihrer urspr¨ unglichen Gr¨oße komprimieren. MPEG Moving Pictures Expert Group. Gremium zur Standardisierung von digitalen Video- und Multimedia-Formaten und Codecs. Nasal Sprachlaut, bei dem w¨ahrend der Artikulation Luft durch den Nasenraum str¨omt und diesen zu Schwingungen anregt, z. B. / n/ oder / m/ . Neurolinguistik Teilgebiet der Linguistik, das sich mit den neuronalen und kognitiven Grundlagen von Sprache und Sprechen besch¨aftigt. Oszillogramm Signaldarstellung, bei der ein Signal als Schwingung um die Nullachse dargestellt wird, z. B. die Schalldruckpegel¨anderung beim Sprechen. Periode Vollst¨andiger Durchlauf einer Schwingung. Pers¨onlichkeitsrechte Rechte einer Person an ihren eigenen Daten. Im Kontext von Sprachdatenbanken werden die Rechte einer Person an den Aufnahme- und sonstigen Daten in einer Vereinbarung zwischen Sprecher und Eigent¨ umer der Sprachdatenbank geregelt. ¨ Ublich ist eine ¨ Uberlassung der Daten zu wissenschaftlichen, Forschungs- und Entwicklungssowie kommerziellen Zwecken, fast ausschließlich in anonymisierter Form. Phonem Bedeutungsunterscheidender Sprachlaut. Phonemische Etikettierung Form der Transkription, bei der die Laute einer ¨ Außerung gem¨aß den phonologischen Regeln einer Sprache mit den Symbolen des dazugeh¨origen Phonem-Inventars wiedergegeben werden. Phonologie Lehre vom Lautsystem einer Sprache. Phonetik (Artikulation) Teilgebiet der Phonetik, das sich mit der Produktion von Sprachlauten besch¨aftigt. Glossar 261 Phonetik (Akustik) Teilgebiet der Phonetik, das sich mit der ¨ Ubertragung von Sprachlauten besch¨aftigt. Phonetik (Perzeption) Teilgebiet der Phonetik, das sich mit der Wahrnehmung und Verarbeitung gesprochener Sprache besch¨aftigt. Phonetische Segmentierung Form der Transkription, bei der ein Sprachsignal in Segmente mit Anfangs- und Endgrenzen unterteilt und mit Symbolen eines geeigneten Inventars, z. B. dem Phon- Inventar der IPA, etikettiert werden. Plosiv Klasse von konsonantischen Lauten, die durch pl¨otzliches L¨osen eines Verschlusses und ausstr¨omende Luft im Vokaltrakt produziert werden, z. B. / p/ , / b/ durch ¨ Offnen der Lippen. Praat von ndl. praaten, ‘sprechen’. Weitverbreitete freie Software zur Segmentierung von Sprachdaten und Signalanalyse, geschrieben von P. Boersma und D. Weenink. Prim¨ardaten Direkt erhobene Sprach- oder Signaldaten. Sie sind, sobald sie einmal aufgenommen wurden, unver¨anderlich und werden zur weiteren Bearbeitung annotiert. Quantisierung Die Zerlegung eines kontinuierlichen Wertebereichs in diskrete Werte. Meist in Bit angegeben, wobei Vielfache von 8 Bit ¨ ublich sind. Eine Quantisierung von 8 Bit entspricht 2 8 = 256, eine von 16 Bit 2 16 = 65 . 568 Werten. Randomisieren Zuf¨allige Auswahl oder Anordnung von Elementen. Im Kontext von Sprachdatenbanken verwendet man eine derartige randomisierte Pr¨asentation von Stimuli, um Reihenfolge-Effekte wie z. B. ein Vorhersagen der Ziffer ‘3’ nach der Folge ‘1 2’ zu vermeiden. Regionale Variet¨aten In einer geographisch begrenzten Region gesprochene Sprache, die zu einer Standardsprache geh¨ort, sich aber von anderen regionalen Variet¨aten in lautlicher, lexikalischer, prosodischer oder anderer Hinsicht unterscheidet. Richtcharakteristik Eigenschaft eines Mikrofons, Schall richtungsabh¨angig aufzunehmen. Man unterscheidet im Wesentlichen Kugel-, Acht- und Nierencharakteristik. R¨ontgenstrahlen Energiereiche elektromagnetische Wellen, die Materie und Gewebe durchdringen k¨onnen. R¨ontgenbilder geben die unterschiedliche Absorption der R¨ontgenstrahlung im K¨orper als Bild wieder. R¨ontgenstrahlen sind extrem gesundheitssch¨adlich. SAMPA Standards, Assessment and Methods Phonemic Alphabet, ein Vorschlag zur Kodierung der Phonem-Inventare verschiedener Sprachen in der 7 Bit Zeichentabelle US-ASCII. Fast alle in dieser Zeichentabelle enthaltenen Zeichen sind auf allen Computertastaturen einfach einzugeben. www.phon.ucl.ac.uk/ sampa/ . 262 Glossar Schall Luftdruckschwankungen mit einer Frequenz zwischen ca. 20 Hz und 20 kHz, die vom menschlichen Ohr wahrgenommen werden. Schalldruckpegel Auf einen Referenzpegel p 0 von 2 ∗ 10 −5 Pa bezogener Schalldruck p in Dezibel dB. Schmerzgrenze Schalldruckpegel, ab dem ein Schall Schmerzen verursacht und zu Verletzungen des Geh¨ors f¨ uhren kann. Schwingung Zeitliche Ver¨anderung einer physikalischen Gr¨oße, wobei der Wert der Gr¨oße im Wechsel zu- und abnimmt. Segmentierung (Top-down-, Bottom-up-) Eine Segmentation ist eine zeitalinierte Transkription von Sprachsignalen. Bei der Segmentation wird das Sprachsignal in Segmente unterteilt, die eine Anfangs- und Endgrenze haben und ein Label tragen. Sekund¨ardaten Symbolische Daten, die den Inhalt von Prim¨ardaten beschreiben. Im Kontext von Sprachdatenbanken sind Sekund¨ardaten die Annotationen, d. h. durch Transkription und Segmentierung erstellte Textdaten. Sensordaten Messdaten, die von Sensoren gemessen werden und in der Regel vom Menschen nicht direkt wahrgenommen werden k¨onnen, z. B. Infrarotlicht, Ultraschall u.¨a. Signal Ver¨anderliche physikalische Gr¨oße. Im Kontext gesprochener Sprache sind Signaldaten vor allem die durch die Artikulation von Lauten hervorgerufenen Schwankungen des Schalldruckpegels, aber auch Bewegungen der Artikulationsorgane oder Luftstr¨ome. Signalphonetisches Band (engl. speech chain) Darstellung der Prozesse bei der menschlichen Verarbeitung gesprochenener Sprache. Signal¨ uberlagerung Addition mehrerer Signale, ¨ ublicherweise die ¨ Uberlagerung eines Nutzsignals durch ein St¨orsignal. Skript Kleines Computerprogramm, das einen Verarbeitungsschritt automatisiert, z. B. die Konversion eines Annotationstextes in ein anderes Annotationsformat. Sonagramm (engl. sonagram) Darstellung eines Sprachsignals als zeitliche Abfolge von Spektren. Die y-Achse stellt die Frequenz dar, die x-Achse die Zeit. Der Anteil einer Frequenz am Gesamtsignal ist farblich kodiert. Das Sonagramm erlaubt eine erste visuelle Klassifikation von Lauten. S/ PDIF Von Sony und Philips entwickeltes Kommunikationsprotokoll zur digitalen Verbindung von Audioger¨aten. SpeechRecorder Frei erh¨altliche und Plattform-unabh¨angige Software f¨ ur die Durchf¨ uhrung von skriptgesteuerten Sprachaufnahmen. Speichermedien (engl. storage medium) Ger¨at zur dauerhaften Speicherung digitaler Daten, z. B. Festplatte, CD, DVD oder Blu-Ray Disks, Speicherkarten und USB-Sticks. Glossar 263 Spektrum (engl. spectrum) Signaldarstellung im Frequenzbereich, bei der der Anteil der einzelnen Frequenzen an einem zusammengesetzten Signal dargestellt wird. Sprachdatenbank auch Sprachkorpus. Strukturierter Bestand an Signaldaten gesprochener Sprache (Prim¨ardaten), Annotationen (Sekund¨ardaten) und Metadaten (Terti¨ardaten) in maschinenlesbarer Form. Spracherkennung (engl. speech recognition) Verfahren, bei dem gesprochene Sprache analysiert und in eine symbolische Repr¨asentation konvertiert wird. Solche Repr¨asentationen sind z. B. Wortlaut und Formatieranweisungen in Diktiersystemen, Datenbankabfragen oder Dateneingabe in Dialogsystemen, oder Steuerungsbefehle f¨ ur Ger¨ate und Maschinen. Sprachsignal Audiosignal mit gesprochener Sprache, im Kontext von Sprachdatenbanken stets verstanden als digitales und m¨oglichst nicht verlustbehaftet komprimiertes Sprachsignal. Sprachsynthese (engl. speech synthesis) Verfahren, bei dem aus einer symbolischen Repr¨asentation gesprochene Sprache generiert wird. Bei Text-to-Speech Systemen ist die symbolische Repr¨asentation der Wortlaut einer ¨ Außerung, bei Concept-to-Speech ein allgemeines Konzept, z. B. Begr¨ ußung. Sprachverarbeitung Maschinelle, in der Regel computergest¨ utzte Verarbeitung gesprochener Sprache. Sprecherdatenbank oder Versuchspersonen-Datenbank, strukturierte Sammlung von Kontaktadressen und demographischen Merkmalen von Versuchspersonen f¨ ur Sprachaufnahmen, Experimente usw. Um den Datenschutz zu wahren, m¨ ussen Adresse und demographische Merkmale getrennt sein und nur von jeweils autorisierten Personen genutzt werden k¨onnen. Stimulus Text, Grafik, Audio oder Video, das dazu benutzt wird, den Sprecher anzuregen, etwas zu sprechen. Strukturierung (implizit, explizit) Aufbau bzw. Format von Textdateien. Bei impliziter Strukturierung ist die Struktur durch das Layout festgelegt, z. B. Anordnung in Zeilen und Spalten, bei expliziter Strukturierung durch Marker und damit unabh¨angig vom Layout. Studioaufnahme Audioaufnahme in speziell ausgestatteten R¨aumen mit bekannten akustischen Eigenschaften (meist sind dies reflexionsarme R¨aume oder Studiokabinen) und fest installierter Audiotechnik. Terti¨ardaten auch Metadaten, Beschreibung der Struktur von Prim¨ar- und Sekund¨ardaten. 264 Glossar Textdatenformat(e) Dateiformate zur Speicherung von Textdaten. Transkription Annotation von Sprachsignalen zur Wiedergabe des Wortlauts bzw. der Lautung einer ¨ Außerung. ¨ Ublich sind eine orthographische Transkription, sowie phonemische und phonetische Transkriptionen. Transliteration Orthographische Transkription gesprochener ¨ Außerungen. Eine Transliteration enth¨alt in der Regel ¨ uber den Wortlaut der ¨ Außerung hinaus Marker f¨ ur non-verbale oder nicht-sprachliche Ph¨anomene wie Lachen, externe Ger¨ausche usw. Token Exemplar einer Wortform, eines Types im Text. Ein Token kann in einem Text mehrfach vorkommen. TOSLink Optische Verbindung zwischen Audioger¨aten wie CD-Spieler und Stereoanlage. Als Stecker werden der von Toshiba entwickelte TOSLink Stecker oder optische 3,5 mm Klinkenstecker verwendet. Tupel (engl. tuple) Begriffaus der Mathematik. Ein Tupel ist ein Klammerausdruck mit einer bestimmten Anzahl Argumente, z. B. ( a, b ), die in einer besonderen Beziehung zueinander stehen. Zur expliziten Angabe der Anzahl Argumente schreibt man auch h¨aufig n − Tupel, z. B. ein 3-Tupel ( a, b, c ). Type Wortform in einem Text. Ein Type kommt in einem Text genau einmal vor. ¨ Ubertragungsbereich Frequenzbereich eines Audiosignals, innerhalb dessen ein Wandler oder Codec ein Audiosignal erfassen kann, z. B. 18-30.000 Hz f¨ ur ein Mikrofon. Ultraschall (engl. ultrasound) Schall mit einer Frequenz ¨ uber 20 kHz und damit ¨ uber der H¨orgrenze des Menschen. Flederm¨ause verwenden Ultraschall zur Orientierung, Hunde k¨onnen mit Ultraschallpfeifen gerufen werden. Da Ultraschall Gewebe und Material durchdringen kann, wird er in der Sonographie auch f¨ ur diagnostische Zwecke eingesetzt. Unicode Standard zur computerbasierten Darstellung aller Schriftzeichen der Welt, einschließlich des phonetischen Alphabets der IPA. Unicode ist prinzipiell unbeschr¨ankt und wird sukzessive um neue Zeichen erweitert. Zur Verarbeitung von Unicode-Zeichen wurden verschiedene Kodierverfahren entwickelt, z. B. UTF-8, UTF-16 und andere. Verst¨arkung (engl. amplification) Vergr¨oßerung der Amplitude einer Schwingung mit der Zeit, meist hervorgerufen durch erh¨ohte Energiezufuhr oder reduzierte Reibung. Glossar 265 Video-Camcorder Kunstwort aus engl. camera und recorder zur Bezeichnung einer Videokamera mit eigenem Speichermedium f¨ ur digitales Video. Videocodec Software oder Hardware zum Kodieren und Dekodieren von Videosignalen. Ein Codec implementiert ein Kodierverfahren und erzeugt eine Datei oder einen Datenstrom in einem vorgegebenen Format. Videoformat(e) Oberbegrifff¨ ur digitales Video, umfasst sowohl die Aufnahmeparameter wie Bildgr¨oße und -rate, den Datenstrom als auch die Dateien, in denen der Datenstrom gespeichert wird. Vier-Augen-Prinzip Pr¨ ufung eines Dokuments oder eines Sachverhalts durch mindestens zwei Personen unabh¨angig voneinander. VoIP (engl. Voice over Internet Protocol) Telefonieverfahren, bei dem Telefongespr¨ache als Datenpakete ¨ uber das Internet-Protokoll ¨ ubertragen werden. Vokal (engl. vowel) Sprachlaut, bei dem aus der Lunge ausstr¨omende Luft den Vokaltrakt im Wesentlichen ungehindert passieren kann. Gem¨aß den Konventionen der IPA werden Vokale durch Angabe der Zungenposition und -lage und die Lippenrundung bzw. Nicht- Rundung klassifiziert, z. B. wird der Vokal [i] mit hoher vorderer Zunge und ungerundeten Lippen gebildet. WAVE Weitverbreitetes Audiodateiformat von Microsoft mit der Dateiextension .wav. Das Format erlaubt eine Vielzahl von Sampleraten, Quantisierungen und Kodierungen. Wiki Web-basiertes System zur Verwaltung von im Wesentlichen unstrukturierter Information. Wiki-Nutzer k¨onnen einen gemeinsamen Kalender nutzen, Daten hoch- und herunterladen, Texte editieren und Nachrichten austauschen. ¨ Anderungen an den Seiten sind sofort f¨ ur alle Nutzer sichtbar. XML eXtensible Markup Language, ein Standard des WWW-Konsortiums zur Plattform-unabh¨angigen Auszeichnung von strukturierten Dokumenten. X-SAMPA Erweiterung von SAMPA auf das gesamte phonetische Alphabet der IPA einschließlich der Diakritika. X-SAMPA erlaubt eine mnemotechnisch g¨ unstige Eingabe von Lautsymbolen auf allen Computertastaturen und kann automatisch in die entsprechenden IPA-Zeichen konvertiert werden. XSLT XML Stylesheet Transformation Language, ein Standard f¨ ur die Transformation von XML-Dokumenten in andere Formate. Zeitalinierung (engl. time alignment) Eine Transkription ist zeitaliniert, wenn sie einem Signal- oder Signalfragment ¨ uber eine Zeitangabe zugeordnet werden kann. 266 Glossar Zuordnung (analytisch, empirisch) Prozess der Abbildung von Signaldaten auf Symbole eines kategorialen Systems. Bei der analytischen Zuordnung kann diese Abbildung berechnet werden, bei der empirischen erfolgt sie aufgrund statistischer Auswertungen. Abk¨ urzungsverzeichnis AAC Advanced Audio Codec ALD-II Atlante linguistico del ladino dolomitico II ALE Alemannisch ASCII American Standard Code for Information Interchange ASF Advanced Systems Format ATRAC Adaptive Transform Acoustic Coding AVI Audio Visual Interleave BAI Bairisch BAS Bayerisches Archiv f¨ ur Sprachsignale BER Byte Error Rate BPF BAS Partitur File CCD Charge-coupled Device CD Compact Disk CD-ROM Compact Disk - Read Only Memory DBMS Database Management System DIN Deutsch Industrie Norm DTD Dokument Type Definition DV Digital Video DVD Digital Versatile Disk EEG Elektroenzephalogramm ELRA European Language Resources Association EMA Elektromagnetische Artikulographie EPG Elektropalatographie GAT Gespr¨achsanalytische Transkription GSM Global System for Mobile Communication HDTV High-Definition Television HTK Hidden Markov Toolkit HTML Hypertext Markup Language IMDI Isle Metadata Initiative IPA International Phonetic Association ISDN Integrated Services Digital Network ISO International Standardization Organisation JDBC Java Database Connectivity KB Kilobyte 268 Abk¨ urzungsverzeichnis LDC Linguistic Data Consortium LPC Linear Predictive Coding LZW Lev-Zempel-Welch MAUS Munich Automatic Segmentation MB Megabyte MIME Multipurpose Internet Mail Extensions MP3 MPEG Audio Layer 3 MPEG Moving Pictures Expert Group MRI Magnet Resonance Imaging MRT Magnetresonanz-Tomograph MTBF Mean Time Between Failure MTTF Mean Time To Failure MVP M¨ unchner Verst¨andlichkeitsprofil NIST Nation Institute of Standards and Technology NTSC National Television Systems Committee OFR Ostfr¨ankisch OMD Ost-Mitteldeutsch OND Ost-Niederdeutsch OQL Object Query Language PAL Phase ALternating Line PDF Portable Document Format POS Part of Speech RLE Run Length Encoding RMS Root Mean Square RVG Regional Variants of German SAMPA Standards Assessment and Methods Phonetic Alphabet SIL Summer Institute of Linguistics SMS Short Message System SQL Structured Query Language TIMIT Texas Instruments MIT Database UML Unified Modeling Language UMTS Universal Mobile Telecommunications System USB Universal Serial Bus UTF Unicode Transformation Format VOIP Voice Over Internet Protocol W3C World-Wide Web Consortium WMD West-Mitteldeutsch WND West-Niederdeutsch WOZ Wizard of Oz X-SAMPA Extended SAMPA XML Extensible Markup Language Literatur [ABB + 00] A. Arnal, P. Badin, G. Brock, P.-Y. Connan, E. Florig, N. Perez, P. Perrier, P. Simon, R. Sock, L. Varin, B. Vaxelaire, and J.-P. Zeiliger. Une base de donn´ees cin´eradiographiques du fran¸ cais. In Proc. of XXIII`emes Journ´ees d’Etude sur la Parole, Aussois, 2000. [Ash94] R. Asher, editor. The Encyclopedia of Language and Linguistics, volume 6. Pergamon Press, 1st Edition, 1994. [BA93] M.E. Beckman and G.M. Ayers. Guidelines for ToBI Labelling. Technical report, Linguistics Laboratory, Ohio State University, http: / / ling.ohiostate.edu/ Phonetics/ E ToBI/ etobi homepage.html, 1993. [Bey] Beyerdynamic. Opus 54 Kondensatormikrofon Datenblatt. Technical report, Beyerdynamic. [BGB01] S. Baumann, M. Grice, and R. Benzm¨ uller. GToBI a phonological system for the transcription of German intonation. In Proc. of Prosody 2000. Speech Recognition and Synthesis, Poznan, 2001. [BGBN87] T. Baer, J. Gore, S. Boyce, and P. Nye. Application of MRI to the analysis of speech production. Magnetic Resonance Imaging, 5: 1-7, 1987. [BL01] St. Bird and M. Liberman. A Formal Framework for Linguistic Annotation. Speech Communication, 33(1,2): 23- 60, 2001. [BM00] P. V. Biron and A. Malhotra. XML Schema Part 2: Datatypes. Technical report, http: / / www.w3.org/ TR/ 2000/ WD-xmlschema-2- 20000407/ , 2000. [BPSM98] T. Bray, J. Paoli, and C.M. Sperberg-McQueen. Extensible Markup Language (XML) 1.0. Technical report, W3C Recommendation, http: / / www.w3.org/ TR/ 1998/ RECxml-19980210, 1998. [BRJ98] G. Booch, J. Rumbaugh, and H. Jacobson. The Unified Modeling Language. Addison Wesley, Reading, MA, 1998. [BS98a] St. Barbour and P. Stevenson. Variation im Deutschen - Soziolinguistische Perspektiven. de Gruyter, 1998. [BS98b] S. Burger and F. Schiel. RVG 1 - A Database for Regional Variants of Contemporary German. In Proc. LREC, pages 1083-1087, Granada, 1998. 270 Literatur [CEE + 04] K. Carstensen, Chr. Ebert, C. Endriss, S. Jekat, R. Klabunde, and H. Langer. Computerlinguistik und Sprachtechnologie. Spektrum Akademischer Verlag, 2004. [Che76] P. S. Chen. The Entity-Relationship Model - Toward a Unified View of Data. Transactions on Database Systems, Vol. 1(No. 1), 1976. [CM01] J. Clark and M. Makoto. Relax NG Specification. Technical report, Organization for the Advancement of Structured Information Standards (OASIS), 2001. [CM02] N. Campbell and P. Mokhtari. DAT vs. MiniDisk is MD recording quality good enough for prosodic analysis. In Proc. of the Spring Meeting of the ASJ, 2002. [CMI02] J. Carletta, D. McKelvie, and A. Isard. Supporting Linguistic annotation using XML and stylesheets. Technical report, University of Edinburgh, 2002. [Col04] J. Coleman. Introducing Speech and Language Processing. Cambridge University Press, 2004. [CT00] D. Connolly and H. Thompson. XML schema. Technical report, W3C, http: / / www.w3c.org/ XML/ Schema, 2000. [DEF + 01] M. Davis, M. Everson, A. Freytag, J. Jenkins, and other members of the editorial committee. Unicode standard 3.1.0. Technical report, Unicode Consortium, 2001. [Deu04] D. Deuster. Begleitende Unterlagen zum Praktikum f¨ ur Mediziner. Technical report, Klinik und Poliklinik f¨ ur Phoniatrie und P¨adaudiologie, Universit¨atsklinikum M¨ unster, 2004. [DJ06] Chr. Draxler and K. J¨ansch. Speech recordings in public schools in Germany the perfect show case for web-based recordings and annotation. In Proc. of LREC, Genova, 2006. [DMS00] D. Demolin, T. Metens, and A. Soquet. Real time MRI and articulatory coordinations in vowels speech production. In Proc. of Speech Production Seminar, pages 86-93, 2000. [Dra99a] Chr. Draxler. Specification of database interchange format. Technical report, SpeechDat-Car Report LE4-8334, 1999. [Dra99b] Chr. Draxler. WWWSigTranscribe - a Java Extension of the WWWTranscribe Toolbox. In MATISSE Workshop, London, 1999. Literatur 271 [Dra05] Chr. Draxler. Webtranscribe - an extensible web-based speech annotation framework. In Proc. of TSD 2005, Karlsbad, Czech Republic, 2005. [DS02] Chr. Draxler and F. Schiel. Three New Corpora at the Bavarian Archive for Speech Signals and a First Step Towards Distributed Web-Based Recording. In Proc. of LREC, 2002. [EN99] R. Elmasri and S. Navathe. Fundamentals of Database Systems. Benjamin Cummings, Redwood City, 3rd Edition, 1999. [Esl90] J. Esling. Computer Coding of the IPA: Supplementary Report. Journal of the International Phonetic Association, 20(1), 1990. [Eul06] St. Euler. Grundkurs Spracherkennung. Vieweg, Wiesbaden, 2006. [Fan60] G. Fant. Acoustic Theory of Speech Production. Mouton & Co., Den Haag, 1960. [FG96] M. Falcone and A. Gallo. The SIVA speech database for speaker verification: Description and evaluation. 1996. [FLA03] FLAC. Free lossless audio compression. Technical report, http: / / flac.sourceforge.net/ , 2003. [FS06] J. Fleischer and S. Schmid. Zurich German. Journal of the IPA, Vol. 36(No. 2): p. 243-253, December 2006. [GB00] D. Graffand S. Bird. Many uses, many annotations for large speech corpora: Switchboard and TDT as case studies. In Proc. of LREC 2000, pages p. 427-434, Athens, 2000. [GC01] F. Gibbon and L. Crampin. An electropalatographic investigation of middorsum palatal stops in an adult with repaired cleft palate. Cleft Palate Craniofacial Journal, (38): 96-105, 2001. [GHS + 04] H. Goebl, E. Haimerl, S. Sobota, I. Adami, H. B¨ohmer, D. Rando, B. R¨ uhrlinger, W. Strauss, and P. Videsott. ALD-II: 1. Arbeitsbericht/ 1a relazione di lavoro (1999- 2003). Ladinia, XXVIII: 115-199, 2004. [GLF + 86] John Garofolo, Lori Lamel, William Fisher, Jonathan Fiscus, David S. Pallett, and Nancy Dahlgren. The DAR- PA TIMIT Acoustic-Phonetic Continuous Speech Corpus CDROM. NIST, 1986. [GMW97] D. Gibbon, R. Moore, and R. Winski. Handbook of Standards and Resources for Spoken Language Systems. Mouton de Gruyter, Berlin, 1997. 272 Literatur [GRF94] J. Garofolo, T. Robinson, and J. Fiscus. The development of file formats for very large speech corpora: SPHERE and Shorten. In Proc. of ICASSP, pages 113-116, 1994. [HAH01] X. Huang, A. Acero, and H. Hon. Spoken Language Processing. Prentice-Hall, 2001. [Hai05] U. Haiber. Computerlinguistik und Sprachtechnologie, chapter Spracherkennung. Springer Verlag, 2. Auflage edition, 2005. [Hei98] S. Heid. Phonetische Variation. PhD thesis, Institut f¨ ur Phonetik und Sprachliche Kommunikation, LMU M¨ unchen, 1998. [Hes93] W. Hess. Digitale Filter. Teubner Studienb¨ ucher, 1993. [Heu97] A. Heuer. Objekt-Orientierte Datenbanken. Addison- Wesley, Bonn, 1997. [Hie94] J.L. Hieronymus. ASCII phonetic symbols for the world’s languages: Worldbet. Technical report, ATT Bell Laboratories, Murray Hill, NJ, 1994. [IPA99] IPA. Handbook of the IPA. Cambridge University Press, Cambridge, 1999. [JM00] D. Jurafsky and J. Martin. Speech and Language Processing. Prentice-Hall, 2000. [Kip99] A. Kipp. Automatische Segmentierung und Etikettierung von Spontansprache. PhD thesis, Institut f¨ ur Phonetik und Sprachliche Kommunikation, LMU M¨ unchen, M¨ unchen, 1999. [Koh95] K. J. Kohler. Einf¨ uhrung in die Phonetik des Deutschen. Erich Schmidt Verlag, 1977/ 1995. [Koh99] K. Kohler. Handbook of the IPA, chapter Illustration of the IPA: German, pages p. 86-89. Cambridge University Press, 1999. [K¨on98] W. K¨onig. dtv-Atlas Deutsche Sprache. Deutscher Taschenbuch Verlag, 12. Auflage, 1998. [KWS97] A. Kipp, B. Wesenick, and F. Schiel. Pronunciation modeling applied to automatic segmentation of spontaneous speech. In Proc. of Eurospeech, pages 1023-1026, Rhodes, 1997. [LC98] M. Liberman and Chr. Cieri. The Creation, Distribution and Use of Linguistic Data: the Case of the Linguistic Data Consortium. In Proc. of LREC 1998, pages p. 159- 164, Granada, 1998. [LCDS98] Børge Lindberg, Robrecht Comeyne, Christoph Draxler, and Francesco Senia. Speaker recruitment methods and Literatur 273 speaker coverage - experiences from a large multilingual speech database collection. In Proc. of ICSLP, Sydney, 1998. [Lee97] G. Leech. Corpus Annotation. Linguistic Information from Computer Text Corpora, chapter Introducing Corpus Annotation, pages 1-18. Longman, London/ New York, 1997. [L¨of03] H. L¨oﬄer. Dialektologie - Eine Einf¨ uhrung. Narr Francke Attempto Verlag, 2003. [LPN99] S. Lee, A. Potamianos, and S. Narayanan. Acoustics of children’s speech: Developmental changes of temporal and spectral parameters. Journal of the Acoustical Society of America, 105(3): 1455-1468, March 1999. [LZ06] L. Lemnitzer and H. Zinsmeister. Korpuslinguistik - eine Einf¨ uhrung. Narr Francke Attempto Verlag, T¨ ubingen, 2006. [Mac95] K. Machelett. Das Lesen von Sonagrammen. Technical report, Institut f¨ ur Phonetik und Sprachliche Kommunikation, M¨ unchen, 1995. [Mac01] B. MacWhinney. From CHILDES to TalkBank. Research on Child Language Acquisition, pages 17-34, 2001. [Mad84] I. Maddieson. Patterns of Sounds. Cambridge University Press, 1984. [M¨ob04] B. M¨obius. Sprachsynthesesysteme. pages 517-523, 2004. [MVBT95] K. Munhall, E. Vatikotis-Bateson, and Y. Tohkura. X-ray film database for speech research. Journal of the Acoustical Society of America, (98): 1222-1224, 1995. [NAH95] S. Narayanan, A. Alwan, and K. Haker. An articulatory study of fricative consonants using magnetic resonance imaging. Journal of the Acoustical Society of America, pages 1325-1347, 1995. [NNL + 04] S. Narayanan, K. Nayak, S. Lee, A. Sethy, and D. Byrd. An approach to real-time magnetic resonance imaging for speech production. Journal of the Acoustical Society of America, (115): 1771-1776, April 2004. [Och79] E. Ochs. Transcription as theory. In Developmental Pragmatics, pages 43-72. Academic Press, New York, San Francisco, London, 1979. [Oos00] N. Oostdijk. Meta-data in the spoken dutch corpus project. In Proc. of LREC, Athens, 2000. [Per69] J. Perkell. Physiology of Speech Production. MIT Press, 1969. 274 Literatur [PM95] B. Pompino-Marschall. Einf¨ uhrung in die Phonetik. Mouton de Gruyter, Berlin, 1995. [PN03] A. Patominos and S. Narayanan. Robust recognition of children’s speech. IEEE Transactions on Speech and Audio Processing, 11(6): 603-616, November 2003. [Ree03] H. Reetz. Artikulatorische und Akustische Phonetik. Wissenschaftlicher Verlag, Trier, 2003. [Rob94] T. Robinson. Shorten: Simple lossless and near-lossless waveform compression. Technical report, Cambridge University Engineering Department, 1994. [RRK + 07] B. Rues, B. Redecker, E. Koch, U. Wallraff, and A. Simpson. Phonetische Transkription des Deutschen. Narr Francke Attempto Verlag, T¨ ubingen, 2007. [SAB + 98] M. Selting, P. Auer, B. Baden, J. Bergmann, E. Couper- K¨ uhlen, S. G¨ unthner, Chr. Meier, U. Quasthoff, and P. Schlobinski. Gespr¨achsanalytisches Transkriptionssystem (GAT). Linguististische Berichte, (173): 91-122, 1998. [SBGW98] F. Schiel, S. Burger, A. Geumann, and K. Weilhammer. The partitur format at BAS. In Proc. of LREC 1998, Granada, 1998. [Sch97] F. Schiel. Probabilistic analysis of pronunciation with MAUS. The ELRA Newsletter, pages 6-9, 1997. [Sch99] F. Schiel. Automatic phonetic transcription of nonprompted speech. In Proc. of ICPhS, pages 607-610, San Francisco, 1999. [Sch04a] F. Schiel. MAUS goes iterative. In Proc. of LREC, pages 1015-1018, Lisbon, Portugal, 2004. [Sch04b] T. Schmidt. Computergest¨ utzte Transkription: Modellierung und Visualisierung gesprochener Sprache mit texttechnologischen Mitteln. Europ¨aischer Verlag der Wissenschaften Peter Lang GmbH, 2004. [Sch05] Schematron Committee. DSDL Document Schema Definition Language - Part 3: Rule-based validation - Schematron. Technical report, ISO International Standardization Organization, 2005. [Scr32] E. W. Scripture. Referate. Zeitschrift f¨ ur Experimental- Phonetik, 1((3/ 4)): 171-188, 1932. [SDB + 03] F. Schiel, Chr. Draxler, A. Baumann, T. Ellbogen, and A. Steffen. The Production of Speech Corpora. Institut f¨ ur Phonetik und Sprachliche Kommunikation, Universit¨at M¨ unchen, 2003. Literatur 275 [Sel01] M. Selting. Text- und Gespr¨achslinguistik. Ein internationales Handbuch zeitgen¨ossischer Forschung, chapter Probleme der Transkription verbalen und paraverbalen/ prosodischen Verhaltens. de Gruyter, 2001. [Sen97] F. Senia. Specification of speech database interchange format. Technical report, SpeechDat Report LE2-4001- SD1.3.1, 1997. [Sj¨o01] K. Sj¨olander. Automatic alignment of phonetic segments. Technical report, Centre for Speech Technology, Dept. of Speech, Music, and Hearing, KTH, 2001. [Sto04] M. Stone. A guide to analysing tongue motion from ultrasound images. Technical report, University of Maryland, 2004. [Str] St. Strassel. Data and Annotations for Socio Linguistics. Technical report, http: / / projects.ldc.upenn.edu/ DASL/ . [STS97] G. Saake, C. T¨ urker, and I. Schmitt. Objektdatenbanken. International Thomson Publishing Company, Bonn, 1997. [SW04] F. Sasaki and A. Witt. Texttechnologie - Perspektiven und Anwendungen, chapter Linguistische Korpora, pages 195-216. Stauffenburg Verlag, 2004. [TBMM99] H. S. Thompson, D. Beech, M. Maloney, and N. Mendelsohn. XML Schema Part 1: Structures. Technical report, W3C, http: / / www.w3.org/ TR/ 1999/ WDxmlschema-1-19991217/ , 1999. [Ter98] E. Terhardt. Akustische Kommunikation. Springer Verlag, 1998. [Til94] H. G. Tillmann. Phonetics, Early Modern, especially Instrumental and Experimental Work, volume 6. Pergamon Press, 1994. [vdH98] H. van den Heuvel. Annotation standards and validation criteria. Technical Report D1.3.1, SpeechDat-Car Report LE4-8334, 1998. [vdHBC + 00] H. van den Heuvel, L. Boves, K. Choukri, S. Goddijn, and E. Sanders. SLR Validation: Present State of Affairs and Prospects. In Proc. of LREC 2000, Athens, 2000. [VHH98] P. Vary, U. Heute, and W. Hess. Digitale Sprachsignalverarbeitung. B. G. Teubner Verlag, Stuttgart, 1998. [Wel89] J. Wells. Computer-coded phonemic notation of individual languages of the European Community. Journal of the International Phonetic Association, (19): 35-54, 1989. 276 Literatur [Wel95] J. Wells. Computer-coding the IPA: a proposed extension of SAMPA. Technical report, Dept. of Phonetics, University College, London, 1995. [Wel97] J. Wells. SAMPA computer readable phonetic alphabet. Handbook of Standards and Resources for Spoken Language Systems, 1997. [WSAG04] E. Weinstein, K. Steele, A. Agarwal, and J. Glass. LOUD: A 1020-node modular microphone array and beamformer for intelligent computing spaces. Technical Report MIT- LCS-TM-642, MIT Computer Science and Artificial Intelligence Laboratory, 2004. [WSC + 96] R. Winski, F. Senia, P. Conner, R. H¨ab-Umbach, A. Constantinescu, G. Niedermair, A. Moreno, and I. Trancoso. Specification of telephone speech data collection. Technical report, LRE-63314 SpeechDat(M) Report D1.4.1, 1996. [WTD94] J. Westbury, G. Turner, and J. Dembrovski. X-ray microbeam speech production database user’s handbook. Technical report, Waisman Center, Washington University, 1994. [Zeh89] C. A. Zehnder. Informationssysteme und Datenbanken. Teubner Studienb¨ ucher, Stuttgart, 1989. [ZH93] W. Ziegler and E. Hartmann. Das M¨ unchner Verst¨andlichkeitsprofil (MVP) - Untersuchungen zur Reliabilit¨at und Validit¨at. Nervenarzt, (64): 653-658, 1993. [ZHW92] W. Ziegler, E. Hartmann, and I. Wiesner. Dysarthriediagnostik mit dem M¨ unchner Verst¨andlichkeits-Profil (MVP) - Konstruktion des Verfahrens und Anwendungen. Nervenarzt, (63): 602-608, 1992. Index A/ D Wandler, 144, 147, 156 Abtastpunkt, 37, 189 Abtastrate, Samplerate, 37 Alphabet, 110 Amplitude, 27 Analysefenster Dreiecksfenster, 65 Hamming, 65 Hanning, 65 Kaiser, 65 Annotation, 174, 200, 230 automatisch, 176 hierarchisch, 178 manuell, 176 Morphologie, 180 netzwerkartig, 178 Part of Speech, POS, 180 phonemisch, 216 Pragmatik, 180 Prosodie, 180 Semantik, 180 Syntax, 180 Annotationsgraph, 189 Audio AAC, 97, 98 AC3, 98 ATRAC, 97 Codec, 95, 97 digital, 93 flac, 96-98 MP3, 97, 98 RealAudio, 97 Shorten, 96 Vorbis, 97, 98 Audio-Interface, 144 Audiodaten, 82 Audioformat, 93, 203 AIFF, 93 SND, 93 WAVE, 93 Audiokarte, 147 Aufnahmebuch, 98, 159, 209, 214 Aufnahmekoffer, 149, 228 Aufnahmeraum, 150, 205 Aufnahmeskript, 159, 197, 229 Beobachtungszeitraum, 29 Betriebssystem, 81, 147, 188, 215 Bildgebende Verfahren, 70, 74 Checkliste, 192, 211 Codec, 84, 91 Containerformat AVI, 84 MPEG-4, 84, 203 QuickTime, 84, 203 Windows Media Format, 203 D¨ampfung, 33 DAT, 98, 144 Datei Austauschformat, 84, 121 Bin¨ardatei, 81, 84 Containerformat, 84 Format, 83 Four Character Code, 86 gemischt, 81 hierarchisch, 82 Import, Export, 84 interleaving, 83 Magic Number, 86 Zugriff, 81 278 Index Dateiextension, 85 Dateiformat, 81, 84, 202 BPF, 110, 117 DTD, 120, 203 ISO 9660, 85 NIST Sphere, 93 PDF, 203 SWF, 114 Text, 116, 203 TextGrid, 118 XML, 203 Dateiname nummerisch, 202 semantisch, 202 Dateisystem, 81, 94, 144, 217 Datenbank Abfrage, 125, 174 Datendefinition, 124 Datenbanksystem, 122, 217 Datenformat, 202 Datenmodellierung, 122, 189 ER-Diagramm, 122 Datenrate, 40, 71, 87, 88, 95, 96, 100, 101, 147, 231 Datensatz, 110 Datenschutz, 198 Datensicherung, 205 rollierend, 206 Datenstrom, 82 Dezibel, dB, 31 Dialogsystem, 197 Digitale Recorder, 144 Digitalisierung, 37 Dokumenttypdefinition (DTD), 119, 203 Dynamik, 31 Echtzeitfaktor, 14 Editieren, 104 Einstrahlung, 213 Einverst¨andniserkl¨arung, 166, 208, 213, 227 Elektromagnet. Artikulographie, 72, 197, 214 Elektropalatographie, 72, 197 Elision, 182 Emu, 117, 118 Energie, 30 root mean square, 30 Evaluation, 156, 219 Experiment-Situation, 196 Feldaufnahme, 153 Filter, 34, 36 Bandpassfilter, 36, 96 Hochpassfilter, 36 ideale, 36 Tiefpassfilter, 36 flac, 231 Formanten, 47 Formantkarte, 49 Forum, 129, 210, 218, 220 Fourier-Transformation, 27 Frequenz, 29 Frequenzbereich, 34, 43 Gespr¨achsanalyse, 157 Gesprochene Sprache, 42 Glyphe, 114 Grenzfrequenz, 36 Grundfrequenz, 30, 69 H¨asitation, 181, 235 Harmonische, 30 Headset, 136 Hertz, Hz, 29 Hidden Markov Toolkit, 83 HTML, 110 Hyperlink, 113, 119 iconv, 118 Interview, 155 IPA Alphabet, 179, 181, 184 ISO-8859, 91, 114, 118 Java, 83, 229 Audiobibliothek, 232 Audiobibliothek, 83 JPEG, 101 Kabel, 140 FireWire, IEEE-1394, iLInk, 147 Koaxialkabel, 142 optische, 142 USB, 144, 147 Kategorisierung, 171 analytisch, 171 empirisch, 171-173 Klirrfaktor, 133 Kodierung, 115 Kommunikationsprotokoll S/ PDIF, 143 Kompression, 88 Bewegungskompensation, 101 Index 279 Differenzverfahren, 101 Einzelbildkompression, 101 gzip, 91, 98 Huffman-Kodierung, 89, 96 Kompressionsrate, 89 LZW (Liv-Zempel-Welch), 89 RLE (run length encoding), 89, 96 verlustbehaftet, 75, 91 verlustfrei, 88, 90, 231 Kopierschutz, 97 Laptop, 98 Laryngographie, 71 Laryngoskopie, 75, 214 Lexikon, 220 Lizenz, 203 Luftdruck, 42 Magnetresonanz-Aufnahmen, 76 MapTask, 154 Meilenstein, 194, 195, 219 Metadaten, 13 Mikrofon, 132, 200 ¨ Ubertragungsfunktion, 133 Ansteckmikrofon, 137, 155 dielektrisch, 133 Elektretmikrofon, 133 elektro-dynamisch, 133 Frequenzgang, 133 Lavalier-Mikrofon, 137 Mausmikrofon, 140, 157 Nahbesprechung, 136 Nahbesprechungsmikrofon, 157 piezoelektrisch, 132 Raummikrofon, 139 Reportagemikrofon, 138, 155 Richtcharakteristik, 134 Studiomikrofon, 138 Mikrofonarray, 135 MIME-Type, 86 Minidisk, 97 Mixed-Media Dokument, 113 Nachhallzeit, 150 Nahbesprechungsmikrofon, 155 Neurolinguistik, 21 Nyquist-Theorem, 37 OQL, 124 Oszillogramm, 42, 64, 183 Parser, 110 Periode, 26, 27 Periodizit¨at, 29 Pers¨onlichkeitsrechte, 165 Personenbogen, 166 Perzpetionsexperiment, 98, 169 Ph@ttSessionz, 117, 162 Phonem, 56, 69, 173, 180, 182 Phonetik Akustik, 44 Artikulation, 44, 45 Perzpetion, 45 Phonologie, 24 portable Rekorder, 98 Praat, 117, 130 TextGrid, 118 Prim¨ardaten, 13, 94 Programmbibliothek, 83 Projekt ALD-II, 164 DoBeS, 167 SmartKom, 163 SpeechDat, 160, 235, 237 Switchboard, 161 Talkbank, 167 Projekt: SpeechDat, 225 Prompt, 209 Qualit¨atskontrolle, 214, 225, 229, 230 Quantisierung, 38, 96 linear, nichtlinear, 39 PCM (pulse code modulation), 93 Quantisierungsfehler, 38 Quittung, 166 R¨ontgen, 78 Randomisieren, 158 Rechteverwaltung, 97 regionale Variet¨at, 117, 192, 223 Resampling, 38 SAMPA, 174, 180, 182 Schall, 42 Ger¨ausch, 42 Klang, 42 Knall, 42 Rauschen, 42 Ton, 42 Schalldruckpegel, 42 H¨orschwelle, 46 Schmerzgrenze, 46 Schwingung Analyse, 27 280 Index sinoidale, 40 Synthese, 27 zusammengesetzt, 27 Segment, 57, 177 Intervall, 177, 235 Label, 177, 183 Punkt, 177 Zeitmarke, 177 Segmentierung, 57, 117, 174, 216 Sekund¨ardaten, 13, 94 Sensordaten, 70, 82 Signal, 29, 44 ¨ Uberlagerung, 30, 34, 64, 235 Analogsignal, 29 Digitalsignal, 37 Einstrahlungen, 147, 157 quasi-periodisch, 29 quasi-station¨ar, 29, 35 Signal-Rausch-Abstand, 34 Signalqualit¨at, 20, 219 Signaldaten, 83 Signalphonetisches Band, 44 Sinusschwingung, 26 Skript, 83, 117, 206, 237 Sonagramm, 64, 183 Breitband-Sonagramm, 66 Fenster, 64 Schmalband-Sonagramm, 67 Sonographie, 75 Soundkarte, 147 SpeechRecorder, 226 Speichermedium, 82, 87, 220 Halbleiter, 87 magnetisch, 87 optisch, 87 Zuverl¨assigkeit, 87 Spektrum, 34, 42 Sprachaufnahme, 144 Feld, 200 interaktiv, 158 Internet, 161, 200, 213, 223 Interview, 163 nicht ¨ uberwacht, 225 Rechner, 149 serverbasiert, 158 Studio, 200 Telefon, 159, 200, 213 Wizard of Oz, 162 Sprachdatenbank, 12, 94 Annotation, 178 Sprachkorpus, 12 Spracherkennung, 19, 197, 223 Sprachlaut, 42, 44, 47 Approximant, 53 Eckvokal, 48 Frikativ, 53, 65, 69, 117 getippt, geschlagen, 53 Kardinalvokal, 49 Konsonant, 50, 64 Lateral, 53 Lateral-Approximant, 53 Nasal, 53, 69 Plosiv, 53, 69 Sonorant, 64 Vibrant, 53 Vokal, 48, 64, 69 Sprachsignal, 18, 25, 56, 57, 62, 64, 69, 93, 96, 138, 173, 176, 200, 238 Sprachsteuerung, 156 Sprachstil, 196 Sprachsynthese, 20, 182 Sprecher Aufnahmedaten, 168 biometrische Merkmale, 198 demographische Merkmale, 20, 168, 198, 225 Kontaktdaten, 168 Sprecherbeitrag, 184 Sprecherdatenbank, 168, 207 Sprecherrekrutierung, 207 Sprechgeschwindigkeit, 196 Sprechsituation, 195 SQL, 124 Stecker, 140 Cinch, 143 Klinkenstecker, 142, 147 TOSLink, 143 XLR, 143, 147 Stimulus, 158, 160, 200, 209, 219, 223 Studio reflexionsarmer Raum, 151 Syntax, 110 Syntax Highlighting, 110, 112 Tastatureingabe, 185 Sonderzeichen, 186 Umschrift, 185 Zeichenpalette, 185 Telefon, 96 G.711, 97 GSM, 96 ISDN, 96 Terti¨ardaten, 13, 94 Index 281 Textauszeichnung, 110 Marker, 19, 110 Tag, 110, 119 TIMIT Alphabet, 182 Token, 90, 217 Transkription, 19, 173, 174 Basistranskript, 184 Feintranskript, 184, 217 orthographisch, 181, 216, 224 phonemisch, 182 phonetisch, 68, 183 Rohtranskript, 217 Theorieabh¨angigkeit, 174 Tupel, 57, 86 Turn, 184 Type, 90, 217 Ultraschall, 75 Unicode, 114, 185, 188 UTF Kodierung, 115 UTF-16, 116 UTF-32, 116 UTF-8, 116, 117, 237 Validierungsbericht, 201 Ver¨anderung aperiodisch, 25 diskret, 25 kontinuierlich, 25 periodisch, 25 Verst¨arker, 143 Verst¨arkung, 33 Video Artefakte, 100 Camcorder, 155 Codec, 100, 146 Computer, 99 DV, 102 Einzelbild, 99 Farbtiefe, 99 Flash, 105, 114 Framerate, 99 Halbbild, 99 MPEG, 101, 103 oﬄine editing, 107 QuickTime, 104 Schnittliste, 107 Spezialkameras, 146 TV, 99 TV-Normen, 100 Videosplitter, 146 Vollbild, 99 Walkman, 146 Windows Media Framework, 104 Zeilensprungverfahren, 99 Videodaten, 82, 99 Vier-Augen-Prinzip, 209, 219 VoIP, 96 Vokabular, 197 Vokalviereck, 48 W¨orterbuch, 91 WebTranscribe, 235 weißes Rauschen, 98 Wiki, 128, 210-212, 218, 230 Wikipedia, 128 World Wide Web Consortium, 121 Wortliste, 217 X-SAMPA, 181 XML, 84, 110, 119, 190 Namensraum, 120 XLink, 121 XML-Schema, 120 XPath, 121 XPointer, 121 XQuery, 121 XSLT, 121 Zeichensatz, 187 Zeichentabelle, 114 Zeitalinierung, 177 Zeitbereich, 34 Zeitplan, 192, 195, 204, 211 Zugangsbeschr¨ankung, 168 Zugriffwahlfrei, random access, 87 Zugriffsbeschr¨ankung, 207 Zugriffssrecht, 201 Zuordnung, 56, 171