Kodikas/Code
kod
0171-0834
2941-0835
Narr Verlag Tübingen
Es handelt sich um einen Open-Access-Artikel, der unter den Bedingungen der Lizenz CC by 4.0 veröffentlicht wurde.http://creativecommons.org/licenses/by/4.0/121
2017
403-4
Zur chronologischen Syntagmatik von Bewegtbilddaten (IV): Graduelle Handlungen und autonome Segmente
121
2017
Karl-Heinrich Schmidt
Margit Becher
Eine alte Fragestellung der Filmsemiotik ist die Definition sogenannter autonomer Segmente. Dieses Problem ist schon in den Geburtsurkunden der Filmsemiotik bei Metz erkennbar und immer wieder angegangen worden. Im Folgenden werden Grundlagen für die Definition autonomer Einstellungen (insbesondere der sogenannten "Plansequenz") und autonomer Einstellungsmengen gelegt. Ausgangspunkt ist die Unterscheidung zwischen einer Syntagmatik auf Einstellungsebene (dem Kern der Metz'schen "Großen Syntagmatik") und der Behandlung autonomer Einstellungen und Einstellungsmengen in und neben dieser. Im Anschluss an die in dieser Zeitschrift erschienenen Artikel (Schmidt & Strauch 2002) und (Schmidt 2004), (Schmidt 2008) sowie (Bateman & Schmidt 2011/2014) wird in sich geschlossen ein Instrumentarium für die Analyse filmischer Repräsentationen von Handlungen entwickelt. Dieses wird abschließend spezialisiert auf graduelle Handlungen, die sich leicht auch auf mehrere Einstellungen verteilen lassen und diese für einen Beobachter ggf. "autonom" machen können. Wir verwenden Krifka's algebraische Semantik (aufbauend auf Krifka 1989), die ursprünglich für linguistische Fragestellungen entwickelt wurde, und eine einfache Mereologie sowohl für filmische Segmente als auch zur Beobachtermodellierung nach (Smith & Rosse 2004), (Smith 2005).
kod403-40239
K O D I K A S / C O D E Volume 40 (2017) · No. 3 - 4 Gunter Narr Verlag Tübingen Zur chronologischen Syntagmatik von Bewegtbilddaten (IV): Graduelle Handlungen und autonome Segmente Karl-Heinrich Schmidt & Margit Becher (Wuppertal) Eine alte Fragestellung der Filmsemiotik ist die Definition sogenannter autonomer Segmente. Dieses Problem ist schon in den Geburtsurkunden der Filmsemiotik bei Metz erkennbar und immer wieder angegangen worden. Im Folgenden werden Grundlagen für die Definition autonomer Einstellungen (insbesondere der sogenannten “ Plansequenz ” ) und autonomer Einstellungsmengen gelegt. Ausgangspunkt ist die Unterscheidung zwischen einer Syntagmatik auf Einstellungsebene (dem Kern der Metz ’ schen “ Großen Syntagmatik ” ) und der Behandlung autonomer Einstellungen und Einstellungsmengen in und neben dieser. Im Anschluss an die in dieser Zeitschrift erschienen Artikel (Schmidt & Strauch 2002) und (Schmidt 2004), (Schmidt 2008) sowie (Bateman & Schmidt 2011/ 2014) wird in sich geschlossen ein Instrumentarium für die Analyse filmischer Repräsentationen von Handlungen entwickelt. Dieses wird abschließend spezialisiert auf graduelle Handlungen, die sich leicht auch auf mehrere Einstellungen verteilen lassen und diese für einen Beobachter ggf. “ autonom ” machen können. Wir verwenden Krifka ’ s algebraische Semantik (aufbauend auf Krifka 1989), die ursprünglich für linguistische Fragestellungen entwickelt wurde, und eine einfache Mereologie sowohl für filmische Segmente als auch zur Beobachtermodellierung nach (Smith & Rosse 2004), (Smith 2005). “ Charly ” Möller-Naß für ein gutes 8. Jahrzehnt (und gute weitere Jahrzehnte) 1 Gliederung Nach der folgenden Einleitung (Abschnitt 2) werden im Abschnitt 3 Handlungen und Einstellungen grundsätzlich Möglichkeiten, Handlungen auf Einstellungen zu beziehen, skizziert. Im dann folgenden Abschnitt 4 Segmente in Film und Video werden einfache Modellierungskategorien für filmische Segmente auf Basis der Terminologie von MPEG-7 eingeführt. Darauf aufbauend wird im Abschnitt 5 Von Segmenten zu Konzepten der Bezug von Konzepten auf Segmente auf eine mereologische Axiomatik aufgesetzt. Im Abschnitt 6 Thematische Relationen und ihre Verankerung im Filmbild werden dann unterschiedliche Verankerungen von beobachterseits konzeptionalisierten Ereignissen in filmischen Segmenten durch segment-thematische Relationen behandelt und an Beispielen illustriert. Wichtige Eigenschaften dieser Relationen werden dann in den Abschnitten 7 Objekt- Eindeutigkeit segment-thematischer Relationen und 8 Relationierung von Subobjekten und Subereignissen definiert, um graduelle Vorgänge auszuzeichnen. Mit den bereitgestellten Mitteln werden dann im Abschnitt 9 Activities, Accomplishments und Achievements die in dieser Überschrift genannten Handlungstypen differenziert. Mit dem bereitgestellten Theoriegerüst wird im Abschnitt 10 Die autonome szenische Einstellung die Metz ’ sche Rede von “ Plansequenz ” bzw. “ Sequenz-Einstellung ” präzisiert. Danach werden im Abschnitt 11 Graduelle Handlungen und (autonome) Segmente die Randbedingungen für die filmische Realisation der graduellen Handlungstypen “ Activity ” und “ Accomplishment ” angegeben, die filmisch leicht auf mehrere Einstellungen verteilt werden können. Im Abschnitt 12 Zur filmischen Repräsentation von Aktivitäten und im Abschnitt 13 Zur filmischen Repräsentation von Accomplishments folgen Einzelanalysen filmischer Layouts für (ggf. “ autonome ” ) Einstellungen und Einstellungsmengen auf Basis des Erreichten. Im Abschnitt 14 P. S.: Telizität und Diegetizität - Denotation und Exemplifikation wird schließlich gezeigt, dass der bereitgestellte Apparat es auch erlaubt, das Entstehen einer exemplifikatorischen Lesart für eine Einstellungsmenge tatsächlich zu modellieren. Den Schluss bildet der Abschnitt 15 Ausblick und Dank. 2 Einleitung Wenn man verstehen möchte, wie ein Film funktioniert, muss man eine wichtige Frage beantworten: Kann ein Zuschauer den an ihm vorbeirauschenden Bilderstrom in “ sinnvolle ” Teile zerlegen? Für diese Frage veröffentlichte seit Mitte der 1960er Jahre Christian Metz Untersuchungen, 1 in denen er besonders zwei Fragestellungen behandelte: 1. Fragen der Abgrenzung sogenannter autonomer Einstellungen; 2. Fragen der Zusammenfassung von Einstellungen zu autonomen “ syntagmatischen ” Formen. Metz versuchte, autonome Segmente zu identifizieren, von denen er einige als syntagmatisch klassifizierte und dafür sogenannte chronologische und a-chronologische Syntagmen bereitstellte. 2 In einem seit vielen Jahren durchgeführten Reklassifikationsunternehmen ist der chronologische Teil der Metz ’ schen Syntagmatik weitgehend reorganisiert worden. Dies geschah für die sogenannten narrativen Syntagmen in den in dieser Zeitschrift erschienenen Artikeln in (Schmidt & Strauch 2002), (Schmidt 2004) und für das deskriptive Syntagma in (Schmidt 2008). Eine Analyse eines größeren Films mit diesen Mitteln findet sich in (Bateman & Schmidt 2011/ 2014). - Der a-chronologische Teil harrt 1 Z. B. (Metz 1964), (Metz 1965), (Metz 1966) und (Metz 1972). 2 Zur Übersicht eine graphische Repräsentation der Metz ’ schen Syntagmatik (nachgezeichnet nach (Metz 1972: 198)): 240 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) unabhängig von diesen Arbeiten noch einer theoretischen Durchdringung, die eine eigene Untersuchung erfordert. 3 Zur Identifkation “ autonomer ” Segmente schreibt Metz: The analyst of classical film is . . . entitled to consider as one (single) autonomous segment any passage of the film which is interrupted neither by a major change in the plot, nor by a punctuation sign, nor by the substitution of one syntagmatic type for another (zit. nach Colin 1995: 55). Der Probleme dieses Kriteriums nahm sich Colin in “ The Grande Syntagmatique Revisited ” (Colin 1995) an - unter Konzentration auf die letzten beiden Punkte. Er zeigte, dass die Suche nach einem “ punctuation sign ” bei der Identifikation autonomer Segmente in die Irre führen kann und dass man die Frage nach autonomen Segmenten und der syntagmatischen Klassifikation eines Films trennen muss. Dies vorausgesetzt, behandeln wir in der vorliegenden Arbeit nun den ersten Punkt, den ‘ change in the plot ’ . Colin schreibt dazu: “ the problem is that the notion of a ‘ major change in the plot ’ is rather loose. ” (ibid.) Im Weiteren wird zunächst grundsätzlich analysiert, wie Ereignisse eines Plots überhaupt auf Segmente in Einstellungen bezogen werden können. Dann wird gezeigt, dass schon die temporale Grundstruktur einer Handlung deren filmische Repräsentation stark 3 Kleinere Hinweise zur weiteren Analyse finden sich am Ende von (Schmidt 2008) und auch dieser Arbeit. Vergleiche zum Ganzen auch (Wulff 2011). Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 241 bestimmt. Wir unterscheiden dazu im Anschluss an linguistische Theoriebildungen (atelische und graduelle) Aktivitäten, (telische und graduelle) Accomplishments und (telische und nicht graduelle, sondern punktuelle) Achievements. In dieserArbeit behandeln wir dann ausführlich graduelle Ereignistypen, also Aktivitäten (wie “ an einem Apfel herumnagen ” ) und Accomplishments (wie “ einen Apfel (auf-)essen ” ). 4 Für diese graduellen Typen, die sich leicht auf mehrere Einstellungen verteilen lassen, wird auch im Detail analysiert, wie sie insbesondere autonome Einstellungen und Einstellungsmengen zu identifizieren erlauben. 3 Handlungen und Einstellungen Grundsätzlich gibt es für den Bezug von Handlungen auf die diese repräsentierenden Einstellungen drei Möglichkeiten: l Eine Handlungsinstanz und eine Einstellung “ entsprechen ” einander; l mehrere Handlungsinstanzen finden sich in einer Einstellung; l eine Handlungsinstanz wird auf mehrere Einstellungen verteilt. Für filmische Realisierungen führen diese drei generellen Zuordnungen schon in der ursprünglichen Metz ’ schen Fassung zu den folgenden, bisher nicht geklärten Problemlagen: l Das Desiderat einer präzisen Definition der einzelnen ( “ autonomen ” ) Einstellung, die sich schon nach Metz (als “ Plansequenz ” ) durch eine einzelne Handlung auszeichnen lässt und syntagmatisch nicht in seinen großen Syntagmen gebunden ist; l die begriffliche Handhabung von Einstellungen, die sich nicht durch eine einzelne Handlung auszeichnen lassen und zu mehreren Einstellungsmengen “ sinnvoll ” geschlagen werden können (insbesondere sogenannte Fusionen); l eine empirisch robust verwendbare Definition der Verknüpfung von (autonomen und nicht autonomen) Einstellungen auch über syntagmatische Grenzen hinweg zu einem “ autonomen ” Segment (wie zum Beispiel in einem filmischen Itinerar). Der klassische Fall für eine autonome Einzeleinstellung ist zunächst die ursprünglich sogenannte Plansequenz: Eine Plansequenz (frz. plan-séquence = fortlaufende Einstellung) ist eine Sequenz innerhalb eines Films, die nur aus einer einzigen, meist vergleichsweise langen Einstellung besteht und eine abgeschlossene Handlung ohne Schnitte zeigt. 5 Hier definiert sich eine klassifikatorische Einheit durch eine beobachterseits identifizierte Handlungseinheit (Das Wort “ Plansequenz ” ist leider ein Missgriff - wie schon in (Schmidt & Strauch 2002) ausführlich begründet wurde, ist “ Planszene ” oder “ szenische Einstellung ” besser). Die Identifikation von Handlungen spielt auch im zweiten Fall mit dem wesentlichen Phänomen der filmischen Fusion die entscheidende Rolle: Oft “ endet ” in einer einzelnen 4 Achievements bedürfen mit ihrer punktuellen Natur für cinematographische Dokumente einer eigenen Behandlung (cf. Abschnitt 15). 5 So die deutsche Deutsche Wikipedia in http: / / de.wikipedia.org/ wiki/ Plansequenz [27. 03. 2017]. 242 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) Einstellung etwas und “ beginnt ” etwas Neues. Ist das, was endet, und das, was beginnt, jeweils eine Darstellung von einander verschiedenen Handlungen, liegt ein Bezug mehrerer Handlungen auf den Inhalt eines Filmbildes vor, der sich an die Grenzen des Filmbildes im Unterschied zur szenischen Einstellung nicht hält. Dies ist eine typische filmische “ Verbindungssituation ” und typischerweise auch nicht “ autonom ” . Schließlich kann sich eine Handlung auf mehrere Einstellungen verteilen, ohne dass große Syntagmen wie eine Szene oder Sequenz diese Handlung begrenzen müssen. Dies ist zum Beispiel in einem Itinerar immer dann der Fall, wenn einzelne Aufenthaltsorte eines sich bewegenden Akteurs auch über syntagmatische Grenzen hinweg repräsentiert werden. Ein häufiges Beispiel dafür ist, dass ein Akteur zunächst szenisch oder sequentiell in einer Umgebung repräsentiert wird, diese dann verlässt und (ggf. nach einer Übergangseinstellung) in einer anderen Umgebung wieder (szenisch oder sequentiell) repräsentiert wird. Um diese drei Fälle zu kennzeichnen, verwenden wir zunächst als Notation: n ½ ½ m B In n > 0 Einstellungen sind m ≥ 0 Handlungen für eine Beobachtermenge B repräsentiert. als Notation. Die doppelten eckigen Klammern „ ½ ½ “ sollen in der Notation den Rahmen typischerweise mehrerer Filmbilder, die sich in einer Einstellung finden, visuell andeuten. Ist die Beobachtermenge unwichtig, bleibt das Subskript weg und es wird einfach n m ½ ½ geschrieben. Im Einzelnen bedeutet n ½ ½ 0 B , dass keine Handlung beobachterseits in den in Rede stehenden n Einstellungen identifiziert wird. Dies wird hier nicht behandelt. 6 Für m > 0 gibt es beobachterunabhängig zunächst drei elementare Fälle der Zuordnung von Handlungen und Einstellungen: 1 ½ ½ 1 Eine Handlung wird in einer einzelnen Einstellung identifiziert (wie in einer szenischen Einstellung); 1 ½ ½ m mehrere ( “ m ≥ 2 ” ) (Teil-)Handlungen werden in einer (wie in einer m ≥ 2 Handlungen fusionierenden) Einstellung repräsentiert; n ½ ½ 1 eine Handlung wird auf mehrere (n > 1) Einstellungen verteilt. Der erste und der dritte Fall sind offensichtliche Kandidaten für ein durch eine Handlung definiertes “ autonomes ” Segment, wenn sie die zugehörige Einstellung auszeichnet bzw. die zugehörige Einstellungsmenge auszeichnen. Zur Analyse wird im Weiteren die folgende Notation genutzt: 1 ½ ½ 1 j Eine Handlung wird nur in dieser einen Einstellung identifiziert; n ½ ½ 1 j eine Handlung ist auf mehrere (n > 1) Einstellungen verteilt, wobei das n maximal gewählt ist. Jede der Einstellungen repräsentiert also eine Teilhandlung der Hand- 6 Dann liegen, wie sich aus dem weiterem Theoriegerüst ergibt, nur Zustände vor. Eine Einstellung oder eine Einstellungsmenge repräsentiert immer dann einen Zustand, wenn an sie beobachterseits kein Ereignis mit den hier zur Verfügung gestellten Mitteln verankert werden kann; dann ist eine einzelne Einstellung vom Typ 1 ½ ½ 0 B und eine Einstellungsmenge vom Typ n ½ ½ 0 B für n>1. Die Behandlung der filmischen Repräsentation von Zuständen bedarf einer eigenen Analyse (cf. Abschnitt 15). Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 243 lung und es gibt damit keine weitere Einstellung außerhalb der n Einstellungen, die ebenfalls einen Teil der in Rede stehenden Handlung repräsentiert. Der Fall 1 ½ ½ 1 j wird mit den im Weiteren bereitgestellten Mitteln im Detail ab Abschnitt 10 analysiert. Dieser Fall führt auch zu einer formalen Definition der Metz ’ schen “ Sequenz- Einstellung ” als Untertyp der Metz ’ schen “ autonomen Einstellung ” . Der Fall n ½ ½ 1 j ist mit den in (Schmidt & Strauch 2002) und (Schmidt 2004), (Schmidt 2008) sowie (Bateman &Schmidt 2011/ 2014) bereitgestellten Mitteln erledigt, wenn sich die in Rede stehende Einstellungsmenge in einem syntagmatischen Segment wie einer Szene oder einer Sequenz findet. Zu analysieren ist nur die Situation, dass wenigstens zwei Einstellungen durch eine gemeinsame Handlung verbunden werden, ohne in einem gemeinsamen Syntagma vorzukommen. Dies ist auch der Fall, der Metz unter dem Stichwort “ autonomes Segment ” erhebliche begriffliche Probleme machte, wenn er nicht große Syntagmen meinte (s. o.). Der Fall 1 ½ ½ 1 (ohne “ | ” ) bedeutet somit für eine Einstellung, dass beobachterrelativ nur eine Teilhandlung repräsentiert wird, die woanders fortgesetzt wird; dann muss es ein Segment vom Typ n ½ ½ 1 j geben, in dem diese Einstellung “ unterkommt ” . Darum können wir für den nun zu behandelnden “ mittleren ” Fall 1 ½ ½ m immer m > 1 annehmen. Für den Fall 1 ½ ½ m , m ≥ 2, ist zunächst festzuhalten, dass es filmisch natürlich nichts Besonderes ist, dass in einer Einstellung mehrere auch voneinander unabhängige (Teil-) Handlungen repräsentiert sind. Zu unterscheiden ist aber zwischen dem Unterfall, dass in einer Einstellung mehrere Handlungen ganz in dieser Einstellung repräsentiert sind oder dass in dieser nur ein Teil wenigstens einer Handlung und in einer anderen Einstellung im Dokument ein weiterer Teil dieser Handlung repräsentiert wird. Im ersten Unterfall werde zum Beispiel für m = 2 beobachterseits konzeptionalisiert: “ A küßt B ” und “ B schmust mit A ” statt “ A und B tauschen Zärtlichkeiten aus ” . Wir betrachten sowohl solche (in einem inhaltlichen Zusammenhang stehenden) Fälle als auch inhaltlich voneinander unabhängige Fälle bis auf Weiteres als Erweiterung des “ autonomen ” Typs 1 ½ ½ 1 j . Um auch hier notational erkennbar zu machen, dass die m > 1 Handlungen vollständig in nur einer Einstellung repräsentiert sind, schreiben wir ebenfalls 1 ½ ½ m j . Für den zweiten Unterfall, dass in einer Einstellung vom Typ 1 ½ ½ m von den m > 1 Handlungen wenigstens eine nur teilweise repräsentiert ist und eine weitere Teilhandlung in einer anderen Einstellung ein weiteres Mal repräsentiert ist, können wir nach dem zum Fall n ½ ½ 1 j Gesagten außerhalb einer großen Syntagmatik davon ausgehen, dass die andere Einstellung Element einer Menge vom Typ n ½ ½ 1 ist. Es handelt sich bei der Einstellung vom Typ 1 ½ ½ m dann oft um eine Einstellung mit einer “ Nebenhandlung ” oder um eine “ Übergangseinstellung ” . Halten wir notational zunächst zur Klassifikation fest: 1 ½ ½ m Wenigstens eine Teilhandlung der in der Einstellung repräsentierten m Handlungen, m ≥ 2, wird in einer weiteren Einstellung repräsentiert. Um für den letzten Unterfall zwischen den Handlungen zu unterscheiden, die als Ganzes in dieser Einstellung beheimatet sind, und denen, die sich auch noch anderswo im Dokument verteilen, bilden wir für m die Summe m = s| + t, wobei s die Anzahl der vollständig in der Einstellung repräsentierten Handlungen bezeichnet und t die Anzahl der teilrepräsentierten 244 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) Handlungen, die in einer anderen Einstellung noch eine Fortsetzung finden. Zur Klassifikation einer entsprechenden Einstellung wird notiert: 1 ½ ½ s jþ t Es werden “ s ≥ 0 ” Handlungen vollständig und t ≥ 1 Teilhandlungen mit einer Repräsentation einer weiteren Teilhandlung in wenigstens einer weiteren Einstellung im Dokument repräsentiert. Filmsyntagmatisch besonders wichtig sind hier die Fälle, die den Anfang und das Ende einer Handlung und deren filmische Abbildung betreffen. Repräsentierte Anfänge und Enden zeichnen Einstellungen aus und machen diese zu so etwas wie Randsteinen in einem “ Filmpuzzle ” . Ist in einer Einstellung sowohl das Ende einer Handlung als auch der Anfang einer neuen Handlung repräsentiert, liegt der Fall einer Fusion vor - gleichsam ein Eckstein in einem “ Filmpuzzle ” . In einem richtigen Puzzle gibt es (leider) nur vier Ecksteine - in einem Film können mehr und auch über mehr als zwei Dimensionen vorhanden sein. Im Weiteren machen Fusionen die Beispiele nicht nur dramaturgisch, sondern auch formal interessant; sie sollen darum hier auch notational ausgezeichnet werden. Eine Fusion wird dabei präzisierend so verstanden, dass wenigstens eine der beiden fusionierten Handlungen nicht ganz in der fusionierenden Einstellung repräsentiert ist und anderswo ihre Fortsetzung findet. Fusionierende Einstellungen müssen also vom Typ 1 ½ ½ s jþ t mit m = s + t > 1 und t > 0 sein. 7 Soll hervorgehoben werden, dass eine fusionierende Einstellung vorliegt, schreiben wir 1 ½ ½ mF . Detailliertere Analysen erfolgen dann im Allgemeinen nicht im Superscript: Ausdrücke wie 1 ½ ½ ð s jþ t Þ F werden nur dann verwendet, wenn es der Klarheit der Argumentation dient. Wir behandeln im Weiteren grundlegend nur die genannten elementaren Fälle, also Einstellungen vom Typ 1 ½ ½ 1 j , n ½ ½ 1 j und 1 ½ ½ m für m > 1. Insbesondere behandeln wir für den letzten Fall nur die Situation, dass im Dokument keine weitere Einstellung nur mit den in dieser Einstellung repräsentierten Handlungen vorliegt, so dass eine Einstellung vom Typ 1 ½ ½ m nicht zugleich in einem Segment vom Typ 2 ½ ½ m , 3 ½ ½ m etc. mit denselben Handlungen vorkommt. Die Einstellung vom Typ 1 ½ ½ m hat in diesem Papier also immer “ etwas Besonderes ” . Der Fall n m ½ ½ für m > 1 und n > 1 lässt sich wenigstens dann auf die genannten elementaren Fälle zurückziehen, wenn man annimmt, dass Handlungen sich im folgenden Sinne auf die gegebenen Einstellungen vollständig verteilen: Es sind bei jeweils zwei Handlungen die zugeordneten n 1 Einstellungen einer ersten Handlung in einem Segment vom Typ n 1 ½ ½ 1 j und die zugeordneten n 2 Einstellungen einer zweiten Handlung in einem Segment vom Typ n 2 ½ ½ 1 j getrennt analysierbar. Gibt es keine Einstellung, die einen Teil 7 Es ist auch m=t=1, also s=0 denkbar: Es liegt dann eine Verknüpfung mit einem handlungslosen Zustand vor - im beginnenden Falle eine sogenannte “ initiation ” , im auslaufenden Falle eine sogenannte “ cessation ” . Dies entspricht aber nicht der üblichen filmwissenschaftlichen Verwendungsweise des Wortes “ Fusion ” (cf. auch (Schmidt 2008: Abschnitt 9) und (Bateman & Schmidt 2011/ 2014: 202) und wird hier nicht behandelt. Zur Terminologie vergleiche auch (Sowa 2000: 213), der zwischen kontinuierlichen und diskreten Prozessen unterscheidet. Bei einem kontinuierlichen Prozess treten inkrementelle Veränderungen kontinuierlich auf. Einen kontinuierlichen Prozess mit einem expliziten Startpunkt bezeichnet Sowa als “ initiation ” , einen Prozess mit einem expliziten Endpunkt als “ cessation ” . Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 245 beider Handlungen repräsentiert, gilt n ½ ½ 2 j ¼ n 1 þ n 2 ½ ½ 2 j . Ist in diesem Fall n 1 = 1 oder n 2 = 1, liegt auch eine Repräsentation vom Typ 1 ½ ½ 1 j vor. Ist sowohl n 1 > 1 als auch n 2 > 1, liegt häufig eine alternante Struktur vor, die ein (ggf. polyspatiales) Geschehen im “ telling of the story ” verknüpft (cf. (Schmidt 2004) und (Bateman & Schmidt 2011/ 2014: 177 f.)). 8 Ansonsten gibt es wenigstens eine Einstellung vom Typ 1 ½ ½ m , m > 1, die Teile beider Handlungen repräsentiert. Geschieht dies so, dass in dieser Einstellung eine Handlung endet und die andere beginnt, liegt sogar eine Einstellung vom Typ 1 ½ ½ mF für m > 1 vor. Da in allen Fällen Handlungen und (Teile von einem) Filmbild beobachterseits aufeinander bezogen werden, ist die Modellierung dieses Bezugs entscheidend für die weitere Analyse, für die wir im Folgenden verwenden: 1. Die Modellierungskategorien der Norm MPEG-7, die insbesondere für die Beschreibung nicht-linguistischer Daten entwickelt wurde (siehe Abschnitt 4); 2. eine mereologische Axiomatik von B. Smith (siehe Abschnitt 5); 3. eine algebraische Semantik, die ursprünglich (u. a. von M. Krifka) für genuin linguistische Fragestellungen entwickelt wurde (siehe Abschnitt 6 ff ). 4 Segmente in Film und Video Die Modellierungssprache des MPEG-7 Standards wurde definiert von der Moving Picture Expert Group (MPEG) und liefert ein Metadatenschema zur Beschreibung und Annotation multimedialer Inhalte. 9 Ein beliebiges Fragment von Videodaten ist in diesem Standard ein Segment. Beliebig bedeutet u. a., dass es räumlich und/ oder zeitlich zusammenhängend oder nicht-zusammenhängend sein kann. Ein sogenanntes “ VideoSegment ” beschreibt ein spezielleres zeitliches Intervall von Videodaten. 10 Dies kann ein einzelner Frame, eine Folge von beliebig vielen Frames oder sogar die ganze Videosequenz sein (s. Abb. 1). Auch ein VideoSegment kann zeitlich zusammenhängend oder nicht-zusammenhängend sein. Eine “ MovingRegion ” wiederum beschreibt einen raum-zeitlichen Bereich von Videodaten in einem Video- Segment, also eine beliebige Menge von Pixeln in einer beliebigen Folge von Frames. Eine MovingRegion kann also ein Pixel in einem Frame, einen ganzen Frame oder auch ein ganzes VideoSegment umfassen. Es wird erneut nicht verlangt, dass eine MovingRegion räumlich oder zeitlich zusammenhängend ist. Eine Einstellung (shot) ist eine Folge von Frames, die durch eine Blende oder einen Schnitt begrenzt wird. Für die weiteren Ausführungen sind VideoSegmente im obigen Sinne, die eine Einstellung oder mehrere Einstellungen umfassen, der Ausgangspunkt. Diese sind der eigentliche Gegenstandsbereich der sogenannten großen Syntagmatik von Chr. Metz (Metz 1966), (Metz 1972). 8 Für n 1 =1 oder n 2 =1 kann nach (Schmidt 2004) keine alternante Struktur vorliegen. 9 Dieser Standard besteht aus 10 Teilen. Die folgenden Definitionen stammen aus dem Teil 5 “ Multimedia Description Scheme (MDS) ” von ISO/ IEC 15938 - 5: 2003, einer generischen Bibliothek von Beschreibungsstrukturen für Multimediadaten. 10 Normterme werden eingedeutscht und in “ camel case ” -Schreibweise verwendet. 246 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) Abb. 1: Zusammenhang zwischen VideoSegment und MovingRegion Ein Zuschauer sieht i. Allg. eine Einstellung nicht als eine isolierte Einheit, sondern versucht Verbindungen v. a. zwischen im Layout benachbarten Einstellungen zu erkennen. Dazu orientiert er sich an Pixelmengen, die in benachbarten Einstellungen Gemeinsamkeiten haben. Nach dem MPEG-7 Vokabular sind dies MovingRegions, die für den Zuschauer visuelle Anker darstellen, die die Kohärenz 11 eines Films gewährleisten können. In der obigen Graphik können die verschiedenen Figurensegmente jeweils als kohärenzerzeugende MovingRegions von einem Beobachter genutzt werden. Mit dem Großbuchstaben S bezeichnen wir im Weiteren speziell solche Einstellungsmengen, die wenigstens eine Einstellung umfassen. Mit dem Kleinbuchstaben s bezeichnen wir immer eine MovingRegion. Betrachten wir nur den Teil einer MovingRegion, der in einer einzelnen Einstellung enthalten ist, nennen wir diesen Teil “ ShotRegion ” (s. Abb. 2). 11 Wir benutzen “ Kohärenz ” hier vortheoretisch. In der Sprachwissenschaft versteht man unter Kohärenz den “ semantisch-kognitiven Sinnzusammenhang eines Textes ” (Bußmann 2002: 351). Für elementare Ausführungen zur Kohärenz beim Film s. (Hickethier 2007: 113). Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 247 Abb. 2: Zusammenhang zwischen MovingRegion, Shot und ShotRegion 5 Von Segmenten zu Konzepten Dieser Apfel dort ist die Erde ein schönes Gestirn auf dem es Äpfel gab und Esser von Äpfeln 12 Um die weitere Modellierung anschaulich darzustellen, werden im Folgenden einheitliche Beispiele benutzt. Wenn in einem Film durch einen Akteur (im Weiteren “ Johanna ” ) das Essen zweier Äpfel im diegetischen Fortschritt gezeigt werden soll, könnte dies nach den bisherigen Festlegungen wie folgt realisiert werden: l Realisation R1 vom Typ 1 ½ ½ 1 j : Das Essen der beiden Äpfel kann in einer einzelnen Einstellung (wie in einer szenischen Einstellung) zeitlich zusammenhängend realisiert werden, in der die beiden Äpfel inkrementell vertilgt werden. Diese Realisation ist, wenn es nicht um Schnellessen geht, i. Allg. eher länglich. l Realisation R2 mit n Einstellungen vom Typ n ½ ½ 1 j : In einem Segment S = (T 1 , T 2 , . . . , T n ), n > 1, wird die Apfel essende Johanna in mehreren Einstellungen nicht szenisch oder sequentiell, sondern in wenigstens zwei Einstellungen in verschiedenen Raumgebieten gezeigt. Es gibt also auf der Ebene der VideoSegmente wenigstens einen “ Raumsprung ” , der durch die MovingRegion verbunden wird, die die Apfel essende Johanna zeigt. 12 Aus “ Nänie auf den Apfel ” in (Enzensberger 2006: 202). 248 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) l Realisation R3 mit einer Einstellung vom Typ 1 ½ ½ m , speziell 1 ½ ½ mF : Wenn die beiden Äpfel stückweise (ohne großes Herumnagen “ an ” einem Apfel (cf. (Filip 1989)) gegessen werden, bietet sich eine sequentielle Repräsentation mit zeitlichen Lücken an. In einem Segment S = (T 1 , T 2 , . . . ,T i , . . . , T n ), n > 1, kann dann Johannas Essen zweier Äpfel ausschnittsweise so repräsentiert werden: Johanna isst zunächst in einem Essvorgang einen Apfel Stück für Stück, beendet diesen Vorgang in T i und beginnt in demselben T i (1 ≤ i ≤ n) das Essen des zweiten Apfels in einem zweiten Essvorgang, isst diesen Stück für Stück . . . und mit dem letzten Bissen endet das Segment. Die Einstellung T i ist dann vom Typ 1 ½ ½ 2F . Für alle drei Realisationen wird folgender Ausgangspunkt gewählt: Ein Beobachter B aus einer Beobachtermenge B konzeptionalisiere aufgrund seiner Perzeptionen (für jede) dieser Realisationen, dass Johanna (i. Allg. 13 ) zwei Äpfel esse. Für unsere Modellbildung beruhe dies darauf, dass dieser Beobachter gelabelte MovingRegions für Johanna, für einen Apfel und ggf. noch einen Apfel und für “ Johannas Essumgebung ” zum Labelling des jeweiligen bildlichen Komplements der anderen Pixelmengen angeben kann; ferner kann er wenigstens das Ereignis “ Essen ” konzeptionalisieren (s. u.) und mit den dargestellten Äpfeln in Zusammenhang bringen. Um dies zu modellieren, benutzen wir mit (Smith & Rosse 2004: 445 f.) zunächst Instanzen und Klassen. Instanzen sind Individuen (individuals, particulars, tokens) einer speziellen Sorte. Klassen (universals, kinds, types) existieren durch ihre zugehörigen Instanzen. Zwischen Instanzen und Klassen bestehe eine binäre Relation ‘ inst ’ . An erster Stelle dieser Relation steht immer eine Instanz, an zweiter Stelle die Klasse, die die Instanz instanziiert. So lässt sich eine Klasse definieren als alles, was instanziiert werden kann (Smith 2005: 511): class(e) = def ∃ f inst(f,e). Und umgekehrt ist eine Instanz alles, was eine Klasse instanziiert: instance(f ) = def ∃ e inst(f,e) Es gelten die folgenden Axiome: Jede Klasse hat mindestens eine Instanz: ∀ e (class(e) → ∃ f (instance(f ) ∧ inst(f,e))) Nichts kann sowohl Instanz als auch Klasse sein: - ∃ e (class(e) ∧ instance(e)) Instanzen sind vom Typ IND (Token), Klassen vom Typ Λ (Types). Betrachtet ein Beobachter B aus einer Beobachtermenge B die Pixelmenge eines Bildes oder Films, versucht er aufgrund seiner Perzeption in geeigneten Pixelmengen Objekte aus seiner Vorstellungswelt zu erkennen. Dies bedeutet hier, dass er Pixelmengen mit Begriffen seiner Vorstellungswelt in Zusammenhang bringt und “ benennt ” . Dieser Prozess wird im Folgenden als “ Labelling ” bezeichnet und die verwendeten Namen als “ Label ” . Die Instanziierung einer Labelklasse L: Λ erfolgt im Weiteren durch ein Labelling eines Teilsegmentes s der Einstellungen eines Segmentes S (, das wiederum einem gegebenen cinematographischen Dokument entnommen ist). Es werden also nicht sozusagen auf Vorrat Instanzen für das Labelling vorproduziert; nur bei der Vergabe eines Labels für eine MovingRegion erfolgt eine Instanziierung. Soll die Beobachtermenge B, die eine solche 13 Johanna schafft im Weiteren manchmal keine zwei Äpfel. Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 249 Instanziierung zum Labelling durchführt, explizit gekennzeichnet werden, wird “ inst B ” geschrieben, für einen einzelnen Beobachter auch “ inst B ” , B ∈ B. Zur (über das reine Labelling hinausgehenden) Beschreibung einer MovingRegion s bedarf es für B einer Beobachtungssprache. Diese kann beliebig reichhaltig sein. 14 Hier beschränken wir uns für eine möglichst klare Darstellung für eine gegebene Beobachtermenge B auf folgende Art und Weise: 1. Es ist für dieselbe ShotRegion s und zwei verschiedene Label l s ≠ l 0 s die gleichzeitige Gültigkeit von inst B (l s ,L) und inst B (l 0 s ,L) für ein L: Λ ausgeschlossen: Für eine ShotRegion gibt es nur ein Label für eine gegebene Labelklasse. 2. Weiterhin gilt für Label semantische Eindeutigkeit im folgenden Sinne: Wenn die Label für zwei Segmente gleich sind, sind die von den Segmenten eines Filmbildes denotierten Objekte für die Beobachter ebenfalls gleich. 15 Gleich gelabelte Segmente können natürlich verschieden sein (dies ist z. B. in zwei verschiedenen Einstellungen immer der Fall). Die erste Anforderung verpflichtet die Beobachtermenge zunächst nur, sich auf Label für eine gegebene Labelklasse zu einigen. Ferner werden beobachterseits Erkenntnisprozesse auf Einstellungsebene granularisiert. Wenn jemand z. B. in einer MovingRegion eine Frau erkennt und diese zu ihrer Darstellungszeit (etwa aufgrund einer Kamerafahrt) schließlich als Johanna identifiziert, dann ist die ShotRegion, für die diese Identifikation erfolgt, als Ganzes entweder mit “ Johanna ” oder mit “ Frau ” zu labeln, wenn “ Johanna ” und “ Frau ” als Label verwendet werden sollen und beide z. B. WEIBLICHE_PERSON instanziieren. Diese Anforderung kann in weiteren Arbeiten aufgegeben werden. In der zweiten Anforderung werden Meinungsverschiedenheiten unter den Beobachtern hinsichtlich der abgebildeten “ Inhalte ” eines Segmentes bei gleichem Label ausgeschlossen. Das Labelling erfolgt für VideoSegmente und MovingRegions, die auf vielfältige Art und Weise Teil voneinander sein können. Ebenso ist für sonstige Instanzen vom Typ IND eine (strenge) “ Teil von ” -Relation ( ‘ part ’ ) vorzusehen. Für ihre Axiomatisierung werden Variablen x, y für Instanzen und Variablen A, B für Klassen verwendet. Es gilt: Irreflexivität: ∀ x: IND (-part(x,x)) Asymmetrie: ∀ x,y: IND (part(x,y) → -(part(y,x)) Transitivität: ∀ x,y,z: IND (part(x,y) ∧ part(y,z) → part(x,z)) Ferner gibt es die folgende Operation zur Summenbildung ( ‘⊕’ ): Summenoperation ⊕ : Für alle x,y,z: IND gibt es eine Summe x ⊕ y, welche idempotent, kommutativ und assoziativ ist, d. h. es gilt x ⊕ x = x, x ⊕ y = y ⊕ x, x ⊕ (y ⊕ z) = (x ⊕ y) ⊕ z. 14 Minimale Beobachtungssprachen für Sensordaten, zu denen filmische Daten sui generis gehören, finden sich in (Schmidt 1999: 129 f.). 15 Damit ist ausgeschlossen, dass Label als “ Realisationen ” von Labelklassen im Goodman ’ schen Sinne (cf. (Goodman 1973: 153)) “ mehrdeutig ” sind. Zur Anwendung der Goodman ’ schen Symboltheorie auf Bilddaten (cf. (Schmidt 1999: 81 f.). 250 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) Zwei Elemente x,y: IND überlappen, wenn sie in der Überlappungsrelation ( ‘⊗’ ) stehen: Überlappungsrelation ⊗ : Für x,y: IND gilt: x ⊗ y = def ∃ z: IND (z ⊕ x = x ∧ z ⊕ y = y) Wir verlangen als Restprinzip: ∀ x,y: IND (part(x,y) → ∃ ! z: IND (-(x ⊗ z) ∧ x ⊕ z = y)) Abkürzend schreiben wir für part(x,y) auch x < y, x,y: IND. Wenn Klassen vom Typ Λ eine interne Struktur haben mit verallgemeinernden Klassen in einer Konzepthierarchie, liefert dies für viele Beobachtungskulturen das, was sie für Außenstehende überhaupt zu einer abgrenzbaren Expertenkultur macht. Wenn verschiedene Beobachter einer Beobachtermenge B eine gleiche Instanziierung durchführen sollen, müssen sie sich dann gemäß den obigen Einschränkungen verständigen, welche Label sie tatsächlich verwenden. 16 Grundsätzlich - und von den spezifischen Anforderungen einer Beobachtungskultur abgesehen - gelte: Subsumption: Für A,B: Λ gilt: A is_a B = def ∀ x: IND (inst(x,A) → inst(x,B)) Als notwendige Ganze für Instanzen von A können Instanzen von B wie folgt fungieren: part_for: Für A,B: Λ gilt: A part_for B = def ∀ x: IND (inst(x,A) → ∃ y: IND (inst(y,B) ∧ part(x,y))) Instanzen von A existieren also so nur als Teile von Instanzen von B. - Ferner können Instanzen von B notwendig Instanzen von A als Teile haben: has_part: Für A,B: Λ gilt: B has_part A = def ∀ y: IND (inst(y,B) → ∃ x: IND (inst(x,A) ∧ part(x,y))) Damit können wir nun A part_of B definieren: part_of: Für A,B: Λ gilt: A part_of B = def A part_for B ∧ B has_part A. A part_of B verlangt also, dass zum einen Instanzen von A nur als Teile von Instanzen von B existieren und zum anderen B strukturell so organisiert ist, dass zu jeder Instanz von B eine Instanz von A existiert, die Teil dieser Instanz von B ist. Klassen werden im Weiteren immer großgeschrieben. 17 Ein “ diegetisches ” Beispiel für die Äpfel unserer Apfel essenden Johanna: Jeder Apfel hat im Normalfall (mindestens) einen Kern, daher gilt auf Klassenebene sinnvollerweise: APFEL has_part KERN. Die Umkehrung KERN part_forAPFEL gilt nicht von vornherein, da nicht jeder Kern Teil eines Apfels ist - ein (Kirsch-)Kern etwa ist Teil einer Kirsche. Betrachtet man die Unterklasse APFELKERN mit APFELKERN is_a KERN, dann gilt sinnvollerweise APFEL has_part APFELKERN und APFELKERN part_for APFEL, so dass gilt: APFELKERN part_of APFEL. 16 Auch die Anbindung von Labeln an Pixelmengen kann in unterschiedlichen Expertenkulturen auf verschiedene Art und Weise erfolgen (cf. (Schmidt 1999: Kapitel 10)). Dies wird hier nicht modelliert. 17 Natürlich ist nicht alles, was großgeschrieben wird, eine Klasse. So werden Namen für VideoSegmente wie “ S ” und Einstellungen wie “ E ” und “ T ” (ggf. mit Index) ebenfalls großgeschrieben, um Sie als “ Segmente einer großen Syntagmatik ” hervorzuheben. Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 251 Mit den bereitgestellten Mitteln können wir nun das tatsächliche Labeln (von Teilen) einer Einstellung beschreiben. Sei L eine Menge von Klassen L i : Λ , i ∈ ℕ . L bezeichnen wir abkürzend als Labelmenge. Sei S(L, B) die Menge der mittels L durch B gelabelten ShotRegions s in S, also: S(L, B) ={s l | s l < S mit l: IND, inst B (l,L) für ein L ∈ L}. Für ein Segment bestehend aus n Einstellungen T i , 1 ≤ i ≤ n, gibt es für i k ShotRegions s i,j , 1 ≤ j ≤ i k , jeweils i k für jede Labelklasse eindeutige Label l i,j : IND. Ein Beispiel für Johanna mit ihren Äpfeln sieht für ein aus zwei Einstellungen bestehendes Segment S = (T 1 ,T 2 ), das von B gelabelt wird mit Instanzen zu L ={PERSON, APFEL, HINTERGRUND}, wie folgt aus: S(L, B)={ s l | s l < (T 1 ,T 2 ) mit l: IND, inst B (l,L) für L ∈ {PERSON, APFEL, HINTER- GRUND}}. Es existiere eine Aufteilung (Segmentierung) der Einstellungen des VideoSegmentes S = T 1 , T 2 in ShotRegions s 1,j < T 1 und s 2,j < T 2 für 1 ≤ j ≤ 3. Dann gibt es 6 ShotRegions, je 3 in jeder der beiden Einstellungen. Diese seien gelabelt mit Instanziierungen von PERSON, APFEL und HINTERGRUND in der in den nachstehenden Abschnitten angegebenen Weise. In beiden Einstellungen sei Johanna zu sehen; es werde s 1,1 und s 2,1 gelabelt mit “ johanna ” , also s johanna 1 ; 1 bzw. s johanna 2 ; 1 mit inst B (johanna, PERSON). Nehmen wir an, S=(T 1 ,T 2 ) stamme aus einer Realisation R2 vom Typ n ½ ½ 1 j B für die obige Beobachtermenge B. Dann ist zu berücksichtigen, dass die beiden Einstellungen T 1 und T 2 ggf. verschiedene Raumzeitgebiete messen. Deshalb können i. Allg. zwei ShotRegions s 1,3 < T 1 und s 2,3 < T 2 nicht mit dem gleichen Label “ hintergrund ” mit inst B (hintergrund, HINTERGRUND) versehen werden; sonst würden beide Einstellungen “ denselben ” Hintergrund repräsentieren und damit für typische Beobachter i. Allg. keine Realisation vom Typ n ½ ½ 1 j B vorliegen können. Daher werde s 1,3 mit einem Label “ hintergrund1 ” , inst B (hintergrund1, HINTERGRUND) und s 2,3 mit einem Label “ hintergrund2 ” , inst B (hintergrund2, HINTERGRUND) von B versehen, so dass s 1 ; 3 gelabelt zu s hintergrund1 1 ; 3 und s 2 ; 3 gelabelt zu s hintergrund2 2 ; 3 wird. Ist in beiden Einstellungen derselbe Apfel zu sehen (s. Abb. 3, oberer Teil), werden die ShotRegions s 1,2 < T 1 und s 2,2 < T 2 beide gelabelt mit “ apfel ” , so dass gilt: s 1 ; 2 ¼ s apfel 1 ; 2 und s 2 ; 2 ¼ s apfel 2 ; 2 mit inst B (apfel,APFEL). Sind in den beiden Einstellungen verschiedene Äpfel im Spiel (s. Abb. 3, unterer Teil), gilt: s 1 ; 2 ¼ s apfel1 1 ; 2 und s 2 ; 2 ¼ s apfel2 2 ; 2 mit inst B (apfel1,APFEL) und inst B (apfel2,APFEL). Für den Fall, dass in beiden Einstellungen derselbe Apfel zu sehen ist, gilt mit T 1 ¼ s johanna 1 ; 1 ⊕ s apfel 1 ; 2 ⊕ s hintergrund1 1 ; 3 und T 2 ¼ s johanna 2 ; 1 ⊕ s apfel 2 ; 2 ⊕ s hintergrund2 2 ; 3 offenbar S ¼ T 1 ; T 2 ð Þ ¼ s johanna 1 ; 1 ⊕ s apfel 1 ; 2 ⊕ s hintergrund1 1 ; 3 ; s johanna 2 ; 1 ⊕ s apfel 2 ; 2 ⊕ s hintergrund2 2 ; 3 Füllen auch die zwei verschiedene Äpfel essende Johanna und der Hintergrund beide Einstellungen aus, ergibt sich T 1 ¼ s johanna 1 ; 1 ⊕ s apfel1 1 ; 2 ⊕ s hintergrund1 1 ; 3 und T 2 ¼ s johanna 2 ; 1 ⊕ s apfel2 2 ; 2 ⊕ s hintergrund2 2 ; 3 und somit 252 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) S ¼ T 1 ; T 2 ð Þ ¼ s johanna 1 ; 1 ⊕ s apfel1 1 ; 2 ⊕ s hintergrund1 1 ; 3 ; s johanna 2 ; 1 ⊕ s apfel2 2 ; 2 ⊕ s hintergrund2 2 ; 3 Abb. 3: Zwei Labellings einer Beispielsegmentierung 6 Thematische Relationen und ihre Verankerung im Filmbild Bisher wurde lediglich eine Repräsentation für die Konzeptionalisierung statischer Objekte wie “ Johanna ” , “ Apfel ” oder “ Hintergrund ” entwickelt. Im obigen Beispiel werde nun zusätzlich für die in zwei Einstellungen T 1 und T 2 repräsentierte Johanna von einer Beobachtermenge B ein Essvorgang - etwa durch die Veränderung der Apfelsegmente und Mundbewegungen von Johanna - “ erkannt ” . Die Beobachter sollen also ein Essereignis konzeptionalisieren. Unter einem Ereignis verstehen wir hier eine Zustandsänderung, für die es einen Ort und eine Zeitdauer oder einen Zeitpunkt gibt. Ereignisse, die durch ein belebtes Objekt absichtsvoll ausgelöst werden, nennen wir Handlungen. Das auslösende Objekt heißt Agent, auch Aktor (Reimer 1991: 21 f.). Die in Verben natürlicher Sprachen durchgeführte Repräsentation von Ereignissen kann mit einer Ereignis-Semantik modelliert werden (Krifka 1989). In dieser werden Verben als einstellige Prädikate über Ereignisse dargestellt. Die Partizipanten eines Ereignisses werden mit zweistelligen Hilfsrelationen mit dem Ereignis verbunden. Diese Hilfsrelationen entsprechen semantischen Rollen wie Agens (AG) für den verursachenden Agenten einer Handlung oder Patiens (PAT) für den Betroffenen einer Handlung und werden als Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 253 thematische Relationen bezeichnet. Für den Beispielsatz: “ Johanna isst einen Apfel ” ergibt sich ∃ e (ESSEN(e) ∧ AG(e, johanna) ∧ PAT(e, apfel)). Um Ereignisklassen von anderen Konzeptklassen deutlich zu unterscheiden, wird hier für Ereignisklassen ein eigener Typ EVT eingeführt. Mit E wird eine Menge von Ereignisklassen bezeichnet: E={E | E: EVT}. In den obigen cinematographischen Beispielrealisationen sieht man keine natürlichsprachlichen Sätze und deren Segmente, sondern Bildsegmente. Zur Modellierung thematischer Beziehungen zwischen Segmenten aus S(L, B) und instanziierten Ereignissen von E, E ∈ E für eine von den Beobachtern zu konzeptionalisierende Ereignismenge E gibt es daher zunächst segment-thematische Relationen R S(L,B),E mit R S(L,B),E ={ (s,e) | s ∈ S(L, B), inst B (e,E), E: EVT, E ∈ E }. Die Segmente s sind qua Zugehörigkeit zu S(L, B) gelabelt. Um die Notation einfach zu halten, schreiben wir einfach nur s, wenn das Label im jeweiligen Zusammenhang unerheblich ist. Ist die Angabe der Menge der Ereignisse und der Menge der gelabelten Segmente S(L, B) unerheblich oder aus dem Kontext ersichtlich, schreiben wir einfach R. Auf Basis dieser Relation ergeben sich die folgenden Definitionen: Eine Ereignisklasse E: EVT wird in einem VideoSegment S von einer Beobachtermenge B unter R für eine vorgegebene Labelmenge L verankert oder R-verankert, wenn es ein s < S gibt, so dass R S(L,B),{E} nicht leer ist. Eine Ereignisklasse E: EVT wird in einem VideoSegment S von einer Beobachtermenge B unter R für eine vorgegebene Labelmenge L mehrfach verankert oder mehrfach R-verankert, wenn es für E ∈ E Instanzen e ′ , e ′′ gibt sowie ein s ′ mit (s ′ ,e ′ ) ∈ R S(L,B),{E} und ein s ′′ mit (s ′′ ,e ′′ ) ∈ R S(L,B),{E} , so dass e ′ , e ′′ sich nicht überlappen, also -(e ′ ⊗ e ′′ ) gilt. Das Wort “ Verankerung ” wurde gewählt, da die dadurch induzierte Verknüpfung von Segmenten von Pixelmengen sich als (mehrfacher) “ Link ” interpretieren lässt. 18 Die Definition einer zählenden “ m-fachen ” Verankerung für m ≥ 2 ist kanonisch: Eine Ereignisklasse E: EVT wird in einem VideoSegment S von einer Beobachtermenge B unter R für eine vorgegebene Labelmenge L m-fach verankert oder m-fach R-verankert, wenn es sich paarweise nicht überlappende Instanzen e (1) , e (2) , . . . , e (m) gibt, also -(e (i) ⊗ e (j) ) für i ≠ j gilt, 1 ≤ i,j ≤ m, und jeweils ein s (i) mit (s (i) ,e (i) ) ∈ R S(L,B),{E} existiert, 1 ≤ i ≤ m. Dabei kann s (i) ⊗ s (j) gelten für 1 ≤ i,j ≤ m. Die Anforderung dagegen, dass sich die Ereignisse paarweise nicht überlappen, hat folgenden Hintergrund: Sind im Beispiel der Apfel essenden Johanna zwei verschiedene Beißvorgänge beißen_1 und beißen_2, -(beißen_1 ⊗ beißen_2) mit inst B (beißen_1, BEISSEN) und inst B (beißen_2, BEISSEN) sowie beißen_1 < essen und beißen_2 < essen mit inst B (essen, ESSEN) Teil eines Essvorgangs, 18 Die Ereignisklasse kann im Sinne von XLink zur Kennzeichnung der Rolle des Links genutzt werden. 254 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) dann ist BEISSEN 2-mal in einem geeigneten Segment verankert bei Erfüllung der sonstigen Bedingungen der Definition. Schlösse man die Überlappung von Ereignissen nicht aus, könnte ESSEN wegen essen > beißen_1 und essen > beißen_2 dreimal verankert sein, wenn auch eine weitere Verankerung von essen angenommen werden kann. Die in essen enthaltenen zwei Beißvorgänge beißen_1 und beißen_2 sollten dann aber nicht extra gezählt werden. Es sollte vielmehr die Verankerung von essen nur einmal gezählt werden. Für cinematographische Dokumente ist im Rahmen einer großen Syntagmatik der Fall wesentlich, dass eine Ereignisklasse in wenigstens zwei verschiedenen Einstellungen verankert ist: Dazu verlangen wir, dass wenigstens zwei der oben geforderten Teilsegmente s ′ und s ′′ auch in zwei verschiedenen Einstellungen T ′ und T ′′ liegen, also mit s ′ < T ′ und s ′′ < T ′′ zwei ShotRegions vorliegen, wie es für die Apfel essende Johanna in der Realisation R2 ja auch der Fall ist. Eine einzelne Ereignisklasse E: EVT wird in einem VideoSegment S mit wenigstens zwei verschiedenen Einstellungen T ′ und T ′′ von einer Beobachtermenge B für eine vorgegebene Labelmenge L in verschiedenen Einstellungen verankert, wenn für E eine (ggf. mehrfache) Verankerung vorliegt und es für Instanzen e ′ , e ′′ (im mehrfachen Falle mit -(e ′ ⊗ e ′′ )), ein s ′ < T ′ mit (s ′ ,e ′ ) ∈ R S(L,B),{E} und ein s ′′ < T ′′ mit (s ′′ ,e ′′ ) ∈ R S(L,B),{E} gibt. Damit ergibt sich: Eine Ereignisklasse E: EVT ist in einem VideoSegment S von einer Beobachtermenge B unter R für eine vorgegebene Labelmenge L in n Einstellungen (m-fach) verankert oder in n Einstellungen (m-fach) R-verankert, wenn sie in jeder der n Einstellungen wenigstens einmal (und insgesamt m-fach) unter R verankert ist für n, m ≥ 1. Wird die Anzahl der Verankerungen gezählt, wird kurz von einer (n,m)-Verankerung der jeweiligen Ereignisklasse unter R in dem jeweiligen VideoSegment gesprochen. Eine (n,m)-Verankerung in einem VideoSegment mit n Einstellungen bedeutet, dass man in jeder Einstellung wenigstens einmal etwas zu einer Ereignisklasse sieht. Der Fall m=1 liegt vor, wenn eine Ereignisklasse nur einmal instanziiert wird, also in allen Einstellungen z. B. “ dieselbe ” Handlung repräsentiert wird. Insgesamt lässt sich so bequem beschreiben, dass z. B. ein einziger Essvorgang aus m filmisch repräsentierten Beißvorgängen besteht. Die m Beißvorgänge seien in n Einstellungen zu sehen, im Falle m=n jeweils ein Beißvorgang in einer Einstellung; die Klasse BEISSEN ist (n,m)-verankert und der eine Essvorgang (n,1)-verankert. Ein wichtigerAnwendungsfall für die obige Definition ist, dass man sich alle Einstellungen eines cinematographischen Dokumentes für eine Ereignisklasse zusammensucht ( “ alle Einstellungen, in denen Johanna einen Apfel isst ” ). Wählt man für ein gegebenes cinematographisches Dokument für die R-Verankerung einer Ereignisklasse E: EVT in den Einstellungen eines Dokuments also n maximal, liegt damit der filmische R-Träger von E in diesem Dokument vor. Die Menge aller Einstellungen aller filmischen Segmente vom Typ n ½ ½ 1 j , die dasselbe E: EVT instanziieren, ist in der Vereinigung aller R-Träger von E enthalten. Zur Verdeutlichung folgt ein Beispiel in einem Kurzvideo der Apfel essenden Johanna. Es sei E={ESSEN, ROTIEREN}. Sei S wieder ein aus zwei Einstellungen bestehendes Segment S=(T 1 ,T 2 ) mit S(L, B)=S({PERSON, APFEL, HINTERGRUND}, B). Für die segment-thematische Relation AG gelte: Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 255 AG S ð L ; B Þ ; E ¼ s ; e ð Þj s 2 S L ; B ð Þ ; inst B e ; E ð Þ ; E 2 E f g ¼ s ; e ð Þj s 2 S PERSON ; APFEL ; HINTERGRUND f g ; B ð Þ ; inst B e ; E ð Þ f E 2 ESSEN ; ROTIEREN f gg ¼ s johanna 1 ; 1 ; essen ; s johanna 2 ; 1 ; rotieren ; s johanna 2 ; 1 ; essen n j inst B johanna ; PERSON ð Þ ; inst B essen ; ESSEN ð Þ ; inst B rotieren ; ROTIEREN ð Þg Aus der obigen AG-Relation ergibt sich: Johanna isst in T 1 . In T 2 rotiert sie (nach Lage der bereitgestellten Konzepte: einen Apfel, aber auch sich selbst oder einen Hintergrund) und isst wiederum. Da dieselbe Instanz ‘ essen ’ der Ereignisklasse ESSEN an zweiter Stelle der Relation verwendet wird, konzeptionalisiert der Beobachter einen Essvorgang. Würde die Ereignisklasse ESSEN mit essen und essen ‘ instanziiert, würden in (s johanna 1 ; 1 ,essen) und (s johanna 2 ; 1 ,essen ’ ) zwei Essereignisse konzeptionalisiert. Würden sich zudem diese beiden Essereignisse nicht überlappen, wäre dann die Ereignisklasse ESSEN im Segment S=(T 1 ,T 2 ) unter der AG-Relation (2,2)-verankert und die Ereignisklasse ROTIEREN (1,1)-verankert. Es gelte ferner für die segment-thematische Relation PAT unter der zusätzlichen Annahme von ROTIEREN is_a SPIELEN: PAT S ð L ; B Þ ; E ¼ s ; e ð Þj s 2 S L ; B ð Þ ; inst B e ; E ð Þ ; E 2 E f g ¼ s ; e ð Þj s 2 S PERSON ; APFEL ; HINTERGRUND f g ; B ð Þ ; f inst B e ; E ð Þ ; E 2 ESSEN ; SPIELEN f gg ¼ s apfel 1 ; 2 ; essen ; s apfel 2 ; 2 ; rotieren ; s apfel 2 ; 2 ; essen j inst B apfel ; APFEL ð Þ ; n inst B essen ; ESSEN ð Þ ; inst B rotieren ; SPIELEN ð Þg Die obige PAT-Relation ergibt für die Ereignisse in der oben aufgeschriebenen Form, dass sie immer denselben Apfel betreffen, der sowohl gegessen als auch bespielt wird. Ändert man die PAT-Relation dahin gehend, dass s 2,2 mit apfel ’ gelabelt wird, dann wird in der zweiten Einstellung ein anderer Apfel rotierenderweise bespielt und gegessen als in der ersten. Auf jeden Fall ist im Segment S=(T 1 ,T 2 ) unter der PAT-Relation die Ereignisklasse ESSEN (2,1)verankert und die Ereignisklasse SPIELEN (1,1)-verankert. Das ganze Kurzvideo S=(T 1 ,T 2 ) ist der Träger von ESSEN und für die obige Beobachtermenge B vom Typ 2 ½ ½ 1 j B ; das Teildokument, das nur die zweite Einstellung enthält, ist der AG-Träger und PAT-Träger von ROTIEREN bzw. SPIELEN und für die obige Beobachtermenge B vom Typ 1 ½ ½ 1 jþ 1 B . 7 Objekt-Eindeutigkeit segment-thematischer Relationen Die skizzierte filmische Repräsentation eines Handlungsablaufs wie “ Johanna isst einen Apfel ” ist für einen Beobachter B auf intuitive Art und Weise objekt-eindeutig. Dies geschieht für das obige Beispielsegment S mit S(L, B)=S({PERSON, APFEL, HINTERGRUND}, B) 256 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) unausgesprochen dadurch, dass wir als menschliche Beobachter den Hintergrund und Johanna selbst als Essobjekte ausschließen. - Aber selbst wenn weitere gelabelte Pixelmengen für essbare Objekte vorliegen würden (für Bratwurst, Kuchen, etc.), liegt es in der “ Natur des von menschlichen Beobachtern konzeptionalisierten Essvorganges ” , dass ein Essobjekt eindeutig bestimmt ist oder mehrere Essvorgänge konzeptionalisiert werden: Isst Johanna z. B. erst zwei Äpfel, dann eine Bratwurst, dann ein Stück Kuchen, würden von einem menschlichen Beobachter ohne Zusatzinformation oft drei ( Johanna isst zwei Äpfel (auf ), Johanna isst eine Bratwurst (auf ), Johanna isst ein Stück Kuchen (auf )) oder vier Essvorgänge (Apfel, Apfel, Bratwurst, Kuchen betreffend) konzeptionalisiert. Zur Modellierung dieser “ Natur ” des Essvorganges wird allgemein verlangt: Eine segment-thematische Relation R S(L,B),{E} ist für eine Einstellung T und eine Ereignisklasse E für eine Beobachtermenge B objekt-eindeutig, wenn für ein e mit inst B (e,E) und s, s ′ < T mit (s,e) ∈ R S(L,B),{E} und (s ′ ,e) ∈ R S(L,B),{E} die Gleichheit l s =l s ′ folgt. Damit sind wegen der obigen Forderung der semantischen Eindeutigkeit auch die Objekte in der Diegese gleich. Ein Standardanwendungsfall für diese Definition ist die mehrfache Darstellung eines Gegenstandes innerhalb einer Einstellung, so dass sich die Pixelmenge für “ ein- und dasselbe Objekt ” schon innerhalb einer Einstellung ändert. Für mehrere Einstellungen ergibt sich: Eine segment-thematische Relation R S(L,B),{E} ist für ein VideoSegment S = (T 1 , T 2 , . . . , T n ) für eine Beobachtermenge B objekt-eindeutig, wenn sie in den n Einstellungen jeweils objekt-eindeutig und in den sie verankernden Einstellungen gleich gelabelt ist, also gilt: ∀ s i ,s j ,T i ,T j <S mit s i <T i , s j <T j und (s i ,e), (s j ,e) ∈ R S(L,B),{E} , 1 ≤ i,j ≤ n, gilt l s i =l s j für i ≠ j. Objekt-Eindeutigkeit für ein VideoSegment heißt also, dass für ein konzeptionalisiertes Ereignis e und für Beobachter B die zugehörigen Segmente in allen Einstellungen gleich gelabelt werden und deshalb in deren Diegese auch gleich sind. Eine filmische Repräsentation der obigen Heißhungerattacken in einer Sequenz mit mehreren Einstellungen (z. B. für jedes Essobjekt eine Einstellung) ist naheliegend. - Isst Johanna allerdings (durcheinander) einen Apfel, einen weiteren Apfel, Bratwurst und Kuchen, könnte man für eine sequentielle Repräsentation auch ein gemeinsames Thema wie “ Johanna vertilgt das Menü allTogether ” mit inst B (allTogether,ALLTOGETHER) beobachterseits annehmen mit den folgenden Klassenbeziehungen: 1. APFEL part_of ALLTOGETHER, 2. BRATWURST part_of ALLTOGETHER, 3. KUCHEN part_of ALLTOGETHER. Die Einheit der Esshandlung kann trotz Vergrößerung des Essobjektes gewahrt sein, selbst wenn sie sich wie hier leicht auf mehrere Einstellungen verteilen lässt. Abhängig ist dies allein von der Anzahl der verschiedenen Instanziierungen der Ereignisklasse ESSEN und nicht von dem Unterschied zwischen S({PERSON, ALLTOGETHER, HINTERGRUND}, B) und S({PERSON, {APFEL, BRATWURST, KUCHEN, HINTERGRUND}, B). Bezogen auf ein Filmbild wirkt sich diese Unterscheidung i. Allg. so aus, dass die Instanziierung von Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 257 ALLTOGETHER bei der skizzierten Inszenierung keine zusammenhängende Pixelmenge mehr labelt. 8 Relationierung von Subobjekten und Subereignissen Beim telischen ( “ Auf- ” )Essen von zwei Äpfeln wird i. Allg. zunächst ein Apfel Bissen für Bissen kleiner, dann der andere. In diesem Sinne ist erstens jeder Teil des Vorganges “ Zwei Äpfel essen ” auf Teile der zu essenden zwei Äpfel beziehbar. Umgekehrt entspricht zweitens jedem Teil der zwei Äpfel ein Teil des Essens. In der (linguistischen) Theorie, wie sie ausführlich etwa Mollá-Aliod (Mollá-Aliod 1997: 115 f.) darstellt, finden sich zwei weitere Konzepte, die solche Situationen behandelbar machen. Im letzten Fall ist das Objekt auch teilweise auf Subereignisse abbildbar. Im ersten Fall ist der Essvorgang auch teilweise auf Subobjekte abbildbar. Vor diesem Hintergrund führen wir nun die folgenden thematischen Beschränkungen der Subereignis-Abbildbarkeit sowie der Subobjekt-Abbildbarkeit ein. Letztere wird im Weiteren aus dem Spezialfall der Subsegment-Abbildbarkeit entwickelt. Eine segment-thematische Relation R ist auf ein Subereignis abbildbar oder subereignisabbildbar, wenn beobachterseits zu jedem Teil eines gelabelten Segmentes ein Teil von e angenommen werden kann, so dass wiederum R gilt. Wir definieren genauer: Eine segment-thematische Relation R S(L,B),{E} ist für ein VideoSegment S eines cinematographischen Dokuments für eine Beobachtermenge B für eine vorgegebene Labelmenge L subereignis-abbildbar, wenn aus (s,e) ∈ R S(L,B),{E} für ein s ′ <s<S mit l s =l s ′ folgt, dass ein e ′ <e existiert mit (s ′ ,e ′ ) ∈ R S(L,B),{E} . Dies gilt gleichermaßen für Vorgänge, die “ abbauen ” (z. B. “ Apfel essen ” ) oder “ aufbauen ” (z. B. “ Legoturm bauen ” ). 19 Eine segment-thematische Relation R ist auf Subsegmente eines VideoSegmentes S abbildbar oder subsegment-abbildbar, wenn es für R zu jedem beobachterseits konzep- 19 Zur Repräsentation bieten sich hier Raum-Zeit-Diagramme an (cf. (Krifka 1989: 159 f.)). In einem Raum-Zeit- Diagramm repräsentiert eine Koordinate den Raum, die andere die Zeit. Objekte werden als Linie bzw. Band, entsprechend ihrer räumlichen Ausdehnung, dargestellt. Ereignisse werden zeitlich lokalisiert und entsprechend ihrer zeitlichen Ausdehnung auf der Zeitachse abgebildet. Auf diese Weise wird das Zusammenwirken von Objekt und Ereignis visualisiert, insbesondere wird sichtbar, ob - und wenn ja, wie - sich die räumliche Größe/ Ausdehnung im Zeitverlauf ändert. Die folgende Abb. zeigt zwei Raum-Zeit-Diagramme. 258 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) tionalisierbaren Teil eines Ereignisses einen gleich gelabelten Teil eines gelabelten Segmentes in S gibt, das wiederum in der R-Beziehung zu dem Teilereignis steht. - Beim Essen eines Apfels entspricht dann also jedem von B konzeptionalisierten Teil des Essens ein Teil des abgebildeten Apfels. Es ergibt sich: Eine segment-thematische Relation R S(L,B),{E} ist in einem VideoSegment S eines cinematographischen Dokuments für eine Beobachtermenge B für eine vorgegebene Labelmenge L subsegment-abbildbar, wenn aus (s,e) ∈ R S(L,B),{E} und e ′ < e folgt, dass es ein s ′ <s gibt mit (s ′ ,e ′ ) ∈ R S(L,B),{E} und l s =l s ′ . Für das Essen eines Apfels heißt das, dass man für den Fortschritt eines Essvorgangs auch jeweils eine entsprechende “ Apfel-Pixelmenge ” in S angeben kann. Das funktioniert natürlich nur in speziellen Überwachungssituationen einer solchen Handlung (in einer “ vollständigen ” Aufzeichnung eines Ess-Experimentes, etc.). In der “ normalen ” filmischen Raffung einer Handlung ist dagegen i. Allg. nicht für jeden denkbaren Teil einer Esshandlung ein passendes Segment vorhanden. Vielmehr setzt die filmische Repräsentation auf die Interpolationsfähigkeiten des menschlichen Beobachters: Für ein diegetische Ereignis vom Typ ESSEN wird er über die sichtbare Verkleinerung hinaus ggf. zusätzliche Verkleinerungen des Apfels in der Diegese annehmen. Darüber hinaus muss in der obigen Situation das abgebildete Apfelsegment tatsächlich kleiner werden, um der Definition zu genügen, da die verwendete “ < ” -Relation irreflexiv ist. Dies verlangte für ein vollständiges Abbilden des Apfelessens, dass relativ zur Kamera z. B. nicht “ auf der Rückseite ” ein Bissen genommen werden darf. Aufbauend auf diesen Überlegungen ist eine allgemeinere Definition der Subobjekt- Abbildbarkeit zu entwickeln. Zur kompakten Darstellung wird im Weiteren die folgende Notation zusätzlich verwendet: l Für eine ShotRegion s label i ; < T i wird ein Stern als “ Wildcard ” verwendet, wenn die Nummerierung innerhalb der Einstellung irrelevant ist. l Konzeptionalisiert ein Beobachter eine bereits gelabelte ShotRegion in einer (leicht) veränderten, z. B. verkleinerten, Form, wird diese ShotRegion mit einem Strich gekennzeichnet: s label i ; 0 und ggf. auch s label i ; 00 . l Treten mehr als zwei Veränderungen in Folge auf, werden zur Kennzeichnung Zahlen in Klammern verwendet: s label i ; ð i Þ . Es gebe im Beispiel k ≥ 1 Apfelsegmente, die im Filmbild sichtbar vertilgt werden: s apfel i 1 ; 1 ð Þ ; beißen 1 ð Þ ; s apfel i 2 ; 2 ð Þ ; beißen 2 ð Þ ; . . . ; s apfel i k ; k ð Þ ; beißen k ð Þ Den Segmenten s apfel i ; ð Þ werde für 1 ≤ ν ≤ k beobachterseits jeweils ein diegetisches Apfelstück apfelteil ν zugeordnet. Dieses diegetische Apfelstück befindet sich in der diegetischen Raumzeit DieSpaceTime = DieSpace x DieTime. In dieser schätzen die Beobachter B ∈ B das Das linke Diagramm zeigt eine Situation, bei der das Objekt dem Ereignis nach und nach unterworfen wird und dabei verschwindet, wie dies z. B. bei “ einen Apfel essen ” der Fall ist. Das rechte Diagramm zeigt eine Situation, in der das Objekt wächst. Ein Beispiel hierzu ist “ einen Legoturm bauen ” . Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 259 raumzeitliche Urbild aller filmischen Messungen des gegebenen cinematographischen Dokumentes. 20 Schätzungen werden für VideoSegmente S durch eine Abbildung dieS(B,S) zur Schätzung der Raumdiegese und eine Abbildung dieT(B,S) zur Schätzung der Zeitdiegese vorgenommen (cf. Schmidt 2008: Abschnitt 4). Für ein Apfelsegment s apfel i ; ð Þ < T i gibt damit dieS B ; s apfel i ; ð Þ dieS B ; T i ð Þ , B ∈ B, 1 ≤ ν ≤ k die Raumdiegese von apfelteil ν an. Für 1 ≤ ν ≤ k besteht apfelteil ν ⊆ DieSpaceTime = DieSpace x DieTime aus einer räumlichen Komponente o ⊆ DieSpace und einem zeitlichen Verhalten t ⊆ DieTime. Für den Apfel ist hier die räumliche Komponente wesentlich, sofern mit heutigen Mitteln aus den filmischen Messdaten unter der raumdiegetischen Interpretation von dieS mit o eine gute Schätzung bereitgestellt werden kann: o ¼ dieS B ; s apfel i ; ð Þ , B ∈ B, 1 ≤ ν ≤ k. Im Falle einer filmischen Raffung liegt damit skizziert folgende Situation vor: Teilereignis e 1 ð Þ e 2 ð Þ . . . e ( μ -1) e ð Þ e þ 1 ð Þ . . .. e k ð Þ Objekt der Diegese (räumliche Komponente) o 1 ð Þ o 2 ð Þ o - 1 ð Þ o ð Þ o þ 1 ð Þ o k ð Þ Segment s label i 1 ; 1 ð Þ s label i 2 ; 2 ð Þ s label i - 1 ; - 1 ð Þ s label i ; ð Þ s label i þ 1 ; þ 1 ð Þ s label i k ; k ð Þ Aufgrund der angenommenen filmischen Raffung “ fehle ” das Segment s label i ; ð Þ , 1 ≤ μ ≤ k. An der Stelle schätze der Beobachter ein Teilereignis mit der zugehörigen räumlichen Komponente o ð Þ eines Objektes objekt ð Þ . Die Basis dieser Schätzung ist, dass wenigstens s label i - 1 ; - 1 ð Þ und/ oder s label i þ 1 ; þ 1 ð Þ beobachtet werden und damit o - 1 und/ oder o þ 1 zugrunde gelegt werden können. Wenn nun aus s label i - 1 ; - 1 ð Þ ; e - 1 ð Þ ∈ R S(L,B),{E} oder s label i þ 1 ; þ 1 ð Þ ; e þ 1 ð Þ ∈ R S(L,B),{E} folgt, dass beobachterseits jeweils auch ein Teilobjekt in der Diegese mit räumlicher Komponente o mit o - 1 o oder o o þ 1 angenommen werden kann, für das beobachterseits ein fehlendes Segment ŝ o in einer geeigneten filmischen Messung mit dieS(B, ŝ o )= o mit s label i - 1 ; - 1 ð Þ < ŝ o oder ŝ o < s label i þ 1 ; þ 1 ð Þ und ð ŝ o ; e ð Þ Þ ∈ R S(L,B),{E} geschätzt werden kann, dann liegt eine Form der Subobjekt-Abbildbarkeit vor. Auch der Fall s label i - 1 ; - 1 ð Þ = ŝ o oder ŝ o = s label i þ 1 ; þ 1 ð Þ kann eintreten, wenn in der Diegese ein zeitlicher Vorgang ohne im Filmbild sichtbare räumliche Veränderungen angenommen wird. Für die Äpfel essende und bespielende Johanna ist dies z. B. der Fall, wenn sie einen (rotationssymmetrischen) Apfel rotiert. Dann kann es passieren, dass alle geschätzten Segmente in der Diegese und auch die zugehörigen Segmente im Filmbild gleich groß sind. Wenn nun aus ð s apfel i ; ð Þ ; essen ð Þ Þ ∈ R S(L,B),{ESSEN} und e ′ < essen ð Þ folgt, dass für 1 ≤ ν ≤ k beobachterseits jeweils auch ein o ′ ⊂ o und ein fehlendes s ′ mit dieS(B,s ′ )=o ′ , s ′ < s oder s ′ = s mit (s ′ ,e ′ ) ∈ R S(L,B),{ESSEN} angenommen werden kann, dann liegt eine Form der Subobjekt- 20 Als formales Objekt hat dieser Raum kaum Eigenschaften - nichträumliche und nichtzeitliche Beziehungen zwischen Objekten und speziell zwischen Akteuren bleiben (beim bisherigen Stand der Dinge) in DieSpaceTime unmodelliert (cf. (Schmidt 2008: Abschnitt 4)). 260 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) Abbildbarkeit vor. Wir definieren in diesem Sinne Subobjekt-Abbildbarkeit kompatibel mit Subsegment-Abbildbarkeit, die somit ein “ vollständiger ” Spezialfall der Subobjekt-Abbildbarkeit ist: Eine segment-thematische Relation R S(L,B),{E} ist in einem VideoSegment S eines cinematographischen Dokumentes von einer Beobachtermenge B für eine vorgegebene Labelmenge L subobjekt-abbildbar, l wenn aus (s,e) ∈ R S(L,B),{E} und e ′ <e folgt, dass es tatsächlich ein s ′ <s gibt mit (s ′ ,e ′ ) ∈ R S(L,B),{E} und l s =l s 0 , so dass dieS(B,s ′ ) dieS(B,s) gilt oder l wenn aus s label i - 1 ; - 1 ð Þ ; e - 1 ð Þ ∈ R S(L,B),{E} oder s label i þ 1 ; þ 1 ð Þ ; e þ 1 ð Þ ∈ R S(L,B),{E} folgt, dass beobachterseits jeweils auch ein Teilobjekt in der Diegese mit räumlicher Komponente o mit o - 1 o oder o o þ 1 angenommen werden kann, dem ein fehlendes Segment ŝ o im Filmbild entspricht mit s label i - 1 ; - 1 ð Þ ≤ ŝ o ≤ s label i þ 1 ; þ 1 ð Þ oder s label i - 1 ; - 1 ð Þ ≥ ŝ o ≥ s label i þ 1 ; þ 1 ð Þ , so dass dieS(B, ŝ o )= o und ð ŝ o ; e ð Þ Þ ∈ R S(L,B),{E} gilt. Die zweite Anforderung ist strenger als die bloße Annahme eines zusätzlichen diegetischen Teilobjektes: Die Sensordaten der abgebildeten Apfelstücke liefern hier die Interpolationsbasis für die nicht abgebildeten Stücke, deren filmische Abbildung aber beobachterseits als möglich angenommen werden kann (heutige Mittel der graphischen Datenverarbeitung erlauben oft eine bildliche Interpolation; klassisch ist gemäß den obigen Festlegungen ein Nachdreh theoretisch möglich). Es gibt damit nicht die Möglichkeit diegetischer Hirngespinste: Vielmehr wird das Fehlen eines Teilsegmentes tatsächlich als filmische Raffung modelliert. Ist eine segment-thematische Relation sowohl subereignisals auch subobjekt-abbildbar, sind die jeweiligen verankernden Segmente und das zugehörige Ereignis (teilweise) “ aneinandergekettet ” . Deshalb kann man leicht einen Teil eines Objektes oder eines Ereignisses in der filmischen Repräsentation weglassen (ein Apfelstück oder einen Biss als Teil eines Essvorgangs), ohne dass diese Aneinanderkettung beobachterseits in Frage gestellt wird. Ein Essvorgang ist über diese Aneinanderkettung hinaus “ gradueller ” Natur, wenn zu seiner Konzeption zusätzlich noch Objekt-Eindeutigkeit sichergestellt werden kann, damit ausgeschlossen ist, dass in einer filmischen Repräsentation in verschiedenen Einstellungen für dasselbe Essereignis auch “ inhaltlich verschiedene ” Pixelmengen angegeben werden. Es gilt: Eine segment-thematische Relation R S(L,B),{E} ist in einem Segment S eines cinematographischen Dokuments für eine Beobachtermenge B und eine vorgegebene Labelmenge L graduell, wenn gilt: (1) R S(L,B),{E} ist objekt-eindeutig, (2) R S(L,B),{E} ist subereignis-abbildbar, (3) R S(L,B),{E} ist subobjekt-abbildbar. Zur filmischen Verankerung eines graduellen Ereignisses ist noch festzulegen, was es heißt, dass dieses in einer Menge von Einstellungen “ graduell funktioniert ” . Es gilt: Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 261 Eine Ereignisklasse E: EVT ist in einem VideoSegment S für eine Beobachtermenge B für eine vorgegebene Labelmenge L durch R S(L,B),{E} graduell (n,m)-verankerbar, wenn die Ereignisklasse E in S (n,m)-verankert und R S(L,B),{E} graduell ist. Wenn nur die Relation R ohne die Indizes für den Zusammenhang wichtig ist, wird eine solche Ereignisklasse kurz als in S graduell (n,m)-R-verankerbar behandelt. Damit sind die Bedingungen benannt, die es erlauben, für eine filmische Repräsentation von Johannas Essen eines Apfels Gradualität anzunehmen. 9 Activities, Accomplishments und Achievements In einem einflussreichen Papier wurden in (Vendler 1959) vier Typen für Verben angegeben, die eine auch temporale Struktur der mit ihnen repräsentierbaren Situationen implizieren: l States: z. B. know, love; l Activities: z. B. run, push (a cart); l Accomplishments: z. B. run a mile, draw a circle; l Achievements: z. B. find, recognize, spot. (Halliday & Matthiessen 2000: 471) charakterisieren zur Abgrenzung der Vendler ’ schen Typen diese mit den drei Dimensionen l Veränderung (change) versus keine Veränderung (no change), l (Zeitlich) begrenzt (bounded) versus unbegrenzt (unbounded), l andauernd (duration) versus punktuell (no duration). Es ergibt sich das in Abb. 4 dargestellte Bild. Abb. 4: Graphische Repräsentation der Vendler ’ schen Eventtypen Grundsätzlich kann auch in einer filmischen Repräsentation jede durch eine einzelne Einstellung gemessene oder durch ein VideoSegment repräsentierte (Teil-)Situation von einer Beobachtermenge als unveränderter Zustand (state) oder als zustandsänderndes 262 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) Ereignis (event) konzeptionalisiert werden. Zustände werden - wie schon bei der Festlegung der Notation in Abschnitt 3 festgehalten - hier keiner systematischen Behandlung unterworfen; es geht hier nur um die Modellierung von Ereignissen. Es verbleiben Aktivitäten, Accomplishments und Achievements. Die Veränderungen von Aktivitäten und Accomplishments sind nicht nur andauernd, sondern zusätzlich auch graduell: Das gerade definierte Konzept der Gradualität zeichnet Aktivitäten und Accomplishments aus (s. u.). Unter Handlungsgesichtspunkten werden Aktivitäten nicht durch eine Zielerreichung beendet, während genau dies für Accomplishments und Achievements der Fall ist. Wenn man also aus einer filmischen Repräsentation einer Handlung die Gradualität dieser erschließen kann, braucht man nur noch ein Kriterium für Telizität, um auch zwischen Aktivitäten und Accomplishments unterscheiden zu können: Aktivitäten sind atelisch unbegrenzt, Accomplishments (neben Achievements) sind telisch begrenzt. Telizität hängt ab von der Kumulativität des Objektes (wie Johannas Äpfel), das in der PAT-Relation zu dem konzeptualisierten Ereignis steht. “ Äpfel ” sind kumulativ in dem Sinne, dass “ Äpfel ” und “ Äpfel ” wieder “ Äpfel ” ergeben. Allgemein gilt für alle Prädikate P (Krifka 1989: 34): CUM(P) genau dann, wenn (i) ∀ x,y (P(x) ∧ P(y) → P(x ⊕ y)) (ii) ∃ x,y (P(x) ∧ P(y) ∧ -(x = y)) Dagegen ist “ 2Äpfel ” gequantelt: kein Teil von “ 2Äpfel ” ist üblicherweise “ 2Äpfel ” . Allgemein gilt: QUA(P) genau dann, wenn ∀ x,y (P(x) ∧ y < x → -P(y)) Die Kombination eines graduellen Ereignisses wie “ essen ” mit kumulativen Objekten ( “ Äpfel ” ) ergibt eine Aktivität: 21 [+CUM, +GRAD → ACTIVITY]. Berücksichtigt man noch, dass gilt (Singh & Singh 1995: 3) CUM(P) → - QUA(P), lässt sich für Accomplishments festlegen: [+QUA, +GRAD → ACCOMPLISHMEN T]. Mit der der oben angegebenen Definition der graduellen Verankerung können nun auch die “ Aktivitäts-Regel ” [+CUM, +GRAD → ACTIVITY] und die “ Accomplishment-Regel ” [+QUA, +GRAD → ACCOMPLISHMEN T] auf cinematographische Dokumente übertragen werden: In einem VideoSegment S eines cinematographischen Dokumentes ist für eine Beobachtermenge B eine Ereignisklasse E als Aktivität verankerbar, wenn diese in S graduell (n,m)-PAT-verankerbar ist und die instanziierten Objekte, die in der PAT S(L,B),{E} -Relation zu dem konzeptualisierten Ereignis stehen, beobachterseits als kumulativ aufgefasst werden können. 21 Die Notation folgt (Singh & Singh 1992: 530): Objekteigenschaft ; PAT - RelationsEigenschaft ! Handlungstyp ½ . Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 263 In einem VideoSegment S eines cinematographischen Dokumentes ist für eine Beobachtermenge B eine Ereignisklasse E als Accomplishment verankerbar, wenn diese in S graduell (n,m)-PAT-verankerbar ist und die instanziierten Objekte, die in der PAT S(L,B),{E} -Relation zu dem konzeptualisierten Ereignis stehen, beobachterseits als gequantelt aufgefasst werden können. Nur die Differenz für die beobachterseitige Konzeptionalisierung des filmisch repräsentierten Objektes entscheidet also über die Differenz zwischen Aktivität und Accomplishment bei der Verankerung einer Ereignisklasse in einem Videosegment. Es gehört zur filmischen Kunst, die Telizität eines graduellen Vorganges den Beobachtern zu vermitteln, um filmisch die Differenz nahezulegen, die sprachlich z. B. zwischen “ etwas aufessen ” und “ an etwas herumessen ” besteht. Wie Telizität jeweils filmisch umgesetzt wird, so dass beobachterseits klar ist, dass Johanna (telisch) einen Apfel (auf )isst oder sie sich (atelisch) die Zeit mit Apfelessen vertreibt, ist jedenfalls nicht in einem Lexikon nachzuschlagen. Eine cinematographische Repräsentation kann natürlich offenlassen, ob ein graduelles Ereignis telisch oder atelisch aufgefasst werden soll. Dies kriegt man ja auch “ im Leben ” nicht immer heraus. Soll aber einem Beobachter gezeigt werden, dass etwas telisch oder atelisch ist, greifen die obigen Randbedingungen, die es unabhängig von syntagmatischen Strukturen erlauben, eine filmische Realisation einerAktivität oder eines Accomplishments auszumachen. Es fehlt noch die Behandlung von Achievements wie “ 2Äpfel erspähen ” . Es gilt typischerweise: [+QUA, - GRAD → ACHIEVEMEN T]. Im Unterschied zu Aktivitäten und Accomplishments liegt mit einem Achievement kein graduelles Ereignis vor, das man in veridikalen filmischen Repräsentationen zeitlich erstrecken kann (in Animationen etwa eines Geistesblitzes ist dies eine andere Frage). Die filmische Repräsentation eines Achievements ist deshalb erwartbar grundsätzlich anderer Natur als die filmische Repräsentation gradueller Ereignisse, da der temporale Kern eines Achievements momenthaft ist. 22 Die Repräsentation eines Achievements in einer Einstellung erfolgt “ natürlich ” einmal in einer Einstellung und zeichnet diese ggf. aus. Für eine Aktivität oder ein Accomplishment ist die Repräsentation in einer einzigen Einstellung dagegen keineswegs natürlich, aber natürlich möglich. Mit dem bisherigen Theoriegerüst kann nun für Aktivitäten, Accomplishments und Achievements die Frage beantwortet werden, was die Metz ’ sche “ Plansequenz ” oder “ Sequenzeinstellung ” - wir verwenden den Terminus “ szenische Einstellung ” - genau ist. Dies geschieht im nächsten Abschnitt 10. Dann werden in Abschnitt 11 grundsätzliche Überlegungen für die Repräsentation von graduellen Handlungen in mehreren Einstellungen gemacht. Diese werden im Abschnitt 12 für Aktivitäten und im Abschnitt 13 für Accomplishments spezialisiert. 22 Die Allen ’ schen Zeitlogik in der in (Allen & Hayes 1985) publizierten Fassung liefert einen Anhaltspunkt für die Modellierung aller möglichen filmischen Inszenierungen eines Achievements mit der Einführung von sogenannten “ nests ” , die Anfänge und Enden von Momenten sein können. 264 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) 10 Die autonome szenische Einstellung Für Aktivitäten, Accomplishments und Achievements kann für das Szenario: (R1) Es liegt eine Einstellung vom Typ 1 ½ ½ 1 j vor zunächst gesagt werden, dass eine Instanziierung einer Handlung diese Einstellung auszeichnen muss und damit eine (1,1)-Verankerung dieser Handlung unter allen R vorliegt. 23 Für diese Einstellung muss ferner gelten, dass sie zu keinem großen Syntagma gehört. Gehörte eine solche Einstellung zu einem großen Syntagma, müsste sie gar nicht mehr klassifiziert werden. Sie würde dann zum Beispiel einfach zu einer Szene oder Sequenz dazugehören wie in (Schmidt & Strauch 2002) sowie (Bateman & Schmidt 2011/ 2014) definiert. Insgesamt kann man also die “ Singularitätsannahme ” machen, dass eine autonome Einstellung vom Typ 1 ½ ½ 1 j nicht in anderen Einstellungsmengen “ verschwindet ” . Das die Einstellung auszeichnende Ereignis kann eine Aktivität, ein Accomplishment oder ein Achievement sein, was unterschiedliche Randbedingungen filmischer Realisationen zur Folge hat. Eine eine Aktivität repräsentierende Einstellung vom Typ 1 ½ ½ 1 j , die die obige Singularitätsannahme erfüllt und die Aktivität vollständig repräsentiert, also (1,1)-verankert ist, zeigt sich im filmischen Schaffen oft dort, wo ein Akteur mit einer Aktivität in einem eigenen Raumzeitgebiet vor einer “ eigentlichen ” Handlung eingeführt wird: Johanna stretcht sich morgens im Haus - vor ihrem Gang zum Apfelbaum im Garten. Wenn ein Accomplishment vollständig in einer Einstellung vom Typ 1 ½ ½ 1 j repräsentiert ist, also (1,1)-verankert ist und ein eigenes Raumgebiet repräsentiert, liefert dies didaktisch besonders griffige Beispiele für eine szenische Einstellung. In der folgenden Beispielmodellierung werde das Ereignis “ Johanna isst 2Äpfel ” repräsentiert. In S=(T 1 ) werde gezeigt, dass Johanna zwei Äpfel herzhaft vertilgt, wobei der letzte Bissen nur einen Stiel übriglässt - letzteres ist der “ kreative ” Teil, der die Telizität durch die Inszenierung eines natürlichen Endes klar machen soll. 24 Für das vom Beobachter konzeptionalisierte Ereignis “ essen ” , inst B (essen,ESSEN) gebe es wenigstens zwei Subereignisse essen ′ <essen und essen ′′ <essen mit inst B (essen ′ ,ESSEN) und inst B (essen ′′ ,ESSEN). Das initial “ vollständige ” Apfelsegment s 2äpfel 1 ; verkleinere 25 sich bei jedem Subereignis: Es gelte also s 2äpfel 1 ; > s 2äpfel 1 ; 0 > s 2äpfel 1 ; 00 . Filmisch wird auf diese Weise eine Accomplishment-Lesart für Beobachter nahegelegt. Für die segment-thematische Relation PAT S(L,B),E ergibt sich: 23 Zeigt nur diese Einstellung mehrere Instanziierungen der zugehörigen Ereignisklasse im ganzen Dokument, liegt spezieller bei m Instanziierungen eine Einstellung vom Typ 1 ½ ½ m j für m>1 vor. 24 Dies ist quasi die filmische Analogie zum Präfix “ auf- ” in “ aufessen ” . 25 Grundsätzlich bedeutet “ Verkleinerung ” in einer solchen Situation, dass sich die dargestellten Äpfel (die Äpfel in der Diegese) verkleinern und nicht die Fläche der mit “ 2äpfel ” gelabelten Pixelmenge. Die Fläche könnte sich sogar vergrößern, wenn etwa die Kamera heranzoomt. Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 265 PAT S ð L ; B Þ ; f ESSEN g ¼ s ; e ð Þj s 2 S L ; B ð Þ ; inst B e ; E ð Þ ; E 2 E f g ¼ s ; e ð Þj s 2 S PERSON ; 2ÄPFEL ; HINTERGRUND f g ; B ð Þ ; f inst B e ; E ð Þ ; E 2 ESSEN f gg ¼ s 2äpfel 1 ; 0 ; essen 0 ; s 2äpfel 1 ; 00 ; essen 00 j inst B 2äpfel ; 2ÄPFEL ð Þ ; n inst B essen ; ESSEN ð Þ ; inst B essen 0 ; ESSEN ð Þ ; inst B essen 00 ; ESSEN ð Þ ; essen 0 < essen ; essen 00 < essen g Die Relation PAT S(L,B),{ESSEN} kann beobachterseits als subereignis-abbildbar aufgefasst werden. Sie kann subsegment-abbildbar sein, wenn man davon ausgeht, dass jeder der zwei obigen Bissen einen ganzen (und dann wohl jeweils kleinen) Apfel verschlingt. Andernfalls muss sie für die Beobachtermenge subobjekt-abbildbar sein. Sie erfüllt zudem für die Beobachtermenge die Forderung nach Objekt-Eindeutigkeit, wenn die (Teil-)Segmente s 2äpfel 1 ; 00 , s 2äpfel 1 ; 0 und s 2äpfel 1 ; mit dem gleichen Label “ 2äpfel ” gelabelt werden. Die Ereignisklasse ESSEN ist damit in der vorgestellten Einstellung für eine geeignete Beobachtermenge, die die Quantelung der zwei Äpfel annimmt, graduell (1,1)-PAT-verankerbar und damit als ein Accomplishment verankerbar. Im Falle eines Achievements, dass “ in ” einer Einstellung diese auszeichnend repräsentiert ist, muss eine Instanz e existieren mit inst B (e,E), das Objekt, das in der PAT S(L,B),{E} -Relation zu dem konzeptionalisierten Ereignis steht, gequantelt sein und E in dieser Einstellung (1, m)-verankert sein. In der vorliegenden Arbeit gehen wir davon aus, dass ein nur einmal instanziiertes Achievement “ natürlich ” nur in einer Einstellung repräsentiert werden kann, also stets (1,1)-PAT-verankert ist, wenn dieses Achievement diese Einstellung auszeichnet. Alles andere (Mehrfachrepräsentation desselben Achievements, etc.) muss einer eigenen Analyse punkthafter filmischer Ereignisrepräsentationen vorbehalten bleiben (cf. auch Abschnitt 15). 11 Graduelle Handlungen und (autonome) Segmente Graduelle Handlungen lassen sich im Unterschied zu punkthaften Handlungen leicht auf mehrere Einstellungen verteilen. Es stehen mit den obigen Ausführungen auch die wesentlichen Mittel bereit, für Aktivitäten und Accomplishments in den Szenarien (R2) der Verteilung eines Ereignisses auf mehrere Einstellungen vom Typ n ½ ½ 1 j , n > 1, sowie (R3) einer Einstellung vom Typ 1 ½ ½ m mit m > 1 (ggf. mit einer Fusion und dann vom Typ 1 ½ ½ mF ) Randbedingungen filmischer Realisationen anzugeben. Dazu sind vorab einige Präzisierungen und Festlegungen für diese beiden Typen nötig. Für das Szenario (R2) vom Typ n ½ ½ 1 j liegt nun definitionsgemäß eine (n,1)-Verankerung einer Handlung unter allen R vor. Für die Repräsentation einer graduellen Handlung - ein Achievement ist ja mit den obigen Einschränkungen ohnehin ausgeschlossen - in n Einstellungen vom Typ n ½ ½ 1 j kann ferner wieder angenommen werden, dass die betroffenen 266 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) Einstellungen nicht durchweg anderweitig syntagmatisch gebunden sind. Zu behandeln ist daher im Weiteren nur der Fall einer nicht syntagmatischen Gruppierung von wenigstens zwei Einstellungen eines Segmentes vom Typ n ½ ½ 1 j aus verschiedenen Raumgebieten durch eine Beobachtermenge zur Repräsentation einer Aktivität oder eines Accomplishments. Im Szenario (R3) liegt für den Typ 1 ½ ½ m für m > 1 nach dem in Abschnitt 3 Gesagten unter den m Handlungen wenigstens eine vor, die auch in einer weiteren Einstellung verankert ist in einem Segment S vom Typ n ½ ½ 1 j . Es gibt also ein Segment S=(E 1 , E 2 ,. . ., E n ) mit n > 1, so dass diese Handlung als “ Stammhandlung ” in S (n,1)-verankert ist. Wir diskutieren drei Fälle: l Es liegt mit der Einstellung vom Typ 1 ½ ½ m in S eine “ Nebenhandlung ” zur Stammhandlung in S vor, die das Layout von S nicht beeinflusst. In Abb. 5 sei eine solche “ Nebenhandlung ” für die Einstellung E 2 skizziert. Abb. 5: Stammhandlung mit vollständig repräsentierter Nebenhandlung Die Linien in den Einstellungskästen denotieren die Dauer einer Handlung. E 2 repräsentiert also zwei Handlungen und ist vom Typ 1 ½ ½ 2 . Ist die “ obere ” Nebenhandlung auf E 2 beschränkt, liegt spezifischer der Typ 1 ½ ½ 1 jþ 1 vor. Dieser Fall tritt insbesondere ein, wenn als zweite Handlung ein Achievement gegeben ist, das nach unseren Annahmen in Abschnitt 9 nur in einer Einstellung repräsentiert ist (für eine Visualisierung ersetze man in der Skizze die obere Linie in E 2 für ein Achievement durch einen Punkt). l In Abwandlung des ersten Beispiels liege mit der Einstellung vom Typ 1 ½ ½ m in S eine andere Handlung vor, die anderswo (nicht notwendig in S) fortgesetzt wird, ohne dass sie das Defaultlayout von S beeinflusst. In Abb. 6 sei dies für die Einstellung E 2 und E n skizziert, in denen beispielhaft eine auf zwei Einstellungen verteilte Handlung auch in S repräsentiert sei. Abb. 6: Stammhandlung mit teilweise repräsentierter Nebenhandlung Beide Einstellungen sind E 2 und E n hier vom Typ 1 ½ ½ 0 jþ 2 . l Im Unterschied zu den beiden vorigen Beispielen beeinflusse die Einstellung vom Typ 1 ½ ½ m das Layout von S. Dies kann auf vielfältigste Art und Weise geschehen. Ein filmisch wichtiges Beispiel ist für eine solche Situation eine Fusion einer Handlung in der Einstellung vom Typ 1 ½ ½ m (und damit der Fall 1 ½ ½ mF für m > 1) mit der Stammhandlung in S. Dann ist das Anfang oder das Ende beider Handlungen betroffen. In Abb. 7 sei eine solche Fusion für die Einstellung E 1 skizziert (eine entsprechend analoge Skizze kann man für E n mit vertauschten Rollen machen). Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 267 Abb. 7: Stammhandlung mit initialer Fusion einer Nebenhandlung E 1 ist hier vom Typ 1 ½ ½ 2F . Eine Anforderung für ein Defaultlayout bei einer solchen Fusion mit der Stammhandlung der Einstellungsmenge vom Typ n ½ ½ 1 j ist, dass die fusionierende Einstellung vom Typ 1 ½ ½ 2F am Anfang oder am Ende des zugehörigen Segments steht und so dessen Defaultlayout beeinflusst. Kommt also eine Einstellung vom Typ 1 ½ ½ m in einem Segment S vom Typ n ½ ½ 1 j vor, können wir für das Weitere zunächst festhalten: l Es liegt nur wenigstens eine Handlung, die nur in der Einstellung vom Typ 1 ½ ½ m repräsentiert ist, vor mit keiner weiteren Handlung, die anderswo im Dokument repräsentiert ist. Das Layout von S wird nicht beeinflusst. Dann liegt der Typ 1 ½ ½ m 0 jþ 1 für m'+1=m > 0 vor. - Dies ist der Fall einer oder mehrerer Nebenhandlungen in einer Einstellung, insbesondere auch bei nebenläufigen Achievements. l Es gibt in der Einstellung vom Typ 1 ½ ½ m eine Handlung, die auch in einer anderen Einstellung repräsentiert ist, verschieden von der Stammhandlung von S ist und das Layout von S ebenfalls nicht beeinflusst (aber ggf. eigene Layoutanforderungen über mehrere Einstellungen stellt). Dann liegt der Typ 1 ½ ½ m 0 jþ m 00 þ 1 für m=m ′ +m ′′ +1 vor. - Wichtige Beispielmengen sind hier in S schon beginnende Handlungen, die sich erst später und dann unabhängig von S mit ggf. eigenen Layoutanforderungen entfalten. l In der Einstellung vom Typ 1 ½ ½ m liegt eine Handlung vor, die das Layout von S beeinflusst, zum Beispiel dadurch, dass sie mit der Stammhandlung in S in irgendeiner Weise “ wechselwirkt ” . - Eine besonders wichtige Beispielmenge ist, wie eingangs bereits gesagt, das Vorliegen von Fusionen in S mit einer Handlung aus einer Einstellung vom Typ 1 ½ ½ mF : Eine generelle Untersuchung dieses letzten Falles muss in weiteren Arbeiten geschehen. Wir beschränken uns auf Fusionen, da diese ein filmsyntagmatisch besonders wichtiges Beispiel für Handlungen darstellende Filme sind und solche Filme von natürlichsprachlichen Texten besonders stark unterscheiden (Bateman & Schmidt 2011/ 2014: 200). Ebenfalls aus Platzgründen wird für diesen Fall im Weiteren nicht unterschieden, ob bei einer einleitenden bzw. ausleitenden Einstellung (wie in den obigen Beispielen in E 1 bzw. E n ) für den Übergang ein diegetischer Zusammenhang (z. B. durch eine Ursache-Wirkungs- Beziehung) besteht oder ob die Zusammenstellung willkürlich (im filmischen “ telling of the story ” ) erfolgt. 26 Vor dem Hintergrund dieser Einschränkungen und Festlegungen können wir nun die cinematographische Repräsentation von Aktivitäten und Accomplishments für Realisa- 26 Ob und wie die nicht in der fusionierenden Einstellung repräsentierten Teile der in Rede stehenden zweiten Handlung in den anderen Einstellungen des Dokuments verteilt sind, ist a priori freigestellt bis auf die Anforderung für ein Defaultlayout, dass alle anderen Einstellungen der zweiten Handlung vor dem Anfang (respektive: nach dem Ende) der fusionierenden Einstellung layoutiert werden. 268 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) tionen des Typs n ½ ½ 1 j für n>1 (mit dem Szenario (R2)) und 1 ½ ½ m für m > 1 (mit dem Szenario (R3)) diskutieren. 12 Zur filmischen Repräsentation von Aktivitäten Aktivitäten legen aus sich heraus für ihre filmische Repräsentation keine Ordnung nahe, wie sich bei der Analyse von Aktivitäten sowohl im Szenario (R2) als auch (R3) zeigt. (R2) Dass die Repräsentation einerAktivität in mehreren Einstellungen vom Typ n ½ ½ 1 j für diese bis auf die ggf. repräsentierten Randpunkte (Anfang und Ende) keine Ordnung erzwingt, folgt aus der “ Subintervall-Property ” , wie sie schon (Bennett& Partee 1978) benutzen. Mit dieser kann man um z. B. zwischen run und run a mile unterscheiden: Wenn run für ein diegetisches Zeitintervall t wahr ist, dann ist es auch für jeden Teil von t wahr - in der Notation von (Hock & Krifka 2002: 1): φ ist atelisch, wenn gilt: Wenn [ φ ](t) und t ′⊆ t, dann gilt auch [ φ ](t ′ ). Wenn etwas für jedes Subintervall gilt, ist die Reihenfolge der (ggf. partiellen) filmischen Repräsentation der Subintervalle in Einstellungen für die Zeitdiegese der Aktivität unerheblich. Bezogen auf den Inhalt der Aktivität ist einem Beobachter dann die Ordnung der Einstellungen des Segmentes bis auf die möglicherweise repräsentierten Randpunkte einerlei und jede ihrer Permutationen recht. Insbesondere genügt ihm jede layoutierte Reihenfolge, wenn er z. B. nur die Tatsache extrahieren soll, dass die Aktivität “ Äpfel essen ” ohne Anfang und Ende repräsentiert wird. Andere, ggf. ästhetische Randbedingungen, die eine Ordnung der Einstellungen nahelegen (zum Beispiel durch Ordnung von Einstellungsgrößen), bleiben dabei natürlich unberücksichtigt. 27 Wenn beispielsweise Johanna an Äpfeln ohne einen für einen Beobachter erkennbaren Essfortschritt “ herumnagt ” , dann konzeptionalisiert ein Beobachter i. Allg. keine telische Essgeschichte. Johannas atelische Essaktivität sei für die Beobachter die einzig mögliche Bindung zwischen den jeweiligen Einstellungen im Dokument - die gegebenen Einstellungen sind ja nach Voraussetzung nicht in großen Syntagmen und damit also auch nicht in einem deskriptiven Syntagma (Schmidt 2008) gebunden. Johanna isst dann in wenigstens zwei verschiedenen Raumzeitgebieten einfach Äpfel: “ Johanna Äpfel ess -” {e | ∃ x (ESS(e) ∧ ÄPFEL(x) ∧ AG(e,johanna) ∧ PAT(e,x))}. Die Verankerung an die verschiedenen Raumzeitgebiete in einer filmischen Realisation erfolge mit den hier vorgestellten Methoden für Johanna und die Äpfel über die segmentthematische Relation PAT S(L,B),E für ein VideoSegment S mit zwei Einstellungen: S=(T 1 , T 2 ). Das einmal instanziierte Essereignis ‘ essen ’ sei in T 1 und T 2 zunächst graduell (2,1)verankerbar, indem Johanna m 1 -mal in T 1 und m 2 -mal in T 2 in einen Apfel beißt, m 1, m 2 >0. Für die segment-thematische Relation PAT S(L,B),E gilt in diesem Fall: 27 Möchte man einen Effekt über die Zeitdiegese hinaus erzielen durch Ordnung von Einstellungsgrößen, sind filmische Mechanismen im Spiel, die wir hier nicht betrachten, die aber für die Gesamtinszenierung natürlich sehr wichtig sein können. Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 269 PAT S ð L ; B Þ ; f ESSEN g ¼ s ; e ð Þj s 2 S L ; B ð Þ ; inst B e ; E ð Þ ; E 2 E f g ¼ s ; e ð Þj s 2 S PERSON ; ÄPFEL ; HINTERGRUND f g ; B ð Þ ; f inst B e ; E ð Þ ; E 2 ESSEN f gg ¼ s äpfel 1 ; ð 1 Þ ; essen ; . . . ; s äpfel 1 ; ð m 1 Þ ; essen ; n s äpfel 2 ; ð 1 Þ ; essen ; s äpfel 2 ; ð 2 Þ ; essen ; . . . ; s äpfel 2 ; ð m 2 Þ ; essen j inst B äpfel ; ÄPFEL ð Þ ; inst B essen ; E ð Þg Möchte man auch in der Repräsentation die mehrfachen Beißvorgänge sichtbar machen, die ja eine graduelle Interpretation filmisch nahelegen, kann man die PAT-Relation wie folgt beschreiben: PAT S ð L ; B Þ ; f ESSEN g ¼ s ; e ð Þj s 2 S L ; B ð Þ ; inst B e ; E ð Þ ; E 2 E f g ¼ s ; e ð Þj s 2 S PERSON ; ÄPFEL ; HINTERGRUND f g ; B ð Þ ; f inst B e ; E ð Þ ; E 2 ESSEN f gg ¼ s äpfel 1 ; ð 1 Þ ; beißen ð 1 Þ ; . . . ; s äpfel 1 ; ð m 1 Þ ; beißen ð m 1 Þ ; n s äpfel 2 ; ð 1 Þ ; beißen ð m 1 þ 1 Þ ; s äpfel 2 ; ð 2 Þ ; beißen ð m 1 þ 2 Þ ; . . . ; s äpfel 2 ; ð m 2 Þ ; beißen ð m 1 þ m 2 Þ j inst B äpfel ; ÄPFEL ð Þ ; beißen ð 1 Þ < essen für 1 i m 1 þ m 2 ; inst B essen ; E ð Þ Im VideoSegment S ist für die Beobachtermenge B die Ereignisklasse ESSEN dann als Aktivität verankerbar, wenn die Ereignisklasse ESSEN mit inst B (e,ESSEN) in S graduell (2,1)- PAT-verankerbar ist und die instanziierten Objekte der Klasse ÄPFEL, die in der PAT S(L,B),{E} - Relation zu dem konzeptualisierten Ereignis stehen, beobachterseits kumulativ aufgefasst werden können. Die in diesem Sinne den beiden Einstellungen gemeinsame Aktivität des Apfelessens kann das Segment für einen geeigneten Beobachter als autonomes Segment auszeichnen. Dies kann auch dann geschehen, wenn beide Einstellungen zwei verschiedenen syntagmatischen Strukturen der großen Syntagmatik angehören: Die Einstellung T 1 könnte eine Einstellung einer Szene sein, in der Johanna Äpfel auch betrachtet, und T 2 könnte Einstellung einer Sequenz sein, in der Johanna weitere Äpfel eines Baumes pflückt. Zwischen den beiden Einstellungen T 1 und T 2 gebe es nur den “ Link ” der Aktivität des Apfelessens. Dieser ist, wenn Anfang und Ende nicht repräsentiert sind, nicht gerichtet: Es könnte für diese Aktivität T 2 also vor T 1 stehen, so dass in einem Defaultlayout die Reihenfolge dieser Einstellungen wenigstens nicht aus Gründen der Zugehörigkeit zu diesem die Aktivität repräsentierenden Segment festgelegt werden muss. (R3) Es verbleibt der Typ 1 ½ ½ m , m>1. Liegt für diesen nur in einer einzigen Einstellung eine Aktivität als Nebenhandlung vor, führt dies pragmatisch oft zu einem “ Anreichern ” einer 270 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) Haupthandlung mit weiterem Treiben im Filmbild. Filmsyntagmatisch muss es mit den hier gegebenen Einschränkungen nicht weiter behandelt werden, wie wir in Abschnitt 11 mit der Kennzeichnung des Typs 1 ½ ½ m jþ 1 schon festgestellt haben. Bei Verteilung auf mehrere Einstellungen stellt eine Aktivität ebenfalls dann keine Defaultanforderungen an das Layout, wenn, wie gerade für (R2) gesehen, kein Anfang und kein Ende der Aktivität repräsentiert ist. Es verbleibt hier der Fall einer Einstellung vom Typ 1 ½ ½ mF , in der die Repräsentation wenigstens einer Aktivität endet oder beginnt und die Repräsentation wenigstens einer anderen Handlung beginnt oder endet. Unter Beteiligung einer endenden Aktivität an erster Stelle gibt es zunächst zwei Möglichkeiten bei der Fusion mit der Stammhandlung in einem Segment vom Typ n ½ ½ 1 j : l Eine Aktivität wird mit einer (Stamm-)Aktivität fusioniert: in einer Einstellung endet eine Aktivität und eine andere beginnt. Dann sind in der fusionierenden Einstellung die zwei Aktivitäten bei Instanziierung derselben Ereignisklasse geeignet (1,2)-verankert (etwa unterAG und PAT: Johanna nagt an Äpfeln herum; sie trifft in einer Einstellung Hans und stellt das Herumnagen ein; dieser beginnt ebenfalls, an Äpfeln herumzunagen) oder bei verschiedenen Ereignisklassen jeweils geeignet (1,1)-verankert (wiederum unter AG und PAT: dasselbe Szenario, aber Hans beginnt, ein Kaugummi zu kauen). Im Defaultlayout wird diese fusionierende Einstellung zwischen den (ggf. vorhandenen) Einstellungen, die andere Teile der ersten Aktivität repräsentieren, und (den notwendig vorhandenen weiteren) Einstellungen der Stammhandlung, die andere Teile der zweiten Aktivität repräsentieren, liegen. l Eine Aktivität wird mit einem (Stamm-)Accomplishment fusioniert: Wenigstens ein letzter Teil der Aktivität wird in derselben Einstellung gefolgt von einem ersten Teil des (ggf. bewirkten) Accomplishments. Im Defaultlayout wird daher diese Einstellung zwischen den sonstigen Einstellungen der Aktivität und der “ diegetisch ersten ” Einstellung des Accomplishments der Stammhandlung stehen (Beispiel: Es wird im Obstgarten in der Baumanlage gespielt und dann ein Apfelbaum in mehreren Einstellungen gefällt; der Fällvorgang beginnt in der Einstellung, in der der letzte Teil des Spielens repräsentiert wird). Damit sind alle möglichen Fusionen mit einer Aktivität an erster Stelle und einem Segment vom Typ n ½ ½ 1 j behandelt, da nach dem in Kapitel 9 und 10 Gesagten ein Achievement als Stammhandlung in einem Segment vom Typ n ½ ½ 1 j nicht in Frage kommt. Bei der Fusion mit einer Aktivität an zweiter Stelle sind im Wesentlichen dieselben Argumente zu führen. Insgesamt ist die cinematographische Repräsentation von Aktivitäten für Realisationen der Typen 1 ½ ½ 1 j , 1 ½ ½ mF für m > 1 und n ½ ½ 1 j mit n > 1 unter den oben genannten Einschränkungen behandelt. Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 271 13 Zur filmischen Repräsentation von Accomplishments Accomplishments legen für ihre filmische Repräsentation im Unterschied zu Aktivitäten eine Ordnung nahe. Für die Reihenfolge der ein Accomplishment repräsentierenden Einstellungen ist deshalb ein Defaultlayout festlegbar: Abfolgen auf der Leinwand entsprechen im Default diegetischen Abfolgen homomorph. 28 (R2) Auf Basis der bisherigen Darstellung ist für ein Segment S = (T 1 , T 2 ,. . ., T n ), n > 1, vom Typ n ½ ½ 1 j zu analysieren, wie ein Ereignis, das als graduell (n,m)-PAT-verankerbar vorausgesetzt wird, auch als Accomplishment identifiziert werden kann, wenn es in wenigstens zwei Einstellungen in verschiedenen Raumzeitgebieten repräsentiert wird. Dies läuft im Wesentlichen analog zur Analyse des Typs n ½ ½ 1 j bei den Aktivitäten - man muss nur beachten, dass die Verlinkung von wenigstens zwei Einstellungen durch die Verankerungen eines Accomplishments typischerweise “ gerichtet ” ist, wohingegen eine Verlinkung durch die Verankerungen einerAktivität typischerweise “ ungerichtet ” ist. Wenn dann etwa zwei Einstellungen zwei verschiedenen syntagmatischen Strukturen der großen Syntagmatik angehören, sollte die Einstellung T 1 (etwa als Einstellung in einer Szene) im Layout eines filmischen Gesamtdokuments vor T 2 (etwa als Einstellung in einer Sequenz) liegen, um diese Richtung auch zu repräsentieren, unabhängig davon, wie die beherbergende Szene und die beherbergende Sequenz sonst ineinander geschnitten sind. (R3) Es verbleibt der Typ 1 ½ ½ m . Liegt für diesen Fall in nur einer einzigen Einstellung ein Accomplishment als Nebenhandlung vor, ist dies in Abschnitt 11 mit der Kennzeichnung des Typs 1 ½ ½ m jþ 1 - wie bei den Aktivitäten - schon behandelt. Bei der Verteilung eines Accomplishments auf ein mehrere Einstellungen umfassendes Segment S = (T 1 , T 2 ,. . ., T n ) des Typs n ½ ½ 1 j , n > 1, das eine Stammhandlung repräsentiert, ist der Fall ebenfalls erledigt, wenn das Layout dieses Segments auch bei einer erzwungenen Anordnung der das Accomplishment repräsentierenden Einstellungen unbeeinflusst bleibt. Andernfalls gibt es unter Beteiligung eines Accomplishments nach den in Abschnitt 11 gemachten Einschränkungen zwei Möglichkeiten der Fusion vom Typ 1 ½ ½ mF , m > 1 (ohne Annahmen zu einem inhaltlichen Wirkzusammenhang), wenn man annimmt, dass das Accomplishment an erster Stelle steht: l ein Accomplishment wird mit einer (Stamm-)Aktivität fusioniert; l ein Accomplishment wird mit einem (Stamm-)Accomplishment fusioniert. In beiden Fällen wird wenigstens ein letzter Teil eines Accomplishments in derselben Einstellung gefolgt von einem ersten Teil des (ggf. bewirkten) zweiten graduellen Ereignisses. Es wird daher im Defaultlayout die Einstellung vom Typ 1 ½ ½ mF zwischen den sonstigen Einstellungen des Trägers des ersten Accomplishments und des folgenden Accomplishments bzw. der folgenden Aktivität stehen. In einem letzten Beispiel werde ein Apfel aufgegessen und dann der zweite graduelle Essprozess wenigstens begonnen. Zur Modellierung werde zunächst das graduelle Ereignis 28 Für die Definitionen von “ Szene ” und “ Sequenz ” (cf. (Bateman & Schmidt 2011/ 2014: 207 bzw. 210)) ist eine solche Homomorphieanforderung ebenfalls ein wesentliches Kriterium. 272 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) “ Johanna isst (zwei) Äpfel ” repräsentiert, wobei für das Essen des ersten Apfels auf jeden Fall ein Accomplishment angenommen wird und das Essen des zweiten Apfels dann telisch oder atelisch fortgesetzt wird. O. B. d. A. sei angenommen, dass S aus zwei Einstellungen besteht, S=(T 1 , T 2 ), und die Fusion in T 1 vorliegt. Die Fusion sehe im Detail so aus, dass Johanna in T 1 das Essen eines ersten Apfels beginnt und beendet. Das Ereignis “ Essen des ersten Apfels ” sei dabei in T 1 graduell (1,1)-PAT-verankerbar, indem Johanna m 1 -mal in den Apfel beißt. Das Essen eines zweiten Apfels beginne auch in T 1 mit genau einem Bissen, werde dann in T 2 fortgesetzt und ende auch in T 2 . Johanna beiße m 2 -mal in den zweiten Apfel. Auch diese (Teil-)Ereignisse von essen, inst B (essen,ESSEN), seien beobachterseits graduell (2,1)-PAT-verankerbar in S. Insgesamt sei das Ereignis “ Johanna isst (zwei) Äpfel ” in S graduell (2,2)-PAT-verankerbar mit m=m 1 +m 2 Teilereignissen beißen (i) < essen, 1 ≤ i ≤ m. Für die segment-thematische Relation PAT S(L,B),E gilt in diesem Fall mit den sonstigen Klassen aus Abschnitt 6: PAT S ð L ; B Þ ; f ESSEN g ¼ s ; e ð Þj s 2 S L ; B ð Þ ; inst B e ; E ð Þ ; E 2 E f g ¼ s ; e ð Þj s 2 S PERSON ; APFEL ; HINTERGRUND f g ; B ð Þ ; f inst B e ; E ð Þ ; E 2 ESSEN f gg ¼ s apfel1 1 ; ð 1 Þ ; beißen ð 1 Þ ; . . . ; s apfel 1 ; ð m 1 Þ ; beißen ð m 1 Þ ; n s apfel1 1 ; ð 1 Þ ; beißen ð m 1 þ 1 Þ ; s apfel2 2 ; ð 2 Þ ; beißen ð m 1 þ 2 Þ ; . . . ; s apfel2 2 ; ð m 2 Þ ; beißen ð m 1 þ m 2 Þ j inst B apfel1 ; APFEL ð Þ ; inst B apfel2 ; APFEL ð Þ ; beißen ð i Þ < essen ; inst B essen ; E ð Þ ; für 1 i m g Abhängig davon, ob der zweite Essprozess für den Beobachter telisch oder nicht telisch inszeniert wird, ist der zweite Essprozess als Accomplishment oder als Aktivität verankerbar. Eine naheliegende Inszenierung für den ersten Fall ist die Darstellung des natürlichen Endes der zweiten Esshandlung, so dass Anna für den Beobachter zwei Äpfel gequantelt isst. Im zweiten Fall muss das Ende der Esshandlung willkürlich sein, beendet etwa durch (für den Beobachter kumulatives) mürrisches Herumnagen an einem größeren Apfelrest. Damit ist die cinematographische Repräsentation von Accomplishments für Realisationen der Typen 1 ½ ½ mF für m > 1 und n ½ ½ 1 j , n > 1, unter den oben genannten Einschränkungen exemplarisch behandelt. 14 P. S.: Telizität und Diegetizität - Denotation und Exemplifikation Schon in (Schmidt 2008: Abschnitt 13) wurde die konzeptionelle Nähe zwischen den “ deskriptiven Syntagmen ” und dem Metz ’ schen “ Syntagma mit Klammerung (bracket syntagma) ” unter bezugstheoretischem Gesichtspunkt angesprochen: Die deskriptiven Syntagmen klassifizieren denotativ Segmente, in denen es keinen zeitdiegetischen Fort- Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 273 schritt gibt; das Syntagma mit Klammerung klassifiziert Einstellungen, die exemplifikatorisch “ als typische Beispiele für eine bestimmte Realität angesehen werden. ” (Metz 1972: 173). Diese Analysen kann man hier mit den obigen Einsichten in graduelle filmische Repräsentationen ein Stück weitertreiben. Dazu wird nun noch einmal Johannas Essaktivität als einzige Bindung zwischen den Einstellungen vom Typ n ½ ½ 1 j in einem gegebenen Dokument betrachtet. O. B. d. A. sei angenommen, dass Johanna in wenigstens zwei verschiedenen Raumzeitgebieten telisch eine Anzahl von Äpfeln auf- oder atelisch an Äpfeln herumisst. Im telischen Fall wird der Beobachter das Geschehen verfolgen, um das natürliche Ende zu ermitteln, so dass er an die Erkennung des graduellen diegetischen Fortschritts im Filmbild gebunden ist und dieses denotativ “ liest ” . Da die Einstellungen vom Typ n ½ ½ 1 j hier wenigstens teilweise aus verschiedenen räumlich unzusammenhängenden Raumzeitgebieten stammen, könnten sie vom Beobachter so konzeptualisiert werden, dass er sich diese in ein gemeinsames größeres Raumzeitgebiet eingebettet denkt (zwei verschiedene Ausschnitte aus dem großen Obstgarten cf. (Schmidt 2008: Abschnitt 7)). - Er könnte aber noch weitergehen und sich nur für dieses Ereignis ohne seine konkrete Einbettung in eine raumzeitliche Umgebung interessieren: Dann faktorisiert der Beobachter den jeweiligen raumzeitlichen Kontext der jeweiligen Repräsentation von Johanna aus. Es geht ihm dann im Beispiel nur um die Äpfel essende Johanna und nicht um die Raumzeitgebiete, in denen sie das tut. Solange der Beobachter Johanna und/ oder den jeweiligen Apfel, also Agent und/ oder Patiens des Ereignisses, in den einzelnen Einstellungen erkennen kann, kann er das Dargestellte aber immer noch als ein (zusammengehöriges) diegetisches Ereignis konzeptualisieren und diegetisch bis zum ggf. natürlichen Ende verfolgen, um die Frage zu beantworten: Isst Johanna einen Apfel nun auf oder nicht? Im Unterschied dazu kann die Repräsentation einer atelischen Aktivität “ jederzeit ” deren willkürliches Ende erreichen - auch der Beobachter kann jederzeit den Beobachtungsvorgang abbrechen, wenn er von der Repräsentation der atelisch repräsentierten Handlung genug hat. Dann ist die Diegese des Restes der Einstellungsmenge unwichtig. Dies ist ein Einfallstor für exemplifikatorische Lesarten einer Menge von Einstellungen insbesondere vom Typ n ½ ½ 1 j . Denn aus “ Johanna Äpfel ess -” {e | ∃ x (ESS(e) ∧ ÄPFEL(x) ∧ AG(e, johanna) ∧ PAT(e, x))}. kann dann auch leicht der Agent ausgeblendet werden (cf. (Krifka 2003, 32)): “ Äpfel ess -” {e | ∃ x (PAT(e, x) ∧ ÄPFEL(x) ∧ ESS(e))} Geht es z. B. in einerApfelwerbung nur um dieÄpfel und ihr (begeistertes) Gegessenwerden, nicht aber um Johanna, wird man cinematographisch auch verschiedene Esser (nicht nur Johanna) repräsentieren. 29 29 Ein schönes Beispiel aus der Werbewelt ist dafür die von Baldry und Thibault umfassend analysierte WESTPAC-Werbung (Baldry & Thibault 2005: Appendix I). 274 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) Ist dieser Punkt erreicht, kann der Unterschied zwischen denotativer und exemplifikatorischer filmischer Bezugnahme gleichsam im Entstehen beobachtet werden. Bisher stehen diese beiden Weisen der Bezugnahme als Gegensatzpaar nebeneinander: Ist Denotation Bezugnahme durch ein Etikett auf etwas, worauf es zutrifft, so ist Exemplifikation umgekehrt Bezugnahme durch Einzelfälle einer Probe auf ein Etikett, das diese Einzelfälle denotiert (Schmidt 2008: 259) unter Bezug auf (Goodman & Elgin 1989: 35 und 166). Die obige Entwicklung der zunehmend “ abgespeckten ” denotativen Inhaltsbeschreibungen erlaubt es nun, das Entstehen einer exemplifikatorischen Lesart für eine Einstellungsmenge tatsächlich nachzuvollziehen: Geht es dem Beobachter nur um den “ Thread des Apfelessens ” , faktorisiert er zunächst den spezifischen raumzeitlichen Kontext der jeweiligen Repräsentation aus, in der das Apfelessen geschieht und der in diesem Papier mit hintergrund1, inst B (hintergrund1,HIN TERGRUND) etc. gelabelt wird. Dann kann aber immer noch die Apfel essende Johanna über mehrere Raumzeitgebiete verfolgt werden. Wird auch das aufgegeben (s. o.), gibt es keine einheitliche Handlung mehr für die Einstellungsmenge und das ganze Segment wird mit jeder seiner Einstellungen, in denen Einzelfälle von Apfelessen repräsentiert werden, anschlussfähig für die exemplifikatorische “ Bezugnahme durch Einzelfälle einer Probe auf ein Etikett, das diese Einzelfälle denotiert ” . Dann liegt nach Metz ein “ Syntagma mit Klammerung vor ” . An dieser Stelle verlässt man dann die filmische Repräsentation spezifischer Situationen, 30 die in jedem Falle - ob syntagmatisch oder nicht - zukünftiger Forschung überlassen bleiben müssen (cf. auch (Bateman & Schmidt 2011/ 2014: 242)). 15 Ausblick und Dank Klassifiziert man alle Situationstypen als Zustände oder als Ereignisse, die für Handlungen wiederum graduell in Aktivitäten sowie Accomplishments und punktuell in Achievements gegliedert werden können, sind mit der vorliegenden Analyse die Grundlagen für die filmische Repräsentation gradueller Handlungstypen abgehandelt. Für punktuelle Ereignistypen fehlt damit noch die systematische Behandlung von Achievements. In der vorliegenden Analyse wird einschränkend davon ausgegangen, dass ein einzelnes Achievement, wenn es innerhalb einer Einstellung repräsentiert wird, stets nur (1,m)-verankert sein kann (siehe den Schluss von Abschnitt 9 und Abschnitt 10). Da Achievements punkthaft sind (s. Abb. 8), kann ein Achievement grundsätzlich auch “ zwischen ” zwei Einstellungen liegen, die dann jeweils einen Zustand vor und nach einem Achievement repräsentieren. 30 Cf. auch Colin in (Buckland 1995: 68): “ In other words, the bracket syntagma can also be considered as being descriptive; it does not then describe a specific situation, but a type of situation. In the case of the descriptive syntagma, the situation is specific and therefore localised in the diegesis ( ‘ connected to the rest of the narrative ’ , as Metz would say), which is not true of a type of situation ” . Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 275 Abb. 8: Zeitlich punkthafter Übergang zwischen zwei Zuständen Aus diesem Grunde ist es naheliegend, die filmische Repräsentation von Achievements und Zuständen in einer weiteren Analyse gemeinsam zu behandeln. Ist dies geschehen, sind auch alle Situationstypen für filmische Repräsentationen von Handlungen behandelt. Große Teile dieser Arbeit wurden in der Eeterij “ Tante A ’ n ” auf Ameland und im Park- Restaurant in Bielefeld geschrieben. Danke für Strom und Sitzplätze. Prof. Bateman von der Universität Bremen verwies uns auf die Vorlage der in Abschnitt 9 nachgezeichneten Graphik. Literatur Allen, James F. & Hayes, Patrick J. 1985: “ A Common-Sense Theory of Time ” , in: Aravind, Joshi (ed.) 1985: Proceedings of IJCAI (1985): 528 - 531, Los Altos, Calif.: Kaufmann Baldry, Anthony & Thibault, Paul J. 2005: Multimodal Transcription and Text Analysis: A Multimedia Toolkit and Coursebook. London, Oakville, CT: Equinox Bateman, John A. & Schmidt, Karl-Heinrich 2011/ 2014: Multimodal film analysis: How films mean, New York: Routledge Buckland, Warren (ed.) 1995: The Film Spectator: From Sign to Mind, Amsterdam: Amsterdam University Press Bennett, Michael, Partee, Barbara H. 1978: Toward the logic of tense and aspect in English, Bloomington Indiana: Indiana Univ. Linguistics Club Bußmann, Hadumod (ed.) 3 2002: Lexikon der Sprachwissenschaft, Stuttgart: Kröner Colin, Michel 1995: The grande syntagmatique revisted, in: Buckland (ed.) 1995: 45 f. Enzensberger, Hans Magnus 2006: Gedichte: 1950 - 2005, Frankfurt, M.: Suhrkamp Filip, Hana 1989: “ Aspectual properties of the an-construction in German ” , in: Abraham, Werner & Janssen, Theo (eds.) Tempus - Aspekt - Modus. Die lexikalischen und grammatischen Formen in den germanischen Sprachen, Tübingen: Niemeyer Goodman, Nelson 1969: Languages of Art: An Approach to a Theory of Symbols, London: Oxford University Press Goodman, Nelson 1973: Sprachen der Kunst. Ein Ansatz zu einer Symboltheorie, Frankfurt am Main: Suhrkamp Goodman, Nelson & Elgin, Catherine Z. 1989: Revisionen - Philosophie und andere Künste und Wissenschaften, Frankfurt am Main: Suhrkamp Halliday, Michael A. K., Matthiesen, Christian M. I. M. 1999: Construing Experience Through Meaning, London and New York: Cassell (=Open linguistics series) Hickethier, Knut 4 2007: Film- und Fernsehanalyse, Stuttgart u. a.: Metzler Hock, Wolfgang & Krifka, Manfred 2002: Zeitkonstitution: Telizität und Atelizität. Materialsammlung zum Seminar Aspekt und Zeitkonstitution, Berlin, im Internet unter http: / / amor.cms.hu-berlin.de/ ~h2816i3 x/ Lehre/ 2002_HS_Aspekt/ Aspekt-3.pdf [27. 03. 2017] 276 Karl-Heinrich Schmidt & Margit Becher (Wuppertal) ISO/ IEC 15938 - 5: 2003 Information Technology - Multimedia Content Description Interface - Part 5: Multimedia Description Schemes. Krifka, Manfred 1989: Nominalreferenz und Zeitkonstitution: zur Semantik von Massentermen, Pluraltermen und Aspektklassen, München: Fink Krifka, Manfred 2003: Wie man in fünfzehn Jahren einige semantische Probleme löst, im Internet unter http: / / amor.cms.hu-berlin.de/ ~h2816i3 x/ Talks/ TimeSpanScope.pdf [27. 03. 2017] Metz, Christian 1964: “ Le cinéma: langue ou langage? ” , in: Communications 4 (1964): 52 - 90 Metz, Christian 1965: “ Une étape dans la réflexion sur le cinéma ” , in: Critique 214 (1965): 227 - 248 Metz, Christian 1966: “ La grande syntagmatique du film narratif ” , in: Communications 8 (1966): 120 - 124 Metz, Christian 1972: Semiologie des Films, München: Wilhelm Fink Verlag Mollá-Aliod, Diego 1997: Aspectual Composition and Sentence Interpretation: A formal approach. University of Edinburgh, im Internet unter http: / / citeseerx.ist.psu.edu/ viewdoc/ download? doi=10.1. 1. 36.41&rep=rep1&type=pdf [27. 03. 2017] Möller-Naß, Karl-Dietmar 1986: Filmsprache - Eine kritische Theoriegeschichte, Münster: MakS Publikationen (Film: Theorie und Geschichte 1) Reimer, Ulrich 1991: Einführung in die Wissensrepräsentation: netzartige und schema-basierte Repräsentationsformate, Stuttgart: Teubner Schmidt, Karl-Heinrich 1999: Wissensmedien für kognitive Agenten, Sankt Augustin: Infix Schmidt, Karl-Heinrich 2004: “ Zur chronologischen Syntagmatik von Bewegtbilddaten (II): Polyspatiale Alternanz ” , in: Kodikas/ Kode - Ars Semeiotica, Vol. 27/ 2004 (3 - 4): 255 - 283 Schmidt, Karl-Heinrich 2008: “ Zur chronologischen Syntagmatik von Bewegtbilddaten (III): Deskriptive Syntagmen ” , in: Kodikas/ Kode - Ars Semeiotica, Vol. 31/ 2008 (3 - 4): 217 - 270 Schmidt, Karl-Heinrich & Strauch, Thomas 2002: “ Zur chronologischen Syntagmatik von Bewegtbilddaten. Eine semiologische Reklassifikation der Großen Syntagmatik von Metz (anhand einer Neuanalyse des Spielfilms “ Adieu Philippine ” ) ” , in: Kodikas/ Kode - Ars Semeiotica, Vol. 25/ 2002 (1 - 2): 65 - 96 Singh, Mona & Singh, Munindar P. 1992: Computing the Temporal Structure of Events in Natural Language, in: ECAI (Vol. 92: 528 - 532), im Internet unter http: / / citeseerx.ist.psu.edu/ viewdoc/ download? doi=10.1. 1. 45.9073&rep=rep1&type=pdf [27. 03. 2017] Singh, Mona & Singh, Munindar P. 1995: “ The Temporal Structure of Narratives: A Semantic Approach ” , in: Proceedings of the 2nd Conference of the Pacific Association for Computational Linguistics (Pacling), im Internet unter http: / / www.cs.ncsu.edu/ faculty/ mpsingh/ papers/ others/ pacl-narrative-95.pdf [27. 03. 2017] Smith, Barry 2005: “ The logic of biological classification and the foundations of biomedical ontology ” , in: Invited Papers from the 10th International Conference in Logic Methodology and Philosophy of Science, Oviedo, Spain (2005): 505 - 520, London: King ’ s College Publications, im Internet unter http: / / ontology.buffalo.edu/ bio/ logic_of_classes.pdf [27. 03. 2017] Smith, Barry & Rosse, Cornelius 2004: “ The role of foundational relations in the alignment of biomedical ontologies ” , Medinfo, 11, (2004): 444 - 448 Sowa, John F. 2000: Knowledge representation, Pacific Grove [u. a.]: Brooks/ Cole Vendler, Zeno 1957: “ Verbs and Times ” , in: The Philosophical Review, 66(2) (1957): 143 - 160 Verkuyl, Henk J. 1993: A theory of aspectuality: the interaction between temporal and atemporal structure, Cambridge Studies in Linguistics, Vol. 64, Cambridge: Cambridge Univ. Press Wulff, Hans, J. 2011: Accoladen: Die Montage der Listen und seriellen Reihungen, im Internet unter http: / / www.derwulff.de/ files/ 2 - 171.pdf [27. 03. 2017] Zur chronologischen Syntagmatik von Bewegtbilddaten (IV) 277