Vox Romanica
vox
0042-899X
2941-0916
Francke Verlag Tübingen
Es handelt sich um einen Open-Access-Artikel, der unter den Bedingungen der Lizenz CC by 4.0 veröffentlicht wurde.http://creativecommons.org/licenses/by/4.0/121
2007
661
Kristol De StefaniYuji Kawaguchi, Susumu Zaima/Toshihiro Takagaki, Spoken Language Corpus and Linguistic Informatics,Amsterdam (Benjamins) 2006, vi + 434 p. (Usage-Based Linguistic Informatics 5)
121
2007
Mathieu Avanzi
vox6610235
À la fin de ce tour d’horizon nécessairement limité, il appert qu’un des apports principaux de l’ouvrage tient dans la mise en contact de différentes approches, points de vue et objets liés à la transcription. C’est, à notre connaissance, le premier ouvrage qui fait se côtoyer dans un cadre commun des articles relevant de disciplines, de pratiques et d’ancrages théoriques si différents avec la volonté déclarée de «coinvolgere ricercatori . . . cercando di far luce sulle implicazione teoriche, metodologiche e analitiche connesse con la pratica del trascrivere» (Introduction, p. 8) et de «reunir a autores que discutan estos aspectos en español e italiano» (Introduction, p. 32). À notre sens, l’ouvrage a le mérite de relever ce défi qui rassemble des jalons épars sur les pratiques de transcription et les conceptions qui les soustendent. Certes, le cadre de travail reste relativement hétérogène, les éditeurs ne parvenant pas toujours à créer un lien entre les différentes contributions qui se côtoient sans vraiment dialoguer. Néanmoins, l’ouvrage rend bien compte du fait que la transcription est un phénomène de nature sociale marqué dans le temps, l’espace et l’idéologie des pratiques culturelles (y compris scientifiques). En ce sens, il prend position pour une conception contextuelle des pratiques de transcription et de leurs enjeux en philologie, en linguistique et plus largement en analyse des interactions sociales. Nicolas Pepin ★ Yuji Kawaguchi, Susumu Zaima/ Toshihiro Takagaki, Spoken Language Corpus and Linguistic Informatics,Amsterdam (Benjamins) 2006, vi + 434 p. (Usage-Based Linguistic Informatics 5) Le cinquième volume de la collection Usage-Based Linguistic Informatics (UBLI) - l’acronyme UBLI est celui d’un projet et d’une équipe de recherche lancés en 2002 dans le cadre d’un programme du Centre d’Excellence du département des langues étrangères de l’Université de Tokyo, qui se donne pour comme principal objectif de promouvoir le développement conjoint de l’apprentissage et de l’étude des langues étrangères basé sur des corpus de données attestées (usage-based model) - contient les contributions de trois séries de rencontres ou de journées d’étude consacrées, comme l’indique le titre du recueil, aux corpus de langue parlée et à la linguistique informatique, au sens large. La première partie du volume regroupe les textes des communications tenues à l’occasion du 2 ème Congrès de linguistique informatique à Tokyo le 10 décembre 2005. Le responsable du centre de recherche UBLI, Y. Kawaguchi, est l’auteur de l’article d’introduction. Il y présente de façon très générale les objectifs, les travaux et les projets à long terme de son équipe. L’objectif, pour résumer, est de promouvoir l’apprentissage des langues étrangères, dans une perspective écrite et orale, tant ce qui concerne la prononciation, l’apprentissage du lexique, les situations de dialogue et la typologie grammaticale. Suit la contribution d’une des plus célèbres grammairiennes descriptivistes spécialiste de la linguistique de corpus en France, C. Blanche-Benveniste. Cette dernière dresse au début de son article un état de la question très utile, sur l’état et la constitution des corpus oraux dans le domaine de l’Union Européenne, avec zoom sur le français. Elle poursuit son exposé par quelques considérations sur la description grammaticale des aspects oraux de cette langue. S. Conrad enchaîne avec un article qui fait état de l’intérêt des corpus dans les études sur l’acquisition de l’anglais langue seconde. M. Moneglia et E. Cresti font part de leur expérience C- ORAL-ROM 1 en revenant sur la question du rôle et du poids de la prosodie dans la 235 Besprechungen - Comptes rendus 1 E. Cresti/ M. Moneglia (ed.), C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages, Amsterdam 2005, incl. DVD. délimitation des unités de référence pour l’analyse grammaticale et discursives des langues romanes parlées. La deuxième partie du volume regroupe les actes des communications prononcées à l’occasion du workshop d’introduction qui a précédé le 2 ème Congrès de linguistique informatique. Cette journée d’étude a été pensée dans l’esprit de permettre aux principaux acteurs du C-ORAL-ROM de confronter leurs points de vue avec les chercheurs de l’équipe UBLI. E. Cresti tente de pointer les convergences et les divergences concernant les aspects théoriques et méthodologiques développés depuis une vingtaine d’années par elle et ses collaborateurs du LABLITA par rapport à ceux d’UBLI. Quant à M. Moneglia, il revient sur les stratégies lexicales et structurales qui régissent la construction des énoncés dans les quatre langues C-ORAL-ROM en fonction des différents genres discursifs. J. Deulofeu et C. Blanche-Benveniste cosignent un article qui constitue en quelque sorte les prolégomènes à une grammaire corpus-based du français parlé, et qui fait suite aux travaux entrepris dans diverses publications collectives dans lesquelles ont été impliqués les auteurs 2 . Avec cet exposé, les deux Aixois donnent une description beaucoup plus satisfaisante du corpus français de C-ORAL-ROM par rapport à toutes les autres publications disponibles jusqu’ici 3 . L’article suivant est rédigé par A. Moreno- Sandoval et J.-M. Guirao. Il reprend dans les grandes lignes les aspects concernant l’étiquetage morphosyntaxique du corpus espagnol du C-ORAL-ROM. Viennent enfin deux articles auxquels a participé F. Bacelar do Nascimento. Le premier, cosigné par J. B. Gonçalves, traite du rôle des corpus dans l’apprentissage du portugais. L’autre, rédigé avec A. Mendes et S. Antunes, aborde un thème cher à cette équipe portugaise, qui est celui des collocations. Les trois derniers chapitres de cette deuxième grande partie de l’ouvrage sont rédigés par des membres de l’équipe UBLI. Y. Kawagushi s’intéresse au poids de la norme pour rendre compte de la variation en français et en turc; S. Yilmaz, en s’inspirant des études de Morel et Danon-Boileau 4 , fait l’inventaire des propriétés grammaticales et discursives des marqueurs de point de vue et de postrhème en turc parlé; I. Shoho rend compte des valeurs référentielles des pronoms démonstratifs en malais. L’ouvrage se termine par les six versions écrites des conférences données au cours de deux journées d’étude organisées par UBLI en janvier et octobre 2005. L’ensemble des textes est pour le moins hétéroclite. Les contributions s’intéressent, toujours dans une perspective usage-based, à l’apprentissage de l’allemand (S. Zaima) ou encore à la typologie grammaticale (M. Minegishi). Un autre chapitre fait état des troubles grammaticaux que rencontrent certains apprenants japonais avec l’anglais. Une étude phonétique portant sur le VOT (Voice Onset Time) en negata et en shikoku, deux langues parlées au Japon, précède un article sur la structure sémantique des particules spatiales anglaises qui peuvent donner lieu à des interprétations métaphoriques. Une étude sociolinguistique sur la politique linguistique du Canada clôt cette série de travaux. L’ensemble des textes recueillis dans ce 5 ème numéro de la collection UBLI est riche et diversifié. Il soulève d’intéressantes questions, qui mériteraient chacune un développement. Pour ma part, je rappellerai et étayerai ici certaines critiques que j’ai pu formuler à diffé- 236 Besprechungen - Comptes rendus 2 Pour n’en citer qu’une, cf. C. Blanche-Benveniste et al., Le français parlé. Études grammaticales, Paris 1990. 3 E. Campione/ J. Véronis/ J. Deulofeu, «The French Corpus», in: E. Cresti/ M. Moneglia (ed.), C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages,Amsterdam 2005: 111-33. 4 M.-A. Morel/ L. Danon-Boileau, Grammaire de l’intonation. L’exemple du français, Paris/ Gap 1998. rentes occasions à l’encontre de C-ORAL-ROM 5 , ce dernier occupant dans ce livre une place importante. La discussion portera sur l’implication de la prosodie à la lumière des autres sphères d’analyse du discours dans la question du découpage des unités discursives pertinentes. Pour mémoire, l’idée fondamentale des initiateurs du C-ORAL-ROM est que la phrase, unité (ortho-)graphique par excellence, n’est pas un concept opératoire pour transcrire l’oral 6 . En vue de trouver un digne remplaçant à la phrase, E. Cresti et M. Moneglia ont proposé de recourir à la notion d’«énoncé» (ou utterance). Dans la théorie de la lingua in atto 7 , l’énoncé est défini selon deux critères fondamentaux. Le premier est d’ordre prosodique. Tout est énoncé est ponctué d’une frontière prosodique dite terminale. Le second est d’ordre pragmatique, et stipule que tout énoncé va de pair avec l’accomplissement d’un acte de langage, au sens d’Austin 8 . L’énoncé ne recoupe pas les démarcations de la phrase graphique (qui est censée contenir au minimum un verbe conjugué, d’après la doxa), il n’est pas non plus défini par la présence de pauses silencieuses. Dans le C-ORAL-ROM, le découpage en énoncés a été fait à la main, par des natifs doctorants ou post-doctorants, chez qui les notions d’acte de langage et de frontière prosodique ne sont pas inconnues. L’hypothèse selon laquelle les natifs discrimineraient aisément entre les signaux terminaux et non terminaux dans les discours spontanés a d’ailleurs été confirmée par l’évaluation d’une entreprise externe (Loquendo, Turin) 9 . Ce découpage est capital, puisque c’est sur cette base que les comparaisons entre les langues du C-ORAL-ROM et la totalité des analyses grammaticales (statistiques, descriptives et autres) ont été conduites (cf. contributions de M. Moneglia, E. Cresti, J. Deulofeu et C. Blanche-Benveniste dans ce volume). Il nous semble pourtant que l’énoncé, tel qu’il est défini et repéré dans le C-ORAL-ROM, ne fait pas mieux que la phrase qu’il est censé remplacer. Pire: ce concept amène à formuler des généralisations hâtives, et conduit à des descriptions basées sur des prototypes, qui selon nous ne rendent pas compte de la vraie complexité de la grammaire de l’oral. J’irai droit à l’essentiel. J’invoquerai ici deux ou trois aspects qui me paraissent discutables concernant la notion «d’énoncé», et a fortiori l’analyse grammaticale des énoncés telle qu’elle est envisagée dans le C-ORAL-ROM. Ma première objection concerne la façon dont ont été identifiés les énoncés. L’annotation manuelle des phénomènes prosodiques - et la catégorisation des différents types de frontières ne constitue pas une exception - est extrêmement variable d’un auteur à l’autre: elle demeure fortement subjective. Ainsi, Pickering et al. 10 signalent-ils que, entre les deux 237 Besprechungen - Comptes rendus 5 M. Avanzi, Compte rendu de «C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages», VRom. 65 (2006): 141-44 et M. Avanzi et al., «Méthodologie et algorithmes pour la détection automatique des syllabes proéminentes dans les corpus de français parlé», Cahiers de l’AFLS (à par.). 6 Cf., entres autres, A. Berrendonner/ M.-J. [Reichler-]Béguelin, «Décalages: les niveaux de l’analyse linguistique», Langue française 81 (1989): 99-124. 7 Voir E. Cresti (ed.), Corpus di italiano parlato, Firenze 2000 et contributions d’E. Cresti/ M. Moneglia dans ce volume. 8 L. J. Austin, How to do things with words, Oxford 1962. 9 Les protocoles et les résultats des expérimentations effectuées pour vérifier la pertinence du découpage perceptuel ont été consignés dans le chapitre Appendice de l’ouvrage, dont il ressort au final que «given the high scores on agreement, it is safe to say that the prosodically annotated data of the C-ORAL-ROM corpus are very trustworthy». Commentaires de M. Swerts (Université de Tilburg) à propos du «Final Report of the C-ORAL-ROM Prosodic Tagging Evaluation». http: / / lablita.dit.unifi.it/ coralrom/ reports.html. 10 B. Pickering/ B. Williams/ G. Knowles, «Analysis of transcribers differences in the SEC», in: G. Knowles/ A. Wichmann/ P. Alderson (ed.), Working with Speech. Perspectives and research into the Lancaster/ IBM Spoken English Corpus, London/ New-York 1996: 59-105 (67). experts qui ont annoté manuellement le même sous-ensemble du Spoken English Corpus, le taux de désaccord quant à la présence d’une frontière est de 27 %. Dans le C-ORAL-ROM, la notion de «rupture prosodique terminale» (terminal prosodic break), comme son nom ne l’indique pas, n’est pas définie selon des propriétés prosodiques stricto sensu, mais mêle des considérations relevant de plusieurs niveaux d’analyse. Selon la théorie de la lingua in atto développée par Cresti 2000, un acte de langage = une frontière prosodique terminale = un énoncé. Or, on peut douter du bien-fondé d’une telle équation. En effet, l’accomplissement d’un «acte de langage» ne va pas systématiquement de pair avec une rupture prosodique terminale. En voici deux exemples, puisés dans le C-ORAL-ROM. (1) et puis ben après/ qu’est-ce que je fais euh je rince des seaux [ffamdl11] (2) qu’est-ce qu’ils appliquaient? ils appliquaient les méthodes/ de la justice de l’époque [ffamdl20] Les fragments textuels ci-dessus sont tous deux formés d’un couple de constructions verbales, qui expriment chacune un acte de langage: la première, soulignée, est une question; la seconde une assertion. Pourtant, le premier membre n’est pas assorti d’une frontière prosodique terminale comme le voudrait la théorie, mais d’un signe prosodique clairement continuatif (d’ailleurs, les annotateurs n’ont même pas noté de frontière prosodique entre les deux termes du premier exemple). Troisième chose: bien qu’il soit dit que les experts qui ont été invités à vérifier le découpage sont des personnes indépendantes du projet, et que le taux d’accord inter-annotateur est relativement bon 11 , les auteurs ont oublié de préciser que ces experts «extérieurs» ont été formés par les annotateurs du C-ORAL-ROM eux-mêmes. Dès lors, rien d’étonnant au fait que les experts soient d’accord avec ceux qui leur ont appris à repérer les frontières prosodiques terminales . . . Enfin, notre dernière remarque portera sur l’opposition +/ - terminal et ses avatars (+/ - conclusif, +/ - final, etc.). Selon nous, cette dichotomie n’est pas opératoire pour définir les unités prosodiques d’intégration maximales. Le fait qu’une unité prosodique soit considérée comme terminale ou non terminale, outre qu’il s’agisse là encore d’une variable extrêmement subjective, n’est pas déterminant pour repérer les ruptures prosodiques pertinentes, dans la mesure où une frontière prosodique majeure peut être indifféremment continuative ou conclusive 12 . En conclusion, on soulignera que Spoken Language Corpus and Linguistic Informatics contient des contributions qui abordent tous les niveaux de l’analyse linguistique, sous des angles théoriques différents et dans des perspectives méthodologiques diverses. Il intéressera aussi bien les spécialistes du traitement automatique de la parole que les grammairiens descriptivistes, en passant par les chercheurs en sociolinguistique et les spécialistes en didactique des langues. Mathieu Avanzi ★ 238 Besprechungen - Comptes rendus 11 M. Danieli et al., «Evaluation of Consensus on the Annotation of Prosodic Breaks in the Romance Corpus of Spontaneous Speech ‹C-ORAL-ROM›», in: M. T. Lino/ M. F. Xavier/ F. Ferraira/ R. Costa/ R. Silva (ed.), Proceedings of the 4 th LREC Conference, Paris (ELRA), vol. 4, 1513-16. 12 Cf. M. Avanzi/ Ph. Martin, «L’intonème conclusif: une fin (de phrase) en soi ? », in: Nouveaux Cahiers de Linguistique Française, 28 (2007): 223-41
