Vox Romanica
vox
0042-899X
2941-0916
Francke Verlag Tübingen
Es handelt sich um einen Open-Access-Artikel, der unter den Bedingungen der Lizenz CC by 4.0 veröffentlicht wurde.http://creativecommons.org/licenses/by/4.0/121
2006
651
Kristol De StefaniEmanuela Cresti/Massimo Moneglia,C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages, Amsterdam (Benjamins) 2005, xvii+304 p. +DVD (Studies in Corpus Linguistics 15)
121
2006
Mathieu Avanzi
vox6510141
schichte) contiene nuclei di articoli dedicati all’influsso sulla storia linguistica delle singole aree romanze di politica e sviluppo socio-economico (art. 101-04), istruzione (105-09), comunicazioni di massa (110-13), religione e filosofia (111-17), traduzione (118-24). Seguono, con impostazione ugualmente simmetrica e sistematica, il cap. XI su contatto e migrazione e infine il XII su ambiti e mezzi di comunicazione e tipologie testuali. Anche questo volume promette dunque letture interessanti a giro d’orizzonte, opera di specialisti di alto livello, e conferma che ci troviamo di fronte ad un’opera di riferimento ottimamente strutturata e mirabilmente eseguita, che non potrà mancare in alcuna biblioteca romanistica. Michele Loporcaro ★ Emanuela Cresti/ Massimo Moneglia, C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages, Amsterdam (Benjamins) 2005, xvii + 304 p. + DVD (Studies in Corpus Linguistics 15) C’est à l’occasion du colloque international Macrosintassi e analisi del parlato, qui s’est tenu à l’Université de Florence les 23 et 24 avril 1999, que les représentants de quatre grandes équipes de recherche européennes spécialistes dans la linguistique de corpus 1 ont donné naissance au consortium C-ORAL-ROM. Le but visé par les initiateurs de ce projet était de mettre à la disposition de la communauté scientifique et de l’industrie linguistique, à l’intérieur comme à l’extérieur de l’Union Européenne, un corpus représentatif et comparable de quatre des principales langues parlées à l’heure actuelle dans le domaine roman: l’italien, le français, le portugais et l’espagnol 2 . D’un point de vue statistique, le C-ORAL-ROM représente 1.200.000 mots (300.000 mots par langue), soit quelques 121 heures de parole «spontanée» recueillies en milieu naturel. Ce grand corpus du «roman parlé» a été pensé de manière à pouvoir rendre compte des variations significatives rencontrées dans les discours de tous les jours, selon différents «paramètres sociolinguistiques bien reconnus par la tradition». Ainsi il peut servir de base de référence pour des comparaisons de différents types 3 d’une part; être utilisé directement dans les études de reconnaissance vocale et de synthèse de parole d’autre part. Les fichiers audio et les transcriptions du C-ORAL-ROM sont mis à disposition de l’acquéreur sur support DVD. Pour faciliter la recherche textuelle, deux outils très utiles sont également fournis. Le premier est un logiciel d’analyse prosodique multifonction, WinPitch Corpus (Pitch France), élaboré par P. Martin. Il offre - entre autres choses - la possibilité de lire le texte aligné avec le son en même temps que défilent les tracés intonatifs. Le se- 141 Besprechungen - Comptes rendus 1 E. Cresti/ M. Moneglia (laboratoire LABLITA de l’Université de Florence); Cl. Blanche-Benveniste (GARS, aujourd’hui DELIC, dirigé par J. Véronis à l’Université de Provence); F. Bacelar (CLUL de l’Université de Lisbonne), F. Marcos Marín/ C. Nicolás (relayés dans le projet par A. Moreno à l’Université Autonome de Madrid). 2 On laissera de côté la problématique «dialectologique» de l’entreprise. Signalons que les auteurs ont simplement cherché à donner un aperçu représentatif de la langue «standard» de leurs pays. Les enregistrements ont été faits en l’Italie dans l’ouest de la Toscane, au centre de la partie continentale du Portugal, dans le sud de la Castille et dans sud de la France (8). 3 Études contrastives avec des corpus des langues romanes écrites (LINGUA, EUROM-4) et avec d’autres corpus de langue parlée (outre les corpus déjà constitués des équipes participantes), citons pour l’anglais l’ouvrage de D. Biber et al., The Longman Grammar of Spoken and Written English, Longman 1999 et plus récemment en ce qui concerne le néerlandais le Spoken Dutch Corpus (http: / / lands.let.kun.nl/ cgn/ doc_English/ topics/ project/ pro_info.htm). cond, Contextes (conçu par J. Véronis), est un concordancier grâce auquel on peut afficher les occurrences d’une forme donnée dans son contexte d’apparition. Signalons peut-être que dans cette mouture grand public du C-ORAL-ROM, les données sont cryptées et on est obligé d’utiliser les logiciels proposés (WinPitch pour l’audio, Contextes pour le texte) en vue d’avoir accès aux données 4 . Au cas où les néophytes rencontreraient des difficultés dans l’utilisation du DVD, les responsables ont pensé à un tutoriel. Celui est téléchargeable sur le site Web officiel du projet 5 . À l’édition multimédia est associé un ouvrage, qui en plus de présenter de manière très précise les critères d’échantillonnage du corpus, fait état des recherches entreprises par les promoteurs du C-ORAL-ROM. Dans le premier chapitre sont présentées les options théoriques qui ont influencé le traitement préliminaire de base des données (segmentation en énoncés) et guidé la procédure de constitution du corpus, ou son échantillonnage (situation formelle ou informelle; monologue, dialogue ou polylogue; type de media; caractéristiques du locuteur; etc.). La phrase ayant depuis longtemps été battue en brèche par les linguistes de l’oral 6 , il a fallu définir une autre unité discursive pertinente commune aux langues romanes parlées, condition sine qua non pour que d’éventuelles comparaisons intraet inter-langues soient envisageables, et que l’alignement texte/ son soit scientifiquement pertinent. La théorie des unités linguistiques élaborée par Cresti et ses collaborateurs au cours de ces deux dernières décennies 7 , fondée sur la reconnaissance de la valeur pragmatique (illocutoire et informationnelle) de l’intonation, a servi de cadre de référence. Dans ce modèle, les ruptures prosodiques qui scandent le flux discursif délimitent des frontières d’au moins deux types. Les ruptures prosodiques terminales marquent des frontières d’énoncés. Elles indiquent le moment où peut se faire le passage du tour de parole. Les ruptures non terminales actualisent des unités non autonomes contextuellement, c’est-à-dire des constituants d’énoncés. L’ensemble du C-ORAL-ROM a été annoté sur ces bases. Des barres obliques simples sont mises pour délimiter les constituants d’énoncés, des barres obliques doubles signalent la fin d’un énoncé 8 . La détection de ces ruptures n’est pas automatique. Elle ne résulte pas d’un traitement instrumental du couplage des différents indices prosodiques (dynamique de F0, variations d’intensité, identification des pauses, etc.), mais repose sur la seule interprétation subjective du signal auditif par des locuteurs natifs 9 . Cette hypothèse selon laquelle les natifs discrimineraient aisément entre les signaux terminaux et non terminaux dans les discours spontanés a d’ailleurs été confirmée par l’évaluation d’une entreprise externe (Loquendo, Turin). Les protocoles et les résultats des expérimentations effectuées 142 Besprechungen - Comptes rendus 4 Il existe une version du C-ORAL-ROM (commercialisée par ELDA), dans laquelle les données ne sont ni cryptées ni compressées (huit DVD). Elle est spécialement conçue pour les chercheurs en industrie de la langue. 5 http: / / lablita.dit.unifi.it/ coralrom/ . On trouvera également sur ce site quantité de documents en rapport avec le projet C-ORAL-ROM: des liens vers des articles, des échantillons du corpus, etc. 6 Cf. par exemple Cl. Blanche-Benveniste/ C. Jeanjean, Le français parlé. Édition et transcription, Paris 1986. 7 Voir E. Cresti (ed.), Corpus di italiano parlato, Firenze 2000. 8 L’énoncé du C-ORAL-ROM étant très proche de la C-Unit de la Longman Grammar (D. Biber et al., loc. cit.), les auteurs ont pu comparer à titre d’exemple la proportion des énoncés sans verbes rencontrés dans les deux corpus (15). Dans le premier on totalise 30 % d’énoncés sans verbes, dans le second 38 %. 9 «The labelling is based only on perceptual judgments and in principle does not require any specific knowledge, although the notion of speech act is always familiar to the experts transcribers (comprising PhDs and PhD students) who annotated the corpus» (24). pour vérifier la pertinence du découpage perceptuel ont été consignés dans le chapitre Appendice de l’ouvrage, dont il ressort au final que «given the high scores on agreement, it is safe to say that the prosodically annotated data of the C-ORAL-ROM corpus are very trustworthy» 10 . Les chapitres 2-5 présentent les quatre sous-corpus d’italien, de français, d’espagnol et de portugais, dans l’ordre où je viens de les citer. Tous respectent la même organisation. Les auteurs font d’abord état de l’historique de leur corpus, puis explicitent dans un deuxième temps les motivations qui les ont amenés à opter en faveur d’une transcription orthographique des données orales. Enfin chacune des équipes explique la stratégie qu’elle a adoptée pour faire au mieux le Part of Speech - PoS - tagging, avant de lister les lemmes (verbes, noms, adverbes, etc.) les plus fréquents de leur langue. Les descriptions proposées par chacun des auteurs diffèrent en fonction des orientations théoriques et des objectifs qui sont les leurs. Devant les potentialités qu’offre le C-ORAL- ROM, on déplorera cependant que les Français n’aient pas fait aussi bien que leurs collègues italiens, espagnols et portugais, qui s’attachent à discuter plus en détail les enjeux théoriques liés aux descriptions linguistiques «corpus based», ou/ et comparent les sous-corpus du C-ORAL-ROM avec certains autres grands corpus. Une des raisons de ce déséquilibre est sans doute la conséquence de la pauvreté des corpus oraux disponibles en France par rapport aux autres pays européens 11 . Les stratégies «lexicales» (énoncés verbaux vs énoncés nominaux) et «structurales» (énoncés simples vs complexes) adoptées par les sujets parlants fondent une ébauche de typologie des énoncés. Les statistiques (pourcentage d’énoncés complexes averbaux vs verbaux, par ex.) sont commentées au chapitre 6. Le rôle des marqueurs dit traditionnellement de coordination, de subordination et de négation a aussi pu être précisé. Dans toutes les langues du C-ORAL-ROM, ceux-ci présentent clairement une ambivalence fonctionnelle commune, connectant tantôt des constituants internes à une unité informationnelle, tantôt des constituants informationnels à part entière (intraou inter-énoncés). Bien que de nombreux aspects du C-ORAL-ROM mériteraient qu’on s’y arrête davantage 12 , je me contenterai ici de rappeler que le débat qui concerne la hiérarchie des critères utilisés pour le typage des unités et des relations pertinentes au niveau macro-syntaxique est encore loin d’être achevé à l’heure actuelle 13 . La distinction entre syntaxe interne et syntaxe externe des unités discursives minimales (constituants d’énoncés) a été assimilée, dans le cadre théorique de la Lingua in atto 14 , à l’opposition microvs macro-syntaxe 15 . L’idée est que les relations entre les unités discursives minimales ne peuvent être décrites au moyen des concepts qui ont cours dans les grammaires traditionnelles, et qu’il faut faire appel à d’autres critères pour rendre compte de leur combinatoire. C’est vrai pour des séquences comme: 143 Besprechungen - Comptes rendus 10 Commentaires de M. Swerts (Université de Tilburg) à propos du «Final Report of the C-ORAL- ROM Prosodic Tagging Evaluation». Texte accessible depuis http: / / lablita.dit.unifi.it/ coralrom/ reports.html. 11 Cf. «Grands corpus: diversité des objectifs, variété des approches», AFLA IV/ 1, 1999. 12 Je laisserai de côté par exemple la réflexion sur les données, qui, comme me le fait remarquer P. Cappeau, n’a pas été présentée «sans le recul critique que l’on trouve ailleurs: 300.000 mots avec des subdivisions ‹sociolinguistiques bien reconnues› (formule qui soulève des questions) ne représente vraiment qu’une partie très petite doit donc rendre modeste sur l’aspect ‹référence›». 13 Cf. M. Avanzi, «Autour de la notion de ‹macro-syntaxe›», Recherches sur le français parlé 19 (à par.). 14 E. Cresti, loc. cit. 15 Cl. Blanche-Benveniste et al., Le français parlé. Études grammaticales, Paris 1990. - (a) era tutta un’altra cosa / era il su’ matrimonio / / [ifamcv01] - (b) la seule chose que je réussissais / c’était la technologie / / [ffammn18] dans lesquelles les deux unités intonatives constituent bien deux unités discursives minimales autonomes: aucune des deux n’est véritablement «régie» par l’autre. En revanche, difficile de dire que les liens qui unissent les deux morceaux des clivées (c) et (d) sont du même type que dans les exemples précédents, et ce malgré la parenté des profils mélodiques qui les actualisent: - (c) era quello/ che mi assillava di più/ [ifammn08] - (d) c’est là/ que j’ai rencontré tout le monde/ / [ffamdl14] En fait, si l’intonation permet de segmenter des unités discursives de différents rangs dans l’oral «spontané», on sait aussi qu’elle n’est jamais non plus vraiment strictement congruente à la syntaxe 16 . En outre, comme cela est rappelé dans la Grammaire de la période 17 , rien ne permet d’affirmer que la prosodie est un module indépendant de la morphosyntaxe, autrement dit que les signaux intonatifs seraient les seuls indices pertinents pour le découpage en unités minimales. Impossible donc de conclure avec certitude que dans les cas de fragmentation de la morphosyntaxe par l’intonation, comme dans (c) et (d), les propriétés de rection, propres à la combinatoire interne des unités discursives minimales, seraient «désactivées» en faveur d’une interprétation via la macro-syntaxe . . . 18 À mon avis, le principal danger avec ce genre de description grammaticale «corpus based» réside dans le fait que les linguistes tendent souvent à négliger le produit d’entrée grammatical des séquences discursives d’une langue donnée au profit de généralisations commodes qui ne rendent pas vraiment compte de la complexité syntaxique des formes recensées. En conclusion, on insistera sur le caractère novateur et utile du C-ORAL-ROM. Il est le premier ouvrage qui offre un corpus d’une aussi grande dimension, ainsi que des outils pratiques pour que les intéressés puissent l’investiguer à leur guise. Les recherches qu’il rend possibles, en plus d’annoncer un renouveau dans le champ des études de linguistique romane (Blanche-Benveniste, préface), devraient permettre, on l’espère, d’approfondir nos connaissances des langues parlées dans l’UE. Mathieu Avanzi ★ Claudia Maria Riehl, Sprachkontaktforschung. Eine Einführung,Tübingen (Gunter Narr) 2004, 205 p. La recherche sur les contacts de langues est un domaine en pleine expansion. Dans sa description articulée en douze chapitres, Claudia Maria Riehl s’intéresse principalement aux phénomènes de contact qui touchent la langue allemande, en se basant notamment sur ses propres recherches de terrain en Namibie, en Belgique germanophone, en Roumanie, en Russie et au Tyrol du Sud (185). 144 Besprechungen - Comptes rendus 16 K. Lambrecht, Information structure and sentence form, 1994: 31, cité par A. Lacheret, La prosodie des circonstants en français parlé, 2003: 137. 17 Groupe de Fribourg, Grammaire de la période (à par.): chap. v. 18 Contra A. Scarano (a cura di), Macro-syntaxe et pragmatique. L’analyse linguistique de l’oral, Actes du colloque de Florence, 23-24 avril 1999, Roma 2003: 44.
