eJournals Vox Romanica 68/1

Vox Romanica
vox
0042-899X
2941-0916
Francke Verlag Tübingen
Es handelt sich um einen Open-Access-Artikel, der unter den Bedingungen der Lizenz CC by 4.0 veröffentlicht wurde.http://creativecommons.org/licenses/by/4.0/121
2009
681 Kristol De Stefani

Pierre Kunstmann/Achim Stein (ed.), Le Nouveau Corpus d’Amsterdam. Actes de l’atelier de Lauterbad (23-26 février 2006), Stuttgart (Franz Steiner) 2007, 200 p.

121
2009
Mohan  Halgrain
vox6810340
quelques décennies déjà grâce aux apports de la linguistique théorique plus récente et aux nouvelles possibilités offertes par les corpora et les moyens d’investigations informatisés. Maria Colombo Timelli ★ Pierre Kunstmann/ Achim Stein (ed.), Le Nouveau Corpus d’Amsterdam. Actes de l’atelier de Lauterbad (23-26 février 2006), Stuttgart (Franz Steiner) 2007, 200 p. L’usage de l’informatique dans nos disciplines laisse encore bien des chercheurs profondément sceptiques. Il est vrai qu’entre les défauts agaçants du trop répandu logiciel Word et les nombreux projets scientifiques, nécessitant de lourdes collaborations avec des équipes d’informaticiens professionnels, mais qui demeurent la plupart du temps isolés, mal répertoriés ou introuvables, incompatibles entre eux, parfois inachevés, voire même inutilisables, le médiéviste, qu’il soit philologue ou linguiste, peut légitimement avoir de ces tentatives une vision globalement décourageante. L’ère écranique prophétisée par Bernard Cerquiglini semble bien, pour le moment, se résumer à quelques prémices hésitantes, dont on peine parfois à percevoir l’intérêt véritable, au delà de la simple «gadgetisation», et qui aboutissent trop souvent au triste et fameux «Error 404. Page not found». Voici donc un recueil d’actes qui nous présente l’un de ces projets, mais pas n’importe lequel, puisqu’il s’agit de la continuation des travaux du grand pionnier du traitement informatique des données philologiques: Anthonij Dees. Ce «retour aux sources» s’accompagne très intelligemment d’un vaste état des lieux de tous les projets majeurs existant actuellement dans ce domaine, puisque l’heure est à la volonté de collaboration maximale entre les différentes équipes, afin d’éviter de coûteux doublons et d’accroître sensiblement la masse des données accessibles. Le Nouveau Corpus d’Amsterdam (NCA) réunit les textes littéraires utilisés par Dees pour l’élaboration de son Atlas des formes linguistiques des textes littéraires de l’ancien français 1 , ce qui équivaut à quelque 300 textes, qui ont intégralement subi un traitement informatique, élaboré notamment par Achim Stein (Université de Stuttgart), Pierre Kunstmann (Université d’Ottawa) et Martin-D. Gleßgen (Université de Zürich). Ce traitement, très largement automatisé, consiste en l’apposition, pour chaque mot, d’une étiquette XML contenant le lemme du mot et sa catégorie grammaticale «étendue» (puisque, pour certaines des parties du discours, des précisions sont données au delà de la pure catégorisation; il y a ainsi six étiquettes pour la catégorie pronominale: clitiques, démonstratifs, possessifs, personnels, indéfinis et invariables). Cela permet donc des recherches très précises dans tous les domaines: phonétique, lexique, morphologie, syntaxe, puisqu’il est possible d’obtenir une liste des occurrences d’un mot, d’un lemme ou d’une séquence syntaxique parmi les 3 184 834 mots comptabilisés. Ceci dit, ce n’est pas le lieu ici de produire un compte rendu du NCA à proprement parler, mais bien de commenter le recueil des actes de l’atelier de Lauterbad, qui eut lieu entre le 23 et le 26 février 2006 et qui présentait la première édition utilisable du corpus. Notons qu’on pourra trouver d’autres informations sur le site suivant: http: / / www.uni-stuttgart.de/ lingrom/ stein, mais pas toujours en français, ce qui rend la consultation du livre d’autant plus appréciable. On notera encore que, si l’on s’en réfère au programme de l’atelier, toujours consultable sur http: / / www.uni-stuttgart.de/ lingrom/ stein/ forschung/ transcoop/ work shop.html, la quasi-totalité des interventions ont été publiées dans le volume. 340 Besprechungen - Comptes rendus 1 A. Dees, Atlas des formes linguistiques des textes littéraires de l’ancien français, Tübingen 1987. Le livre ne s’adresse manifestement pas à des chercheurs ne possédant que des compétences très basiques en informatique. Cela dit et fort heureusement pour l’avenir de ce type de recherches, il ne s’adresse pas non plus uniquement à un public d’informaticiens chevronnés; toute personne sachant globalement ce qu’est le XML devrait être en mesure de comprendre la substance, si ce n’est la quasi-totalité de l’ouvrage. Ceci posé, nous voudrions à présent mettre en lumière les trois aspects qui nous ont paru les plus remarquables de l’ouvrage, tout en semant au détour quelques réflexions et critiques. Ayant nous-même tenté un tour d’horizon des différents projets de traitement philologique informatique en cours pour le français médiéval, nous avons été agréablement surpris de constater tout d’abord la très grande exhaustivité de l’ouvrage. Tous les acteurs principaux et sérieux de ce domaine de recherche y sont représentés et exposent de manière synthétique les tenants et aboutissants de leurs travaux. On pourra ainsi se renseigner rapidement sur la Base de Français Médiéval (BFM), le Dictionnaire Électronique de Chrétien de Troyes (DECT), l’Anglo-Norman Dictionary (AND), les différents projets de l’ATILF, ainsi que sur le corpus Voies du français, principalement géré par l’Université d’Ottawa. Cela permet de se faire une idée fort précise de l’état de la recherche actuelle et d’en dessiner les grandes lignes, qu’elles soient positives ou négatives. On ne pourra, par exemple, pas passer à côté du constat d’un grand éparpillement des efforts, chaque projet ayant ses propres méthodes, parfois ses propres objectifs, voire même, ce qui est plus gênant encore, son propre langage informatique. De plus, cette hétérogénéité des travaux et des modus operandi peut parfois se faire sentir jusqu’au sein des projets eux-mêmes, puisque l’étalement des opérations dans le temps favorise une certaine diversité de traitements: c’est par exemple le cas pour la BFM (cf. p. 148) et pour certains projets de l’ATILF, sans parler du passage du corpus de Dees au NCA proprement dit. Dans ce contexte, on ne peut que louer le grand effort de collaboration, ou d’«interconnexion» comme le suggère le titre d’un des articles (101), que tous ces protagonistes ont entrepris de fournir et dont ce livre est la preuve concrète. Remarquons par ailleurs que la diversité des approches, loin de n’être qu’un point négatif, représente avant tout une grande richesse d’idées et de pratiques, qu’il serait aussi vain que dommageable de chercher à faire totalement fusionner; c’est donc davantage à une sorte de «socle commun» qu’à un gigantesque corpus unique qu’aspirent les différentes équipes de chercheurs (151). Un autre grand point fort du livre est la bibliographie très complète que l’on peut réunir sur le sujet, en concaténant toutes celles qui sont données à la fin de chaque article. Cette liste de références «papier» se double en outre logiquement d’une sorte de bibliographie web, très complète également, que l’on peut former en glanant au fil des pages diverses adresses de sites internet, ce qui n’est pas le moindre des avantages pour un livre traitant d’informatique. Mieux encore: la quasi-totalité de ces adresses sont toujours valables et ne renvoient pas à une fenêtre vide, comme certains mauvais esprits pourraient s’y attendre, quelque trois années nous séparant de la rédaction de ces articles. Nous nous permettons simplement de signaler que les adresses www.clul.ul.pt/ sectores/ cordialsin/ projecto_cordialsin.html (127), www3.anglo-norman.net/ cgi-bin/ getbm (154) et www.umanitoba. ca/ faculties/ arts/ french_spanish_and_italian/ m12.htm (154) ne fonctionnent plus; de plus, nous ne sommes pas parvenu à nous connecter au site de la Base de Français Médiéval: http: / / bfm.ens-lsh.fr, puisqu’il est temporairement indisponible. Un deuxième aspect réjouissant de ce livre est la très riche discussion scientifique qu’il relance autour de la question suivante: comment utiliser au mieux les moyens et méthodes modernes dans le cadre de la linguistique quantitative et de la linguistique de corpus (notons que, si cette discussion est ici principalement centrée sur le domaine de l’ancien français, elle en déborde largement, puisque sont également évoqués dans le livre des projets 341 Besprechungen - Comptes rendus traitant du français moderne, mais également du moyen anglais et du portugais ancien). En d’autres termes, le livre évoque clairement le fait que, si l’informatique est un outil dont aucun philologue sérieux ne saurait de nos jours se passer, sa grande puissance n’est qu’un argument quantitatif, certes capital, mais qu’il est primordial de pondérer à l’aune d’évaluations qualitatives cette fois, évaluations qui doivent nous rappeler à nos bonnes vieilles méthodes philologiques «traditionnelles». C’est ainsi que, comme nous l’avons déjà dit, le tour d’horizon des projets en cours laisse clairement apparaître les acquis, mais également les défauts à corriger et les futures grandes améliorations à apporter. Pour ce qui est du NCA lui-même, on ne s’est pas contenté de le décrire et d’aborder son fonctionnement ainsi que ce qu’il permet de faire. On s’est également attaché à en expliquer l’histoire, les étapes de constitution ainsi que les problèmes non résolus à cette heure et les améliorations nombreuses qui doivent être envisagées. De sorte que le lecteur peut se rendre compte de la qualité du projet en connaissant sa structure, ses zones d’ombre et ses failles, et cela de manière très précise, voire même souvent chiffrée. De plus, l’équipe a eu la très bonne idée de publier quelques premières applications pratiques du NCA, qui rendent compte des problèmes méthodologiques auxquels se heurte d’emblée l’utilisateur potentiel, et de fréquentes et riches discussions quant à la validité de certaines théories de Dees. La place et l’utilité du NCA dans l’avenir de la dialectologie, et à plus large échelle, de la linguistique quantitative ou de corpus se trouve ainsi mise en perspective de manière critique, sans jamais céder à la tentation de voir dans l’argument de la quantité des données disponibles (forcément miraculeusement accrue par la puissance de l’informatique) l’occasion d’oublier la qualité du travail philologique qui doit nécessairement le fonder. C’est ainsi que ce livre n’est pas seulement une présentation de ce qu’il se fait de mieux dans le domaine de la philologie informatique de l’ancien français, c’est aussi la démonstration que le renouveau de ce type d’études amène à relancer voire à renouveler l’approche critique de certains outils et ouvrages (c’est le cas pour, pêle-mêle, le DEAF, l’Inventaire systématique des premiers documents des langues romanes 2 , et surtout de l’Atlas des formes linguistiques des textes littéraires de l’ancien français de Dees 3 , dont la liste des comptes-rendus est publiée en p. 72), de certaines méthodes et techniques (l’utilisation linguistique des chartes et des textes littéraires en linguistique diachronique, le problème de la fidélité des transcriptions de manuscrits et des éditions critiques . . .) ou encore de certaines théories (la notion de scripta, les rapports entre graphie et oralité, etc . . .). En définitive, la richesse et le foisonnement de ces questionnements devraient pouvoir faire du NCA (et peut être, souhaitons-le, de ses «cousins» informatiques), pour peu qu’il se développe encore et dans le même esprit d’exigence et de lucidité, un outil de tout premier plan pour de très nombreux domaines de recherche: linguistique, dialectologie, philologie, mais également stemmatologie, codicologie, voire même études historiques et littéraires, puisque les différents textes du corpus s’efforceront désormais d’inclure de nombreuses informations diatopiques, diachroniques, diastratiques, diaphasiques, et diamésiques. On rejoindrait ici, en ce début de millénaire, l’espoir de Dees dans les années 60, qui voulait, par l’usage de nouvelles techniques, renouveler complètement les études de l’ancienne langue française. Nous nous permettrons simplement une remarque à ce sujet. S’il nous paraît fondé et indispensable de pourvoir chaque texte du corpus du plus grand nombre d’informations externes le concernant, il nous paraît en revanche souvent dangereux d’y inclure des considérations dont la «solidité» ne repose pas sur des faits concrets mais sur certains consensus 342 Besprechungen - Comptes rendus 2 B. Frank et al., Inventaire systématique des premiers documents des langues romanes, Tübingen 1997. 3 op. cit. critiques modernes: nous pensons en particulier à la volonté (exprimée dans l’article de Martin-D. Glessgen et Xavier Gouvert, La base textuelle du «NCA»: ancrage diasystématique et évaluation philologique) de renseigner chaque texte quant à l’identité de son auteur, sa date de création (afin de l’opposer à la date de composition du témoin) et surtout son «genre littéraire». Si nous concevons parfaitement que ces informations peuvent être extrêmement fiables dans le cas de certains textes et qu’elles apportent alors un complément indéniable à la richesse informationnelle du NCA, nous voudrions rappeler que dans bien d’autres cas, elles demeurent largement contestables. C’est ainsi que, pour ne prendre que les exemples les plus nets, si les débats autour des notions génériques de «fabliaux» ou de «dits» sont parfois pragmatiquement résolus, ils sont en revanche loin d’être définitivement clos. Pour prendre un autre exemple, qui n’est pas innocent puisqu’il concerne l’auteur le plus représenté dans le NCA, si l’on s’accorde à attribuer les Lais et les Fables à une même personne, nommée Marie de France en raison d’un seul vers de l’épilogue des Fables, ce point n’est pas objectivement prouvé; il fonde pourtant en grande partie la datation, consensuelle elle aussi, de ces deux œuvres. Ce que nous craignons en définitive, c’est que l’usage du Dictionnaire des lettres françaises (Le Moyen Âge) pour attribuer ce type d’informations (cf. p. 60) ne vienne greffer au cœur d’un corpus de données brutes et concrètes (c’est ce qui fait son utilité et son originalité) des données bien plus abstraites, fruits le plus souvent de consensus scientifiques modernes, et qui, loin de servir le fort potentiel de renouvellement critique du corpus dans tous les domaines que nous avons évoqués plus haut, risque d’y faire se perpétuer les mêmes doutes, voire les mêmes erreurs . . . Nous voudrions finalement commenter brièvement un dernier aspect important, puisque pouvant facilement desservir la crédibilité d’un projet informatique: la clarté du propos. Et force est de constater que de ce point de vue également, l’ouvrage est très bon, car manifestant une réelle volonté de communiquer aussi précisément que simplement (du moins, le plus possible). Dans la grande majorité des cas, le jargon informatique est très peu fréquent ou bien encadré par des explications suffisantes. Certes, il arrive qu’à la faveur de certains passages très techniques (nous pensons en particuliers à l’article Le Corpus «Voies du français»: de l’élaboration à l’annotation), des sigles ou des notions informatiques ne soient pas clairement définis et rendent la compréhension complète du texte pour le moins ardue; mais cela n’est qu’occasionnel et peu important en définitive, même si bien sûr, en informatique, une clarté maximale est toujours souhaitable, dans l’optique de mieux collaborer d’abord, et ensuite de ne pas rebuter d’emblée d’éventuels utilisateurs novices. Néanmoins, répétons-le, il ne s’agit là que de quelques points faibles, car globalement, la recherche d’une clarté satisfaisante dans les explications techniques a été couronnée de succès. Tout au plus pourrait-on encore reprocher à Pierre Kunstmann et Achim Stein d’avoir, dans leur article liminaire Le Nouveau Corpus d’Amsterdam (22), utilisé la version anglaise d’un schéma déjà relativement complexe, alors qu’on en trouve une version française à l’adresse suivante: http: / / www.uni-stuttgart.de/ lingrom/ stein/ forschung/ transcoop/ talks/ 07stein.pdf. Ce point nous a d’ailleurs amené à constater qu’on trouve sur http: / / www.uni-stuttgart.de/ lingrom/ stein/ forschung/ transcoop/ talks les exempliers et diapositives utilisés à Lauterbad par les différents intervenants; il est dommage de ne pas l’avoir signalé, car cela peut parfois apporter de très précieux compléments d’information, voire même éclairer certains articles! Le seul réel reproche que l’on pourrait en définitive faire aux éditeurs de ces actes, c’est de ne pas avoir tenté de regrouper davantage les articles selon les orientations qui leur étaient communes. On aurait pu en effet imaginer un plan plus ordonné, qui au moyen d’un chapitrage très simple aurait distingué les articles portant sur des projets externes au NCA de ceux en expliquant l’histoire, la constitution et le fonctionnement, avant de finir par les quelques réflexions sur l’usage du corpus et son application à l’heure actuelle. Certes, nous comprenons qu’il s’agit d’une simple publication des actes d’un atelier; il est néanmoins 343 Besprechungen - Comptes rendus