Vox Romanica
vox
0042-899X
2941-0916
Francke Verlag Tübingen
10.2357/VOX-2020-001
Es handelt sich um einen Open-Access-Artikel, der unter den Bedingungen der Lizenz CC by 4.0 veröffentlicht wurde.http://creativecommons.org/licenses/by/4.0/121
2020
791
Kristol De StefaniAmbiguidade e desambiguação automática das preposições latinas no livro terceiro da Clavis Prophetarum
121
2020
Carlos Assunçãohttps://orcid.org/http://orcid.org/0000-0002-5739-0754
José Paulo Tavareshttps://orcid.org/http://orcid.org/0000-0001-5674-2271
Gonçalo Fernandeshttps://orcid.org/http://orcid.org/0000-0001-5512-6385
Le troisième livre de Clavis Prophetarum [La clé des prophètes], écrit par le père António Vieira, S. J. (1608-1697), dans sa version latine, provenant de la bibliothèque nationale portugaise en 2000 – édition critique de Arnaldo do Espírito Santo – constitue le corpus de
cette étude. Pour que l’on puisse travailler un corpus d’une langue donnée, nous avons besoin
de ressources linguistiques électroniques formalisées afin d’obtenir la couverture la plus large
possible et pouvant être utilisées dans des systèmes appropriés. Si pour le portugais nous
disposons déjà de ressources abondantes, depuis les années 1990 par le LabEL (Laboratoire
d’Ingénierie Linguistique), en ce qui concerne le latin nous ne pouvons pas en dire autant. En
effet, l’utilisation de programmes d’analyse automatique de texte n’est pas encore une pratique
courante, car elle se limite à des cercles de recherche restreints. Cependant, il s’agit d’un domaine dont l’importance et le potentiel croissants pour la recherche des langues justifient
pleinement tout l’effort de diffusion, afin que davantage de personnes soient intéressées à
investir et à en faire une valeur ajoutée dans la pratique éducative. Cet article est une petite
contribution à ce but et ses principaux objectifs sont d’aider à l’élaboration de règles pour la
désambiguïsation automatique des prépositions et de leur syntaxe dans la version latine de Clavis Prophetarum, ainsi que l’évaluation de l’efficacité de leur application, afin de permettre des approches ultérieures fiables dans l’étude de cette catégorie dans le corpus à l’aide de techniques automatiques.
vox7910001
VOX ROMANICA 79 · 2020 ANNALES HELVETICI EXPLORANDIS LINGUIS ROMANICIS DESTINATI CONDITI AB J. JUD ET A. STEIGER EDITI AUSPICIIS COLLEGII ROMANICI HELVETIORUM A MÓNICA CASTILLO LLUCH ET ELWYS DE STEFANI VOX ROMANICA Comité de rédaction: Rita Franceschini, présidente; Yan Greub, Andres Kristol, Georges Lüdi, Caterina Menichetti, Bruno Moretti, Lidia Nembrini, Hans-Rudolf Nüesch, Carli Tomaschett, Richard Trachsler. Rédacteurs: Mónica Castillo Lluch (Université de Lausanne), Elwys De Stefani (KU Leuven). Secrétaire de rédaction: Elena Diez del Corral Areta (Université de Lausanne). Adresses de la rédaction: Mónica Castillo Lluch, Université de Lausanne, Faculté des lettres - Section d’espagnol, Quartier UNIL-Chamberonne, Anthropole 4126, CH-1015 Lausanne (manuscrits et livres pour comptes rendus); courriel: monica.castillolluch@unil.ch Elwys De Stefani, KU Leuven, Multimodality, Interaction & Discourse (MIDI), Blijde- Inkomststraat 21 - box 3308, B-3000 Leuven; courriel: elwys.destefani@kuleuven.be Adresse de l’éditeur: Narr Francke Attempto Verlag GmbH + Co. KG, Dischingerweg 5, D-72070 Tübingen (correspondance relative à l’administration); courriel: info@narr.de; page Internet: www.narr.de Abonnement: € 84.- Tous les articles publiés depuis 1992 seront mis à disposition individuellement et gratuitement (Open Access) sur le site https: / / narr.digital/ journal/ vox après une période d’embargo de 12 mois. Tous les volumes de Vox Romanica de 1936 à 1991 ont été rétrodigitalisés. Ils sont disponibles gratuitement sur le site http: / / retro.seals.ch (Feuilleter par classification: Langues / Vox Romanica) VOX ROMANICA est une revue scientifique de linguistique et de philologie romanes, publiée une fois par année. Enracinée dans les études romanes helvétiques depuis sa fondation en 1936 et ouverte sur la recherche internationale, elle consacre une attention particulière aux questions concernant le plurilinguisme et les minorités linguistiques. Tout en restant attachée à une optique historique et philologique, elle favorise également l’étude des variétés romanes actuelles et de nouvelles approches de la recherche linguistique. Renseignements pour les auteurs: Les manuscrits sont à envoyer à l’adresse vox@narr.digital. Les normes rédactionnelles peuvent être consultées sur le site https: / / narr.digital/ journal/ vox (où on trouvera aussi la liste des livres disponibles pour les comptes rendus). Les articles sont évalués par des experts choisis au sein du comité de rédaction ou à l’extérieur de celui-ci. Les comptes rendus ne sont soumis à une évaluation que dans des cas exceptionnels. La rédaction se réserve d’éventuelles interventions stylistiques sur les textes. Les épreuves sont soumises aux auteurs. Au cours de la rédaction de ce numéro, 35 articles et comptes rendus ont été soumis à la rédaction. 4 contributions ont été jugées négativement, 31 (16 articles et 15 comptes rendus) ont été acceptées, en partie après une révision substantielle de la part des auteurs. À l’heure actuelle, 13 articles sont encore en cours d’évaluation. Inhalt - Contenu III VOX ROMANICA ANNALES HELVETICI EXPLORANDIS LINGUIS ROMANICIS DESTINATI CONDITI AB J. JUD ET A. STEIGER EDITI AUSPICIIS COLLEGII ROMANICI HELVETIORUM AB ELWYS DE STEFANI ET ANDRES KRISTOL A. FRANCKE VERLAG TÜBINGEN 76 · 2017 79 · 2020 A MÓNICA CASTILLO LLUCH ET ELWYS DE STEFANI Rita Franceschini (Freie Universität Bozen - Libera Università di Bolzano), Yan Greub (Glossaire des patois de la Suisse romande, Neuchâtel), Andres Kristol (Université de Neuchâtel), Georges Lüdi (Universität Basel), Caterina Menichetti (Universités de Genève et de Lausanne), Bruno Moretti (Universität Bern), Lidia Nembrini (Vocabolario dei dialetti della Svizzera italiana), Hans-Rudolf Nüesch (Universität Zürich, Jud-Bibliothek), Carli Tomaschett (Dicziunari rumantsch grischun), Richard Trachsler (Universität Zürich). Alle Rechte vorbehalten / All Rights Strictly Reserved Narr Francke Attempto Verlag GmbH + Co. KG ISSN 0042-899X ISBN 978-3-7720-2219-7 CPI books GmbH, Leck Comité de rédaction: Alain Corbellari (Universités de Lausanne et de Neuchâtel), Rolf Eberenz (Université de Lausanne), Rita Franceschini (Freie Universität Bozen - Libera Università di Bolzano), Alexandre Huber (Glossaire des patois de la Suisse romande, Neuchâtel), Ricarda Liver (Universität Bern), Georges Lüdi (Universität Basel), Bruno Moretti (Universität Bern), Lidia Nembrini (Vocabolario dei dialetti della Svizzera italiana), Hans-Rudolf Nüesch (Universität Zürich, Jud-Bibliothek), Jean-Yves Tilliette (Université de Genève), Carli Tomaschett (Dicziunari rumantsch grischun), Richard Trachsler (Universität Zürich), Peter Wunderlin (Universität Düsseldorf). Alle Rechte vorbehalten / All Rights Strictly Reserved Narr Francke Atempto Verlag GmbH & Co. KG ISSN 0042-899 X ISBN 978-3-7720-2216-6 Satz: pagina GmbH, Tübingen Printed in Germany Inhalt - Contenu Carlos Assunç-o/ José Paulo Tavares/ Gonçalo Fernandes, Ambiguidade e desambiguaç-o automática das preposições latinas no livro terceiro da Clavis Prophetarum ����������������������������������������������������������������������������������������������������������������� 1 Marcello Aprile, I primi secoli della lessicografia dialettale italiana ��������������������������� 19 Patrizia Cordin/ Leonardo Degasperi, Cambiamenti morfo-sintattici nel dialetto trentino di Piracicaba ���������������������������������������������������������������������������������������������������� 41 Renata Coray/ Alexandre Duchêne, Das Seilziehen um Zahlen. Schweizer Volkszählungen und das Bündnerromanische ����������������������������������������������������������������������� 61 Véronique Winand, Le Ms. Modena, Biblioteca Estense Universitaria α.W.3.13 (Mod2): Une structure cyclique alternative de Guiron Le Courtois ���������������������������� 89 Maria Colombo Timelli, Moyen français entre manuscrit et imprimé. Le cas du Dialogue des creatures (traduction anonyme, 1482) ��������������������������������������������������� 119 Riccardo Regis, I continuatori di -tŏr/ -tōre nelle Valli Valdesi: oggi e ieri ����������������� 137 Paolo Gresti, Sulla canzone “Nulhs hom non es tan fizels vas senhor” di Aimeric de Pegulhan (BEdT 10.38) ������������������������������������������������������������������������������������������������ 165 Aitor Carrera, Variació geolingüística en la fitonímia de l’occità de la Vall d’Aran. Les designacions de la gavarrera i el gavarró, el jonc, l’ortiga i la ginesta a l’alta conca de la Garona ������������������������������������������������������������������������������������������������������� 179 Rémy Viredaz, Catalan eixorc ‘stérile’ ���������������������������������������������������������������������������� 213 Santiago Vicente Llavata, Notas en torno al grado de castellanización de la Crónica troyana promovida por Juan Fernández de Heredia en el estudio contrastivo de su fraseología �������������������������������������������������������������������������������������������������������������������� 245 María José Martínez Alcalde, «The Proeme» de la Spanish Grammar (1599) de John Minsheu frente a la Gramática de la lengua vulgar de España (1559): algo más que un plagio ��������������������������������������������������������������������������������������������������������� 279 Livia C. García Aguiar, La elisión de que en las completivas de un corpus municipal de los siglos XVIII y XIX �������������������������������������������������������������������������������������������� 301 José Barbosa Machado, A perífrase verbal com haver + de + infinitivo na traduç-o portuguesa da Vita Christi de Ludolfo de Saxónia ������������������������������������������������������� 329 Rolf Eberenz, Germán Colón Doménech. 30 novembre 1928 - 20 mars 2020 ������������� 347 Eric Flückiger, Paul-Henri Liard. 7 février 1945 - 8 juin 2019 ������������������������������������ 351 Besprechungen - Comptes rendus ������������������������������������������������������������������������������������ 356 Nachrichten - Chronique �������������������������������������������������������������������������������������������������� 423 Prix Collegium Romanicum pour l’avancement de la relève ������������������������������������������� 439 Adresses des auteures et auteurs (contributions originales) ��������������������������������������������� 440 Besprechungen - Comptes rendus Philologie et linguistique romane générales - Allgemeine Philologie und Romanische Sprachwissenschaft Chiara Gianollo, Indefinites between Latin and Romance (Adrian Chircu) ����������������� 356 VI Inhalt - Contenu Italoromania Frédéric Nicolosi, Topic- und Focus-Markierung im Altitalienischen (Giampaolo Salvi) ���������������������������������������������������������������������������������������������������������������������������� 360 Raetoromania Paul Videsott (ed�), Vocabolar dl ladin leterar� Vocabolario del ladino letterario. Wörterbuch des literarischen Ladinisch. Vol. 1: Lessich documenté dant l 1879. Lessico documentato prima del 1879. Vor 1879 belegter Wortschatz (Ricarda Liver) ���� 368 Galloromania Sylvie Meyer, Le Roman d’aventure médiéval entre convention et subversion (XII e - XIII e siècles). Accidents de parcours (Pauline Quarroz) ���������������������������������������������� 371 Joël Aguet, Origines de la chanson de l’Escalade en langage savoyard dite Cé qu’è laino (Elisabeth Berchtold) ������������������������������������������������������������������������������������������ 374 Las Leys d’amors. Redazione lunga in prosa . Edizione critica a cura di Beatrice F edi (Dominique Billy) ������������������������������������������������������������������������������������������������ 379 Ioana-Maria Stoenica, Actions et conduites mimo-gestuelles dans l’usage conversationnel des relatives en français (Sabrina Roh) ����������������������������������������������������������� 382 Iberoromania Emilio Ridruejo (ed�), Manual de lingüística española (Irene Bello Hernández) ���������� 387 Marta López Izquierdo, Las relaciones condicionales en la prosa ejemplar castellana de la Edad Media (María Méndez Orense) ������������������������������������������������������������� 390 Pedro Sánchez-Prieto Borja/ Delfina Vázquez Balonga, La beneficencia madrileña. Lengua y discurso en los documentos de los siglos XVI al XIX (Irene Roldán González) ��������������������������������������������������������������������������������������������������������������������� 395 Alberto Manuel Arias García/ Mercedes de la Torre García, Ictonimia andaluza. Nombres vernáculos de especies pesqueras del “Mar de Andalucía” (Marta Torres Martínez) ����������������������������������������������������������������������������������������������������������� 399 Jakob Egetenmeyer, Der Verbalanschluss im Spanischen. Kognitiv-syntaktische Analyse nominaler und satzwertiger Akkusativobjekte (Philipp Obrist) ��������������������� 403 Ane Berro/ Beatriz Fernández/ Jon Ortiz de Urbina (ed�), Basque and Romance� Aligning Grammars (Sara Gómez Seibane) ����������������������������������������������������������������� 410 Romania Nova Volker Noll, Das amerikanische Spanisch. Ein regionaler und historischer Überblick (Carolin Patzelt) �������������������������������������������������������������������������������������������������� 415 Katharina Link, Variation im städtischen Raum. Eine soziolinguistische Untersuchung zur intraurbanen Koexistenz von «ʒeísmo» und «ʃeísmo» in Buenos Aires (Vanessa Tölke) ������������������������������������������������������������������������������������������������������������ 418 Mitarbeiter des 79. Bandes (Die Seiten der Originalartikel sind kursiv gedruckt.) Aprile, M� ����������������������������������������������� 19 Assunç-o, C� �������������������������������������������� 1 Bello Hernández, I. ������������������������������ 387 Berchtold, E. ���������������������������������������� 374 Billy, D. ������������������������������������������������ 379 Carrera, A� �������������������������������������������� 179 Chircu, A. ��������������������������������������������� 356 Colombo Timelli, M. ���������������������������� 119 Coray, R. ������������������������������������������������ 61 Cordin, P. ������������������������������������������������ 41 Degasperi, L. ������������������������������������������ 41 Duchêne, A. �������������������������������������������� 61 Eberenz, R. ������������������������������������������� 347 Fernandes, G. ������������������������������������������� 1 Flückiger, E. ����������������������������������������� 351 García Aguiar, L. C. ����������������������������� 301 Gómez Seibane, S. ������������������������������� 410 Gresti, P. ����������������������������������������������� 165 Liver, R� ����������������������������������������������� 368 Machado, J. B. ������������������������������������� 329 Martínez Alcalde, M. J. ������������������������ 279 Méndez Orense, M. ������������������������������ 390 Obrist, P. ����������������������������������������������� 403 Patzelt, C. ��������������������������������������������� 415 Quarroz, P. �������������������������������������������� 371 Regis, R� ����������������������������������������������� 137 Roh, S. �������������������������������������������������� 382 Roldán González, I. ������������������������������ 395 Salvi, G. ����������������������������������������������� 360 Tavares, J. P. ��������������������������������������������� 1 Tölke, V. ����������������������������������������������� 418 Torres Martínez, M. ����������������������������� 399 Vicente Llavata, S. ������������������������������� 245 Viredaz, R. ������������������������������������������� 213 Winand, V. ���������������������������������������������� 89 Vox Romanica 79 (2020): 1-18 DOI 10.2357/ VOX-2020-001 Ambiguidade e desambiguaç-o automática das preposições latinas no livro terceiro da Clavis Prophetarum* 1 Carlos Assunç-o (Universidade de Trás-os-Montes e Alto Douro) http: / / orcid.org/ 0000-0002-5739-0754 José Paulo Tavares (Universidade de Trás-os-Montes e Alto Douro) http: / / orcid.org/ 0000-0001-5674-2271 Gonçalo Fernandes (Universidade de Trás-os-Montes e Alto Douro) http: / / orcid.org/ 0000-0001-5312-6385 Résumé: Le troisième livre de Clavis Prophetarum [ La clé des prophètes ], écrit par le père António V ieira , S. J. (1608-1697), dans sa version latine, provenant de la bibliothèque nationale portugaise en 2000 - édition critique de Arnaldo do e spírito s anto - constitue le corpus de cette étude. Pour que l’on puisse travailler un corpus d’une langue donnée, nous avons besoin de ressources linguistiques électroniques formalisées afin d’obtenir la couverture la plus large possible et pouvant être utilisées dans des systèmes appropriés. Si pour le portugais nous disposons déjà de ressources abondantes, depuis les années 1990 par le LabEL (Laboratoire d’Ingénierie Linguistique), en ce qui concerne le latin nous ne pouvons pas en dire autant. En effet, l’utilisation de programmes d’analyse automatique de texte n’est pas encore une pratique courante, car elle se limite à des cercles de recherche restreints. Cependant, il s’agit d’un domaine dont l’importance et le potentiel croissants pour la recherche des langues justifient pleinement tout l’effort de diffusion, afin que davantage de personnes soient intéressées à investir et à en faire une valeur ajoutée dans la pratique éducative. Cet article est une petite contribution à ce but et ses principaux objectifs sont d’aider à l’élaboration de règles pour la désambiguïsation automatique des prépositions et de leur syntaxe dans la version latine de Clavis Prophetarum , ainsi que l’évaluation de l’efficacité de leur application, afin de permettre des approches ultérieures fiables dans l’étude de cette catégorie dans le corpus à l’aide de techniques automatiques. Palavras-chaves: P.e António V ieira , S. J. (1608-1697), Clavis Prophetarum , Linguística, Corpus , Ambiguidade, Recursos eletrónicos. * 1 Este trabalho foi financiado por fundos nacionais através da Fundaç-o para a Ciência e a Tecnologia (FCT), no âmbito do Centro de Estudos em Letras, com a referência n.º UIDB/ 00707/ 2020. Carlos Assunç-o / José Paulo Tavares / Gonçalo Fernandes 2 Vox Romanica 79 (2020): 1-18 DOI 10.2357/ VOX-2020-001 0. Introduç-o A ambiguidade é um dos maiores desafios que se coloca ao desenvolvimento de sistemas de processamento de linguagem natural e, consequentemente, à exploraç-o de corpora , especialmente quando etiquetados. G azdar / M ellish 1989: 7-8 distinguem entre ambiguidade global (quando uma frase pode ter mais do que uma estrutura) e ambiguidade local (quando uma parte do conjunto pode ter diferentes leituras), enquanto s Mall / C ottrell / t anenhaus 1988: 4 diferenciam ambiguidade lexical (quando uma palavra pode ter mais do que uma interpretaç-o) de ambiguidade estrutural. h utChins / s oMers 1992: 85 estabelecem três tipos de ambiguidade lexical: (i) category ambiguity , (ii) provocada por homonímia ou polissemia e (iii) transfer or translational ambiguities . Numa abordagem orientada por um sistema de análise automática multinível, B iCk 2000: 99 classifica os tipos de ambiguidade segundo os níveis morfológico, sintático e semântico, aventando ainda a possibilidade de um nível pragmático. s ilBerztein 2018 [2003-]: 82-83, no entanto, a respeito da construç-o de dicionários para uso no NooJ 1 , refere a existência de ambiguidade lexical (quando uma palavra se associa a diferentes propriedades, por exemplo sintáticas ou distribucionais), o que implica uma duplicaç-o das entradas, e de ambiguidade morfológica (quando uma palavra se associa a mais do que uma análise morfológica). A resoluç-o de ambiguidades (restringimo-nos à ambiguidade de escopo lexical) tem como objetivo eliminar rápida e eficazmente o maior número possível de análises incorretas que resultam da etiquetagem lexical, e pode ser levada a cabo de diversas formas. Tal como em outros aspetos do processamento da linguagem natural, a desambiguaç-o pode basear-se numa abordagem puramente probabilística ou num sistema baseado em regras, havendo ainda a possibilidade de combinar ambas as técnicas. O modelo probabilístico necessita de um corpus de treino (ou aprendizagem) e faz uso dos HMM ( Hidden Markov Model ) - trata-se de um tipo de máquina de estados finitos em que todos os símbolos aí representados podem ser gerados em qualquer estado, embora com diferentes probabilidades - para atribuir a cada item a etiqueta mais provável, descartando as restantes possíveis. Em sistemas de desenvolvimento linguístico como o NooJ , parte das ambiguidades resultantes da homografia pode ser resolvida pela hierarquizaç-o dos recursos linguísticos, nomeadamente através da atribuiç-o de graus de prioridade aos diversos 1 O NooJ , desenvolvido por Max s ilBerztein , é um ambiente de desenvolvimento linguístico que inclui grandes dicionários e gramáticas de cobertura e analisa corpora em tempo real. Inclui ferramentas para criar e manter recursos lexicais de grande cobertura, além de gramáticas morfológicas e sintáticas. Dicionários e gramáticas s-o aplicados aos textos para localizar padrões morfológicos, lexicais e sintáticos e marcar palavras simples e compostas. O NooJ pode construir concordâncias complexas, com relaç-o a todos os tipos de padrões de estado finito e livres de contexto. Os usuários do NooJ podem facilmente desenvolver extratores para identificar unidades semânticas em textos grandes, como nomes de pessoas, locais, datas, expressões técnicas de finanças etc. (s ilBerztein 2018 [2003-]). 3 Vox Romanica 79 (2020): 1-18 DOI 10.2357/ VOX-2020-001 Ambiguidade e desambiguaç-o automática das preposições latinas recursos ou da inserç-o da chave «+UNAMB» - recurso do NooJ que permite estabelecer uma transferência padr-o eliminando todas as outras possibilidades resultantes da homografia, neste caso -, em determinadas entradas, o que provoca a paragem da análise pelo sistema usando outros recursos disponíveis, evitando assim a atribuiç-o de etiquetas desadequadas à partida. A necessidade de um dicionário deste tipo torna-se premente a partir de um nível sintático de análise, em que há sequências que funcionam ou como equivalentes a uma palavra, o caso das locuções e das formas verbais compostas, ou constituem unidades sintático-semânticas bem definidas, como é o caso das fraseologias, dos idiomatismos e de outras unidades como a colocaç-o, termo introduzido na metalinguagem linguística por F irth , mostrando que o aspeto relevante do significado de uma palavra é o conjunto de todas as outras palavras que com ela se combinam, definindo-o como caracterizaç-o de uma palavra de acordo com outras palavras que tipicamente ocorrem com ela: «You shall know a word by the company it keeps! » (F irth 1968: 179). Como colocaç-o entendemos «the habitual meaningful co-occurrence of two or more words (a node word and its collocate or collocates) in the close proximity to each other» (h alliday et al. 2004: 168). Com efeito, parece um dado adquirido que a etiquetagem lexical correta é um subproduto da análise sintática, o que, em termos de processamento automático de grandes quantidades de texto, é um objetivo ainda distante. Uma resoluç-o parcial (ou reduç-o) das ambiguidades lexicais, n-o necessitando de uma análise sintática completa e sendo menos ambiciosa, é no entanto mais exequível e realista. Qualquer que seja o método de desambiguaç-o utilizado, é necessário ter sempre presente que o objetivo principal é o de eliminar a maior parte das análises incorretas (preferencialmente todas), mas sem eliminar no processo as análises corretas. O excesso de etiquetas é referido como taxa de ruído, enquanto a eliminaç-o de análises corretas corresponde à taxa de silêncio. Um sistema de desambiguaç-o ótimo será aquele que mantém ambas no valor zero. 1. Metodologia Um primeiro óbice a ultrapassar no que diz respeito à exploraç-o de um corpus em língua latina, seja ele parte integrante de corpora paralelos ou n-o (ver B owker / p earson 2002), prende-se com o carácter reducionista e incipiente dos recursos lexicais em formato eletrónico disponíveis para esta língua, o que n-o permite uma etiquetagem satisfatória nem um posterior tratamento eficiente. Efetivamente, excetuando um módulo mínimo no projeto VISL (Visual Interactive Syntax Learning) 2 , que se limita à apresentaç-o do resultado da etiquetagem e aná- 2 O VISL é um projeto de investigaç-o do Institute of Language and Communication, da University of Southern Denmark, cujos alunos e professores, desde 1996, têm vindo a conceber e a implemen- Carlos Assunç-o / José Paulo Tavares / Gonçalo Fernandes 4 Vox Romanica 79 (2020): 1-18 DOI 10.2357/ VOX-2020-001 lise sintática efetuadas a algumas frases-exemplo, merece referência um projeto/ instrumento especificamente criado para proceder à etiquetagem automática de textos latinos sob a responsabilidade de Jean s ChuMaCher 2001, na Universidade Católica de Louvain: Itinera Electronica 3 . Este instrumento, além de permitir transportar os resultados da análise para uma folha de cálculo ou uma base de dados, o que facilita processos como a filtragem da informaç-o ou cálculos estatísticos, revelou-se ainda muito pouco útil devido à incapacidade revelada pelo Itinera Electronica em trabalhar textos de maiores dimensões: além de necessitar de muito tempo para a computaç-o, este programa n-o está preparado para trabalhar textos que excedam os 60.000 caracteres, o que é manifestamente muito reduzido e torna inviável o trabalho com corpora de dimensões razoáveis. Por exemplo: para proceder à etiquetagem automática do livro terceiro da Clavis Prophetarum (V ieira 2000), constituída por 43.153 palavras (segundo contagem automática parcelar), foi necessário dividir o texto em 12 pequenos ficheiros e submeter cada um deles, alternadamente, no programa. Os resultados desta análise sofreram o processo descrito acima, e finalmente reuniram-se os resultados na mesma folha de cálculo, o que permitiu obter uma vis-o geral das capacidades de etiquetagem do Itinera Electronica , bem como da taxa de cobertura dos recursos lexicais acoplados. De 43.153 formas, o Itinera Electronica deixa 18.827 por classificar, o que equivale a 44% de palavras que n-o se encontram documentadas no dicionário eletrónico. Relativamente às 24.326 formas classificadas, foram produzidas 51.433 etiquetas, o que significa que houve um acréscimo de 27.107 etiquetas provocado pela ambiguidade - o que se prende certamente mais com as características intrínsecas da própria língua do que propriamente com o instrumento de análise. A partir da consideraç-o dos resultados destes dicionários procedemos à primeira anotaç-o do corpus . Depois, para o caso das preposições, foi construída uma segunda anotaç-o para as preposições latinas da Clavis Prophetarum ( Clavis III LA ). Relativamente à análise sintática automática, foram aplicadas as regras de desambiguaç-o formalizadas para as preposições e respetivos sintagmas. Com estas configurações, as formas desconhecidas s-o 607. Considerando que, destas, 240 correspondem a formas resultantes da falta de homogeneidade gráfica entre jJ/ iI e uU/ vV e 66 abreviaturas (embora cinco destas se contabilizem também nas 240 antes citadas), temos um total de 306 formas claramente n-o constantes do dicionário, o que resulta numa taxa de cobertura dos recursos linguísticos (dicionário e gramáticas) de 97,5%. De um total de 37.451 anotações resultantes da primeira anotaç-o (34.474 entradas diferentes) passou-se agora a 36.138 anotações (33.285 entradas diferentes): mesmo tar ferramentas linguísticas baseadas na Internet para a educaç-o e a investigaç-o ( VISL 1996-2020). 3 O Projeto ITINERA ELECTRONICA pretende ser uma fonte de ambientes educativos interativos para o ensino e aprendizagem de línguas, literaturas e culturas clássicas, especialmente latinas (s ChuMaCher 2001). 5 Vox Romanica 79 (2020): 1-18 DOI 10.2357/ VOX-2020-001 considerando o acréscimo de anotações resultante da aplicaç-o das gramáticas relativas aos nomes próprios e aos numerais romanos, as regras de desambiguaç-o das preposições e sintagmas preposicionais correspondem a uma reduç-o de 1.189 entradas da lista das anotações. 2. Caracterizaç-o do léxico do corpus Para se fazer a caracterizaç-o do léxico do corpus, começou-se por definir para o Latim um conjunto de nove etiquetas básicas correspondentes grosso modo às tradicionais partes orationis : Etiqueta Categoria Exemplo A Adjetivo aeneo, aeneus, A+FLX= Aeneus+pos+ab+s+m ADV Advérbio altius, alte, ADV+FLX=Alte+comp CONJ Conjunç-o et, CONJ INT Interjeiç-o o, INT N Nome rosarum, rosa, N+FLX=Rosa+gen+p PREP Preposiç-o ad, PREP PRO Pronome me, ego, PRO+pes+ac+s+m V Verbo amare, amo, V+FLX=Amo+INF+Prés+Act NUM Numeral tribus,tres, NUM+card+FLX=Tres+ab+s+n Tabela 1: Etiquetas básicas das no Clavis III LA Depois, aplicando o programa NooJ , sem ter sido feita qualquer desambiguaç-o, obtiveram-se os seguintes dados relativos à distribuiç-o das etiquetas pelas diferentes partes orationis : Partes orationis Clavis III LA Nomes 14.436 Verbos 12.302 Adjetivos 7.494 Advérbios 6.933 Conjunções 4.714 Preposições 4.349 Pronomes 4.112 Interjeições 438 Numerais/ Determinantes 352 Tabela 2: As partes orationis no Clavis III n-o desambiguado Ambiguidade e desambiguaç-o automática das preposições latinas Carlos Assunç-o / José Paulo Tavares / Gonçalo Fernandes 6 Vox Romanica 79 (2020): 1-18 DOI 10.2357/ VOX-2020-001 Os dados da tabela anterior correspondem à seguinte distribuiç-o percentual: Gráfico 1: Distribuiç-o percentual das partes orationis no Clavis III n-o desambiguado Com o objetivo de avaliar a influência da ambiguidade nos resultados atrás expostos, tomámos uma parte do corpus, o primeiro capítulo, como elemento de controlo e procedemos à desambiguaç-o manual de cada uma das ocorrências, de forma a podermos comparar os resultados da etiquetagem efetuada usando o dicionário que criámos e a gramática, com uma etiquetagem livre de ambiguidades. Na tabela seguinte podemos ver as variações provocadas pela desambiguaç-o: Gráfico 2: As partes orationis no Clavis III n-o desambiguado e desambiguado 7 Vox Romanica 79 (2020): 1-18 DOI 10.2357/ VOX-2020-001 No sub-corpus, a maior variaç-o antes/ após desambiguaç-o verifica-se nos pronomes que, em termos percentuais, passam de 10% para 13%. As conjunções sobem, percentualmente, de 10% para 13%, ao passo que os advérbios e os verbos sofrem uma descida equivalente, de 12% para 9% e de 21% para 18%, respetivamente. A classe das preposições apresenta variaç-o significativa: de 11% no corpus n-o desambiguado passamos para 17% após desambiguaç-o. De resto, os pronomes descem 3%, os nomes descem 2% e os restantes ou variam 1% ou mantêm a percentagem. Porém, se se quiser passar além desse objetivo, procedendo ao estudo aturado da utilizaç-o de determinada classe de palavras, a desambiguaç-o torna-se imperativa, sob pena de (i) serem incluídos num determinado grupo itens que n-o lhe pertencem, (ii) os dados serem duplicados, devido às etiquetas que relacionam determinado item com várias classes, e (iii) de se correr o risco de se trabalhar em v-o, sobre lemas que, na realidade, n-o s-o usados no corpus. Esta é a raz-o pela qual se fez a desambiguaç-o das preposições, como se poderia ter feito de uma outra qualquer classe de palavras, aplicando os dicionários e as gramáticas criadas para avaliar da eficácia da sua aplicaç-o, de forma a permitir abordagens fiáveis no estudo desta categoria no corpus usando técnicas automáticas. 3. Desambiguaç-o das preposições latinas No corpus da Clavis III LA (V ieira 2000) anotado apenas com o dicionário desenvolvido e a gramática morfológica que permite identificar, perante as palavras n-o constantes no léxico, as formas com um dos quatro clíticos ( -ve , -ne , -que e -cum ), efetuada uma consulta solicitando todas as ocorrências etiquetadas com PREP , obteve-se um total de 4.349 ocorrências, sendo que as formas diferentes s-o 48: a , ab , absque , ad , adversum , adversus , ante , apud , circa , citra , clam , contra , coram , cum , de , e , erga , ex , extra , in , infra , inter , intra , ob , per , post , prae , praeter , pro , procul , se , secum , secundum , sed , seque , simul , simulque , sine , sub , subter , subtus , super , supra , tenus , trans , ultra , usque , e versus . Destas, n-o s-o ambíguas, no sentido em que só têm uma etiqueta, as seguintes treze: ab , absque , apud , de , e , erga , ex , in , inter , ob , per , sub e trans que n-o podem ser sen-o preposições. Das restantes, se recebe etiquetas de PRO e PREP , mas, considerando que se preposiç-o é uma forma arcaica de sine , podemos com segurança eliminar deste corpus a etiqueta PREP da forma se . O mesmo se passa com sed que, além de conjunç-o, pode ser uma forma arcaica de sine . Também a pode ser uma interjeiç-o ou uma preposiç-o, pelo que ter-o de ser analisados os contextos para verificar a possível utilizaç-o da forma como interjeiç-o. O mesmo se passa com pro . Ambiguidade e desambiguaç-o automática das preposições latinas Carlos Assunç-o / José Paulo Tavares / Gonçalo Fernandes 8 Vox Romanica 79 (2020): 1-18 DOI 10.2357/ VOX-2020-001 As formas seguintes podem ser advérbios ou preposições, que ter-o de ser desambiguadas: ante , circa , clam , contra , infra , post , prae , praeter , procul , simul , subter , subtus , supra , ultra e usque . Cum ora é conjunç-o, ora é preposiç-o, sendo necessária a análise contextual para desambiguaç-o. Quanto às restantes formas da lista, todas podem pertencer a duas ou mais categorias: - adversum pode ser nome, adjetivo, verbo, preposiç-o ou advérbio; - adversus pode ser adjetivo, advérbio, nome, verbo ou preposiç-o; - citra pode ser advérbio, nome ou preposiç-o; - coram pode ser advérbio, nome ou preposiç-o; - extra pode ser advérbio, verbo ou preposiç-o, assim como intra; - secundum pode ser advérbio, nome, adjetivo ou preposiç-o; - sine pode ser usado como verbo, nome ou preposiç-o; - super pode ser adjetivo, advérbio ou preposiç-o; - tenus pode ser um nome ou uma preposiç-o; - versus pode ser verbo, advérbio, nome ou preposiç-o. Na elaboraç-o de regras para desambiguaç-o das preposições procuraremos, dado o elevado número de etiquetas provenientes do facto de termos optado por um alto grau de pormenorizaç-o descritiva no dicionário eletrónico (sobretudo devido ao facto de ter sido produzida uma etiqueta diferente para cada caso, género, grau, …), procuraremos também proceder à desambiguaç-o dos termos ocorrentes no contexto das preposições, nomeadamente no que diz respeito à reduç-o das etiquetas de casos homónimos, usando para isso as restrições de natureza sintática das próprias preposições. Por exemplo, sabendo que tenus é uma preposiç-o que se pospõe ao seu complemento, e que este, por seleç-o de tenus , se encontra em ablativo, podemos reduzir as etiquetas de memoria , na express-o centonibus memoria tenus inflatos , de seis para uma, visto que apenas uma das seis etiquetas contém o traço +ab , ao mesmo tempo que se define que, nesta circunstância, tenus deve ser etiquetado como PREP , se aplicarmos uma regra como a seguinte: Figura 1: FST 4 de desambiguaç-o do SP introduzido por tenus 4 FST é um transdutor de estados finitos ( finite-state transducer , FST ). 9 Vox Romanica 79 (2020): 1-18 DOI 10.2357/ VOX-2020-001 Tendo sido analisadas as ocorrências das diferentes formas ambíguas no corpus Clavis III LA e respetivos contextos, foram construídas várias gramáticas de desambiguaç-o, algumas das quais, de carácter mais geral, poder-o ser válidas para outros corpora , enquanto outras s-o específicas para o corpus em estudo. Tenus ocorre apenas uma vez no corpus , precisamente na express-o citada acima, pelo que foi formalizada a regra já descrita. Versus ocorre também apenas uma vez, como advérbio, tendo sido formalizada uma regra para manter apenas esta etiqueta ( versus/ <ADV> ). Super é usado 38 vezes, sempre como preposiç-o, tendo sido elaboradas as seguintes regras: super é preposiç-o quando: seguido de nome no acusativo (que, por sua vez, mantém apenas a etiqueta relativa a este caso) e, eventualmente, de um adjetivo no mesmo caso: super lapidem , super sedem sanctam ; seguido de adjetivo e nome no acusativo (mantendo os primeiros apenas as etiquetas relativas a este caso): super omnem impietatem , super omnes vicinos ; seguido de pronome no acusativo (que, por sua vez, mantém apenas a etiqueta relativa a este caso): super eos , super utrumque ; seguido de nome no ablativo (que, por sua vez, mantém apenas a etiqueta relativa a este caso): super exercitio , super salute ; seguido de pronome no ablativo (que, por sua vez, mantém apenas a etiqueta relativa a este caso): super qua . Sine ocorre 57 vezes, sempre como preposiç-o, e as regras elaboradas para a sua desambiguaç-o foram as seguintes: sine é preposiç-o quando: seguido de nome no ablativo (que, por sua vez, mantém apenas a etiqueta relativa a este caso) e, eventualmente, de um adjetivo no mesmo caso: sine labore , sine Deo vero ; seguido de pronome no ablativo (que, por sua vez, mantém apenas a etiqueta relativa a este caso) e, eventualmente, de um nome no mesmo caso: sine ulla lege , sine alio teste ; seguido de forma verbal no ablativo (que, por sua vez, mantém apenas a etiqueta relativa a este caso): sine praedicante ; seguido de adjetivo e nome no ablativo (que, por sua vez, mantêm apenas as etiquetas relativas a este caso): sine certo magistratu , sine magna causa . Considerando que se e sed , enquanto formas arcaicas de sine , n-o ocorrem no corpus sen-o como pronome e conjunç-o, definiram-se regras que eliminassem as etiquetas < PREP > a elas associadas: Ambiguidade e desambiguaç-o automática das preposições latinas Carlos Assunç-o / José Paulo Tavares / Gonçalo Fernandes 10 Vox Romanica 79 (2020): 1-18 DOI 10.2357/ VOX-2020-001 Figura 2: FST de desambiguaç-o de sine , se e sed Analisando os contextos das 17 vezes em que secundum ocorre, n-o foi possível generalizar regras de desambiguaç-o, pelo que foram construídas as seguintes, especificamente para este corpus : secundum é um advérbio se seguido de uma vírgula: Secundum, eas minime deperditas esse ; secundum é preposiç-o quando seguido de Apostolum , carnem , fidem , oraculum , Philosophum , sententiam ou extremam : secundum sententiam Domini ; seguido de um pronome no acusativo, que deve manter apenas esta etiqueta, e possivelmente de um nome no acusativo: secundum quid , secundum suam misericordiam ; seguido de Rhetoricae (genitivo) e um nome no acusativo: secundum Rhetoricae leges . Embora intra , nas onze ocorrências, seja sempre preposiç-o, optámos por elaborar uma gramática para resolver as ambiguidades relacionadas com o sintagma preposicional que introduz, representada no grafo seguinte, que prevê a ocorrência de complementos em acusativo imediatamente à direita ou com um complemento em genitivo ( intra suscepti instituti cancellos ) ou outro preposicional ( intra illud a Christo saeculum ) de permeio: Figura 3: FST de desambiguaç-o do SP introduzido por intra
