Glorieux, Frédéric, École nationale des chartes, France, frederic.glorieux@enc.sorbonne.fr Jolivet, Vincent, École nationale des chartes, France, vincent.jolivet@enc.sorbonne.fr
L’exploration d’un corpus sur un champ sémantique, avec plusieurs mots clés, produit de longues concordances fastidieuses à dépouiller. Les outils proposent de trier les résultats par les mots du contexte, ce qui permet rarement de dégager des classes sémantiques éclairantes quand le vocabulaire est varié, sans mots spécialement fréquents. Des regroupements peuvent être opérés par référence à un système de traits sémantiques, ou ‘sèmes’, attribués aux mots du contexte. Maurice Gross1 a ainsi montré comment quelques traits peu équivoques tels que humain–non humain pouvaient distinguer des acceptions: par exemple, le verbe permettre signifie généralement ‘autoriser’ lorsque son sujet est une personne, ou bien, il signifie ‘rendre possible’ lorsque le sujet est une chose. La sémantique syntaxique n’est cependant pas suffisante pour dégager toutes les significations. François Rastier2 a montré que l’interprétation du sens dans un texte, et non seulement dans une phrase, s’appuyait sur l’isotopie de bien d’autres sèmes, par exemple /noirceur/, /rapidité/, et tout le spectre des valeurs et des sentiments. Il a par ailleurs insisté sur les limites des ontologies classificatoires de concepts, comme WordNet3. Si un lexique sémique informatisé serait souhaitable, il n’est malheureusement pas encore constitué4. Notre communication explore les potentialités et les limites de la traduction automatique comme instrument de discrimination sémantique, en observant d’abord son application à un dictionnaire.
L’informatisation de la désambiguïsation sémantique a très tôt (1949) été liée à la traduction automatique, notamment par Warren Weaver5. Lorsqu’un traducteur humain rencontre en contexte le mot français ‘société’, il a l’expertise pour choisir en anglais entre ‘society’ et ‘company’. Comment résoudre informatiquement cette ambiguïté? Weaver appelait à la constitution d’un lexique inventoriant les différents sens de chaque mot, avec des critères repérables dans le contexte permettant d’opérer la distinction. Une telle ressource suppose l’existence d’universaux linguistiques partagés entre les langues, (language invarients selon les termes de Weaver). À cette époque, c’était visionnaire, la désambiguïsation sémantique se présentait comme un préalable à la traduction automatique.
Actuellement, les traducteurs automatiques en ligne sont de plus en plus performants, pourtant, la désambiguïsation sémantique ne présente pas de résultats aussi convaincants. Par exemple les moteurs de recherche ne distinguent pas encore strictement plusieurs sens d’un même mot, comme société: ‘communauté organisée’ ou ‘entreprise’. Des résultats ont été obtenus, mais les progrès butent sur un obstacle humain. Jean Véronis6 a ainsi montré qu’avec un même dictionnaire et les même textes, des personnes n’affectaient pas le même sens à un mot équivoque (barrage). Les nuances proposées par les lexicographes diffèrent selon les dictionnaires et sont comprises différemment par les lecteurs. Si la traduction automatique a progressé, ce n’est pas par la désambiguïsation sémantique, mais par la loi de Moore qui a augmenté exponentiellement la capacité des ordinateurs, qui désormais mémorisent et traitent une grande quantité de traductions alignées.
Même si elle n’est pas explicitement formalisée, la traduction automatisée effectue pourtant bien des distinctions sémantiques. Dans votre traducteur préféré, proposez par exemple ces deux phrases: ‘La société doit protéger les faibles. La société protège ses biens.’; vous pouvez obtenir les traductions: ‘Society must protect the weak. The company protects its assets.’, ‘Die Gesellschaft muss den Schutz der Schwachen. Das Unternehmen schützt sein Vermögen.’, ‘La sociedad debe proteger a los débiles. La empresa protege sus activos.’ Pourrait-on mobiliser cette information sémantique pour opérer des distinctions dans une même langue?
Pour observer le phénomène plus précisément, nous avons établi une édition électronique du Dictionnaire de la langue française d’Émile Littré (1863-1872)7. Comme tout dictionnaire, le Littré distingue les différentes significations d’un même mot vedette, mais il a aussi l’avantage de comporter de nombreuses citations et exemples d’emplois. L’auteur revendique un ordre historique des significations, ou du moins, fidèle à une reconstruction génétique selon ses convictions positivistes. Si la finesse des définitions et des distinctions de Littré impressionne encore, leur ordre convient beaucoup moins au lecteur d’aujourd’hui. Nous avons fait l’expérience d’utiliser la traduction automatique pour réordonner l’article selon l’équivalent traductionnel proposé dans une langue cible. Soit par exemple l’article SOCIÉTÉ, toutes les occurrences de société dans les exemples et les citations sont en gras. La traduction automatique en anglais renvoie l’article traduit, avec en gras des occurrences de society, company, voire corporation, venture, ou partnership. Ces mots servent ensuite de clés pour regrouper différemment les paragraphes de Littré, et proposer un nouvel ordre de lecture, selon le réseau sémantique de la langue cible. Avec une langue qu’il connait, le lecteur constate évidemment des erreurs de traduction, notamment dans les textes anciens ou les phrases tronquées, mais il est aussi surpris par la reconnaissance de locutions rares (Petites-Maisons: ‘madhouse’). Sur des articles longs, avec assez d’exemples par significations, le classement par équivalent traductionnel dégage généralement des distinctions éclairantes, en pondérant mieux les acceptions fréquentes, en regroupant des usages que la doctrine historique de Littré avait séparé. Au fond, le procédé retrouve la pratique ancienne dans les langues européennes de se référer à une autre langue (en général le latin) pour distinguer les significations dans une langue vivante. La traduction automatique n’a évidemment pas l’exactitude d’un jugement humain, mais elle permet de projeter les textes sur des dizaines de langues, qui sont autant d’espaces sémantiques originaux. La comparaison et la combinaison de plusieurs langues produisent des ordres de lecture parfois difficiles à interpréter, mais rarement dénués de sens.
La traduction automatique articule des distinctions sémantiques, certes biaisées par les limites de l’informatique, les intérêts pratiques des utilisateurs, ou le lexique de l’anglais qui sert généralement de langue pivot, mais pourtant révélatrices de l’expérience singulière de nombreuses langues. Cette approche convient aux digital humanities parce qu’elle ne suppose pas a priori des universaux de signification et tente plutôt d’instrumentaliser l’interculturalité afin de mieux comprendre sa propre culture. La procédure peut être imitée par des dizaines d’autres langues, sans constitution coûteuse de lexiques sémantiques ou de corpus annotés. Le lexicographe, d’abord, sera invité à revoir le plan de ses articles, à se dégager de ses présupposés logiques, par comparaison au découpage lexical d’autres langues. Nous utilisons ce type de procédures dans des interfaces interactives de recherche, afin d’élargir le bouquet de mots d’une requête, puis pour trier les concordances.
1.Les bases empiriques de la notion de prédicat sémantique. Langages 63, Paris 1981, pp. 7-52.
2.Arts et sciences du texte. Paris: PUF 2001.
3.http://wordnet.princeton.edu/
4.Mathieu Valette et al. (2006). Éléments pour la génération de classes sémantiques à partir de définitions lexicographiques. Pour une approche sémique du sens. In TALN’06, 2006.
5.Le Translation memorandum, 1949.
6.Sense tagging: does it make sense? In A. Wilson, P. Rayson et T. McEnery (dir.), Corpus Linguistics by the Lune: a festschrift for Geoffrey Leech. Frankfurt: Peter Lang 2003.