L’écriture cunéiforme est la plus ancienne forme d’écriture connue – mais elle est également si difficile à lire que seules quelques centaines d’experts dans le monde savent décoder les tablettes en argile remplies de symboles en forme de « coin ». Aujourd’hui, en Israël, une équipe d’archéologues et de scientifiques spécialisés dans l’informatique a créé un programme de traduction se basant sur l’intelligence artificielle (IA) pour déchiffrer l’écriture cunéiforme akkadienne, permettant à des dizaines de milliers de tablettes qui ont d’ores et déjà été numérisées d’être instantanément traduites en anglais.
Les bibliothèques, les musées et les universités du monde entier possèdent d’ores et déjà plus d’un demi-million de tablettes en argile de ce type. Mais ce nombre de textes est important en comparaison avec le nombre minuscule de spécialistes susceptibles de lire l’akkadien – une langue qui n’a plus été parlée ou écrite depuis 2 000 ans – ce qui signifie que seule une petite fraction de ces écrits a pu être traduite jusqu’à présent.
Ce nouveau programme, qui ressemble à Google Translate, pourrait aussi permettre aux archéologues de salon de se lancer dans l’aventure de l’interprétation des écritures cunéiformes.
« Ce qui est sidérant avec ce projet-là, c’est que nous n’avons absolument pas besoin de comprendre l’akkadien pour traduire une tablette et pour comprendre ce qui se passe derrière les symboles qui sont inscrits », commente Gai Gutherz, scientifique spécialisé dans l’informatique qui fait partie de l’équipe qui a développé le programme. « Je n’ai qu’à utiliser l’algorithme pour comprendre, pour découvrir ce que le passé a à me dire. »
Le projet a commencé sous la forme d’un programme de thèse pour la maîtrise de Gutherz – un diplôme qu’il passait alors à l’université de Tel Aviv. Au mois de mai, l’équipe a publié une recherche dans le journal à comité de lecture PNAS Nexus, publié par l’Oxford University Press, un article qui décrivait son outil de traduction automatique neuronale (neural machine translation) de l’akkadien à l’anglais.
La traduction automatique neuronale, qui est aussi utilisée par Google Translate, Baidu translate et d’autres moteurs de traduction, convertit les mots en une série de nombres et utilise une formule mathématique complexe – un réseau neuronal – pour créer une phrase dans une autre langue dont la construction est plus précise et plus naturelle que lors d’une traduction faite au mot à mot.
L’akkadien avait été parlé et écrit en Mésopotamie et au Moyen-Orient à partir du troisième millénaire avant l’ère commune et jusqu’à l’an 100 de l’ère commune. C’était la langue véhiculaire à cette époque-là, celle qui permettait aux peuples de régions différentes de communiquer. La langue s’était ensuite divisée – l’akkadien assyrien d’un côté et l’akkadien babylonien de l’autre – aux environs de l’an 2 000 avant l’ère commune. A partir de l’an 600 avant l’ère commune, l’araméen avait commencé lentement à remplacer l’akkadien avant de prendre définitivement l’ascendant sur ce dernier.
L’akkadien et son prédécesseur, le sumérien, étaient écrits à l’aide d’une écriture cunéiforme – créée grâce à une plume de roseau aiguisé qui gravait des inscriptions en forme de « coin » sur de l’argile humide. Ces écritures sumérienne et akkadienne sont les langues les plus anciennes à avoir jamais été découvertes dans toute l’histoire de l’humanité, même s’il y a bien plus de textes akkadiens que de textes sumériens qui sont aujourd’hui à la disposition des chercheurs.
Traduire toutes les tablettes qui n’ont pas encore été traduites pourrait nous révéler ce qu’ont été les tous premiers jours de l’Histoire
« Traduire toutes les tablettes qui n’ont pas encore été traduites pourrait nous révéler ce qu’ont été les tout premiers jours de l’Histoire, ce qu’était la civilisation de ces peuples, ce en quoi ces peuples croyaient, ce dont ils parlaient, ce qu’ils consignaient », déclare Gutherz.
Il y a, sur certaines tablettes qui ont d’ores et déjà été traduites, des informations qui sont encore pertinentes aujourd’hui. « S’il nettoie ses vêtements, sa journée va être longue », avait ainsi écrit un scribe akkadien il y a plus de 3 000 ans.
L’équipe partage également ses recherches Open source en ligne dans l’espoir que d’autres experts pourront créer des programmes de traduction pour d’autres langues anciennes ou langues mortes, poursuit Gutherz.
Lost in translation?
La traduction est une forme d’art et il peut donc être difficile de mesurer numériquement ce qui constitue une « bonne » traduction, note Gutherz. Afin d’évaluer la qualité de la traduction, les chercheurs ont utilisé le BLEU4 (Best Bilingual Evaluation Understudy 4), un outil développé pour ce faire au début des années 2000 et qui mesure automatiquement l’exactitude et la précision des traductions réalisées par les machines.
Selon l’étude, la traduction automatique neuronale a obtenu une note BLEU4 de 36,52 concernant la traduction de l’écriture cunéiforme vers l’anglais et une note de 37,47 pour la traduction de l’écriture cunéiforme translittérale vers l’anglais. Les notes de BLEU4 vont de zéro à 100 – la note de 100 sanctionnant une traduction parfaite, celle que même un traducteur humain ne serait pas en mesure de réaliser. Une note aux environs de 37 est considérée comme assez bonne pour un modèle de traduction encore en phase précoce de développement, explique Gutherz.
Gutherz déclare que Google Translate, outil commercial qui existe depuis plus d’une décennie et qui a été développé par une entreprise privée, obtiendrait une note d’environ 60, chez BLEU4, pour sa traduction de l’espagnol vers l’anglais.
« L’un des principaux résultats de nos recherches, c’est que nous avons montré qu’il est possible de faire une traduction de grande qualité en passant directement du cunéiforme à l’anglais », précise Gutherz, qui était, dans le passé, ingénieur chez Google et qui vient aujourd’hui de lancer une entreprise spécialisée dans l’intelligence artificielle impliquant différentes technologies qui ont servi dans ce projet. Le processus de recherche actuel, particulièrement chronophage, exige habituellement des experts qu’ils traduisent d’abord l’écriture cunéiforme en écriture latine utilisant la translittération avant de passer de manière plus large à la traduction en anglais.
En 2020, Gutherz, le professeur en archéologie Shai Gordin de l’université d’Ariel et d’autres avaient publié un article consacré à l’usage de l’intelligence artificielle dans la traduction de l’écriture cunéiforme akkadienne en écriture latine utilisant la translittération. L’écriture utilisant la translittération se lit comme un ensemble de lettres et de nombres sans logique pour les non-initiés mais c’est un « langage » commun qui permet aux archéologues et aux chercheurs d’étudier les écritures cunéiformes dans le monde entier.
Dans l’article de 2020, l’équipe avait été en mesure d’utiliser l’intelligence artificielle pour obtenir une exactitude à hauteur de 97% dans ses traductions du cunéiforme akkadien vers l’écriture latine utilisant la translittération. Avec un processus bien plus simple puisqu’il consiste à traduire les symboles en un seul mot tout en gardant les mots dans le même ordre que dans le texte original.
Traduire l’akkadien en anglais ou traduire une écriture utilisant la translittération en anglais est un processus bien plus compliqué dans la mesure où il nécessite que l’ordinateur assemble des phrases entières qui ont du sens en anglais, une langue écrite dans un ordre syntaxique différent.
Certaines traductions étaient vraiment bonnes… et certaines étaient des ‘hallucinations’ totales
Gutherz indique que malgré la complexité de la tâche, les traductions réalisées par le biais de l’intelligence artificielle ont été meilleures que prévues – même si le programme en est encore à ses balbutiements et qu’il est loin d’être précis. De manière prévisible, l’intelligence artificielle a présenté un niveau d’exactitude supérieur concernant les textes conventionnels – décrets royaux, écrits divinatoires, qui suivent un modèle particulier. Les textes plus littéraires ou plus poétiques, comme les lettres écrites par les prêtres ou les traités, étaient plus susceptibles de produire des « hallucinations », un terme appartenant au domaine de l’intelligence artificielle qui signifie que la machine a produit un résultat complètement sans lien avec le texte d’origine.
Ce qui a le plus surpris les chercheurs, entre autres, c’est que les traductions ont capturé le style ou le rythme des différents genres des textes et qu’ils ont ainsi pu déterminer – sur la base du style de la traduction – s’il s’agissait d’un document juridique conventionnel, d’un écrit astrologique ou d’une lettre rédigée par un érudit.
« Certaines traductions étaient très bonnes, certaines étaient assez exactes – on pouvait partir du texte mais il fallait encore travailler dessus intellectuellement – mais d’autres étaient de totales hallucinations », raconte Gutherz. « C’est la première étape vers une traduction automatique de l’akkadien et des langues anciennes et j’espère réellement qu’un plus grand nombre de recherches seront réalisées dans ce domaine, que les traductions s’amélioreront et qu’elles deviendront plus précises avec le temps ».
Comme Google Translate
La plus grande difficulté, pour former ce modèle d’intelligence artificielle, a été la quantité limitée de contenus – des images de tablettes et de tablettes traduites – que l’équipe a été en mesure d’utiliser pour « entraîner » sa machine. Même la plus importante banque de données en ligne de tablettes akkadiennes ne compte que des dizaines de milliers d’entrées.
« La quantité de données sur laquelle vous allez vous entraîner est à mettre en corrélation avec la qualité de la performance, avec la qualité optimale du modèle que vous êtes en train de développer », indique Gutherz. « Si ChatGPT fonctionne tellement bien, c’est parce qu’on a réussi à l’entraîner sur les contenus de toute la Toile ou pratiquement. Pour nous, le principal travail, dès le début, a été de rassembler toutes les traductions que nous pouvions obtenir de manière à générer le plus grand nombre d’exemples possible. »
L’équipe a trouvé ses échantillons sur l’ORACC (Open Richly Annotated Cuneiform Corpus), une base de données mise en ligne par l’université de Pennsylvanie. Concernant les données qu’ils ont pu scanner, les chercheurs ont utilisé
90 % des contenus pour l’entraînement du modèle (soit 50 544 phrases), 5 % pour sa validation (2 808 phrases) et 5 % pour les tests (2 808 phrases).
Pendant la période de 3 000 ans où l’akkadien avait été utilisé, il y avait eu d’importantes variances. L’akkadien écrit, à mille ans d’intervalle, pouvait présenter des symboles complètement différents et il y avait aussi des différences de dialectes, ajoutant à la complexité de la tâche.
Gutherz déclare avoir décidé de s’intéresser aux langues anciennes pour son projet final en NLP (traitement du langage naturel) après une présentation faite, dans cette discipline, par l’archéologue Shai Gordin, maître de conférences en Assyriologie et en Humanités numériques au sein de l’université d’Ariel.
Les chercheurs qui tentent d’utiliser les méthodes offertes par les sciences informatiques modernes pour travailler sur les langues anciennes ne sont pas si nombreux
« L’Histoire m’intéresse, je pense qu’elle a beaucoup à nous apprendre », dit Gutherz. « Je réalise que les chercheurs qui tentent d’utiliser les méthodes offertes par les sciences informatiques modernes pour travailler sur les langues anciennes ne sont pas si nombreux. C’est un domaine auquel je pense pouvoir contribuer parce qu’il reste dans l’ombre… Les gens qui travaillent là-dessus ne sont pas si nombreux que ça. »
Un simple clic
Une première version de démonstration du projet de traduction de l’écriture cunéiforme vers la translittération est à découvrir en ligne sur un portail appelé The Babylon Engine. Les recherches et le code-source du projet actuel sont mis à disposition sur GitHub sur Akkademia et sur Colaboratory.
Tous les experts de l’akkadien ne se disent pas prêts, malgré tout, à utiliser cette nouvelle technologie.
« Je suis un philologue de la vieille école assis à sa table, je me contente d’étudier les tablettes en les déchiffrant comme l’ont fait des êtres humains avant moi depuis des milliers d’années », explique le professeur Nathan Wasserman, professeur d’assyriologie à l’Institut d’archéologie de l’université Hébraïque de Jérusalem. Il s’est intéressé aux opportunités présentées par ce nouvel outil de traduction basé sur l’intelligence artificielle dans les journaux, mais il n’est pas persuadé qu’il pourra réellement lui être utile.
« Nous sommes dans l’époque post-ChatGPT et nous sommes dorénavant dans un monde différent et donc, si je dis que cela ne marchera pas, j’aurai l’air stupide », dit Wasserman. « Bien sûr que ça marchera – je ne suis pas né de la dernière pluie. Mais pour les textes plus approfondis, moins conventionnels, ce sera encore loin d’être réellement utile ».
Wasserman est spécialisé dans les texte akkadiens plus compliqués, plus poétiques – notamment dans les hymnes, dans les prières et dans les mythes, qui sont souvent découverts sur des tablettes qui sont particulièrement en mauvais état et très dures à déchiffrer. Son travail n’est pas seulement de traduire mais aussi de comprendre les textes dans le contexte de la culture et de la littérature akkadiennes, ajoute-t-il. Il dit s’intéresser à la manière dont cette technologie évoluera, même si lui-même ne compte pas l’utiliser pour le moment.
« Je suis assez vieux pour me souvenir des débuts de Google Translate, c’était n’importe quoi, mais aujourd’hui, on peut faire traduire de nombreux textes et obtenir un résultat plus ou moins décent », s’exclame-t-il. « Mais que va-t-il se passer si on demande à Google Translate de traduire Hamlet, est-ce qu’on va obtenir une traduction décente du Hamlet de Shakespeare ? », interroge-t-il.
Wasserman estime que l’AI peut être particulièrement utile pour scanner d’importantes quantités de tablettes numérisées et pour tenter d’établir des liens entre ces différentes tablettes. Par exemple, les noms d’un roi ou d’un prêtre pourraient ainsi être décelés sur deux tablettes sans lien, qui ne se trouvent peut-être même pas au même endroit, dans des bibliothèques différentes, ce qui pourrait permettre de mieux comprendre certaines choses. Il déclare être curieux aussi de savoir si le programme pourra être utilisé pour faire des statistiques sur l’usage de mots différents, concernant notamment la distribution chronologique ou géographique de certains mots.
Wasserman se dit de la vieille école – mais il n’est nullement réticent à l’idée d’utiliser la technologie pour les langues anciennes. Wasserman avait fait partie de l’équipe qui avait développé SEAL, Sources of Early Akkadian Literature. Cette base de données sur internet, hébergée par l’université Hébraïque, avait été l’un des tout premiers projets de numérisation de tablettes d’écriture cunéiforme quand il avait été lancé en 2010. Des tablettes sont encore numérisées régulièrement et le site reste aujourd’hui l’un des dépôts les plus importants d’œuvres littéraires akkadiennes de l’an 3 000 à l’an 1 000 avant l’ère commune.
« L’intelligence artificielle ne m’inquiète pas ; je suis curieux, ce monde est totalement nouveau et je suis impatient de voir ce qui va arriver », dit-il. « Ce n’est pas comme si je travaillais dans une banque et que j’étais préoccupé à l’idée d’être renvoyé chez moi parce que c’est une machine qui fera mon travail ».
« Quand vous avez un texte, même si vous avez les mots corrects, cela ne signifie pas pour autant que vous allez comprendre de quoi il s’agit. Pour cela, il faut encore l’intervention de l’esprit humain », déclare-t-il. « Je n’ai pas peur de l’intelligence artificielle mais, en même temps, nous ne devons pas faire preuve d’un engouement excessif. Il faut procéder à son évaluation en voyant ce qu’elle peut faire pour nous et ce qu’elle ne peut pas faire ».