La base de données Aliento
Au commencement d’Aliento était l’édition d’un proverbier glosé en judéo-espagnol écrit en 1983 pour son fils par une dame de Bulgarie, Mme Flore Gueron Yeschua. L’auteure contait dans ses gloses des exempla de sources variées dont la mémoire restait liée au proverbe, et faisait des liens entre proverbes qui tissaient des réseaux sapientiels très anciens. Ainsi « L’œil de l’homme ne se rassasie qu’avec un peu de terre », renvoyait-il sans qu’elle le sache au roman d’Alexandre le Grand, et les citations de proverbes qu’elle établissait se trouvaient regroupés dans un texte aljamiado (espagnol en caractères arabes) du XVe s., La leyenda de Alexandro, auquel elle ne pouvait pas avoir eu accès.
Nous avons approfondi ce sujet avec ma collègue Marie-Sol Ortola, spécialiste des textes espagnols du Moyen-Age et de la Renaissance, et nous avons dessiné, dès 2007, un projet diachronique menant des sources anciennes aux proverbiers modernes méditerranéens et européens, à travers les textes de sagesse échangés et traduits dans la Péninsule ibérique au Moyen-Age. De nos études respectives ressortaient quatre idées principales :
- Il n’y avait pas de solution de continuité entre le Moyen-Age et la Renaissance
- Il n’y avait pas de coupure nette entre oralité et écriture ; il existait entre les écrits savants et la tradition orale une littérature sapientielle intermédiaire destinée à « l’honnête homme » du Moyen-Age et qui excédait ce cercle par le biais des lectures publiques.
- La plupart des énoncés contenus dans ces textes de sagesse (du XIe au XIIIe s.) faisaient toujours partie, consciemment ou non, de nos références partagées.
- La chaîne de transmission qui menait de l’arabe médiéval aux langues européennes reposait sur un fonds hétérogène et très ancien qui ne pouvait se résumer à des sources grecques traduites en arabe. Dans cette épaisseur diachronique figuraient des textes assyro-babyloniens, indiens, persans, araméens, bibliques, les Evangiles, la patristique, le Coran…
Le projet ainsi dessiné étant trop large, nous avons décidé de construire un prototype nous permettant de comparer les Enoncés Sapientiels Brefs (ESB) de ces textes, dénomination globale regroupant proverbes, sentences, maximes, dits, aphorismes, apophtegmes…, qui a pour définition « tout énoncé bref (entre un mot et deux ou trois phrases) présenté comme une unité contenant une leçon, un conseil, une morale, un jugement (moral ou social) ». Nous avons délimité un corpus de huit textes sapientiels traduits de l’arabe et diffusés dans la Péninsule ibérique du Xe au XVe s, en arabe, hébreu, espagnol, latin et catalan, dont les liens étaient relativement connus.
Pour montrer comment les ESB de source ancienne ont circulé entre trois cultures religieuses et cinq langues dans cet espace-temps nous avons établi une méthodologie d’annotations destinée à construire un outil permettant de croiser ces textes en cinq langues et d’apparier leurs ESB (algorithme d’appariement).
L’obtention d’une ANR en 2013 nous a permis de disposer d’une plateforme de travail et de lancer les opérations de découpage et de balisage des textes, préalablement numérisés. La plateforme d’interrogation Aliento (Analyse linguistique, interculturelle d'énoncés sapientiels et transmission Orient/Occident - Occident/Orient) résulte de la collaboration entre l’Atilf (Étienne Petitjean), la MSH Lorraine (Marie-Sol Ortola) et l’Inalco (Marie-Christine Bornes Varol), qui a débuté en janvier 2014 avec le soutien de l’ANR.
Le sens (littéral, figuré), la leçon et les mots-clés de 10 000 ESB, environ, ont été traduits (en français, anglais et espagnol) par des équipes de doctorants, post-docs et enseignants-chercheurs. Des annotations modélisées portant sur la forme et la structure des ESB ont été ajoutées de façon à aligner texte, lemmatisation et fonctions syntaxiques, rechercher des moules syntaxiques, des figures de style, des types de discours…
A partir des annotations (portant sur le sens) Hai Hieu Vu a créé un algorithme d’appariement qui calcule les similarités entre les ESB contenus dans la base de données. Benjamin Husson de l’Atilf a construit une plateforme d’interrogation, accessible à partir du site www.aliento.eu , qui permet de rechercher par mot, par expression… ou par ESB, de regrouper dans des listes de similarités les ESB semblables et de retrouver toutes les informations qui s’y rattachent quelle que soit la langue du texte.
Quatorze textes sapientiels numérisés et leurs métadonnées ont été ajoutés au corpus-noyau, dont certains sont totalement ou partiellement étiquetés (traduits et renseignés). Le guide d’annotation et la liste commentée des mots-clés sont accessibles en ligne dans les trois langues de la base. Les travaux et recherches suscités par le projet ont donné lieu à dix numéros de la revue Aliento – Echanges sapientiels en Méditerranée.
La base de données Aliento, en Open Access, établit un modèle de description efficace transférable à d’autres corpus similaires, permettant de comparer les ESB de tout texte sapientiel ancien, médiéval, moderne ou contemporain, à ceux des autres textes de la base. Elle peut éclairer les spécialistes des textes, parémiologues et linguistes sur des circulations textuelles. Elle offre aux chercheurs en informatiques des textes multilingues enrichis ouvrant la possibilité de développer d’autres outils informatiques. Le public peut y découvrir l’actualité des textes arabes médiévaux en cherchant des proverbes en usage aujourd’hui, comme « Ce n’est pas la fonction qui fait l’homme, mais l’homme qui fait la fonction » ou « el yerro del médico la tierra se lo traga » et retracer leur cheminement.
Marie-Christine Bornes Varol
Directrice du CERMOM EA 4091
Porteure Inalco d’Aliento
Plus d’informations
Les projets en humanités et pédagogie numériques forment l’axe 4 du CERMOM EA 4091 de l’Inalco.
Ainsi l’un des doctorants du Cermom, chargé de cours à l’Inalco, Pandelis Mavrogiannis, travaille à un grand projet numérique porté par l’Inalco auquel collaborent la plateforme Cocoon et la BNF : The Judeospanish Oral Archive.
Le Cermom / Inalco abrite également le projet ANR LJTrad, porté par Arnaud Bikard, sur la traduction des langues juives qui a un important volet numérique (Plateforme de consultation, développement d’outils OCR pour le yiddish, etc..).
Enfin les projets MOOC sont développés et dirigés par Luc Deheuvels.
La Bulac a fait toute une série de photos des exemplaires qu’elle conserve en rapport avec notre projet (vitrines ouvrages) et les tableaux exposés dans la Galerie du PLC pour l’exposition Aliento, le souffle de la sagesse qu’elle a organisé, en novembre / décembre 2019.
Aliento
www.aliento.eu
Marie-Christine Bornes Varol
https://www.aliento.eu/fr/acteurs/marie-christine-bornes-varol/
Marie-Sol Ortola
https://www.aliento.eu/fr/acteurs/marie-sol-ortola/
Etienne Petitjean
https://www.aliento.eu/fr/acteurs/etienne-petitjean/
Hai Hieu Vu
https://www.aliento.eu/fr/2016/09/bienvenue-a-hai-hieu-vu/
Benjamin Husson
https://perso.atilf.fr/bhusson/
Atlif
http://www.atilf.fr