De la linguistique de terrain à la reconnaissance automatique de la parole

Une recherche en cours d'élaboration par Valentina Fedchenko (ERTIM, Inalco).
Ecritures orientales
Ecritures orientales © Inalco‎

Le programme de recherche mené dans le cadre de la chaire de professeur junior à l'Inalco, sur le thème : « Intelligence Artificielle pour les langues rares ou peu dotées », a pour axe principal l'élaboration de méthodes d'aide à la documentation linguistique pour les langues peu ou moyennement dotées, en particulier celles étudiées à l'Inalco.
La transcription et l'annotation des enregistrements oraux collectés sur le terrain constituent aujourd'hui l'un des principaux freins au processus de documentation linguistique. Ce travail, essentiel mais chronophage, peut exiger jusqu'à cent fois la durée réelle de l'enregistrement, ce qui limite considérablement l'analyse et la valorisation des données recueillies. Face à cette difficulté, souvent qualifiée de « goulot de la transcription », l'automatisation partielle du processus à l'aide des outils de reconnaissance vocale apparaît comme une piste particulièrement prometteuse. Toutefois, les modèles auto-supervisés, adaptés à cette tâche, sont en grande partie entraînés sur des langues dominantes disposant de vastes corpus, et leur application directe aux langues peu dotées – souvent à l'orthographe instable, à la forte variation dialectale ou à la structure morphologique complexe – demeure largement insuffisante.

Ce projet de recherche vise à explorer des stratégies d'adaptation de ces grands modèles pour les rendre pertinents et efficaces dans un cadre de documentation linguistique. Il s'appuie sur les ressources existantes à l'Inalco (corpus audio, annotations, données interlinéaires, gloses) et entend renforcer les synergies entre le traitement automatique du langage (TAL) et la linguistique de terrain. L'objectif est d'intégrer des connaissances linguistiques dans les modèles - qu'il s'agisse de représentations phonémiques, de contraintes morphosyntaxiques ou de métadonnées dialectales - afin de guider l'apprentissage automatique dans des contextes de données limitées. 

Dans la première partie de l'exposé, je présenterai les grandes lignes du programme de recherche, en insistant sur la valorisation des corpus multilingues rares disponibles à l'Inalco, et sur les différentes pistes d'adaptation des modèles de reconnaissance vocale, en particulier pour les langues à forte variation dialectale. J'aborderai également les enjeux méthodologiques liés à l'intégration de savoirs linguistiques dans les architectures neuronales. La deuxième partie sera consacrée à un travail préparatoire portant sur l'étude de la variation intra-langue à travers des modèles de reconnaissance vocale.

Biographie

Valentina Fedchenko est professeur junior à l'Institut national des langues et civilisations orientales (Inalco) et membre de l'Équipe de Recherche « Textes, Informatiques, Multilinguisme » (ERTIM). S'appuyant sur son expérience en linguistique de terrain, notamment dans l'étude des dialectes grecs et yiddish, elle s'intéresse à l'application des méthodes computationnelles à l'étude, la documentation et la revitalisation des langues sous-représentées.

Ce séminaire sera suivi d'un moment convivial (salon Borel), auquel chacune et chacun peut librement apporter de quoi déjeuner (ERTIM fournira les boissons, un frigo est disponible au 1er étage).