Axes de recherche de ERTIM

L'Équipe de Recherche Textes, Informatique, Multilinguisme (ERTIM) est une équipe de recherche, unité propre de l'Inalco, créée en 2005, qui travaille essentiellement en Traitement Automatique des Langues (TAL, ou NLP en anglais pour Natural Language Processing).

Le projet scientifique de l'ERTIM s’articule autour des thèmes suivants :

Axe 1 : Humanités numériques

Resp. : Mathieu Valette

Les recherches en sciences humaines et sociales et dans les disciplines littéraires sont désormais fortement encouragées à utiliser des outils numériques. L'ERTIM est particulièrement sollicitée dans plusieurs domaines des sciences sociales (sciences politiques, histoire, art, etc) pour accompagner l'utilisation de méthodes de TAL et de linguistique de corpus dans la recherche. L’objectif de cet axe est la mise au point de méthodes ou d’algorithmes à travers des domaines variés des humanités numériques.

Axe 2 : Diversité des langues

Resp. : Pierre Magistry et Ilaine Wang

En cohérence avec la mission de conservation des langues du monde portée par l'Inalco, l'ERTIM s'intéresse à la question de la diversité des langues dans les techniques de traitement automatique. L’accent est mis sur les langues dites « peu dotées » et les langues d'héritage. Deux angles d'approche sont envisagés : d'une part, étudier ce que ces langues posent comme questions spécifiques pour le TAL et pour la nécessaire adaptation des méthodes (corpus et autres ressources limités, effets de l'apprentissage par transfert, absence de standardisation...) ; d'autre part, montrer ce que le TAL peut apporter dans la description et la préservation de ces langues. Une langue sans outils de traitement automatique ou mal prise en charge par les systèmes informatiques est aujourd'hui d'autant plus menacée.

Axe 3 : Méthodologie du TAL

Resp. : Damien Nouvel

Les travaux scientifiques menés à l'ERTIM font majoritairement appel à des méthodes de TAL qui nécessitent une expertise des langues et corpus traités pour mieux concevoir, évaluer et exploiter les tâches réalisées. Les progrès technologiques en traitement automatique de données sont indéniables : ces dernières années, la mise au point et l’exploitation de méthodes relevant de l’IA et s’appuyant sur des réseaux de neurones pour construire des modèles de langues sont devenus la question centrale du TAL, autant dans l'industrie que dans la communauté scientifique. L’unité travaillera sur tous les aspects de ces technologies pour produire des études, concevoir des algorithmes ou des ressources.

Axe 4 : Acquisition de l'information linguistique

Resp. : Kata Gabor

Les travaux de cet axe vont s’inscrire dans le domaine de la linguistique informatique. L’unité veillera à identifier, modéliser, extraire des informations pertinentes à la compétence linguistique à partir de données de performance, qui peuvent provenir de corpus ou, plus récemment, des représentations créées par des modèles de langues à partir de corpus. Dans ce contexte, la problématique de la distinction entre généralisation (statistique, linguistique) et la mémorisation lexicale présente un intérêt particulier. L'ERTIM cherchera à mettre en œuvre des méthodologies qui permettent de distiller des schémas linguistiques à partir de données, et de vérifier leur validité, en portant un regard critique sur les approches purement expérimentales (les « probes » par exemple) et une attention toute particulière à formuler des hypothèses linguistiques qui facilitent l'interprétation des expériences.