Assistant/assistante de projet "ClingS: récupération d'information interlingue pour la littérature scientifique en langues moyennement dotées"
Contexte et objectifs du poste
L’Inalco est un établissement public unique au cœur du Nouveau quartier latin. Créé en 1795, il est le seul établissement public d’enseignement supérieur et de recherche au monde à proposer une offre de formation en langues et sciences humaines et sociales aussi riche et reconnue en France comme à l’international avec plus de 100 langues et civilisations enseignées.
L’Inalco enseigne auprès de 9 000 étudiants en formation initiale. L’Institut compte plus de 500 personnels.
Le recrutement s'effectue dans le cadre de la Chaire de Professeur Junior "Intelligence artificielle pour les langues rares ou peu dotées" dont l'Inalco est lauréat et du projet CHIST-ERA « ClingS : Récupération d’information interlingue pour la littérature scientifique en langues moyennement dotées ».
Ce projet vise à développer un système de recherche d'informations multilingue adapté à la littérature scientifique dans les langues sous-représentées. Il aborde les défis critiques des technologies linguistiques, notamment l'absence de jeux de données scientifiques annotés, le manque de modèles spécifiques à certaines langues pour les langues moins dotées en ressources et la prédominance de l'anglais dans la communication scientifique. Le projet se concentrera sur la construction de corpus comparables dans des domaines ciblés (linguistique, médecine, mathématiques, géographie et jurisprudence), la formation de modèles linguistiques adaptés au discours scientifique et leur alignement dans un espace d'intégration multilingue partagé. Ces modèles alimenteront un système de recherche qui permettra un accès structuré
à l'information dans toutes les langues, soutenu par la génération augmentée par la recherche (graph-RAG) et des architectures multi-agents.
Nous recherchons un·e ingénieur·e spécialisé·e en traitement automatique de la langue et en modèles RAG dans un contexte multilingue et des architectures multi-agents, avec une bonne expertise en TAL et en IA.
Le ou la candidat(e) retenu(e) travaillera dans le cadre du projet CHIST-ERA « ClingS : Récupération d’information interlingue pour la littérature scientifique en langues moyennement dotées » et la Chaire Professeur Junior "Intelligence artificielle pour les langues peu dotées", afin de faire progresser la recherche sur le les systèmes RAG multilingues et créer un système d’extraction d’information interlingue pour la littérature scientifique en langues moyennement dotées.
Missions et activités
Le ou la candidat(e) recruté(e) travaillera en étroite collaboration avec le titulaire de la Chaire « Intelligence artificielle pour les langues rares ou peu dotées » ainsi qu’avec l’équipe ERTIM (Équipe de Recherche Textes, Informatique, Multilinguisme) de l’INALCO, en particulier avec l’équipe du projet CLingS. Site web de l’ERTIM : https://www.inalco.fr/ertim
Le ou la candidat(e) se concentrera sur :
- Développement de corpus : Constituer et annoter des corpus scientifiques couvrant les domaines suivants : linguistique/philologie, médecine, mathématiques, géographie et jurisprudence. Ces corpus contiendront au minimum entre 1 et 2 millions de tokens par langue, selon la disponibilité des données pour chaque langue, et incluront des métadonnées ainsi qu’une annotation terminologique.
- Développement d’un système de recherche d’information multilingue : Entraîner et déployer un système de recherche d’information scientifique interlingue permettant la recherche au niveau des documents et des passages.
- Création d’un module d’alignement terminologique : Développer un moteur de cartographie et d’alignement terminologique capable d’apprendre les correspondances entre lexiques scientifiques.
- Validation du système développé par la communauté scientifique multilingue : Mener une évaluation centrée sur les utilisateurs, impliquant des experts de domaine et des linguistes.
Les activités scientifiques du ou de la candidat(e) concerneront :
- Participation, soutien et collaboration aux activités du projet CLingS : recherche d’information interlinguistique pour la littérature scientifique dans des langues à ressources modérées.
- Organisation d’un événement scientifique (réunion de lancement les 21–22 2026, ateliers) en lien avec le projet de recherche et ses partenaires en Slovaquie et à Taïwan.
- Participation régulière aux activités scientifiques de l’ERTIM.
- Collaboration avec les membres du projet CLingS issus d’autres laboratoires de l’INALCO.
- Publication d’un ou deux articles dans des revues à comité de lecture.
Compétences attendues
- Master (M2) en linguistique computationnelle, TAL, apprentissage automatique ou domaine connexe, obtenu après 2018 et avant janvier 2026.
- Expérience approfondie en architecture RAG et TAL en général.
- Familiarité avec la modélisation des langues peu dotées et les défis liés à la diversité linguistique.
- Expérience dans le travail avec une langue peu dotée.
- Compétences en programmation en Python et maîtrise des frameworks de deep learning (ex. PyTorch, modèles de langage LLMs).
- Excellentes compétences en rédaction scientifique.
Informations RH
- Type de contrat : Poste ouvert aux agents contractuels d’une durée de 10 mois (renouvelable)
- Rémunération : 2 322 € brut mensuel
- Temps plein : 35h hebdomadaire
- 54 jours de congés payés annuels dont 2 périodes de fermeture obligatoire (3 semaines en été et 1 semaine à Noël) ;
- Tous les postes de l’Inalco sont ouverts aux personnes en situation de handicap ;
- Télétravail : Des jours de télétravail réguliers ou ponctuels, selon les nécessités de service ;
- Localisation du poste : ERTIM, Maison de la recherche, 2 rue de Lille, 75007, Paris;
- Date de prise de poste souhaitée : à compter du 1 mars 2026.
Le dossier de candidature composé de :
- Une copie du diplôme de master ou une attestation de réussite.
- Une lettre de motivation expliquant leur intérêt et leur adéquation avec le poste.
- Un CV détaillé accompagné de la liste des publications.
Le dossier de candidature est à retourner sous forme électronique au plus tard le 8 février 2026 aux adresses suivantes :
Mme Valentina Fedchenko, Chaire de Professeur junior : Voir l'e-mail et copie à Voir l'e-mail