Un nouveau site pour la collection Pangloss

4 novembre 2022
  • LACITO

  • Recherche

Dans le cadre du dispositif CNRS Com'Lab, la collection Pangloss portée par le Lacito (Inalco-Sorbonne Nouvelle Paris 3-CNRS), a entièrement remanié son interface web afin de faciliter les collaborations interdisciplinaires entre sciences humaines et sociales et traitement automatique des langues. Il ouvre aussi un accès libre à ses corpus textuels et sonores, à un large public.
Enfants de Papouasie Nouvelle-Guinée jouant dans une rivière
Enfants de Papouasie-Nouvelle Guinée © Sylvain Loiseau‎
Contenu central

Sur les 7 000 langues parlées aujourd’hui, la moitié compte moins de 10 000 locuteurs et un quart moins de 1 000. Ces petites communautés linguistiques vivent le plus souvent dans des environnements ruraux, comme ici dans une forêt humide de Papouasie-Nouvelle-Guinée.

La collection Pangloss

La collection Pangloss est une archive ouverte de langues en danger et sous-documentées portée par le LACITO (Laboratoire de langues et civilisations à tradition orale), un laboratoire de recherche pluridisciplinaire (linguistique et anthropologie) qui se consacre à l’étude des langues à tradition orale en s’appuyant sur des enquêtes de terrain dans diverses aires linguistiques et culturelles.

« Fruit de plus de vingt ans de travaux de chercheurs et d'ingénieurs spécialisés du CNRS », la collection joue un rôle majeur dans la sauvegarde du patrimoine linguistique mondial. Elle s'agrandit au fil des ans, par des contributions provenant de chercheurs du monde entier qui documentent les langues rares et en danger avant qu'elles ne disparaissent. Elle accueille des corpus de chercheur.e.s de diverses institutions, de France et d'autres pays (Canada, Etats-Unis, Allemagne, Pays-Bas, Vietnam, Chine, Singapour, Turquie...).

En 2020, la collection contient 3500 documents sonores et vidéos (environ 780 heures d'écoute dans plus de 170 langues) recueillis au fil d'enquêtes de terrains sur tous les continents. La moitié des enregistrements sont transcrits et annotés, permettant à tous les auditeurs de comprendre ce qu'ils écoutent. 

Un outil collaboratif et en libre accès

Ce site bilingue français-anglais permet un accès aux corpus via une carte interactive des corpus accompagnés d'annotations et de vidéos ou par une liste alphabétiques des langues ainsi qu'à la collection de dictionnaires multimédias Lexica.

Pour les usagers professionnels, ethnologues, traducteurs, linguistes et spécialistes de Traitement Automatique des Langues, elle réserve un espace et des outils dédiés pour la consultation et l'exploitation des corpus et le dépôt de nouvelles ressources. Le Pangloss Labs propose des outils pour faciliter la recherche sur les corpus parallèles et des outils de reconnaissance automatique des langues.

L'originalité de la Collection Pangloss est à la fois d’être en libre accès, sans aucune forme de restriction, et d’offrir aussi bien des témoignages multimédia (enregistrements, captation vidéo) que des transcriptions interlinéaires (morphèmes par morphèmes) de texte entiers. Du fait de cette facilité d’accès à des données transcrites, la Collection Pangloss est utilisée dans de nombreuses publications scientifiques. (Sylvain Loiseau, Itinéraires n° 6)

Une vingtaine de partenaires contribuent à l'archive dont l'Institut des langues rares, l'Inalco, la Bulac, l'EPHE, Sorbonne-Nouvelle, différents laboratoires du CNRS, France Archives et Huma-Num.
Pangloss fait partie des 37 collections aujourd’hui hébergées par la plate-forme Cocoon et dédiées à la recherche et la médiation scientifique. Elle participe aussi aux réseaux internationaux Open language archives community, une bibliothèque virtuelle mondiale de langues, et Delaman, un réseau d’archives numériques de langues et traditions musicales en danger.