La Collection Pangloss : une archive des langues du monde

La Collection Pangloss est une archive multimédia en ligne rassemblant des textes (enregistrements sonores ou vidéo, transcriptions) de 170 langues du monde entier, parmi lesquelles une majorité de langues parlées dans de petites communautés, souvent menacées d’abandon par leurs locuteurs, et sur lesquelles il n'existe pas d'autre témoignage. Ce sont aujourd'hui près de 3 000 documents qui peuvent être consultés en ligne, en libre accès.
Collection Pangloss - Lacito
Collection Pangloss - Lacito © Sylvain Loiseau‎

La Collection Pangloss est une archive multimédia en ligne rassemblant des textes (enregistrements sonores ou vidéo, transcriptions) de 170 langues du monde entier, parmi lesquelles une majorité de langues parlées dans de petites communautés, souvent menacées d’abandon par leurs locuteurs, et sur lesquelles il n'existe pas d'autre témoignage. Ce sont aujourd'hui près de 3 000 documents qui peuvent être consultés en ligne, en libre accès. Il est prévu en 2020 une refonte de l'interface pour faciliter l'accès au plus large public.

Ces témoignages sont appelés à jouer un rôle majeur dans la sauvegarde du patrimoine linguistique mondial. Moins spectaculaire et médiatisée que la dégradation de la biodiversité, la dégradation de la diversité linguistique – on estime que 50 % des langues aujourd'hui parlées auront disparu à la fin de ce siècle, du fait de l’adoption de langues de plus grande diffusion – menace de réduire drastiquement la diversité des formes linguistiques sur laquelle construire toute généralisation linguistique. Cette diversité linguistique est également l’un des témoignages les plus riches et complexes de la cognition humaine. La Collection Pangloss joue donc un rôle majeur dans une course contre la montre visant à documenter les langues en danger avant qu'elles ne disparaissent ; elle repose sur le travail de nombreux linguistes qui documentent les langues contemporaines au moyen d’enquêtes dites « de terrain » dans les communautés linguistiques.

Collection Pangloss - Lacito - 2
Sur les 7 000 langues parlées aujourd’hui, la moitié compte moins de 10 000 locuteurs et un quart moins de 1 000. Ces petites communautés linguistiques vivent le plus souvent dans des environnements ruraux, comme ici dans une forêt humide de Papouasi © Sylvain Loiseau‎

Créée en 1995, rebaptisée Collection Pangloss [1] en 2012, cette archive connaît une croissance vigoureuse ces dernières années. Entre 2012 et 2017, le nombre de ressources (fichiers audio ou vidéo) a plus que doublé. En 2016, le site de Pangloss a vu son ergonomie repensée : création d’une carte interactive, nouveau moteur de recherche, traduction de l’interface en anglais, archivage des fichiers vidéo. Enfin, l’archive offre maintenant, à côté des corpus textuels, des dictionnaires électroniques (projet Lexica). La Collection Pangloss s’est appuyée très tôt sur les technologies – comme l’écosystème XML – qui sont maintenant au cœur des humanités numériques.

Les données intégrées ont d'abord été celles des chercheurs du LACITO (UMR 7107, CNRS/Sorbonne Nouvelle-Paris 3/Inalco), où la collection a été fondée, mais elle accueille maintenant (et encourage) des dépôts de chercheurs de toute affiliation. Un effort est fait, aujourd'hui, pour asseoir davantage la collection sur l'ensemble des laboratoires qui contribuent en France à la documentation de la diversité linguistique. Il existe à l’étranger d'autres larges compendium, agrégeant les résultats de la recherche linguistique. L'originalité de la Collection Pangloss est à la fois d’être en libre accès, sans aucune forme de restriction, et d’offrir aussi bien des témoignages multimédia (enregistrements, captation vidéo) que des transcription interlinéaire (morphèmes par morphèmes) de texte entiers. Du fait de cette facilité d’accès à des données transcrites, la Collection Pangloss est utilisée dans de nombreuses publications scientifiques.

Sylvain Loiseau
Maître de Conférences à l'université Paris XIII
Membre du Lacito (Langues et civilisations à traditions orales) - UMR 7107

Textes publiés
  • Michailovsky, Boyd, Martine Mazaudon, Alexis Michaud, Séverine Guillaume, Alexandre François & Evangelia Adamou. 2014. « Documenting and Researching Endangered Languages: The Pangloss Collection ». Language Documentation & Conservation, 8 (2014), 119–135.
    [http://hdl.handle.net/10125/4621]
  • Michaud, Alexis, Séverine Guillaume, Guillaume Jacques, Dang-Khoa Mac, Michel Jacobson et al. 2016. « Contribuer au progrès solidaire des recherches et de la documentation : la Collection Pangloss et la Collection AuCo ». In Journées d'Etude de la Parole 2016, juillet 2016, Paris, France. 1, 155-163, 2016, Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 1 : Journées d'Etude de la Parole. [https://halshs.archives-ouvertes.fr/halshs-01341631/document]
Notes

[1]Le nom du personnage de Voltaire est composé de deux mots grecs signifiant « tous » et « langue ».

 

Collection Pangloss - Lacito - 3
Les données de la Collection Pangloss sont issues d’enquêtes de terrain auprès des locuteurs des langues étudiées. © Sylvain Loiseau‎