Collection Pangloss

La collection Pangloss est une bibliothèque numérique développée par le laboratoire LACITO du CNRS à Paris. Son objectif est de rassembler des enregistrements sonores en diverses langues du monde — la plupart menacées d'extinction – et de les rendre accessibles à un large public[1].

La collection offre un libre accès en ligne à des documents de divers types (contes et légendes, récits de vie, témoignages d'artisans, enquêtes lexicales ou phonologiques, etc.) dans des langues de tous les continents[2]. Elle accueille également des dictionnaires.

En mars 2024, la collection Pangloss contenait 5 925 enregistrements[3] dans 220 langues[4] (sans compter les dialectes).

Une archive sonore avec transcriptions synchronisées

[modifier | modifier le code]

La collection Pangloss donne accès à des enregistrements originaux. Certains d'entre eux possèdent des transcriptions (phonétique, phonologique, et/ou orthographique, selon les cas) et traductions[5]. Chaque document est enregistré dans son contexte culturel, et transcrit en collaboration avec des locuteurs natifs, selon les méthodes d'enquête et description de langues à tradition orale[6].

Dictionnaires

[modifier | modifier le code]

Outre les enregistrements sonores, la collection Pangloss héberge également des dictionnaires depuis 2002[7]. En 2017, la collection de dictionnaires de la collection Pangloss a adopté le nom « Lexica »[8].

Architecture de l'archive ouverte

[modifier | modifier le code]

Les données archivées sont structurées dans un format ouvert, et peuvent être téléchargées (pour certaines, sous licence Creative Commons). Le logiciel utilisé pour préparer et diffuser les ressources est en libre accès (code open-source). "La Collection Pangloss s’est appuyée très tôt sur les technologies – comme l’écosystème XML – qui sont maintenant au cœur des humanités numériques"[9].

La collection Pangloss est un membre du réseau OLAC d'archives linguistiques et du réseau DELAMAN d'archives de langues en danger[10].

La collection Pangloss est définie comme une des collections de CoCoON (pour « COllections de COrpus Oraux Numériques »), plate-forme technique qui accompagne les producteurs de ressources orales dans la création, la structuration et l'archivage de leurs corpus[11]. Les données sont archivées dans l'archive de la Très Grande Infrastructure de Recherche (TGIR) Huma-Num.

En 2001, le « programme Archivage du LACITO » comptait une centaine de documents dans une vingtaine de langues[5]. En 2011, la collection Pangloss comptait environ 1 000 enregistrements en 67 langues, dont 350 documents transcrits et annotés[12]. En 2014, elle comptait 1 400 enregistrements, dont environ 400 documents transcrits et annotés[2]. En octobre 2016, elle comptait 132 langues[13]. En février 2018, la collection Pangloss atteignait 3 559 enregistrements en 170 langues, début 2024 5 714[14].

En 2021, un logiciel de traitement automatisé du langage doit faciliter la tâche de transcription et d'archivage, de l'ordre d'une heure devant désormais suffire pour entraîner un modèle acoustique, et quelques heures pour entraîner un modèle de langage (au lieu d'une centaine antérieurement)[15],[16].

Références

[modifier | modifier le code]
  1. Présentation de la Collection Pangloss (site du LACITO).
  2. a et b Michailovsky, Boyd, Martine Mazaudon, Alexis Michaud, Séverine Guillaume, Alexandre François & Evangelia Adamou. 2014. Documenting and researching endangered languages: the Pangloss Collection. Language Documentation and Conservation 8. 119–135.
  3. Voir la liste de toutes les ressources Pangloss sur le site de l'hébergeur “CoCoON” (accès 26 mars 2024).
  4. Nombre des entrées dans la liste des langues représentées sur Pangloss (accès 26 mars 2024).
  5. a et b (en) Michel Jacobson, Boyd Michailovsky et John B. Lowe, « Linguistic documents synchronizing sound and text », Speech Communication, vol. 33, nos 1-2,‎ , p. 79–96 (DOI 10.1016/s0167-6393(00)00070-4, lire en ligne, consulté le )
  6. Bouquiaux, Luc & Jacqueline Thomas. 1971. Enquête et description des langues à tradition orale. Deuxième édition 1976. Paris: Société d’études linguistiques et anthropologiques de France.
  7. Jacobson, Michel & Boyd Michailovsky. 2002. Linking linguistic resources: time aligned corpus and dictionary. International Workshop on Resources and Tools in Field Linguistics. Las Palmas.
  8. Bonnet, Rémy, Céline Buret, Alexandre François, Benjamin Galliot, Séverine Guillaume, Guillaume Jacques, Aimée Lahaussois, Boyd Michailovsky & Alexis Michaud. 2017. Vers des ressources électroniques interconnectées: Lexica, les dictionnaires de la collection Pangloss. Actes des 9èmes Journées Internationales de la Linguistique de corpus, 48–51. Grenoble: Université Grenoble Alpes.
  9. Sylvain Loiseau, « La Collection Pangloss : une archive des langues du monde », sur inalco.fr, Itinéraire(s) - La lettre de la recherche et de l'international (INALCO), (consulté le ).
  10. (en) « Digital Endangered Languages and Musics Archives Network » (consulté le ).
  11. « Collections de Corpus Oraux Numériques » (consulté le ).
  12. Michailovsky, Boyd, Alexis Michaud & Séverine Guillaume. 2011. A simple architecture for the fine-grained documentation of endangered languages: the LACITO multimedia archive. Keynote speech at Oriental-COCOSDA 2011, October 26th-28th, 2011. Hsinchu, Taiwan.
  13. « Collection Pangloss - FAQ » (consulté le ).
  14. Combien de langues sont représentées sur Pangloss ?
  15. Laure Cailloce, « Pangloss, à l’écoute des langues rares », sur Journal du CNRS, (consulté le ).
  16. Cécile Macaire (2021), "Recognizing lexical units in low-resource language contexts with supervised and unsupervised neural networks". Rapport de recherche.

Liens externes

[modifier | modifier le code]