La collection Pangloss est une bibliothèque numérique développée par le laboratoire LACITO du CNRS à Paris. Son objectif est de rassembler des enregistrements sonores en diverses langues du monde — la plupart menacées d'extinction – et de les rendre accessibles à un large public[1].
La collection offre un libre accès en ligne à des documents de divers types (contes et légendes, récits de vie, témoignages d'artisans, enquêtes lexicales ou phonologiques, etc.) dans des langues de tous les continents[2]. Elle accueille également des dictionnaires.
En mars 2024, la collection Pangloss contenait 5 925 enregistrements[3] dans 220 langues[4] (sans compter les dialectes).
La collection Pangloss donne accès à des enregistrements originaux. Certains d'entre eux possèdent des transcriptions (phonétique, phonologique, et/ou orthographique, selon les cas) et traductions[5]. Chaque document est enregistré dans son contexte culturel, et transcrit en collaboration avec des locuteurs natifs, selon les méthodes d'enquête et description de langues à tradition orale[6].
Outre les enregistrements sonores, la collection Pangloss héberge également des dictionnaires depuis 2002[7]. En 2017, la collection de dictionnaires de la collection Pangloss a adopté le nom « Lexica »[8].
Les données archivées sont structurées dans un format ouvert, et peuvent être téléchargées (pour certaines, sous licence Creative Commons). Le logiciel utilisé pour préparer et diffuser les ressources est en libre accès (code open-source). "La Collection Pangloss s’est appuyée très tôt sur les technologies – comme l’écosystème XML – qui sont maintenant au cœur des humanités numériques"[9].
La collection Pangloss est un membre du réseau OLAC d'archives linguistiques et du réseau DELAMAN d'archives de langues en danger[10].
La collection Pangloss est définie comme une des collections de CoCoON (pour « COllections de COrpus Oraux Numériques »), plate-forme technique qui accompagne les producteurs de ressources orales dans la création, la structuration et l'archivage de leurs corpus[11]. Les données sont archivées dans l'archive de la Très Grande Infrastructure de Recherche (TGIR) Huma-Num.
En 2001, le « programme Archivage du LACITO » comptait une centaine de documents dans une vingtaine de langues[5]. En 2011, la collection Pangloss comptait environ 1 000 enregistrements en 67 langues, dont 350 documents transcrits et annotés[12]. En 2014, elle comptait 1 400 enregistrements, dont environ 400 documents transcrits et annotés[2]. En octobre 2016, elle comptait 132 langues[13]. En février 2018, la collection Pangloss atteignait 3 559 enregistrements en 170 langues, début 2024 5 714[14].
En 2021, un logiciel de traitement automatisé du langage doit faciliter la tâche de transcription et d'archivage, de l'ordre d'une heure devant désormais suffire pour entraîner un modèle acoustique, et quelques heures pour entraîner un modèle de langage (au lieu d'une centaine antérieurement)[15],[16].