Collection Pangloss

La collection Pangloss est une bibliothèque numérique développée par le laboratoire LACITO du CNRS à Paris. Son objectif est de rassembler des enregistrements sonores en diverses langues du monde — la plupart menacées d'extinction – et de les rendre accessibles à un large public[1].

La collection offre un libre accès en ligne à des documents de divers types (contes et légendes, récits de vie, témoignages d'artisans, enquêtes lexicales ou phonologiques, etc.) dans des langues de tous les continents[2]. Elle accueille également des dictionnaires.

En mars 2024, la collection Pangloss contenait 5 925 enregistrements[3] dans 220 langues[4] (sans compter les dialectes).

Principes

Une archive sonore avec transcriptions synchronisées

La collection Pangloss donne accès à des enregistrements originaux. Certains d'entre eux possèdent des transcriptions (phonétique, phonologique, et/ou orthographique, selon les cas) et traductions[5]. Chaque document est enregistré dans son contexte culturel, et transcrit en collaboration avec des locuteurs natifs, selon les méthodes d'enquête et description de langues à tradition orale[6].

Dictionnaires

Outre les enregistrements sonores, la collection Pangloss héberge également des dictionnaires depuis 2002[7]. En 2017, la collection de dictionnaires de la collection Pangloss a adopté le nom « Lexica »[8].

Architecture de l'archive ouverte

Les données archivées sont structurées dans un format ouvert, et peuvent être téléchargées (pour certaines, sous licence Creative Commons). Le logiciel utilisé pour préparer et diffuser les ressources est en libre accès (code open-source). "La Collection Pangloss s’est appuyée très tôt sur les technologies – comme l’écosystème XML – qui sont maintenant au cœur des humanités numériques"[9].

La collection Pangloss est un membre du réseau OLAC d'archives linguistiques et du réseau DELAMAN d'archives de langues en danger[10].

La collection Pangloss est définie comme une des collections de CoCoON (pour « COllections de COrpus Oraux Numériques »), plate-forme technique qui accompagne les producteurs de ressources orales dans la création, la structuration et l'archivage de leurs corpus[11]. Les données sont archivées dans l'archive de la Très Grande Infrastructure de Recherche (TGIR) Huma-Num.

Historique

En 2001, le « programme Archivage du LACITO » comptait une centaine de documents dans une vingtaine de langues[5]. En 2011, la collection Pangloss comptait environ 1 000 enregistrements en 67 langues, dont 350 documents transcrits et annotés[12]. En 2014, elle comptait 1 400 enregistrements, dont environ 400 documents transcrits et annotés[2]. En octobre 2016, elle comptait 132 langues[13]. En février 2018, la collection Pangloss atteignait 3 559 enregistrements en 170 langues, début 2024 5 714[14].

En 2021, un logiciel de traitement automatisé du langage doit faciliter la tâche de transcription et d'archivage, de l'ordre d'une heure devant désormais suffire pour entraîner un modèle acoustique, et quelques heures pour entraîner un modèle de langage (au lieu d'une centaine antérieurement)[15],[16].

Références

Liens externes

🔥 Top keywords: Wikipédia:Accueil principalListe de sondages sur les élections législatives françaises de 2024Spécial:RechercheJordan BardellaChampionnat d'Europe de football 2024N'Golo KantéJodie DevosKylian MbappéÉlections législatives françaises de 2024Marcus ThuramLe Jardin des Finzi-Contini (film)Maria Schneider (actrice)Cookie (informatique)Championnat d'Europe de footballNouveau Front populaireKevin DansoAntoine GriezmannÉric CiottiChampionnat d'Europe de football 2020Dominique SandaMike MaignanWilliam SalibaLionel JospinÉlections législatives de 2024 dans l'EssonneFront populaire (France)Françoise HardyÉlections législatives de 2024 à ParisRassemblement nationalJean-Luc MélenchonFichier:Cleopatra poster.jpgOlivier GiroudSébastien ChenuDidier DeschampsLa Chronique des BridgertonÉlections législatives de 2024 dans les YvelinesLilian ThuramListe de partis politiques en FranceAnne SinclairGabriel Attal