Sommaire
LâĂ©tude des langues Ă travers le monde
Actuellement, environ 7000 langues ont Ă©tĂ© recensĂ©es Ă travers le monde. Ce chiffre ne peut ĂȘtre quâune approximation car, il nây a pas de consensus sur la dĂ©finition de ce quâest une langue. Une difficultĂ© par exemple est de dĂ©finir Ă quel moment une langue est distincte dâune autre. Lorsquâil y a variation, mais intercomprĂ©hension, de nombreux linguistes sâaccordent Ă dire quâil sâagit alors de dialectes dâune mĂȘme langue, et donc, lorsquâil nây a pas intercomprĂ©hension, alors il sâagit diffĂ©rentes langues. Cette perspective considĂšre que tout le monde parle un dialecte (que ce soit celui de rĂ©fĂ©rence, ou un plus rĂ©gional comme celui de Paris, de Marseille, du QuĂ©bec), la langue nâĂ©tant quâune abstraction permettant de regrouper les diverses pratiques langagiĂšres. En ce qui concerne lâintercomprĂ©hension, ce critĂšre nâest malheureusement pas absolu car elle peut varier selon les personnes et leur parcours personnel. Et lorsquâon considĂšre lâĂ©volution dâune langue Ă travers le temps, sa diachronie, dĂ©finir ce quâest une mĂȘme langue Ă travers ses Ă©volutions temporelles se complexifie dâautant plus.
Si certaines langues ont Ă©mergĂ© rĂ©cemment, on pense assez souvent aux langues dites crĂ©oles (le Bichelamar, les crĂ©oles malais, Ă Madagascar ou au Cap Vert), ou Ă©galement lorsque certains dialectes se distinguent suffisamment pour ne plus ĂȘtre intercomprĂ©hensibles, la tendance actuelle est surtout Ă la disparition massive des langues. Cette disparition est souvent rapportĂ©e Ă travers la mort des derniers locuteurs et locutrices, on peut aussi considĂ©rer quâune langue meurt lorsquâelle nâest plus parlĂ©e dâune part, et quâelle disparait si elle nâest pas documentĂ©e. Si certains aujourdâhui se questionnent sur la corrĂ©lation entre la diversitĂ© culturelle et la diversitĂ© Ă©cologique, il est Ă©vident que la disparition des langues correspond Ă©galement Ă des inĂ©galitĂ©s et des tensions socio-politiques.
Bref, la documentation des langues, câest un sujet actuel, et dâun point de vue scientifique, la perte de cette diversitĂ© aura de tristes consĂ©quences sur la connaissance des langues et de lâunivers des possibles languagiers, encore souvent sous-estimĂ© :
- lâarticle The myth of language universals : Language diversity and its importance for cognitive science dâEvans donne un bel aperçu du dĂ©bat qui existe entre les linguistes fonctionnalistes, notamment les approches gĂ©nĂ©rativistes telles que proposĂ©es par Noam Chomsky. Pourtant, rĂ©guliĂšrement Ă travers la documentation des langues, des catĂ©gories cognitives jusque-lĂ non-soupçonnĂ©s, voire rejetĂ©es car non-observĂ©es, sont identifiĂ©s. Nous nous sommes rendu compte rĂ©cemment quâun quart des langues grammaticalisaient lâemploi dâĂ©videntiels, ces morphĂšmes qui indiquent la source dâune information. Au niveau de lâodorat, des neurologistes pensaient que si nous nâavions pas de termes abstraits pour catĂ©goriser les odeurs, câĂ©tait liĂ© au fait que notre cerveau ne le permettait pas. La description des termes liĂ©s Ă lâodorat en Jahai (par ici si vous souhaitez Ă©couter du Jahai), qui possĂšde donc des termes spĂ©cifiques pour catĂ©goriser les odeurs, a montrĂ© le contraire.
- accĂ©der Ă des facettes non-matĂ©rielles de la prĂ©histoire, non-accessibles Ă travers lâarchĂ©ologie.
La documentation des langues nous permet dâaccĂ©der, dans une certaine mesure, aux termes et aux concepts utilisĂ©s durant les diffĂ©rentes prĂ©histoires Ă travers la comparaison des langues et de leurs structures. Les travaux sont nombreux et anciens en ce qui concerne les langues europĂ©ennes, mais les recherches en linguistique historique (ou comparĂ©e) portent Ă©galement sur toutes les langues connues Ă travers le monde. Les chercheurs et chercheuses de ce domaine collaborent assez rĂ©guliĂšrement avec les archĂ©ologues pour retracer les mouvements de population.
- mettre au point des systĂšmes dâĂ©criture pour les langues orales, ou simplement des traitements de texte adaptĂ© aux Ă©critures existantes. Parfois, certaines personnes savent Ă©crire dans la ou les langues officielles du pays, mais ne connaissent pas dâĂ©criture pour une de leurs langues rĂ©gionales. Câest ainsi souvent le cas pour les personnes au Vanuatu. Le pays reconnait mĂȘme le droit dâenseigner les langues locales Ă lâĂ©cole, mais il nâexiste que trĂšs rarement des ressources (que ce soit les personnes ou les manuels) pour cela. Parfois, les gens ne connaissent tout simplement pas de systĂšme dâĂ©criture.
Quelques concepts et termes liés à la documentation des langues
Comme tout domaine de recherche, la terminologie et les concepts linguistiques Ă©voluent au grĂ© des discussions et peut se distinguer de lâusage attendu des termes. Une Ă©tape importante dans la documentation dâune langue est la production dâune grammaire dĂ©crivant les structures linguistiques de cette langue. De nombreux linguistes estiment alors quâon peut dire que cette langue est dĂ©crite. Il ne faut pas se tromper cependant, aucun linguiste ne considĂšre quâune langue est alors complĂštement dĂ©crite. Une grammaire ne contient que quelques aspects estimĂ©s actuellement essentielles par les linguistes de terrain. Ces points sont, le plus souvent, une description du systĂšme phonologique dâune langue (câest-Ă -dire comment les sons dâune langue sont organisĂ©s les uns vis-Ă -vis des autres), des morphĂšmes et des processus morphologiques associĂ©s (la conjugaison, lâexpression de la possession, les dĂ©clinaisons, les genres, les classifications, etc.) dâune langue et souvent un dĂ©but de description des processus syntaxiques. Il existe de nombreuses approches pour dĂ©crire les faits linguistiques, et la description dâune langue se fait souvent en dialogue avec les pratiques et terminologies qui ont Ă©tĂ© employĂ©es dans l'aire linguistique concernĂ©e.
Depuis lâarticle Documentary and descriptive linguistics de Nicholaus Himmelman, qui a promu la distinction entre la documentation linguistique et la description linguistique, on accorde beaucoup plus dâimportance Ă la production dâun corpus dâenregistrements annotĂ©s. On dit alors dâune langue quâelle est documentĂ©e si des enregistrements annotĂ©s, de prĂ©fĂ©rences audio-visuels, de cette langue existe. Enfin, il existe la problĂ©matique de lâoutillage dâune langue, câest-Ă -dire si ses locuteurs et locutrices ont accĂšs ou non aux outils informatisĂ©s, du traitement texte aux dictionnaires informatisĂ©s en passant par la reconnaissance vocale, la transcription automatique, voire aujourdâhui aux modĂšles de langues et autres ressources nĂ©cessitant des corpus beaucoup plus grands.
Les catalogues et base de donnĂ©es pour lâidentification des langues
Une problĂ©matique rĂ©currente dans le domaine des langues est de clairement identifier la langue sur laquelle on travaille. Cependant, identifier une langue, ce qui relĂšve ou non de cette langue, oĂč elle est parlĂ©e, est lâenjeu de nombreux dĂ©bats, souvent politique, et nâest pas une tĂąche simple. Quoi quâil en soit, il existe des ressources, bases de donnĂ©es, qui proposent dâassocier Ă des noms de langues, endonymes ou exonymes, des codes pour rendre leur identification univoque.
LâEthnologue et lâISO 639 : une norme gĂ©rĂ©e par le Summer Institute of Linguistics (SIL)
Ethnologue, Languages of the World, ou plus simplement lâEthnologue, est une base de donnĂ©es dĂ©veloppĂ©e et maintenu par lâorganisme Ă©vangĂ©lique SIL, Summer Institute of Linguistic depuis 1951. Elle vise Ă recenser toutes les langues du monde. LâISO 639 est une norme issue de ce catalogue, Ă©galement maintenue par le SIL. Cet organisme est trĂšs actif au niveau de la documentation des langues et de la crĂ©ation dâĂ©critures, car un de ses objectifs est de traduire la Bible dans toutes les langues du monde. Historiquement, lâEthnologue est un des premiers catalogues dont lâobjet a Ă©tĂ© de recenser les langues. Si cette norme semble le plus souvent suffisamment exhaustive pour les besoins liĂ©s Ă lâinformatique, aprĂšs tout, les internautes consultent Internet en trĂšs peu de langue, dâun point de vue linguistique, il possĂšde de nombreuses lacunes.
Un premier souci est la nĂ©cessitĂ© dâavoir une granularitĂ© plus importante que simplement la langue. Les linguistes travaillent sur des dialectes et des variĂ©tĂ©s, sur des familles de langues, et parfois ont travaillĂ© sur des distinctions qui nâont parfois plus cours. Afin de pouvoir associer ces ressources Ă des langues, ou des entitĂ©s linguistiques particuliĂšres, lâapproche du SIL ne suffit pas.
Enfin, la gestion du catalogue par un organisme religieux, donc avec parfois dâautres enjeux quâuniquement scientifiques, le fait quâil sâagisse dâune norme, donc la nĂ©cessitĂ© de collaborer avec lâISO, et le fait que seule une partie du catalogue est accessible (il faut un abonnement pour accĂ©der Ă la totalitĂ© de la ressource) rend la ressource moins pertinente pour de nombreux linguistes. Ces limites ont poussĂ© des linguistes Ă proposer une ressource alternative.
Glottocode : par le Max Planck Institute for Evolutionary Anthropology.
Le projet Glottolog, initialement dĂ©veloppĂ© par Sebastian Nordhoff et Harald Hammarström, catalogue non seulement les langues du monde actuelles et passĂ©s, les familles de langues et leurs diffĂ©rentes branches, mais Ă©galement « les restes » des hypothĂšses de langues ou de regroupements historiques. Cette granularitĂ© permet de retrouver les documents associĂ©s Ă chacun de ces objets. Si le catalogue est dĂ©diĂ© aux langues moins connues, les langues les plus centrales sont elles aussi rĂ©pertoriĂ©es. Il sâagit actuellement du catalogue mis en avant par les linguistes documentant les langues Ă travers le monde. Lâapplication Glottolog est disponible via la licence MIT.
Si aux premiers abords, la liste des langues du Glottolog ne se distingue pas franchement de celle de lâISO 639, câest parce quâil faut regarder plus en dĂ©tail pour comprendre les diffĂ©rences essentielles entre les deux ressources. Notons tout de mĂȘme la colonne «âŻChild dialectsâŻÂ» : «âŻDialectes enfantsâŻÂ», et les champs vides au niveau des colonnes Top-level-family et pour la langue Abai Tubu-Abai Sembuak dans la colonne « ISO-639-3 ». La colonne «âŻChild dialectsâŻÂ» reprĂ©sente une information qui nâest pas documentĂ© dans lâISO 639, ce nâest pas son objet aprĂšs tout, mais qui est intĂ©ressant pour les linguistes travaillant sur cette langue, indiquant quâun minimum de donnĂ©es sociolinguistiques sont disponibles. Les champs vides dans la colonne «âŻTop-level familyâŻÂ» sont dus au fait que ces langues sont des isolats, câest-Ă -dire que la linguistique comparĂ©e ne trouve pas de correspondances significatives entre cette langue et dâautres langues qui permettraient de les regrouper en une famille. Enfin, le vide dans la colonne ISO-963-3 rĂ©vĂšle que la langue Abai Tubu-Abai Sembuak ne possĂšde pas dâentrĂ©e dĂ©diĂ©e dans la norme.
Ainsi, lorsque lâon consulte une langue en particuliĂšre, ici le Nisvai, on voit apparaitre tous les embranchements existants associĂ©s Ă cette langue :
Cette vue de lâarborescence associĂ©e Ă une langue particuliĂšre rĂ©vĂšle tous les embranchements auxquels peutâ»ĂȘtre associĂ©e une langue. Et Ă chacun de ces embranchements, si des ressources linguistiques ont Ă©tĂ© identifiĂ©es par les mainteneurs du Glottolog, celles peuvent ĂȘtre proposĂ©es. Cette fonction permet aux linguistes de trouver des ressources sur les langues proches, non pas gĂ©ographiquement (mĂȘme si en pratique câest le plus souvent le cas), mais dâun point de vue gĂ©nĂ©alogique.
Les autres
Il existe dâautres initiatives pour cataloguer les langues du monde, que ce soit la liste proposĂ©e par Wikipedia, la liste de la CIA ou encore The Linguasphere Register, mais ces initiatives ne sont pas aussi pertinentes du point de vue de la documentation des langues.
Documenter les langues
ELAN : des schĂ©mas dâannotation flexibles
ELAN est un des logiciels libres (GPL3) les plus utilisĂ©s par les linguistes pour annoter des enregistrements audio et vidĂ©o. Il permet dâĂ©laborer des structures dâannotation complexes permettant ainsi de rendre compte des analyses que les linguistes souhaitent associer Ă un enregistrement. Ces couches dâannotation sont reliĂ©es les unes aux autres par des relations logiques, avec le plus souvent une couche de rĂ©fĂ©rence indexĂ©e temporellement Ă lâenregistrement. Les annotations les plus courantes sont une transcription, une traduction et une annotation morphologique. Mais des nombreuses autres analyses peuvent ĂȘtre incluses, que ce soit les parties du discours, les rĂ©fĂ©rences et anaphores, l'animĂ©itĂ©, mais aussi les gestes, la structuration du discours, les signes pour les sourds et malentendants.
Dans cette capture dâĂ©cran issu dâun texte de DoReCo retravaillĂ© par lâauteur, on aperçoit un extrait de quelques secondes dâune narration nisvaie. Il sâagit dâun des modes de visualisation des annotations proposĂ©es par ELAN pour reprĂ©senter les diffĂ©rentes couches dâannotation. Certaines de ces annotations ont Ă©tĂ© rĂ©alisĂ©es Ă la main par lâauteur, dâautres ont Ă©tĂ© retravaillĂ©es par les algorithmes mis en place par DoReCo, puis manuellement corrigĂ©s. Enfin, il y a Ă©galement des couches dâannotation de la prosodie par le biais de SLAM+.
FLEX : gérer un projet de documentation
FLEX est un logiciel dĂ©veloppĂ© par le SIL et dont le code source est rĂ©gie par la licence LGPL 2.1. Il est conçu davantage pour coordonner lâensemble dâune documentation linguistique, de la gestion des textes Ă lâĂ©laboration dâun dictionnaire, en passant par les analyses linguistiques. En revanche, il ne gĂšre pas rĂ©ellement lâannotation dâenregistrements. De nombreux linguistes lâutilisent en complĂ©ment dâELAN.
Si le logiciel est prometteur sur le papier, Ă chaque fois que je lâai essayĂ©, jâai Ă©tĂ© rebutĂ© par son cĂŽtĂ© usine Ă gaz, et surtout ses nombreux plantages notamment lorsquâon essaie de gĂ©rer des fichiers multimĂ©dia avec. Et il en est de mĂȘme pour les autres logiciels dĂ©veloppĂ© par le SIL, tel que SayMore pour gĂ©rer les mĂ©tadonnĂ©es des enregistrements, WeSay pour faire des dictionnaires en collaboration avec les locuteurs et locutrices, Ă chaque fois que je les ai essayĂ©s, enthousiasmĂ© par leurs fonctionnalitĂ©s, jâai Ă©tĂ© déçu par le fait quâils ne fonctionnaient pas correctement sur mon ordinateur.
Cette capture dâĂ©cran illustre un des modes de saisie de FLEX, ici la vue tabulaire du lexique, qui permet de rentrer et gĂ©rer les dĂ©finitions des lexĂšmes (les entrĂ©es du dictionnaire) de maniĂšre assez rapide. On aperçoit dans la partie en haut Ă gauche les autres modes dâĂ©dition du lexique, et en dessous les autres catĂ©gories liĂ©es Ă la gestion dâun projet de documentation : Texts & Words, Grammar, Notebook et Lists. Câest Ă travers la catĂ©gorie Texts & Words que lâon peut par exemple importer des textes transcrits, voire des fichiers ELAN pour peupler la base de donnĂ©es lexicales. Grammar permet de dĂ©crire les paradigmes grammaticaux, FLEX propose dâailleurs quelques algorithmes qui aident Ă la construction des paradigmes grammaticaux. Notebook et Lists servent Ă la gestion du projet, le premier pour prendre des notes diverses, et le second pour crĂ©er des listes, en particulier des tĂąches encore Ă rĂ©aliser.
Et il y en a bien dâautres encore
Il existe de nombreux autres logiciels similaires, tels quâEXmaralda pour lâannotation des enregistrements (surtout utilisĂ© en Allemagne Ă ma connaissance), Sonal (non libre, et dont le dĂ©veloppement semble arrĂȘtĂ©) qui est utilisĂ© par les sociologues et les anthropologues pour une annotation thĂ©matique de leurs entretiens, Anvil, qui semble intĂ©ressant mais que je nâai jamais rĂ©ellement vu utilisĂ©, ou enfin le vieux Transcriber qui lui Ă©tait encore employĂ© par certains projets il y a quelques annĂ©es. Rentrer dans le dĂ©tail de tous ces logiciels dĂ©passerait le cadre dâune dĂ©pĂȘche comme celle-ci, mais Ă©numĂ©rer la diversitĂ© logicielle montre quâil sâagit dâun secteur un minimum dynamique, dâailleurs la question de la transcription et de lâannotation des enregistrements ne se limite pas du tout quâau domaine de la documentation des langues du monde.
Lâarchivage et la compilation de corpus
Afin de conserver et partager les corpus et donnée enregistrées par les linguistes, chercheurs voire simplement les personnes ayant documenté une langue, il existe des archives, le plus souvent en ligne. Il y a en France par exemple Pangloss, géré par le LACITO, dédié aux langues orales, ou ORTOLANG, plus générique, pour les corpus de langue. En Océanie, il y a Paradisec. Il y a aussi ELAR, autrefois à Londres, et qui a déménagé récemment à Berlin récemment.
Ces archives proposent diverses interfaces pour dĂ©poser, gĂ©rer et parfois mĂȘme consulter les enregistrements et les annotations rĂ©alisĂ©s par les linguistes et leurs collaborateurs·e·s. Ă noter que pour ces archives, Ortolang dĂ©crit son architecture logicielle qui repose sur des briques ouvertes, en revanche concernant Paradisec et Pangloss, bien que leur statuts soient sĂ»rement similaires du fait de la dĂ©marche gĂ©nĂ©rale de ses ingĂ©nieurs, je nâai pas trouvĂ© de liens vers les logiciels employĂ©s. Quant Ă ELAR, le logiciel utilisĂ© est Preservica, une solution propriĂ©taire qui, quand on a le malheur de devoir lâutiliser, fonctionne bien lentement.
La compilation de corpus, si elle se rapproche de lâarchivage en ce quâil sâagit Ă©galement de recueillir, conserver et publier les corpus des linguistes, correspond Ă©galement Ă une Ă©dition particuliĂšre de ces corpus. La compilation de corpus est rĂ©alisĂ© Ă travers la mise en place de processus de qualitĂ©, dâannotations et de conventions particuliĂšres. Les deux compilations de corpus prĂ©sentĂ©es ici sont des compilations de corpus de documentation de langues orales. Les enregistrements ont Ă©tĂ© systĂ©matiquement annotĂ©s en utilisant une convention nommĂ©e les gloses interlinaires (le nom fait en fait rĂ©fĂ©rence Ă la pratique ancienne dâinsĂ©rer des explications entre les lignes dâun texte. En pratique aujourdâhui, ce nâest plus vraiment ce que font les linguistes, puisque le travail est informatisĂ© et les annotations ne sont plus entre les lignes, mais, le terme a cependant Ă©tĂ© conservĂ©).
DoReCo
DoReCo est une compilation de 52 corpus en accĂšs ouvert (NdR : auquelle lâauteur a contribuĂ©). La compilation a nĂ©cessitĂ© la mise en place de processus de qualitĂ© afin dâassurer la cohĂ©rence de lâensemble et de fournir un certain nombre de garanties quant aux qualitĂ©s du corpus.
Une premiĂšre qualitĂ©, et lâune des originalitĂ©s de DoReCo, est de proposer un alignement temporel est trĂšs fin. La durĂ©e de chaque phonĂšme, de chaque morphĂšmes, de chaque mot (ici suivant la dĂ©finition de la personne Ă lâorigine du corpus, car la dĂ©finition dâun mot nâa rien dâune Ă©vidence) et enfin de chaque groupe de souffle est fournie. Une deuxiĂšme qualitĂ© a Ă©tĂ© de sâassurer que pour lâensemble des retranscriptions, chacun des termes et des morphĂšmes possĂšde une glose, câest-Ă -dire quâils possĂšdent une explication linguistique.
La compilation totalise une centaine dâheures dâenregistrements audio, en grande majoritĂ© des narrations monologiques. Ă noter que les corpus de la compilation sont accĂšs ouvert, via une licence Creative Commons, mais que les droits dâutilisation varient dâun corpus Ă lâautre. Les donnĂ©es sont accessibles aux formats dâELAN : .eaf, de Praat : . TextGrid, TEI.xml, et.csv.
Multi-CAST
Multi-CAST est Ă©galement une compilation de 18 corpus de documentation de langues diffĂ©rentes. Les textes annotĂ©s via le logiciel ELAN. Contrairement Ă DoReCo, lâalignement temporel des annotations nâest pas rĂ©alisĂ© de maniĂšre prĂ©cise, mais manuellement, par les personnes Ă lâorigine du corpus, Ă lâĂ©chelle de lâĂ©noncĂ©. Les textes sont Ă©galement en grande majoritĂ© des narrations monologiques. LâoriginalitĂ© de cette compilation de corpus vient du fait que les textes contiennent trois couches dâannotation particuliĂšres : GRAID, Grammatical Relations and Animacy in Discourse, (voir), puis RefIND et ISNRef (Referent Indexing in Natural Language Discourse, voir Schiborr et al. 2018).
Cette compilation de corpus est aussi disponible dans plusieurs formats. XML Ă©videmment, puisque câest le format natif dâELAN, mais aussi TSV et il existe Ă©galement un paquet pour R. Tout cela est disponible via la licence CC-BY 4.0.
Conclusion
JâespĂšre que vous avez apprĂ©ciĂ© cette introduction Ă la documentation des langues Ă travers les logiciels libres. LâidĂ©e est surtout dâattiser la curiositĂ©, car il reste Ă©videmment encore de nombreux aspects ou points Ă discuter et Ă approfondir. La prochaine fois que jâaborderai le thĂšme de la documentation linguistique ici, jâespĂšre que ça sera pour prĂ©senter mon application basĂ©e sur Django pour faire de la lexicographie.
Il y a Ă©galement un autre sujet sur lequel jâaimerais bien Ă©changer ici prochainement : la question des licences des donnĂ©es collectĂ©s et la nĂ©gociation lorsque lâon travaille avec des personnes Ă tradition orale. Si ouvrir lâaccĂšs aux donnĂ©es de recherche et aux corpus peut sembler ĂȘtre une Ă©vidence pour certains, il ne faut pas oublier que souvent, les chercheurs et chercheuses de terrain collectent des informations personnelles, que la connaissance nâest pas forcĂ©ment considĂ©rĂ©e comme un bien public et les enregistrements, notamment les narrations, qui ne sont pas forcĂ©ment perçues comme des fictions, sont souvent couverts par des droits locaux. Enfin, ouvrir ses donnĂ©es de recherche, si câest permettre Ă dâautres de rĂ©utiliser ses donnĂ©es, requiert beaucoup de travail de la part des linguistes, câest une tĂąche longue, ingrate et surtout peu valorisĂ©e. Alors quâil est de plus en plus prĂ©caire dâĂȘtre chercheur en sciences humaines, il est aussi difficile de demander Ă ces chercheurs et chercheuses de consacrer une grande partie de leur temps Ă des tĂąches qui ne leur permettront pas de se constituer un CV, nĂ©cessaire si lâon souhaite avoir un poste stable (câest-Ă -dire plus de deux ans).
Label sans IA : ce texte a Ă©tĂ© rĂ©digĂ© sans aucun aide de la part dâune LLM.