❌

Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraĂźchir la page.
À partir d’avant-hierFlux principal

Sortie de LyX 2.4

15 octobre 2024 Ă  05:34

Revenons sur les nouveautĂ©s de LyX 2.4 Ă  l’occasion de la sortie de la 2.4.2, qui apporte son lot de correctifs.

LyX est un Ă©diteur de documents WYSIWYM (what you see is what you mean) prĂ©vu pour l’environnement TeX et disponible sous licence GPL. Contrairement Ă  Word ou LibreOffice, par exemple, l’utilisateur ne voit pas directement Ă  l’écran le mĂȘme rĂ©sultat que s’il imprimait le document (WYSIWYG). Ce mĂ©canisme est voulu, car TeX impose de « compiler Â» les documents avant de les visualiser : LyX permet donc de visualiser la sĂ©mantique du document avant d’en gĂ©nĂ©rer un PDF.

La version 2.4 est sortie le 1er juin 2024 et apporte un grand lot de nouveautés, aprÚs six ans de développement. Cette version est constituée de 8700 commits par 40 personnes et a permis de fermer 800 problÚmes connus.

Logo Lyx

FenĂȘtre principale de LyX

Parmi les changements principaux, LyX utilise dĂ©sormais UTF-8 en interne pour la reprĂ©sentation des documents, une Ă©volution qui suit de prĂšs LaTeX, qui a fait le mĂȘme mouvement en 2018 (bien aprĂšs les moteurs modernes comme XeTeX ou LuaTeX).

Au niveau de l’interface graphique, les thĂšmes sombres fonctionnent bien mieux qu’avant, notamment au niveau de l’éditeur de formules. Pour Windows, le thĂšme Fusion de Qt est nĂ©cessaire pour obtenir une interface sombre.

Au niveau des exports vers d’autres formats que des dĂ©rivĂ©s de TeX, LyX 2.4 gĂ©nĂšre dĂ©sormais du XHTML 5 (c’est-Ă -dire du HTML5 mais lisible comme du XML). La sortie DocBook a Ă©tĂ© entiĂšrement rĂ©Ă©crite, de telle sorte qu’elle s’utilise dĂ©sormais sur la majoritĂ© des types de documents LyX (Ă  l’exception notable des prĂ©sentations Beamer). PrĂ©cĂ©demment, seuls des documents suivant un modĂšle spĂ©cifique Ă  DocBook pouvaient ĂȘtre exportĂ©s en DocBook, mais pas en LaTeX : maintenant, un mĂȘme document pourra ĂȘtre exportĂ© en DocBook et LaTeX. Cette sortie DocBook a aussi Ă©tĂ© l’occasion d’implĂ©menter une sortie en ePub 3 (utilisant DocBook et les outils standard de DocBook pour convertir un document en ePub 3).

Le développement de LyX se poursuit activement, avec la branche 2.5 en préparation parallÚlement aux mises à jour de la branche 2.4. Les améliorations et corrections en cours sont détaillées dans le systÚme de suivi du projet, accessible au public.

Il est remarquable de noter que LyX, lancé initialement en 1995, approche bientÎt de ses 30 ans d'existence. Cette longévité témoigne de la qualité et de l'utilité durable de ce logiciel. Il n'a jamais cessé d'évoluer pour répondre aux exigences de ses utilisateurs, en particulier dans le domaine de l'édition scientifique et académique.

Commentaires : voir le flux Atom ouvrir dans le navigateur

Une histoire de formats : il n’y a pas que la taille qui compte

Dans cette nouvelle excursion dans le temps et dans l’espace du Transimpressux, nous allons rendre une rapide visite Ă  ThĂ©otiste Lefevbvre (1798 - 1887) prote d’imprimerie et Ă  quelques-uns de ses confrĂšres ainsi que dans les magasins de quelques bibliothĂšques. Nous passerons aussi, un grand moment du cĂŽtĂ© de la Silicon Valley et de Redmond dans l’État de Washington, bien obligĂ© puisqu’on parlera beaucoup de formats numĂ©riques, sans oublier d’aller dire bonjour Ă  Donald Knuth, Tim Berners-Lee et John Gruber. On terminera notre exploration quelque part dans les archives numĂ©riques de la BibliothĂšque nationale de France (BnF).

La climatisation du Transimpressux a été entiÚrement révisée et le bar rechargé en boissons fraßches et glaces en tous genres. On vous souhaite un bon voyage.

Le transimpressux

Sommaire

Préambule

Cette dĂ©pĂȘche ne se veut pas exhaustive sur les formats en tous genres ni trĂšs technique sur les formats informatiques. Pour les formats d’image, qui ne sont pas traitĂ©s ici, je vous renvoie Ă  l’excellente dĂ©pĂȘche de Tanguy Ortolo qui a fait le tour de la question et au journal de Glandos sur l’intĂ©gration du JPEG XL dans les navigateurs.

Les formats matériels, entre coût et rangement

Encore aujourd’hui, le format matĂ©riel d’un document, spĂ©cialement, s’il s’agit d’un livre, est important pas uniquement pour des questions de coĂ»t. Mais aussi Ă  cause d’eux. C’est parce que le papier coĂ»tait cher qu’Alde Manuce a crĂ©Ă© l’italique au dĂ©but du 16e siĂšcle. L’italique prenant moins de place que les autres styles de caractĂšres, il devenait possible d’imprimer des livres en petit format qui pouvaient ainsi ĂȘtre achetĂ©s par une clientĂšle impĂ©cunieuse.

Une pile de livres
Des diffĂ©rences de taille et de tailles. Image retravaillĂ©e avec le filtre « Pencil Portrait Â» de Q’mic-Qt (et un peu Inkscape).

Les rouleaux, volumen ou rotulus

La taille de ces rouleaux varie beaucoup. Ils peuvent atteindre plusieurs mĂštres de long (ou de large, selon le sens de lecture). TĂ©moin cette remarque d’Auguste Molinier, chartiste et bibliothĂ©caire, en 1892 :

On a Ă©tudiĂ© rĂ©cemment la longueur des volumina antiques. En Égypte, elle paraĂźt avoir Ă©tĂ© illimitĂ©e ; un rouleau trouvĂ© Ă  ThĂšbes a 43 m. 50, ce qui est excessif ; il est vrai que le moyen Ăąge a eu des rouleaux de parchemin, plus solides, mais encore plus lourds et infiniment plus longs. Pour les Ɠuvres littĂ©raires grecques et latines, un Ă©rudit moderne, M. Birt, a Ă©valuĂ© Ă  12 mĂštres la longueur extrĂȘme des volumina.1

Ces longueurs dĂ©mesurĂ©es ne sont pas propres aux Égyptiens. Les Archives nationales de Paris possĂšdent un parchemin d’une longueur d’une vingtaine de mĂštres. DatĂ© de 1307, ce rouleau consigne les aveux, obtenus sous la torture, de cent-trente-huit Templiers. Il va sans dire que leur longueur et leur anciennetĂ© rend les rouleaux trĂšs difficiles Ă  manipuler, une difficultĂ© que la numĂ©risation Ă©limine.

Des formats des livres

Les noms des formats des livres en imprimerie traditionnelle sont liĂ©s au nombre de pages que l’on imprimait sur une feuille. Le mot « format Â» lui-mĂȘme pourrait venir des chĂąssis, ou « formes Â» dans lesquels on plaçait les pages Ă  imprimer. Ce procĂ©dĂ© s’appelait l’imposition.

Les formats les plus usuels, du plus grand au plus petit :

  • in-folio : soit quatre pages par feuille, la taille la plus grande de livre,
  • in-quarto, huit pages,
  • in-octavo, seize pages,
  • in-douze, vingt-quatre pages,
  • in-dix-huit, trente-six pages.

La rĂ©partition des pages sur la feuille Ă©tait Ă  la fois importante et dĂ©licate puisqu’une fois imprimĂ©e, la feuille Ă©tait pliĂ©e. Il fallait donc veiller non seulement Ă  la bonne rĂ©partition des pages sur la feuille, mais aussi Ă  leur sens. Dans son Guide pratique du compositeur d’imprimerie, ThĂ©otiste Lefebvre consacre plus d’un quart de son livre (119 pages sur 440) Ă  cette dĂ©licate question. Dans son petit guide sur la Typographie, Charles-FĂ©licien Huart y consacre aussi plusieurs pages.

Un exemple de rĂ©partition des pages2 pour un volume in-douze, « cĂŽtĂ© de premiĂšre Â» indique le recto, « cĂŽtĂ© de seconde Â», le verso. La feuille est pliĂ©e en trois dans le sens de la hauteur et deux dans la largeur.

répartition
Recto : deux sĂ©ries de pages tĂȘte en bas, pages 12, 13, 16 et 9 (1re sĂ©rie) et 8, 17, 20 et 5 (2e sĂ©rie) et, en dessous pages 1, 24, 21 et 4. Verso : deux sĂ©ries de pages tĂȘte en bas, pages 10, 15, 14 et 11 (1re sĂ©rie) et 6, 19,18 et 7 (2e sĂ©rie) et 3, 22, 23 et 2 en dessous.

Cette diffĂ©rence de tailles peut amener les bibliothĂšques dont le fond n’est pas directement accessible au public Ă  opter pour un classement matĂ©riel des livres basĂ©s sur le format. On aura ainsi des cĂŽtes du genre « in12-numĂ©ro d’inventaire Â». C’est un systĂšme trĂšs efficace et qui Ă©vite d’avoir un petit livre (littĂ©ralement) perdu au milieu de livres nettement plus grands.

Les formats actuels, livre et papier

L’indication de format Ă  partir du nombre de pages imprimĂ©es sur une feuille ne donne pas d’information prĂ©cise sur la taille effective des livres. Il faut signaler que les dimensions changent en fonction de celles de la feuille d’origine. Les appellations actuelles, cĂŽtĂ© Ă©dition, du style Livre de poche (environ 10,5 cm x 17,5 cm), livre brochĂ© ou encore grand format, utilisĂ©es en lieu et place d’in-folio, in-octavo, etc. rĂ©servĂ©s plutĂŽt au livre ancien ne sont pas plus prĂ©cises.

En, revanche, la taille des feuilles de papier les plus utilisĂ©es a fait l’objet d’une norme, la norme ISO 216. Elle concerne les formats A, dont le fameux A4 qui est celui des feuilles standard des imprimantes de bureau et le format B. Le principe : plus le numĂ©ro est Ă©levĂ©, plus la feuille est petite. La numĂ©rotation commence Ă  0 qui fait un mĂštre carrĂ© (84,1 cm x 118,9 cm) pour le format A. La taille de la feuille du numĂ©ro supĂ©rieur devant ĂȘtre Ă©gale Ă  la moitiĂ© de celle du numĂ©ro infĂ©rieur qui la prĂ©cĂšde. En d’autres termes : le format A3 Ă©gal deux fois le format A4 qui, lui-mĂȘme, est deux fois plus grand que le format A5. Il en va de mĂȘme avec le format B. Cela explique au passage pourquoi le format A4 mesure 21 x 29,7 cm et pas 21 x 30 cm.

Les formats de texte

Jusque dans les annĂ©es 1990, il y avait un nombre trĂšs important d’outils et de formats de textes. Writer de LibreOffice, d’aprĂšs mes comptes, peut ouvrir jusqu’à quarante-quatre formats de fichier diffĂ©rents, hors modĂšles et hors web, mais n’enregistre que dans des formats qui sont ceux encore utilisĂ©s Ă  l’heure actuelle. Ce qui rĂ©duit la liste Ă  treize formats incluant les modĂšles et l’HTML.

Sur cette frise chronologique, on a, en haut, des formats de texte avec leur date de naissance plus ou moins approximative et, en dessous, des langages de balisage avec leur date de naissance Ă©galement.

Formats de texte et langages de balisage
Les formats de texte : 1977 Texte brut, 1987-2007 RTF, 1990-2007 DOC, 2005 ODT, 2007 DOCX. Ils ont Ă©tĂ© choisis parce qu’ils sont les plus connus, voire, les plus utilisĂ©s. Dans cette liste deux formats ne sont plus maintenus, les formats RTF et DOC. Mais il existe encore des amas de fichiers dans ces deux formats.

Le texte brut, .txt

Le texte brut, nait Ă  une date imprĂ©cise. Probablement vers la fin des annĂ©es 1950 ou au dĂ©but des annĂ©es 1960. Le premier RFC3 qui dĂ©finit un standard de protocole pour des messages en texte brut (Standard for the Format of Arpa Network Text Messages) date de 1977, il porte le numĂ©ro 733 et a Ă©tĂ© rĂ©digĂ© par l’agence amĂ©ricaine pour les projets de recherche avancĂ©e de dĂ©fense (DARPA pour Defense Advanced Research Projects Agency).

Au dĂ©but, le format n’acceptait que l’Ascii, Ă  savoir les vingt-six lettres de l’alphabet, les chiffres, les ponctuations de base et les caractĂšres de commande Ascii. Ce qui en fait un format simple, mais trĂšs pauvre. L’Ascii est codĂ© sur 7 bits, ce qui ne permet d’avoir que cent-vingt-huit caractĂšres, en fait quatre-vingt-dix imprimables et trente-huit pour les codes de commande4. Il accepte, depuis, l’Unicode. Depuis quand ? Difficile Ă  prĂ©ciser, mais la premiĂšre mention d’Unicode qui figure sur le site rfc-editor remonte Ă  juillet 1994 (en), RFC 1641, Ă  titre expĂ©rimental. On peut supposer, en tout cas, que le consortium Unicode qui rĂ©unit la fine fleur de l’informatique a dĂ» trĂšs tĂŽt faire en sorte que son standard puisse ĂȘtre acceptĂ© dans le format texte brut.

Ce format se rĂ©vĂšle assez vite insuffisant de part sa simplicitĂ© mĂȘme, confinant Ă  la pauvretĂ© : pas d’enrichissement typographique, pas de notion de style ni de hiĂ©rarchie des paragraphes, pas de possibilitĂ© d’avoir des images. Il est, de fait, plutĂŽt infĂ©rieur Ă  ce que l’on peut avoir sur du papier. Il reste nĂ©anmoins trĂšs utilisĂ© et par toutes les applications qui traitent du texte : Ă©diteurs de texte, bureautique, etc. Il a pour lui l’avantage d’ĂȘtre simple, lĂ©ger et interopĂ©rable. C’est le format, par exemple, avec lequel la BnF Gallica dĂ©livre les documents « bruts de numĂ©risation Â» (il faut copier-coller le texte ailleurs pour le garder et le retravailler), et c’est, bien Ă©videmment, celui des RFC.

Il y a des personnes qui recommandent de conserver le texte en texte brut, compte tenu des limitations du format, ce n’est pas franchement conseillĂ© pour des documents un peu complexes Ă©tant donnĂ© qu’il y aura Ă©normĂ©ment de pertes d’information.

Le RTF

En 1987, Microsoft lance le Rich Text Format (RTF) qui permettait d’avoir du texte « enrichi Â» avec des attributs : gras, italique, soulignĂ© et de dĂ©passer le cadre du texte brut. C’est un format qui a Ă©tĂ© pendant un certain temps, un standard d’échange de fait pour ce type de fichiers. Il Ă©tait au moins lu par beaucoup de logiciels sur nombre de systĂšmes d’exploitation. C’était un format pratique d’échange, notamment Ă  une Ă©poque oĂč le PDF n’était pas encore un format ouvert et ne pouvait ĂȘtre gĂ©nĂ©rĂ© que via le (cher) logiciel d’Adobe. Et aussi parce que c’était l’époque de la « grande dĂ©mocratisation Â» de l’informatique, et, qu’à vrai dire, les utilisateurices finaux ne savaient pas trop comment, surtout sous quelle forme et ce qui se passait quand on Ă©changeait des fichiers.

Aussi pratique que soit le format RTF, outre son absence de lĂ©gĂšretĂ©, il Ă©tait nĂ©anmoins trĂšs limitĂ© : pas de texte structurĂ© autrement que sur un plan purement visuel, par exemple. Microsoft arrĂȘtera de le maintenir en 2008 (il aura tenu vingt ans tout de mĂȘme !). C’est donc un format mort.

Le .doc, un format propriétaire incontournable

Quand Microsoft lance sa suite bureautique dans les annĂ©es 1990 (la date sur la chronologie n’est pas tout Ă  fait exacte), il adopte pour le traitement de texte, Word, l’extension .doc qui avait Ă©tĂ© aussi celle de WordPerfect. Word avait pour lui de montrer le rendu du texte immĂ©diatement : le fameux WYSIWYG pour « What you see is what you get Â» (ce que vous voyez est ce que vous obtenez).

La suite finit par devenir quasiment incontournable et le format DOC de Word devenir un « standard de fait Â». Microsoft abandonnera le DOC en 2007 pour le DOCX basĂ© sur l’Office Open XML. On produira encore longtemps aprĂšs des fichiers en .doc en vertu du « tout le monde n’a pas la version de MsOffice 2007 Â». On trouve encore sur internet des modĂšles de fichiers Ă  ce format Ă  tĂ©lĂ©charger.

Il Ă©tait reprochĂ© au format son poids, lourd, des problĂšmes de confidentialitĂ© (on pouvait, par exemple, retrouver du texte effacĂ© avant l’enregistrement ou le modĂšle de l’imprimante5) et sa faiblesse devant les virus. Et, bien entendu, c’était un format propriĂ©taire et pas interopĂ©rable. Un autre dĂ©faut majeur du format Ă©tait qu’il Ă©tait modifiĂ© Ă  chaque nouvelle version de Word ce qui impliquait de devoir acheter la nouvelle version du logiciel pour pouvoir travailler sur les nouveaux fichiers en .doc.

Microsoft dĂ©livrera les sources du format en 2006, mais les spĂ©cifications semblent ne plus figurer sur le site de la firme. Le code source de la version d’origine de Word, quant Ă  lui, a Ă©tĂ© rendu public et versĂ© au musĂ©e amĂ©ricain de l’histoire de l’ordinateur (en).

Le .doc peut encore ĂȘtre ouvert et travaillĂ© d’un grand nombre de logiciels. Abiword par exemple ouvre les .doc mais pas les .docx. En revanche, il est de moins en moins possible de gĂ©nĂ©rer des fichiers Ă  ce format, et c’est une bonne chose. On ne saurait que trop vous suggĂ©rer de transformer tous les fichiers en .doc qui traĂźneraient encore dans vos ordinateurs en ODT (ou de faire le mĂ©nage). Il en va de mĂȘme pour le format de modĂšle .dot.

L’ODT : un format ouvert

En 2005 apparaĂźt un format bien intĂ©ressant : le format ODT, qui est une des composantes du plus gĂ©nĂ©ral OpenDocument Format (ODF) avec le O d’Open, le D de Document et le T de Texte, l’extension OTT Ă©tant pour les modĂšles avec le premier T pour Template (modĂšle en anglais). L’ODF est gĂ©rĂ© par le consortium OASIS, pour Organization for the Advancement of Structured Information Standards (Organisation pour l’avancement des normes d’informations structurĂ©es).

OASIS est une structure Ă  but non-lucratif autorisĂ©e par l’ISO (International Standard Organization, l’organisation dont l’objectif social est l’élaboration et la publication de normes mondiales de produits et services), Ă  publier des standards dont les spĂ©cifications sont publiquement disponibles sans passer par les fourches caudines de l’ISO. Le consortium a Ă©tĂ© crĂ©Ă© en 1993, il s’appelait Ă  l’époque SGML Open. Il Ă©tait constituĂ© de fournisseurs et d’utilisateurs d’outils informatique, son but Ă©tait le dĂ©veloppement de lignes directrices pour l’interopĂ©rabilitĂ© de logiciels utilisant le langage de balisage SGML. Il change de nom en 1998 pour devenir OASIS qui reflĂšte mieux les travaux du consortium. Parmi les cent-seize membres (l’adhĂ©sion est payante) : Ă  peu prĂšs toutes les grandes entreprises de l’informatique amĂ©ricaine et quelques chinoises ou japonaises (Alibaba, Hitachi, Huawei, Fujitsu
) mais aussi des organismes tels que le Parlement europĂ©en, l’Office des publications europĂ©ennes, le MinistĂšre français de l’IntĂ©rieur, le FBI, des universitĂ©s (Brno, Milan, Luxembourg, Oslo, Westminster, MIT, etc.), la Biblioteca del Congreso Nacional du Chili, TheDocumentFoundation, etc. Il existe en outre une fondation europĂ©enne Ă  but non lucratif OASIS Open Europe (en) affiliĂ©e au consortium et dont l’objectif est de soutenir le rĂŽle de l’Europe dans le dĂ©veloppement de l’open source et des normes ouvertes.

La version 1.0 du format OpenDocument (ODF) pour les applications bureautiques a Ă©tĂ© approuvĂ©e le 1er mai 2005 Ă  l’unanimitĂ© des soixante-dix-huit membres ayant votĂ©. La version 1.0 des directives pour l’accessibilitĂ© du format ODF, quant Ă  elle a Ă©tĂ© approuvĂ©e Ă  l’unanimitĂ© des onze membres ayant votĂ© le 1á”‰Êł mai 2008. La derniĂšre version du format ODF est la 1.3 (en), approuvĂ©e le 27 avril 2021. LibreOffice l’a intĂ©grĂ© Ă  partir des versions 7, pratiquement Ă  la sortie de la norme, c’est le format d’enregistrement par dĂ©faut. La norme ODF 1.3 a mis notamment l’accent sur la signature et le chiffrage des documents.

Le format ODF est basĂ© sur le XML. C’est un fichier « compressĂ© Â» qui en contient plusieurs6 :

  • le fichier meta.xml contient des informations au sujet du document (l’auteur, la date de la derniĂšre sauvegarde),
  • le fichier styles.xml contient les styles utilisĂ©s dans le document,
  • le fichier content.xml contient le contenu principal du document (texte, tableaux, Ă©lĂ©ments graphiques
),
  • le fichier settings.xml, en gĂ©nĂ©ral spĂ©cifique Ă  une application, contient certains paramĂštres tels que l’imprimante sĂ©lectionnĂ©e
,
  • les fichiers META-INF/manifest.xml contiennent des informations supplĂ©mentaires sur les autres fichiers (comme le type MIME ou le chiffrement).

Plus des dossiers : Pictures, Thumbnails, etc.

Ce format est le format natif notamment de LibreOffice, OpenOffice7, Calligra, Collabora Online, GoogleDocs, Zoho, il est aussi ouvert, travaillé et enregistré par des logiciels tels que MsOffice depuis 2007 (2016 pour la version pour MacOS), Office365, OnlyOffice ou AbiWord (listes non limitatives).

L’une de ses trĂšs grandes forces est, qu’à l’instar du format HTML, toute la mise en forme repose sur des styles. Ce qui rend trĂšs Ă©volutifs et adaptables les documents au format ODT (pour peu qu’ils le soient avec un logiciel qui le gĂšre bien).

En France, le format ODF est le seul format bureautique recommandĂ© par le rĂ©fĂ©rentiel gĂ©nĂ©ral d’interopĂ©rabilitĂ©. Le format ODT Ă©tant mentionnĂ© comme format Ă  privilĂ©gier par nombre d’administrations de par le monde.

Le format DOCX et son OOXML

L’annĂ©e 2007 est celle qui « rĂ©volutionne Â» la suite bureautique de Microsoft. En effet, la firme abandonne les vieux formats pour en adopter des nouveaux basĂ©s sur le XML d’oĂč le X de l’extension. Mais pas n’importe quel XML, le XML maison appelĂ© Office Open XML (OOXML pour faire court). Il est fort probable que, ce faisant, l’idĂ©e Ă©tait de court-circuiter le standard ODF. Microsoft a d’ailleurs livrĂ© une guerre fĂ©roce pour que son OOXML soit acceptĂ© par l’ISO en s’y reprenant Ă  deux fois. La norme, adoptĂ©e le 17 aout 2008, porte le numĂ©ro ISO/IEC DIS 29500. Il est possible (probable ?) Ă©galement que, Word Ă©tant ce qu’il est, se baser sur le XML de l’ODT aurait vraisemblablement nĂ©cessitĂ© un grand travail de refonte du logiciel. Il existe deux « variantes Â» de DOCX, le premier, celui de la version 2007 et celui de 2010. En effet, la norme ISO/IEC DIS 29500 n’est pas compatible avec Office 2007.

Sur le plan technique, il est reprochĂ© Ă  l’OOXML sa complexitĂ© qui en rend difficile la mise en Ɠuvre. À tel point qu’il se dit que Microsoft lui-mĂȘme ne l’implĂ©mente pas correctement. La derniĂšre version d’OOXML est actuellement la rĂ©fĂ©rence ISO/IEC 29500-1:2016 (en) de novembre 2016 (elle fait 5024 pages).

Sur le plan juridique, le caractĂšre libre de la norme est flou, il en ressort une certaine instabilitĂ© sur ce plan. Avec les spĂ©cifications, Microsoft a distribuĂ© :

un document promettant de ne pas poursuivre les auteurs de l’utilisation d’Office Open XML dans un autre logiciel que ceux de Microsoft. Cette promesse de non-poursuite elle-mĂȘme laisse certains flous, notamment :
‱ s’appliquant Ă  la norme ECMA en l’état, s’applique-t-elle Ă  une Ă©ventuelle version finale de l’ISO ?
‱ s’applique-t-elle Ă  tous les brevets logiciels nĂ©cessaires Ă  la mise en Ɠuvre de la norme ?
‱ s’applique-t-elle Ă©galement aux extensions du format OOXML ?
La licence d’utilisation de OpenXML est incompatible avec les programmes sous la licence GPL.8

À l’instar des fichiers ODF, le DOCX est un fichier compressĂ© qui en contient plusieurs. On en trouvera l’anatomie (en) par exemple sur le site Office Open XML (en).9

Il est actuellement ouvert, voire travaillé et enregistré, de la plupart des suites bureautiques.

Des langages de balisages

Parler des formats de texte sans évoquer les langages de balisage serait assez inepte puisque les formats modernes sont basés dessus. Pour rappel, un langage de balisage est un langage servant à définir et à structurer les informations dans un document.

Il en existe de nombreux, mais on n’évoquera que ceux qui semblent les plus connus ou les plus utilisĂ©s.

TeX le grand ancien

TeX fait figure de grand ancien, puisque la premiĂšre version du langage de balisage date de 1978. Cela dit, on devrait peut-ĂȘtre plutĂŽt parler « d’écosystĂšme Â» car c’est Ă  la fois un format, le langage de balisage utilisĂ© par LaTeX et un logiciel libre de composition. TeX a Ă©tĂ© crĂ©Ă© par Donald E. Knuth, professeur Ă©mĂ©rite Ă  l’UniversitĂ© de Stanford et considĂ©rĂ© comme l’un des pionniers de l’algorithmique. L’objectif de Donald E. Knuth en crĂ©ant TeX Ă©tait d’avoir des documents scientifiques et techniques de bonne qualitĂ© typographique, ce qu’il n’était pas possible d’obtenir avec les logiciels d’édition de l’époque. Le principe du langage TeX est la sĂ©paration du contenu de et la forme, ce qui Ă©tait innovant.

TeX est complĂ©tĂ© par LaTeX qui est « un ensemble de macros permettant de faire beaucoup de choses Â»10, et, bien sĂ»r, par le langage de composition de polices vectorielles Metafont. LaTeX a Ă©tĂ© dĂ©veloppĂ© par Leslie Lamport. La premiĂšre version est sortie en 1983.

Ce n’est pas un traitement de texte, l’idĂ©e Ă©tant que l’auteur ou l’autrice :

puisse mettre son Ă©nergie Ă  rĂ©diger le contenu sans ĂȘtre distrait par l’apparence de son document. En Ă©crivant en langage LaTeX, l’utilisateur doit donc dĂ©finir sĂ©mantiquement le contenu de son document plutĂŽt que visuellement. DMS, UniversitĂ© de MontrĂ©al.

On peut générer des fichiers TeX soit directement avec un éditeur de texte, soit avec des logiciels comme Lyx ou encore Overleaf qui est un éditeur LaTeX en ligne et collaboratif. Mais, pour en voir le rendu, il faudra soit faire un PDF, si on utilise un éditeur de texte, soit passer par le visualiseur, quand il existe, dans un logiciel tel que Lyx.

À ma connaissance la plupart des suites bureautiques ne l’acceptent pas, pas plus que Calibre d’ailleurs.

La derniÚre version de TeX, 3,143.141592653 date de janvier 2021. Le format est géré par le groupe des utilisateurs de TeX ou TUG (en). LaTeX quant à lui est géré par le projet LaTeX (en). La derniÚre version date de juin 2024.

Le SGML et ses petits

Le SGML, S pour Standard, G pour Generalized, M pour Markup et L pour Langage (langage de balisage gĂ©nĂ©ralisĂ© normalisĂ©) possĂšde le numĂ©ro de norme ISO 8879:1986. 1986 Ă©tant l’annĂ©e d’obtention du numĂ©ro ISO, la premiĂšre version du SGML Ă©tant sortie en 1978. Produit de l’industrie de l’édition, il a adoptĂ©, comme TeX, le principe de la sĂ©paration complĂšte du fond et de la forme. C’est, en fait, une norme permettant de dĂ©finir des langages de balisage gĂ©nĂ©riques pour des documents. SGML sera, dĂšs 1984, le format standard des publications officielles des CommunautĂ©s europĂ©ennes.

Ce qui caractĂ©rise un document SGML : il doit possĂ©der une « dĂ©finition du type de document Â» (DTD ou doctype en anglais). Cette DTD sert Ă  indiquer la structure du document. Et, Ă©videmment le systĂšme de balises que l’on va retrouver chez les membres de la famille.

HTML, sans lequel, possiblement, LinuxFr.org ne serait pas

Le langage HTML, pour HyperText Markup Language, est un langage de balisage pour l’hypertexte, cette fonctionnalitĂ© qui permet de naviguer sur internet. Il a Ă©tĂ© crĂ©Ă©, ou plutĂŽt lancĂ© au dĂ©but des annĂ©es 1990 par Tim Berners-Lee qui en a profitĂ© pour concevoir au passage la forme des adresses Web que nous connaissons (les URL) et le protocole de communication HTTP.

Le format HTML est gĂ©rĂ© par le World Wide Web Consortium (W3C) fondĂ© en 1994 par Tim Berners-Lee. L’objectif du W3C : Ă©mettre des normes et des recommandations pour le web.

La premiĂšre version de HTML Ă©tait trĂšs limitĂ©e : cela n’allait pas plus loin que la structure du texte avec les balises de titres et de listes, et les liens hypertextes.

En 1999, sort la version 4 (en) qui deviendra une norme ISO en 2000. La norme HTML 4 supporte pleinement le langage de mise en forme CSS (Cascading Style Sheet ou feuilles de style en cascade). Le HTML 4 existe en trois variantes, si on peut dire :

  • le HTML strict qui exclut les Ă©lĂ©ments de « prĂ©sentation Â» puisque qu’il revient au CSS de faire le travail de mise en forme,
  • le HTML transitionnel accepte quelques balises de prĂ©sentation obsolĂštes hĂ©ritĂ©es du HTML 3,
  • frameset qui normalise les jeux de cadre, les «frames Â».

La derniĂšre version de HTML est le HTML 5 publiĂ© en 2012. Il ne remplace pas le HTML 4.1 : les deux standards coexistent. HTML 5 apporte en plus des fonctionnalitĂ©s d’animations complexes, multimĂ©dia avec de l’audio et de la vidĂ©o, etc. jusque-lĂ  assurĂ©es notamment par le logiciel privateur Flash. HTML 5 s’est aussi Ă©loignĂ© du SGML.

XML le futur du HTML

C’est, en tout cas, ainsi que s’intitulait en 1998 un article (en) de Todd Freter (en) directeur de programme chez Sun Microsystem. DĂ©fini comme un sous-ensemble de SGML, « le XML a Ă©tĂ© conçu pour ĂȘtre facile Ă  mettre en Ɠuvre et interopĂ©rable avec SGML et HTML Â»11. De fait les syntaxes HTML et XML sont les mĂȘmes. L’une des diffĂ©rences fondamentales entre les deux Ă©tait, au dĂ©part, qu’il Ă©tait possible de dĂ©finir ses propres balises avec XML, mais pas avec HTML. Un comportement qui a Ă©tĂ© modifiĂ© en 2014 pour HTML avec les Web Components (en).

XML (eXtensible Markup Language) a Ă©tĂ© dĂ©veloppĂ© par un groupe de travail pilotĂ© par le W3C Ă  partir de 1996, avec, comme prĂ©sident, Jon Bosak (en) de Sun Microsystems. Les objectifs, Ă  sa sortie en 1998, Ă©taient les suivants selon la Recommandation du W3C du 10 fĂ©vrier 1998 :

  1. XML devrait pouvoir ĂȘtre utilisĂ© sans difficultĂ© sur Internet ;
  2. XML devrait soutenir une grande variĂ©tĂ© d’applications ;
  3. XML devra ĂȘtre compatible avec SGML ;
  4. Il devrait ĂȘtre facile d’écrire des programmes traitant les documents XML ;
  5. Le nombre d’options dans XML doit ĂȘtre rĂ©duit au minimum, idĂ©alement Ă  aucune ;
  6. Les documents XML devraient ĂȘtre lisibles par l’homme et raisonnablement clairs ;
  7. La conception de XML devrait ĂȘtre prĂ©parĂ©e rapidement ;
  8. La conception de XML sera formelle et concise ;
  9. Il devrait ĂȘtre facile de crĂ©er des documents XML ;
  10. La concision dans le balisage de XML est de peu d’importance.

Qu’en est-il aujourd’hui de ces principes ?

En fonction de la syntaxe XML du document, s’il est transmis avec le type MIME text/html, il est vu par les navigateurs comme un fichier HTML. En revanche, s’il est transmis avec un type XML MIME, il sera traitĂ© comme un document XML. Dans le deuxiĂšme cas de figure, des erreurs de syntaxe mĂȘme mineures empĂȘcheront un document Ă©tiquetĂ© XML d’ĂȘtre correctement restituĂ© alors qu’elles seraient ignorĂ©es dans la syntaxe HTML. L’objectif 1, n’est donc pas atteint et XML ne remplace dĂ©finitivement pas HTML. En revanche, XML est effectivement trĂšs utilisĂ© : outre les formats ODF et OOXML, c’est le langage sur lequel est basĂ© le format SVG (Scalable Vector Graphics, ou, en français graphique vectoriel adaptable) et c’est le format de rĂ©fĂ©rence pour l’échange de donnĂ©es. Mais, pour ce qui est de la lisibilitĂ© du format par des yeux humains, elle n’est pas toujours au rendez-vous.

XML est maintenu par le W3C. La derniÚre version (en) porte le numéro 1.1, elle est sortie le 29 septembre 2006.

Langages de balisage léger

Les langages de balisage lĂ©ger sont conçus pour ĂȘtre facile Ă  utiliser avec un Ă©diteur de texte. La syntaxe en est simple.

Le MarkDown, peut-ĂȘtre le plus connu d’entre eux, a Ă©tĂ© crĂ©Ă© en 2004 par le programmeur amĂ©ricain John Gruber; aidĂ© d’Aaron Swartz. Il n’a pas subi d’évolution importante depuis. En revanche, il en existe des variantes. John Gruber le dĂ©finit comme :

un outil de conversion de texte en HTML destinĂ© Ă  la rĂ©daction Web. Markdown vous permet d’écrire en utilisant un format de texte brut facile Ă  lire et Ă  Ă©crire, puis de le convertir en XHTML (ou HTML) structurellement valide. Daring Fireball (en).

Pour en savoir plus sur la syntaxe MarkDown, on peut, trÚs profitablement, se référer au wiki de LinuxFr.org.

Il en existe d’autres comme txt2tags crĂ©Ă© en 2001 ou encore AsciiDoc (en) dont la premiĂšre version date de 2002. Txt2tags (en) est un logiciel gĂ©nĂ©rateur de documents Ă©crit en Python et qui utilise un langage de balisage lĂ©ger comme source. Quant Ă  AsciiDoc, il se veut un langage particuliĂšrement adaptĂ© Ă  la rĂ©daction de documentations techniques. Il existe aussi le langage de balisage du CMS (gestion de contenu web) SPIP, nĂ© en 2001.

L’archivage et la conservation des textes

Il est ici, Ă©videmment question des formats d’archivage des textes, avec ou sans images, tableaux, formules de mathĂ©matiques, etc. Avant d’aborder cette question : une dĂ©finition s’impose. Il ne s’agit pas des formats dits d’archives de type .zip, .rar, .tar etc. Archiver les textes c’est, dans ce contexte, pouvoir les conserver et y accĂ©der sans avoir besoin de l’application qui a servi Ă  les gĂ©nĂ©rer. Et ce soit en conservant la mise en page d’origine, comme pour le PDF, soit en laissant Ă  l’outil de lecture la main pour la mise en page. Chaque format a ses spĂ©cificitĂ©s. Mais de toute façon :

un bon format de prĂ©servation, c’est un bon format tout court. Outils open source nombreux, mĂ©tadonnĂ©es internes bien foutues, dĂ©marche collective de normalisation
 Bertrand Caron, archiviste numĂ©rique Ă  la BnF, janvier 2024.

EPUB

L’EPUB, pour Electronic PUBlication, est un format de document numĂ©rique qui n’est pas destinĂ© Ă  l’impression. L’une de ses spĂ©cificitĂ©s est, notamment, de laisser Ă  l’utilisatrice ou l’utilisateur le choix du rendu du fichier. Il existe, toutefois, un mode « fixed-layout Â» qui fige la mise en forme de l’EPUB. Ce mode a Ă©tĂ© conçu pour les publications qui nĂ©cessitent que la mise en page soit respectĂ©e, comme certaines publications scolaires. Mais cela rĂ©clame une mise en page adaptĂ©e aux tailles des Ă©crans des appareils de lecture.

EPUB a succĂ©dĂ© au format OeB (Open eBook). Au dĂ©part, gĂ©rĂ© par l’International Digital Publishing Forum (IDPF) qui sera intĂ©grĂ© au W3C en 2017. La premiĂšre version sort en 2007, suivie, en 2010 par l’EPUB2 et, en 2011, par l’EPUB3. Il a Ă©tĂ© trĂšs vite adoptĂ©. Aujourd’hui les deux versions coexistent, l’EPUB2 prĂ©dominant encore sur l’EPUB3. Le format est basĂ© sur XML et sur HTML. Un fichier EPUB est un fichier zip qui contient plusieurs fichiers et rĂ©pertoires dont un dossier META-INF qui contient un fichier container.xml, ce dossier n’apparait pas quand on gĂ©nĂšre un fichier Ă  partir de Sigil d’ailleurs. Les fichiers de texte sont au format XHTML.

Qu’apporte l’EPUB3 par rapport Ă  l’EPUB2 ? Les Ă©volutions concernent principalement l’accessibilitĂ© et l’intĂ©gration de contenus audio ou vidĂ©o. Ainsi les formules de mathĂ©matiques qui, en EPUB2 sont converties en images, donc illisibles sans yeux, sont gardĂ©es en tant que telles avec EPUB3. Les liseuses ne supportent pas forcĂ©ment toutes les fonctions, notamment multimĂ©dias.

Il est possible d’y ajouter diffĂ©rents types de marquage ou de verrous : les DRM Adobe, chĂšres et complexes, les DRM LCP, trĂšs pratiques pour le prĂȘt des livres en bibliothĂšque ou encore des filigranes qui n’imposent aucune limitation aux EPUB. L’apposition d’une DRM a un EPUB est, en principe, une dĂ©cision Ă©ditoriale. Il semble nĂ©anmoins que certaines librairies Ă©prouvent le besoin d’en rajouter. Il convient donc d’ĂȘtre vigilant quand on achĂšte un EPUB si on veut Ă©viter d’avoir un livre avec une DRM. Le livre numĂ©rique reprĂ©sente 10,1 % du chiffre d’affaires de l’édition française en 2023, ce qui inclut les EPUB et les PDF.

La version la plus rĂ©cente du format EPUB et l’EPUB3.3 sortie en mai 2023. Elle est devenue une Recommandation W3C (en).

PDF

L’objectif du format PDF a contrario de celui de l’EPUB est le respect de la mise en page du fichier qui a servi Ă  le gĂ©nĂ©rer. De ce fait, il n’est pas trĂšs lisible sur une liseuse ou sur un tĂ©lĂ©phone.

La naissance du PDF remonte Ă  1991 et elle est due Ă  John Warnock cofondateur d’Adobe. La premiĂšre version de ce format est sortie en 1992. À l’époque c’était assez fou de pouvoir accĂ©der Ă  un fichier avec sa mise en page d’origine sans qu’il soit nĂ©cessaire d’avoir l’application qui avait servi Ă  le gĂ©nĂ©rer. Il deviendra un standard ouvert gĂ©rĂ© par l’ISO en 2008, numĂ©ro ISO 32000.

En fait il n’existe pas un, mais plusieurs formats PDF dont :

  • PDF/A pour l’archivage,
  • PDF/E pour les documents techniques,
  • PDF/X pour l’impression,
  • PDF/UA pour l’accessibilitĂ© universelle,
  • ou encore des formulaires FDF.

La version PDF/A-3 permet d’incorporer le fichier d’origine au PDF : dans l’export PDF de LibreOffice, cela s’appelle un PDF hybride. Cela donne un fichier qui pĂšse deux fois plus lourd, grosso modo, minus le poids des polices embarquĂ©es, que le PDF « simple ». Et, si on ouvre le PDF Ă  partir de l’application qui a servi Ă  le crĂ©er, ou si on clique sur « Cliquer pour les afficher » (ou Ă©quivalent) dans un lecteur de PDF qui le permet, ici Okular, on ouvre le fichier d’origine. Mais, Ă©videmment, quand on le modifie ça ne modifie pas le PDF. Il faut soit gĂ©nĂ©rer un nouveau PDF soit l’écraser.

À savoir, il n’y a que quatorze polices standard PDF, en fait seulement cinq fontes diffĂ©rentes avec leurs variantes, gras, italiques : Courrier, Helvetica, Times Roman, Symbol et Zapf Dingbats. Il est donc trĂšs important, quand on gĂ©nĂšre un PDF d’incorporer les polices au fichier Ă  condition que cela soit permis par la licence des polices. Pour ne pas alourdir le fichier, il est suggĂ©rĂ© de n’incorporer que les polices utilisĂ©es dans le document. Avec LibreOffice, vous pouvez configurer cela soit en gĂ©nĂ©rant le PDF, soit, de prĂ©fĂ©rence, la premiĂšre fois que vous enregistrez le fichier, c’est dans l’onglet « Police Â» des propriĂ©tĂ©s dudit fichier. Si vous utilisez un modĂšle, la case peut avoir Ă©tĂ© cochĂ©e dans le modĂšle et il ne sera pas nĂ©cessaire de le faire.

Kurinto une histoire de chasses

La chasse, en typographie, est l’encombrement d’un caractĂšre : largeur plus approche (espace autour). Pour un mĂȘme corps de caractĂšre (sa hauteur), elle peut varier selon les polices, ce qui, Ă©videmment, peut changer, voire, chambouler, complĂštement un document crĂ©Ă© avec une police et pour lequel on a changĂ© la typographie. La collection de polices Kurinto (en) a Ă©tĂ© dessinĂ©e Ă  la fois pour couvrir un large Ă©ventail de langues et de systĂšmes d’écriture et dans l’optique de pouvoir remplapcer les polices Microsoft avec des glyphes qui ont la mĂȘme chasse.

Si vous cherchez des polices au dessin Ă©lĂ©gant pour remplacer des fontes comme le couple Arial/Times New Roman, avoir aussi des typographies Ă  chasse fixe ou lĂ©gĂšrement fantaisie, l’ensemble de polices Kurinto est un bon choix qui offre en prime une bonne cohĂ©rence entre les diverses polices. Elles sont sous licence SIL.

DĂ©clinaison des noms des polices Kurinto permettant de voir leurs chasses respectives

Les textes et documents qui ont servi Ă  alimenter cette dĂ©pĂȘche

Les rĂ©fĂ©rences sont donnĂ©es Ă  peu prĂšs dans leur ordre d’apparition dans le texte. Ils sont tous accessibles en ligne et, de prĂ©fĂ©rence, en français. Volontairement, il y a un minimum de rĂ©fĂ©rences Ă  WikipĂ©dia. Ce n’est pas tout Ă  fait exhaustif, mais ça vous fera dĂ©jĂ  pas mal de lecture. Par exemple, je n’ai pas citĂ© le blog de StĂ©phane Bortzmeyer qui m’a bien servi Ă  dĂ©fricher le terrain.

Les formats matériels

  • Sur les rouleaux notamment leur rangement. Le site Rotulus est consacrĂ© aux rouleaux mĂ©diĂ©vaux.
  • Guide pratique du compositeur d’imprimerie, ThĂ©otiste LefĂšvre, un guide considĂ©rĂ© longtemps comme une, si pas LA, rĂ©fĂ©rence en matiĂšre de typographie et d’imprimerie. Paru en 1855, il fera l’objet de multiples Ă©ditions, les derniĂšres en 2000. Aujourd’hui encore, ses pages sur la typographie peuvent servir de rĂ©fĂ©rences. ThĂ©otiste LefĂšvre Ă©tait le fils d’un apprenti compositeur. Il commencera comme ouvrier en imprimerie pour devenir une figure clĂ© du secteur. Sa fille deviendra correctrice. La version du guide donnĂ©e en tĂ©lĂ©chargement sur le site archive.org est d’assez mauvaise qualitĂ©. De toute façon, avec le texte brut ou la piĂštre qualitĂ© de la reconnaissance des caractĂšres on perd absolument tout ce qui fait l’intĂ©rĂȘt du livre qui donne beaucoup d’exemples.
  • Sur les formats A. Le site donne les dimensions des feuilles de papier en centimĂštres et en pixels.

Les formats numériques (texte et archivage)

La police

Postambule

La prochaine dĂ©pĂȘche de la sĂ©rie devrait ĂȘtre moins longue (pas difficile) et portera sur le code avant Unicode. Elle parlera donc aussi de football. Comme toujours, vos suggestions sont apprĂ©ciĂ©es.


  1. MOLINIER A. « Les manuscrits et les miniatures Â», BnF Gallica: Librairie Hachette, 1892. Disponible sur : BnF Gallica en PDF ou en texte brut. â†©

  2. L’exemple est reproduit Ă  partir du petit guide de Charles-Lucien Huard La Typographie↩

  3. Pour rappel, un RFC (Request For Comments) est un document qui dĂ©finit les normes techniques sur les lesquelles s’appuient le rĂ©seau Internet↩

  4. ANDRÉ Jacques, « CaractĂšres, codage et normalization. De Chappe Ă  Unicode Â», Document numĂ©rique, 2002/3-4 (Vol. 6), p. 13-49. DOI : 10.3166/dn.6.3-4.13-49.↩

  5. Les formats de texte, archives. â†©

  6. Wiki de LibreOffice↩

  7. À noter qu’OpenOffice, compte tenu de son absence d’évolution ne supporte pas la norme ODF 1.3↩

  8. Office Open XML – DĂ©finition↩

  9. Pour tout dire, mon gestionnaire d’archives Engrampa est incapable d’ouvrir un fichier .docx et l’explication du site, qui n’est pas un site officiel, me semble trĂšs touffue. â†©

  10. LittĂ©ralement : « set of macros to let you do many things Â».What is the difference between TeX and LaTeX? (en)↩

  11. Langage de balisage extensible (XML) 1.0, Recommandation du W3C, 10 fĂ©vrier 1998. â†©

Commentaires : voir le flux Atom ouvrir dans le navigateur

Les langues peu documentées et le libre : quelques enjeux scientifiques

Comme beaucoup de domaines scientifiques, la documentation de la diversitĂ© linguistique entretient une relation forte avec les mondes du Libre. Dans cette dĂ©pĂȘche, je vous propose de dĂ©couvrir ce domaine Ă  travers la prĂ©sentation de plusieurs logiciels et ressources libres ou en accĂšs ouvert. La documentation des langues Ă©tant un thĂšme peu courant sur LinuxFr.org, on commencera par une prĂ©sentation de cette problĂ©matique. Nous continuerons par une description des deux ressources principales existantes pour cataloguer et se repĂ©rer au sein de cette diversitĂ© linguistique. Je parlerai ensuite d’ELAN et de FLEX, deux logiciels utilisĂ©s pour annoter des enregistrements audio-visuels, une Ă©tape clef dans l’analyse linguistique, et qui permet le partage et la rĂ©utilisation de ces enregistrements. Enfin, aprĂšs un court passage sur la question de l’archivage, je prĂ©senterai deux compilations de corpus de documentation en accĂšs libre, une pratique rĂ©cente qui permet de nouveaux questionnements quantitatifs sur les langues orales peu documentĂ©es, et qui contribue Ă©galement Ă  la transparence et la traçabilitĂ© des analyses linguistiques.

    Sommaire

    L’étude des langues Ă  travers le monde

    Actuellement, environ 7000 langues ont Ă©tĂ© recensĂ©es Ă  travers le monde. Ce chiffre ne peut ĂȘtre qu’une approximation car, il n’y a pas de consensus sur la dĂ©finition de ce qu’est une langue. Une difficultĂ© par exemple est de dĂ©finir Ă  quel moment une langue est distincte d’une autre. Lorsqu’il y a variation, mais intercomprĂ©hension, de nombreux linguistes s’accordent Ă  dire qu’il s’agit alors de dialectes d’une mĂȘme langue, et donc, lorsqu’il n’y a pas intercomprĂ©hension, alors il s’agit diffĂ©rentes langues. Cette perspective considĂšre que tout le monde parle un dialecte (que ce soit celui de rĂ©fĂ©rence, ou un plus rĂ©gional comme celui de Paris, de Marseille, du QuĂ©bec), la langue n’étant qu’une abstraction permettant de regrouper les diverses pratiques langagiĂšres. En ce qui concerne l’intercomprĂ©hension, ce critĂšre n’est malheureusement pas absolu car elle peut varier selon les personnes et leur parcours personnel. Et lorsqu’on considĂšre l’évolution d’une langue Ă  travers le temps, sa diachronie, dĂ©finir ce qu’est une mĂȘme langue Ă  travers ses Ă©volutions temporelles se complexifie d’autant plus.

    Si certaines langues ont Ă©mergĂ© rĂ©cemment, on pense assez souvent aux langues dites crĂ©oles (le Bichelamar, les crĂ©oles malais, Ă  Madagascar ou au Cap Vert), ou Ă©galement lorsque certains dialectes se distinguent suffisamment pour ne plus ĂȘtre intercomprĂ©hensibles, la tendance actuelle est surtout Ă  la disparition massive des langues. Cette disparition est souvent rapportĂ©e Ă  travers la mort des derniers locuteurs et locutrices, on peut aussi considĂ©rer qu’une langue meurt lorsqu’elle n’est plus parlĂ©e d’une part, et qu’elle disparait si elle n’est pas documentĂ©e. Si certains aujourd’hui se questionnent sur la corrĂ©lation entre la diversitĂ© culturelle et la diversitĂ© Ă©cologique, il est Ă©vident que la disparition des langues correspond Ă©galement Ă  des inĂ©galitĂ©s et des tensions socio-politiques.

    Bref, la documentation des langues, c’est un sujet actuel, et d’un point de vue scientifique, la perte de cette diversitĂ© aura de tristes consĂ©quences sur la connaissance des langues et de l’univers des possibles languagiers, encore souvent sous-estimĂ© :

    • l’article The myth of language universals : Language diversity and its importance for cognitive science d’Evans donne un bel aperçu du dĂ©bat qui existe entre les linguistes fonctionnalistes, notamment les approches gĂ©nĂ©rativistes telles que proposĂ©es par Noam Chomsky. Pourtant, rĂ©guliĂšrement Ă  travers la documentation des langues, des catĂ©gories cognitives jusque-lĂ  non-soupçonnĂ©s, voire rejetĂ©es car non-observĂ©es, sont identifiĂ©s. Nous nous sommes rendu compte rĂ©cemment qu’un quart des langues grammaticalisaient l’emploi d’évidentiels, ces morphĂšmes qui indiquent la source d’une information. Au niveau de l’odorat, des neurologistes pensaient que si nous n’avions pas de termes abstraits pour catĂ©goriser les odeurs, c’était liĂ© au fait que notre cerveau ne le permettait pas. La description des termes liĂ©s Ă  l’odorat en Jahai (par ici si vous souhaitez Ă©couter du Jahai), qui possĂšde donc des termes spĂ©cifiques pour catĂ©goriser les odeurs, a montrĂ© le contraire.
    • accĂ©der Ă  des facettes non-matĂ©rielles de la prĂ©histoire, non-accessibles Ă  travers l’archĂ©ologie. La documentation des langues nous permet d’accĂ©der, dans une certaine mesure, aux termes et aux concepts utilisĂ©s durant les diffĂ©rentes prĂ©histoires Ă  travers la comparaison des langues et de leurs structures. Les travaux sont nombreux et anciens en ce qui concerne les langues europĂ©ennes, mais les recherches en linguistique historique (ou comparĂ©e) portent Ă©galement sur toutes les langues connues Ă  travers le monde. Les chercheurs et chercheuses de ce domaine collaborent assez rĂ©guliĂšrement avec les archĂ©ologues pour retracer les mouvements de population.
    • mettre au point des systĂšmes d’écriture pour les langues orales, ou simplement des traitements de texte adaptĂ© aux Ă©critures existantes. Parfois, certaines personnes savent Ă©crire dans la ou les langues officielles du pays, mais ne connaissent pas d’écriture pour une de leurs langues rĂ©gionales. C’est ainsi souvent le cas pour les personnes au Vanuatu. Le pays reconnait mĂȘme le droit d’enseigner les langues locales Ă  l’école, mais il n’existe que trĂšs rarement des ressources (que ce soit les personnes ou les manuels) pour cela. Parfois, les gens ne connaissent tout simplement pas de systĂšme d’écriture.

    Quelques concepts et termes liés à la documentation des langues

    Comme tout domaine de recherche, la terminologie et les concepts linguistiques Ă©voluent au grĂ© des discussions et peut se distinguer de l’usage attendu des termes. Une Ă©tape importante dans la documentation d’une langue est la production d’une grammaire dĂ©crivant les structures linguistiques de cette langue. De nombreux linguistes estiment alors qu’on peut dire que cette langue est dĂ©crite. Il ne faut pas se tromper cependant, aucun linguiste ne considĂšre qu’une langue est alors complĂštement dĂ©crite. Une grammaire ne contient que quelques aspects estimĂ©s actuellement essentielles par les linguistes de terrain. Ces points sont, le plus souvent, une description du systĂšme phonologique d’une langue (c’est-Ă -dire comment les sons d’une langue sont organisĂ©s les uns vis-Ă -vis des autres), des morphĂšmes et des processus morphologiques associĂ©s (la conjugaison, l’expression de la possession, les dĂ©clinaisons, les genres, les classifications, etc.) d’une langue et souvent un dĂ©but de description des processus syntaxiques. Il existe de nombreuses approches pour dĂ©crire les faits linguistiques, et la description d’une langue se fait souvent en dialogue avec les pratiques et terminologies qui ont Ă©tĂ© employĂ©es dans l'aire linguistique concernĂ©e.

    Depuis l’article Documentary and descriptive linguistics de Nicholaus Himmelman, qui a promu la distinction entre la documentation linguistique et la description linguistique, on accorde beaucoup plus d’importance Ă  la production d’un corpus d’enregistrements annotĂ©s. On dit alors d’une langue qu’elle est documentĂ©e si des enregistrements annotĂ©s, de prĂ©fĂ©rences audio-visuels, de cette langue existe. Enfin, il existe la problĂ©matique de l’outillage d’une langue, c’est-Ă -dire si ses locuteurs et locutrices ont accĂšs ou non aux outils informatisĂ©s, du traitement texte aux dictionnaires informatisĂ©s en passant par la reconnaissance vocale, la transcription automatique, voire aujourd’hui aux modĂšles de langues et autres ressources nĂ©cessitant des corpus beaucoup plus grands.

    Les catalogues et base de donnĂ©es pour l’identification des langues

    Une problĂ©matique rĂ©currente dans le domaine des langues est de clairement identifier la langue sur laquelle on travaille. Cependant, identifier une langue, ce qui relĂšve ou non de cette langue, oĂč elle est parlĂ©e, est l’enjeu de nombreux dĂ©bats, souvent politique, et n’est pas une tĂąche simple. Quoi qu’il en soit, il existe des ressources, bases de donnĂ©es, qui proposent d’associer Ă  des noms de langues, endonymes ou exonymes, des codes pour rendre leur identification univoque.

    L’Ethnologue et l’ISO 639 : une norme gĂ©rĂ©e par le Summer Institute of Linguistics (SIL)

    Ethnologue, Languages of the World, ou plus simplement l’Ethnologue, est une base de donnĂ©es dĂ©veloppĂ©e et maintenu par l’organisme Ă©vangĂ©lique SIL, Summer Institute of Linguistic depuis 1951. Elle vise Ă  recenser toutes les langues du monde. L’ISO 639 est une norme issue de ce catalogue, Ă©galement maintenue par le SIL. Cet organisme est trĂšs actif au niveau de la documentation des langues et de la crĂ©ation d’écritures, car un de ses objectifs est de traduire la Bible dans toutes les langues du monde. Historiquement, l’Ethnologue est un des premiers catalogues dont l’objet a Ă©tĂ© de recenser les langues. Si cette norme semble le plus souvent suffisamment exhaustive pour les besoins liĂ©s Ă  l’informatique, aprĂšs tout, les internautes consultent Internet en trĂšs peu de langue, d’un point de vue linguistique, il possĂšde de nombreuses lacunes.

    La liste SIL des langues

    Un premier souci est la nĂ©cessitĂ© d’avoir une granularitĂ© plus importante que simplement la langue. Les linguistes travaillent sur des dialectes et des variĂ©tĂ©s, sur des familles de langues, et parfois ont travaillĂ© sur des distinctions qui n’ont parfois plus cours. Afin de pouvoir associer ces ressources Ă  des langues, ou des entitĂ©s linguistiques particuliĂšres, l’approche du SIL ne suffit pas.

    Enfin, la gestion du catalogue par un organisme religieux, donc avec parfois d’autres enjeux qu’uniquement scientifiques, le fait qu’il s’agisse d’une norme, donc la nĂ©cessitĂ© de collaborer avec l’ISO, et le fait que seule une partie du catalogue est accessible (il faut un abonnement pour accĂ©der Ă  la totalitĂ© de la ressource) rend la ressource moins pertinente pour de nombreux linguistes. Ces limites ont poussĂ© des linguistes Ă  proposer une ressource alternative.

    Glottocode : par le Max Planck Institute for Evolutionary Anthropology.

    Le projet Glottolog, initialement dĂ©veloppĂ© par Sebastian Nordhoff et Harald Hammarström, catalogue non seulement les langues du monde actuelles et passĂ©s, les familles de langues et leurs diffĂ©rentes branches, mais Ă©galement « les restes Â» des hypothĂšses de langues ou de regroupements historiques. Cette granularitĂ© permet de retrouver les documents associĂ©s Ă  chacun de ces objets. Si le catalogue est dĂ©diĂ© aux langues moins connues, les langues les plus centrales sont elles aussi rĂ©pertoriĂ©es. Il s’agit actuellement du catalogue mis en avant par les linguistes documentant les langues Ă  travers le monde. L’application Glottolog est disponible via la licence MIT.

    Aperçu du Glottolog à travers la liste des langues

    Si aux premiers abords, la liste des langues du Glottolog ne se distingue pas franchement de celle de l’ISO 639, c’est parce qu’il faut regarder plus en dĂ©tail pour comprendre les diffĂ©rences essentielles entre les deux ressources. Notons tout de mĂȘme la colonne « Child dialects » : « Dialectes enfants », et les champs vides au niveau des colonnes Top-level-family et pour la langue Abai Tubu-Abai Sembuak dans la colonne « ISO-639-3 Â». La colonne « Child dialects » reprĂ©sente une information qui n’est pas documentĂ© dans l’ISO 639, ce n’est pas son objet aprĂšs tout, mais qui est intĂ©ressant pour les linguistes travaillant sur cette langue, indiquant qu’un minimum de donnĂ©es sociolinguistiques sont disponibles. Les champs vides dans la colonne « Top-level family » sont dus au fait que ces langues sont des isolats, c’est-Ă -dire que la linguistique comparĂ©e ne trouve pas de correspondances significatives entre cette langue et d’autres langues qui permettraient de les regrouper en une famille. Enfin, le vide dans la colonne ISO-963-3 rĂ©vĂšle que la langue Abai Tubu-Abai Sembuak ne possĂšde pas d’entrĂ©e dĂ©diĂ©e dans la norme.

    Ainsi, lorsque l’on consulte une langue en particuliĂšre, ici le Nisvai, on voit apparaitre tous les embranchements existants associĂ©s Ă  cette langue :

    La langue Nisvai dans le Glottolog

    Cette vue de l’arborescence associĂ©e Ă  une langue particuliĂšre rĂ©vĂšle tous les embranchements auxquels peut⁻ĂȘtre associĂ©e une langue. Et Ă  chacun de ces embranchements, si des ressources linguistiques ont Ă©tĂ© identifiĂ©es par les mainteneurs du Glottolog, celles peuvent ĂȘtre proposĂ©es. Cette fonction permet aux linguistes de trouver des ressources sur les langues proches, non pas gĂ©ographiquement (mĂȘme si en pratique c’est le plus souvent le cas), mais d’un point de vue gĂ©nĂ©alogique.

    Les autres

    Il existe d’autres initiatives pour cataloguer les langues du monde, que ce soit la liste proposĂ©e par Wikipedia, la liste de la CIA ou encore The Linguasphere Register, mais ces initiatives ne sont pas aussi pertinentes du point de vue de la documentation des langues.

    Documenter les langues

    ELAN : des schĂ©mas d’annotation flexibles

    ELAN est un des logiciels libres (GPL3) les plus utilisĂ©s par les linguistes pour annoter des enregistrements audio et vidĂ©o. Il permet d’élaborer des structures d’annotation complexes permettant ainsi de rendre compte des analyses que les linguistes souhaitent associer Ă  un enregistrement. Ces couches d’annotation sont reliĂ©es les unes aux autres par des relations logiques, avec le plus souvent une couche de rĂ©fĂ©rence indexĂ©e temporellement Ă  l’enregistrement. Les annotations les plus courantes sont une transcription, une traduction et une annotation morphologique. Mais des nombreuses autres analyses peuvent ĂȘtre incluses, que ce soit les parties du discours, les rĂ©fĂ©rences et anaphores, l'animĂ©itĂ©, mais aussi les gestes, la structuration du discours, les signes pour les sourds et malentendants.

    Extrait d’une narration prĂ©sente dans DoReCo, et vue sur les diffĂ©rentes couches d’annotation pouvant ĂȘtre associĂ©s Ă  un enregistrement.

    Dans cette capture d’écran issu d’un texte de DoReCo retravaillĂ© par l’auteur, on aperçoit un extrait de quelques secondes d’une narration nisvaie. Il s’agit d’un des modes de visualisation des annotations proposĂ©es par ELAN pour reprĂ©senter les diffĂ©rentes couches d’annotation. Certaines de ces annotations ont Ă©tĂ© rĂ©alisĂ©es Ă  la main par l’auteur, d’autres ont Ă©tĂ© retravaillĂ©es par les algorithmes mis en place par DoReCo, puis manuellement corrigĂ©s. Enfin, il y a Ă©galement des couches d’annotation de la prosodie par le biais de SLAM+.

    FLEX : gĂ©rer un projet de documentation

    FLEX est un logiciel dĂ©veloppĂ© par le SIL et dont le code source est rĂ©gie par la licence LGPL 2.1. Il est conçu davantage pour coordonner l’ensemble d’une documentation linguistique, de la gestion des textes Ă  l’élaboration d’un dictionnaire, en passant par les analyses linguistiques. En revanche, il ne gĂšre pas rĂ©ellement l’annotation d’enregistrements. De nombreux linguistes l’utilisent en complĂ©ment d’ELAN.

    Si le logiciel est prometteur sur le papier, Ă  chaque fois que je l’ai essayĂ©, j’ai Ă©tĂ© rebutĂ© par son cĂŽtĂ© usine Ă  gaz, et surtout ses nombreux plantages notamment lorsqu’on essaie de gĂ©rer des fichiers multimĂ©dia avec. Et il en est de mĂȘme pour les autres logiciels dĂ©veloppĂ© par le SIL, tel que SayMore pour gĂ©rer les mĂ©tadonnĂ©es des enregistrements, WeSay pour faire des dictionnaires en collaboration avec les locuteurs et locutrices, Ă  chaque fois que je les ai essayĂ©s, enthousiasmĂ© par leurs fonctionnalitĂ©s, j’ai Ă©tĂ© déçu par le fait qu’ils ne fonctionnaient pas correctement sur mon ordinateur.

    Aperçu de Flex

    Cette capture d’écran illustre un des modes de saisie de FLEX, ici la vue tabulaire du lexique, qui permet de rentrer et gĂ©rer les dĂ©finitions des lexĂšmes (les entrĂ©es du dictionnaire) de maniĂšre assez rapide. On aperçoit dans la partie en haut Ă  gauche les autres modes d’édition du lexique, et en dessous les autres catĂ©gories liĂ©es Ă  la gestion d’un projet de documentation : Texts & Words, Grammar, Notebook et Lists. C’est Ă  travers la catĂ©gorie Texts & Words que l’on peut par exemple importer des textes transcrits, voire des fichiers ELAN pour peupler la base de donnĂ©es lexicales. Grammar permet de dĂ©crire les paradigmes grammaticaux, FLEX propose d’ailleurs quelques algorithmes qui aident Ă  la construction des paradigmes grammaticaux. Notebook et Lists servent Ă  la gestion du projet, le premier pour prendre des notes diverses, et le second pour crĂ©er des listes, en particulier des tĂąches encore Ă  rĂ©aliser.

    Et il y en a bien d’autres encore

    Il existe de nombreux autres logiciels similaires, tels qu’EXmaralda pour l’annotation des enregistrements (surtout utilisĂ© en Allemagne Ă  ma connaissance), Sonal (non libre, et dont le dĂ©veloppement semble arrĂȘtĂ©) qui est utilisĂ© par les sociologues et les anthropologues pour une annotation thĂ©matique de leurs entretiens, Anvil, qui semble intĂ©ressant mais que je n’ai jamais rĂ©ellement vu utilisĂ©, ou enfin le vieux Transcriber qui lui Ă©tait encore employĂ© par certains projets il y a quelques annĂ©es. Rentrer dans le dĂ©tail de tous ces logiciels dĂ©passerait le cadre d’une dĂ©pĂȘche comme celle-ci, mais Ă©numĂ©rer la diversitĂ© logicielle montre qu’il s’agit d’un secteur un minimum dynamique, d’ailleurs la question de la transcription et de l’annotation des enregistrements ne se limite pas du tout qu’au domaine de la documentation des langues du monde.

    L’archivage et la compilation de corpus

    Afin de conserver et partager les corpus et donnée enregistrées par les linguistes, chercheurs voire simplement les personnes ayant documenté une langue, il existe des archives, le plus souvent en ligne. Il y a en France par exemple Pangloss, géré par le LACITO, dédié aux langues orales, ou ORTOLANG, plus générique, pour les corpus de langue. En Océanie, il y a Paradisec. Il y a aussi ELAR, autrefois à Londres, et qui a déménagé récemment à Berlin récemment.

    Ces archives proposent diverses interfaces pour dĂ©poser, gĂ©rer et parfois mĂȘme consulter les enregistrements et les annotations rĂ©alisĂ©s par les linguistes et leurs collaborateurs·e·s. À noter que pour ces archives, Ortolang dĂ©crit son architecture logicielle qui repose sur des briques ouvertes, en revanche concernant Paradisec et Pangloss, bien que leur statuts soient sĂ»rement similaires du fait de la dĂ©marche gĂ©nĂ©rale de ses ingĂ©nieurs, je n’ai pas trouvĂ© de liens vers les logiciels employĂ©s. Quant Ă  ELAR, le logiciel utilisĂ© est Preservica, une solution propriĂ©taire qui, quand on a le malheur de devoir l’utiliser, fonctionne bien lentement.

    La compilation de corpus, si elle se rapproche de l’archivage en ce qu’il s’agit Ă©galement de recueillir, conserver et publier les corpus des linguistes, correspond Ă©galement Ă  une Ă©dition particuliĂšre de ces corpus. La compilation de corpus est rĂ©alisĂ© Ă  travers la mise en place de processus de qualitĂ©, d’annotations et de conventions particuliĂšres. Les deux compilations de corpus prĂ©sentĂ©es ici sont des compilations de corpus de documentation de langues orales. Les enregistrements ont Ă©tĂ© systĂ©matiquement annotĂ©s en utilisant une convention nommĂ©e les gloses interlinaires (le nom fait en fait rĂ©fĂ©rence Ă  la pratique ancienne d’insĂ©rer des explications entre les lignes d’un texte. En pratique aujourd’hui, ce n’est plus vraiment ce que font les linguistes, puisque le travail est informatisĂ© et les annotations ne sont plus entre les lignes, mais, le terme a cependant Ă©tĂ© conservĂ©).

    DoReCo

    DoReCo est une compilation de 52 corpus en accĂšs ouvert (NdR : auquelle l’auteur a contribuĂ©). La compilation a nĂ©cessitĂ© la mise en place de processus de qualitĂ© afin d’assurer la cohĂ©rence de l’ensemble et de fournir un certain nombre de garanties quant aux qualitĂ©s du corpus.

    Les langues dans DoReCo

    Une premiĂšre qualitĂ©, et l’une des originalitĂ©s de DoReCo, est de proposer un alignement temporel est trĂšs fin. La durĂ©e de chaque phonĂšme, de chaque morphĂšmes, de chaque mot (ici suivant la dĂ©finition de la personne Ă  l’origine du corpus, car la dĂ©finition d’un mot n’a rien d’une Ă©vidence) et enfin de chaque groupe de souffle est fournie. Une deuxiĂšme qualitĂ© a Ă©tĂ© de s’assurer que pour l’ensemble des retranscriptions, chacun des termes et des morphĂšmes possĂšde une glose, c’est-Ă -dire qu’ils possĂšdent une explication linguistique.

    La compilation totalise une centaine d’heures d’enregistrements audio, en grande majoritĂ© des narrations monologiques. À noter que les corpus de la compilation sont accĂšs ouvert, via une licence Creative Commons, mais que les droits d’utilisation varient d’un corpus Ă  l’autre. Les donnĂ©es sont accessibles aux formats d’ELAN : .eaf, de Praat : . TextGrid, TEI.xml, et.csv.

    Multi-CAST

    Multi-CAST est Ă©galement une compilation de 18 corpus de documentation de langues diffĂ©rentes. Les textes annotĂ©s via le logiciel ELAN. Contrairement Ă  DoReCo, l’alignement temporel des annotations n’est pas rĂ©alisĂ© de maniĂšre prĂ©cise, mais manuellement, par les personnes Ă  l’origine du corpus, Ă  l’échelle de l’énoncĂ©. Les textes sont Ă©galement en grande majoritĂ© des narrations monologiques. L’originalitĂ© de cette compilation de corpus vient du fait que les textes contiennent trois couches d’annotation particuliĂšres : GRAID, Grammatical Relations and Animacy in Discourse, (voir), puis RefIND et ISNRef (Referent Indexing in Natural Language Discourse, voir Schiborr et al. 2018).

    La page d’accueil de Multi-Cast

    Cette compilation de corpus est aussi disponible dans plusieurs formats. XML Ă©videmment, puisque c’est le format natif d’ELAN, mais aussi TSV et il existe Ă©galement un paquet pour R. Tout cela est disponible via la licence CC-BY 4.0.

    Conclusion

    J’espĂšre que vous avez apprĂ©ciĂ© cette introduction Ă  la documentation des langues Ă  travers les logiciels libres. L’idĂ©e est surtout d’attiser la curiositĂ©, car il reste Ă©videmment encore de nombreux aspects ou points Ă  discuter et Ă  approfondir. La prochaine fois que j’aborderai le thĂšme de la documentation linguistique ici, j’espĂšre que ça sera pour prĂ©senter mon application basĂ©e sur Django pour faire de la lexicographie.

    Il y a Ă©galement un autre sujet sur lequel j’aimerais bien Ă©changer ici prochainement : la question des licences des donnĂ©es collectĂ©s et la nĂ©gociation lorsque l’on travaille avec des personnes Ă  tradition orale. Si ouvrir l’accĂšs aux donnĂ©es de recherche et aux corpus peut sembler ĂȘtre une Ă©vidence pour certains, il ne faut pas oublier que souvent, les chercheurs et chercheuses de terrain collectent des informations personnelles, que la connaissance n’est pas forcĂ©ment considĂ©rĂ©e comme un bien public et les enregistrements, notamment les narrations, qui ne sont pas forcĂ©ment perçues comme des fictions, sont souvent couverts par des droits locaux. Enfin, ouvrir ses donnĂ©es de recherche, si c’est permettre Ă  d’autres de rĂ©utiliser ses donnĂ©es, requiert beaucoup de travail de la part des linguistes, c’est une tĂąche longue, ingrate et surtout peu valorisĂ©e. Alors qu’il est de plus en plus prĂ©caire d’ĂȘtre chercheur en sciences humaines, il est aussi difficile de demander Ă  ces chercheurs et chercheuses de consacrer une grande partie de leur temps Ă  des tĂąches qui ne leur permettront pas de se constituer un CV, nĂ©cessaire si l’on souhaite avoir un poste stable (c’est-Ă -dire plus de deux ans).

    Label sans IA : ce texte a Ă©tĂ© rĂ©digĂ© sans aucun aide de la part d’une LLM.

    Commentaires : voir le flux Atom ouvrir dans le navigateur

    ❌
    ❌