Une histoire de formats : il nây a pas que la taille qui compte
Dans cette nouvelle excursion dans le temps et dans lâespace du Transimpressux, nous allons rendre une rapide visite Ă ThĂ©otiste Lefevbvre (1798 - 1887) prote dâimprimerie et Ă quelques-uns de ses confrĂšres ainsi que dans les magasins de quelques bibliothĂšques. Nous passerons aussi, un grand moment du cĂŽtĂ© de la Silicon Valley et de Redmond dans lâĂtat de Washington, bien obligĂ© puisquâon parlera beaucoup de formats numĂ©riques, sans oublier dâaller dire bonjour Ă Donald Knuth, Tim Berners-Lee et John Gruber. On terminera notre exploration quelque part dans les archives numĂ©riques de la BibliothĂšque nationale de France (BnF).
La climatisation du Transimpressux a été entiÚrement révisée et le bar rechargé en boissons fraßches et glaces en tous genres. On vous souhaite un bon voyage.
- lien ná” 1 : LâĂ©criture et lâimage, des Ăąges farouches au texte Ă©lectronique
- lien ná” 2 : Comment Ă©crit-on les systĂšmes dâĂ©criture aujourdâhui ?
- lien ná” 3 : OĂč il est question de conservation
- lien ná” 4 : Des histoires de caractĂšres
- lien ná” 5 : Ysabeau, un chouette caractĂšre
Sommaire
- Préambule
- Les formats matériels, entre coût et rangement
- Les formats de texte
- Des langages de balisages
- Lâarchivage et la conservation des textes
- Kurinto une histoire de chasses
- Les textes et documents qui ont servi Ă alimenter cette dĂ©pĂȘche
- Postambule
Préambule
Cette dĂ©pĂȘche ne se veut pas exhaustive sur les formats en tous genres ni trĂšs technique sur les formats informatiques. Pour les formats dâimage, qui ne sont pas traitĂ©s ici, je vous renvoie Ă lâexcellente dĂ©pĂȘche de Tanguy Ortolo qui a fait le tour de la question et au journal de Glandos sur lâintĂ©gration du JPEG XL dans les navigateurs.
Les formats matériels, entre coût et rangement
Encore aujourdâhui, le format matĂ©riel dâun document, spĂ©cialement, sâil sâagit dâun livre, est important pas uniquement pour des questions de coĂ»t. Mais aussi Ă cause dâeux. Câest parce que le papier coĂ»tait cher quâAlde Manuce a crĂ©Ă© lâitalique au dĂ©but du 16e siĂšcle. Lâitalique prenant moins de place que les autres styles de caractĂšres, il devenait possible dâimprimer des livres en petit format qui pouvaient ainsi ĂȘtre achetĂ©s par une clientĂšle impĂ©cunieuse.
Des diffĂ©rences de taille et de tailles. Image retravaillĂ©e avec le filtre « Pencil Portrait » de Qâmic-Qt (et un peu Inkscape).
Les rouleaux, volumen ou rotulus
La taille de ces rouleaux varie beaucoup. Ils peuvent atteindre plusieurs mĂštres de long (ou de large, selon le sens de lecture). TĂ©moin cette remarque dâAuguste Molinier, chartiste et bibliothĂ©caire, en 1892 :
On a Ă©tudiĂ© rĂ©cemment la longueur des volumina antiques. En Ăgypte, elle paraĂźt avoir Ă©tĂ© illimitĂ©e ; un rouleau trouvĂ© Ă ThĂšbes a 43 m. 50, ce qui est excessif ; il est vrai que le moyen Ăąge a eu des rouleaux de parchemin, plus solides, mais encore plus lourds et infiniment plus longs. Pour les Ćuvres littĂ©raires grecques et latines, un Ă©rudit moderne, M. Birt, a Ă©valuĂ© Ă 12 mĂštres la longueur extrĂȘme des volumina.1
Ces longueurs dĂ©mesurĂ©es ne sont pas propres aux Ăgyptiens. Les Archives nationales de Paris possĂšdent un parchemin dâune longueur dâune vingtaine de mĂštres. DatĂ© de 1307, ce rouleau consigne les aveux, obtenus sous la torture, de cent-trente-huit Templiers. Il va sans dire que leur longueur et leur anciennetĂ© rend les rouleaux trĂšs difficiles Ă manipuler, une difficultĂ© que la numĂ©risation Ă©limine.
Des formats des livres
Les noms des formats des livres en imprimerie traditionnelle sont liĂ©s au nombre de pages que lâon imprimait sur une feuille. Le mot « format » lui-mĂȘme pourrait venir des chĂąssis, ou « formes » dans lesquels on plaçait les pages Ă imprimer. Ce procĂ©dĂ© sâappelait lâimposition.
Les formats les plus usuels, du plus grand au plus petit :
- in-folio : soit quatre pages par feuille, la taille la plus grande de livre,
- in-quarto, huit pages,
- in-octavo, seize pages,
- in-douze, vingt-quatre pages,
- in-dix-huit, trente-six pages.
La rĂ©partition des pages sur la feuille Ă©tait Ă la fois importante et dĂ©licate puisquâune fois imprimĂ©e, la feuille Ă©tait pliĂ©e. Il fallait donc veiller non seulement Ă la bonne rĂ©partition des pages sur la feuille, mais aussi Ă leur sens. Dans son Guide pratique du compositeur dâimprimerie, ThĂ©otiste Lefebvre consacre plus dâun quart de son livre (119 pages sur 440) Ă cette dĂ©licate question. Dans son petit guide sur la Typographie, Charles-FĂ©licien Huart y consacre aussi plusieurs pages.
Un exemple de répartition des pages2 pour un volume in-douze, « cÎté de premiÚre » indique le recto, « cÎté de seconde », le verso. La feuille est pliée en trois dans le sens de la hauteur et deux dans la largeur.
Recto : deux sĂ©ries de pages tĂȘte en bas, pages 12, 13, 16 et 9 (1re sĂ©rie) et 8, 17, 20 et 5 (2e sĂ©rie) et, en dessous pages 1, 24, 21 et 4. Verso : deux sĂ©ries de pages tĂȘte en bas, pages 10, 15, 14 et 11 (1re sĂ©rie) et 6, 19,18 et 7 (2e sĂ©rie) et 3, 22, 23 et 2 en dessous.
Cette diffĂ©rence de tailles peut amener les bibliothĂšques dont le fond nâest pas directement accessible au public Ă opter pour un classement matĂ©riel des livres basĂ©s sur le format. On aura ainsi des cĂŽtes du genre « in12-numĂ©ro dâinventaire ». Câest un systĂšme trĂšs efficace et qui Ă©vite dâavoir un petit livre (littĂ©ralement) perdu au milieu de livres nettement plus grands.
Les formats actuels, livre et papier
Lâindication de format Ă partir du nombre de pages imprimĂ©es sur une feuille ne donne pas dâinformation prĂ©cise sur la taille effective des livres. Il faut signaler que les dimensions changent en fonction de celles de la feuille dâorigine. Les appellations actuelles, cĂŽtĂ© Ă©dition, du style Livre de poche (environ 10,5 cm x 17,5 cm), livre brochĂ© ou encore grand format, utilisĂ©es en lieu et place dâin-folio, in-octavo, etc. rĂ©servĂ©s plutĂŽt au livre ancien ne sont pas plus prĂ©cises.
En, revanche, la taille des feuilles de papier les plus utilisĂ©es a fait lâobjet dâune norme, la norme ISO 216. Elle concerne les formats A, dont le fameux A4 qui est celui des feuilles standard des imprimantes de bureau et le format B. Le principe : plus le numĂ©ro est Ă©levĂ©, plus la feuille est petite. La numĂ©rotation commence Ă 0 qui fait un mĂštre carrĂ© (84,1 cm x 118,9 cm) pour le format A. La taille de la feuille du numĂ©ro supĂ©rieur devant ĂȘtre Ă©gale Ă la moitiĂ© de celle du numĂ©ro infĂ©rieur qui la prĂ©cĂšde. En dâautres termes : le format A3 Ă©gal deux fois le format A4 qui, lui-mĂȘme, est deux fois plus grand que le format A5. Il en va de mĂȘme avec le format B. Cela explique au passage pourquoi le format A4 mesure 21 x 29,7 cm et pas 21 x 30 cm.
Les formats de texte
Jusque dans les annĂ©es 1990, il y avait un nombre trĂšs important dâoutils et de formats de textes. Writer de LibreOffice, dâaprĂšs mes comptes, peut ouvrir jusquâĂ quarante-quatre formats de fichier diffĂ©rents, hors modĂšles et hors web, mais nâenregistre que dans des formats qui sont ceux encore utilisĂ©s Ă lâheure actuelle. Ce qui rĂ©duit la liste Ă treize formats incluant les modĂšles et lâHTML.
Sur cette frise chronologique, on a, en haut, des formats de texte avec leur date de naissance plus ou moins approximative et, en dessous, des langages de balisage avec leur date de naissance Ă©galement.
Les formats de texte : 1977 Texte brut, 1987-2007 RTF, 1990-2007 DOC, 2005 ODT, 2007 DOCX. Ils ont Ă©tĂ© choisis parce quâils sont les plus connus, voire, les plus utilisĂ©s. Dans cette liste deux formats ne sont plus maintenus, les formats RTF et DOC. Mais il existe encore des amas de fichiers dans ces deux formats.
Le texte brut, .txt
Le texte brut, nait Ă une date imprĂ©cise. Probablement vers la fin des annĂ©es 1950 ou au dĂ©but des annĂ©es 1960. Le premier RFC3 qui dĂ©finit un standard de protocole pour des messages en texte brut (Standard for the Format of Arpa Network Text Messages) date de 1977, il porte le numĂ©ro 733 et a Ă©tĂ© rĂ©digĂ© par lâagence amĂ©ricaine pour les projets de recherche avancĂ©e de dĂ©fense (DARPA pour Defense Advanced Research Projects Agency).
Au dĂ©but, le format nâacceptait que lâAscii, Ă savoir les vingt-six lettres de lâalphabet, les chiffres, les ponctuations de base et les caractĂšres de commande Ascii. Ce qui en fait un format simple, mais trĂšs pauvre. LâAscii est codĂ© sur 7 bits, ce qui ne permet dâavoir que cent-vingt-huit caractĂšres, en fait quatre-vingt-dix imprimables et trente-huit pour les codes de commande4. Il accepte, depuis, lâUnicode. Depuis quand ? Difficile Ă prĂ©ciser, mais la premiĂšre mention dâUnicode qui figure sur le site rfc-editor remonte Ă juillet 1994 (en), RFC 1641, Ă titre expĂ©rimental. On peut supposer, en tout cas, que le consortium Unicode qui rĂ©unit la fine fleur de lâinformatique a dĂ» trĂšs tĂŽt faire en sorte que son standard puisse ĂȘtre acceptĂ© dans le format texte brut.
Ce format se rĂ©vĂšle assez vite insuffisant de part sa simplicitĂ© mĂȘme, confinant Ă la pauvretĂ© : pas dâenrichissement typographique, pas de notion de style ni de hiĂ©rarchie des paragraphes, pas de possibilitĂ© dâavoir des images. Il est, de fait, plutĂŽt infĂ©rieur Ă ce que lâon peut avoir sur du papier. Il reste nĂ©anmoins trĂšs utilisĂ© et par toutes les applications qui traitent du texte : Ă©diteurs de texte, bureautique, etc. Il a pour lui lâavantage dâĂȘtre simple, lĂ©ger et interopĂ©rable. Câest le format, par exemple, avec lequel la BnF Gallica dĂ©livre les documents « bruts de numĂ©risation » (il faut copier-coller le texte ailleurs pour le garder et le retravailler), et câest, bien Ă©videmment, celui des RFC.
Il y a des personnes qui recommandent de conserver le texte en texte brut, compte tenu des limitations du format, ce nâest pas franchement conseillĂ© pour des documents un peu complexes Ă©tant donnĂ© quâil y aura Ă©normĂ©ment de pertes dâinformation.
Le RTF
En 1987, Microsoft lance le Rich Text Format (RTF) qui permettait dâavoir du texte « enrichi » avec des attributs : gras, italique, soulignĂ© et de dĂ©passer le cadre du texte brut. Câest un format qui a Ă©tĂ© pendant un certain temps, un standard dâĂ©change de fait pour ce type de fichiers. Il Ă©tait au moins lu par beaucoup de logiciels sur nombre de systĂšmes dâexploitation. CâĂ©tait un format pratique dâĂ©change, notamment Ă une Ă©poque oĂč le PDF nâĂ©tait pas encore un format ouvert et ne pouvait ĂȘtre gĂ©nĂ©rĂ© que via le (cher) logiciel dâAdobe. Et aussi parce que câĂ©tait lâĂ©poque de la « grande dĂ©mocratisation » de lâinformatique, et, quâĂ vrai dire, les utilisateurices finaux ne savaient pas trop comment, surtout sous quelle forme et ce qui se passait quand on Ă©changeait des fichiers.
Aussi pratique que soit le format RTF, outre son absence de lĂ©gĂšretĂ©, il Ă©tait nĂ©anmoins trĂšs limitĂ© : pas de texte structurĂ© autrement que sur un plan purement visuel, par exemple. Microsoft arrĂȘtera de le maintenir en 2008 (il aura tenu vingt ans tout de mĂȘme !). Câest donc un format mort.
Le .doc, un format propriétaire incontournable
Quand Microsoft lance sa suite bureautique dans les annĂ©es 1990 (la date sur la chronologie nâest pas tout Ă fait exacte), il adopte pour le traitement de texte, Word, lâextension .doc qui avait Ă©tĂ© aussi celle de WordPerfect. Word avait pour lui de montrer le rendu du texte immĂ©diatement : le fameux WYSIWYG pour « What you see is what you get » (ce que vous voyez est ce que vous obtenez).
La suite finit par devenir quasiment incontournable et le format DOC de Word devenir un « standard de fait ». Microsoft abandonnera le DOC en 2007 pour le DOCX basĂ© sur lâOffice Open XML. On produira encore longtemps aprĂšs des fichiers en .doc en vertu du « tout le monde nâa pas la version de MsOffice 2007 ». On trouve encore sur internet des modĂšles de fichiers Ă ce format Ă tĂ©lĂ©charger.
Il Ă©tait reprochĂ© au format son poids, lourd, des problĂšmes de confidentialitĂ© (on pouvait, par exemple, retrouver du texte effacĂ© avant lâenregistrement ou le modĂšle de lâimprimante5) et sa faiblesse devant les virus. Et, bien entendu, câĂ©tait un format propriĂ©taire et pas interopĂ©rable. Un autre dĂ©faut majeur du format Ă©tait quâil Ă©tait modifiĂ© Ă chaque nouvelle version de Word ce qui impliquait de devoir acheter la nouvelle version du logiciel pour pouvoir travailler sur les nouveaux fichiers en .doc.
Microsoft dĂ©livrera les sources du format en 2006, mais les spĂ©cifications semblent ne plus figurer sur le site de la firme. Le code source de la version dâorigine de Word, quant Ă lui, a Ă©tĂ© rendu public et versĂ© au musĂ©e amĂ©ricain de lâhistoire de lâordinateur (en).
Le .doc peut encore ĂȘtre ouvert et travaillĂ© dâun grand nombre de logiciels. Abiword par exemple ouvre les .doc mais pas les .docx. En revanche, il est de moins en moins possible de gĂ©nĂ©rer des fichiers Ă ce format, et câest une bonne chose. On ne saurait que trop vous suggĂ©rer de transformer tous les fichiers en .doc qui traĂźneraient encore dans vos ordinateurs en ODT (ou de faire le mĂ©nage). Il en va de mĂȘme pour le format de modĂšle .dot.
LâODT : un format ouvert
En 2005 apparaĂźt un format bien intĂ©ressant : le format ODT, qui est une des composantes du plus gĂ©nĂ©ral OpenDocument Format (ODF) avec le O dâOpen, le D de Document et le T de Texte, lâextension OTT Ă©tant pour les modĂšles avec le premier T pour Template (modĂšle en anglais). LâODF est gĂ©rĂ© par le consortium OASIS, pour Organization for the Advancement of Structured Information Standards (Organisation pour lâavancement des normes dâinformations structurĂ©es).
OASIS est une structure Ă but non-lucratif autorisĂ©e par lâISO (International Standard Organization, lâorganisation dont lâobjectif social est lâĂ©laboration et la publication de normes mondiales de produits et services), Ă publier des standards dont les spĂ©cifications sont publiquement disponibles sans passer par les fourches caudines de lâISO. Le consortium a Ă©tĂ© crĂ©Ă© en 1993, il sâappelait Ă lâĂ©poque SGML Open. Il Ă©tait constituĂ© de fournisseurs et dâutilisateurs dâoutils informatique, son but Ă©tait le dĂ©veloppement de lignes directrices pour lâinteropĂ©rabilitĂ© de logiciels utilisant le langage de balisage SGML. Il change de nom en 1998 pour devenir OASIS qui reflĂšte mieux les travaux du consortium. Parmi les cent-seize membres (lâadhĂ©sion est payante) : Ă peu prĂšs toutes les grandes entreprises de lâinformatique amĂ©ricaine et quelques chinoises ou japonaises (Alibaba, Hitachi, Huawei, FujitsuâŠ) mais aussi des organismes tels que le Parlement europĂ©en, lâOffice des publications europĂ©ennes, le MinistĂšre français de lâIntĂ©rieur, le FBI, des universitĂ©s (Brno, Milan, Luxembourg, Oslo, Westminster, MIT, etc.), la Biblioteca del Congreso Nacional du Chili, TheDocumentFoundation, etc. Il existe en outre une fondation europĂ©enne Ă but non lucratif OASIS Open Europe (en) affiliĂ©e au consortium et dont lâobjectif est de soutenir le rĂŽle de lâEurope dans le dĂ©veloppement de lâopen source et des normes ouvertes.
La version 1.0 du format OpenDocument (ODF) pour les applications bureautiques a Ă©tĂ© approuvĂ©e le 1er mai 2005 Ă lâunanimitĂ© des soixante-dix-huit membres ayant votĂ©. La version 1.0 des directives pour lâaccessibilitĂ© du format ODF, quant Ă elle a Ă©tĂ© approuvĂ©e Ă lâunanimitĂ© des onze membres ayant votĂ© le 1á”Êł mai 2008. La derniĂšre version du format ODF est la 1.3 (en), approuvĂ©e le 27 avril 2021. LibreOffice lâa intĂ©grĂ© Ă partir des versions 7, pratiquement Ă la sortie de la norme, câest le format dâenregistrement par dĂ©faut. La norme ODF 1.3 a mis notamment lâaccent sur la signature et le chiffrage des documents.
Le format ODF est basĂ© sur le XML. Câest un fichier « compressĂ© » qui en contient plusieurs6 :
- le fichier
meta.xml
contient des informations au sujet du document (lâauteur, la date de la derniĂšre sauvegarde), - le fichier
styles.xml
contient les styles utilisés dans le document, - le fichier
content.xml
contient le contenu principal du document (texte, tableaux, Ă©lĂ©ments graphiquesâŠ), - le fichier
settings.xml
, en gĂ©nĂ©ral spĂ©cifique Ă une application, contient certains paramĂštres tels que lâimprimante sĂ©lectionnĂ©eâŠ, - les fichiers
META-INF/manifest.xml
contiennent des informations supplémentaires sur les autres fichiers (comme le type MIME ou le chiffrement).
Plus des dossiers : Pictures
, Thumbnails
, etc.
Ce format est le format natif notamment de LibreOffice, OpenOffice7, Calligra, Collabora Online, GoogleDocs, Zoho, il est aussi ouvert, travaillé et enregistré par des logiciels tels que MsOffice depuis 2007 (2016 pour la version pour MacOS), Office365, OnlyOffice ou AbiWord (listes non limitatives).
Lâune de ses trĂšs grandes forces est, quâĂ lâinstar du format HTML, toute la mise en forme repose sur des styles. Ce qui rend trĂšs Ă©volutifs et adaptables les documents au format ODT (pour peu quâils le soient avec un logiciel qui le gĂšre bien).
En France, le format ODF est le seul format bureautique recommandĂ© par le rĂ©fĂ©rentiel gĂ©nĂ©ral dâinteropĂ©rabilitĂ©. Le format ODT Ă©tant mentionnĂ© comme format Ă privilĂ©gier par nombre dâadministrations de par le monde.
Le format DOCX et son OOXML
LâannĂ©e 2007 est celle qui « rĂ©volutionne » la suite bureautique de Microsoft. En effet, la firme abandonne les vieux formats pour en adopter des nouveaux basĂ©s sur le XML dâoĂč le X de lâextension. Mais pas nâimporte quel XML, le XML maison appelĂ© Office Open XML (OOXML pour faire court). Il est fort probable que, ce faisant, lâidĂ©e Ă©tait de court-circuiter le standard ODF. Microsoft a dâailleurs livrĂ© une guerre fĂ©roce pour que son OOXML soit acceptĂ© par lâISO en sây reprenant Ă deux fois. La norme, adoptĂ©e le 17 aout 2008, porte le numĂ©ro ISO/IEC DIS 29500. Il est possible (probable ?) Ă©galement que, Word Ă©tant ce quâil est, se baser sur le XML de lâODT aurait vraisemblablement nĂ©cessitĂ© un grand travail de refonte du logiciel. Il existe deux « variantes » de DOCX, le premier, celui de la version 2007 et celui de 2010. En effet, la norme ISO/IEC DIS 29500 nâest pas compatible avec Office 2007.
Sur le plan technique, il est reprochĂ© Ă lâOOXML sa complexitĂ© qui en rend difficile la mise en Ćuvre. Ă tel point quâil se dit que Microsoft lui-mĂȘme ne lâimplĂ©mente pas correctement. La derniĂšre version dâOOXML est actuellement la rĂ©fĂ©rence ISO/IEC 29500-1:2016 (en) de novembre 2016 (elle fait 5024 pages).
Sur le plan juridique, le caractÚre libre de la norme est flou, il en ressort une certaine instabilité sur ce plan. Avec les spécifications, Microsoft a distribué :
un document promettant de ne pas poursuivre les auteurs de lâutilisation dâOffice Open XML dans un autre logiciel que ceux de Microsoft. Cette promesse de non-poursuite elle-mĂȘme laisse certains flous, notamment :
âą sâappliquant Ă la norme ECMA en lâĂ©tat, sâapplique-t-elle Ă une Ă©ventuelle version finale de lâISO ?
âą sâapplique-t-elle Ă tous les brevets logiciels nĂ©cessaires Ă la mise en Ćuvre de la norme ?
âą sâapplique-t-elle Ă©galement aux extensions du format OOXML ?
La licence dâutilisation de OpenXML est incompatible avec les programmes sous la licence GPL.8
Ă lâinstar des fichiers ODF, le DOCX est un fichier compressĂ© qui en contient plusieurs. On en trouvera lâanatomie (en) par exemple sur le site Office Open XML (en).9
Il est actuellement ouvert, voire travaillé et enregistré, de la plupart des suites bureautiques.
Des langages de balisages
Parler des formats de texte sans évoquer les langages de balisage serait assez inepte puisque les formats modernes sont basés dessus. Pour rappel, un langage de balisage est un langage servant à définir et à structurer les informations dans un document.
Il en existe de nombreux, mais on nâĂ©voquera que ceux qui semblent les plus connus ou les plus utilisĂ©s.
TeX le grand ancien
TeX fait figure de grand ancien, puisque la premiĂšre version du langage de balisage date de 1978. Cela dit, on devrait peut-ĂȘtre plutĂŽt parler « dâĂ©cosystĂšme » car câest Ă la fois un format, le langage de balisage utilisĂ© par LaTeX et un logiciel libre de composition. TeX a Ă©tĂ© crĂ©Ă© par Donald E. Knuth, professeur Ă©mĂ©rite Ă lâUniversitĂ© de Stanford et considĂ©rĂ© comme lâun des pionniers de lâalgorithmique. Lâobjectif de Donald E. Knuth en crĂ©ant TeX Ă©tait dâavoir des documents scientifiques et techniques de bonne qualitĂ© typographique, ce quâil nâĂ©tait pas possible dâobtenir avec les logiciels dâĂ©dition de lâĂ©poque. Le principe du langage TeX est la sĂ©paration du contenu de et la forme, ce qui Ă©tait innovant.
TeX est complété par LaTeX qui est « un ensemble de macros permettant de faire beaucoup de choses »10, et, bien sûr, par le langage de composition de polices vectorielles Metafont. LaTeX a été développé par Leslie Lamport. La premiÚre version est sortie en 1983.
Ce nâest pas un traitement de texte, lâidĂ©e Ă©tant que lâauteur ou lâautrice :
puisse mettre son Ă©nergie Ă rĂ©diger le contenu sans ĂȘtre distrait par lâapparence de son document. En Ă©crivant en langage LaTeX, lâutilisateur doit donc dĂ©finir sĂ©mantiquement le contenu de son document plutĂŽt que visuellement. DMS, UniversitĂ© de MontrĂ©al.
On peut générer des fichiers TeX soit directement avec un éditeur de texte, soit avec des logiciels comme Lyx ou encore Overleaf qui est un éditeur LaTeX en ligne et collaboratif. Mais, pour en voir le rendu, il faudra soit faire un PDF, si on utilise un éditeur de texte, soit passer par le visualiseur, quand il existe, dans un logiciel tel que Lyx.
Ă ma connaissance la plupart des suites bureautiques ne lâacceptent pas, pas plus que Calibre dâailleurs.
La derniÚre version de TeX, 3,143.141592653 date de janvier 2021. Le format est géré par le groupe des utilisateurs de TeX ou TUG (en). LaTeX quant à lui est géré par le projet LaTeX (en). La derniÚre version date de juin 2024.
Le SGML et ses petits
Le SGML, S pour Standard, G pour Generalized, M pour Markup et L pour Langage (langage de balisage gĂ©nĂ©ralisĂ© normalisĂ©) possĂšde le numĂ©ro de norme ISO 8879:1986. 1986 Ă©tant lâannĂ©e dâobtention du numĂ©ro ISO, la premiĂšre version du SGML Ă©tant sortie en 1978. Produit de lâindustrie de lâĂ©dition, il a adoptĂ©, comme TeX, le principe de la sĂ©paration complĂšte du fond et de la forme. Câest, en fait, une norme permettant de dĂ©finir des langages de balisage gĂ©nĂ©riques pour des documents. SGML sera, dĂšs 1984, le format standard des publications officielles des CommunautĂ©s europĂ©ennes.
Ce qui caractĂ©rise un document SGML : il doit possĂ©der une « dĂ©finition du type de document » (DTD ou doctype en anglais). Cette DTD sert Ă indiquer la structure du document. Et, Ă©videmment le systĂšme de balises que lâon va retrouver chez les membres de la famille.
HTML, sans lequel, possiblement, LinuxFr.org ne serait pas
Le langage HTML, pour HyperText Markup Language, est un langage de balisage pour lâhypertexte, cette fonctionnalitĂ© qui permet de naviguer sur internet. Il a Ă©tĂ© crĂ©Ă©, ou plutĂŽt lancĂ© au dĂ©but des annĂ©es 1990 par Tim Berners-Lee qui en a profitĂ© pour concevoir au passage la forme des adresses Web que nous connaissons (les URL) et le protocole de communication HTTP.
Le format HTML est gĂ©rĂ© par le World Wide Web Consortium (W3C) fondĂ© en 1994 par Tim Berners-Lee. Lâobjectif du W3C : Ă©mettre des normes et des recommandations pour le web.
La premiĂšre version de HTML Ă©tait trĂšs limitĂ©e : cela nâallait pas plus loin que la structure du texte avec les balises de titres et de listes, et les liens hypertextes.
En 1999, sort la version 4 (en) qui deviendra une norme ISO en 2000. La norme HTML 4 supporte pleinement le langage de mise en forme CSS (Cascading Style Sheet ou feuilles de style en cascade). Le HTML 4 existe en trois variantes, si on peut dire :
- le HTML strict qui exclut les Ă©lĂ©ments de « prĂ©sentation » puisque quâil revient au CSS de faire le travail de mise en forme,
- le HTML transitionnel accepte quelques balises de présentation obsolÚtes héritées du HTML 3,
- frameset qui normalise les jeux de cadre, les «frames ».
La derniĂšre version de HTML est le HTML 5 publiĂ© en 2012. Il ne remplace pas le HTML 4.1 : les deux standards coexistent. HTML 5 apporte en plus des fonctionnalitĂ©s dâanimations complexes, multimĂ©dia avec de lâaudio et de la vidĂ©o, etc. jusque-lĂ assurĂ©es notamment par le logiciel privateur Flash. HTML 5 sâest aussi Ă©loignĂ© du SGML.
XML le futur du HTML
Câest, en tout cas, ainsi que sâintitulait en 1998 un article (en) de Todd Freter (en) directeur de programme chez Sun Microsystem. DĂ©fini comme un sous-ensemble de SGML, « le XML a Ă©tĂ© conçu pour ĂȘtre facile Ă mettre en Ćuvre et interopĂ©rable avec SGML et HTML »11. De fait les syntaxes HTML et XML sont les mĂȘmes. Lâune des diffĂ©rences fondamentales entre les deux Ă©tait, au dĂ©part, quâil Ă©tait possible de dĂ©finir ses propres balises avec XML, mais pas avec HTML. Un comportement qui a Ă©tĂ© modifiĂ© en 2014 pour HTML avec les Web Components (en).
XML (eXtensible Markup Language) a été développé par un groupe de travail piloté par le W3C à partir de 1996, avec, comme président, Jon Bosak (en) de Sun Microsystems. Les objectifs, à sa sortie en 1998, étaient les suivants selon la Recommandation du W3C du 10 février 1998 :
- XML devrait pouvoir ĂȘtre utilisĂ© sans difficultĂ© sur Internet ;
- XML devrait soutenir une grande variĂ©tĂ© dâapplications ;
- XML devra ĂȘtre compatible avec SGML ;
- Il devrait ĂȘtre facile dâĂ©crire des programmes traitant les documents XML ;
- Le nombre dâoptions dans XML doit ĂȘtre rĂ©duit au minimum, idĂ©alement Ă aucune ;
- Les documents XML devraient ĂȘtre lisibles par lâhomme et raisonnablement clairs ;
- La conception de XML devrait ĂȘtre prĂ©parĂ©e rapidement ;
- La conception de XML sera formelle et concise ;
- Il devrait ĂȘtre facile de crĂ©er des documents XML ;
- La concision dans le balisage de XML est de peu dâimportance.
Quâen est-il aujourdâhui de ces principes ?
En fonction de la syntaxe XML du document, sâil est transmis avec le type MIME text/html, il est vu par les navigateurs comme un fichier HTML. En revanche, sâil est transmis avec un type XML MIME, il sera traitĂ© comme un document XML. Dans le deuxiĂšme cas de figure, des erreurs de syntaxe mĂȘme mineures empĂȘcheront un document Ă©tiquetĂ© XML dâĂȘtre correctement restituĂ© alors quâelles seraient ignorĂ©es dans la syntaxe HTML. Lâobjectif 1, nâest donc pas atteint et XML ne remplace dĂ©finitivement pas HTML. En revanche, XML est effectivement trĂšs utilisĂ© : outre les formats ODF et OOXML, câest le langage sur lequel est basĂ© le format SVG (Scalable Vector Graphics, ou, en français graphique vectoriel adaptable) et câest le format de rĂ©fĂ©rence pour lâĂ©change de donnĂ©es. Mais, pour ce qui est de la lisibilitĂ© du format par des yeux humains, elle nâest pas toujours au rendez-vous.
XML est maintenu par le W3C. La derniÚre version (en) porte le numéro 1.1, elle est sortie le 29 septembre 2006.
Langages de balisage léger
Les langages de balisage lĂ©ger sont conçus pour ĂȘtre facile Ă utiliser avec un Ă©diteur de texte. La syntaxe en est simple.
Le MarkDown, peut-ĂȘtre le plus connu dâentre eux, a Ă©tĂ© crĂ©Ă© en 2004 par le programmeur amĂ©ricain John Gruber; aidĂ© dâAaron Swartz. Il nâa pas subi dâĂ©volution importante depuis. En revanche, il en existe des variantes. John Gruber le dĂ©finit comme :
un outil de conversion de texte en HTML destinĂ© Ă la rĂ©daction Web. Markdown vous permet dâĂ©crire en utilisant un format de texte brut facile Ă lire et Ă Ă©crire, puis de le convertir en XHTML (ou HTML) structurellement valide. Daring Fireball (en).
Pour en savoir plus sur la syntaxe MarkDown, on peut, trÚs profitablement, se référer au wiki de LinuxFr.org.
Il en existe dâautres comme txt2tags crĂ©Ă© en 2001 ou encore AsciiDoc (en) dont la premiĂšre version date de 2002. Txt2tags (en) est un logiciel gĂ©nĂ©rateur de documents Ă©crit en Python et qui utilise un langage de balisage lĂ©ger comme source. Quant Ă AsciiDoc, il se veut un langage particuliĂšrement adaptĂ© Ă la rĂ©daction de documentations techniques. Il existe aussi le langage de balisage du CMS (gestion de contenu web) SPIP, nĂ© en 2001.
Lâarchivage et la conservation des textes
Il est ici, Ă©videmment question des formats dâarchivage des textes, avec ou sans images, tableaux, formules de mathĂ©matiques, etc. Avant dâaborder cette question : une dĂ©finition sâimpose. Il ne sâagit pas des formats dits dâarchives de type .zip, .rar, .tar etc. Archiver les textes câest, dans ce contexte, pouvoir les conserver et y accĂ©der sans avoir besoin de lâapplication qui a servi Ă les gĂ©nĂ©rer. Et ce soit en conservant la mise en page dâorigine, comme pour le PDF, soit en laissant Ă lâoutil de lecture la main pour la mise en page. Chaque format a ses spĂ©cificitĂ©s. Mais de toute façon :
un bon format de prĂ©servation, câest un bon format tout court. Outils open source nombreux, mĂ©tadonnĂ©es internes bien foutues, dĂ©marche collective de normalisation⊠Bertrand Caron, archiviste numĂ©rique Ă la BnF, janvier 2024.
EPUB
LâEPUB, pour Electronic PUBlication, est un format de document numĂ©rique qui nâest pas destinĂ© Ă lâimpression. Lâune de ses spĂ©cificitĂ©s est, notamment, de laisser Ă lâutilisatrice ou lâutilisateur le choix du rendu du fichier. Il existe, toutefois, un mode « fixed-layout » qui fige la mise en forme de lâEPUB. Ce mode a Ă©tĂ© conçu pour les publications qui nĂ©cessitent que la mise en page soit respectĂ©e, comme certaines publications scolaires. Mais cela rĂ©clame une mise en page adaptĂ©e aux tailles des Ă©crans des appareils de lecture.
EPUB a succĂ©dĂ© au format OeB (Open eBook). Au dĂ©part, gĂ©rĂ© par lâInternational Digital Publishing Forum (IDPF) qui sera intĂ©grĂ© au W3C en 2017. La premiĂšre version sort en 2007, suivie, en 2010 par lâEPUB2 et, en 2011, par lâEPUB3. Il a Ă©tĂ© trĂšs vite adoptĂ©. Aujourdâhui les deux versions coexistent, lâEPUB2 prĂ©dominant encore sur lâEPUB3. Le format est basĂ© sur XML et sur HTML. Un fichier EPUB est un fichier zip qui contient plusieurs fichiers et rĂ©pertoires dont un dossier META-INF
qui contient un fichier container.xml
, ce dossier nâapparait pas quand on gĂ©nĂšre un fichier Ă partir de Sigil dâailleurs. Les fichiers de texte sont au format XHTML.
Quâapporte lâEPUB3 par rapport Ă lâEPUB2 ? Les Ă©volutions concernent principalement lâaccessibilitĂ© et lâintĂ©gration de contenus audio ou vidĂ©o. Ainsi les formules de mathĂ©matiques qui, en EPUB2 sont converties en images, donc illisibles sans yeux, sont gardĂ©es en tant que telles avec EPUB3. Les liseuses ne supportent pas forcĂ©ment toutes les fonctions, notamment multimĂ©dias.
Il est possible dây ajouter diffĂ©rents types de marquage ou de verrous : les DRM Adobe, chĂšres et complexes, les DRM LCP, trĂšs pratiques pour le prĂȘt des livres en bibliothĂšque ou encore des filigranes qui nâimposent aucune limitation aux EPUB. Lâapposition dâune DRM a un EPUB est, en principe, une dĂ©cision Ă©ditoriale. Il semble nĂ©anmoins que certaines librairies Ă©prouvent le besoin dâen rajouter. Il convient donc dâĂȘtre vigilant quand on achĂšte un EPUB si on veut Ă©viter dâavoir un livre avec une DRM. Le livre numĂ©rique reprĂ©sente 10,1 % du chiffre dâaffaires de lâĂ©dition française en 2023, ce qui inclut les EPUB et les PDF.
La version la plus rĂ©cente du format EPUB et lâEPUB3.3 sortie en mai 2023. Elle est devenue une Recommandation W3C (en).
Lâobjectif du format PDF a contrario de celui de lâEPUB est le respect de la mise en page du fichier qui a servi Ă le gĂ©nĂ©rer. De ce fait, il nâest pas trĂšs lisible sur une liseuse ou sur un tĂ©lĂ©phone.
La naissance du PDF remonte Ă 1991 et elle est due Ă John Warnock cofondateur dâAdobe. La premiĂšre version de ce format est sortie en 1992. Ă lâĂ©poque câĂ©tait assez fou de pouvoir accĂ©der Ă un fichier avec sa mise en page dâorigine sans quâil soit nĂ©cessaire dâavoir lâapplication qui avait servi Ă le gĂ©nĂ©rer. Il deviendra un standard ouvert gĂ©rĂ© par lâISO en 2008, numĂ©ro ISO 32000.
En fait il nâexiste pas un, mais plusieurs formats PDF dont :
- PDF/A pour lâarchivage,
- PDF/E pour les documents techniques,
- PDF/X pour lâimpression,
- PDF/UA pour lâaccessibilitĂ© universelle,
- ou encore des formulaires FDF.
La version PDF/A-3 permet dâincorporer le fichier dâorigine au PDF : dans lâexport PDF de LibreOffice, cela sâappelle un PDF hybride. Cela donne un fichier qui pĂšse deux fois plus lourd, grosso modo, minus le poids des polices embarquĂ©es, que le PDF «âŻsimpleâŻÂ». Et, si on ouvre le PDF Ă partir de lâapplication qui a servi Ă le crĂ©er, ou si on clique sur «âŻCliquer pour les afficherâŻÂ» (ou Ă©quivalent) dans un lecteur de PDF qui le permet, ici Okular, on ouvre le fichier dâorigine. Mais, Ă©videmment, quand on le modifie ça ne modifie pas le PDF. Il faut soit gĂ©nĂ©rer un nouveau PDF soit lâĂ©craser.
Ă savoir, il nây a que quatorze polices standard PDF, en fait seulement cinq fontes diffĂ©rentes avec leurs variantes, gras, italiques : Courrier, Helvetica, Times Roman, Symbol et Zapf Dingbats. Il est donc trĂšs important, quand on gĂ©nĂšre un PDF dâincorporer les polices au fichier Ă condition que cela soit permis par la licence des polices. Pour ne pas alourdir le fichier, il est suggĂ©rĂ© de nâincorporer que les polices utilisĂ©es dans le document. Avec LibreOffice, vous pouvez configurer cela soit en gĂ©nĂ©rant le PDF, soit, de prĂ©fĂ©rence, la premiĂšre fois que vous enregistrez le fichier, câest dans lâonglet « Police » des propriĂ©tĂ©s dudit fichier. Si vous utilisez un modĂšle, la case peut avoir Ă©tĂ© cochĂ©e dans le modĂšle et il ne sera pas nĂ©cessaire de le faire.
Kurinto une histoire de chasses
La chasse, en typographie, est lâencombrement dâun caractĂšre : largeur plus approche (espace autour). Pour un mĂȘme corps de caractĂšre (sa hauteur), elle peut varier selon les polices, ce qui, Ă©videmment, peut changer, voire, chambouler, complĂštement un document crĂ©Ă© avec une police et pour lequel on a changĂ© la typographie. La collection de polices Kurinto (en) a Ă©tĂ© dessinĂ©e Ă la fois pour couvrir un large Ă©ventail de langues et de systĂšmes dâĂ©criture et dans lâoptique de pouvoir remplapcer les polices Microsoft avec des glyphes qui ont la mĂȘme chasse.
Si vous cherchez des polices au dessin Ă©lĂ©gant pour remplacer des fontes comme le couple Arial/Times New Roman, avoir aussi des typographies Ă chasse fixe ou lĂ©gĂšrement fantaisie, lâensemble de polices Kurinto est un bon choix qui offre en prime une bonne cohĂ©rence entre les diverses polices. Elles sont sous licence SIL.
Les textes et documents qui ont servi Ă alimenter cette dĂ©pĂȘche
Les rĂ©fĂ©rences sont donnĂ©es Ă peu prĂšs dans leur ordre dâapparition dans le texte. Ils sont tous accessibles en ligne et, de prĂ©fĂ©rence, en français. Volontairement, il y a un minimum de rĂ©fĂ©rences Ă WikipĂ©dia. Ce nâest pas tout Ă fait exhaustif, mais ça vous fera dĂ©jĂ pas mal de lecture. Par exemple, je nâai pas citĂ© le blog de StĂ©phane Bortzmeyer qui mâa bien servi Ă dĂ©fricher le terrain.
Les formats matériels
- Sur les rouleaux notamment leur rangement. Le site Rotulus est consacré aux rouleaux médiévaux.
- Guide pratique du compositeur dâimprimerie, ThĂ©otiste LefĂšvre, un guide considĂ©rĂ© longtemps comme une, si pas LA, rĂ©fĂ©rence en matiĂšre de typographie et dâimprimerie. Paru en 1855, il fera lâobjet de multiples Ă©ditions, les derniĂšres en 2000. Aujourdâhui encore, ses pages sur la typographie peuvent servir de rĂ©fĂ©rences. ThĂ©otiste LefĂšvre Ă©tait le fils dâun apprenti compositeur. Il commencera comme ouvrier en imprimerie pour devenir une figure clĂ© du secteur. Sa fille deviendra correctrice. La version du guide donnĂ©e en tĂ©lĂ©chargement sur le site archive.org est dâassez mauvaise qualitĂ©. De toute façon, avec le texte brut ou la piĂštre qualitĂ© de la reconnaissance des caractĂšres on perd absolument tout ce qui fait lâintĂ©rĂȘt du livre qui donne beaucoup dâexemples.
- Sur les formats A. Le site donne les dimensions des feuilles de papier en centimĂštres et en pixels.
Les formats numériques (texte et archivage)
- Alignement, direction, sens du texte et Writer, avril 2024, pour retrouver la chronologie qui sert dâillustration et dâossature Ă cette partie. Elle sert de base Ă un tutoriel qui vous permettra dâen refaire dâautres couplĂ© Ă celui-ci.
- About US (en) et Membres dâOASIS (en), OASIS Open.
- Le standard ODF 1.3, OASIS, avril 2021. Il est Ă©galement possible dâacheter la version 1.2 au prix de 215 CHF sur le site de lâISO.
- OASIS Open Europe Foundation (en).
- Le langage SGML : vue dâensemble et derniers progrĂšs, George Charlebois, Flash RĂ©seau, numĂ©ro 3, dĂ©cembre 1994.
- Court historique du HTML, mars 2014.
- Spécifications HTML (en), WHATWG, juillet 2024.
- Fiches format BnF, des fiches qui sont vraiment bien faites et elles donnent une indication des volumes des formats dans les collections de la BnF.
- Document de politique de conversation BnF (pdf).
- Histoire de lâebook #9 - LâEPUB devient le format standard, Marie Lebert, 23 juin 2021.
- PDF. Trois lettres qui continuent de changer le monde, Adobe.
- PDF hybride : LibreOffice, OpenOffice et PDF, JR Boulay, juin 2024.
La police
- RÚgles et usages de typographie française (pdf), Gérald Purnelle, Université de LiÚge, mai 2024.
Postambule
La prochaine dĂ©pĂȘche de la sĂ©rie devrait ĂȘtre moins longue (pas difficile) et portera sur le code avant Unicode. Elle parlera donc aussi de football. Comme toujours, vos suggestions sont apprĂ©ciĂ©es.
-
MOLINIER A. « Les manuscrits et les miniatures », BnF Gallica: Librairie Hachette, 1892. Disponible sur : BnF Gallica en PDF ou en texte brut. â©
-
Lâexemple est reproduit Ă partir du petit guide de Charles-Lucien Huard La Typographie. â©
-
Pour rappel, un RFC (Request For Comments) est un document qui dĂ©finit les normes techniques sur les lesquelles sâappuient le rĂ©seau Internet. â©
-
ANDRĂ Jacques, « CaractĂšres, codage et normalization. De Chappe Ă Unicode », Document numĂ©rique, 2002/3-4 (Vol. 6), p. 13-49. DOI : 10.3166/dn.6.3-4.13-49.. â©
-
Les formats de texte, archives. â©
-
Ă noter quâOpenOffice, compte tenu de son absence dâĂ©volution ne supporte pas la norme ODF 1.3. â©
-
Pour tout dire, mon gestionnaire dâarchives Engrampa est incapable dâouvrir un fichier .docx et lâexplication du site, qui nâest pas un site officiel, me semble trĂšs touffue. â©
-
LittĂ©ralement : « set of macros to let you do many things ».What is the difference between TeX and LaTeX? (en). â©
-
Langage de balisage extensible (XML) 1.0, Recommandation du W3C, 10 fĂ©vrier 1998. â©
Commentaires : voir le flux Atom ouvrir dans le navigateur