❌

Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraĂźchir la page.
À partir d’avant-hierFlux principal

Une histoire de formats : il n’y a pas que la taille qui compte

Dans cette nouvelle excursion dans le temps et dans l’espace du Transimpressux, nous allons rendre une rapide visite Ă  ThĂ©otiste Lefevbvre (1798 - 1887) prote d’imprimerie et Ă  quelques-uns de ses confrĂšres ainsi que dans les magasins de quelques bibliothĂšques. Nous passerons aussi, un grand moment du cĂŽtĂ© de la Silicon Valley et de Redmond dans l’État de Washington, bien obligĂ© puisqu’on parlera beaucoup de formats numĂ©riques, sans oublier d’aller dire bonjour Ă  Donald Knuth, Tim Berners-Lee et John Gruber. On terminera notre exploration quelque part dans les archives numĂ©riques de la BibliothĂšque nationale de France (BnF).

La climatisation du Transimpressux a été entiÚrement révisée et le bar rechargé en boissons fraßches et glaces en tous genres. On vous souhaite un bon voyage.

Le transimpressux

Sommaire

Préambule

Cette dĂ©pĂȘche ne se veut pas exhaustive sur les formats en tous genres ni trĂšs technique sur les formats informatiques. Pour les formats d’image, qui ne sont pas traitĂ©s ici, je vous renvoie Ă  l’excellente dĂ©pĂȘche de Tanguy Ortolo qui a fait le tour de la question et au journal de Glandos sur l’intĂ©gration du JPEG XL dans les navigateurs.

Les formats matériels, entre coût et rangement

Encore aujourd’hui, le format matĂ©riel d’un document, spĂ©cialement, s’il s’agit d’un livre, est important pas uniquement pour des questions de coĂ»t. Mais aussi Ă  cause d’eux. C’est parce que le papier coĂ»tait cher qu’Alde Manuce a crĂ©Ă© l’italique au dĂ©but du 16e siĂšcle. L’italique prenant moins de place que les autres styles de caractĂšres, il devenait possible d’imprimer des livres en petit format qui pouvaient ainsi ĂȘtre achetĂ©s par une clientĂšle impĂ©cunieuse.

Une pile de livres
Des diffĂ©rences de taille et de tailles. Image retravaillĂ©e avec le filtre « Pencil Portrait Â» de Q’mic-Qt (et un peu Inkscape).

Les rouleaux, volumen ou rotulus

La taille de ces rouleaux varie beaucoup. Ils peuvent atteindre plusieurs mĂštres de long (ou de large, selon le sens de lecture). TĂ©moin cette remarque d’Auguste Molinier, chartiste et bibliothĂ©caire, en 1892 :

On a Ă©tudiĂ© rĂ©cemment la longueur des volumina antiques. En Égypte, elle paraĂźt avoir Ă©tĂ© illimitĂ©e ; un rouleau trouvĂ© Ă  ThĂšbes a 43 m. 50, ce qui est excessif ; il est vrai que le moyen Ăąge a eu des rouleaux de parchemin, plus solides, mais encore plus lourds et infiniment plus longs. Pour les Ɠuvres littĂ©raires grecques et latines, un Ă©rudit moderne, M. Birt, a Ă©valuĂ© Ă  12 mĂštres la longueur extrĂȘme des volumina.1

Ces longueurs dĂ©mesurĂ©es ne sont pas propres aux Égyptiens. Les Archives nationales de Paris possĂšdent un parchemin d’une longueur d’une vingtaine de mĂštres. DatĂ© de 1307, ce rouleau consigne les aveux, obtenus sous la torture, de cent-trente-huit Templiers. Il va sans dire que leur longueur et leur anciennetĂ© rend les rouleaux trĂšs difficiles Ă  manipuler, une difficultĂ© que la numĂ©risation Ă©limine.

Des formats des livres

Les noms des formats des livres en imprimerie traditionnelle sont liĂ©s au nombre de pages que l’on imprimait sur une feuille. Le mot « format Â» lui-mĂȘme pourrait venir des chĂąssis, ou « formes Â» dans lesquels on plaçait les pages Ă  imprimer. Ce procĂ©dĂ© s’appelait l’imposition.

Les formats les plus usuels, du plus grand au plus petit :

  • in-folio : soit quatre pages par feuille, la taille la plus grande de livre,
  • in-quarto, huit pages,
  • in-octavo, seize pages,
  • in-douze, vingt-quatre pages,
  • in-dix-huit, trente-six pages.

La rĂ©partition des pages sur la feuille Ă©tait Ă  la fois importante et dĂ©licate puisqu’une fois imprimĂ©e, la feuille Ă©tait pliĂ©e. Il fallait donc veiller non seulement Ă  la bonne rĂ©partition des pages sur la feuille, mais aussi Ă  leur sens. Dans son Guide pratique du compositeur d’imprimerie, ThĂ©otiste Lefebvre consacre plus d’un quart de son livre (119 pages sur 440) Ă  cette dĂ©licate question. Dans son petit guide sur la Typographie, Charles-FĂ©licien Huart y consacre aussi plusieurs pages.

Un exemple de rĂ©partition des pages2 pour un volume in-douze, « cĂŽtĂ© de premiĂšre Â» indique le recto, « cĂŽtĂ© de seconde Â», le verso. La feuille est pliĂ©e en trois dans le sens de la hauteur et deux dans la largeur.

répartition
Recto : deux sĂ©ries de pages tĂȘte en bas, pages 12, 13, 16 et 9 (1re sĂ©rie) et 8, 17, 20 et 5 (2e sĂ©rie) et, en dessous pages 1, 24, 21 et 4. Verso : deux sĂ©ries de pages tĂȘte en bas, pages 10, 15, 14 et 11 (1re sĂ©rie) et 6, 19,18 et 7 (2e sĂ©rie) et 3, 22, 23 et 2 en dessous.

Cette diffĂ©rence de tailles peut amener les bibliothĂšques dont le fond n’est pas directement accessible au public Ă  opter pour un classement matĂ©riel des livres basĂ©s sur le format. On aura ainsi des cĂŽtes du genre « in12-numĂ©ro d’inventaire Â». C’est un systĂšme trĂšs efficace et qui Ă©vite d’avoir un petit livre (littĂ©ralement) perdu au milieu de livres nettement plus grands.

Les formats actuels, livre et papier

L’indication de format Ă  partir du nombre de pages imprimĂ©es sur une feuille ne donne pas d’information prĂ©cise sur la taille effective des livres. Il faut signaler que les dimensions changent en fonction de celles de la feuille d’origine. Les appellations actuelles, cĂŽtĂ© Ă©dition, du style Livre de poche (environ 10,5 cm x 17,5 cm), livre brochĂ© ou encore grand format, utilisĂ©es en lieu et place d’in-folio, in-octavo, etc. rĂ©servĂ©s plutĂŽt au livre ancien ne sont pas plus prĂ©cises.

En, revanche, la taille des feuilles de papier les plus utilisĂ©es a fait l’objet d’une norme, la norme ISO 216. Elle concerne les formats A, dont le fameux A4 qui est celui des feuilles standard des imprimantes de bureau et le format B. Le principe : plus le numĂ©ro est Ă©levĂ©, plus la feuille est petite. La numĂ©rotation commence Ă  0 qui fait un mĂštre carrĂ© (84,1 cm x 118,9 cm) pour le format A. La taille de la feuille du numĂ©ro supĂ©rieur devant ĂȘtre Ă©gale Ă  la moitiĂ© de celle du numĂ©ro infĂ©rieur qui la prĂ©cĂšde. En d’autres termes : le format A3 Ă©gal deux fois le format A4 qui, lui-mĂȘme, est deux fois plus grand que le format A5. Il en va de mĂȘme avec le format B. Cela explique au passage pourquoi le format A4 mesure 21 x 29,7 cm et pas 21 x 30 cm.

Les formats de texte

Jusque dans les annĂ©es 1990, il y avait un nombre trĂšs important d’outils et de formats de textes. Writer de LibreOffice, d’aprĂšs mes comptes, peut ouvrir jusqu’à quarante-quatre formats de fichier diffĂ©rents, hors modĂšles et hors web, mais n’enregistre que dans des formats qui sont ceux encore utilisĂ©s Ă  l’heure actuelle. Ce qui rĂ©duit la liste Ă  treize formats incluant les modĂšles et l’HTML.

Sur cette frise chronologique, on a, en haut, des formats de texte avec leur date de naissance plus ou moins approximative et, en dessous, des langages de balisage avec leur date de naissance Ă©galement.

Formats de texte et langages de balisage
Les formats de texte : 1977 Texte brut, 1987-2007 RTF, 1990-2007 DOC, 2005 ODT, 2007 DOCX. Ils ont Ă©tĂ© choisis parce qu’ils sont les plus connus, voire, les plus utilisĂ©s. Dans cette liste deux formats ne sont plus maintenus, les formats RTF et DOC. Mais il existe encore des amas de fichiers dans ces deux formats.

Le texte brut, .txt

Le texte brut, nait Ă  une date imprĂ©cise. Probablement vers la fin des annĂ©es 1950 ou au dĂ©but des annĂ©es 1960. Le premier RFC3 qui dĂ©finit un standard de protocole pour des messages en texte brut (Standard for the Format of Arpa Network Text Messages) date de 1977, il porte le numĂ©ro 733 et a Ă©tĂ© rĂ©digĂ© par l’agence amĂ©ricaine pour les projets de recherche avancĂ©e de dĂ©fense (DARPA pour Defense Advanced Research Projects Agency).

Au dĂ©but, le format n’acceptait que l’Ascii, Ă  savoir les vingt-six lettres de l’alphabet, les chiffres, les ponctuations de base et les caractĂšres de commande Ascii. Ce qui en fait un format simple, mais trĂšs pauvre. L’Ascii est codĂ© sur 7 bits, ce qui ne permet d’avoir que cent-vingt-huit caractĂšres, en fait quatre-vingt-dix imprimables et trente-huit pour les codes de commande4. Il accepte, depuis, l’Unicode. Depuis quand ? Difficile Ă  prĂ©ciser, mais la premiĂšre mention d’Unicode qui figure sur le site rfc-editor remonte Ă  juillet 1994 (en), RFC 1641, Ă  titre expĂ©rimental. On peut supposer, en tout cas, que le consortium Unicode qui rĂ©unit la fine fleur de l’informatique a dĂ» trĂšs tĂŽt faire en sorte que son standard puisse ĂȘtre acceptĂ© dans le format texte brut.

Ce format se rĂ©vĂšle assez vite insuffisant de part sa simplicitĂ© mĂȘme, confinant Ă  la pauvretĂ© : pas d’enrichissement typographique, pas de notion de style ni de hiĂ©rarchie des paragraphes, pas de possibilitĂ© d’avoir des images. Il est, de fait, plutĂŽt infĂ©rieur Ă  ce que l’on peut avoir sur du papier. Il reste nĂ©anmoins trĂšs utilisĂ© et par toutes les applications qui traitent du texte : Ă©diteurs de texte, bureautique, etc. Il a pour lui l’avantage d’ĂȘtre simple, lĂ©ger et interopĂ©rable. C’est le format, par exemple, avec lequel la BnF Gallica dĂ©livre les documents « bruts de numĂ©risation Â» (il faut copier-coller le texte ailleurs pour le garder et le retravailler), et c’est, bien Ă©videmment, celui des RFC.

Il y a des personnes qui recommandent de conserver le texte en texte brut, compte tenu des limitations du format, ce n’est pas franchement conseillĂ© pour des documents un peu complexes Ă©tant donnĂ© qu’il y aura Ă©normĂ©ment de pertes d’information.

Le RTF

En 1987, Microsoft lance le Rich Text Format (RTF) qui permettait d’avoir du texte « enrichi Â» avec des attributs : gras, italique, soulignĂ© et de dĂ©passer le cadre du texte brut. C’est un format qui a Ă©tĂ© pendant un certain temps, un standard d’échange de fait pour ce type de fichiers. Il Ă©tait au moins lu par beaucoup de logiciels sur nombre de systĂšmes d’exploitation. C’était un format pratique d’échange, notamment Ă  une Ă©poque oĂč le PDF n’était pas encore un format ouvert et ne pouvait ĂȘtre gĂ©nĂ©rĂ© que via le (cher) logiciel d’Adobe. Et aussi parce que c’était l’époque de la « grande dĂ©mocratisation Â» de l’informatique, et, qu’à vrai dire, les utilisateurices finaux ne savaient pas trop comment, surtout sous quelle forme et ce qui se passait quand on Ă©changeait des fichiers.

Aussi pratique que soit le format RTF, outre son absence de lĂ©gĂšretĂ©, il Ă©tait nĂ©anmoins trĂšs limitĂ© : pas de texte structurĂ© autrement que sur un plan purement visuel, par exemple. Microsoft arrĂȘtera de le maintenir en 2008 (il aura tenu vingt ans tout de mĂȘme !). C’est donc un format mort.

Le .doc, un format propriétaire incontournable

Quand Microsoft lance sa suite bureautique dans les annĂ©es 1990 (la date sur la chronologie n’est pas tout Ă  fait exacte), il adopte pour le traitement de texte, Word, l’extension .doc qui avait Ă©tĂ© aussi celle de WordPerfect. Word avait pour lui de montrer le rendu du texte immĂ©diatement : le fameux WYSIWYG pour « What you see is what you get Â» (ce que vous voyez est ce que vous obtenez).

La suite finit par devenir quasiment incontournable et le format DOC de Word devenir un « standard de fait Â». Microsoft abandonnera le DOC en 2007 pour le DOCX basĂ© sur l’Office Open XML. On produira encore longtemps aprĂšs des fichiers en .doc en vertu du « tout le monde n’a pas la version de MsOffice 2007 Â». On trouve encore sur internet des modĂšles de fichiers Ă  ce format Ă  tĂ©lĂ©charger.

Il Ă©tait reprochĂ© au format son poids, lourd, des problĂšmes de confidentialitĂ© (on pouvait, par exemple, retrouver du texte effacĂ© avant l’enregistrement ou le modĂšle de l’imprimante5) et sa faiblesse devant les virus. Et, bien entendu, c’était un format propriĂ©taire et pas interopĂ©rable. Un autre dĂ©faut majeur du format Ă©tait qu’il Ă©tait modifiĂ© Ă  chaque nouvelle version de Word ce qui impliquait de devoir acheter la nouvelle version du logiciel pour pouvoir travailler sur les nouveaux fichiers en .doc.

Microsoft dĂ©livrera les sources du format en 2006, mais les spĂ©cifications semblent ne plus figurer sur le site de la firme. Le code source de la version d’origine de Word, quant Ă  lui, a Ă©tĂ© rendu public et versĂ© au musĂ©e amĂ©ricain de l’histoire de l’ordinateur (en).

Le .doc peut encore ĂȘtre ouvert et travaillĂ© d’un grand nombre de logiciels. Abiword par exemple ouvre les .doc mais pas les .docx. En revanche, il est de moins en moins possible de gĂ©nĂ©rer des fichiers Ă  ce format, et c’est une bonne chose. On ne saurait que trop vous suggĂ©rer de transformer tous les fichiers en .doc qui traĂźneraient encore dans vos ordinateurs en ODT (ou de faire le mĂ©nage). Il en va de mĂȘme pour le format de modĂšle .dot.

L’ODT : un format ouvert

En 2005 apparaĂźt un format bien intĂ©ressant : le format ODT, qui est une des composantes du plus gĂ©nĂ©ral OpenDocument Format (ODF) avec le O d’Open, le D de Document et le T de Texte, l’extension OTT Ă©tant pour les modĂšles avec le premier T pour Template (modĂšle en anglais). L’ODF est gĂ©rĂ© par le consortium OASIS, pour Organization for the Advancement of Structured Information Standards (Organisation pour l’avancement des normes d’informations structurĂ©es).

OASIS est une structure Ă  but non-lucratif autorisĂ©e par l’ISO (International Standard Organization, l’organisation dont l’objectif social est l’élaboration et la publication de normes mondiales de produits et services), Ă  publier des standards dont les spĂ©cifications sont publiquement disponibles sans passer par les fourches caudines de l’ISO. Le consortium a Ă©tĂ© crĂ©Ă© en 1993, il s’appelait Ă  l’époque SGML Open. Il Ă©tait constituĂ© de fournisseurs et d’utilisateurs d’outils informatique, son but Ă©tait le dĂ©veloppement de lignes directrices pour l’interopĂ©rabilitĂ© de logiciels utilisant le langage de balisage SGML. Il change de nom en 1998 pour devenir OASIS qui reflĂšte mieux les travaux du consortium. Parmi les cent-seize membres (l’adhĂ©sion est payante) : Ă  peu prĂšs toutes les grandes entreprises de l’informatique amĂ©ricaine et quelques chinoises ou japonaises (Alibaba, Hitachi, Huawei, Fujitsu
) mais aussi des organismes tels que le Parlement europĂ©en, l’Office des publications europĂ©ennes, le MinistĂšre français de l’IntĂ©rieur, le FBI, des universitĂ©s (Brno, Milan, Luxembourg, Oslo, Westminster, MIT, etc.), la Biblioteca del Congreso Nacional du Chili, TheDocumentFoundation, etc. Il existe en outre une fondation europĂ©enne Ă  but non lucratif OASIS Open Europe (en) affiliĂ©e au consortium et dont l’objectif est de soutenir le rĂŽle de l’Europe dans le dĂ©veloppement de l’open source et des normes ouvertes.

La version 1.0 du format OpenDocument (ODF) pour les applications bureautiques a Ă©tĂ© approuvĂ©e le 1er mai 2005 Ă  l’unanimitĂ© des soixante-dix-huit membres ayant votĂ©. La version 1.0 des directives pour l’accessibilitĂ© du format ODF, quant Ă  elle a Ă©tĂ© approuvĂ©e Ă  l’unanimitĂ© des onze membres ayant votĂ© le 1á”‰Êł mai 2008. La derniĂšre version du format ODF est la 1.3 (en), approuvĂ©e le 27 avril 2021. LibreOffice l’a intĂ©grĂ© Ă  partir des versions 7, pratiquement Ă  la sortie de la norme, c’est le format d’enregistrement par dĂ©faut. La norme ODF 1.3 a mis notamment l’accent sur la signature et le chiffrage des documents.

Le format ODF est basĂ© sur le XML. C’est un fichier « compressĂ© Â» qui en contient plusieurs6 :

  • le fichier meta.xml contient des informations au sujet du document (l’auteur, la date de la derniĂšre sauvegarde),
  • le fichier styles.xml contient les styles utilisĂ©s dans le document,
  • le fichier content.xml contient le contenu principal du document (texte, tableaux, Ă©lĂ©ments graphiques
),
  • le fichier settings.xml, en gĂ©nĂ©ral spĂ©cifique Ă  une application, contient certains paramĂštres tels que l’imprimante sĂ©lectionnĂ©e
,
  • les fichiers META-INF/manifest.xml contiennent des informations supplĂ©mentaires sur les autres fichiers (comme le type MIME ou le chiffrement).

Plus des dossiers : Pictures, Thumbnails, etc.

Ce format est le format natif notamment de LibreOffice, OpenOffice7, Calligra, Collabora Online, GoogleDocs, Zoho, il est aussi ouvert, travaillé et enregistré par des logiciels tels que MsOffice depuis 2007 (2016 pour la version pour MacOS), Office365, OnlyOffice ou AbiWord (listes non limitatives).

L’une de ses trĂšs grandes forces est, qu’à l’instar du format HTML, toute la mise en forme repose sur des styles. Ce qui rend trĂšs Ă©volutifs et adaptables les documents au format ODT (pour peu qu’ils le soient avec un logiciel qui le gĂšre bien).

En France, le format ODF est le seul format bureautique recommandĂ© par le rĂ©fĂ©rentiel gĂ©nĂ©ral d’interopĂ©rabilitĂ©. Le format ODT Ă©tant mentionnĂ© comme format Ă  privilĂ©gier par nombre d’administrations de par le monde.

Le format DOCX et son OOXML

L’annĂ©e 2007 est celle qui « rĂ©volutionne Â» la suite bureautique de Microsoft. En effet, la firme abandonne les vieux formats pour en adopter des nouveaux basĂ©s sur le XML d’oĂč le X de l’extension. Mais pas n’importe quel XML, le XML maison appelĂ© Office Open XML (OOXML pour faire court). Il est fort probable que, ce faisant, l’idĂ©e Ă©tait de court-circuiter le standard ODF. Microsoft a d’ailleurs livrĂ© une guerre fĂ©roce pour que son OOXML soit acceptĂ© par l’ISO en s’y reprenant Ă  deux fois. La norme, adoptĂ©e le 17 aout 2008, porte le numĂ©ro ISO/IEC DIS 29500. Il est possible (probable ?) Ă©galement que, Word Ă©tant ce qu’il est, se baser sur le XML de l’ODT aurait vraisemblablement nĂ©cessitĂ© un grand travail de refonte du logiciel. Il existe deux « variantes Â» de DOCX, le premier, celui de la version 2007 et celui de 2010. En effet, la norme ISO/IEC DIS 29500 n’est pas compatible avec Office 2007.

Sur le plan technique, il est reprochĂ© Ă  l’OOXML sa complexitĂ© qui en rend difficile la mise en Ɠuvre. À tel point qu’il se dit que Microsoft lui-mĂȘme ne l’implĂ©mente pas correctement. La derniĂšre version d’OOXML est actuellement la rĂ©fĂ©rence ISO/IEC 29500-1:2016 (en) de novembre 2016 (elle fait 5024 pages).

Sur le plan juridique, le caractĂšre libre de la norme est flou, il en ressort une certaine instabilitĂ© sur ce plan. Avec les spĂ©cifications, Microsoft a distribuĂ© :

un document promettant de ne pas poursuivre les auteurs de l’utilisation d’Office Open XML dans un autre logiciel que ceux de Microsoft. Cette promesse de non-poursuite elle-mĂȘme laisse certains flous, notamment :
‱ s’appliquant Ă  la norme ECMA en l’état, s’applique-t-elle Ă  une Ă©ventuelle version finale de l’ISO ?
‱ s’applique-t-elle Ă  tous les brevets logiciels nĂ©cessaires Ă  la mise en Ɠuvre de la norme ?
‱ s’applique-t-elle Ă©galement aux extensions du format OOXML ?
La licence d’utilisation de OpenXML est incompatible avec les programmes sous la licence GPL.8

À l’instar des fichiers ODF, le DOCX est un fichier compressĂ© qui en contient plusieurs. On en trouvera l’anatomie (en) par exemple sur le site Office Open XML (en).9

Il est actuellement ouvert, voire travaillé et enregistré, de la plupart des suites bureautiques.

Des langages de balisages

Parler des formats de texte sans évoquer les langages de balisage serait assez inepte puisque les formats modernes sont basés dessus. Pour rappel, un langage de balisage est un langage servant à définir et à structurer les informations dans un document.

Il en existe de nombreux, mais on n’évoquera que ceux qui semblent les plus connus ou les plus utilisĂ©s.

TeX le grand ancien

TeX fait figure de grand ancien, puisque la premiĂšre version du langage de balisage date de 1978. Cela dit, on devrait peut-ĂȘtre plutĂŽt parler « d’écosystĂšme Â» car c’est Ă  la fois un format, le langage de balisage utilisĂ© par LaTeX et un logiciel libre de composition. TeX a Ă©tĂ© crĂ©Ă© par Donald E. Knuth, professeur Ă©mĂ©rite Ă  l’UniversitĂ© de Stanford et considĂ©rĂ© comme l’un des pionniers de l’algorithmique. L’objectif de Donald E. Knuth en crĂ©ant TeX Ă©tait d’avoir des documents scientifiques et techniques de bonne qualitĂ© typographique, ce qu’il n’était pas possible d’obtenir avec les logiciels d’édition de l’époque. Le principe du langage TeX est la sĂ©paration du contenu de et la forme, ce qui Ă©tait innovant.

TeX est complĂ©tĂ© par LaTeX qui est « un ensemble de macros permettant de faire beaucoup de choses Â»10, et, bien sĂ»r, par le langage de composition de polices vectorielles Metafont. LaTeX a Ă©tĂ© dĂ©veloppĂ© par Leslie Lamport. La premiĂšre version est sortie en 1983.

Ce n’est pas un traitement de texte, l’idĂ©e Ă©tant que l’auteur ou l’autrice :

puisse mettre son Ă©nergie Ă  rĂ©diger le contenu sans ĂȘtre distrait par l’apparence de son document. En Ă©crivant en langage LaTeX, l’utilisateur doit donc dĂ©finir sĂ©mantiquement le contenu de son document plutĂŽt que visuellement. DMS, UniversitĂ© de MontrĂ©al.

On peut générer des fichiers TeX soit directement avec un éditeur de texte, soit avec des logiciels comme Lyx ou encore Overleaf qui est un éditeur LaTeX en ligne et collaboratif. Mais, pour en voir le rendu, il faudra soit faire un PDF, si on utilise un éditeur de texte, soit passer par le visualiseur, quand il existe, dans un logiciel tel que Lyx.

À ma connaissance la plupart des suites bureautiques ne l’acceptent pas, pas plus que Calibre d’ailleurs.

La derniÚre version de TeX, 3,143.141592653 date de janvier 2021. Le format est géré par le groupe des utilisateurs de TeX ou TUG (en). LaTeX quant à lui est géré par le projet LaTeX (en). La derniÚre version date de juin 2024.

Le SGML et ses petits

Le SGML, S pour Standard, G pour Generalized, M pour Markup et L pour Langage (langage de balisage gĂ©nĂ©ralisĂ© normalisĂ©) possĂšde le numĂ©ro de norme ISO 8879:1986. 1986 Ă©tant l’annĂ©e d’obtention du numĂ©ro ISO, la premiĂšre version du SGML Ă©tant sortie en 1978. Produit de l’industrie de l’édition, il a adoptĂ©, comme TeX, le principe de la sĂ©paration complĂšte du fond et de la forme. C’est, en fait, une norme permettant de dĂ©finir des langages de balisage gĂ©nĂ©riques pour des documents. SGML sera, dĂšs 1984, le format standard des publications officielles des CommunautĂ©s europĂ©ennes.

Ce qui caractĂ©rise un document SGML : il doit possĂ©der une « dĂ©finition du type de document Â» (DTD ou doctype en anglais). Cette DTD sert Ă  indiquer la structure du document. Et, Ă©videmment le systĂšme de balises que l’on va retrouver chez les membres de la famille.

HTML, sans lequel, possiblement, LinuxFr.org ne serait pas

Le langage HTML, pour HyperText Markup Language, est un langage de balisage pour l’hypertexte, cette fonctionnalitĂ© qui permet de naviguer sur internet. Il a Ă©tĂ© crĂ©Ă©, ou plutĂŽt lancĂ© au dĂ©but des annĂ©es 1990 par Tim Berners-Lee qui en a profitĂ© pour concevoir au passage la forme des adresses Web que nous connaissons (les URL) et le protocole de communication HTTP.

Le format HTML est gĂ©rĂ© par le World Wide Web Consortium (W3C) fondĂ© en 1994 par Tim Berners-Lee. L’objectif du W3C : Ă©mettre des normes et des recommandations pour le web.

La premiĂšre version de HTML Ă©tait trĂšs limitĂ©e : cela n’allait pas plus loin que la structure du texte avec les balises de titres et de listes, et les liens hypertextes.

En 1999, sort la version 4 (en) qui deviendra une norme ISO en 2000. La norme HTML 4 supporte pleinement le langage de mise en forme CSS (Cascading Style Sheet ou feuilles de style en cascade). Le HTML 4 existe en trois variantes, si on peut dire :

  • le HTML strict qui exclut les Ă©lĂ©ments de « prĂ©sentation Â» puisque qu’il revient au CSS de faire le travail de mise en forme,
  • le HTML transitionnel accepte quelques balises de prĂ©sentation obsolĂštes hĂ©ritĂ©es du HTML 3,
  • frameset qui normalise les jeux de cadre, les «frames Â».

La derniĂšre version de HTML est le HTML 5 publiĂ© en 2012. Il ne remplace pas le HTML 4.1 : les deux standards coexistent. HTML 5 apporte en plus des fonctionnalitĂ©s d’animations complexes, multimĂ©dia avec de l’audio et de la vidĂ©o, etc. jusque-lĂ  assurĂ©es notamment par le logiciel privateur Flash. HTML 5 s’est aussi Ă©loignĂ© du SGML.

XML le futur du HTML

C’est, en tout cas, ainsi que s’intitulait en 1998 un article (en) de Todd Freter (en) directeur de programme chez Sun Microsystem. DĂ©fini comme un sous-ensemble de SGML, « le XML a Ă©tĂ© conçu pour ĂȘtre facile Ă  mettre en Ɠuvre et interopĂ©rable avec SGML et HTML Â»11. De fait les syntaxes HTML et XML sont les mĂȘmes. L’une des diffĂ©rences fondamentales entre les deux Ă©tait, au dĂ©part, qu’il Ă©tait possible de dĂ©finir ses propres balises avec XML, mais pas avec HTML. Un comportement qui a Ă©tĂ© modifiĂ© en 2014 pour HTML avec les Web Components (en).

XML (eXtensible Markup Language) a Ă©tĂ© dĂ©veloppĂ© par un groupe de travail pilotĂ© par le W3C Ă  partir de 1996, avec, comme prĂ©sident, Jon Bosak (en) de Sun Microsystems. Les objectifs, Ă  sa sortie en 1998, Ă©taient les suivants selon la Recommandation du W3C du 10 fĂ©vrier 1998 :

  1. XML devrait pouvoir ĂȘtre utilisĂ© sans difficultĂ© sur Internet ;
  2. XML devrait soutenir une grande variĂ©tĂ© d’applications ;
  3. XML devra ĂȘtre compatible avec SGML ;
  4. Il devrait ĂȘtre facile d’écrire des programmes traitant les documents XML ;
  5. Le nombre d’options dans XML doit ĂȘtre rĂ©duit au minimum, idĂ©alement Ă  aucune ;
  6. Les documents XML devraient ĂȘtre lisibles par l’homme et raisonnablement clairs ;
  7. La conception de XML devrait ĂȘtre prĂ©parĂ©e rapidement ;
  8. La conception de XML sera formelle et concise ;
  9. Il devrait ĂȘtre facile de crĂ©er des documents XML ;
  10. La concision dans le balisage de XML est de peu d’importance.

Qu’en est-il aujourd’hui de ces principes ?

En fonction de la syntaxe XML du document, s’il est transmis avec le type MIME text/html, il est vu par les navigateurs comme un fichier HTML. En revanche, s’il est transmis avec un type XML MIME, il sera traitĂ© comme un document XML. Dans le deuxiĂšme cas de figure, des erreurs de syntaxe mĂȘme mineures empĂȘcheront un document Ă©tiquetĂ© XML d’ĂȘtre correctement restituĂ© alors qu’elles seraient ignorĂ©es dans la syntaxe HTML. L’objectif 1, n’est donc pas atteint et XML ne remplace dĂ©finitivement pas HTML. En revanche, XML est effectivement trĂšs utilisĂ© : outre les formats ODF et OOXML, c’est le langage sur lequel est basĂ© le format SVG (Scalable Vector Graphics, ou, en français graphique vectoriel adaptable) et c’est le format de rĂ©fĂ©rence pour l’échange de donnĂ©es. Mais, pour ce qui est de la lisibilitĂ© du format par des yeux humains, elle n’est pas toujours au rendez-vous.

XML est maintenu par le W3C. La derniÚre version (en) porte le numéro 1.1, elle est sortie le 29 septembre 2006.

Langages de balisage léger

Les langages de balisage lĂ©ger sont conçus pour ĂȘtre facile Ă  utiliser avec un Ă©diteur de texte. La syntaxe en est simple.

Le MarkDown, peut-ĂȘtre le plus connu d’entre eux, a Ă©tĂ© crĂ©Ă© en 2004 par le programmeur amĂ©ricain John Gruber; aidĂ© d’Aaron Swartz. Il n’a pas subi d’évolution importante depuis. En revanche, il en existe des variantes. John Gruber le dĂ©finit comme :

un outil de conversion de texte en HTML destinĂ© Ă  la rĂ©daction Web. Markdown vous permet d’écrire en utilisant un format de texte brut facile Ă  lire et Ă  Ă©crire, puis de le convertir en XHTML (ou HTML) structurellement valide. Daring Fireball (en).

Pour en savoir plus sur la syntaxe MarkDown, on peut, trÚs profitablement, se référer au wiki de LinuxFr.org.

Il en existe d’autres comme txt2tags crĂ©Ă© en 2001 ou encore AsciiDoc (en) dont la premiĂšre version date de 2002. Txt2tags (en) est un logiciel gĂ©nĂ©rateur de documents Ă©crit en Python et qui utilise un langage de balisage lĂ©ger comme source. Quant Ă  AsciiDoc, il se veut un langage particuliĂšrement adaptĂ© Ă  la rĂ©daction de documentations techniques. Il existe aussi le langage de balisage du CMS (gestion de contenu web) SPIP, nĂ© en 2001.

L’archivage et la conservation des textes

Il est ici, Ă©videmment question des formats d’archivage des textes, avec ou sans images, tableaux, formules de mathĂ©matiques, etc. Avant d’aborder cette question : une dĂ©finition s’impose. Il ne s’agit pas des formats dits d’archives de type .zip, .rar, .tar etc. Archiver les textes c’est, dans ce contexte, pouvoir les conserver et y accĂ©der sans avoir besoin de l’application qui a servi Ă  les gĂ©nĂ©rer. Et ce soit en conservant la mise en page d’origine, comme pour le PDF, soit en laissant Ă  l’outil de lecture la main pour la mise en page. Chaque format a ses spĂ©cificitĂ©s. Mais de toute façon :

un bon format de prĂ©servation, c’est un bon format tout court. Outils open source nombreux, mĂ©tadonnĂ©es internes bien foutues, dĂ©marche collective de normalisation
 Bertrand Caron, archiviste numĂ©rique Ă  la BnF, janvier 2024.

EPUB

L’EPUB, pour Electronic PUBlication, est un format de document numĂ©rique qui n’est pas destinĂ© Ă  l’impression. L’une de ses spĂ©cificitĂ©s est, notamment, de laisser Ă  l’utilisatrice ou l’utilisateur le choix du rendu du fichier. Il existe, toutefois, un mode « fixed-layout Â» qui fige la mise en forme de l’EPUB. Ce mode a Ă©tĂ© conçu pour les publications qui nĂ©cessitent que la mise en page soit respectĂ©e, comme certaines publications scolaires. Mais cela rĂ©clame une mise en page adaptĂ©e aux tailles des Ă©crans des appareils de lecture.

EPUB a succĂ©dĂ© au format OeB (Open eBook). Au dĂ©part, gĂ©rĂ© par l’International Digital Publishing Forum (IDPF) qui sera intĂ©grĂ© au W3C en 2017. La premiĂšre version sort en 2007, suivie, en 2010 par l’EPUB2 et, en 2011, par l’EPUB3. Il a Ă©tĂ© trĂšs vite adoptĂ©. Aujourd’hui les deux versions coexistent, l’EPUB2 prĂ©dominant encore sur l’EPUB3. Le format est basĂ© sur XML et sur HTML. Un fichier EPUB est un fichier zip qui contient plusieurs fichiers et rĂ©pertoires dont un dossier META-INF qui contient un fichier container.xml, ce dossier n’apparait pas quand on gĂ©nĂšre un fichier Ă  partir de Sigil d’ailleurs. Les fichiers de texte sont au format XHTML.

Qu’apporte l’EPUB3 par rapport Ă  l’EPUB2 ? Les Ă©volutions concernent principalement l’accessibilitĂ© et l’intĂ©gration de contenus audio ou vidĂ©o. Ainsi les formules de mathĂ©matiques qui, en EPUB2 sont converties en images, donc illisibles sans yeux, sont gardĂ©es en tant que telles avec EPUB3. Les liseuses ne supportent pas forcĂ©ment toutes les fonctions, notamment multimĂ©dias.

Il est possible d’y ajouter diffĂ©rents types de marquage ou de verrous : les DRM Adobe, chĂšres et complexes, les DRM LCP, trĂšs pratiques pour le prĂȘt des livres en bibliothĂšque ou encore des filigranes qui n’imposent aucune limitation aux EPUB. L’apposition d’une DRM a un EPUB est, en principe, une dĂ©cision Ă©ditoriale. Il semble nĂ©anmoins que certaines librairies Ă©prouvent le besoin d’en rajouter. Il convient donc d’ĂȘtre vigilant quand on achĂšte un EPUB si on veut Ă©viter d’avoir un livre avec une DRM. Le livre numĂ©rique reprĂ©sente 10,1 % du chiffre d’affaires de l’édition française en 2023, ce qui inclut les EPUB et les PDF.

La version la plus rĂ©cente du format EPUB et l’EPUB3.3 sortie en mai 2023. Elle est devenue une Recommandation W3C (en).

PDF

L’objectif du format PDF a contrario de celui de l’EPUB est le respect de la mise en page du fichier qui a servi Ă  le gĂ©nĂ©rer. De ce fait, il n’est pas trĂšs lisible sur une liseuse ou sur un tĂ©lĂ©phone.

La naissance du PDF remonte Ă  1991 et elle est due Ă  John Warnock cofondateur d’Adobe. La premiĂšre version de ce format est sortie en 1992. À l’époque c’était assez fou de pouvoir accĂ©der Ă  un fichier avec sa mise en page d’origine sans qu’il soit nĂ©cessaire d’avoir l’application qui avait servi Ă  le gĂ©nĂ©rer. Il deviendra un standard ouvert gĂ©rĂ© par l’ISO en 2008, numĂ©ro ISO 32000.

En fait il n’existe pas un, mais plusieurs formats PDF dont :

  • PDF/A pour l’archivage,
  • PDF/E pour les documents techniques,
  • PDF/X pour l’impression,
  • PDF/UA pour l’accessibilitĂ© universelle,
  • ou encore des formulaires FDF.

La version PDF/A-3 permet d’incorporer le fichier d’origine au PDF : dans l’export PDF de LibreOffice, cela s’appelle un PDF hybride. Cela donne un fichier qui pĂšse deux fois plus lourd, grosso modo, minus le poids des polices embarquĂ©es, que le PDF « simple ». Et, si on ouvre le PDF Ă  partir de l’application qui a servi Ă  le crĂ©er, ou si on clique sur « Cliquer pour les afficher » (ou Ă©quivalent) dans un lecteur de PDF qui le permet, ici Okular, on ouvre le fichier d’origine. Mais, Ă©videmment, quand on le modifie ça ne modifie pas le PDF. Il faut soit gĂ©nĂ©rer un nouveau PDF soit l’écraser.

À savoir, il n’y a que quatorze polices standard PDF, en fait seulement cinq fontes diffĂ©rentes avec leurs variantes, gras, italiques : Courrier, Helvetica, Times Roman, Symbol et Zapf Dingbats. Il est donc trĂšs important, quand on gĂ©nĂšre un PDF d’incorporer les polices au fichier Ă  condition que cela soit permis par la licence des polices. Pour ne pas alourdir le fichier, il est suggĂ©rĂ© de n’incorporer que les polices utilisĂ©es dans le document. Avec LibreOffice, vous pouvez configurer cela soit en gĂ©nĂ©rant le PDF, soit, de prĂ©fĂ©rence, la premiĂšre fois que vous enregistrez le fichier, c’est dans l’onglet « Police Â» des propriĂ©tĂ©s dudit fichier. Si vous utilisez un modĂšle, la case peut avoir Ă©tĂ© cochĂ©e dans le modĂšle et il ne sera pas nĂ©cessaire de le faire.

Kurinto une histoire de chasses

La chasse, en typographie, est l’encombrement d’un caractĂšre : largeur plus approche (espace autour). Pour un mĂȘme corps de caractĂšre (sa hauteur), elle peut varier selon les polices, ce qui, Ă©videmment, peut changer, voire, chambouler, complĂštement un document crĂ©Ă© avec une police et pour lequel on a changĂ© la typographie. La collection de polices Kurinto (en) a Ă©tĂ© dessinĂ©e Ă  la fois pour couvrir un large Ă©ventail de langues et de systĂšmes d’écriture et dans l’optique de pouvoir remplapcer les polices Microsoft avec des glyphes qui ont la mĂȘme chasse.

Si vous cherchez des polices au dessin Ă©lĂ©gant pour remplacer des fontes comme le couple Arial/Times New Roman, avoir aussi des typographies Ă  chasse fixe ou lĂ©gĂšrement fantaisie, l’ensemble de polices Kurinto est un bon choix qui offre en prime une bonne cohĂ©rence entre les diverses polices. Elles sont sous licence SIL.

DĂ©clinaison des noms des polices Kurinto permettant de voir leurs chasses respectives

Les textes et documents qui ont servi Ă  alimenter cette dĂ©pĂȘche

Les rĂ©fĂ©rences sont donnĂ©es Ă  peu prĂšs dans leur ordre d’apparition dans le texte. Ils sont tous accessibles en ligne et, de prĂ©fĂ©rence, en français. Volontairement, il y a un minimum de rĂ©fĂ©rences Ă  WikipĂ©dia. Ce n’est pas tout Ă  fait exhaustif, mais ça vous fera dĂ©jĂ  pas mal de lecture. Par exemple, je n’ai pas citĂ© le blog de StĂ©phane Bortzmeyer qui m’a bien servi Ă  dĂ©fricher le terrain.

Les formats matériels

  • Sur les rouleaux notamment leur rangement. Le site Rotulus est consacrĂ© aux rouleaux mĂ©diĂ©vaux.
  • Guide pratique du compositeur d’imprimerie, ThĂ©otiste LefĂšvre, un guide considĂ©rĂ© longtemps comme une, si pas LA, rĂ©fĂ©rence en matiĂšre de typographie et d’imprimerie. Paru en 1855, il fera l’objet de multiples Ă©ditions, les derniĂšres en 2000. Aujourd’hui encore, ses pages sur la typographie peuvent servir de rĂ©fĂ©rences. ThĂ©otiste LefĂšvre Ă©tait le fils d’un apprenti compositeur. Il commencera comme ouvrier en imprimerie pour devenir une figure clĂ© du secteur. Sa fille deviendra correctrice. La version du guide donnĂ©e en tĂ©lĂ©chargement sur le site archive.org est d’assez mauvaise qualitĂ©. De toute façon, avec le texte brut ou la piĂštre qualitĂ© de la reconnaissance des caractĂšres on perd absolument tout ce qui fait l’intĂ©rĂȘt du livre qui donne beaucoup d’exemples.
  • Sur les formats A. Le site donne les dimensions des feuilles de papier en centimĂštres et en pixels.

Les formats numériques (texte et archivage)

La police

Postambule

La prochaine dĂ©pĂȘche de la sĂ©rie devrait ĂȘtre moins longue (pas difficile) et portera sur le code avant Unicode. Elle parlera donc aussi de football. Comme toujours, vos suggestions sont apprĂ©ciĂ©es.


  1. MOLINIER A. « Les manuscrits et les miniatures Â», BnF Gallica: Librairie Hachette, 1892. Disponible sur : BnF Gallica en PDF ou en texte brut. â†©

  2. L’exemple est reproduit Ă  partir du petit guide de Charles-Lucien Huard La Typographie↩

  3. Pour rappel, un RFC (Request For Comments) est un document qui dĂ©finit les normes techniques sur les lesquelles s’appuient le rĂ©seau Internet↩

  4. ANDRÉ Jacques, « CaractĂšres, codage et normalization. De Chappe Ă  Unicode Â», Document numĂ©rique, 2002/3-4 (Vol. 6), p. 13-49. DOI : 10.3166/dn.6.3-4.13-49.↩

  5. Les formats de texte, archives. â†©

  6. Wiki de LibreOffice↩

  7. À noter qu’OpenOffice, compte tenu de son absence d’évolution ne supporte pas la norme ODF 1.3↩

  8. Office Open XML – DĂ©finition↩

  9. Pour tout dire, mon gestionnaire d’archives Engrampa est incapable d’ouvrir un fichier .docx et l’explication du site, qui n’est pas un site officiel, me semble trĂšs touffue. â†©

  10. LittĂ©ralement : « set of macros to let you do many things Â».What is the difference between TeX and LaTeX? (en)↩

  11. Langage de balisage extensible (XML) 1.0, Recommandation du W3C, 10 fĂ©vrier 1998. â†©

Commentaires : voir le flux Atom ouvrir dans le navigateur

L’écriture et l’image, des Ăąges farouches au texte Ă©lectronique

Dans cette nouvelle excursion du Transimpressux, nous voyagerons chez les Mayas de l’époque prĂ©-colombienne ainsi que dans la Rome antique. Nous ferons un rapide tour des monastĂšres mĂ©diĂ©vaux, nous irons rendre une courte visite Ă  Aloys Senefelder Ă  Munich. Nous en profiterons pour aller voir Isaac Newton, Tintin et AstĂ©rix et on terminera notre voyage Ă  Kreutzal, en Allemagne. On n’y parlera pas de Rahan, quoique. On aura compris qu’il sera question d’image, d’écriture et de texte.

Le bar du Transimpressux vous propose un vaste Ă©chantillon issu du pas si grand livre des recettes de LinuxFr.org. En espĂ©rant qu’à la lecture de cette dĂ©pĂȘche vous aurez fait un beau voyage.

Train jaune

Sommaire

Préambule

Au dĂ©part, j’avais prĂ©vu de parler aussi de formats, mais, Ă  l’arrivĂ©e, c’est dĂ©jĂ  bien long. La question des formats fera donc l’objet d’une autre dĂ©pĂȘche de la sĂ©rie.

J’utilise indiffĂ©remment les termes de fonte, police, police de caractĂšre ou typographie. Et, comme il sera question de pĂ©riodes trĂšs Ă©loignĂ©es dans le temps, celles antĂ©rieures Ă  notre Ăšre seront indiquĂ©es sous la forme AEC (avant l’ùre commune).

Quelques définitions avant de commencer

Il est possible que certaines notions ne vous soient pas claires, ces quelques dĂ©finitions vous seront peut-ĂȘtre utiles.

L’écriture et l’image, des concepts diffĂ©rents vraiment ?

L’écriture n’est pas de l’image, l’image n’est pas de l’écriture. Oui et non.

L’exemple des hiĂ©roglyphes mayas

Le systĂšme d’écriture maya n’est pas purement logographique. D’ailleurs est-ce qu’un systĂšme d’écriture uniquement logographique ou pictographique existe vraiment ? On a vu prĂ©cĂ©demment sur LinuxFr.org concernant les systĂšmes d'Ă©criture que les hiĂ©roglyphes Ă©gyptiens et les sinogrammes n’étaient pas composĂ©s que de pictogrammes, mais qu’ils allaient de pair avec d’autres signes, notamment phonographiques. Il en va de mĂȘme avec l’écriture maya qui

est un systĂšme graphique normalisĂ© qui, au moyen de quelques centaines de « signes-mots Â» (ou logogrammes) et environ 150 phonogrammes marquant des syllabes de type Consonne-Voyelle1.

L’écriture maya est apparue, Ă  notre connaissance vers 400 AEC et a Ă©tĂ© utilisĂ©e jusqu’au XVIIe siĂšcle oĂč l’envahisseur espagnol a tout fait pour l’éradiquer, y compris en brĂ»lant des codex. Entre les Espagnols et le climat chaud et humide de la sphĂšre d’influence maya, on ne connaĂźt plus que trois codex mayas prĂ©colombiens2 : le codex de Dresde, celui de Paris et celui de Madrid. Un quatriĂšme codex, le codex Grolier, conservĂ© Ă  Mexico est sujet Ă  controverses, sa datation et son authenticitĂ© ne sont pas certaines. Mais on retrouve aussi l’écriture maya sur des monuments et du mobilier. On trouve Ă©galement des graffitis, signe, sans doute, d’un certain niveau d’alphabĂ©tisation de la population maya. L’écriture maya devait transcrire plusieurs langues amĂ©rindiennes, lesquelles langues ont toujours des locuteurs.

codex de Paris
Deux pages du codex de Paris

Pour autant qu’on sache, pour les Mayas, leur Ă©criture tout au moins, l’image Ă©tait importante. Selon Jean-Michel Hoppan :

Cette Ă©criture est rigoureuse et, tout Ă  la fois, trĂšs souple. Elle n’est pas normalisĂ©e, au contraire de l’idĂ©e qu’on se fait habituellement d’une Ă©criture. Le scribe peut privilĂ©gier l’esthĂ©tisme au dĂ©triment de la comprĂ©hension immĂ©diate (en tout cas pour nous). C’est encore plus Ă©vident sur les cĂ©ramiques, oĂč le texte est parfois complĂštement inintelligible. Le glyphe est lĂ , toujours chargĂ© du pouvoir de l’écrit, mais le contenu de la parole n’est plus. Il devient image. Il y a une grande partie de la cĂ©ramique oĂč l’on voit de l’écriture, mais qui, de fait, est constituĂ©e de pseudoglyphes.3

Les hiĂ©roglyphes mayas n’ont pas de bloc Unicode, mĂȘme si les chiffres y figurent depuis la version 11.0 (juin 2018). Un billet du blog du consortium (en) du 23 janvier 2020 annonçait l’existence d’une subvention « pour restituer numĂ©riquement des Ă©critures historiques et modernes supplĂ©mentaires, y compris des hiĂ©roglyphes mayas. Â». L’idĂ©e Ă©tant aussi de faire progresser la recherche de la connaissance de l’écriture et de la culture maya sur les sites de la pĂ©riode 250 – 900, une Ă©tape importante pour dĂ©terminer les signes Ă  intĂ©grer Ă  Unicode, et d’aboutir Ă  la crĂ©ation de polices OpenType. La derniĂšre version de la norme Unicode, 15.1.0, date du 12 septembre 2023, un peu juste pour incorporer les hiĂ©roglyphes mayas quand on sait que la crĂ©ation d’une police peut prendre de quatorze Ă  seize mois.

Le contre exemple romain

L’alphabet latin puise ses origines dans l’alphabet Ă©trusque, qui, lui-mĂȘme, provient du systĂšme d’écriture grecque et c’est, bien entendu, celui que nous utilisons sur LinuxFr.org (le latin, pas le grec, suivez un peu). C’est celui de l’ASCII. Il figure dans l’Unicode, Ă©videmment, oĂč il dispose de plusieurs blocs. Le bloc latin de base contient en fait tous les caractĂšres et commandes de l’ASCII. Il n’a pas Ă©tĂ© modifiĂ© depuis la version 1.0.0 d’Unicode.

D’aprĂšs les Ă©crits qui nous sont arrivĂ©s, les Romains avaient une vision trĂšs « utilitariste Â» de l’écriture. Pour eux (les Ă©crits qui nous sont parvenus sur le sujet proviennent essentiellement d’hommes) :

l’écriture est essentiellement destinĂ©e Ă  (
) reprĂ©senter [le langage]. De plus, dans sa version alphabĂ©tique, qui est Ă  peu prĂšs la seule Ă  laquelle pensent les Latins, l’écriture est une notation des sons, les lettres renvoient Ă  des sons Ă©lĂ©mentaires et l’alphabet correspond terme Ă  terme (en principe) Ă  un inventaire fini de ces sons.4

Il s’agissait donc pour les anciens Romains non pas de

faire une science de la langue Ă  travers sa reprĂ©sentation graphique, mais bien une science de l’écrit en tant qu’il renvoie Ă  la langue. (Françoise Desbordes).

Un support du langage bien imparfait d’ailleurs puisqu’il ne rend pas les effets du discours oral. Et ce facteur explique aussi que la graphie ait mis du temps Ă  se normaliser. L’écrit Ă©tant l’image de l’oral : la langue pouvait ĂȘtre prononcĂ©e par des locuteurs avec des accents diffĂ©rents et s’écrire ainsi en fonction de la prononciation.

Les Ă©crits des Romains Ă©taient variĂ©s, indĂ©pendamment des discours, naturellement et sous diverses formes : monumentales, tablettes de cire, papyrus, mais aussi graffitis que l’on pouvait retrouver sur les murs des Ă©difices privĂ©s. Des graffitis qui Ă©taient destinĂ©s Ă  ĂȘtre lus et Ă©taient trĂšs liĂ©s Ă  l’oral :

les messages interpellant parfois nommĂ©ment, au vocatif, une personne – homme ou femme. Ainsi s’explique aussi l’abondance des exclamations (feliciter ! salutem !), des salutations (salve vale !) et des vƓux (votum aux Lares pour la salus du maĂźtre de maison). Leur caractĂšre performatif ne fait pas de doute.5

graffiti
Graffiti de Pompéi vantant les exploits sexuels du miles Floronius (CIL, IV, 8767). Wolff 2012, 19, fig. 7.

La sĂ©paration du texte et de l’image

Des compétences, des métiers et des techniques différentes.

Les manuscrits mĂ©diĂ©vaux, une sĂ©paration parfois extrĂȘme

Le travail de copie des monastĂšres mĂ©diĂ©vaux, notamment (la profession se sĂ©cularisera Ă  partir du XIIIe siĂšcle), diffĂ©rait en fonction des lieux et des Ă©poques. Au dĂ©but, le, ou les copistes, suivant en cela, semble-t-il, les traditions grecques et romaines, Ă©taient Ă©galement chargĂ©s de l’ornementation. Les copistes, parce que la copie d’un manuscrit pouvait ĂȘtre distribuĂ©e en plusieurs cahiers Ă  diffĂ©rents copistes pour accĂ©lĂ©rer le travail de copie. La ponctuation, quant Ă  elle, Ă©tait gĂ©nĂ©ralement du ressort des correcteurs, quand il y en avait, pas des copistes.

Il arrivait aussi qu’il y ait un copiste pour le texte et un pour les enluminures, surtout pour les manuscrits les plus riches. Dans ce cas, le ou la copiste Ă©crivait la lettre Ă  enluminer et laissait la place nĂ©cessaire, Ă  charge pour l’enlumineur ou l’enlumineuse d’orner le parchemin. Les copies n’étant pas du ressort unique des monastĂšres, les enlumineurs et les enlumineuses Ă©taient souvent des peintres.

Et parce que le travail Ă©tait ainsi le fait de corps de mĂ©tier diffĂ©rents, il subsiste des manuscrits mĂ©diĂ©vaux pas finis, avec des « blancs Â» pour des enluminures qui ne verront jamais le jour.

L’imprimerie : des typographies ornementales

Jusqu’à la fin du XVIIIe siĂšcle, les techniques d’impression ont assez peu Ă©voluĂ©. Il y avait des perfectionnements et des amĂ©liorations, certes, mais, les techniques restaient grosso modo celles de Gutenberg. Les illustrations Ă©taient gravĂ©es Ă  part, puis, aprĂšs la dĂ©couverte fortuite de la lithographie par Aloys Senefelder en 1796 dessinĂ©es sur la pierre, ce qui permettait aux artistes de travailler directement sur la pierre sans avoir Ă  passer par l’intermĂ©diaire d’un graveur. La lithographie permet en effet de dessiner le motif sur la pierre, Ă  l’origine. Senefelder travaillera aussi sur plaque de zinc. La lithographie repose sur le principe de l’antagonisme de l’eau et de la graisse : les zones Ă  imprimer sont traitĂ©s Ă  la graisse, les autres sont mouillĂ©es. L’encre grasse se dĂ©pose ainsi seulement sur les zones grasses.

Si l’impression en noir et blanc pouvait se faire d’une traite, celle en couleurs, selon les exigences et les techniques utilisĂ©es, pouvait requĂ©rir jusqu’à quatorze opĂ©rations diffĂ©rentes, et presque autant de passages couleurs. L’offset actuel, un procĂ©dĂ© qui dĂ©rive de la lithographie, fonctionne en quadrichromie : cyan, magenta, jaune et noir (CMJN) et autant de passages couleur.

Les ornements plus susceptibles d’ĂȘtre rĂ©utilisĂ©s : lettrines, culs-de-lampe et autres fleurons, lignes et arabesques faisaient l’objet, quant Ă  eux, de fontes ornementales spĂ©cifiques. Il y avait mĂȘme des graveurs typographes spĂ©cialistes de typographie ornementale comme Joseph-Gaspard GillĂ© (pdf) (1766-1826). Aujourd’hui, ce genre de fonte peut se trouver, dans les blocs Unicode de systĂšmes d’écriture, notamment, latin. On y retrouve d’ailleurs bon nombre de ces polices ornementales purement figuratives mĂȘme si leur dessin ne correspond pas Ă  une lettre. Mais elles pourraient aussi bien figurer dans les flĂšches, les filets, les pavĂ©s, le bloc casseau ou encore les deux zones supplĂ©mentaires.

Les symboles du zodiaque
Les symboles du zodiaque de la collection de fontes de Gillé. Les symboles du zodiaque figurent dans les points de code Unicode U+2648 à 2653 (avec des dessins moins figuratifs).

Toutes les techniques d’imprimerie continuent Ă  exister, de façon plus ou moins anedoctique. Les deux plus rĂ©pandues Ă©tant l’offset, pour les gros volumes, et l’impression numĂ©rique (laser ou jet d’encre). Cette derniĂšre Ă©tant la seule Ă  imprimer les couleurs d’une seule traite.

La bande dessinĂ©e : des mĂ©tiers diffĂ©rents

La bande dessinĂ©e ce n’est pas un mĂ©tier mais quatre mĂ©tiers diffĂ©rents qui peuvent ou non, ĂȘtre assurĂ©s par la mĂȘme personne :

  • le scĂ©nario,
  • le dessin,
  • la couleur,
  • et le lettrage qui nous intĂ©resse ici.

Le lettrage, dans la bande dessinĂ©e ce sont en fait plusieurs types d’écriture :

le paratexte (titres, signatures, numĂ©rotation), les interventions du narrateur (rĂ©citatifs, didascalies, commentaires), toute la notation des sons (dialogues, onomatopĂ©es, bruits) – le lettrage assume ainsi une part trĂšs importante du « rĂ©gime sonore Â» de la bande dessinĂ©e, au point que l’on appelle « muettes Â» les bandes dessinĂ©es qui n’en comportent pas du tout (puisque le lettrage n’est pas indispensable Ă  la rĂ©alisation d’une bande dessinĂ©e).6

Gotlib (les Dingodossiers, la Rubrique à brac, Super Dupont, Gai-Luron) est entré en bande dessinée par la voie du lettrage.

L’élĂšve Chaprot roi
Un extrait des Dingodossiers de Gotlib, scĂ©nario de Goscinny. L’image comporte des didascalies Ă  gauche et en haut Ă  droite, une bulle de texte, en-dessous, du texte « sonore. Â»

D’autres auront leur lettreur attitrĂ©, comme HergĂ©. ArsĂšne Lemey a assurĂ© le lettrage de ses Tintin Ă  partir de la version allemande du Secret de la licorne, le onziĂšme album de la sĂ©rie. La police de caractĂšre crĂ©Ă©e par ArsĂšne Lemey pour Tintin est l’Arleson, elle sera intĂ©grĂ©e Ă  la photocomposeuse de Casterman dans les annĂ©es 1970. Pour la sĂ©rie AstĂ©rix ce sont les lettrages de Michel Janvier, en charge de cette tĂąche pour un certain nombre d’album depuis 1989, qui ont Ă©tĂ© numĂ©risĂ©s. Trois famille principale de typographies ont ainsi Ă©tĂ© crĂ©Ă©es par Le Typophage : Regularus pour les bulles, Boldus pour l’écriture trĂšs grasse et Graphix pour les onomatopĂ©es et les symboles graphiques.

Avoir sa propre police est actuellement assez facile en passant par des sites comme le Calligraphe qui permettent de gĂ©nĂ©rer une typographie Ă  partir de son Ă©criture manuscrite. C’est ce qu’a fait notamment heyheymomo (en) qui offre sa police en tĂ©lĂ©chargement (en).

Qu’est-ce que le texte ?

Au dĂ©but de l’informatique, chez IBM l’unitĂ© de mesure Ă©tait le mot (word). La capacitĂ© d’une machine s’évaluait donc en nombre de mots. Un mot Ă©tant, selon le manuel de l’IBM 605 constituĂ© de « dix chiffres et d’un signe algĂ©brique Â». Ainsi l’IBM 605 avait une capacitĂ© de 1 000 Ă  2 000 mots. Le texte n’était pas bien loin.

Mais, qu’est-ce que le texte ? Selon les points de vue, la notion de texte peut ĂȘtre trĂšs vaste. En musique par exemple, il est question de sous-texte et ça n’a rien Ă  voir avec les paroles de chanson ou de mĂ©lodies ou le livret des opĂ©ras. Dans le cadre de cette sĂ©rie qui, globalement, traite de l’informatique dans le contexte historique de l’écriture, j’opte pour une dĂ©finition restrictive et axĂ©e sur l’écriture et la lecture.

Le texte est ainsi de l’écriture qui peut se lire avec les yeux, les oreilles ou les doigts et qui peut aussi ĂȘtre lue par des robots. C’est du texte fait pour ĂȘtre lu pas pour ĂȘtre exĂ©cutĂ© dans le cadre d’un logiciel par exemple. Ce qui exclut le code informatique de la dĂ©finition, mĂȘme si c’est Ă©crit avec des Ă©diteurs de texte7. On doit pouvoir faire des recherches dans le texte, naviguer dedans, en extraire une partie pour la rĂ©utiliser ailleurs, etc.

Il s’ensuit qu’une image avec de l’écriture dessus, ce n’est pas du texte. Un fichier PDF, fac-similĂ© d’un livre imprimĂ© n’est pas du texte. Et les versions PDF des livres numĂ©risĂ©s que propose la BnF Gallica par exemple ne sont pas du texte. Un formulaire en PDF qui est en fait une image que l’on aura modifiĂ©e avec un outil de dessin (ou imprimĂ© et modifiĂ© Ă  la main puis numĂ©risĂ©) n’est pas du texte.

En revanche, si, de mon point de vue, la structure d’une base de donnĂ©es n’est pas du texte, son contenu par contre, oui. Ainsi, au hasard, celle de LinuxFr.org, est du texte, la partie publique tout au moins. Et ce n’est pas Claude qui me contredira.

Manchot Ă  tables
Un genre d’allĂ©gorie des tables de la base de donnĂ©es de LinuxFr.org.

Il est d’autant plus important d’insister lĂ -dessus qu’il se trouve encore des personnes qui ne font pas la diffĂ©rence entre les deux. Et ce, tout simplement parce que c’est Ă©crit et qu’elles, elles, peuvent lire ce qui est Ă©crit.

Nouveau Drop Caps : une police de lettrines

Puisque qu’il a Ă©tĂ© question plus haut de typographies purement dĂ©coratives, c’est l’occasion de vous prĂ©senter une police qui ne peut servir qu’à des lettrines ou des titres.

La police Nouveau Drops Caps

Nouveau Drop Caps est une fonte gĂ©nĂ©rĂ©e par Dieter Steffmann (en) un typographe de formation qui a crĂ©Ă© plus de trois-cent-cinquante polices. La plupart sont plutĂŽt plus Ă  des fins dĂ©coratives que des polices de texte. Dans l’ensemble, ses polices peuvent ĂȘtre utilisĂ©es pour la langue française, elles ont les caractĂšres qu’il faut. La position de Dieter Steffmann sur son travail est la suivante :

je considĂšre les polices de caractĂšres comme un patrimoine culturel, je ne suis pas d’accord avec leur commercialisation. Les polices autrefois fabriquĂ©es Ă  partir de caractĂšres mĂ©talliques avaient Ă©videmment un prix en fonction de la valeur du mĂ©tal, et le coĂ»t de conception, de dĂ©coupe et de moulage est convaincant, d’autant plus que l’acheteur devenait Ă©galement propriĂ©taire des polices achetĂ©es !

Le site sur lesquelles il les dĂ©pose, 1001 fonts a, d’ailleurs, une licence (en), avec une disposition assez originale. La police

peut ĂȘtre tĂ©lĂ©chargĂ©e et utilisĂ©e gratuitement pour un usage personnel et commercial, Ă  condition que son utilisation ne soit pas raciste ou illĂ©gale. (
)

Les fontes peuvent ĂȘtre librement copiĂ©es et transmises Ă  d'autres personnes pour un usage privĂ© mais pas ĂȘtre vendues ou publiĂ©es sans l’autorisation Ă©crite des auteurs et autrices.

Les textes et documents qui ont servi Ă  alimenter cette dĂ©pĂȘche

Les rĂ©fĂ©rences sont donnĂ©es Ă  peu prĂšs dans leur ordre d’apparition dans le texte. La plupart sont accessibles en ligne, et, volontairement, il y a un minimum de rĂ©fĂ©rences Ă  WikipĂ©dia. Il y a, Ă©galement, le minimum possible de sources en anglais.

L’écriture maya

Jean-Michel Hoppan est l’un des seuls (le seul ?) spĂ©cialiste français d’un domaine de recherche (l’écriture maya) qui ne compte qu’une centaine de personnes dans le monde.

La vision romaine de l’écriture

  • IdĂ©es romaines sur l’écriture, Françoise Desbordes, 1990, EPUB : ISBN 9782402324168, PDF : ISBN 9782402657495, marquage filigrane. La maison d’édition FeniXX qui Ă©dite ce livre est spĂ©cialisĂ©e dans la rĂ©Ă©dition des livres indisponibles du XXe siĂšcle.
  • L’écriture en libertĂ© : les graffitis dans la culture romaine, Michelle Corbier, extrait de Langages et communication : Ă©crits, images, sons, Corbier Mireille et Sauron Gilles (dir.), Ă©d. Ă©lectronique, Paris, Éd. du ComitĂ© des travaux historiques et scientifiques (Actes des congrĂšs nationaux des sociĂ©tĂ©s historiques et scientifiques), 2017.

Les manuscrits médiévaux

On peut se procurer ces livres au format PDF (fac-similĂ©), en texte brut (je travaille sur une version que je compte mettre en ligne pour chacun de ces livres), les emprunter en version EPUB Ă  la BnF si l'on a un compte, ou acheter l’EPUB. À noter que, selon les librairies, le fichier EPUB a ou non une protection numĂ©rique : ainsi, Le Furet du Nord indique qu’ils n’en ont pas, Cultura annonce une DRM LCP, et la FNAC une DRM Adobe.

Bonus ! Si vous voulez vous rincer l’Ɠil, l’IRTH (Institut de recherche et d’histoire des textes) a dressĂ© une liste de sites pour accĂ©der au manuscrit mĂ©diĂ©val numĂ©risĂ©.

L’imprimerie

La bande dessinée

  • Lettrage, Laurent Gerbier, CitĂ© internationale de la bande dessinĂ©e et de l’image, septembre 2017.

Postambule

La question des formats sera abordĂ©e dans le prochain chapitre qui est dĂ©jĂ  bien avancĂ©. Et ce n’est pas plus mal, finalement.

Dans le cadre de cette sĂ©rie, il va me falloir traiter aussi de la question des codes (sur laquelle j’ai quelques lacunes, vos suggestions sont bienvenues). Unicode, bien que dĂ©jĂ  pas mal abordĂ©, mĂ©rite un chapitre Ă  lui tout seul : histoire, composition du consortium, comment on ajoute un systĂšme d’écriture Ă  Unicode, et quelques paragraphes sur le code lui-mĂȘme (et là
). Je pense que je pourrais peut-ĂȘtre caser la norme ISO des Ă©critures dans ce chapitre. Si j’ai parlĂ© de conservation, il va falloir parler de l’archivage : protocoles, accĂšs, ce qui me permettra d’évoquer aussi de la science ouverte, je pense.


  1. L’écriture maya](https://www.inalco.fr/lecriture-maya), Jean-Michel Hoppan, INALCO. â†©

  2. Les codex Ă©taient Ă©crits sur un papier, l’amate, fait Ă  partir de l’écorce d’un figuier local. â†©

  3. Les glyphes mayas et leur dĂ©chiffrement, Jean-Michel Hoppan, 2009. â†©

  4. IdĂ©es romaines sur l’écriture, Françoise Desbordes & Centre national de la recherche scientifique & Anne Nicolas, 1990. â†©

  5. L’écriture en libertĂ© : les graffitis dans la culture romaine, Mireille Corbier, 2014. â†©

  6. Lettrage, Laurent Gerbier, septembre 2017. â†©

  7. Je reconnais qu’il peut y avoir matiĂšre Ă  pinaillage sur ce sujet. â†©

Commentaires : voir le flux Atom ouvrir dans le navigateur

❌
❌