Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

L’IA Open Source existe-t-elle vraiment ?

Par : Framalang
31 octobre 2024 à 05:10

À l’heure où tous les mastodontes du numérique, GAFAM comme instituts de recherche comme nouveaux entrants financés par le capital risque se mettent à publier des modèles en masse (la plateforme Hugging Face a ainsi dépassé le million de modèles déposés le mois dernier), la question du caractère « open-source » de l’IA se pose de plus en plus.

Ainsi, l’Open Source Initiative (OSI) vient de publier une première définition de l’IA Open-Source, et la Linux Foundation (dont le nom peut prêter à confusion, mais qui ne représente surtout qu’une oligarchie d’entreprises du secteur) s’interroge également sur le terme.

Au milieu de tout cela, OpenAI devient de manière assez prévisible de moins en moins « open », et si Zuckerberg et Meta s’efforcent de jouer la carte de la transparence en devenant des hérauts de l’« IA Open-Source », c’est justement l’OSI qui leur met des bâtons dans les roues en ayant une vision différente de ce que devrait être une IA Open-Source, avec en particulier un pré-requis plus élevé sur la transparence des données d’entraînement.

Néanmoins, la définition de l’OSI, si elle embête un peu certaines entreprises, manque selon la personne ayant écrit ce billet (dont le pseudo est « tante ») d’un élément assez essentiel, au point qu’elle se demande si « l’IA open source existe-t-elle vraiment ? ».

Note : L’article originel a été publié avant la sortie du texte final de l’OSI, mais celui-ci n’a semble t-il pas changé entre la version RC1 et la version finale.

L’IA Open Source existe-t-elle vraiment ?

Par tante, sous licence CC BY-SA (article originel).
Une traduction Framalang par tcit et deux contributeur·ices anonymes.
Photo de la bannière par Robert Couse-Baker.

 

 

L’Open Source Initiative (OSI) a publié la RC1 (« Release Candidate 1 » signifiant : cet écrit est pratiquement terminé et sera publié en tant que tel à moins que quelque chose de catastrophique ne se produise) de la « Définition de l’IA Open Source ».

D’aucuns pourraient se demander en quoi cela est important. Plein de personnes écrivent sur l’IA, qu’est-ce que cela apporte de plus ? C’est la principale activité sur LinkedIn à l’heure actuelle. Mais l’OSI joue un rôle très particulier dans l’écosystème des logiciels libres. En effet, l’open source n’est pas seulement basé sur le fait que l’on peut voir le code, mais aussi sur la licence sous laquelle le code est distribué : Vous pouvez obtenir du code que vous pouvez voir mais que vous n’êtes pas autorisé à modifier (pensez au débat sur la publication récente de celui de WinAMP). L’OSI s’est essentiellement chargée de définir parmi les différentes licences utilisées partout lesquelles sont réellement « open source » et lesquelles sont assorties de restrictions qui sapent cette idée.

C’est très important : le choix d’une licence est un acte politique lourd de conséquences. Elle peut autoriser ou interdire différents modes d’interaction avec un objet ou imposer certaines conditions d’utilisation. La célèbre GPL, par exemple, vous permet de prendre le code mais vous oblige à publier vos propres modifications. D’autres licences n’imposent pas cette exigence. Le choix d’une licence a des effets tangibles.

Petit aparté : « open source » est déjà un terme un peu problématique, c’est (à mon avis) une façon de dépolitiser l’idée de « Logiciel libre ». Les deux partagent certaines idées, mais là où « open source » encadre les choses d’une manière plus pragmatique « les entreprises veulent savoir quel code elles peuvent utiliser », le logiciel libre a toujours été un mouvement plus politique qui défend les droits et la liberté de l’utilisateur. C’est une idée qui a probablement été le plus abimée par les figures les plus visibles de cet espace et qui devraient aujourd’hui s’effacer.

Qu’est-ce qui fait qu’une chose est « open source » ? L’OSI en dresse une courte liste. Vous pouvez la lire rapidement, mais concentrons-nous sur le point 2 : le code source :

Le programme doit inclure le code source et doit permettre la distribution du code source et de la version compilée. Lorsqu’une quelconque forme d’un produit n’est pas distribuée avec le code source, il doit exister un moyen bien connu d’obtenir le code source pour un coût de reproduction raisonnable, de préférence en le téléchargeant gratuitement sur Internet. Le code source doit être la forme préférée sous laquelle un programmeur modifierait le programme. Le code source délibérément obscurci n’est pas autorisé. Les formes intermédiaires telles que la sortie d’un préprocesseur ou d’un traducteur ne sont pas autorisées.
Open Source Initiative

Pour être open source, un logiciel doit donc être accompagné de ses sources. D’accord, ce n’est pas surprenant. Mais les rédacteurs ont vu pas mal de conneries et ont donc ajouté que le code obfusqué (c’est-à-dire le code qui a été manipulé pour être illisible) ou les formes intermédiaires (c’est-à-dire que vous n’obtenez pas les sources réelles mais quelque chose qui a déjà été traité) ne sont pas autorisés. Très bien. C’est logique. Mais pourquoi les gens s’intéressent-ils aux sources ?

Les sources de la vérité

L’open source est un phénomène de masse relativement récent. Nous avions déjà des logiciels, et même certains pour lesquels nous ne devions pas payer. À l’époque, on les appelait des « Freeware », des « logiciels gratuits ». Les freewares sont des logiciels que vous pouvez utiliser gratuitement mais dont vous n’obtenez pas le code source. Vous ne pouvez pas modifier le programme (légalement), vous ne pouvez pas l’auditer, vous ne pouvez pas le compléter. Mais il est gratuit. Et il y avait beaucoup de cela dans ma jeunesse. WinAMP, le lecteur audio dont j’ai parlé plus haut, était un freeware et tout le monde l’utilisait. Alors pourquoi se préoccuper des sources ?

Pour certains, il s’agissait de pouvoir modifier les outils plus facilement, surtout si le responsable du logiciel ne travaillait plus vraiment dessus ou commençait à ajouter toutes sortes de choses avec lesquelles ils n’étaient pas d’accord (pensez à tous ces logiciels propriétaires que vous devez utiliser aujourd’hui pour le travail et qui contiennent de l’IA derrière tous les autres boutons). Mais il n’y a pas que les demandes de fonctionnalités. Il y a aussi la confiance.

Lorsque j’utilise un logiciel, je dois faire confiance aux personnes qui l’ont écrit. Leur faire confiance pour qu’ils fassent du bon travail, pour qu’ils créent des logiciels fiables et robustes. Qu’ils n’ajoutent que les fonctionnalités décrites dans la documentation et rien de caché, de potentiellement nuisible.

Les questions de confiance sont de plus en plus importantes, d’autant plus qu’une grande partie de notre vie réelle repose sur des infrastructures numériques. Nous savons tous que nos infrastructures doivent comporter des algorithmes de chiffrement entièrement ouverts, évalués par des pairs et testés sur le terrain, afin que nos communications soient à l’abri de tout danger.

L’open source est – en particulier pour les systèmes et infrastructures critiques – un élément clé de l’établissement de cette confiance : Parce que vous voulez que (quelqu’un) soit en mesure de vérifier ce qui se passe. On assiste depuis longtemps à une poussée en faveur d’une plus grande reproductibilité des processus de construction. Ces processus de compilation garantissent essentiellement qu’avec le même code d’entrée, on obtient le même résultat compilé. Cela signifie que si vous voulez savoir si quelqu’un vous a vraiment livré exactement ce qu’il a dit, vous pouvez le vérifier. Parce que votre processus de construction créerait un artefact identique.

Logo du projet Reproducible builds

Le projet Reproducible builds cherche à promouvoir la reproductibilité des systèmes libres, pour plus de transparence.
Le projet est notamment financé par le Sovereign Tech Fund.

 

Bien entendu, tout le monde n’effectue pas ce niveau d’analyse. Et encore moins de personnes n’utilisent que des logiciels issus de processus de construction reproductibles – surtout si l’on considère que de nombreux logiciels ne sont pas compilés aujourd’hui. Mais les relations sont plus nuancées que le code et la confiance est une relation : si vous me parlez ouvertement de votre code et de la manière dont la version binaire a été construite, il me sera beaucoup plus facile de vous faire confiance. Savoir ce que contient le logiciel que j’exécute sur la machine qui contient également mes relevés bancaires ou mes clés de chiffrement.

Mais quel est le rapport avec l’IA ?

Les systèmes d’IA et les 4 libertés

Les systèmes d’IA sont un peu particuliers. En effet, les systèmes d’IA – en particulier les grands systèmes qui fascinent tout le monde – ne contiennent pas beaucoup de code par rapport à leur taille. La mise en œuvre d’un réseau neuronal se résume à quelques centaines de lignes de Python, par exemple. Un « système d’IA » ne consiste pas seulement en du code, mais en un grand nombre de paramètres et de données.

Un LLM moderne (ou un générateur d’images) se compose d’un peu de code. Vous avez également besoin d’une architecture de réseau, c’est-à-dire de la configuration des neurones numériques utilisés et de la manière dont ils sont connectés. Cette architecture est ensuite paramétrée avec ce que l’on appelle les « poids » (weights), qui sont les milliards de chiffres dont vous avez besoin pour que le système fasse quelque chose. Mais ce n’est pas tout.

Pour traduire des syllabes ou des mots en nombres qu’une « IA » peut consommer, vous avez besoin d’une intégration, une sorte de table de recherche qui vous indique à quel « jeton » (token) correspond le nombre « 227 ». Si vous prenez le même réseau neuronal mais que vous lui appliquez une intégration différente de celle avec laquelle il a été formé, tout tomberait à l’eau. Les structures ne correspondraient pas.

Représentation d'une puce informatique sous la forme d'un cerveau.

Image sous CC BY par Mike MacKenzie & Liam Huang

Ensuite, il y a le processus de formation, c’est-à-dire le processus qui a créé tous les « poids ». Pour entraîner une « IA », vous lui fournissez toutes les données que vous pouvez trouver et, après des millions et des milliards d’itérations, les poids commencent à émerger et à se cristalliser. Le processus de formation, les données utilisées et la manière dont elles le sont sont essentiels pour comprendre les capacités et les problèmes d’un système d’apprentissage automatique : si vous voulez réduire les dommages dans un réseau, vous devez savoir s’il a été formé sur Valeurs Actuelles ou non, pour donner un exemple.

Et c’est là qu’est le problème.

L’OSI « The Open Source AI Definition – 1.0-RC1 » exige d’une IA open source qu’elle offre quatre libertés à ses utilisateurs :

  1. Utiliser le système à n’importe quelle fin et sans avoir à demander la permission.
  2. Étudier le fonctionnement du système et inspecter ses composants.
  3. Modifier le système dans n’importe quel but, y compris pour changer ses résultats.
  4. Partager le système pour que d’autres puissent l’utiliser, avec ou sans modifications, dans n’importe quel but.

Jusqu’ici tout va bien. Cela semble raisonnable, n’est-ce pas ? Vous pouvez inspecter, modifier, utiliser et tout ça. Génial. Tout est couvert dans les moindre détails, n’est-ce pas ? Voyons rapidement ce qu’un système d’IA doit offrir. Le code : Check. Les paramètres du modèle (poids, configurations) : Check ! Nous sommes sur la bonne voie. Qu’en est-il des données ?

Informations sur les données : Informations suffisamment détaillées sur les données utilisées pour entraîner le système, de manière à ce qu’une personne compétente puisse construire un système substantiellement équivalent. Les informations sur les données sont mises à disposition dans des conditions approuvées par l’OSI.

En particulier, cela doit inclure (1) une description détaillée de toutes les données utilisées pour la formation, y compris (le cas échéant) des données non partageables, indiquant la provenance des données, leur portée et leurs caractéristiques, la manière dont les données ont été obtenues et sélectionnées, les procédures d’étiquetage et les méthodes de nettoyage des données ; (2) une liste de toutes les données de formation accessibles au public et l’endroit où les obtenir ; et (3) une liste de toutes les données de formation pouvant être obtenues auprès de tiers et l’endroit où les obtenir, y compris à titre onéreux.
Open Source Initiative

Que signifie « informations suffisamment détaillées » ? La définition de l’open source ne parle jamais de « code source suffisamment détaillé ». Vous devez obtenir le code source. Tout le code source. Et pas sous une forme obscurcie ou déformée. Le vrai code. Sinon, cela ne veut pas dire grand-chose et ne permet pas d’instaurer la confiance.

La définition de l’« IA Open Source » donnée par l’OSI porte un grand coup à l’idée d’open source : en rendant une partie essentielle du modèle (les données d’entraînement) particulière de cette manière étrange et bancale, ils qualifient d’« open source » toutes sortes de choses qui ne le sont pas vraiment, sur la base de leur propre définition de ce qu’est l’open source et de ce à quoi elle sert.

Les données d’apprentissage d’un système d’IA font à toutes fins utiles partie de son « code ». Elles sont aussi pertinentes pour le fonctionnement du modèle que le code littéral. Pour les systèmes d’IA, elles le sont probablement encore plus, car le code n’est qu’une opération matricielle générique avec des illusions de grandeur.

L’OSI met une autre cerise sur le gâteau : les utilisateurs méritent une description des « données non partageables » qui ont été utilisées pour entraîner un modèle. Qu’est-ce que c’est ? Appliquons cela au code à nouveau : si un produit logiciel nous donne une partie essentielle de ses fonctionnalités simplement sous la forme d’un artefact compilé et nous jure ensuite que tout est totalement franc et honnête, mais que le code n’est pas « partageable », nous n’appellerions pas ce logiciel « open source ». Parce qu’il n’ouvre pas toutes les sources.

Une « description » de données partiellement « non partageables » vous aide-t-elle à reproduire le modèle ? Non. Vous pouvez essayer de reconstruire le modèle et il peut sembler un peu similaire, mais il est significativement différent. Cela vous aide-t-il d’« étudier le système et d’inspecter ses composants » ? Seulement à un niveau superficiel. Mais si vous voulez vraiment analyser ce qu’il y a dans la boîte de statistiques magiques, vous devez savoir ce qu’il y a dedans. Qu’est-ce qui a été filtré exactement, qu’est-ce qui est entré ?

Cette définition semble très étrange venant de l’OSI, n’est-ce pas ? De toute évidence, cela va à l’encontre des idées fondamentales de ce que les gens pensent que l’open source est et devrait être. Alors pourquoi le faire ?

L’IA (non) open source

Voici le truc. À l’échelle où nous parlons aujourd’hui de ces systèmes statistiques en tant qu’« IA », l’IA open source ne peut pas exister.

De nombreux modèles plus petits ont été entraînés sur des ensembles de données publics explicitement sélectionnés et organisés. Ceux-ci peuvent fournir toutes les données, tout le code, tous les processus et peuvent être appelés IA open-source. Mais ce ne sont pas ces systèmes qui font s’envoler l’action de NVIDIA.

Ces grands systèmes que l’on appelle « IA » – qu’ils soient destinés à la génération d’images, de texte ou multimodaux – sont tous basés sur du matériel acquis et utilisé illégalement. Parce que les ensembles de données sont trop volumineux pour effectuer un filtrage réel et garantir leur légalité. C’est tout simplement trop.

Maintenant, les plus naïfs d’entre vous pourraient se demander : « D’accord, mais si vous ne pouvez pas le faire légalement, comment pouvez-vous prétendre qu’il s’agit d’une entreprise légitime ? » et vous auriez raison, mais nous vivons aussi dans un monde étrange où l’espoir qu’une innovation magique et / ou de l’argent viendront de la reproduction de messages Reddit, sauvant notre économie et notre progrès.

L’« IA open source » est une tentative de « blanchir » les systèmes propriétaires. Dans leur article « Repenser l’IA générative open source : l’openwashing et le règlement sur l’IA de l’UE  », Andreas Liesenfeld et Mark Dingemanse ont montré que de nombreux modèles d’IA « Open-Source » n’offrent guère plus que des poids de modèles ouverts. Signification : Vous pouvez faire fonctionner la chose mais vous ne savez pas vraiment ce que c’est.

Cela ressemble à quelque chose que nous avons déjà eu : c’est un freeware. Les modèles open source que nous voyons aujourd’hui sont des blobs freeware propriétaires. Ce qui est potentiellement un peu mieux que l’approche totalement fermée d’OpenAI, mais seulement un peu.

Certains modèles proposent des fiches de présentation du modèle ou d’autres documents, mais la plupart vous laissent dans l’ignorance. Cela s’explique par le fait que la plupart de ces modèles sont développés par des entreprises financées par le capital-risque qui ont besoin d’une voie théorique vers la monétisation.

L’« open source » est devenu un autocollant comme le « Commerce équitable », quelque chose qui donne l’impression que votre produit est bon et digne de confiance. Pour le positionner en dehors du diabolique espace commercial, en lui donnant un sentiment de proximité. « Nous sommes dans le même bateau » et tout le reste. Mais ce n’est pas le cas. Nous ne sommes pas dans le même bateau que Mark fucking Zuckerberg, même s’il distribue gratuitement des poids de LLM parce que cela nuit à ses concurrents. Nous, en tant que personnes normales vivant sur cette planète qui ne cesse de se réchauffer, ne sommes avec aucune de ces personnes.

Photo d'un sticker où il est marqué « Open-Source Fuck Yeah ».

Les libristes adorent pourtant les stickers. Image sous CC BY-SA par Kirsten Comandich.

Mais il y a un autre aspect à cette question, en dehors de redorer l’image des grands noms de la technologie et de leurs entreprises. Il s’agit de la légalité. Au moins en Allemagne, il existe des exceptions à certaines lois qui concernent normalement les auteurs de LLM : si vous le faites à des fins de recherche, vous êtes autorisé à récupérer pratiquement n’importe quoi. Vous pouvez ensuite entraîner des modèles et publier ces poids, et même s’il y a des contenus de Disney là-dedans, vous n’avez rien à craindre. C’est là que l’idée de l’IA open source joue un rôle important : il s’agit d’un moyen de légitimer un comportement probablement illégal par le biais de l’openwashing : en tant qu’entreprise, vous prenez de l’« IA open source » qui est basée sur tous les éléments que vous ne seriez pas légalement autorisé à toucher et vous l’utilisez pour construire votre produit. Faites de l’entraînement supplémentaire avec des données sous licence, par exemple.

L’Open Source Initiative a attrapé le syndrome FOMO (N.d.T : Fear of Missing Out) – tout comme le jury du prix Nobel. Elle souhaite également participer à l’engouement pour l’« IA ».

Mais pour les systèmes que nous appelons aujourd’hui « IA », l’IA open source n’est pas possible dans la pratique. En effet, nous ne pourrons jamais télécharger toutes les données d’entraînement réelles.

« Mais tante, nous n’aurons jamais d’IA open source ». C’est tout à fait exact. C’est ainsi que fonctionne la réalité. Si vous ne pouvez pas remplir les critères d’une catégorie, vous n’appartenez pas à cette catégorie. La solution n’est pas de changer les critères. C’est comme jouer aux échecs avec les pigeons.

 

Conférence de presse à Marseille contre les data centers

16 septembre 2024 à 03:52

À l’aune du paradigme de l’Intelligence Artificielle, les data centers sont amenés à proliférer partout sur le territoire. Ces entrepôts de serveurs dédiés au traitement et au stockage des données informatiques génèrent de nombreux conflits d’usage d’eau et d’électricité. Ils multiplient les emprises foncières et les pollutions environnementales. Ils accaparent des fonds publics et accélèrent la crise socio-écologique en cours..

Dans le cadre de son groupe de travail « Écologie et numérique », La Quadrature du Net est investie depuis plusieurs mois dans une lutte locale contre ces infrastructures à Marseille, portée notamment par le collectif « Le nuage était sous nos pieds ». Aujourd’hui, lundi 16 septembre, se tient une première conférence de presse visant à dénoncer le projet de nouveau data center de Digital Realty, l’un des plus gros acteurs mondiaux de ce marché en pleine expansion.

Ce texte reproduit la prise de parole du collectif « Le nuage était sous nos pieds » lors de cette conférence de presse visant notamment à dénoncer MRS5, le projet de nouveau data center de Digital Realty dans l’enceinte du Grand Port Maritime de Marseille (GPMM), à appeler les habitantes de la ville qui le souhaitent à répondre à l’enquête publique relative à ce projet, ainsi qu’à rejoindre et poursuivre cette lutte collective. Y participent également des représentants de la fédération des Comités d’intérêt de quartier (CIQ) des habitants du 16ème arrondissement, concernés directement par ce nouveau data center, des représentants des associations France Nature Environnement 13 et Cap au Nord, ainsi que des élu·es locaux et parlementaires NFP.

« Reprendre le contrôle sur les infrastructures du numérique ! »

Je prends aujourd’hui la parole au nom du collectif marseillais « Le nuage était sous nos pieds », qui est composé d’au moins trois entités : La Quadrature du Net, qui défend les libertés fondamentales dans l’environnement numérique ; Technopolice, qui analyse et lutte contre les technologies de surveillance ; le collectif des Gammares, collectif d’éducation populaire sur les enjeux de l’eau. Nous nous sommes rassemblées, alertées par la quasi-absence des enjeux environnementaux et territoriaux des infrastructures du numérique dans le débat public alors même que Marseille voit se multiplier les arrivées de câbles sous-marins pour les liaisons Internet intercontinentales et l’émergence de data centers dans un grand silence politique et médiatique.

La surchauffe d’intérêt général ?

Dans la plaquette de communication du MRS5 dont il est ici question, le « data center » est présenté comme étant en parfaite continuité avec les usages historiques de cet emplacement au sein du système portuaire. Le stockage de données succéderait au stockage agroalimentaire, au marché au bestiaux, au silo à sucre. On pourrait rétorquer dans un premier temps que la donnée ne se mange pas, mais plus sérieusement, il convient d’insister sur le flou que ce vocabulaire marketing entretient par rapport à l’objet technique lui-même.

Un data center n’est pas un simple entrepôt de stockage, c’est un méga-ordinateur bétonné composé de centaines de serveurs qui tournent en permanence. Les industriels du numérique et autres entreprises y louent des espaces pour pouvoir bénéficier des capacités de stockage et de la puissance de calcul de ce « méga-ordinateur », et pendant ce temps le méga-ordinateur surchauffe, renvoie l’air ou l’eau chaude dans une ville déjà trop souvent sujette à la canicule, pompe des quantités astronomiques d’eau et d’électricité sur le réseau public, et ne génère pratiquement aucun emploi direct.

On entend aussi souvent dire, par les industriels du secteur et les startupeux du gouvernement, que les data centers seraient « des projets d’intérêt national majeur », comme les ponts ou les gares ferroviaires d’hier. Qu’ils sont les nouvelles infrastructures « indispensables au fonctionnement de l’ensemble de la société française » comme le suggère l’actuel projet de loi de simplification de la vie économique, et qu’ils servent l’intérêt général. Inscrire les centres de données dans la filiation des grandes infrastructures territoriales publiques permet de faire comme s’ils relevaient de l’évidence et ne répondaient qu’à la demande naturelle du progrès civilisationnel. Si l’on considère que ces infrastructures servent réellement l’intérêt général, elles pourraient être municipalisées, et s’inscrire dans les besoins réels des collectivités territoriales plutôt que d’être confiées à des multinationales privées telle que Digital Realty.

Nous pensons que c’est l’idée même selon laquelle ces infrastructures peuvent servir l’intérêt général qui doit être remise en question. Nous pensons que l’objet « data center », ce méga-ordinateur, est imposé par une poignée de multinationales du numérique en accord avec des gouvernements avides de profits à court terme. Il est grand temps d’ouvrir la boite noire des systèmes techniques et d’admettre que les questions techniques sont toujours aussi des questions politiques. Les géants du numérique s’imposent sans aucune concertation au niveau local ou national, contournant les systèmes de planification et de décision collectives. Il faut redonner le pouvoir au peuple pour une autodétermination quant aux enjeux du numérique et explorer des alternatives décentralisées et communautaires, qui prennent soin de nous, des uns et des autres et de notre territoire.

Accaparements

Le numérique est souvent désigné comme un prétendu « cloud », un nuage qui n’a en réalité rien de vaporeux. Le « cloud », ce sont ces méga-ordinateurs reliés à travers le monde par des câbles sous-marins en fibre optique, dont 18 arrivent aujourd’hui à Marseille. Or, ces méga-ordinateurs accaparent le foncier disponible, que ce soit dans l’enceinte du GPMM et en dehors avec les quatre autres data centers de Digital Realty déjà en place MRS1, MRS2, MRS3, MRS4 et ce nouveau cinquième candidat, ou que ce soit dans les quartiers Nord, à Saint-André, à Saint-Henri, à la Belle-de-Mai, ou hors des limites municipales, comme le projet de Digital Realty à Bouc Bel Air. Il y a même un projet de data center flottant !

Ces entrepôts de serveurs s’accaparent aussi les réseaux électriques publics et l’énergie disponible, jusqu’à faire saturer leurs capacités1. Nous prenons aujourd’hui la parole juste en face du poste source d’électricité, construit spécifiquement par Digital Realty afin d’alimenter ses centres de données. Leurs moyens capitalistiques démesurés permettent donc de construire leurs propres infrastructures électriques, sans jamais se préoccuper des conséquences sur les habitant·es et leurs territoires. Tant et si bien que les conflits d’usage s’amoncellent. Ici à Marseille, il faut choisir entre l’électrification des bus ou des quais pour les bateaux de croisières et celle de ces data centers, qui accaparent ainsi l’énergie disponible en lieu et place de nos infrastructures et services publics2.

Enfin, les géants du numérique s’accaparent aussi notre eau. Le « river-cooling » utilisé à Marseille par Digital Realty pour refroidir ses data centers, n’est rien d’autre que le détournement des eaux de qualité potable de l’ancienne galerie minière de Gardanne, pour un gain énergétique peu conséquent3. Attribuer l’usage de ces eaux à ce besoin industriel pose la question de futurs conflits d’usage que les dernières sécheresses estivales nous ont laissé entrevoir. À l’échelle mondiale, la question de l’eau atteint des proportions préoccupantes : Google annonçait par exemple, en 2021, avoir utilisé plus de 15 milliards de mètres cubes d’eau pour le refroidissement de ses centres.

Greenwashing

Les services marketing des multinationales du numérique redoublent d’imagination pour nous faire croire que les data centers sont des « usines vertes », qui n’auraient aucun impact sur l’environnement. À les écouter, les centres de données seraient même des infrastructures légères, utilisant les ressources en eau et en électricité avec parcimonie et de manière « optimisée ». C’est faux.

L’urgence actuelle est d’entrer dans une trajectoire de sobriété énergétique. L’explosion des demandes énergétiques que le déploiement de data center produit n’est absolument pas compatible avec nos objectifs climatiques plus généraux. Car les ressources ne sont pas illimitées. MRS5 va s’accaparer l’eau et l’électricité, et nécessiter la construction d’autres centrales de production d’énergie verte, pourtant déjà controversées4. Même s’il semble parfois éculé, il faut encore une fois rappeler l’adage selon lequel « la seule énergie verte, c’est celle qu’on ne produit pas ».

Surtout que les calculs d’efficacité environnementale ont souvent la fâcheuse tendance à oblitérer et externaliser une partie de leurs impacts : jusqu’où calcule-t-on les coûts énergétiques et humains d’un data center ? Faut-il regarder les micropuces extrêmement gourmandes en eau pure, les dégâts causés par les câbles sous-marins obsolètes5, les autres déchets du numérique que l’ONU compte à 10,5 millions de tonnes ?

Peut-on continuer à invisibiliser les filières d’extractions minières extranationales extrêmement violentes, en République Démocratique du Congo notamment et dans le reste du monde. David Maenda Kithoko, président de l’association Génération Lumière, lui même réfugié climatique congolais, le rappelle haut et fort : la révolution numérique fait couler le sang de son peuple. MRS5 est construit sur le silo à sucre Saint-Louis, bâtiment emblématique de l’impérialisme français et du commerce colonial. Et si l’on trouvait pour cet ancien bâtiment une autre fonction, qui ne rejouerait pas ces violences, mais qui s’inscrirait réellement dans une trajectoire de sobriété et de justice sociale ?

Reprendre le contrôle

Pour finir, la question centrale qui se pose ici est : à quoi – à qui – servent ces data centers ? L’immense majorité des flux de données qui circulent dans les data centers sont à destination des entreprises. On nous laisse croire que ces méga-ordinateurs ne feraient que répondre à un besoin criant des consommateurs libres que nous serions, alors qu’une bonne partie de leurs usages nous concernant sont destinés à capter nos données personnelles et générer de la publicité pour polluer nos espaces de vie en ligne. Mais en regardant la liste des futures entreprises clientes de MRS5, on voit : Oracle Corporation, ce géant étasunien qui offre des services informatiques uniquement à des entreprises ; KP1, spécialiste de préfabriqué béton – le béton rappelons-le est responsable de 8% des émissions de gaz à effet de serre – ; Flowbird, société actrice de la « ville intelligente » ; MisterFly, agence de voyage en ligne pour la réservation d’avions, etc. En dehors d’un département de recherche en archéologie, les premiers clients connus de MRS5 ne semblent pas forcément « d’intérêt public national ». Bien au contraire, ce sont des acteurs issus du même monde technocratique que les data centers eux-mêmes.

Tout comme MRS5, des milliers de nouveaux data centers seront bientôt construits pour mieux accompagner l’essor programmé de l’Intelligence Artificielle (IA), se surajoutant à toutes les infrastructures informatiques déjà existantes. Or, on pourrait déjà légitimement se poser la question de savoir s’il n’y a pas déjà trop de numérique dans nos vies, non seulement d’un point de vue environnemental mais aussi du point de vue des impacts sociétaux. Alors que de plus en plus de professionnels de la santé nous alertent sur l’impact des écrans sur la santé mentale, le patron de Netflix peut se permettre de nommer le sommeil comme son principal concurrent. Le boom de l’IA, qui est entièrement entraînée et servie dans et par ces data centers, annonce de nombreuses nouvelles violences et violations des droits humains auxquelles nous devrons faire face : deep fakes, harcèlement, algorithmes de prises de décisions discriminatoires. C’est bien là l’un des enjeux des géants du numérique : prendre d’assaut notre temps et notre attention, en dépit de notre santé et de nos droits fondamentaux.

L’immixtion du numérique dans la plupart des champs professionnels se heurte très souvent à des résistances. Que ce soit en médecine, en agriculture, dans l’éducation, à la poste, dans les administrations, la logique qui sous-tend ce développement est presque toujours la même : l’optimisation et la dépossession technique, menant à des pertes de sens professionnel, à de l’isolement, à une intensification des cadences, à l’industrialisation. La crise professionnelle qui traverse ces secteurs est bien plus une crise de moyens humains que d’efficacité technique.

Pour autant, il n’y a pas de fatalité au « tout numérique », nous pouvons et nous devons reprendre le contrôle. Cela passe notamment par la contestation des projets de construction d’infrastructures nouvelles, telles que MRS5 de Digital Realty dans le port de Marseille.


L’enquête publique relative au projet MRS5 est ouverte jusqu’au 27 septembre 2024.

Vous êtes vous aussi engagé·e dans une lutte locale contre les data centers ? Écrivez-nous à : lenuageetaitsousnospieds@riseup.net.


  1. « À l’échelle française, les prévisions les plus récentes de RTE aboutissent désormais à une demande totale des data centers de puissance de pointe de l’ordre de 8 à 9 GW, pour une consommation qui atteindrait 80 TWh/an si tous ces projets se concrétisent rapidement, loin des 10 TWh/an qu’ils consomment actuellement, mais aussi loin des prévisions de RTE, qui estimait jusqu’alors une consommation de 15 à 20 TWh/an en 2030 et 28 en 2035. » tribune de Cécile Diguet « Les data centers s’implantent de manière totalement opportuniste », juillet 2024. ↩
  2. Comme noté par le conseil municipal de Marseille dans sa délibération 23/0568/VAT du 20 octobre 2023 sur la « Stratégie municipale pour une implantation planifiée et régulée des câbles sous-marins et des data centers sur le territoire marseillais ». ↩
  3. D’après les documents fournis par Digital Realty lors de la présentation du projet MRS5, la réduction de la consommation énergétique du site générée par la mise en œuvre de la solution river-cooling serait de uniquement 4,33 % de l’énergie électrique annuelle totale consommée par le site. En effet cette solution ne permet pas de se passer totalement d’un refroidissement par climatisation électrique, à laquelle elle viens s’ajouter pour ne la remplacer en usage qu’à hauteur de 32%. ↩
  4. D’après Cécile Diguet, les projets de data center actuellement planifiés par RTE d’ici 2030 en France consommeraient l’équivalent de la production énergétique de 3 nouvelles centrales nucléaires et demi. France Inter, émission Interception, Septembre 2024. ↩
  5. D’après un rapport d’expertise écologique du Parc Marin de la Côte Bleue alertant sur l’effet des câbles sous-marins désactivés et abandonnés par Orange au début des années 2000 sur les fonds marins et l’espèce protégée des herbiers de Posidonie qui habitent ce site protégé classé Natura 2000. Voir également le travail de recherche mené par Loup Cellard et Clément Marquet sur les câbles sous-marins de Marseille et de la Côte Bleue en particulier, qui montre comment les prises de décisions en matière de pose ou de dépose de ces câbles, sont dominées par des impératifs avant tout économiques et industriels, et non pas écologiques : « Frictions sous-marines », décembre 2023. ↩

❌
❌