LâIA Open Source existe-t-elle vraiment ?
Ă lâheure oĂč tous les mastodontes du numĂ©rique, GAFAM comme instituts de recherche comme nouveaux entrants financĂ©s par le capital risque se mettent Ă publier des modĂšles en masse (la plateforme Hugging Face a ainsi dĂ©passĂ© le million de modĂšles dĂ©posĂ©s le mois dernier), la question du caractĂšre « open-source » de lâIA se pose de plus en plus.
Ainsi, lâOpen Source Initiative (OSI) vient de publier une premiĂšre dĂ©finition de lâIA Open-Source, et la Linux Foundation (dont le nom peut prĂȘter Ă confusion, mais qui ne reprĂ©sente surtout quâune oligarchie dâentreprises du secteur) sâinterroge Ă©galement sur le terme.
Au milieu de tout cela, OpenAI devient de maniĂšre assez prĂ©visible de moins en moins « open », et si Zuckerberg et Meta sâefforcent de jouer la carte de la transparence en devenant des hĂ©rauts de lâ« IA Open-Source », câest justement lâOSI qui leur met des bĂątons dans les roues en ayant une vision diffĂ©rente de ce que devrait ĂȘtre une IA Open-Source, avec en particulier un prĂ©-requis plus Ă©levĂ© sur la transparence des donnĂ©es dâentraĂźnement.
NĂ©anmoins, la dĂ©finition de lâOSI, si elle embĂȘte un peu certaines entreprises, manque selon la personne ayant Ă©crit ce billet (dont le pseudo est « tante ») dâun Ă©lĂ©ment assez essentiel, au point quâelle se demande si « lâIA open source existe-t-elle vraiment ? ».
Note : Lâarticle originel a Ă©tĂ© publiĂ© avant la sortie du texte final de lâOSI, mais celui-ci nâa semble t-il pas changĂ© entre la version RC1 et la version finale.
LâIA Open Source existe-t-elle vraiment ?
Par tante, sous licence CC BY-SA (article originel).
Une traduction Framalang par tcit et deux contributeur·ices anonymes.
Photo de la banniĂšre par Robert Couse-Baker.
LâOpen Source Initiative (OSI) a publiĂ© la RC1 (« Release Candidate 1 » signifiant : cet Ă©crit est pratiquement terminĂ© et sera publiĂ© en tant que tel Ă moins que quelque chose de catastrophique ne se produise) de la « DĂ©finition de lâIA Open Source ».
Dâaucuns pourraient se demander en quoi cela est important. Plein de personnes Ă©crivent sur lâIA, quâest-ce que cela apporte de plus ? Câest la principale activitĂ© sur LinkedIn Ă lâheure actuelle. Mais lâOSI joue un rĂŽle trĂšs particulier dans lâĂ©cosystĂšme des logiciels libres. En effet, lâopen source nâest pas seulement basĂ© sur le fait que lâon peut voir le code, mais aussi sur la licence sous laquelle le code est distribuĂ© : Vous pouvez obtenir du code que vous pouvez voir mais que vous nâĂȘtes pas autorisĂ© Ă modifier (pensez au dĂ©bat sur la publication rĂ©cente de celui de WinAMP). LâOSI sâest essentiellement chargĂ©e de dĂ©finir parmi les diffĂ©rentes licences utilisĂ©es partout lesquelles sont rĂ©ellement « open source » et lesquelles sont assorties de restrictions qui sapent cette idĂ©e.
Câest trĂšs important : le choix dâune licence est un acte politique lourd de consĂ©quences. Elle peut autoriser ou interdire diffĂ©rents modes dâinteraction avec un objet ou imposer certaines conditions dâutilisation. La cĂ©lĂšbre GPL, par exemple, vous permet de prendre le code mais vous oblige Ă publier vos propres modifications. Dâautres licences nâimposent pas cette exigence. Le choix dâune licence a des effets tangibles.
Quâest-ce qui fait quâune chose est « open source » ? LâOSI en dresse une courte liste. Vous pouvez la lire rapidement, mais concentrons-nous sur le point 2 : le code source :
Le programme doit inclure le code source et doit permettre la distribution du code source et de la version compilĂ©e. Lorsquâune quelconque forme dâun produit nâest pas distribuĂ©e avec le code source, il doit exister un moyen bien connu dâobtenir le code source pour un coĂ»t de reproduction raisonnable, de prĂ©fĂ©rence en le tĂ©lĂ©chargeant gratuitement sur Internet. Le code source doit ĂȘtre la forme prĂ©fĂ©rĂ©e sous laquelle un programmeur modifierait le programme. Le code source dĂ©libĂ©rĂ©ment obscurci nâest pas autorisĂ©. Les formes intermĂ©diaires telles que la sortie dâun prĂ©processeur ou dâun traducteur ne sont pas autorisĂ©es.
Open Source Initiative
Pour ĂȘtre open source, un logiciel doit donc ĂȘtre accompagnĂ© de ses sources. Dâaccord, ce nâest pas surprenant. Mais les rĂ©dacteurs ont vu pas mal de conneries et ont donc ajoutĂ© que le code obfusquĂ© (câest-Ă -dire le code qui a Ă©tĂ© manipulĂ© pour ĂȘtre illisible) ou les formes intermĂ©diaires (câest-Ă -dire que vous nâobtenez pas les sources rĂ©elles mais quelque chose qui a dĂ©jĂ Ă©tĂ© traitĂ©) ne sont pas autorisĂ©s. TrĂšs bien. Câest logique. Mais pourquoi les gens sâintĂ©ressent-ils aux sources ?
Les sources de la vérité
Lâopen source est un phĂ©nomĂšne de masse relativement rĂ©cent. Nous avions dĂ©jĂ des logiciels, et mĂȘme certains pour lesquels nous ne devions pas payer. Ă lâĂ©poque, on les appelait des « Freeware », des « logiciels gratuits ». Les freewares sont des logiciels que vous pouvez utiliser gratuitement mais dont vous nâobtenez pas le code source. Vous ne pouvez pas modifier le programme (lĂ©galement), vous ne pouvez pas lâauditer, vous ne pouvez pas le complĂ©ter. Mais il est gratuit. Et il y avait beaucoup de cela dans ma jeunesse. WinAMP, le lecteur audio dont jâai parlĂ© plus haut, Ă©tait un freeware et tout le monde lâutilisait. Alors pourquoi se prĂ©occuper des sources ?
Pour certains, il sâagissait de pouvoir modifier les outils plus facilement, surtout si le responsable du logiciel ne travaillait plus vraiment dessus ou commençait Ă ajouter toutes sortes de choses avec lesquelles ils nâĂ©taient pas dâaccord (pensez Ă tous ces logiciels propriĂ©taires que vous devez utiliser aujourdâhui pour le travail et qui contiennent de lâIA derriĂšre tous les autres boutons). Mais il nây a pas que les demandes de fonctionnalitĂ©s. Il y a aussi la confiance.
Lorsque jâutilise un logiciel, je dois faire confiance aux personnes qui lâont Ă©crit. Leur faire confiance pour quâils fassent du bon travail, pour quâils crĂ©ent des logiciels fiables et robustes. Quâils nâajoutent que les fonctionnalitĂ©s dĂ©crites dans la documentation et rien de cachĂ©, de potentiellement nuisible.
Les questions de confiance sont de plus en plus importantes, dâautant plus quâune grande partie de notre vie rĂ©elle repose sur des infrastructures numĂ©riques. Nous savons tous que nos infrastructures doivent comporter des algorithmes de chiffrement entiĂšrement ouverts, Ă©valuĂ©s par des pairs et testĂ©s sur le terrain, afin que nos communications soient Ă lâabri de tout danger.
Lâopen source est â en particulier pour les systĂšmes et infrastructures critiques â un Ă©lĂ©ment clĂ© de lâĂ©tablissement de cette confiance : Parce que vous voulez que (quelquâun) soit en mesure de vĂ©rifier ce qui se passe. On assiste depuis longtemps Ă une poussĂ©e en faveur dâune plus grande reproductibilitĂ© des processus de construction. Ces processus de compilation garantissent essentiellement quâavec le mĂȘme code dâentrĂ©e, on obtient le mĂȘme rĂ©sultat compilĂ©. Cela signifie que si vous voulez savoir si quelquâun vous a vraiment livrĂ© exactement ce quâil a dit, vous pouvez le vĂ©rifier. Parce que votre processus de construction crĂ©erait un artefact identique.

Le projet Reproducible builds cherche à promouvoir la reproductibilité des systÚmes libres, pour plus de transparence.
Le projet est notamment financé par le Sovereign Tech Fund.
Bien entendu, tout le monde nâeffectue pas ce niveau dâanalyse. Et encore moins de personnes nâutilisent que des logiciels issus de processus de construction reproductibles â surtout si lâon considĂšre que de nombreux logiciels ne sont pas compilĂ©s aujourdâhui. Mais les relations sont plus nuancĂ©es que le code et la confiance est une relation : si vous me parlez ouvertement de votre code et de la maniĂšre dont la version binaire a Ă©tĂ© construite, il me sera beaucoup plus facile de vous faire confiance. Savoir ce que contient le logiciel que jâexĂ©cute sur la machine qui contient Ă©galement mes relevĂ©s bancaires ou mes clĂ©s de chiffrement.
Mais quel est le rapport avec lâIA ?
Les systĂšmes dâIA et les 4 libertĂ©s
Les systĂšmes dâIA sont un peu particuliers. En effet, les systĂšmes dâIA â en particulier les grands systĂšmes qui fascinent tout le monde â ne contiennent pas beaucoup de code par rapport Ă leur taille. La mise en Ćuvre dâun rĂ©seau neuronal se rĂ©sume Ă quelques centaines de lignes de Python, par exemple. Un « systĂšme dâIA » ne consiste pas seulement en du code, mais en un grand nombre de paramĂštres et de donnĂ©es.
Un LLM moderne (ou un gĂ©nĂ©rateur dâimages) se compose dâun peu de code. Vous avez Ă©galement besoin dâune architecture de rĂ©seau, câest-Ă -dire de la configuration des neurones numĂ©riques utilisĂ©s et de la maniĂšre dont ils sont connectĂ©s. Cette architecture est ensuite paramĂ©trĂ©e avec ce que lâon appelle les « poids » (weights), qui sont les milliards de chiffres dont vous avez besoin pour que le systĂšme fasse quelque chose. Mais ce nâest pas tout.
Pour traduire des syllabes ou des mots en nombres quâune « IA » peut consommer, vous avez besoin dâune intĂ©gration, une sorte de table de recherche qui vous indique Ă quel « jeton » (token) correspond le nombre « 227 ». Si vous prenez le mĂȘme rĂ©seau neuronal mais que vous lui appliquez une intĂ©gration diffĂ©rente de celle avec laquelle il a Ă©tĂ© formĂ©, tout tomberait Ă lâeau. Les structures ne correspondraient pas.

Image sous CC BY par Mike MacKenzie & Liam Huang
Ensuite, il y a le processus de formation, câest-Ă -dire le processus qui a crĂ©Ă© tous les « poids ». Pour entraĂźner une « IA », vous lui fournissez toutes les donnĂ©es que vous pouvez trouver et, aprĂšs des millions et des milliards dâitĂ©rations, les poids commencent Ă Ă©merger et Ă se cristalliser. Le processus de formation, les donnĂ©es utilisĂ©es et la maniĂšre dont elles le sont sont essentiels pour comprendre les capacitĂ©s et les problĂšmes dâun systĂšme dâapprentissage automatique : si vous voulez rĂ©duire les dommages dans un rĂ©seau, vous devez savoir sâil a Ă©tĂ© formĂ© sur Valeurs Actuelles ou non, pour donner un exemple.
Et câest lĂ quâest le problĂšme.
LâOSI « The Open Source AI Definition â 1.0-RC1 » exige dâune IA open source quâelle offre quatre libertĂ©s Ă ses utilisateurs :
- Utiliser le systĂšme Ă nâimporte quelle fin et sans avoir Ă demander la permission.
- Ătudier le fonctionnement du systĂšme et inspecter ses composants.
- Modifier le systĂšme dans nâimporte quel but, y compris pour changer ses rĂ©sultats.
- Partager le systĂšme pour que dâautres puissent lâutiliser, avec ou sans modifications, dans nâimporte quel but.
Jusquâici tout va bien. Cela semble raisonnable, nâest-ce pas ? Vous pouvez inspecter, modifier, utiliser et tout ça. GĂ©nial. Tout est couvert dans les moindre dĂ©tails, nâest-ce pas ? Voyons rapidement ce quâun systĂšme dâIA doit offrir. Le code : Check. Les paramĂštres du modĂšle (poids, configurations) : Check ! Nous sommes sur la bonne voie. Quâen est-il des donnĂ©es ?
Informations sur les donnĂ©es : Informations suffisamment dĂ©taillĂ©es sur les donnĂ©es utilisĂ©es pour entraĂźner le systĂšme, de maniĂšre Ă ce quâune personne compĂ©tente puisse construire un systĂšme substantiellement Ă©quivalent. Les informations sur les donnĂ©es sont mises Ă disposition dans des conditions approuvĂ©es par lâOSI.
En particulier, cela doit inclure (1) une description dĂ©taillĂ©e de toutes les donnĂ©es utilisĂ©es pour la formation, y compris (le cas Ă©chĂ©ant) des donnĂ©es non partageables, indiquant la provenance des donnĂ©es, leur portĂ©e et leurs caractĂ©ristiques, la maniĂšre dont les donnĂ©es ont Ă©tĂ© obtenues et sĂ©lectionnĂ©es, les procĂ©dures dâĂ©tiquetage et les mĂ©thodes de nettoyage des donnĂ©es ; (2) une liste de toutes les donnĂ©es de formation accessibles au public et lâendroit oĂč les obtenir ; et (3) une liste de toutes les donnĂ©es de formation pouvant ĂȘtre obtenues auprĂšs de tiers et lâendroit oĂč les obtenir, y compris Ă titre onĂ©reux.
Open Source Initiative
Que signifie « informations suffisamment dĂ©taillĂ©es » ? La dĂ©finition de lâopen source ne parle jamais de « code source suffisamment dĂ©taillĂ© ». Vous devez obtenir le code source. Tout le code source. Et pas sous une forme obscurcie ou dĂ©formĂ©e. Le vrai code. Sinon, cela ne veut pas dire grand-chose et ne permet pas dâinstaurer la confiance.
La dĂ©finition de lâ« IA Open Source » donnĂ©e par lâOSI porte un grand coup Ă lâidĂ©e dâopen source : en rendant une partie essentielle du modĂšle (les donnĂ©es dâentraĂźnement) particuliĂšre de cette maniĂšre Ă©trange et bancale, ils qualifient dâ« open source » toutes sortes de choses qui ne le sont pas vraiment, sur la base de leur propre dĂ©finition de ce quâest lâopen source et de ce Ă quoi elle sert.
Les donnĂ©es dâapprentissage dâun systĂšme dâIA font Ă toutes fins utiles partie de son « code ». Elles sont aussi pertinentes pour le fonctionnement du modĂšle que le code littĂ©ral. Pour les systĂšmes dâIA, elles le sont probablement encore plus, car le code nâest quâune opĂ©ration matricielle gĂ©nĂ©rique avec des illusions de grandeur.
LâOSI met une autre cerise sur le gĂąteau : les utilisateurs mĂ©ritent une description des « donnĂ©es non partageables » qui ont Ă©tĂ© utilisĂ©es pour entraĂźner un modĂšle. Quâest-ce que câest ? Appliquons cela au code Ă nouveau : si un produit logiciel nous donne une partie essentielle de ses fonctionnalitĂ©s simplement sous la forme dâun artefact compilĂ© et nous jure ensuite que tout est totalement franc et honnĂȘte, mais que le code nâest pas « partageable », nous nâappellerions pas ce logiciel « open source ». Parce quâil nâouvre pas toutes les sources.
Une « description » de donnĂ©es partiellement « non partageables » vous aide-t-elle Ă reproduire le modĂšle ? Non. Vous pouvez essayer de reconstruire le modĂšle et il peut sembler un peu similaire, mais il est significativement diffĂ©rent. Cela vous aide-t-il dâ« Ă©tudier le systĂšme et dâinspecter ses composants » ? Seulement Ă un niveau superficiel. Mais si vous voulez vraiment analyser ce quâil y a dans la boĂźte de statistiques magiques, vous devez savoir ce quâil y a dedans. Quâest-ce qui a Ă©tĂ© filtrĂ© exactement, quâest-ce qui est entrĂ© ?
Cette dĂ©finition semble trĂšs Ă©trange venant de lâOSI, nâest-ce pas ? De toute Ă©vidence, cela va Ă lâencontre des idĂ©es fondamentales de ce que les gens pensent que lâopen source est et devrait ĂȘtre. Alors pourquoi le faire ?
LâIA (non) open source
Voici le truc. Ă lâĂ©chelle oĂč nous parlons aujourdâhui de ces systĂšmes statistiques en tant quâ« IA », lâIA open source ne peut pas exister.
De nombreux modĂšles plus petits ont Ă©tĂ© entraĂźnĂ©s sur des ensembles de donnĂ©es publics explicitement sĂ©lectionnĂ©s et organisĂ©s. Ceux-ci peuvent fournir toutes les donnĂ©es, tout le code, tous les processus et peuvent ĂȘtre appelĂ©s IA open-source. Mais ce ne sont pas ces systĂšmes qui font sâenvoler lâaction de NVIDIA.
Ces grands systĂšmes que lâon appelle « IA » â quâils soient destinĂ©s Ă la gĂ©nĂ©ration dâimages, de texte ou multimodaux â sont tous basĂ©s sur du matĂ©riel acquis et utilisĂ© illĂ©galement. Parce que les ensembles de donnĂ©es sont trop volumineux pour effectuer un filtrage rĂ©el et garantir leur lĂ©galitĂ©. Câest tout simplement trop.
Maintenant, les plus naĂŻfs dâentre vous pourraient se demander : « Dâaccord, mais si vous ne pouvez pas le faire lĂ©galement, comment pouvez-vous prĂ©tendre quâil sâagit dâune entreprise lĂ©gitime ? » et vous auriez raison, mais nous vivons aussi dans un monde Ă©trange oĂč lâespoir quâune innovation magique et / ou de lâargent viendront de la reproduction de messages Reddit, sauvant notre Ă©conomie et notre progrĂšs.
Lâ« IA open source » est une tentative de « blanchir » les systĂšmes propriĂ©taires. Dans leur article « Repenser lâIA gĂ©nĂ©rative open source : lâopenwashing et le rĂšglement sur lâIA de lâUE », Andreas Liesenfeld et Mark Dingemanse ont montrĂ© que de nombreux modĂšles dâIA « Open-Source » nâoffrent guĂšre plus que des poids de modĂšles ouverts. Signification : Vous pouvez faire fonctionner la chose mais vous ne savez pas vraiment ce que câest.
Cela ressemble Ă quelque chose que nous avons dĂ©jĂ eu : câest un freeware. Les modĂšles open source que nous voyons aujourdâhui sont des blobs freeware propriĂ©taires. Ce qui est potentiellement un peu mieux que lâapproche totalement fermĂ©e dâOpenAI, mais seulement un peu.
Certains modĂšles proposent des fiches de prĂ©sentation du modĂšle ou dâautres documents, mais la plupart vous laissent dans lâignorance. Cela sâexplique par le fait que la plupart de ces modĂšles sont dĂ©veloppĂ©s par des entreprises financĂ©es par le capital-risque qui ont besoin dâune voie thĂ©orique vers la monĂ©tisation.
Lâ« open source » est devenu un autocollant comme le « Commerce Ă©quitable », quelque chose qui donne lâimpression que votre produit est bon et digne de confiance. Pour le positionner en dehors du diabolique espace commercial, en lui donnant un sentiment de proximitĂ©. « Nous sommes dans le mĂȘme bateau » et tout le reste. Mais ce nâest pas le cas. Nous ne sommes pas dans le mĂȘme bateau que Mark fucking Zuckerberg, mĂȘme sâil distribue gratuitement des poids de LLM parce que cela nuit Ă ses concurrents. Nous, en tant que personnes normales vivant sur cette planĂšte qui ne cesse de se rĂ©chauffer, ne sommes avec aucune de ces personnes.

Les libristes adorent pourtant les stickers. Image sous CC BY-SA par Kirsten Comandich.
Mais il y a un autre aspect Ă cette question, en dehors de redorer lâimage des grands noms de la technologie et de leurs entreprises. Il sâagit de la lĂ©galitĂ©. Au moins en Allemagne, il existe des exceptions Ă certaines lois qui concernent normalement les auteurs de LLM : si vous le faites Ă des fins de recherche, vous ĂȘtes autorisĂ© Ă rĂ©cupĂ©rer pratiquement nâimporte quoi. Vous pouvez ensuite entraĂźner des modĂšles et publier ces poids, et mĂȘme sâil y a des contenus de Disney lĂ -dedans, vous nâavez rien Ă craindre. Câest lĂ que lâidĂ©e de lâIA open source joue un rĂŽle important : il sâagit dâun moyen de lĂ©gitimer un comportement probablement illĂ©gal par le biais de lâopenwashing : en tant quâentreprise, vous prenez de lâ« IA open source » qui est basĂ©e sur tous les Ă©lĂ©ments que vous ne seriez pas lĂ©galement autorisĂ© Ă toucher et vous lâutilisez pour construire votre produit. Faites de lâentraĂźnement supplĂ©mentaire avec des donnĂ©es sous licence, par exemple.
LâOpen Source Initiative a attrapĂ© le syndrome FOMO (N.d.T : Fear of Missing Out) â tout comme le jury du prix Nobel. Elle souhaite Ă©galement participer Ă lâengouement pour lâ« IA ».
Mais pour les systĂšmes que nous appelons aujourdâhui « IA », lâIA open source nâest pas possible dans la pratique. En effet, nous ne pourrons jamais tĂ©lĂ©charger toutes les donnĂ©es dâentraĂźnement rĂ©elles.
« Mais tante, nous nâaurons jamais dâIA open source ». Câest tout Ă fait exact. Câest ainsi que fonctionne la rĂ©alitĂ©. Si vous ne pouvez pas remplir les critĂšres dâune catĂ©gorie, vous nâappartenez pas Ă cette catĂ©gorie. La solution nâest pas de changer les critĂšres. Câest comme jouer aux Ă©checs avec les pigeons.