Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

À partir d’avant-hierFlux principal

Framablog
L’IA Open Source existe-t-elle vraiment ? 31 octobre 2024 à 05:10

L’IA Open Source existe-t-elle vraiment ?

Par : Framalang

31 octobre 2024 à 05:10

À l’heure où tous les mastodontes du numérique, GAFAM comme instituts de recherche comme nouveaux entrants financés par le capital risque se mettent à publier des modèles en masse (la plateforme Hugging Face a ainsi dépassé le million de modèles déposés le mois dernier), la question du caractère « open-source » de l’IA se pose de plus en plus.

Ainsi, l’Open Source Initiative (OSI) vient de publier une première définition de l’IA Open-Source, et la Linux Foundation (dont le nom peut prêter à confusion, mais qui ne représente surtout qu’une oligarchie d’entreprises du secteur) s’interroge également sur le terme.

Au milieu de tout cela, OpenAI devient de manière assez prévisible de moins en moins « open », et si Zuckerberg et Meta s’efforcent de jouer la carte de la transparence en devenant des hérauts de l’« IA Open-Source », c’est justement l’OSI qui leur met des bâtons dans les roues en ayant une vision différente de ce que devrait être une IA Open-Source, avec en particulier un pré-requis plus élevé sur la transparence des données d’entraînement.

Néanmoins, la définition de l’OSI, si elle embête un peu certaines entreprises, manque selon la personne ayant écrit ce billet (dont le pseudo est « tante ») d’un élément assez essentiel, au point qu’elle se demande si « l’IA open source existe-t-elle vraiment ? ».

Note : L’article originel a été publié avant la sortie du texte final de l’OSI, mais celui-ci n’a semble t-il pas changé entre la version RC1 et la version finale.

L’IA Open Source existe-t-elle vraiment ?

Par tante, sous licence CC BY-SA (article originel).
Une traduction Framalang par tcit et deux contributeur·ices anonymes.
Photo de la bannière par Robert Couse-Baker.

L’Open Source Initiative (OSI) a publié la RC1 (« Release Candidate 1 » signifiant : cet écrit est pratiquement terminé et sera publié en tant que tel à moins que quelque chose de catastrophique ne se produise) de la « Définition de l’IA Open Source ».

D’aucuns pourraient se demander en quoi cela est important. Plein de personnes écrivent sur l’IA, qu’est-ce que cela apporte de plus ? C’est la principale activité sur LinkedIn à l’heure actuelle. Mais l’OSI joue un rôle très particulier dans l’écosystème des logiciels libres. En effet, l’open source n’est pas seulement basé sur le fait que l’on peut voir le code, mais aussi sur la licence sous laquelle le code est distribué : Vous pouvez obtenir du code que vous pouvez voir mais que vous n’êtes pas autorisé à modifier (pensez au débat sur la publication récente de celui de WinAMP). L’OSI s’est essentiellement chargée de définir parmi les différentes licences utilisées partout lesquelles sont réellement « open source » et lesquelles sont assorties de restrictions qui sapent cette idée.

C’est très important : le choix d’une licence est un acte politique lourd de conséquences. Elle peut autoriser ou interdire différents modes d’interaction avec un objet ou imposer certaines conditions d’utilisation. La célèbre GPL, par exemple, vous permet de prendre le code mais vous oblige à publier vos propres modifications. D’autres licences n’imposent pas cette exigence. Le choix d’une licence a des effets tangibles.

Petit aparté : « open source » est déjà un terme un peu problématique, c’est (à mon avis) une façon de dépolitiser l’idée de « Logiciel libre ». Les deux partagent certaines idées, mais là où « open source » encadre les choses d’une manière plus pragmatique « les entreprises veulent savoir quel code elles peuvent utiliser », le logiciel libre a toujours été un mouvement plus politique qui défend les droits et la liberté de l’utilisateur. C’est une idée qui a probablement été le plus abimée par les figures les plus visibles de cet espace et qui devraient aujourd’hui s’effacer.

Qu’est-ce qui fait qu’une chose est « open source » ? L’OSI en dresse une courte liste. Vous pouvez la lire rapidement, mais concentrons-nous sur le point 2 : le code source :

Le programme doit inclure le code source et doit permettre la distribution du code source et de la version compilée. Lorsqu’une quelconque forme d’un produit n’est pas distribuée avec le code source, il doit exister un moyen bien connu d’obtenir le code source pour un coût de reproduction raisonnable, de préférence en le téléchargeant gratuitement sur Internet. Le code source doit être la forme préférée sous laquelle un programmeur modifierait le programme. Le code source délibérément obscurci n’est pas autorisé. Les formes intermédiaires telles que la sortie d’un préprocesseur ou d’un traducteur ne sont pas autorisées.
Open Source Initiative

Pour être open source, un logiciel doit donc être accompagné de ses sources. D’accord, ce n’est pas surprenant. Mais les rédacteurs ont vu pas mal de conneries et ont donc ajouté que le code obfusqué (c’est-à-dire le code qui a été manipulé pour être illisible) ou les formes intermédiaires (c’est-à-dire que vous n’obtenez pas les sources réelles mais quelque chose qui a déjà été traité) ne sont pas autorisés. Très bien. C’est logique. Mais pourquoi les gens s’intéressent-ils aux sources ?

Les sources de la vérité

L’open source est un phénomène de masse relativement récent. Nous avions déjà des logiciels, et même certains pour lesquels nous ne devions pas payer. À l’époque, on les appelait des « Freeware », des « logiciels gratuits ». Les freewares sont des logiciels que vous pouvez utiliser gratuitement mais dont vous n’obtenez pas le code source. Vous ne pouvez pas modifier le programme (légalement), vous ne pouvez pas l’auditer, vous ne pouvez pas le compléter. Mais il est gratuit. Et il y avait beaucoup de cela dans ma jeunesse. WinAMP, le lecteur audio dont j’ai parlé plus haut, était un freeware et tout le monde l’utilisait. Alors pourquoi se préoccuper des sources ?

Pour certains, il s’agissait de pouvoir modifier les outils plus facilement, surtout si le responsable du logiciel ne travaillait plus vraiment dessus ou commençait à ajouter toutes sortes de choses avec lesquelles ils n’étaient pas d’accord (pensez à tous ces logiciels propriétaires que vous devez utiliser aujourd’hui pour le travail et qui contiennent de l’IA derrière tous les autres boutons). Mais il n’y a pas que les demandes de fonctionnalités. Il y a aussi la confiance.

Lorsque j’utilise un logiciel, je dois faire confiance aux personnes qui l’ont écrit. Leur faire confiance pour qu’ils fassent du bon travail, pour qu’ils créent des logiciels fiables et robustes. Qu’ils n’ajoutent que les fonctionnalités décrites dans la documentation et rien de caché, de potentiellement nuisible.

Les questions de confiance sont de plus en plus importantes, d’autant plus qu’une grande partie de notre vie réelle repose sur des infrastructures numériques. Nous savons tous que nos infrastructures doivent comporter des algorithmes de chiffrement entièrement ouverts, évalués par des pairs et testés sur le terrain, afin que nos communications soient à l’abri de tout danger.

L’open source est – en particulier pour les systèmes et infrastructures critiques – un élément clé de l’établissement de cette confiance : Parce que vous voulez que (quelqu’un) soit en mesure de vérifier ce qui se passe. On assiste depuis longtemps à une poussée en faveur d’une plus grande reproductibilité des processus de construction. Ces processus de compilation garantissent essentiellement qu’avec le même code d’entrée, on obtient le même résultat compilé. Cela signifie que si vous voulez savoir si quelqu’un vous a vraiment livré exactement ce qu’il a dit, vous pouvez le vérifier. Parce que votre processus de construction créerait un artefact identique.

Le projet Reproducible builds cherche à promouvoir la reproductibilité des systèmes libres, pour plus de transparence.
Le projet est notamment financé par le Sovereign Tech Fund.

Bien entendu, tout le monde n’effectue pas ce niveau d’analyse. Et encore moins de personnes n’utilisent que des logiciels issus de processus de construction reproductibles – surtout si l’on considère que de nombreux logiciels ne sont pas compilés aujourd’hui. Mais les relations sont plus nuancées que le code et la confiance est une relation : si vous me parlez ouvertement de votre code et de la manière dont la version binaire a été construite, il me sera beaucoup plus facile de vous faire confiance. Savoir ce que contient le logiciel que j’exécute sur la machine qui contient également mes relevés bancaires ou mes clés de chiffrement.

Mais quel est le rapport avec l’IA ?

Les systèmes d’IA et les 4 libertés

Les systèmes d’IA sont un peu particuliers. En effet, les systèmes d’IA – en particulier les grands systèmes qui fascinent tout le monde – ne contiennent pas beaucoup de code par rapport à leur taille. La mise en œuvre d’un réseau neuronal se résume à quelques centaines de lignes de Python, par exemple. Un « système d’IA » ne consiste pas seulement en du code, mais en un grand nombre de paramètres et de données.

Un LLM moderne (ou un générateur d’images) se compose d’un peu de code. Vous avez également besoin d’une architecture de réseau, c’est-à-dire de la configuration des neurones numériques utilisés et de la manière dont ils sont connectés. Cette architecture est ensuite paramétrée avec ce que l’on appelle les « poids » (weights), qui sont les milliards de chiffres dont vous avez besoin pour que le système fasse quelque chose. Mais ce n’est pas tout.

Pour traduire des syllabes ou des mots en nombres qu’une « IA » peut consommer, vous avez besoin d’une intégration, une sorte de table de recherche qui vous indique à quel « jeton » (token) correspond le nombre « 227 ». Si vous prenez le même réseau neuronal mais que vous lui appliquez une intégration différente de celle avec laquelle il a été formé, tout tomberait à l’eau. Les structures ne correspondraient pas.

Représentation d'une puce informatique sous la forme d'un cerveau.

Image sous CC BY par Mike MacKenzie & Liam Huang

Ensuite, il y a le processus de formation, c’est-à-dire le processus qui a créé tous les « poids ». Pour entraîner une « IA », vous lui fournissez toutes les données que vous pouvez trouver et, après des millions et des milliards d’itérations, les poids commencent à émerger et à se cristalliser. Le processus de formation, les données utilisées et la manière dont elles le sont sont essentiels pour comprendre les capacités et les problèmes d’un système d’apprentissage automatique : si vous voulez réduire les dommages dans un réseau, vous devez savoir s’il a été formé sur Valeurs Actuelles ou non, pour donner un exemple.

Et c’est là qu’est le problème.

L’OSI « The Open Source AI Definition – 1.0-RC1 » exige d’une IA open source qu’elle offre quatre libertés à ses utilisateurs :

Utiliser le système à n’importe quelle fin et sans avoir à demander la permission.
Étudier le fonctionnement du système et inspecter ses composants.
Modifier le système dans n’importe quel but, y compris pour changer ses résultats.
Partager le système pour que d’autres puissent l’utiliser, avec ou sans modifications, dans n’importe quel but.

Jusqu’ici tout va bien. Cela semble raisonnable, n’est-ce pas ? Vous pouvez inspecter, modifier, utiliser et tout ça. Génial. Tout est couvert dans les moindre détails, n’est-ce pas ? Voyons rapidement ce qu’un système d’IA doit offrir. Le code : Check. Les paramètres du modèle (poids, configurations) : Check ! Nous sommes sur la bonne voie. Qu’en est-il des données ?

Informations sur les données : Informations suffisamment détaillées sur les données utilisées pour entraîner le système, de manière à ce qu’une personne compétente puisse construire un système substantiellement équivalent. Les informations sur les données sont mises à disposition dans des conditions approuvées par l’OSI.

En particulier, cela doit inclure (1) une description détaillée de toutes les données utilisées pour la formation, y compris (le cas échéant) des données non partageables, indiquant la provenance des données, leur portée et leurs caractéristiques, la manière dont les données ont été obtenues et sélectionnées, les procédures d’étiquetage et les méthodes de nettoyage des données ; (2) une liste de toutes les données de formation accessibles au public et l’endroit où les obtenir ; et (3) une liste de toutes les données de formation pouvant être obtenues auprès de tiers et l’endroit où les obtenir, y compris à titre onéreux.
Open Source Initiative

Que signifie « informations suffisamment détaillées » ? La définition de l’open source ne parle jamais de « code source suffisamment détaillé ». Vous devez obtenir le code source. Tout le code source. Et pas sous une forme obscurcie ou déformée. Le vrai code. Sinon, cela ne veut pas dire grand-chose et ne permet pas d’instaurer la confiance.

La définition de l’« IA Open Source » donnée par l’OSI porte un grand coup à l’idée d’open source : en rendant une partie essentielle du modèle (les données d’entraînement) particulière de cette manière étrange et bancale, ils qualifient d’« open source » toutes sortes de choses qui ne le sont pas vraiment, sur la base de leur propre définition de ce qu’est l’open source et de ce à quoi elle sert.

Les données d’apprentissage d’un système d’IA font à toutes fins utiles partie de son « code ». Elles sont aussi pertinentes pour le fonctionnement du modèle que le code littéral. Pour les systèmes d’IA, elles le sont probablement encore plus, car le code n’est qu’une opération matricielle générique avec des illusions de grandeur.

L’OSI met une autre cerise sur le gâteau : les utilisateurs méritent une description des « données non partageables » qui ont été utilisées pour entraîner un modèle. Qu’est-ce que c’est ? Appliquons cela au code à nouveau : si un produit logiciel nous donne une partie essentielle de ses fonctionnalités simplement sous la forme d’un artefact compilé et nous jure ensuite que tout est totalement franc et honnête, mais que le code n’est pas « partageable », nous n’appellerions pas ce logiciel « open source ». Parce qu’il n’ouvre pas toutes les sources.

Une « description » de données partiellement « non partageables » vous aide-t-elle à reproduire le modèle ? Non. Vous pouvez essayer de reconstruire le modèle et il peut sembler un peu similaire, mais il est significativement différent. Cela vous aide-t-il d’« étudier le système et d’inspecter ses composants » ? Seulement à un niveau superficiel. Mais si vous voulez vraiment analyser ce qu’il y a dans la boîte de statistiques magiques, vous devez savoir ce qu’il y a dedans. Qu’est-ce qui a été filtré exactement, qu’est-ce qui est entré ?

Cette définition semble très étrange venant de l’OSI, n’est-ce pas ? De toute évidence, cela va à l’encontre des idées fondamentales de ce que les gens pensent que l’open source est et devrait être. Alors pourquoi le faire ?

L’IA (non) open source

Voici le truc. À l’échelle où nous parlons aujourd’hui de ces systèmes statistiques en tant qu’« IA », l’IA open source ne peut pas exister.

De nombreux modèles plus petits ont été entraînés sur des ensembles de données publics explicitement sélectionnés et organisés. Ceux-ci peuvent fournir toutes les données, tout le code, tous les processus et peuvent être appelés IA open-source. Mais ce ne sont pas ces systèmes qui font s’envoler l’action de NVIDIA.

Ces grands systèmes que l’on appelle « IA » – qu’ils soient destinés à la génération d’images, de texte ou multimodaux – sont tous basés sur du matériel acquis et utilisé illégalement. Parce que les ensembles de données sont trop volumineux pour effectuer un filtrage réel et garantir leur légalité. C’est tout simplement trop.

Maintenant, les plus naïfs d’entre vous pourraient se demander : « D’accord, mais si vous ne pouvez pas le faire légalement, comment pouvez-vous prétendre qu’il s’agit d’une entreprise légitime ? » et vous auriez raison, mais nous vivons aussi dans un monde étrange où l’espoir qu’une innovation magique et / ou de l’argent viendront de la reproduction de messages Reddit, sauvant notre économie et notre progrès.

L’« IA open source » est une tentative de « blanchir » les systèmes propriétaires. Dans leur article « Repenser l’IA générative open source : l’openwashing et le règlement sur l’IA de l’UE », Andreas Liesenfeld et Mark Dingemanse ont montré que de nombreux modèles d’IA « Open-Source » n’offrent guère plus que des poids de modèles ouverts. Signification : Vous pouvez faire fonctionner la chose mais vous ne savez pas vraiment ce que c’est.

Cela ressemble à quelque chose que nous avons déjà eu : c’est un freeware. Les modèles open source que nous voyons aujourd’hui sont des blobs freeware propriétaires. Ce qui est potentiellement un peu mieux que l’approche totalement fermée d’OpenAI, mais seulement un peu.

Certains modèles proposent des fiches de présentation du modèle ou d’autres documents, mais la plupart vous laissent dans l’ignorance. Cela s’explique par le fait que la plupart de ces modèles sont développés par des entreprises financées par le capital-risque qui ont besoin d’une voie théorique vers la monétisation.

L’« open source » est devenu un autocollant comme le « Commerce équitable », quelque chose qui donne l’impression que votre produit est bon et digne de confiance. Pour le positionner en dehors du diabolique espace commercial, en lui donnant un sentiment de proximité. « Nous sommes dans le même bateau » et tout le reste. Mais ce n’est pas le cas. Nous ne sommes pas dans le même bateau que Mark fucking Zuckerberg, même s’il distribue gratuitement des poids de LLM parce que cela nuit à ses concurrents. Nous, en tant que personnes normales vivant sur cette planète qui ne cesse de se réchauffer, ne sommes avec aucune de ces personnes.

Photo d'un sticker où il est marqué « Open-Source Fuck Yeah ».

Les libristes adorent pourtant les stickers. Image sous CC BY-SA par Kirsten Comandich.

Mais il y a un autre aspect à cette question, en dehors de redorer l’image des grands noms de la technologie et de leurs entreprises. Il s’agit de la légalité. Au moins en Allemagne, il existe des exceptions à certaines lois qui concernent normalement les auteurs de LLM : si vous le faites à des fins de recherche, vous êtes autorisé à récupérer pratiquement n’importe quoi. Vous pouvez ensuite entraîner des modèles et publier ces poids, et même s’il y a des contenus de Disney là-dedans, vous n’avez rien à craindre. C’est là que l’idée de l’IA open source joue un rôle important : il s’agit d’un moyen de légitimer un comportement probablement illégal par le biais de l’openwashing : en tant qu’entreprise, vous prenez de l’« IA open source » qui est basée sur tous les éléments que vous ne seriez pas légalement autorisé à toucher et vous l’utilisez pour construire votre produit. Faites de l’entraînement supplémentaire avec des données sous licence, par exemple.

L’Open Source Initiative a attrapé le syndrome FOMO (N.d.T : Fear of Missing Out) – tout comme le jury du prix Nobel. Elle souhaite également participer à l’engouement pour l’« IA ».

Mais pour les systèmes que nous appelons aujourd’hui « IA », l’IA open source n’est pas possible dans la pratique. En effet, nous ne pourrons jamais télécharger toutes les données d’entraînement réelles.

« Mais tante, nous n’aurons jamais d’IA open source ». C’est tout à fait exact. C’est ainsi que fonctionne la réalité. Si vous ne pouvez pas remplir les critères d’une catégorie, vous n’appartenez pas à cette catégorie. La solution n’est pas de changer les critères. C’est comme jouer aux échecs avec les pigeons.

Framablog
Un créateur passe de DC (Comics) à DP (Domaine Public) 26 septembre 2023 à 05:42

Un créateur passe de DC (Comics) à DP (Domaine Public)

Framablog

Par : Framalang

26 septembre 2023 à 05:42

Bill Willingham, fort mécontent de son éditeur DC Comics, décide de porter toutes ses Fables dans le Domaine Public. Il s’en explique dans un communiqué de presse du 14 septembre.

En édition, le modèle auquel nous sommes conformé·es, c’est qu’une personne qui souhaite avoir un revenu de sa plume confie le fruit de son labeur à un tiers, l’éditeur, qui se chargera de le faire fructifier et qui reversera en échange de cet accord encadré par contrat une partie des revenus générés à l’artiste. C’est ce que le droit d’auteur standard défend comme modèle.

Sauf que la réalité est bien loin de cette jolie fiction et les relations conflictuelles qui naissent au sein de l’industrie ne sont pas rares. Auteurs et autrices sont fréquemment confronté·es à des soucis avec leur « partenaire » : retards de paiements, mensonges sur les tirages, obfuscation des résultats de vente, obligation de participation gratuite au marketing, non-respect des souhaits initiaux, abus au sein des clauses contractuelles.

Bref, il arrive que le capitalisme basé sur la propriété intellectuelle ne puisse s’empêcher de traiter auteurs et autrices comme tous ses fournisseurs : comme des quantités négligeables dont il faut extraire le plus de valeur possible tout en minimisant au maximum les contreparties, quitte à profiter d’un rapport de force favorable pour ne pas honorer ses accords ou en le faisant de façon abusive. Et, comme le prouve l’histoire ci-dessous, la réaction des artistes tend parfois à la radicalité.

Nous ne pouvons déterminer exactement quelles seront les conséquences juridiques (et pratiques quant à l’usage de son univers) des décisions de Bill Willingham, surtout qu’elles prennent place en milieu anglo-saxon où la propriété intellectuelle ne relève pas des mêmes cadres juridiques qu’en France (soumise à la convention de Berne), mais il nous semblait intéressant de traduire le billet où il exprime son ras-le-bol et sa décision d’autant plus surprenante qu’il s’est toujours considéré comme un conservateur, politiquement parlant.

Vous trouverez au bas de cet article des liens qui exposent la situation des auteurs en France (spoiler alert : c’est pas brillant…).

— Yann Kervran

Publication originale : Willingham Sends Fables Into the Public Domain avec quelques éléments de cette auto-interview : More About Fables in the Public Domain

Traduction Framalang : goofy, Henri-Paul, JLuc, Julien / Sphinx

Bill Willingham élève Fables dans le domaine public

À compter du 15 septembre 2023, la propriété de la BD Fables, ce qui inclut tous les personnages et les séries dérivées, entre dans le domaine public. Ce qui appartenait intégralement au seul Bill Willingham est désormais la propriété de tout le monde et pour toujours. C’est chose faite et comme vous le diront la plupart des spécialistes, une fois que c’est fait, pas de retour en arrière possible. Ce n’est ni possible ni envisageable.

— Pourquoi avoir fait ça ?

Pour plusieurs de raisons. Voilà un certain temps que j’y réfléchis. Donc, sans ordre particulier :

1. Sous l’angle pratique : quand j’ai signé mon premier contrat d’édition en tant qu’auteur-créateur avec DC Comics, l’entreprise était dirigée par des hommes et des femmes honnêtes et intègres. La plupart interprétaient les détails du contrat de façon équitable et transparente. Il arrivait immanquablement que des problèmes apparaissent et nous réglions ça comme des femmes et des hommes raisonnables. Depuis lors, au cours d’une vingtaine d’années à peu près, ces personnes sont parties ou ont été virées pour être remplacées par un ballet renouvelé d’inconnus sans intégrité mesurable, qui dorénavant choisissent d’interpréter chaque détail du contrat dans le seul intérêt de DC Comics et ses filiales. À une époque la propriété des Fables était entre de bonnes mains, mais maintenant, avec l’usure et le remplacement des personnels, la propriété des Fables est tombée entre de mauvaises mains.

Comme je n’ai pas les moyens d’intenter un procès à DC Comics pour les contraindre à respecter la lettre et l’esprit de nos accords de longue date, et puisque même si je gagnais un procès ça me coûterait des sommes d’argent pharamineuses et des années de ma vie (j’ai 67 ans donc pas d’années à perdre), j’ai décidé de suivre une autre voie et de combattre sur un autre front, inspiré par les principes de la guerre asymétrique.

J’ai choisi de l’offrir à tout le monde. Si je n’ai pas pu empêcher Fables de tomber entre de mauvaises mains, c’est au moins une façon de faire en sorte qu’elles tombent également entre de nombreuses bonnes mains. Puisque je crois sincèrement qu’il y a encore davantage de bonnes personnes que de mauvaises dans le monde, je considère cela comme une forme de victoire.

2. Sous l’angle philosophique : au cours de la dernière décennie, mes réflexions sur la manière de réformer les lois sur les marques et le droit d’auteur dans ce pays (et dans d’autres, je suppose) ont subi une transformation radicale. Les lois actuelles sont un méli-mélo d’accords sous la table et contraires à l’éthique visant à maintenir les marques et les droits d’auteur entre les mains de grandes entreprises, qui peuvent largement se permettre d’acheter les résultats qu’elles souhaitent.

Dans mon modèle idéal de réforme radicale de ces lois, j’aimerais qu’une propriété intellectuelle soit la propriété de son créateur d’origine pendant une période pouvant aller jusqu’à vingt ans à compter de la première publication, puis qu’elle tombe dans le domaine public pour que tous puissent l’utiliser. Cependant, à tout moment avant l’expiration de cette période de vingt ans, vous, le propriétaire de la propriété intellectuelle, pouvez la vendre à une autre personne physique ou morale, qui peut en avoir l’usage exclusif pendant une durée maximale de dix ans. C’est ainsi maintenant et il ne peut alors pas être revendu. Cela entre dans le domaine public. Toute propriété intellectuelle peut-elle être conservée à usage exclusif au maximum pendant une trentaine d’années au maximum, et pas plus, sans exception.

Bien sûr, si je dois croire à des idées aussi radicales, quel genre d’hypocrite serais-je si je ne les mettais pas en pratique ? Fables est mon bébé depuis une vingtaine d’années maintenant. Il est temps de laisser tomber. C’est mon premier test de ce processus. Si cela fonctionne, et je ne vois aucune raison légale pour laquelle cela ne fonctionnerait pas, d’autres propriétés viendront à l’avenir. Étant donné que DC, ou tout autre personne morale, n’est pas réellement propriétaire de l’œuvre, ils n’ont pas leur mot à dire dans cette décision.

— Qu’est-ce que DC Comics vous a fait au juste pour provoquer ça ?

Trop de choses pour les lister de manière exhaustive, mais voici les points essentiels. Pendant toutes ces années où j’ai été en affaires avec DC Comics, que ce soit avec Fables ou d’autres propriétés intellectuelles, DC a toujours violé ses accords avec moi. En général sur des points mineurs, comme d’oublier de me demander mon avis sur les artistes pour de nouvelles histoires, ou pour les images de couverture, les formats des nouvelles collections, etc.

À cette époque, quand on les appelait pour ça, ils répondaient à chaque fois : « Désolé, on vous a encore oublié, c’est passé entre les mailles du filet. Ils ont utilisé si souvent cette expression « passer entre les mailles » comme un automatisme que j’ai fini par leur interdire de l’employer encore. Ils sont souvent en retard pour la déclaration des royalties et les sous-estiment souvent, ce qui me force à les poursuivre pour qu’ils paient le reste de ce qu’ils me doivent.

Dernièrement, leurs pratiques sont devenues plus que pénibles, débouchant sur une espèce de confrontation. Pour commencer, ils ont essayé de m’extorquer la propriété de Fables. Lorsque Mark Doyle et Dan Didio (tout deux bons professionnels et licenciés par DC depuis) m’avaient approché avec le projet de republier Fables pour son 20^e anniversaire, pendant les négociations contractuelles pour ces nouvelles parutions, leurs négociateurs juridiques ont tenté d’imposer comme condition que le travail soit réalisé comme prestataire¹, transférant de fait, et irrévocablement, la propriété à DC.

Lorsque ça n’a pas fonctionné, leur excuse a été : « Désolé, nous n’avons pas lu votre contrat avant ces négociations, nous pensions que nous en étions propriétaires ».
Plus récemment, lors de discussions pour tenter de résoudre ces différends, les personnes de DC ont admis que leur interprétation de notre accord de publication et de l’accord subséquent sur les droits des médias, étaient qu’ils pouvaient faire ce que bon leur semble avec cette propriété intellectuelle. Ils pourraient changer les histoires ou les personnages à leur convenance. Ils n’auraient aucune obligation de protéger l’intégrité et la valeur de la propriété intellectuelle, d’eux-mêmes ou de parties tierces (Telltale Games par exemple) et qu’ils pourraient radicalement modifier les personnages, le cadre, le prologue de l’histoire (je suis tombé sur le script (texte) qu’ils avaient essayé de me cacher il y a quelques années). Comme une telle licence d’utilisation n’avait pas été négociée dans notre accord de publication initial, ils ne me devraient pas non plus d’argent s’ils fournissaient des droits d’usages de Fables à de tierces parties.

Puis, après avoir capitulé sur certains points lors de réunions téléphoniques suivantes, promettant de me payer l’argent qu’ils me devaient pour avoir fourni une licence de Fables à Telltale Games, dans le cadre de notre nouvel accord, ils sont revenus sur leur parole et m’ont proposé de me payer le montant comme « honoraires de consultant », ce qui leur évitait d’admettre qu’ils me devaient cet argent, tout en incluant un accord de confidentialité m’empêchant de dire quoi que ce soit de négatif à propos de Telltale ou de la licence.

On pourrait encore continuer longtemps ainsi. Il y a tant d’autres, mais comme je l’ai dit, il s’agit là de quelques points saillants. À ce moment-là, comme je n’étais pas d’accord avec toutes leurs nouvelles interprétations de nos accords de longue date, nous étions en conflit. Ils m’ont pratiquement mis au défi de les poursuivre en justice pour faire valoir mes droits, sachant que ce serait une procédure longue, débilitante et coûteuse. Au lieu de cela, j’ai commencé à envisager d’autres solutions.

— Êtes-vous inquiet de savoir ce que DC va faire maintenant ?

Non. Je leur ai donné des années pour faire ce qu’il fallait. J’ai essayé de les raisonner, mais on ne peut pas raisonner ceux qui ne sont pas raisonnables. Ils ont utilisé ces années pour faire des promesses lénifiantes, mentir sur leur volonté de résoudre le problème et faire traîner les choses le plus longtemps possible. Je leur ai donné l’occasion de renégocier les contrats de fond en comble, en formulant les choses sans ambiguïté, et ils ont ignoré cette offre. Je leur ai donné l’occasion, à deux reprises, de simplement déchirer nos contrats et de nous séparer, mais ils ont ignoré ces offres. J’ai essayé de passer par-dessus leur tête, de traiter directement avec leurs nouveaux maîtres et peut-être de trouver quelqu’un disposé à traiter de bonne foi, mais ils ont bloqué toute tentative en ce sens. (Je vous mets au défi d’essayer de demander à n’importe quel responsable de DC Comics d’indiquer à qui il rend compte dans la hiérarchie de l’entreprise). Quoi qu’il en soit, sans leur donner de détails, je les ai prévenus des mois à l’avance que ce moment allait arriver. Je leur ai dit que ce que j’allais faire serait « à la fois légal et éthique ». Et maintenant, c’est arrivé.

Notez que mes contrats avec DC Comics sont toujours en vigueur. Je n’ai rien fait pour les rompre et je ne peux pas y mettre fin unilatéralement. Je ne peux toujours pas publier les bandes dessinées Fables par l’intermédiaire de quelqu’un d’autre que DC Comics. Je ne peux toujours pas autoriser un film Fables par l’intermédiaire de quelqu’un d’autre que DC Comics. Je ne peux pas non plus concéder de licence pour des jouets, des boîtes à lunch ou quoi que ce soit d’autre. Ils doivent toujours me payer pour les livres qu’ils publient. Et je n’abandonne pas les autres sommes qu’ils me doivent. D’une manière ou d’une autre, j’ai l’intention d’obtenir mes 50 % de l’argent qu’ils me doivent depuis des années pour le jeu Telltale et d’autres projets.

De toutes façons, les nouveaux propriétaires à 100 % de Fables n’ont jamais signé de tels contrats.

Pour le meilleur et pour le pire, DC et moi sommes enchaînés par un mariage malheureux, peut-être pour toujours.
Mais pas vous.

Si ma compréhension de la loi est correcte (et je préfère vous dire que la loi sur le copyright est un bazar, intentionnellement vague et trouble et qu’il n’y a pas deux avocats, même ceux spécialisés sur les lois des marques et du copyright, qui tomberaient d’accord sur ces sujets), vous avez le droit de créer vos propres films, dessins animés Fables, de publier vos libres Fables, de fabriquer vos jouets Fables, de faire ce que bon vous semble avec cette propriété, car c’est de la vôtre dont il s’agit.

Mark Buckingham est libre d’écrire sa propre version de Fables (et j’espère de tout mon cœur qu’il le fera). Steve Leialoha est libre d’écrire sa version de Fables (que j’aimerais beaucoup voir), etc. Vous n’avez pas besoin de ma permission (mais vous pouvez avoir mon aval ma bénédiction, selon votre projet). Vous n’avez pas besoin de la permission de DC ou de qui que ce soit d’autres. Vous n’avez jamais signé les accords que j’ai signés avec DC Comics.

Je possède toujours 100 % de Fables. Mais maintenant, chaque homme, chaque femme et chaque enfant du monde, ainsi que tous ceux qui naîtront jusqu’à la fin des temps, possèdent également 100 % de Fables. Ce n’est pas une propriété divisée entre nous tous, c’est une propriété multipliée à l’infini entre nous tous. Plutôt cool, non ? Chaque personne possède Fables en totalité et peut décider elle-même de ce qu’elle veut en faire, le cas échéant. C’est un peu comme le miracle de la multiplication des pains et des poissons, métaphoriquement parlant, bien sûr. Quel que soit le nombre de participants, il y en a assez pour tout le monde.

J’ai eu l’immense joie et le plaisir de vous proposer les récits de Fables pendant les vingt dernières années. J’ai hâte de voir ce que vous allez en faire.

image de l'auteur : devant un monstre menaçant ses enfants (angle gauche), une créature féminine farouche(au centre) armée d'une longue épée lui dit que sur ce qu'elle a de plus sacré, elle vas le tailler en pièces s'il a le le malheur de toucher un seul cheveu à sa progéniture (5 enfants effrayés dans l'angle droit)

Et maintenant ? Une affaire à suivre…

La situation juridique est difficile à démêler, comme le souligne cet article du magazine en ligne Comicsblog qui cite la réaction de DC Comics :

« Le comics Fables et ses différents romans graphiques publiés chez DC Comics, de même que les personnages, les histoires et les éléments qui les composent, sont la propriété de DC Comics et restent protégés par la loi des États-Unis sur le copyright et à travers le monde, en accord avec les lois appliquées sur chaque territoire, et ne font pas partie des œuvres tombées dans le domaine public.
DC conserve l’intégralité des droits et prendra les décisions nécessaires pour protéger ses droits à la propriété intellectuelle. »

Liens utiles sur la situation des auteurs en France :

Note :

Framablog
Zoom et les politiques de confidentialité 17 août 2023 à 01:42

Zoom et les politiques de confidentialité

Framablog

Par : Framalang

17 août 2023 à 01:42

Cet article a été publié à l’origine par THE MARKUP, il est traduit et republié avec l’accord de l’auteur selon les termes de la licence CC BY-NC-ND 4.0

Traduction Framalang : goofy, MO, Henri-Paul, Wisi_eu

Voilà ce qui arrive quand on se met à lire vraiment les politiques de confidentialité

Une récente polémique sur la capacité de Zoom à entraîner des intelligences artificielles avec les conversations des utilisateurs montre l’importance de lire les petits caractères

par Aaron Sankin

Photo de l'extérieur du siège de Zoom le 07 février 2023 à San José, Californie. Les côtés droit et gauche de la photo sont masqués par deux zones sombres qui ne sont pas mises au point.

Justin Sullivan/Getty Images

Bonjour, je m’appelle Aaron Sankin, je suis journaliste d’investigation à The Markup. J’écris ici pour vous expliquer que si vous faites quelque chose de très pénible (lire les documents dans lesquels les entreprises expliquent ce qu’elles peuvent faire avec vos données), vous pourrez ensuite faire quelque chose d’un peu drôle (piquer votre crise en ligne).

Au cours du dernier quart de siècle, les politiques de protection de la vie privée – ce langage juridique long et dense que l’on parcourt rapidement avant de cliquer sans réfléchir sur « J’accepte » – sont devenues à la fois plus longues et plus touffues. Une étude publiée l’année dernière a montré que non seulement la longueur moyenne des politiques de confidentialité a quadruplé entre 1996 et 2021, mais qu’elles sont également devenues beaucoup plus difficiles à comprendre.

Voici ce qu’a écrit Isabel Wagner, professeur associé à l’université De Montfort, qui a utilisé l’apprentissage automatique afin d’analyser environ 50 000 politiques de confidentialité de sites web pour mener son étude :

« En analysant le contenu des politiques de confidentialité, nous identifions plusieurs tendances préoccupantes, notamment l’utilisation croissante de données de localisation, l’exploitation croissante de données collectées implicitement, l’absence de choix véritablement éclairé, l’absence de notification efficace des modifications de la politique de confidentialité, l’augmentation du partage des données avec des parties tierces opaques et le manque d’informations spécifiques sur les mesures de sécurité et de confidentialité »

Si l’apprentissage automatique peut être un outil efficace pour comprendre l’univers des politiques de confidentialité, sa présence à l’intérieur d’une politique de confidentialité peut déclencher un ouragan. Un cas concret : Zoom.

En début de semaine dernière, Zoom, le service populaire de visioconférence devenu omniprésent lorsque les confinements ont transformé de nombreuses réunions en présentiel en réunions dans de mini-fenêtres sur des mini-écrans d’ordinateurs portables, a récemment fait l’objet de vives critiques de la part des utilisateurs et des défenseurs de la vie privée, lorsqu’un article du site d’actualités technologiques Stack Diary a mis en évidence une section des conditions de service de l’entreprise indiquant qu’elle pouvait utiliser les données collectées auprès de ses utilisateurs pour entraîner l’intelligence artificielle.

version anglaise début août, capturée par la Wayback Machine d’Internet Archive

le texte précise bien l'usage consenti par l'utilisateur de ses données pour l'apprentissage automatique et l'intelligence artificielle

version française fin juillet, capturée par la Wayback Machine d’Internet Archive

Le contrat d’utilisation stipulait que les utilisateurs de Zoom donnaient à l’entreprise « une licence perpétuelle, non exclusive, libre de redevances, susceptible d’être cédée en sous-licence et transférable » pour utiliser le « Contenu client » à des fins diverses, notamment « de marketing, d’analyse des données, d’assurance qualité, d’apprentissage automatique, d’intelligence artificielle, etc. ». Cette section ne précisait pas que les utilisateurs devaient d’abord donner leur consentement explicite pour que l’entreprise puisse le faire.

Une entreprise qui utilise secrètement les données d’une personne pour entraîner un modèle d’intelligence artificielle est particulièrement controversée par les temps qui courent. L’utilisation de l’IA pour remplacer les acteurs et les scénaristes en chair et en os est l’un des principaux points d’achoppement des grèves en cours qui ont paralysé Hollywood. OpenAI, la société à l’origine de ChatGPT, a fait l’objet d’une vague de poursuites judiciaires l’accusant d’avoir entraîné ses systèmes sur le travail d’écrivains sans leur consentement. Des entreprises comme Stack Overflow, Reddit et X (le nom qu’Elon Musk a décidé de donner à Twitter) ont également pris des mesures énergiques pour empêcher les entreprises d’IA d’utiliser leurs contenus pour entraîner des modèles sans obtenir elles-mêmes une part de l’activité.

La réaction en ligne contre Zoom a été féroce et immédiate, certaines organisations, comme le média Bellingcat, proclamant leur intention de ne plus utiliser Zoom pour les vidéoconférences. Meredith Whittaker, présidente de l’application de messagerie Signal spécialisée dans la protection de la vie privée, a profité de l’occasion pour faire de la publicité :

« HUM : Les appels vidéo de @signalapp fonctionnent très bien, même avec une faible bande passante, et ne collectent AUCUNE DONNÉE SUR VOUS NI SUR LA PERSONNE À QUI VOUS PARLEZ ! Une autre façon tangible et importante pour Signal de s’engager réellement en faveur de la vie privée est d’interrompre le pipeline vorace de surveillance des IA. »

Zoom, sans surprise, a éprouvé le besoin de réagir.

Dans les heures qui ont suivi la diffusion de l’histoire, le lundi même, Smita Hashim, responsable des produits chez Zoom, a publié un billet de blog visant à apaiser des personnes qui craignent de voir leurs propos et comportements être intégrés dans des modèles d’entraînement d’IA, alors qu’elles souhaitent virtuellement un joyeux anniversaire à leur grand-mère, à des milliers de kilomètres de distance.

« Dans le cadre de notre engagement en faveur de la transparence et du contrôle par l’utilisateur, nous clarifions notre approche de deux aspects essentiels de nos services : les fonctions d’intelligence artificielle de Zoom et le partage de contenu avec les clients à des fins d’amélioration du produit », a écrit Mme Hashim. « Notre objectif est de permettre aux propriétaires de comptes Zoom et aux administrateurs de contrôler ces fonctions et leurs décisions, et nous sommes là pour faire la lumière sur la façon dont nous le faisons et comment cela affecte certains groupes de clients ».

Mme Hashim écrit que Zoom a mis à jour ses conditions d’utilisation pour donner plus de contexte sur les politiques d’utilisation des données par l’entreprise. Alors que le paragraphe sur Zoom ayant « une licence perpétuelle, non exclusive, libre de redevances, pouvant faire l’objet d’une sous-licence et transférable » pour utiliser les données des clients pour « l’apprentissage automatique, l’intelligence artificielle, la formation, les tests » est resté intact [N de T. cependant cette mention semble avoir disparu dans la version du 11 août 2023], une nouvelle phrase a été ajoutée juste en dessous :

« Zoom n’utilise aucun Contenu client audio, vidéo, chat, partage d’écran, pièces jointes ou autres communications comme le Contenu client (tels que les résultats des sondages, les tableaux blancs et les réactions) pour entraîner les modèles d’intelligence artificielle de Zoom ou de tiers. »

Comment utilisons-nous vos données à caractère personnel ?Les employés de Zoom n’accèdent pas au Contenu client des réunions, des webinaires, des messageries ou des e-mails (en particulier, l’audio, la vidéo, les fichiers, les tableaux blancs en réunion et les contenus des messageries ou des e-mails), ni au contenu généré ou partagé dans le cadre d’autres fonctions de collaboration (comme les tableaux blancs hors réunion), et ne les utilisent pas, à moins que le titulaire du compte hébergeant le produit ou Service Zoom où le Contenu client a été généré ne le demande ou que cela ne soit nécessaire pour des raisons juridiques, de sûreté ou de sécurité. Zoom n’utilise aucun Contenu client audio, vidéo, chat, partage d’écran, pièces jointes ou autres communications comme le Contenu client (tels que les résultats des sondages, les tableaux blancs et les réactions) pour entraîner les modèles d’intelligence artificielle de Zoom ou de tiers.

copie d’écran du 16/08/2023, page https://explore.zoom.us/fr/privacy/

Dans son billet de blog, Mme Hashim insiste sur le fait que Zoom n’utilise le contenu des utilisateurs que pour former l’IA à des produits spécifiques, comme un outil qui génère automatiquement des résumés de réunions, et seulement après que les utilisateurs auront explicitement choisi d’utiliser ces produits. « Un exemple de service d’apprentissage automatique pour lequel nous avons besoin d’une licence et de droits d’utilisation est notre analyse automatisée des invitations et des rappels de webinaires pour s’assurer que nous ne sommes pas utilisés involontairement pour spammer ou frauder les participants », écrit-elle. « Le client est propriétaire de l’invitation au webinaire et nous sommes autorisés à fournir le service à partir de ce contenu. En ce qui concerne l’IA, nous n’utilisons pas de contenus audios, de vidéos ou de chats pour entraîner nos modèles sans le consentement du client. »

La politique de confidentialité de Zoom – document distinct de ses conditions de service – ne mentionne l’intelligence artificielle ou l’apprentissage automatique que dans le contexte de la fourniture de « fonctions et produits intelligents (sic), tels que Zoom IQ ou d’autres outils pour recommander le chat, le courrier électronique ou d’autres contenus ».

Pour avoir une idée de ce que tout cela signifie, j’ai échangé avec Jesse Woo, un ingénieur spécialisé en données de The Markup qui, en tant qu’avocat spécialisé dans la protection de la vie privée, a participé à la rédaction de politiques institutionnelles d’utilisation des données.

M. Woo explique que, bien qu’il comprenne pourquoi la formulation des conditions d’utilisation de Zoom touche un point sensible, la mention suivant laquelle les utilisateurs autorisent l’entreprise à copier et à utiliser leur contenu est en fait assez standard dans ce type d’accord d’utilisation. Le problème est que la politique de Zoom a été rédigée de manière à ce que chacun des droits cédés à l’entreprise soit spécifiquement énuméré, ce qui peut sembler beaucoup. Mais c’est aussi ce qui se passe lorsque vous utilisez des produits ou des services en 2023, désolé, bienvenue dans le futur !

Pour illustrer la différence, M. Woo prend l’exemple de la politique de confidentialité du service de vidéoconférence concurrent Webex, qui stipule ce qui suit : « Nous ne surveillerons pas le contenu, sauf : (i) si cela est nécessaire pour fournir, soutenir ou améliorer la fourniture des services, (ii) pour enquêter sur des fraudes potentielles ou présumées, (iii) si vous nous l’avez demandé ou autorisé, ou (iv) si la loi l’exige ou pour exercer ou protéger nos droits légaux ».

Cette formulation semble beaucoup moins effrayante, même si, comme l’a noté M. Woo, l’entraînement de modèles d’IA pourrait probablement être mentionné par une entreprise sous couvert de mesures pour « soutenir ou améliorer la fourniture de services ».

L’idée que les gens puissent paniquer si les données qu’ils fournissent à une entreprise dans un but évident et simple (comme opérer un appel de vidéoconférence) sont ensuite utilisées à d’autres fins (comme entraîner un algorithme) n’est pas nouvelle. Un rapport publié par le Forum sur le futur de la vie privée (Future of Privacy Forum), en 2018, avertissait que « le besoin de grandes quantités de données pendant le développement en tant que « données d’entraînement » crée des problèmes de consentement pour les personnes qui pourraient avoir accepté de fournir des données personnelles dans un contexte commercial ou de recherche particulier, sans comprendre ou s’attendre à ce qu’elles soient ensuite utilisées pour la conception et le développement de nouveaux algorithmes. »

Pour Woo, l’essentiel est que, selon les termes des conditions de service initiales, Zoom aurait pu utiliser toutes les données des utilisateurs qu’elle souhaitait pour entraîner l’IA sans demander leur consentement et sans courir de risque juridique dans ce processus.

Ils sont actuellement liés par les restrictions qu’ils viennent d’inclure dans leurs conditions d’utilisation, mais rien ne les empêche de les modifier ultérieurement.
Jesse Woo, ingénieur en données chez The Markup

« Tout le risque qu’ils ont pris dans ce fiasco est en termes de réputation, et le seul recours des utilisateurs est de choisir un autre service de vidéoconférence », explique M. Woo. « S’ils avaient été intelligents, ils auraient utilisé un langage plus circonspect, mais toujours précis, tout en proposant l’option du refus, ce qui est une sorte d’illusion de choix pour la plupart des gens qui n’exercent pas leur droit de refus. »

Changements futurs mis à part, il y a quelque chose de remarquable dans le fait qu’un tollé public réussisse à obtenir d’une entreprise qu’elle déclare officiellement qu’elle ne fera pas quelque chose d’effrayant. L’ensemble de ces informations sert d’avertissement à d’autres sur le fait que l’entraînement de systèmes d’IA sur des données clients sans leur consentement pourrait susciter la colère de bon nombre de ces clients.

Les conditions d’utilisation de Zoom mentionnent la politique de l’entreprise en matière d’intelligence artificielle depuis le mois de mars, mais cette politique n’a attiré l’attention du grand public que la semaine dernière. Ce décalage suggère que les gens ne lisent peut-être pas les données juridiques, de plus en plus longues et de plus en plus denses, dans lesquelles les entreprises expliquent en détail ce qu’elles font avec vos données.

Heureusement, Woo et Jon Keegan, journalistes d’investigation sur les données pour The Markup, ont récemment publié un guide pratique (en anglais) indiquant comment lire une politique de confidentialité et en identifier rapidement les parties importantes, effrayantes ou révoltantes.

Bonne lecture !

Sur le même thème, on peut s’intéresser à :

tosdr.org : un projet communautaire qui vise à analyser et à évaluer les conditions d’utilisation (ToS en anglais) et les politiques de confidentialité des principaux sites et services Internet.
l’installation « I Agree » de l’artiste Dima Yarovinsky qui en 2018 a imprimé les conditions d’utilisation de WhatsApp, Google, Tinder, Twitter, Facebook, Snapchat et Instagram et les a ensuite accrochées dans une galerie en précisant le nombre de mots de chaque document et son temps de lecture.

Framablog
Publier le code source ne suffit pas… 17 avril 2023 à 05:42

Publier le code source ne suffit pas…

Framablog

Par : Framalang

17 avril 2023 à 05:42

Un court billet où Nicolas Kayser-Bril opère une mise au point : la loi européenne et les grandes entreprises du Web peuvent donner accès au code source, mais ce n’est qu’un facteur parmi d’autres qui s’avère souvent inutile à lui seul…

Article original : The ideology behind publishing Twitter’s source code publié dans le bulletin d’information (en anglais ou allemand) d’Algorithmwatch auquel on peut s’abonner sur cette page.

Traduction Framalang relue et révisée par l’auteur : Squeeek, goofy, audionuma

L’idéologie derrière la publication du code source de Twitter

par Nicolas Kayser-Bril

Photo noir/blanc de l'auteur, jeune homme brun souriant.

Photo par Julia Bornkessel licence CC-BY 4.0

Une fuite

Le 31 mars, Twitter a publié une partie du code source qui alimente son fil d’actualité. Cette décision a été prise quelques jours après qu’il a été rendu public que de grandes parties de ce code avaient déjà été divulguées sur Github [Gizmodo, 31 mars].

Les 85 797 lignes de code ne nous apprennent pas grand-chose. Les tweets ne contenant pas de liens sont mis en avant. Ceux rédigés dans une langue que le système ne peut pas reconnaître sont rétrogradés – discriminant clairement les personnes qui parlent une langue qui n’est pas reconnue par les ingénieurs californiens. Les Spaces (la fonction de podcasting en direct de Twitter) sur l’Ukraine semblent également être cachés [Aakash Gupta, 2 avril].

Le plus intéressant dans cette affaire reste le billet de blog rédigé par ce qu’il reste de l’équipe d’ingénieurs de Twitter. Il explique bien comment fonctionne un fil d’actualité d’un point de vue technique.

Comment (ne pas) ouvrir le code source

Une entreprise a été pionnière pour rendre son code source public : Twitter. Il y a deux ans, son équipe « Éthique, Transparence et Responsabilité » a publié le code d’un algorithme de recadrage d’images et a organisé une compétition permettant à quiconque d’y trouver d’éventuels biais [AlgorithmWatch, 2021]. Cette équipe a été l’une des premières à être licenciée l’année dernière.

Il ne suffit pas de lire un code source pour l’auditer. Il faut le faire fonctionner (l’exécuter) sur un ordinateur. En ce qui concerne l’Ukraine, par exemple, nous savons seulement que les Spaces Twitter étiquetés « UkraineCrisisTopic » subissent le même traitement que les articles étiquetés « violence » ou « porno ». Mais nous ne savons pas comment cette étiquette est attribuée, ni quels en sont les effets. Il semble que le code de ces fonctionnalités n’ait même pas été rendu public.

Dissimulation

Publier du code informatique sans expliquer comment le faire fonctionner peut être pire qu’inutile. Cela permet de prétendre à la transparence tout en empêchant tout réel audit. Twitter n’est pas la première organisation à suivre cette stratégie.

La Caisse Nationale des Allocations Familiales a publié les 7 millions de lignes du code de son calculateur d’allocations suite à une demande d’informations publiques (demande CADA) [NextINpact, 2018]. On ne pouvait rien en tirer. J’ai fait une demande de communication des « documents d’architecture fonctionnelle », qui sont mentionnés dans des commentaires du code. La CNAF a répondu qu’ils n’existaient pas.

La loi européenne sur les services numériques prévoit que les « chercheurs agréés » pourront accéder aux « données » des très grandes plateformes, y compris éventuellement au code source [AlgorithmWatch, 2022]. Pour que la loi sur les services numériques fonctionne, il est essentiel que les entreprises traitent ces demandes comme le Twitter de 2021, et non comme le Twitter de 2023.

L’idéologie technologiste

Enfin, la focalisation sur le code source est au service d’un projet politique. J’entends souvent dire que le code est le cœur d’une entreprise, que c’est un secret commercial précieusement gardé. C’est faux. Si c’était le cas, les fuites de code source nuiraient aux entreprises. Suite à des intrusions ou des fuites, le code source de Yandex et de Twitch a été publié récemment [ArsTechnica, 2021 et 2023]. À ma connaissance, ces entreprises n’en ont pas souffert.

Le code source n’est qu’un facteur parmi d’autres pour une entreprise du Web. Parmi les autres facteurs, citons les employés, les relations avec des politiques, les procédures internes, la position sur le marché, l’environnement juridique et bien d’autres encore. Mettre le code sur un piédestal implique que les autres facteurs sont sans importance. Les propriétaires de Twitter et de Meta (et ils sont loin d’être les seuls) ont dit très clairement que les ingénieurs étaient beaucoup plus importants que le reste de leurs employé·e·s. Pour eux, tout problème est fondamentalement technique et peut être résolu par du code.

Je suis certain que la publication du code source de Twitter conduira certains technologues à prétendre que le harcèlement en ligne, les agressions et la désinformation peuvent désormais être « corrigés » par une pull request (lorsqu’un contributeur à un projet open source propose une modification du code). Ce serait un pas dans la mauvaise direction.

Framablog
Une « édition » minable de Pepper & Carrot sur Amazon 10 avril 2023 à 05:42

Une « édition » minable de Pepper & Carrot sur Amazon

Framablog

Par : Framalang

10 avril 2023 à 05:42

Depuis quelques années, Framasoft bénéficie des illustrations très appréciées de David Revoy, un artiste qui séduit autant par son talent et son imaginaire que par le choix de publier en licence libre (CC-BY), ce qui est plutôt exceptionnel dans le monde de la bande dessinée. La licence qu’il a choisie autorise à :

Partager — copier, distribuer et communiquer le matériel par tous moyens et sous tous formats
Adapter — remixer, transformer et créer à partir du matériel, y compris pour un usage commercial.

La seule condition impérative est l’Attribution

Attribution — Vous devez créditer l’Œuvre, intégrer un lien vers la licence et indiquer si des modifications ont été effectuées à l’œuvre. Vous devez indiquer ces informations par tous les moyens raisonnables, sans toutefois suggérer que l’Offrant vous soutient ou soutient la façon dont vous avez utilisé son Œuvre.

assortie d’une interdiction :

Pas de restrictions complémentaires — Vous n’êtes pas autorisé à appliquer des conditions légales ou des mesures techniques qui restreindraient légalement autrui à utiliser l’œuvre dans les conditions décrites par la licence.

Comme on peut le lire plus haut et comme le précise David lui-même dans sa F.A.Q, ce n’est pas parce que la licence est libre que l’on peut se servir sans scrupules des œuvres et du nom de l’auteur :

Ce n’est pas parce que vous pouvez réutiliser mes œuvres que je suis d’accord avec ce que vous faites, ou que je peux être considéré comme un auteur actif de votre projet, surtout si mon nom est écrit comme une signature de votre dérivation ou si vous réutilisez mon nom pour dire à votre public que je suis « d’accord » avec votre projet. Cela ne fonctionne pas comme ça. Restez simple : communiquez la vérité,

C’est justement ces précautions et ce respect élémentaires que n’ont pas pris les éditeurs (méritent-ils ce nom ?) d’une publication dérivée de Pepper & Carrot (déjà 37 épisodes traduits en 63 langues !) et qui est en vente sur Amazon, plateforme bien connue pour ses pratiques commerciales éthiques (non)…

Alors David, d’ordinaire si aimable, se fâche tout rouge et relève toutes les pratiques complètement hors-pistes de Fa Comics, dans l’article ci-dessous publié sur son blog et traduit pour vous par Framalang…

Article original de David Revoy sur son blog : Fa Bd Comics books on SCAMazon : don’t buy them

Traduction Framalang : GPSqueek, Sysy, Poca, goofy, macrico

N’achetez pas les BD des éditions Fa Bd sur SCAMazon

par David Revoy

On atteint un record : avec la communauté de Pepper & Carrot, nous avons trouvé Fa Bd, l’éditeur du pire dérivé de Pepper & Carrot à ce jour.

Malheureusement, les produits sont publiés sous mon nom et aussi sous le nom d’artistes qui ont réalisé des fan-arts de Pepper & Carrot… Voilà pourquoi j’écris cet article, histoire de décrire un peu cette arnaque et ce carnage de la publication assistée par ordinateur qui se perpétue actuellement sur Amazon, et aussi pour dissuader le public de Pepper & Carrot de les acheter.

Accrochez-vous, car nous entrons dans le territoire du zéro absolu de la qualité, des horreurs du graphisme, des cauchemars de la colorimétrie et de l’affreuse mise en page.

Les trois albums

Un grand merci à Craig Maloney qui a acheté les trois albums pour que nous puissions évaluer leur qualité. Il a également réalisé toutes les photos que vous trouverez ici et a écrit des commentaires sur Amazon sous les albums afin d’avertir d’autres clients potentiels de leur piètre qualité.

1. Héritage

Lien vers Amazon : https://www.amazon.com/Heritage-David-Revoy/dp/B0BS1ZHM9T/

Il s’agit d’une version imprimable datant de décembre 2022 de mon webcomic (épisode unique) L’héritage en couleur publié en mai 2012 sous la licence Creative Commons Attribution 4.0 International.

Mes observations :

(1) bien que la couverture soit correcte, l’impression gâche totalement l’histoire elle-même : le concept de cette bande dessinée est la représentation en couleurs des sentiments du personnage principal, pourtant l’éditeur a décidé d’imprimer l’histoire complète en noir et blanc. Cela rend le tout le récit illisible et dénué de sens. Essayez de lire l’original et demandez-vous ce que vaut la bande dessinée en noir et blanc. Apparemment, c’est assez bon pour être publié de cette façon par les éditions FA Bd Comics…

(2) L’attribution est là mais l’éditeur FA BD comics n’indique pas son rôle. Et attendez, une adresse courriel Caramail ? Je croyais qu’ils avaient disparu il y a 20 ans ¹. Je n’aime pas la façon dont mon crédit et mon nom sur la couverture et la page produit donnent l’impression que j’ai approuvé cette publication et que j’y ai collaboré. Il ne s’agit pas d’une « violation d’approbation » explicite, mais j’ai honte de voir mon nom figurer sur ces pages.

(3) L’éditeur a oublié une page dans l’histoire : l’avant-dernière… ce qui fait que ça casse encore plus l’histoire. Et pour remplir la fin du livre, des parties aléatoires du making of ont été téléchargées et déversées comme ça sans aucun avertissement, juste après la fin de l’histoire.

Davantage de photos ici.

2. Les histoires de Pepper & Carrot

Lien vers Amazon : https://www.amazon.com/Pepper-Carrot-Novels-David-Revoy/dp/B09ZZVJLDT/

Description : Il s’agit d’une compilation imprimable datant de mai 2022 d’un mélange de Fan-art de Pepper&Carrot contenant des bulles de texte et de BD Fan-art de Pepper & Carrot.

Mes observations :

(1) Mon nom figure en haut de la couverture, alors qu’aucune illustration de moi ne figure sur cet album. C’est très problématique, car même si j’apprécie beaucoup le fan-art d’étude de Pepper envoyé par Coyau en 2015 parce que c’était parmi les premiers fan-arts que j’ai reçus sur Pepper & Carrot, je ne pense pas que Coyau s’attendait à ce qu’il soit utilisé comme œuvre d’art/visuel/illustration pour la couverture.

(2) Même si tous les fan-arts sont correctement attribués à leur auteur, l’éditeur a mal lu une information importante sur Pepper & Carrot : l’auteur du fan-art peut mettre son œuvre sous la licence qu’il souhaite. Et sauf mention explicite, ils sont tous protégés par le droit d’auteur. C’est écrit clairement dans la case « Licence » de chaque fan-art sur le site. « Cette image est un fan-art réalisé par <nom de l’auteur>. Elle est affichée sur la galerie de fan-arts de Pepper & Carrot avec sa permission. Ne réutilisez pas cette image pour votre projet sans l’autorisation de l’auteur ». L’éditeur, sur les crédits de son album, assume « basé sur le même personnage avec la même licence ». C’est faux et abusif. Notez également que l’email de l’éditeur change sur ces crédits, et que la ligne « œuvre de fiction » de Héritage est également présente… Boulot de copier-coller vite fait et négligent détecté !

(3) Les fan-arts sont imprimés en noir et blanc. Il n’y a pas d’indication permettant de savoir qui, parmi la liste des auteurs, a dessiné quelle page, et il n’y a pas de mise en page. Les dessins sont simplement collés sur la page avec de grands espaces vides, même lorsque la police est trop petite. Notez que le contraste est également faible. Ce n’est pas du tout respectueux des créations artistiques.

Davantage de photos ici.

3. Pepper & Carrot Mini

Lien vers Amazon : https://www.amazon.com/Pepper-Carrot-Mini-Nicolas-Artance/dp/B0BHMPMM14/

Il s’agit d’une publication papier d’octobre 2010 de la série Pepper & Carrot Mini par Nicolas Artance. Nicolas Artance est l’un des principaux contributeurs et modérateurs de la communauté Pepper & Carrot, et joue un rôle important dans la version française de la série principale. Il publie sa série sous Creative Commons Attribution 4.0 International et partage également les sources complètes.

Mes observations :

(1) La couverture ne provient pas de Pepper & Carrot Mini, elle n’a pas été réalisée par Nicolas Artance ni par moi-même, mais c’est un fan-art de Tessou. Il y a donc un problème de copyright puisque le dessin de Tessou n’est pas publié sous la licence de Pepper & Carrot. La couverture contient également trois noms et il est difficile de savoir qui fait quoi ou qui soutient quoi. Sur le produit Amazon, nous sommes co-auteur avec Nicolas… Quel bazar !

(2) Même mensonge que pour l’album précédent à propos de la licence du fan-art, et une grosse faute de frappe dans le nom de Nicolas (Nocolas). Apparemment, cet éditeur n’a aucun correcteur et s’en moque.

(3) La qualité, la mise en page… Tout est imprimé en noir et blanc et en faible contraste. Les planches en paysage sont « adaptées à la largeur » de la page. Certaines polices sont à peine lisibles.

Davantage de photos ici.

Et maintenant ?

Tout d’abord, vous pouvez aider : si vous avez un compte Amazon [NdT : il faut un compte sur Amazon.com, ça ne marchera pas depuis un compte Amazon.fr], vous pouvez simplement cliquer sur le bouton « Utile » sur les commentaires de Craig sur chaque livre 1, 2 et 3. Ce n’est pas grand-chose, mais cela aidera probablement les acheteurs potentiels à passer leur chemin en voyant l’avis 1 étoile.

Je n’ai clairement pas la charité de penser que cet éditeur souffre juste d’incompétence flagrante et qu’il essaie simplement d’aider l’impression d’œuvres culturelles libres. Ils ne m’ont jamais contacté, ils n’ont jamais contribué à l’écosystème Pepper&Carrot pour autant que je sache, et ils ont juste fait un produit de la plus basse qualité avec peu d’efforts sur une place de marché où il n’y a aucun contrôle sur la qualité.

C’est hors de prix et le fait de voir ce niveau d’irrespect pour mon art et pour l’industrie du livre est clairement ce qui affecte mon humeur. Je ne pense pas que ce produit dérivé soit d’un grand secours. S’il vous plaît, FA Bd Comic ou Amazon : si vous lisez ceci, retirez ces produits dès que possible.

De mon côté, je vais essayer de les contacter tous les deux pour qu’ils retirent les albums. Ils ont tous trop de problèmes pour être en ligne, y compris des problèmes de copyright. J’écrirai toute mise à jour ultérieure sous cette rubrique. En attendant, ne les achetez pas !

Mises à jour

A. 2023-03-28, 01:20am : J’ai pris le temps de faire un rapport officiel pour violation de copyright sur Amazon. Je vous informerai de l’issue de ce rapport.

B. 2023-03-28, 01:00pm : J’ai reçu ma réponse : « Nous n’avons pas été en mesure de vérifier que vous êtes le propriétaire des droits ou son agent ». (réponse automatique complète). Ok, j’abandonne…

Informations complémentaires sur la licence : le texte de cet article est publié sous Creative Commons Attribution 4.0. Cependant, les images de cet article sont protégées : ne les réutilisez pas : elles contiennent du fan-art, des copyrights et des marques déposées.

Framablog
Google et son robot pipoteur(*), selon Doctorow 3 mars 2023 à 03:35

Google et son robot pipoteur(*), selon Doctorow

Framablog

Par : Framalang

3 mars 2023 à 03:35

Source de commentaires alarmants ou sarcastiques, les robots conversationnels qui reposent sur l’apprentissage automatique ne provoquent pas seulement l’intérêt du grand public, mais font l’objet d’une course de vitesse chez les GAFAM.

Tout récemment, peut-être pour ne pas être à la traîne derrière Microsoft qui veut adjoindre un chatbot à son moteur de recherche Bing, voilà que Google annonce sa ferme résolution d’en faire autant. Dans l’article traduit pour vous par framalang, Cory Doctorow met en perspective cette décision qui lui semble absurde en rappelant les échecs de Google qui a rarement réussi à créer quoi que ce soit…

(*) Merci à Clochix dont nous adoptons dans notre titre la suggestion.

Article original : Google’s chatbot panic

Traduction Framalang : Fabrice, goofy, jums, Henri-Paul, Sysy, wisi_eu,

L’assistant conversationnel de Google en panique

par Cory Doctorow

Photo Jonathan Worth CC-BY-SA

Il n’y a rien d’étonnant à ce que Microsoft décide que l’avenir de la recherche en ligne ne soit plus fondé sur les liens dans une page web, mais de là à la remplacer par des longs paragraphes fleuris écrits dans un chatbot qui se trouve être souvent mensonger… — et en plus Google est d’accord avec ce concept.

Microsoft n’a rien à perdre. Il a dépensé des milliards pour Bing, un moteur de recherche que personne n’utilise volontairement. Alors, sait-on jamais, essayer quelque chose d’aussi stupide pourrait marcher. Mais pourquoi Google, qui monopolise plus de 90 % des parts des moteurs de recherche dans le monde, saute-t-il dans le même bateau que Microsoft ?

Il y a un délicieux fil à dérouler sur Mastodon, écrit par Dan Hon, qui compare les interfaces de recherche merdiques de Bing et Google à Tweedledee et Tweedledum :

https://mamot.fr/@danhon@dan.mastohon.com/109832788458972865

Devant la maison, Alice tomba sur deux étranges personnages, tous deux étaient des moteurs de recherche.
— moi, c’est Google-E, se présenta celui qui était entièrement recouvert de publicités
— et moi, c’est Bingle-Dum, fit l’autre, le plus petit des deux, et il fit la grimace comme s’il avait moins de visiteurs et moins d’occasions de mener des conversations que l’autre.
— je vous connais, répondit Alice, vous allez me soumettre une énigme ? Peut-être que l’un de vous dit la vérité et que l’autre ment ?
— Oh non, fit Bingle-Dum
— Nous mentons tous les deux, ajouta Google-E

Mais voilà le meilleur :

— Cette situation est vraiment intolérable, si vous mentez tous les deux.

— mais nous mentons de façon très convaincante, précisa Bingle-Dum

— D’accord, merci bien. Dans ce cas, comment puis-je vous faire jamais confiance ni / confiance à l’un ni/ou à l’autre ? Dans ce cas, comment puis-je faire confiance à l’un d’entre vous ?

Google-E et Bingle-Dum se tournèrent l’un vers l’autre et haussèrent les épaules.

La recherche par chatbot est une très mauvaise idée, surtout à un moment où le Web est prompt à se remplir de vastes montagnes de conneries générées via l’intelligence artificielle, comme des jacassements statiques de perroquets aléatoires :

La stratégie du chatbot de Google ne devrait pas consister à ajouter plus de délires à Internet, mais plutôt à essayer de trouver comment exclure (ou, au moins, vérifier) les absurdités des spammeurs et des escrocs du référencement.

Et pourtant, Google est à fond dans les chatbots, son PDG a ordonné à tout le monde de déployer des assistants conversationnels dans chaque recoin de l’univers Google. Pourquoi diable est-ce que l’entreprise court après Microsoft pour savoir qui sera le premier à décevoir des espérances démesurées ?

https://en.wikipedia.org/wiki/Gartner_hype_cycle

J’ai publié une théorie dans The Atlantic, sous le titre « Comment Google a épuisé toutes ses idées », dans lequel j’étudie la théorie de la compétition pour expliquer l’insécurité croissante de Google, un complexe d’anxiété qui touche l’entreprise quasiment depuis sa création :

https://www.theatlantic.com/ideas/archive/2023/02/google-ai-chatbots-microsoft-bing-chatgpt/673052/

L’idée de base : il y a 25 ans, les fondateurs de Google ont eu une idée extraordinaire — un meilleur moyen de faire des recherches. Les marchés financiers ont inondé l’entreprise en liquidités, et elle a engagé les meilleurs, les personnes les plus brillantes et les plus créatives qu’elle pouvait trouver, mais cela a créé une culture d’entreprise qui était incapable de capitaliser sur leurs idées.

Tous les produits que Google a créés en interne, à part son clone de Hotmail, sont morts. Certains de ces produits étaient bons, certains horribles, mais cela n’avait aucune importance. Google, une entreprise qui promouvait la culture du baby-foot et la fantaisie de l’usine Willy Wonka [NdT: dans Charlie et la chocolaterie, de Roald Dahl], était totalement incapable d’innover.

Toutes les réussites de Google, hormis son moteur de recherche et gmail, viennent d’une acquisition : mobile, technologie publicitaire, vidéos, infogérance de serveurs, docs, agenda, cartes, tout ce que vous voulez. L’entreprise souhaite plus que tout être une société qui « fabrique des choses », mais en réalité elle « achète des choses ». Bien sûr, ils sont très bons pour rendre ces produits opérationnels et à les faire « passer à l’échelle », mais ce sont les enjeux de n’importe quel monopole :

https://www.eff.org/deeplinks/2020/06/technical-excellence-and-scale

La dissonance cognitive d’un « génie créatif » autoproclamé, dont le véritable génie est de dépenser l’argent des autres pour acheter les produits des autres, et de s’en attribuer le mérite, pousse les gens à faire des choses vraiment stupides (comme tout utilisateur de Twitter peut en témoigner).
Google a longtemps montré cette pathologie. Au milieu des années 2000 – après que Google a chassé Yahoo en Chine et qu’il a commencé à censurer ses résultats de recherche, puis collaboré à la surveillance d’État — nous avions l’habitude de dire que le moyen d’amener Google à faire quelque chose de stupide et d’autodestructeur était d’amener Yahoo à le faire en premier lieu.

C’était toute une époque. Yahoo était désespéré et échouait, devenant un cimetière d’acquisitions prometteuses qui étaient dépecées et qu’on laissait se vider de leur sang, laissées à l’abandon sur l’Internet public, alors que les princes duellistes de la haute direction de Yahoo se donnaient des coups de poignard dans le dos comme dans un jeu de rôle genre les Médicis, pour savoir lequel saboterait le mieux l’autre. Aller en Chine fut un acte de désespoir après l’humiliation pour l’entreprise que fut le moteur de recherche largement supérieur de Google. Regarder Google copier les manœuvres idiotes de Yahoo était stupéfiant.

C’était déconcertant, à l’époque. Mais à mesure que le temps passait, Google copiait servilement d’autres rivaux et révélait ainsi une certaine pathologie d’insécurité. L’entreprise échouait de manière récurrente à créer son réseau « social », et comme Facebook prenait toujours plus de parts de marché dans la publicité, Google faisait tout pour le concurrencer. L’entreprise fit de l’intégration de Google Plus un « indictateur¹ de performance » dans chaque division, et le résultat était une agrégation étrange de fonctionnalités « sociales » défaillantes dans chaque produit Google — produits sur lesquels des milliards d’utilisateurs se reposaient pour des opérations sensibles, qui devenaient tout à coup polluées avec des boutons sociaux qui n’avaient aucun sens.

La débâcle de G+ fut à peine croyable : certaines fonctionnalités et leur intégration étaient excellentes, et donc logiquement utilisées, mais elles subissaient l’ombrage des incohérences insistantes de la hiérarchie de Google pour en faire une entreprise orientée réseaux sociaux. Quand G+ est mort, il a totalement implosé, et les parties utiles de G+ sur lesquelles les gens se reposaient ont disparu avec les parties aberrantes.

Pour toutes celles et ceux qui ont vécu la tragi-comédie de G+, le virage de Google vers Bard, l’interface chatbot pour les résultats du moteur de recherche, semble tristement familier. C’est vraiment le moment « Mourir en héros ou vivre assez longtemps pour devenir un méchant ». Microsoft, le monopole qui n’a pas pu tuer la jeune pousse Google à cause de son expérience traumatisante des lois antitrust, est passé d’une entreprise qui créait et développait des produits à une entreprise d’acquisitions et d’opérations, et Google est juste derrière elle.

Pour la seule année dernière, Google a viré 12 000 personnes pour satisfaire un « investisseur activiste » privé. La même année, l’entreprise a racheté 70 milliards de dollars en actions, ce qui lui permet de dégager suffisamment de capitaux pour payer les salaires de ses 12 000 « Googleurs » pendant les 27 prochaines années. Google est une société financière avec une activité secondaire dans la publicité en ligne. C’est une nécessité : lorsque votre seul moyen de croissance passe par l’accès aux marchés financiers pour financer des acquisitions anticoncurrentielles, vous ne pouvez pas vous permettre d’énerver les dieux de l’argent, même si vous avez une structure à « double pouvoir » qui permet aux fondateurs de l’emporter au vote contre tous les autres actionnaires :

https://abc.xyz/investor/founders-letters/2004-ipo-letter/

ChatGPT et ses clones cochent toutes les cases d’une mode technologique, et sont les dignes héritiers de la dernière saison du Web3 et des pics des cryptomonnaies. Une des critiques les plus claires et les plus inspirantes des chatbots vient de l’écrivain de science-fiction Ted Chiang, dont la critique déjà culte est intitulée « ChatGPT est un une image JPEG floue du Web » :

https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

Chiang souligne une différence essentielle entre les résultats de ChatGPT et ceux des humains : le premier jet d’un auteur humain est souvent une idée originale, mal exprimée, alors que le mieux que ChatGPT puisse espérer est une idée non originale, exprimée avec compétence. ChatGPT est parfaitement positionné pour améliorer la soupe de référencement que des légions de travailleurs mal payés produisent dans le but de grimper dans les résultats de recherche de Google.

En mentionnant l’article de Chiang dans l’épisode du podcast « This Machine Kills », Jathan Sadowski perce de manière experte la bulle de la hype ChatGPT4, qui soutient que la prochaine version du chatbot sera si étonnante que toute critique de la technologie actuelle en deviendra obsolète.

Sadowski note que les ingénieurs d’OpenAI font tout leur possible pour s’assurer que la prochaine version ne sera pas entraînée sur les résultats de ChatGPT3. Cela en dit long : si un grand modèle de langage peut produire du matériel aussi bon qu’un texte produit par un humain, alors pourquoi les résultats issus de ChatGPT3 ne peuvent-ils pas être utilisés pour créer ChatGPT4 ?

Sadowski utilise une expression géniale pour décrire le problème : « une IA des Habsbourg ». De même que la consanguinité royale a produit une génération de prétendus surhommes incapables de se reproduire, l’alimentation d’un nouveau modèle par le flux de sortie du modèle précédent produira une spirale infernale toujours pire d’absurdités qui finira par disparaître dans son propre trou du cul.

Crédit image (modifiée) : Cryteria, CC BY 3.0

Framablog
Le Fediverse n’est pas Twitter, mais peut aller plus loin 17 février 2023 à 05:12

Le Fediverse n’est pas Twitter, mais peut aller plus loin

Framablog

Par : Framalang

17 février 2023 à 05:12

Maintenant que Mastodon a suscité l’intérêt d’un certain nombre de migrants de Twitter, il nous semble important de montrer concrètement comment peuvent communiquer entre eux des comptes de Mastodon, PeerTube, Pixelfed et autres… c’est ce que propose Ross Schulman dans ce billet de l’EFF traduit pour vous par Framalang…

source : The Breadth of the Fediverse

Traduction Framalang : CLC, Goofy, Henri-Paul

L’étendue du Fediverse

par Ross Schulman

Le Washington Post a récemment publié une tribune de Megan McArdle intitulée : « Twitter pourrait être remplacé, mais pas par Mastodon ou d’autres imitateurs ». L’article explique que Mastodon tombe dans le piège habituel des projets open source : élaborer une alternative qui a l’air identique et améliore les choses dont l’utilisateur type n’a rien à faire, tout en manquant des éléments qui ont fait le succès de l’original. L’autrice suggère plutôt que dépasser Twitter demandera quelque chose d’entièrement nouveau, et d’offrir aux masses quelque chose qu’elles ne savaient même pas qu’elles le désiraient.

Nous pensons, contrairement à Megan, que Mastodon (qui fait partie intégrante du Fediverse) offre en réalité tout cela, car c’est un réseau social véritablement interopérable et portable. Considérer que Mastodon est un simple clone de Twitter revient à oublier que le Fediverse est capable d’être ou de devenir la plate-forme sociale dont vous rêvez. C’est toute la puissance des protocoles. Le Fediverse dans son ensemble est un site de micro-blogging, qui permet de partager des photos, des vidéos, des listes de livres, des lectures en cours, et bien plus encore.

Comme beaucoup de gens se font, comme Megan, une fausse idée sur le Fediverse, et comme une image vaut mieux qu’un long discours, voyons comment l’univers plus large d’ActivityPub fonctionne dans la pratique.

Parlons de PeerTube. Il s’agit d’un système d’hébergement de vidéos, grâce auquel les internautes peuvent en suivre d’autres, télécharger des vidéos, les commenter et les « liker ».
Voici par exemple la page de la chaîne principale du projet open source Blender et c’est là que vous pouvez vous abonner à la chaîne…

Dans cet exemple nous avons créé un compte Mastodon sur l’instance (le serveur) framapiaf.org. Une fois qu’on clique sur « S’abonner à distance », nous allons sur le compte Mastodon, à partir duquel il nous suffit de cliquer sur « Suivre » pour nous permettre de…suivre depuis Mastodon le compte du PeerTube de Blender.

Maintenant, dès que Blender met en ligne une nouvelle vidéo avec PeerTube, la mise à jour s’effectue dans le fil de Mastodon, à partir duquel nous pouvons « liker » (avec une icône d’étoile « ajouter aux favoris ») la vidéo et publier un commentaire.

… de sorte que le « like » et la réponse apparaissent sans problème sur la page de la vidéo.

Pixelfed est un autre service basé sur ActivityPub prenant la forme d’un réseau social de partage de photographies. Voici la page d’accueil de Dan Supernault, le principal développeur.

On peut le suivre depuis notre compte, comme nous venons de le faire avec la page PeerTube de Blender ci-dessus, mais on peut aussi le retrouver directement depuis notre compte Mastodon si nous connaissons son nom d’utilisateur.

capture : après recherche du nom d’utilisateur « dansup », mastodon retrouve le compte pixelfed recherché

Tout comme avec PeerTube, une fois que nous suivons le compte de Dan, ses images apparaîtront dans Mastodon, et les « likes » et les commentaires apparaîtront aussi dans Pixelfed.

Voilà seulement quelques exemples de la façon dont des protocoles communs, et ActivityPub en particulier, permettent d’innover en termes de médias sociaux, Dans le Fediverse existent aussi BookWyrm, une plateforme sociale pour partager les lectures, FunkWhale, un service de diffusion et partage de musique ainsi que WriteFreely, qui permet de tenir des blogs plus étendus, pour ne mentionner que ceux-là.

Ce que garantit le Fediverse, c’est que tous ces éléments interagissent de la façon dont quelqu’un veut les voir. Si j’aime Mastodon, je peux toujours y voir des images de Pixelfed même si elles sont mieux affichées dans Pixelfed. Mieux encore, mes commentaires s’afficheront dans Pixelfed sous la forme attendue.

Les personnes qui ont migré de Twitter ont tendance à penser que c’est un remplaçant de Twitter pour des raisons évidentes, et donc elles utilisent Mastodon (ou peut-être micro.blog), mais ce n’est qu’une partie de son potentiel. La question n’est pas celle du remplacement de Twitter, mais de savoir si ce protocole peut se substituer aux autres plateformes dans notre activité sur la toile. S’il continue sur sa lancée, le Fediverse pourrait devenir un nouveau nœud de relations sociales sur la toile, qui engloberait d’autres systèmes comme Tumblr ou Medium et autres retardataires.

Framablog
De la friture sur le Fediverse ? 13 novembre 2022 à 04:06

De la friture sur le Fediverse ?

Framablog

Par : Framalang

13 novembre 2022 à 04:06

Nous vous avons proposé déjà trois articles qui font écho à l’actualité récente autour de Mastodon en voici un 4^e, celui d’Aral Balkan, traduit pour vous par Framalang. Le héraut du SmallWeb insiste avec humour sur un point en effet crucial : la taille géante de certaines instances, due à la conception technique même du Fédiverse, risque d’être problématique…

Donc, après :

Un article bien informé d’analyse par Olivier « Affordance » Ertzscheid Le mastodonte et l’oiseau bleu
Un billet de Benjamin Bellamy Le Fédivers est tellement plus grand que Mastodon
Une traduction de l’article de Hugh Rundle Mastodon, fin de (première) partie ?

Voici Is the fediverse about to get Fryed ?

Traduction Framalang : Claire, Fabrice, goofy, Henri-Paul, jums

Le Fédiverse va-t-il stephenfrire ?

(Ou « Pourquoi chaque pouet est aussi potentiellement une attaque par déni de service »)

par Aral Balkan

bandeau du compte mastodon de Fry, avec sa tête (homme âgé barbu souriant) en médaillon. le compte annonce (au moment de sa capture 5 pouets, 0 abonnements 27 000 abonnés"

Stephen Fry est une célébrité outre-Manche : écrivain, humoriste, acteur et vedette de la TV (sa page Wikipédia)

Stephen est un gros poisson dans une petite mare (oui, j’en ai d’autres en réserve).

Attention : le Fédivers est sur le point de frire. Stephen Fry(re) bien sûr.

À la suite du récent rachat de Twitter par un milliardaire proto-fasciste immature, des gens ont fui¹ vers le Fédiverse². Parmi eux, certains avaient, au moins sur Twitter, des millions de followers, comme Greta Thunberg et, plus récemment, Stephen Fry³

— Eh bien, c’est sûrement une bonne chose, non ? Tout le monde va parler du Fédiverse, de la décentralisation, et peut-être même de ce Small Web dont tu parles tout le temps, Aral, non ?

Eh bien, oui et non… Trop de bonnes choses tue les bonnes choses. Et, dans le Fédiverse actuel, les bonnes choses seraient les « comptes populaires ». En fait, cela pourrait bien être fatal (pour les instances Mastodon). Je vais essayer de détailler dans cet article ce que je veux dire en prenant mon propre compte comme exemple.

Comment tuer un Mastodon(te)

(indice : en étant bavard quand vous êtes populaire)

Inutile de le préciser, je ne suis pas une célébrité.
Et pourtant, dans le Fédiverse, je me retrouve dans une situation un peu unique dans laquelle :

1. J’ai ma propre instance Mastodon, juste pour moi⁴.
2. Je suis suivi par pas mal de personnes. Plus de 22 000, pour être précis⁵.
3. Je suis beaucoup de personnes, et j’aime vraiment avoir des conversations avec elles (je pense que c’est ce que les jeunes branchés appellent « l’engagement »).

Malheureusement, la combinaison de ces trois facteurs a créé la tempête parfaite⁶, ce qui veut dire que désormais, chaque fois que je poste quelque chose qui suscite beaucoup d’engagement, je finis par conduire une attaque par déni de service contre moi-même.

Mastodon : déni de service en tant que service ?

Hier, c’était mon anniversaire.
Et, bien sûr, j’ai posté sur ce sujet depuis mon instance Mastodon.

J’ai eu pas mal de réponses. Et, pour être poli, j’ai commencé à répondre à tout le monde avec des messages de remerciements. Oh non, mon pauvre naïf ! Qu’est-ce que tu n’avais pas fait ?

Je vais laisser mon ami Hugo Gameiro, qui gère masto.host et héberge mon instance, expliquer ce qui s’est passé ensuite⁷ :

Vous avez beaucoup d’engagement et cela sollicite beaucoup Sidekiq⁸.

Prenez, par exemple, votre message d’anniversaire. En plus de demander à des milliers de serveurs de traiter votre demande de réalisation (on appelle ça des « jobs ») pour propager votre message (pour 23 000 abonnés, disons 3 000 serveurs), votre serveur au moment de la création de votre message va créer 3 000 jobs Sidekiq. Et comme votre Sidekiq n’a que 12 threads, traiter 3 000 jobs va prendre du temps puisqu’il ne peut en traiter que 12 à la fois.
Ensuite, pour chaque réponse à ce message, 3 000 jobs sont à nouveau créés, afin que vos abonnés puissent voir votre réponse sans avoir à changer de serveur ou aller sur votre profil. Et puis, si vous répondez à votre réponse, 3 000 jobs supplémentaires sont créés, etc.
Si vous répondez aux 100 réponses que vous avez reçues en 10 minutes (en supposant que l’estimation de mon nombre de serveurs est correcte), vous créez 300 000 jobs Sidekiq. C’est pour cela que ça bouchonne.

Mais qu’est-ce que tout cela veut bien dire, si on omet le jargon technique ?
Eh bien, que je parlais trop en étant trop connu de tous.

Voilà à quoi ressemble un embouteillage sur Mastodon.

Alors, quelle est la solution ?
Eh bien, il n’y a qu’une chose à faire quand vous vous retrouvez dans ce pétrin : agrandir votre instance Mastodon⁹. Le problème ? Ça commence à coûter cher.
Avant la dernière migration de Twitter¹⁰, je payais environ 280 €/an (un peu plus de 20 €/mois) pour mon instance Mastodon grâce à un partenariat que j’avais avec Hugo depuis le début. Cette semaine, je l’ai agrandie avec un plan à 50 €/mois. Et ce n’est toujours pas assez, comme le montre mon message d’anniversaire, donc Hugo a gentiment suggéré de me proposer un plan sur mesure.
Le problème n’est pas résolu pour autant, il est juste repoussé (sauf si cet article énerve tout le monde, bien sûr).
Heureusement, comme j’ai ma propre instance, la seule personne pénalisée par cette dépense supplémentaire, c’est moi. Mais que se serait-il passé si j’étais sur une instance publique gérée par quelqu’un d’autre ?

Tu déconnes, Elon ?

Si Elon Musk voulait détruire mastodon.social, l’instance phare de Mastodon, il lui suffirait de s’y inscrire¹¹.
Heureusement, Elon n’est pas assez intelligent pour ça.

Je plaisante, bien sûr… Eugen bannirait très probablement son compte dès qu’il le verrait. Mais ça illustre un problème : Elon est facile à bannir. Stephen Fry l’est beaucoup moins. C’est un véritable trésor national pour nous tous. On ne le bannit pas comme ça.
Et pourtant, Stephen peut lui aussi (bien qu’involontairement) coûter très cher aux gens qui gèrent des instances Mastodon, simplement en rejoignant l’une d’elles¹²..
La solution, pour Stephen tout du moins, est simple : il devrait gérer sa propre instance personnelle.
Ou demander à quelqu’un de le faire à sa place, comme je le fais¹³.
Gérer sa propre instance apporterait aussi à Stephen un autre bénéfice : il serait automatiquement vérifié. Après tout, si vous parlez à, mettons, @stephen@social.stephenfry.com, vous pouvez être certain que c’est bien lui parce que vous savez qu’il gère son propre domaine.

Des instances personnelles à la rescousse

Mon discours au Parlement européen sur les problèmes avec la Big Tech et les approches différentes que proposent Mastodon, le Fédiverse, et le Small Web.

— Attends, je suis largué… Tu ne viens pas de dire que les instances personnelles étaient une partie du problème ?
— Oui et non : elles le sont et elles ne devraient pas l’être.

Si ActivityPub (le protocole) et Mastodon (un serveur qui adhère à ce protocole) avaient été conçus pour promouvoir la décentralisation, alors avoir plus d’instances sur le réseau ne serait pas un problème. En fait, ça serait même le signe d’un réseau décentralisé sain.
Cependant, ActivityPub et Mastodon ont été conçus de la même manière que la Big Tech / Big Web : pour encourager des services qui hébergent le plus d’utilisateurs¹⁴ possible.
Cette architecture est à la fois complexe (ce qui la rend difficile et coûteuse à héberger) et très efficace pour la Big Tech (où les choses sont centralisées et passent à l’échelle verticalement, et où le but est d’avoir / de contrôler / d’exploiter autant d’utilisateurs que possible).
Dans la Big Tech, le coût initial pour passer à l’échelle est subventionné par de nombreuses sociétés de capital-risque (des personnes riches investissant dans de nouveaux business d’extraction et d’exploitation – ce que la Silicon Valley appelle des startups – dans le but de devenir encore plus riches), et ça mène à ces silos géants¹⁵ que sont aujourd’hui les Google, Facebook et Twitter.
Toutefois, à la différence de la Big Tech, le but avoué du Fédiverse est de décentraliser les choses, pas de les centraliser. Du coup, comment pourrions-nous atteindre l’opposé des buts de la Big Tech en adoptant leurs architectures de base ?
Lorsque vous adoptez le design de quelque chose, vous héritez aussi des critères de réussite qui ont mené à ce design. Si ces critères de réussite ne correspondent pas à vos objectifs, vous avez un sacré problème.
Pour le dire plus simplement :
N’adoptez pas les critères de réussite de la Big Tech, sinon vous deviendrez la Big Tech.

Ce n’est pas la taille qui compte

Aujourd’hui, il y a une équivalence entre la taille de mastodon.social (l’instance gérée par Eugen) et le succès de Mastodon (le logiciel créé par Eugen). C’est très dangereux. Plus mastodon.social grossit, plus il va ressembler à Twitter.
Je peux presque vous entendre crier : « Mais Aral, c’est fédéré ! Au moins, il n’y a pas de verrous sur mastodon.social ! ».
Et c’est vrai.
Vous savez ce qui est également fédéré ? L’e-mail.
Avez-vous déjà entendu parler de cette petite et vieille instance appelée Gmail ? (Ou peut-être les termes « adopte, étend, étouffe » ?)
Savez-vous ce qui arrive à votre e-mail si Google déclare (à tort ou à raison) que vous êtes un spam ? Personne ne voit votre e-mail.
Vous savez ce qui se passe si mastodon.social bloque votre instance ? Des centaines de milliers de gens (bientôt des millions ?) ne pourront plus décider d’afficher ou non vos messages.
Que se passe-t-il quand votre instance bloque mastodon.social ? Absolument rien.
C’est un réel déséquilibre des puissances.

La décentralisation commence par soi-même

Mastodon est non-lucratif, et je n’ai pas de raison de croire qu’Eugen n’ait pas les meilleures intentions du monde. Et pourtant, la décentralisation commence par se décentraliser soi-même.
C’est dans l’intérêt du Fédiverse que mastodon.social donne le bon exemple en limitant sa taille volontairement.
En fait, ça devrait même être intégré au logiciel. Les instances Mastodon devraient être empêchées de croître au-delà d’une certaine taille. Les instances qui sont déjà trop grosses devraient avoir des moyens d’encourager les gens à migrer vers des plus petites.
En tant que communauté, nous devrions aborder les grandes instances comme des tumeurs : comment pouvons-nous les détruire pour qu’elles ne soient plus un danger pour l’organisme ?
En poussant ce raisonnement, on arrive au concept du Small Web, un internet où nous possédons et maîtrisons notre propre lieu (ou nos propres lieux).

Cliquez sur l’image pour voir une vidéo (sur aperi.tube, une instance PeerTube) : Aral expliquant ce qu’est pour lui le Small Web

Small is beautiful ! (Petit c’est mieux) (octobre 2022) : Qu’est-ce que le Small Web et pourquoi en avons-nous besoin ?

Cui-cui ?

Je ne dis pas que les protocoles et applications actuels du Fédiverse peuvent, vont, ou même devraient évoluer vers le Small Web¹⁶. Pour l’instant, le Fédiverse est un palliatif inestimable qui fournit un lieu plus sûr que les fosses septiques centralisées de la Silicon Valley.

Le temps que durera le palliatif dépendra de notre capacité à résister à la centralisation. Les designs des serveurs et des protocoles qui incitent au passage à l’échelle vertical ne rendront pas forcément cette tâche plus facile. Et pourtant, il y a des moyens de pression sociaux que nous pouvons utiliser pour contrer leurs effets.

La dernière chose qu’on souhaite, c’est qu’une poignée de Zuckerbergs au petit pied gouvernent le Fédiverse. Ou pire encore, que vous deveniez vous-même un de ces mini-Zuckerbergs.

J’aime le fait que le Fédiverse existe. Et j’ai le plus grand respect pour les efforts gargantuesques qui lui sont dédiés. Mais je suis aussi très préoccupé par les décisions prises en termes d’architecture qui incitent à la centralisation, et non à la décentralisation. Je nous implore de reconnaître cela, pour limiter les risques du mieux que nous le pouvons, pour nous efforcer d’apprendre de nos erreurs, et pour faire encore mieux demain.
Gens d’ActivityPub et de Mastodon :
Considérez-moi comme votre canari dans une mine de charbon…
« Cui-cui ! Cui-cui ! Cui-cui ! »

*Si vous souhaitez soutenir la Small Technology Foundation, qui est sans but lucratif : https://small-tech.org/fund-us