❌

Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraĂźchir la page.
À partir d’avant-hierFlux principal

Ouvrir le code des algorithmes ? — Oui, mais
 (1/2)

15 mai 2023 Ă  05:42

Voici le premier des deux articles qu’Hubert Guillaud nous fait le plaisir de partager. Sans s’arrĂȘter Ă  la surface de l’actualitĂ©, il aborde la transparence du code des algorithmes, qui entraĂźne un grand nombre de questions Ă©pineuses sur lesquelles il s’est documentĂ© pour nous faire part de ses rĂ©flexions.


Dans le code source de l’amplification algorithmique : publier le code ne suffit pas !

par Hubert GUILLAUD

Le 31 mars, Twitter a publiĂ© une partie du code source qui alimente son fil d’actualitĂ©, comme l’a expliquĂ© l’équipe elle-mĂȘme dans un billet. Ces dizaines de milliers de lignes de code contiennent pourtant peu d’informations nouvelles. Depuis le rachat de l’oiseau bleu par Musk, Twitter a beaucoup changĂ© et ne cesse de se modifier sous les yeux des utilisateurs. La publication du code source d’un systĂšme, mĂȘme partiel, qui a longtemps Ă©tĂ© l’un des grands enjeux de la transparence, montre ses limites.

un jeune homme montre une ligne d'une explication de l'encodage des algorithmes au rétroprojecteur

« LZW encoding and decoding algorithms overlapped Â» par nayukim, licence CC BY 2.0.

Publier le code ne suffit pas

Dans un excellent billet de blog, le chercheur Arvind Narayan (sa newsletter mĂ©rite Ă©galement de s’y abonner) explique ce qu’il faut en retenir. Comme ailleurs, les rĂšgles ne sont pas claires. Les algorithmes de recommandation utilisent l’apprentissage automatique ce qui fait que la maniĂšre de classer les tweets n’est pas directement spĂ©cifiĂ©e dans le code, mais apprise par des modĂšles Ă  partir de donnĂ©es de Twitter sur la maniĂšre dont les utilisateurs ont rĂ©agi aux tweets dans le passĂ©. Twitter ne divulgue ni ces modĂšles ni les donnĂ©es d’apprentissages, ce qui signifie qu’il n’est pas possible d’exĂ©cuter ces modĂšles. Le code ne permet pas de comprendre pourquoi un tweet est ou n’est pas recommandĂ© Ă  un utilisateur, ni pourquoi certains contenus sont amplifiĂ©s ou invisibilisĂ©s. C’est toute la limite de la transparence. Ce que rĂ©sume trĂšs bien le journaliste Nicolas Kayser-Bril pour AlgorithmWatch (pertinemment traduit par le framablog) : « Vous ne pouvez pas auditer un code seulement en le lisant. Il faut l’exĂ©cuter sur un ordinateur. Â»

« Ce que Twitter a publiĂ©, c’est le code utilisĂ© pour entraĂźner les modĂšles, Ă  partir de donnĂ©es appropriĂ©es Â», explique Narayan, ce qui ne permet pas de comprendre les propagations, notamment du fait de l’absence des donnĂ©es. De plus, les modĂšles pour dĂ©tecter les tweets qui violent les politiques de Twitter et qui leur donnent des notes de confiance en fonction de ces politiques sont Ă©galement absentes (afin que les usagers ne puissent pas dĂ©jouer le systĂšme, comme nous le rĂ©pĂštent trop de systĂšmes rĂ©tifs Ă  l’ouverture). Or, ces classements ont des effets de rĂ©trogradation trĂšs importants sur la visibilitĂ© de ces tweets, sans qu’on puisse savoir quels tweets sont ainsi classĂ©s, selon quelles mĂ©thodes et surtout avec quelles limites.

La chose la plus importante que Twitter a rĂ©vĂ©lĂ©e en publiant son code, c’est la formule qui spĂ©cifie comment les diffĂ©rents types d’engagement (likes, retweets, rĂ©ponses, etc.) sont pondĂ©rĂ©s les uns par rapport aux autres
 Mais cette formule n’est pas vraiment dans le code. Elle est publiĂ©e sĂ©parĂ©ment, notamment parce qu’elle n’est pas statique, mais qu’elle doit ĂȘtre modifiĂ©e frĂ©quemment.

Sans surprise, le code rĂ©vĂšle ainsi que les abonnĂ©s Ă  Twitter Blue, ceux qui payent leur abonnement, bĂ©nĂ©ficient d’une augmentation de leur portĂ©e (ce qui n’est pas sans poser un problĂšme de fond, comme le remarque pertinemment sur Twitter, Guillaume Champeau, car cette prĂ©fĂ©rence pourrait mettre ces utilisateurs dans la position d’ĂȘtre annonceurs, puisqu’ils payent pour ĂȘtre mis en avant, sans que l’interface ne le signale clairement, autrement que par la pastille bleue). Reste que le code n’est pas clair sur l’ampleur de cette accĂ©lĂ©ration. Les notes attribuĂ©es aux tweets des abonnĂ©s Blue sont multipliĂ©es par 2 ou 4, mais cela ne signifie pas que leur portĂ©e est pareillement multipliĂ©e. « Une fois encore, le code ne nous dit pas le genre de choses que nous voudrions savoir Â», explique Narayan.

Reste que la publication de la formule d’engagement est un Ă©vĂ©nement majeur. Elle permet de saisir le poids des rĂ©actions sur un tweet. On constate que la rĂ©ponse Ă  tweet est bien plus forte que le like ou que le RT. Et la re-rĂ©ponse de l’utilisateur originel est prĂ©dominante, puisque c’est le signe d’une conversation forte. À l’inverse, le fait qu’un lecteur bloque, mute ou se dĂ©sabonne d’un utilisateur suite Ă  un tweet est un facteur extrĂȘmement pĂ©nalisant pour la propagation du tweet.

Tableau du poids attribuĂ© en fonction des types d’engagement possibles sur Twitter.

Ces quelques indications permettent nĂ©anmoins d’apprendre certaines choses. Par exemple que Twitter ne semble pas utiliser de prĂ©dictions d’actions implicites (comme lorsqu’on s’arrĂȘte de faire dĂ©filer son fil), ce qui permet d’éviter l’amplification du contenu trash que les gens ne peuvent s’empĂȘcher de regarder, mĂȘme s’ils ne s’y engagent pas. La formule nous apprend que les retours nĂ©gatifs ont un poids trĂšs Ă©levĂ©, ce qui permet d’amĂ©liorer son flux en montrant Ă  l’algorithme ce dont vous ne voulez pas – mĂȘme si les plateformes devraient permettre des contrĂŽles plus explicites pour les utilisateurs. Enfin, ces poids ont des valeurs souvent prĂ©cises, ce qui signifie que ce tableau n’est valable qu’à l’instant de la publication et qu’il ne sera utile que si Twitter le met Ă  jour.

Les algorithmes de recommandation qui optimisent l’engagement suivent des modĂšles assez proches. La publication du code n’est donc pas trĂšs rĂ©vĂ©latrice. Trois Ă©lĂ©ments sont surtout importants, insiste le chercheur :

« Le premier est la maniĂšre dont les algorithmes sont configurĂ©s : les signaux utilisĂ©s comme entrĂ©e, la maniĂšre dont l’engagement est dĂ©fini, etc. Ces informations doivent ĂȘtre considĂ©rĂ©es comme un Ă©lĂ©ment essentiel de la transparence et peuvent ĂȘtre publiĂ©es indĂ©pendamment du code. La seconde concerne les modĂšles d’apprentissage automatique qui, malheureusement, ne peuvent gĂ©nĂ©ralement pas ĂȘtre divulguĂ©s pour des raisons de protection de la vie privĂ©e. Le troisiĂšme est la boucle de rĂ©troaction entre les utilisateurs et l’algorithme Â».

Autant d’élĂ©ments qui demandent des recherches, des expĂ©riences et du temps pour en comprendre les limites.

Si la transparence n’est pas une fin en soi, elle reste un moyen de construire un meilleur internet en amĂ©liorant la responsabilitĂ© envers les utilisateurs, rappelle l’ingĂ©nieur Gabriel Nicholas pour le Center for Democracy & Technology. Il souligne nĂ©anmoins que la publication d’une partie du code source de Twitter ne contrebalance pas la fermeture du Consortium de recherche sur la modĂ©ration, ni celle des rapports de transparence relatives aux demandes de retraits des autoritĂ©s ni celle de l’accĂšs Ă  son API pour chercheurs, devenue extrĂȘmement coĂ»teuse.

« Twitter n’a pas exactement ’ouvert son algorithme’ comme certains l’ont dit. Le code est lourdement expurgĂ© et il manque plusieurs fichiers de configuration, ce qui signifie qu’il est pratiquement impossible pour un chercheur indĂ©pendant d’exĂ©cuter l’algorithme sur des Ă©chantillons ou de le tester d’une autre maniĂšre. Le code publiĂ© n’est en outre qu’un instantanĂ© du systĂšme de recommandation de Twitter et n’est pas rĂ©ellement connectĂ© au code en cours d’exĂ©cution sur ses serveurs. Cela signifie que Twitter peut apporter des modifications Ă  son code de production et ne pas l’inclure dans son rĂ©fĂ©rentiel public, ou apporter des modifications au rĂ©fĂ©rentiel public qui ne sont pas reflĂ©tĂ©es dans son code de production. Â»

L’algorithme publiĂ© par Twitter est principalement son systĂšme de recommandation. Il se dĂ©compose en 3 parties, explique encore Nicholas :

  • Un systĂšme de gĂ©nĂ©ration de contenus candidats. Ici, Twitter sĂ©lectionne 1500 tweets susceptibles d’intĂ©resser un utilisateur en prĂ©disant la probabilitĂ© que l’utilisateur s’engage dans certaines actions pour chaque tweet (c’est-Ă -dire qu’il RT ou like par exemple).
  • Un systĂšme de classement. Une fois que les 1 500 tweets susceptibles d’ĂȘtre servis sont sĂ©lectionnĂ©s, ils sont notĂ©s en fonction de la probabilitĂ© des actions d’engagement, certaines actions Ă©tant pondĂ©rĂ©es plus fortement que d’autres. Les tweets les mieux notĂ©s apparaĂźtront gĂ©nĂ©ralement plus haut dans le fil d’actualitĂ© de l’utilisateur.
  • Un systĂšme de filtrage. Les tweets ne sont pas classĂ©s strictement en fonction de leur score. Des heuristiques et des filtres sont appliquĂ©s pour, par exemple, Ă©viter d’afficher plusieurs tweets du mĂȘme auteur ou pour dĂ©classer les tweets d’auteurs que l’utilisateur a dĂ©jĂ  signalĂ©s pour violation de la politique du site.

Le score final est calculĂ© en additionnant la probabilitĂ© de chaque action multipliĂ©e par son poids (en prenant certainement en compte la raretĂ© ou la frĂ©quence d’action, le fait de rĂ©pondre Ă  un tweet Ă©tant moins frĂ©quent que de lui attribuer un like). Mais Twitter n’a pas publiĂ© la probabilitĂ© de base de chacune de ces actions ce qui rend impossible de dĂ©terminer l’importance de chacune d’elles dans les recommandations qui lui sont servies.

Twitter a Ă©galement rĂ©vĂ©lĂ© quelques informations sur les autres facteurs qu’il prend en compte en plus du classement total d’un tweet. Par exemple, en Ă©quilibrant les recommandations des personnes que vous suivez avec celles que vous ne suivez pas, en Ă©vitant de recommander les tweets d’un mĂȘme auteur ou en donnant une forte prime aux utilisateurs payants de Twitter Blue.

Il y a aussi beaucoup de code que Twitter n’a pas partagĂ©. Il n’a pas divulguĂ© beaucoup d’informations sur l’algorithme de gĂ©nĂ©ration des tweets candidats au classement ni sur ses paramĂštres et ses donnĂ©es d’entraĂźnement. Twitter n’a pas non plus explicitement partagĂ© ses algorithmes de confiance et de sĂ©curitĂ© pour dĂ©tecter des Ă©lĂ©ments tels que les abus, la toxicitĂ© ou les contenus pour adultes, afin d’empĂȘcher les gens de trouver des solutions de contournement, bien qu’il ait publiĂ© certaines des catĂ©gories de contenu qu’il signale.

 

graphe des relations entre comptes twitter, tr-s nombreux traits bleus entre minuscules avatars de comptes, le tout donne une impression d'inextricable comlexité

« 20120212-NodeXL-Twitter-socbiz network graph Â» par Marc_Smith ; licence CC BY 2.0.

 

Pour Gabriel Nicholas, la transparence de Twitter serait plus utile si Twitter avait maintenu ouverts ses outils aux chercheurs. Ce n’est pas le cas.

Il y a plein d’autres points que l’ouverture de l’algorithme de Twitter a documentĂ©s. Par exemple, l’existence d’un Tweepcred, un score qui classe les utilisateurs et qui permet de voir ses publications boostĂ©es si votre score est bon, comme l’expliquait Numerama. Ou encore le fait que chaque compte est clustĂ©risĂ© dans un groupe aux profils similaires dans lequel les tweets sont d’abord diffusĂ©s avant d’ĂȘtre envoyĂ©s plus largement s’ils rencontrent un premier succĂšs
 De mĂȘme, il semblerait qu’il y ait certaines catĂ©gories d’utilisateurs spĂ©ciaux (dont une catĂ©gorie relative Ă  Elon Musk) mais qui servent peut-ĂȘtre plus certaines statistiques qu’à doper la portĂ©e de certains comptes comme on l’a entendu (mĂȘme s’il semble bien y avoir une catĂ©gorie VIP sur Twitter â€“ comme il y a sur Facebook un statut d’exception Ă  la modĂ©ration)


Ouvrir, mais ouvrir quoi ?

En conclusion de son article, Narayan pointe vers un trĂšs intĂ©ressant article qui dresse une liste d’options de transparence pour ceux qui produisent des systĂšmes de recommandation, publiĂ©e par les chercheurs Priyanjana Bengani, Jonathan Stray et Luke Thorburn. Ils rappellent que les plateformes ont mis en place des mesures de transparence, allant de publications statistiques Ă  des interfaces de programmation, en passant par des outils et des ensembles de donnĂ©es protĂ©gĂ©s. Mais ces mesures, trĂšs techniques, restent insuffisantes pour comprendre les algorithmes de recommandation et leur influence sur la sociĂ©tĂ©. Une grande partie de cette rĂ©sistance Ă  la transparence ne tient pas tant aux risques commerciaux qui pourraient ĂȘtre rĂ©vĂ©lĂ©s qu’à Ă©viter l’embarras d’avoir Ă  se justifier de choix qui ne le sont pas toujours. D’une maniĂšre trĂšs pragmatique, les trois chercheurs proposent un menu d’actions pour amĂ©liorer la transparence et l’explicabilitĂ© des systĂšmes.

Documenter
L’un des premiers outils, et le plus simple, reste la documentation qui consiste Ă  expliquer en termes clairs – selon diffĂ©rentes Ă©chelles et niveaux, me semble-t-il â€“ ce qui est activĂ© par une fonction. Pour les utilisateurs, c’est le cas du bouton « Pourquoi je vois ce message Â» de Facebook ou du panneau « FrĂ©quemment achetĂ©s ensemble Â» d’Amazon. L’idĂ©e ici est de fourbir un « compte rendu honnĂȘte Â». Pour les plus Ă©voluĂ©es de ces interfaces, elles devraient permettre non seulement d’informer et d’expliquer pourquoi on nous recommande ce contenu, mais Ă©galement, permettre de rectifier et mieux contrĂŽler son expĂ©rience en ligne, c’est-Ă -dire d’avoir des leviers d’actions sur la recommandation.

Une autre forme de documentation est celle sur le fonctionnement gĂ©nĂ©ral du systĂšme et ses dĂ©cisions de classement, Ă  l’image des rapports de transparence sur les questions de sĂ©curitĂ© et d’intĂ©gritĂ© que doivent produire la plupart des plateformes (voir celui de Google, par exemple). Cette documentation devrait intĂ©grer des informations sur la conception des algorithmes, ce que les plateformes priorisent, minimisent et retirent, si elles donnent des prioritĂ©s et Ă  qui, tenir le journal des modifications, des nouvelles fonctionnalitĂ©s, des changements de politiques. La documentation doit apporter une information solide et loyale, mais elle reste souvent insuffisante.

Les données
Pour comprendre ce qu’il se passe sur une plateforme, il est nĂ©cessaire d’obtenir des donnĂ©es. Twitter ou Facebook en ont publiĂ© (accessibles sous condition de recherche, ici pour Twitter, lĂ  pour Facebook). Une autre approche consiste Ă  ouvrir des interfaces de programmation, Ă  l’image de CrowdTangle de Facebook ou de l’API de Twitter. Depuis le scandale Cambridge Analytica, l’accĂšs aux donnĂ©es est souvent devenu plus difficile, la protection de la vie privĂ©e servant parfois d’excuse aux plateformes pour Ă©viter d’avoir Ă  divulguer leurs pratiques. L’accĂšs aux donnĂ©es, mĂȘme pour la recherche, s’est beaucoup refermĂ© ces derniĂšres annĂ©es. Les plateformes publient moins de donnĂ©es et CrowdTangle propose des accĂšs toujours plus sĂ©lectifs. Chercheurs et journalistes ont Ă©tĂ© contraints de dĂ©velopper leurs propres outils, comme des extensions de navigateurs permettant aux utilisateurs de faire don de leurs donnĂ©es (Ă  l’image du Citizen Browser de The Markup) ou des simulations automatisĂ©es (Ă  l’image de l’analyse robotique de TikTok produite par le Wall Street Journal), que les plateformes ont plutĂŽt eu tendance Ă  bloquer en dĂ©niant les rĂ©sultats obtenus sous prĂ©texte d’incomplĂ©tude – ce qui est justement le problĂšme que l’ouverture de donnĂ©es cherche Ă  adresser.

Le code
L’ouverture du code des systĂšmes de recommandation pourrait ĂȘtre utile, mais elle ne suffit pas, d’abord parce que dans les systĂšmes de recommandation, il n’y a pas un algorithme unique. Nous sommes face Ă  des ensembles complexes et enchevĂȘtrĂ©s oĂč « diffĂ©rents modĂšles d’apprentissage automatique formĂ©s sur diffĂ©rents ensembles de donnĂ©es remplissent diverses fonctions Â». MĂȘme le classement ou le modĂšle de valeur pour dĂ©terminer le score n’explique pas tout. Ainsi, « le poids Ă©levĂ© sur un contenu d’un type particulier ne signifie pas nĂ©cessairement qu’un utilisateur le verra beaucoup, car l’exposition dĂ©pend de nombreux autres facteurs, notamment la quantitĂ© de ce type de contenu produite par d’autres utilisateurs. Â»

Peu de plateformes offrent une grande transparence au niveau du code source. Reddit a publiĂ© en 2008 son code source, mais a cessĂ© de le mettre Ă  jour. En l’absence de mesures de transparence, comprendre les systĂšmes nĂ©cessite d’écluser le travail des journalistes, des militants et des chercheurs pour tenter d’en obtenir un aperçu toujours incomplet.

La recherche
Les plateformes mĂšnent en permanence une multitude de projets de recherche internes voire externes et testent diffĂ©rentes approches pour leurs systĂšmes de recommandation. Certains des rĂ©sultats finissent par ĂȘtre accessibles dans des revues ou des articles soumis Ă  des confĂ©rences ou via des fuites d’informations. Quelques efforts de partenariats entre la recherche et les plateformes ont Ă©tĂ© faits, qui restent embryonnaires et ne visent pas la transparence, mais qui offrent la possibilitĂ© Ă  des chercheurs de mener des expĂ©riences et donc permettent de rĂ©pondre Ă  des questions de nature causale, qui ne peuvent pas ĂȘtre rĂ©solues uniquement par l’accĂšs aux donnĂ©es.

Enfin, les audits peuvent ĂȘtre considĂ©rĂ©s comme un type particulier de recherche. À l’heure actuelle, il n’existe pas de bons exemples d’audits de systĂšmes de recommandation menĂ©s Ă  bien. Reste que le Digital Service Act (DSA) europĂ©en autorise les audits externes, qu’ils soient lancĂ©s par l’entreprise ou dans le cadre d’une surveillance rĂ©glementaire, avec des accĂšs Ă©largis par rapport Ă  ceux autorisĂ©s pour l’instant. Le DSA exige des Ă©valuations sur le public mineur, sur la sĂ©curitĂ©, la santĂ©, les processus Ă©lectoraux
 mais ne prĂ©cise ni comment ces audits doivent ĂȘtre rĂ©alisĂ©s ni selon quelles normes. Des mĂ©thodes spĂ©cifiques ont Ă©tĂ© avancĂ©es pour contrĂŽler la discrimination, la polarisation et l’amplification dans les systĂšmes de recommandation.

En principe, on pourrait Ă©valuer n’importe quel prĂ©judice par des audits. Ceux-ci visent Ă  vĂ©rifier si « la conception et le fonctionnement d’un systĂšme de recommandation respectent les meilleures pratiques et si l’entreprise fait ce qu’elle dit qu’elle fait. S’ils sont bien rĂ©alisĂ©s, les audits pourraient offrir la plupart des avantages d’un code source ouvert et d’un accĂšs aux donnĂ©es des utilisateurs, sans qu’il soit nĂ©cessaire de les rendre publics. Â» Reste qu’il est peu probable que les audits imposĂ©s par la surveillance rĂ©glementaire couvrent tous les domaines qui prĂ©occupent ceux qui sont confrontĂ©s aux effets des outils de recommandations.

Autres moteurs de transparence : la gouvernance et les calculs

Les chercheurs concluent en soulignant qu’il existe donc une gamme d’outils Ă  disposition, mais qu’elle manque de rĂšgles et de bonnes pratiques partagĂ©es. Face aux obligations de transparence et de contrĂŽles qui arrivent (pour les plus gros acteurs d’abord, mais parions que demain, elles concerneront bien d’autres acteurs), les entreprises peinent Ă  se mettre en ordre de marche pour proposer des outillages et des productions dans ces diffĂ©rents secteurs qui leur permettent Ă  la fois de se mettre en conformitĂ© et de faire progresser leurs outils. Ainsi, par exemple, dans le domaine des donnĂ©es, documenter les jeux et les champs de donnĂ©es, Ă  dĂ©faut de publier les jeux de donnĂ©es, pourrait dĂ©jĂ  permettre un net progrĂšs. Dans le domaine de la documentation, les cartes et les registres permettent Ă©galement d’expliquer ce que les calculs opĂšrent (en documentant par exemple leurs marges d’erreurs).

Reste que l’approche trĂšs technique que mobilisent les chercheurs oublie quelques leviers supplĂ©mentaires. Je pense notamment aux conseils de surveillance, aux conseils Ă©thiques, aux conseils scientifiques, en passant par les organismes de contrĂŽle indĂ©pendants, aux comitĂ©s participatifs ou consultatifs d’utilisateurs
 Ă  tous les outils institutionnels, participatifs ou militants qui permettent de remettre les parties prenantes dans le contrĂŽle des dĂ©cisions que les systĂšmes prennent. Dans la lutte contre l’opacitĂ© des dĂ©cisions, tous les leviers de gouvernance sont bons Ă  prendre. Et ceux-ci sont de trĂšs bons moyens pour faire pression sur la transparence, comme l’expliquait trĂšs pertinemment David Robinson dans son livre Voices in the Code.

Un autre levier me semble absent de nombre de propositions
 Alors qu’on ne parle que de rendre les calculs transparents, ceux-ci sont toujours absents des discussions. Or, les rĂšgles de traitements sont souvent particuliĂšrement efficaces pour amĂ©liorer les choses. Il me semble qu’on peut esquisser au moins deux moyens pour rendre les calculs plus transparents et responsables : la minimisation et les interdictions.

La minimisation vise Ă  rappeler qu’un bon calcul ne dĂ©multiplie pas nĂ©cessairement les critĂšres pris en compte. Quand on regarde les calculs, bien souvent, on est stupĂ©fait d’y trouver des critĂšres qui ne devraient pas ĂȘtre pris en compte, qui n’ont pas de fondements autres que d’ĂȘtre rendus possibles par le calcul. Du risque de rĂ©cidive au score de risque de fraude Ă  la CAF, en passant par l’attribution de greffes ou aux systĂšmes de calculs des droits sociaux, on trouve toujours des Ă©lĂ©ments qui apprĂ©cient le calcul alors qu’ils n’ont aucune justification ou pertinence autres que d’ĂȘtre rendu possibles par le calcul ou les donnĂ©es. C’est le cas par exemple du questionnaire qui alimente le calcul de risque de rĂ©cidive aux Etats-Unis, qui repose sur beaucoup de questions problĂ©matiques. Ou de celui du risque de fraude Ă  la CAF, dont les anciennes versions au moins (on ne sait pas pour la plus rĂ©cente) prenaient en compte par exemple le nombre de fois oĂč les bĂ©nĂ©ficiaires se connectaient Ă  leur espace en ligne (sur cette question, suivez les travaux de la Quadrature et de Changer de Cap). La minimisation, c’est aussi, comme l’explique l’ex-chercheur de chez Google, El Mahdi El Mhamdi, dans une excellente interview, limiter le nombre de paramĂštres pris en compte par les calculs et limiter l’hĂ©tĂ©rogĂ©nĂ©itĂ© des donnĂ©es.

L’interdiction, elle, vise Ă  dĂ©terminer que certains croisements ne devraient pas ĂȘtre autorisĂ©s, par exemple, la prise en compte des primes dans les logiciels qui calculent les donnĂ©es d’agenda du personnel, comme semble le faire le logiciel Orion mis en place par la Sncf, ou Isabel, le logiciel RH que Bol.com utilise pour gĂ©rer la main-d’Ɠuvre Ă©trangĂšre dans ses entrepĂŽts de logistique nĂ©erlandais. Ou encore, comme le soulignait Narayan, le temps passĂ© sur les contenus sur un rĂ©seau social par exemple, ou l’analyse de l’émotion dans les systĂšmes de recrutement (et ailleurs, tant cette technologie pose problĂšme). A l’heure oĂč tous les calculs sont possibles, il va ĂȘtre pertinent de rappeler que selon les secteurs, certains croisements doivent rester interdits parce qu’ils sont trop Ă  risque pour ĂȘtre mobilisĂ©s dans le calcul ou que certains calculs ne peuvent ĂȘtre autorisĂ©s.

Priyanjana Bengani, Jonathan Stray et Luke Thorburn, pour en revenir Ă  eux, notent enfin que l’exigence de transparence reste formulĂ©e en termes trĂšs gĂ©nĂ©raux par les autoritĂ©s rĂ©glementaires. Dans des systĂšmes vastes et complexes, il est difficile de savoir ce que doit signifier rĂ©ellement la transparence. Pour ma part, je milite pour une transparence “projective”, active, qui permette de se projeter dans les explications, c’est-Ă -dire de saisir ses effets et dĂ©passer le simple caractĂšre narratif d’une explication loyale, mais bien de pouvoir agir et reprendre la main sur les calculs.

CoincĂ©s dans les boucles de l’amplification

Plus rĂ©cemment, les trois mĂȘmes chercheurs, passĂ© leur article sĂ©minal, ont continuĂ© Ă  documenter leur rĂ©flexion. Ainsi, dans « Rendre l’amplification mesurable Â», ils expliquent que l’amplification est souvent bien mal dĂ©finie (notamment juridiquement, ils ont consacrĂ© un article entier Ă  la question)
 mais proposent d’amĂ©liorer les propriĂ©tĂ©s permettant de la dĂ©finir. Ils rappellent d’abord que l’amplification est relative, elle consiste Ă  introduire un changement par rapport Ă  un calcul alternatif ou prĂ©cĂ©dent qui va avoir un effet sans que le comportement de l’utilisateur n’ait Ă©tĂ©, lui, modifiĂ©.

L’amplification agit d’abord sur un contenu et nĂ©cessite de rĂ©pondre Ă  la question de savoir ce qui a Ă©tĂ© amplifiĂ©. Mais mĂȘme dire que les fake news sont amplifiĂ©es n’est pas si simple, Ă  dĂ©faut d’avoir une dĂ©finition prĂ©cise et commune des fake news qui nĂ©cessite de comprendre les classifications opĂ©rĂ©es. Ensuite, l’amplification se mesure par rapport Ă  un point de rĂ©fĂ©rence prĂ©cĂ©dent qui est rarement prĂ©cisĂ©. Enfin, quand l’amplification atteint son but, elle produit un rĂ©sultat qui se voit dans les rĂ©sultats liĂ©s Ă  l’engagement (le nombre de fois oĂč le contenu a Ă©tĂ© apprĂ©ciĂ© ou partagĂ©) mais surtout ceux liĂ©s aux impressions (le nombre de fois oĂč le contenu a Ă©tĂ© vu). Enfin, il faut saisir ce qui relĂšve de l’algorithme et du comportement de l’utilisateur. Si les messages d’un parti politique reçoivent un nombre relativement important d’impressions, est-ce parce que l’algorithme est biaisĂ© en faveur du parti politique en question ou parce que les gens ont tendance Ă  s’engager davantage avec le contenu de ce parti ? Le problĂšme, bien sĂ»r, est de distinguer l’un de l’autre d’une maniĂšre claire, alors qu’une modification de l’algorithme entraĂźne Ă©galement une modification du comportement de l’utilisateur. En fait, cela ne signifie pas que c’est impossible, mais que c’est difficile, expliquent les chercheurs. Cela nĂ©cessite un systĂšme d’évaluation de l’efficacitĂ© de l’algorithme et beaucoup de tests A/B pour comparer les effets des Ă©volutions du calcul. Enfin, estiment-ils, il faut regarder les effets Ă  long terme, car les changements dans le calcul prennent du temps Ă  se diffuser et impliquent en retour des rĂ©actions des utilisateurs Ă  ces changements, qui s’adaptent et rĂ©agissent aux transformations.

Dans un autre article, ils reviennent sur la difficultĂ© Ă  caractĂ©riser l’effet bulle de filtre des mĂ©dias sociaux, notamment du fait de conceptions Ă©lastiques du phĂ©nomĂšne. S’il y a bien des boucles de rĂ©troaction, leur ampleur est trĂšs discutĂ©e et dĂ©pend beaucoup du contexte. Ils en appellent lĂ  encore Ă  des mesures plus prĂ©cises des phĂ©nomĂšnes. Certes, ce que l’on fait sur les rĂ©seaux sociaux influe sur ce qui est montrĂ©, mais il est plus difficile de dĂ©montrer que ce qui est montrĂ© affecte ce que l’on pense. Il est probable que les effets mĂ©diatiques des recommandations soient faibles pour la plupart des gens et la plupart du temps, mais beaucoup plus importants pour quelques individus ou sous-groupes relativement Ă  certaines questions ou enjeux. De plus, il est probable que changer nos façons de penser ne rĂ©sulte pas d’une exposition ponctuelle, mais d’une exposition Ă  des rĂ©cits et des thĂšmes rĂ©currents, cumulatifs et Ă  long terme. Enfin, si les gens ont tendance Ă  s’intĂ©resser davantage Ă  l’information si elle est cohĂ©rente avec leur pensĂ©e existante, il reste Ă  savoir si ce que l’on pense affecte ce Ă  quoi l’on s’engage. Mais cela est plus difficile Ă  mesurer car cela suppose de savoir ce que les gens pensent et pas seulement constater leurs comportements en ligne. En gĂ©nĂ©ral, les Ă©tudes montrent plutĂŽt que l’exposition sĂ©lective a peu d’effets. Il est probable cependant que lĂ  encore, l’exposition sĂ©lective soit faible en moyenne, mais plus forte pour certains sous-groupes de personnes en fonction des contextes, des types d’informations.

Bref, là encore, les effets des réseaux sociaux sont difficiles à percer.

Pour comprendre les effets de l’amplification algorithmique, peut-ĂȘtre faut-il aller plus avant dans la comprĂ©hension que nous avons des Ă©volutions de celle-ci, afin de mieux saisir ce que nous voulons vraiment savoir. C’est ce que nous tenterons de faire dans la suite de cet article


❌
❌