Ouvrir le code des algorithmes ? â Oui, mais⊠(1/2)
Voici le premier des deux articles quâHubert Guillaud nous fait le plaisir de partager. Sans sâarrĂȘter Ă la surface de lâactualitĂ©, il aborde la transparence du code des algorithmes, qui entraĂźne un grand nombre de questions Ă©pineuses sur lesquelles il sâest documentĂ© pour nous faire part de ses rĂ©flexions.
Dans le code source de lâamplification algorithmique : publier le code ne suffit pas !
par Hubert GUILLAUD
Le 31 mars, Twitter a publiĂ© une partie du code source qui alimente son fil dâactualitĂ©, comme lâa expliquĂ© lâĂ©quipe elle-mĂȘme dans un billet. Ces dizaines de milliers de lignes de code contiennent pourtant peu dâinformations nouvelles. Depuis le rachat de lâoiseau bleu par Musk, Twitter a beaucoup changĂ© et ne cesse de se modifier sous les yeux des utilisateurs. La publication du code source dâun systĂšme, mĂȘme partiel, qui a longtemps Ă©tĂ© lâun des grands enjeux de la transparence, montre ses limites.
Publier le code ne suffit pas
Dans un excellent billet de blog, le chercheur Arvind Narayan (sa newsletter mĂ©rite Ă©galement de sây abonner) explique ce quâil faut en retenir. Comme ailleurs, les rĂšgles ne sont pas claires. Les algorithmes de recommandation utilisent lâapprentissage automatique ce qui fait que la maniĂšre de classer les tweets nâest pas directement spĂ©cifiĂ©e dans le code, mais apprise par des modĂšles Ă partir de donnĂ©es de Twitter sur la maniĂšre dont les utilisateurs ont rĂ©agi aux tweets dans le passĂ©. Twitter ne divulgue ni ces modĂšles ni les donnĂ©es dâapprentissages, ce qui signifie quâil nâest pas possible dâexĂ©cuter ces modĂšles. Le code ne permet pas de comprendre pourquoi un tweet est ou nâest pas recommandĂ© Ă un utilisateur, ni pourquoi certains contenus sont amplifiĂ©s ou invisibilisĂ©s. Câest toute la limite de la transparence. Ce que rĂ©sume trĂšs bien le journaliste Nicolas Kayser-Bril pour AlgorithmWatch (pertinemment traduit par le framablog) : « Vous ne pouvez pas auditer un code seulement en le lisant. Il faut lâexĂ©cuter sur un ordinateur. »
« Ce que Twitter a publiĂ©, câest le code utilisĂ© pour entraĂźner les modĂšles, Ă partir de donnĂ©es appropriĂ©es », explique Narayan, ce qui ne permet pas de comprendre les propagations, notamment du fait de lâabsence des donnĂ©es. De plus, les modĂšles pour dĂ©tecter les tweets qui violent les politiques de Twitter et qui leur donnent des notes de confiance en fonction de ces politiques sont Ă©galement absentes (afin que les usagers ne puissent pas dĂ©jouer le systĂšme, comme nous le rĂ©pĂštent trop de systĂšmes rĂ©tifs Ă lâouverture). Or, ces classements ont des effets de rĂ©trogradation trĂšs importants sur la visibilitĂ© de ces tweets, sans quâon puisse savoir quels tweets sont ainsi classĂ©s, selon quelles mĂ©thodes et surtout avec quelles limites.
La chose la plus importante que Twitter a rĂ©vĂ©lĂ©e en publiant son code, câest la formule qui spĂ©cifie comment les diffĂ©rents types dâengagement (likes, retweets, rĂ©ponses, etc.) sont pondĂ©rĂ©s les uns par rapport aux autres⊠Mais cette formule nâest pas vraiment dans le code. Elle est publiĂ©e sĂ©parĂ©ment, notamment parce quâelle nâest pas statique, mais quâelle doit ĂȘtre modifiĂ©e frĂ©quemment.
Sans surprise, le code rĂ©vĂšle ainsi que les abonnĂ©s Ă Twitter Blue, ceux qui payent leur abonnement, bĂ©nĂ©ficient dâune augmentation de leur portĂ©e (ce qui nâest pas sans poser un problĂšme de fond, comme le remarque pertinemment sur Twitter, Guillaume Champeau, car cette prĂ©fĂ©rence pourrait mettre ces utilisateurs dans la position dâĂȘtre annonceurs, puisquâils payent pour ĂȘtre mis en avant, sans que lâinterface ne le signale clairement, autrement que par la pastille bleue). Reste que le code nâest pas clair sur lâampleur de cette accĂ©lĂ©ration. Les notes attribuĂ©es aux tweets des abonnĂ©s Blue sont multipliĂ©es par 2 ou 4, mais cela ne signifie pas que leur portĂ©e est pareillement multipliĂ©e. « Une fois encore, le code ne nous dit pas le genre de choses que nous voudrions savoir », explique Narayan.
Reste que la publication de la formule dâengagement est un Ă©vĂ©nement majeur. Elle permet de saisir le poids des rĂ©actions sur un tweet. On constate que la rĂ©ponse Ă tweet est bien plus forte que le like ou que le RT. Et la re-rĂ©ponse de lâutilisateur originel est prĂ©dominante, puisque câest le signe dâune conversation forte. Ă lâinverse, le fait quâun lecteur bloque, mute ou se dĂ©sabonne dâun utilisateur suite Ă un tweet est un facteur extrĂȘmement pĂ©nalisant pour la propagation du tweet.
Ces quelques indications permettent nĂ©anmoins dâapprendre certaines choses. Par exemple que Twitter ne semble pas utiliser de prĂ©dictions dâactions implicites (comme lorsquâon sâarrĂȘte de faire dĂ©filer son fil), ce qui permet dâĂ©viter lâamplification du contenu trash que les gens ne peuvent sâempĂȘcher de regarder, mĂȘme sâils ne sây engagent pas. La formule nous apprend que les retours nĂ©gatifs ont un poids trĂšs Ă©levĂ©, ce qui permet dâamĂ©liorer son flux en montrant Ă lâalgorithme ce dont vous ne voulez pas â mĂȘme si les plateformes devraient permettre des contrĂŽles plus explicites pour les utilisateurs. Enfin, ces poids ont des valeurs souvent prĂ©cises, ce qui signifie que ce tableau nâest valable quâĂ lâinstant de la publication et quâil ne sera utile que si Twitter le met Ă jour.
Les algorithmes de recommandation qui optimisent lâengagement suivent des modĂšles assez proches. La publication du code nâest donc pas trĂšs rĂ©vĂ©latrice. Trois Ă©lĂ©ments sont surtout importants, insiste le chercheur :
« Le premier est la maniĂšre dont les algorithmes sont configurĂ©s : les signaux utilisĂ©s comme entrĂ©e, la maniĂšre dont lâengagement est dĂ©fini, etc. Ces informations doivent ĂȘtre considĂ©rĂ©es comme un Ă©lĂ©ment essentiel de la transparence et peuvent ĂȘtre publiĂ©es indĂ©pendamment du code. La seconde concerne les modĂšles dâapprentissage automatique qui, malheureusement, ne peuvent gĂ©nĂ©ralement pas ĂȘtre divulguĂ©s pour des raisons de protection de la vie privĂ©e. Le troisiĂšme est la boucle de rĂ©troaction entre les utilisateurs et lâalgorithme ».
Autant dâĂ©lĂ©ments qui demandent des recherches, des expĂ©riences et du temps pour en comprendre les limites.
Si la transparence nâest pas une fin en soi, elle reste un moyen de construire un meilleur internet en amĂ©liorant la responsabilitĂ© envers les utilisateurs, rappelle lâingĂ©nieur Gabriel Nicholas pour le Center for Democracy & Technology. Il souligne nĂ©anmoins que la publication dâune partie du code source de Twitter ne contrebalance pas la fermeture du Consortium de recherche sur la modĂ©ration, ni celle des rapports de transparence relatives aux demandes de retraits des autoritĂ©s ni celle de lâaccĂšs Ă son API pour chercheurs, devenue extrĂȘmement coĂ»teuse.
« Twitter nâa pas exactement âouvert son algorithmeâ comme certains lâont dit. Le code est lourdement expurgĂ© et il manque plusieurs fichiers de configuration, ce qui signifie quâil est pratiquement impossible pour un chercheur indĂ©pendant dâexĂ©cuter lâalgorithme sur des Ă©chantillons ou de le tester dâune autre maniĂšre. Le code publiĂ© nâest en outre quâun instantanĂ© du systĂšme de recommandation de Twitter et nâest pas rĂ©ellement connectĂ© au code en cours dâexĂ©cution sur ses serveurs. Cela signifie que Twitter peut apporter des modifications Ă son code de production et ne pas lâinclure dans son rĂ©fĂ©rentiel public, ou apporter des modifications au rĂ©fĂ©rentiel public qui ne sont pas reflĂ©tĂ©es dans son code de production. »
Lâalgorithme publiĂ© par Twitter est principalement son systĂšme de recommandation. Il se dĂ©compose en 3 parties, explique encore Nicholas :
- Un systĂšme de gĂ©nĂ©ration de contenus candidats. Ici, Twitter sĂ©lectionne 1500 tweets susceptibles dâintĂ©resser un utilisateur en prĂ©disant la probabilitĂ© que lâutilisateur sâengage dans certaines actions pour chaque tweet (câest-Ă -dire quâil RT ou like par exemple).
- Un systĂšme de classement. Une fois que les 1âŻ500 tweets susceptibles dâĂȘtre servis sont sĂ©lectionnĂ©s, ils sont notĂ©s en fonction de la probabilitĂ© des actions dâengagement, certaines actions Ă©tant pondĂ©rĂ©es plus fortement que dâautres. Les tweets les mieux notĂ©s apparaĂźtront gĂ©nĂ©ralement plus haut dans le fil dâactualitĂ© de lâutilisateur.
- Un systĂšme de filtrage. Les tweets ne sont pas classĂ©s strictement en fonction de leur score. Des heuristiques et des filtres sont appliquĂ©s pour, par exemple, Ă©viter dâafficher plusieurs tweets du mĂȘme auteur ou pour dĂ©classer les tweets dâauteurs que lâutilisateur a dĂ©jĂ signalĂ©s pour violation de la politique du site.
Le score final est calculĂ© en additionnant la probabilitĂ© de chaque action multipliĂ©e par son poids (en prenant certainement en compte la raretĂ© ou la frĂ©quence dâaction, le fait de rĂ©pondre Ă un tweet Ă©tant moins frĂ©quent que de lui attribuer un like). Mais Twitter nâa pas publiĂ© la probabilitĂ© de base de chacune de ces actions ce qui rend impossible de dĂ©terminer lâimportance de chacune dâelles dans les recommandations qui lui sont servies.
Twitter a Ă©galement rĂ©vĂ©lĂ© quelques informations sur les autres facteurs quâil prend en compte en plus du classement total dâun tweet. Par exemple, en Ă©quilibrant les recommandations des personnes que vous suivez avec celles que vous ne suivez pas, en Ă©vitant de recommander les tweets dâun mĂȘme auteur ou en donnant une forte prime aux utilisateurs payants de Twitter Blue.
Il y a aussi beaucoup de code que Twitter nâa pas partagĂ©. Il nâa pas divulguĂ© beaucoup dâinformations sur lâalgorithme de gĂ©nĂ©ration des tweets candidats au classement ni sur ses paramĂštres et ses donnĂ©es dâentraĂźnement. Twitter nâa pas non plus explicitement partagĂ© ses algorithmes de confiance et de sĂ©curitĂ© pour dĂ©tecter des Ă©lĂ©ments tels que les abus, la toxicitĂ© ou les contenus pour adultes, afin dâempĂȘcher les gens de trouver des solutions de contournement, bien quâil ait publiĂ© certaines des catĂ©gories de contenu quâil signale.
Pour Gabriel Nicholas, la transparence de Twitter serait plus utile si Twitter avait maintenu ouverts ses outils aux chercheurs. Ce nâest pas le cas.
Il y a plein dâautres points que lâouverture de lâalgorithme de Twitter a documentĂ©s. Par exemple, lâexistence dâun Tweepcred, un score qui classe les utilisateurs et qui permet de voir ses publications boostĂ©es si votre score est bon, comme lâexpliquait Numerama. Ou encore le fait que chaque compte est clustĂ©risĂ© dans un groupe aux profils similaires dans lequel les tweets sont dâabord diffusĂ©s avant dâĂȘtre envoyĂ©s plus largement sâils rencontrent un premier succĂšs⊠De mĂȘme, il semblerait quâil y ait certaines catĂ©gories dâutilisateurs spĂ©ciaux (dont une catĂ©gorie relative Ă Elon Musk) mais qui servent peut-ĂȘtre plus certaines statistiques quâĂ doper la portĂ©e de certains comptes comme on lâa entendu (mĂȘme sâil semble bien y avoir une catĂ©gorie VIP sur Twitter â comme il y a sur Facebook un statut dâexception Ă la modĂ©ration)âŠ
Ouvrir, mais ouvrir quoi ?
En conclusion de son article, Narayan pointe vers un trĂšs intĂ©ressant article qui dresse une liste dâoptions de transparence pour ceux qui produisent des systĂšmes de recommandation, publiĂ©e par les chercheurs Priyanjana Bengani, Jonathan Stray et Luke Thorburn. Ils rappellent que les plateformes ont mis en place des mesures de transparence, allant de publications statistiques Ă des interfaces de programmation, en passant par des outils et des ensembles de donnĂ©es protĂ©gĂ©s. Mais ces mesures, trĂšs techniques, restent insuffisantes pour comprendre les algorithmes de recommandation et leur influence sur la sociĂ©tĂ©. Une grande partie de cette rĂ©sistance Ă la transparence ne tient pas tant aux risques commerciaux qui pourraient ĂȘtre rĂ©vĂ©lĂ©s quâĂ Ă©viter lâembarras dâavoir Ă se justifier de choix qui ne le sont pas toujours. Dâune maniĂšre trĂšs pragmatique, les trois chercheurs proposent un menu dâactions pour amĂ©liorer la transparence et lâexplicabilitĂ© des systĂšmes.
Documenter
Lâun des premiers outils, et le plus simple, reste la documentation qui consiste Ă expliquer en termes clairs â selon diffĂ©rentes Ă©chelles et niveaux, me semble-t-il â ce qui est activĂ© par une fonction. Pour les utilisateurs, câest le cas du bouton « Pourquoi je vois ce message » de Facebook ou du panneau « FrĂ©quemment achetĂ©s ensemble » dâAmazon. LâidĂ©e ici est de fourbir un « compte rendu honnĂȘte ». Pour les plus Ă©voluĂ©es de ces interfaces, elles devraient permettre non seulement dâinformer et dâexpliquer pourquoi on nous recommande ce contenu, mais Ă©galement, permettre de rectifier et mieux contrĂŽler son expĂ©rience en ligne, câest-Ă -dire dâavoir des leviers dâactions sur la recommandation.
Une autre forme de documentation est celle sur le fonctionnement gĂ©nĂ©ral du systĂšme et ses dĂ©cisions de classement, Ă lâimage des rapports de transparence sur les questions de sĂ©curitĂ© et dâintĂ©gritĂ© que doivent produire la plupart des plateformes (voir celui de Google, par exemple). Cette documentation devrait intĂ©grer des informations sur la conception des algorithmes, ce que les plateformes priorisent, minimisent et retirent, si elles donnent des prioritĂ©s et Ă qui, tenir le journal des modifications, des nouvelles fonctionnalitĂ©s, des changements de politiques. La documentation doit apporter une information solide et loyale, mais elle reste souvent insuffisante.
Les données
Pour comprendre ce quâil se passe sur une plateforme, il est nĂ©cessaire dâobtenir des donnĂ©es. Twitter ou Facebook en ont publiĂ© (accessibles sous condition de recherche, ici pour Twitter, lĂ pour Facebook). Une autre approche consiste Ă ouvrir des interfaces de programmation, Ă lâimage de CrowdTangle de Facebook ou de lâAPI de Twitter. Depuis le scandale Cambridge Analytica, lâaccĂšs aux donnĂ©es est souvent devenu plus difficile, la protection de la vie privĂ©e servant parfois dâexcuse aux plateformes pour Ă©viter dâavoir Ă divulguer leurs pratiques. LâaccĂšs aux donnĂ©es, mĂȘme pour la recherche, sâest beaucoup refermĂ© ces derniĂšres annĂ©es. Les plateformes publient moins de donnĂ©es et CrowdTangle propose des accĂšs toujours plus sĂ©lectifs. Chercheurs et journalistes ont Ă©tĂ© contraints de dĂ©velopper leurs propres outils, comme des extensions de navigateurs permettant aux utilisateurs de faire don de leurs donnĂ©es (Ă lâimage du Citizen Browser de The Markup) ou des simulations automatisĂ©es (Ă lâimage de lâanalyse robotique de TikTok produite par le Wall Street Journal), que les plateformes ont plutĂŽt eu tendance Ă bloquer en dĂ©niant les rĂ©sultats obtenus sous prĂ©texte dâincomplĂ©tude â ce qui est justement le problĂšme que lâouverture de donnĂ©es cherche Ă adresser.
Le code
Lâouverture du code des systĂšmes de recommandation pourrait ĂȘtre utile, mais elle ne suffit pas, dâabord parce que dans les systĂšmes de recommandation, il nây a pas un algorithme unique. Nous sommes face Ă des ensembles complexes et enchevĂȘtrĂ©s oĂč « diffĂ©rents modĂšles dâapprentissage automatique formĂ©s sur diffĂ©rents ensembles de donnĂ©es remplissent diverses fonctions ». MĂȘme le classement ou le modĂšle de valeur pour dĂ©terminer le score nâexplique pas tout. Ainsi, « le poids Ă©levĂ© sur un contenu dâun type particulier ne signifie pas nĂ©cessairement quâun utilisateur le verra beaucoup, car lâexposition dĂ©pend de nombreux autres facteurs, notamment la quantitĂ© de ce type de contenu produite par dâautres utilisateurs. »
Peu de plateformes offrent une grande transparence au niveau du code source. Reddit a publiĂ© en 2008 son code source, mais a cessĂ© de le mettre Ă jour. En lâabsence de mesures de transparence, comprendre les systĂšmes nĂ©cessite dâĂ©cluser le travail des journalistes, des militants et des chercheurs pour tenter dâen obtenir un aperçu toujours incomplet.
La recherche
Les plateformes mĂšnent en permanence une multitude de projets de recherche internes voire externes et testent diffĂ©rentes approches pour leurs systĂšmes de recommandation. Certains des rĂ©sultats finissent par ĂȘtre accessibles dans des revues ou des articles soumis Ă des confĂ©rences ou via des fuites dâinformations. Quelques efforts de partenariats entre la recherche et les plateformes ont Ă©tĂ© faits, qui restent embryonnaires et ne visent pas la transparence, mais qui offrent la possibilitĂ© Ă des chercheurs de mener des expĂ©riences et donc permettent de rĂ©pondre Ă des questions de nature causale, qui ne peuvent pas ĂȘtre rĂ©solues uniquement par lâaccĂšs aux donnĂ©es.
Enfin, les audits peuvent ĂȘtre considĂ©rĂ©s comme un type particulier de recherche. Ă lâheure actuelle, il nâexiste pas de bons exemples dâaudits de systĂšmes de recommandation menĂ©s Ă bien. Reste que le Digital Service Act (DSA) europĂ©en autorise les audits externes, quâils soient lancĂ©s par lâentreprise ou dans le cadre dâune surveillance rĂ©glementaire, avec des accĂšs Ă©largis par rapport Ă ceux autorisĂ©s pour lâinstant. Le DSA exige des Ă©valuations sur le public mineur, sur la sĂ©curitĂ©, la santĂ©, les processus Ă©lectoraux⊠mais ne prĂ©cise ni comment ces audits doivent ĂȘtre rĂ©alisĂ©s ni selon quelles normes. Des mĂ©thodes spĂ©cifiques ont Ă©tĂ© avancĂ©es pour contrĂŽler la discrimination, la polarisation et lâamplification dans les systĂšmes de recommandation.
En principe, on pourrait Ă©valuer nâimporte quel prĂ©judice par des audits. Ceux-ci visent Ă vĂ©rifier si « la conception et le fonctionnement dâun systĂšme de recommandation respectent les meilleures pratiques et si lâentreprise fait ce quâelle dit quâelle fait. Sâils sont bien rĂ©alisĂ©s, les audits pourraient offrir la plupart des avantages dâun code source ouvert et dâun accĂšs aux donnĂ©es des utilisateurs, sans quâil soit nĂ©cessaire de les rendre publics. » Reste quâil est peu probable que les audits imposĂ©s par la surveillance rĂ©glementaire couvrent tous les domaines qui prĂ©occupent ceux qui sont confrontĂ©s aux effets des outils de recommandations.
Autres moteurs de transparence : la gouvernance et les calculs
Les chercheurs concluent en soulignant quâil existe donc une gamme dâoutils Ă disposition, mais quâelle manque de rĂšgles et de bonnes pratiques partagĂ©es. Face aux obligations de transparence et de contrĂŽles qui arrivent (pour les plus gros acteurs dâabord, mais parions que demain, elles concerneront bien dâautres acteurs), les entreprises peinent Ă se mettre en ordre de marche pour proposer des outillages et des productions dans ces diffĂ©rents secteurs qui leur permettent Ă la fois de se mettre en conformitĂ© et de faire progresser leurs outils. Ainsi, par exemple, dans le domaine des donnĂ©es, documenter les jeux et les champs de donnĂ©es, Ă dĂ©faut de publier les jeux de donnĂ©es, pourrait dĂ©jĂ permettre un net progrĂšs. Dans le domaine de la documentation, les cartes et les registres permettent Ă©galement dâexpliquer ce que les calculs opĂšrent (en documentant par exemple leurs marges dâerreurs).
Reste que lâapproche trĂšs technique que mobilisent les chercheurs oublie quelques leviers supplĂ©mentaires. Je pense notamment aux conseils de surveillance, aux conseils Ă©thiques, aux conseils scientifiques, en passant par les organismes de contrĂŽle indĂ©pendants, aux comitĂ©s participatifs ou consultatifs dâutilisateurs⊠à tous les outils institutionnels, participatifs ou militants qui permettent de remettre les parties prenantes dans le contrĂŽle des dĂ©cisions que les systĂšmes prennent. Dans la lutte contre lâopacitĂ© des dĂ©cisions, tous les leviers de gouvernance sont bons Ă prendre. Et ceux-ci sont de trĂšs bons moyens pour faire pression sur la transparence, comme lâexpliquait trĂšs pertinemment David Robinson dans son livre Voices in the Code.
Un autre levier me semble absent de nombre de propositions⊠Alors quâon ne parle que de rendre les calculs transparents, ceux-ci sont toujours absents des discussions. Or, les rĂšgles de traitements sont souvent particuliĂšrement efficaces pour amĂ©liorer les choses. Il me semble quâon peut esquisser au moins deux moyens pour rendre les calculs plus transparents et responsables : la minimisation et les interdictions.
La minimisation vise Ă rappeler quâun bon calcul ne dĂ©multiplie pas nĂ©cessairement les critĂšres pris en compte. Quand on regarde les calculs, bien souvent, on est stupĂ©fait dây trouver des critĂšres qui ne devraient pas ĂȘtre pris en compte, qui nâont pas de fondements autres que dâĂȘtre rendus possibles par le calcul. Du risque de rĂ©cidive au score de risque de fraude Ă la CAF, en passant par lâattribution de greffes ou aux systĂšmes de calculs des droits sociaux, on trouve toujours des Ă©lĂ©ments qui apprĂ©cient le calcul alors quâils nâont aucune justification ou pertinence autres que dâĂȘtre rendu possibles par le calcul ou les donnĂ©es. Câest le cas par exemple du questionnaire qui alimente le calcul de risque de rĂ©cidive aux Etats-Unis, qui repose sur beaucoup de questions problĂ©matiques. Ou de celui du risque de fraude Ă la CAF, dont les anciennes versions au moins (on ne sait pas pour la plus rĂ©cente) prenaient en compte par exemple le nombre de fois oĂč les bĂ©nĂ©ficiaires se connectaient Ă leur espace en ligne (sur cette question, suivez les travaux de la Quadrature et de Changer de Cap). La minimisation, câest aussi, comme lâexplique lâex-chercheur de chez Google, El Mahdi El Mhamdi, dans une excellente interview, limiter le nombre de paramĂštres pris en compte par les calculs et limiter lâhĂ©tĂ©rogĂ©nĂ©itĂ© des donnĂ©es.
Lâinterdiction, elle, vise Ă dĂ©terminer que certains croisements ne devraient pas ĂȘtre autorisĂ©s, par exemple, la prise en compte des primes dans les logiciels qui calculent les donnĂ©es dâagenda du personnel, comme semble le faire le logiciel Orion mis en place par la Sncf, ou Isabel, le logiciel RH que Bol.com utilise pour gĂ©rer la main-dâĆuvre Ă©trangĂšre dans ses entrepĂŽts de logistique nĂ©erlandais. Ou encore, comme le soulignait Narayan, le temps passĂ© sur les contenus sur un rĂ©seau social par exemple, ou lâanalyse de lâĂ©motion dans les systĂšmes de recrutement (et ailleurs, tant cette technologie pose problĂšme). A lâheure oĂč tous les calculs sont possibles, il va ĂȘtre pertinent de rappeler que selon les secteurs, certains croisements doivent rester interdits parce quâils sont trop Ă risque pour ĂȘtre mobilisĂ©s dans le calcul ou que certains calculs ne peuvent ĂȘtre autorisĂ©s.
Priyanjana Bengani, Jonathan Stray et Luke Thorburn, pour en revenir Ă eux, notent enfin que lâexigence de transparence reste formulĂ©e en termes trĂšs gĂ©nĂ©raux par les autoritĂ©s rĂ©glementaires. Dans des systĂšmes vastes et complexes, il est difficile de savoir ce que doit signifier rĂ©ellement la transparence. Pour ma part, je milite pour une transparence âprojectiveâ, active, qui permette de se projeter dans les explications, câest-Ă -dire de saisir ses effets et dĂ©passer le simple caractĂšre narratif dâune explication loyale, mais bien de pouvoir agir et reprendre la main sur les calculs.
CoincĂ©s dans les boucles de lâamplification
Plus rĂ©cemment, les trois mĂȘmes chercheurs, passĂ© leur article sĂ©minal, ont continuĂ© Ă documenter leur rĂ©flexion. Ainsi, dans « Rendre lâamplification mesurable », ils expliquent que lâamplification est souvent bien mal dĂ©finie (notamment juridiquement, ils ont consacrĂ© un article entier Ă la question)⊠mais proposent dâamĂ©liorer les propriĂ©tĂ©s permettant de la dĂ©finir. Ils rappellent dâabord que lâamplification est relative, elle consiste Ă introduire un changement par rapport Ă un calcul alternatif ou prĂ©cĂ©dent qui va avoir un effet sans que le comportement de lâutilisateur nâait Ă©tĂ©, lui, modifiĂ©.
Lâamplification agit dâabord sur un contenu et nĂ©cessite de rĂ©pondre Ă la question de savoir ce qui a Ă©tĂ© amplifiĂ©. Mais mĂȘme dire que les fake news sont amplifiĂ©es nâest pas si simple, Ă dĂ©faut dâavoir une dĂ©finition prĂ©cise et commune des fake news qui nĂ©cessite de comprendre les classifications opĂ©rĂ©es. Ensuite, lâamplification se mesure par rapport Ă un point de rĂ©fĂ©rence prĂ©cĂ©dent qui est rarement prĂ©cisĂ©. Enfin, quand lâamplification atteint son but, elle produit un rĂ©sultat qui se voit dans les rĂ©sultats liĂ©s Ă lâengagement (le nombre de fois oĂč le contenu a Ă©tĂ© apprĂ©ciĂ© ou partagĂ©) mais surtout ceux liĂ©s aux impressions (le nombre de fois oĂč le contenu a Ă©tĂ© vu). Enfin, il faut saisir ce qui relĂšve de lâalgorithme et du comportement de lâutilisateur. Si les messages dâun parti politique reçoivent un nombre relativement important dâimpressions, est-ce parce que lâalgorithme est biaisĂ© en faveur du parti politique en question ou parce que les gens ont tendance Ă sâengager davantage avec le contenu de ce parti ? Le problĂšme, bien sĂ»r, est de distinguer lâun de lâautre dâune maniĂšre claire, alors quâune modification de lâalgorithme entraĂźne Ă©galement une modification du comportement de lâutilisateur. En fait, cela ne signifie pas que câest impossible, mais que câest difficile, expliquent les chercheurs. Cela nĂ©cessite un systĂšme dâĂ©valuation de lâefficacitĂ© de lâalgorithme et beaucoup de tests A/B pour comparer les effets des Ă©volutions du calcul. Enfin, estiment-ils, il faut regarder les effets Ă long terme, car les changements dans le calcul prennent du temps Ă se diffuser et impliquent en retour des rĂ©actions des utilisateurs Ă ces changements, qui sâadaptent et rĂ©agissent aux transformations.
Dans un autre article, ils reviennent sur la difficultĂ© Ă caractĂ©riser lâeffet bulle de filtre des mĂ©dias sociaux, notamment du fait de conceptions Ă©lastiques du phĂ©nomĂšne. Sâil y a bien des boucles de rĂ©troaction, leur ampleur est trĂšs discutĂ©e et dĂ©pend beaucoup du contexte. Ils en appellent lĂ encore Ă des mesures plus prĂ©cises des phĂ©nomĂšnes. Certes, ce que lâon fait sur les rĂ©seaux sociaux influe sur ce qui est montrĂ©, mais il est plus difficile de dĂ©montrer que ce qui est montrĂ© affecte ce que lâon pense. Il est probable que les effets mĂ©diatiques des recommandations soient faibles pour la plupart des gens et la plupart du temps, mais beaucoup plus importants pour quelques individus ou sous-groupes relativement Ă certaines questions ou enjeux. De plus, il est probable que changer nos façons de penser ne rĂ©sulte pas dâune exposition ponctuelle, mais dâune exposition Ă des rĂ©cits et des thĂšmes rĂ©currents, cumulatifs et Ă long terme. Enfin, si les gens ont tendance Ă sâintĂ©resser davantage Ă lâinformation si elle est cohĂ©rente avec leur pensĂ©e existante, il reste Ă savoir si ce que lâon pense affecte ce Ă quoi lâon sâengage. Mais cela est plus difficile Ă mesurer car cela suppose de savoir ce que les gens pensent et pas seulement constater leurs comportements en ligne. En gĂ©nĂ©ral, les Ă©tudes montrent plutĂŽt que lâexposition sĂ©lective a peu dâeffets. Il est probable cependant que lĂ encore, lâexposition sĂ©lective soit faible en moyenne, mais plus forte pour certains sous-groupes de personnes en fonction des contextes, des types dâinformations.
Bref, là encore, les effets des réseaux sociaux sont difficiles à percer.
Pour comprendre les effets de lâamplification algorithmique, peut-ĂȘtre faut-il aller plus avant dans la comprĂ©hension que nous avons des Ă©volutions de celle-ci, afin de mieux saisir ce que nous voulons vraiment savoir. Câest ce que nous tenterons de faire dans la suite de cet articleâŠ