❌

Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraĂźchir la page.
À partir d’avant-hierFlux principal

Ouvrir le code des algorithmes ? — oui, mais
 (2/2)

22 mai 2023 Ă  05:42

Voici le deuxiĂšme volet (si vous avez ratĂ© le premier) de l’enquĂȘte approfondie d’Hubert Guillaud sur l’exploration des algorithmes, et de son analyse  des enjeux qui en dĂ©coulent.


Dans le code source de l’amplification algorithmique : que voulons-nous vraiment savoir ?

par Hubert GUILLAUD

Que voulons-nous vraiment savoir en enquĂȘtant sur l’amplification algorithmique ? C’est justement l’enjeu du projet de recherche qu’Arvind Narayan mĂšne au Knight Institute de l’universitĂ© Columbia oĂč il a ouvert un blog dĂ©diĂ© et qui vient d’accueillir une grande confĂ©rence sur le sujet. Parler d’amplification permet de s’intĂ©resser Ă  toute la gamme des rĂ©ponses qu’apportent les plateformes, allant de l’amĂ©lioration de la portĂ©e des discours Ă  leur suppression, tout en se dĂ©fiant d’une rĂ©duction binaire Ă  la seule modĂ©ration automatisĂ©e, entre ce qui doit ĂȘtre supprimĂ© et ce qui ne doit pas l’ĂȘtre. Or, les phĂ©nomĂšnes d’amplification ne sont pas sans effets de bord, qui vont bien au-delĂ  de la seule dĂ©sinformation, Ă  l’image des effets trĂšs concrets qu’ont les influenceurs sur le commerce ou le tourisme. Le gros problĂšme, pourtant, reste de pouvoir les Ă©tudier sans toujours y avoir accĂšs.

Outre des analyses sur TikTok et les IA gĂ©nĂ©ratives, le blog recĂšle quelques trĂ©sors, notamment une monumentale synthĂšse qui fait le tour du sujet en expliquant les principes de fonctionnements des algorithmes (l’article est Ă©galement trĂšs riche en liens et rĂ©fĂ©rences, la synthĂšse que j’en propose y recourra assez peu).

Narayan rappelle que les plateformes disposent de trĂšs nombreux algorithmes entremĂȘlĂ©s, mais ceux qui l’intĂ©ressent particuliĂšrement sont les algorithmes de recommandation, ceux qui gĂ©nĂšrent les flux, les contenus qui nous sont mis Ă  disposition. Alors que les algorithmes de recherche sont limitĂ©s par le terme recherchĂ©, les algorithmes de recommandation sont bien plus larges et donnent aux plateformes un contrĂŽle bien plus grand sur ce qu’elles recommandent Ă  un utilisateur.

La souscription, le rĂ©seau et l’algorithme

Pour Narayan, il y a 3 grands types de leviers de propagation : la souscription (ou abonnement), le rĂ©seau et l’algorithme. Dans le modĂšle par abonnement, le message atteint les personnes qui se sont abonnĂ©es Ă  l’auteur du message. Dans le modĂšle de rĂ©seau, il se propage en cascade Ă  travers le rĂ©seau tant que les utilisateurs qui le voient choisissent de le propager. Dans le modĂšle algorithmique, les utilisateurs ayant des intĂ©rĂȘts similaires (tels que dĂ©finis par l’algorithme sur la base de leurs engagements passĂ©s) sont reprĂ©sentĂ©s plus prĂšs les uns des autres. Plus les intĂ©rĂȘts d’un utilisateur sont similaires Ă  ceux dĂ©finis, plus il est probable que le contenu lui sera recommandĂ©.

À l’origine, les rĂ©seaux sociaux comme Facebook ou Twitter ne fonctionnaient qu’à l’abonnement : vous ne voyiez que les contenus des personnes auxquelles vous Ă©tiez abonnĂ©s et vous ne pouviez pas republier les messages des autres ! Dans le modĂšle de rĂ©seau, un utilisateur voit non seulement les messages crĂ©Ă©s par les personnes auxquelles il s’est abonnĂ©, mais aussi les messages que ces utilisateurs choisissent d’amplifier, ce qui crĂ©e la possibilitĂ© de cascades d’informations et de contenus “viraux”, comme c’était le cas de Twitter jusqu’en 2016, moment oĂč le rĂ©seau introduisit le classement algorithmique. Dans le modĂšle algorithmique, la souscription est bien souvent minorĂ©e, le rĂ©seau amplifiĂ© mais surtout, le flux dĂ©pend principalement de ce que l’algorithme estime ĂȘtre le plus susceptible d’intĂ©resser l’utilisateur. C’est ce que Cory Doctorow dĂ©signe comme « l’emmerdification  Â» de nos flux, le fait de traiter la liste des personnes auxquelles nous sommes abonnĂ©s comme des suggestions et non comme des commandes.

Le passage aux recommandations algorithmiques a toujours gĂ©nĂ©rĂ© des contestations, notamment parce que, si dans les modĂšles d’abonnement et de rĂ©seau, les crĂ©ateurs peuvent se concentrer sur la construction de leur rĂ©seau, dans le « modĂšle algorithmique, cela ne sert Ă  rien, car le nombre d’abonnĂ©s n’a rien Ă  voir avec la performance des messages  Â» (mais comme nous sommes dans des mĂ©langes entre les trois modĂšles, le nombre d’abonnĂ©s a encore un peu voire beaucoup d’influence dans l’amplification). Dans le modĂšle algorithmique, l’audience de chaque message est optimisĂ©e de maniĂšre indĂ©pendante en fonction du sujet, de la « qualitĂ© Â» du message et d’un certain nombre de paramĂštres pris en compte par le modĂšle.

Amplification et viralité

La question de l’amplification interroge la question de la viralitĂ©, c’est-Ă -dire le fait qu’un contenu soit amplifiĂ© par une cascade de reprises, et non pas seulement diffusĂ© d’un Ă©metteur Ă  son public. Le problĂšme de la viralitĂ© est que sa portĂ©e reste imprĂ©visible. Pour Narayan, sur toutes les grandes plateformes, pour la plupart des crĂ©ateurs, la majoritĂ© de l’engagement provient d’une petite fraction de contenu viral. Sur TikTok comme sur YouTube, 20 % des vidĂ©os les plus vues d’un compte obtiennent plus de 70 % des vues. Plus le rĂŽle de l’algorithme dans la propagation du contenu est important, par opposition aux abonnements ou au rĂ©seau, plus cette inĂ©galitĂ© semble importante.

Parce qu’il est particuliĂšrement repĂ©rable dans la masse des contenus, le contenu viral se prĂȘte assez bien Ă  la rĂ©tropropagation, c’est-Ă -dire Ă  son dĂ©classement ou Ă  sa suppression. Le problĂšme justement, c’est qu’il y a plein de maniĂšres de restreindre le contenu. Facebook classe les posts rĂ©trogradĂ©s plus bas dans le fil d’actualitĂ© qu’ils ne le seraient s’ils ne l’avaient pas Ă©tĂ©, afin que les utilisateurs soient moins susceptibles de le rencontrer et de le propager. À son tour, l’effet de la rĂ©trogradation sur la portĂ©e peut ĂȘtre imprĂ©visible, non linĂ©aire et parfois radical, puisque le contenu peut devenir parfaitement invisible. Cette rĂ©trogradation est parfaitement opaque, notamment parce qu’une faible portĂ©e n’est pas automatiquement suspecte, Ă©tant donnĂ© qu’il existe une grande variation dans la portĂ©e naturelle du contenu.

Amplification et prĂ©diction de l’engagement

Les plateformes ont plusieurs objectifs de haut niveau : amĂ©liorer leurs revenus publicitaires bien sĂ»r et satisfaire suffisamment les utilisateurs pour qu’ils reviennent
 Mais ces objectifs n’aident pas vraiment Ă  dĂ©cider ce qu’il faut donner Ă  un utilisateur spĂ©cifique Ă  un moment prĂ©cis ni Ă  mesurer comment ces dĂ©cisions impactent Ă  long terme la plateforme. D’oĂč le fait que les plateformes observent l’engagement, c’est-Ă -dire les actions instantanĂ©es des utilisateurs, comme le like, le commentaire ou le partage qui permettent de classer le contenu en fonction de la probabilitĂ© que l’utilisateur s’y intĂ©resse. « D’une certaine maniĂšre, l’engagement est une approximation des objectifs de haut niveau. Un utilisateur qui s’engage est plus susceptible de revenir et de gĂ©nĂ©rer des revenus publicitaires pour la plateforme.  Â»
Si l’engagement est vertueux, il a aussi de nombreuses limites qui expliquent que les algorithmes intĂšgrent bien d’autres facteurs dans leur calcul. Ainsi, Facebook et Twitter optimisent les « interactions sociales significatives Â», c’est-Ă -dire une moyenne pondĂ©rĂ©e des likes, des partages et des commentaires. YouTube, lui, optimise en fonction de la durĂ©e de visionnage que l’algorithme prĂ©dit. TikTok utilise les interactions sociales et valorise les vidĂ©os qui ont Ă©tĂ© regardĂ©es jusqu’au bout, comme un signal fort et qui explique certainement le caractĂšre addictif de l’application et le fait que les vidĂ©os courtes (qui ont donc tendance Ă  obtenir un score Ă©levĂ©) continuent de dominer la plateforme.

En plus de ces logiques de base, il existe bien d’autres logiques secondaires, comme par exemple, pour que l’expĂ©rience utilisateur ne soit pas ralentie par le calcul, que les suggestions restent limitĂ©es, sĂ©lectionnĂ©es plus que classĂ©es, selon divers critĂšres plus que selon des critĂšres uniques (par exemple en proposant des nouveaux contenus et pas seulement des contenus similaires Ă  ceux qu’on a apprĂ©ciĂ©, TikTok se distingue Ă  nouveau par l’importance qu’il accorde Ă  l’exploration de nouveaux contenus
 c’est d’ailleurs la tactique suivie dĂ©sormais par Instagram de Meta via les Reels, boostĂ©s sur le modĂšle de TikTok, qui ont le mĂȘme effet que sur TikTok, Ă  savoir une augmentation du temps passĂ© sur l’application)
 

« Bien qu’il existe de nombreuses diffĂ©rences dans les dĂ©tails, les similitudes entre les algorithmes de recommandation des diffĂ©rentes plateformes l’emportent sur leurs diffĂ©rences Â», estime Narayan. Les diffĂ©rences sont surtout spĂ©cifiques, comme Youtube qui optimise selon la durĂ©e de visionnage, ou Spotify qui s’appuie davantage sur l’analyse de contenu que sur le comportement. Pour Narayan, ces diffĂ©rences montrent qu’il n’y a pas de risque concurrentiel Ă  l’ouverture des algorithmes des plateformes, car leurs adaptations sont toujours trĂšs spĂ©cifiques. Ce qui varie, c’est la façon dont les plateformes ajustent l’engagement.

Comment apprĂ©cier la similaritĂ© ?

Mais la grande question Ă  laquelle tous tentent de rĂ©pondre est la mĂȘme : « Comment les utilisateurs similaires Ă  cet utilisateur ont-ils rĂ©agi aux messages similaires Ă  ce message ?  Â»

Si cette approche est populaire dans les traitements, c’est parce qu’elle s’est avĂ©rĂ©e efficace dans la pratique. Elle repose sur un double calcul de similaritĂ©. D’abord, celle entre utilisateurs. La similaritĂ© entre utilisateurs dĂ©pend du rĂ©seau (les gens que l’on suit ou ceux qu’on commente par exemple, que Twitter valorise fortement, mais peu TikTok), du comportement (qui est souvent plus critique, « deux utilisateurs sont similaires s’ils se sont engagĂ©s dans un ensemble de messages similaires  Â») et les donnĂ©es dĂ©mographiques (du type Ăąge, sexe, langue, gĂ©ographie
 qui sont en grande partie dĂ©duits des comportements).

Ensuite, il y a un calcul sur la similaritĂ© des messages qui repose principalement sur leur sujet et qui repose sur des algorithmes d’extraction des caractĂ©ristiques (comme la langue) intĂ©grant des Ă©valuations normatives, comme la caractĂ©risation de discours haineux. L’autre signal de similaritĂ© des messages tient, lĂ  encore, au comportement : « deux messages sont similaires si un ensemble similaire d’utilisateurs s’est engagĂ© avec eux Â». Le plus important Ă  retenir, insiste Narayan, c’est que « l’enregistrement comportemental est le carburant du moteur de recommandation  Â». La grande difficultĂ©, dans ces apprĂ©ciations algorithmiques, consiste Ă  faire que le calcul reste traitable, face Ă  des volumes d’enregistrements d’informations colossaux.

Une histoire des Ă©volutions des algorithmes de recommandation

« La premiĂšre gĂ©nĂ©ration d’algorithmes de recommandation Ă  grande Ă©chelle, comme ceux d’Amazon et de Netflix au dĂ©but des annĂ©es 2000, utilisait une technique simple appelĂ©e filtrage collaboratif : les clients qui ont achetĂ© ceci ont Ă©galement achetĂ© cela Â». Le principe Ă©tait de recommander des articles consultĂ©s ou achetĂ©s d’une maniĂšre rudimentaire, mais qui s’est rĂ©vĂ©lĂ© puissant dans le domaine du commerce Ă©lectronique. En 2006, Netflix a organisĂ© un concours en partageant les Ă©valuations qu’il disposait sur les films pour amĂ©liorer son systĂšme de recommandation. Ce concours a donnĂ© naissance Ă  la « factorisation matricielle Â», une forme de deuxiĂšme gĂ©nĂ©ration d’algorithmes de recommandation, c’est-Ă -dire capables d’identifier des combinaisons d’attributs et de prĂ©fĂ©rences croisĂ©es. Le systĂšme n’étiquette pas les films avec des termes interprĂ©tables facilement (comme “drĂŽle” ou “thriller” ou “informatif”
), mais avec un vaste ensemble d’étiquettes (de micro-genres obscurs comme « documentaires Ă©mouvants qui combattent le systĂšme Â») qu’il associe aux prĂ©fĂ©rences des utilisateurs. Le problĂšme, c’est que cette factorisation matricielle n’est pas trĂšs lisible pour l’utilisateur et se voir dire qu’on va aimer tel film sans savoir pourquoi n’est pas trĂšs satisfaisant. Enfin, ce qui marche pour un catalogue de film limitĂ© n’est pas adaptĂ© aux mĂ©dias sociaux oĂč les messages sont infinis. La prĂ©dominance de la factorisation matricielle explique pourquoi les rĂ©seaux sociaux ont tardĂ© Ă  se lancer dans la recommandation, qui est longtemps restĂ©e inadaptĂ©e Ă  leurs besoins.

Pourtant, les rĂ©seaux sociaux se sont tous convertis Ă  l’optimisation basĂ©e sur l’apprentissage automatique. En 2010, Facebook utilisait un algorithme appelĂ© EdgeRank pour construire le fil d’actualitĂ© des utilisateurs qui consistait Ă  afficher les Ă©lĂ©ments par ordre de prioritĂ© dĂ©croissant selon un score d’affinitĂ© qui reprĂ©sente la prĂ©diction de Facebook quant au degrĂ© d’intĂ©rĂȘt de l’utilisateur pour les contenus affichĂ©s, valorisant les photos plus que le texte par exemple. À l’époque, ces pondĂ©rations Ă©taient dĂ©finies manuellement plutĂŽt qu’apprises. En 2018, Facebook est passĂ© Ă  l’apprentissage automatique. La firme a introduit une mĂ©trique appelĂ©e « interactions sociales significatives  Â» (MSI pour meaningful social interactions) dans le systĂšme d’apprentissage automatique. L’objectif affichĂ© Ă©tait de diminuer la prĂ©sence des mĂ©dias et des contenus de marque au profit des contenus d’amis et de famille. « La formule calcule un score d’interaction sociale pour chaque Ă©lĂ©ment susceptible d’ĂȘtre montrĂ© Ă  un utilisateur donné  Â». Le flux est gĂ©nĂ©rĂ© en classant les messages disponibles selon leur score MSI dĂ©croissant, avec quelques ajustements, comme d’introduire de la diversitĂ© (avec peu d’indications sur la façon dont est calculĂ©e et ajoutĂ©e cette diversitĂ©). Le score MSI prĂ©dit la probabilitĂ© que l’utilisateur ait un type d’interaction spĂ©cifique (comme liker ou commenter) avec le contenu et affine le rĂ©sultat en fonction de l’affinitĂ© de l’utilisateur avec ce qui lui est proposĂ©. Il n’y a plus de pondĂ©ration dĂ©diĂ©e pour certains types de contenus, comme les photos ou les vidĂ©os. Si elles subsistent, c’est uniquement parce que le systĂšme l’aura appris Ă  partir des donnĂ©es de chaque utilisateur, et continuera Ă  vous proposer des photos si vous les apprĂ©ciez.

« Si l’on pousse cette logique jusqu’à sa conclusion naturelle, il ne devrait pas ĂȘtre nĂ©cessaire d’ajuster manuellement la formule en fonction des affinitĂ©s. Si les utilisateurs prĂ©fĂšrent voir le contenu de leurs amis plutĂŽt que celui des marques, l’algorithme devrait ĂȘtre en mesure de l’apprendre Â». Ce n’est pourtant pas ce qu’il se passe. Certainement pour lutter contre la logique de l’optimisation de l’engagement, estime Narayan, dans le but d’augmenter la satisfaction Ă  long terme, que l’algorithme ne peut pas mesurer, mais lĂ  encore sans que les modalitĂ©s de ces ajustements ne soient clairement documentĂ©s.

Est-ce que tout cela est efficace ?

Reste Ă  savoir si ces algorithmes sont efficaces ! « Il peut sembler Ă©vident qu’ils doivent bien fonctionner, Ă©tant donnĂ© qu’ils alimentent des plateformes technologiques qui valent des dizaines ou des centaines de milliards de dollars. Mais les chiffres racontent une autre histoire. Le taux d’engagement est une façon de quantifier le problĂšme : il s’agit de la probabilitĂ© qu’un utilisateur s’intĂ©resse Ă  un message qui lui a Ă©tĂ© recommandĂ©. Sur la plupart des plateformes, ce taux est infĂ©rieur Ă  1 %. TikTok est une exception, mais mĂȘme lĂ , ce taux dĂ©passe Ă  peine les 5 %. Â»

Le problĂšme n’est pas que les algorithmes soient mauvais, mais surtout que les gens ne sont pas si prĂ©visibles. Et qu’au final, les utilisateurs ne se soucient pas tant du manque de prĂ©cision de la recommandation. « MĂȘme s’ils sont imprĂ©cis au niveau individuel, ils sont prĂ©cis dans l’ensemble. Par rapport aux plateformes basĂ©es sur les rĂ©seaux, les plateformes algorithmiques semblent ĂȘtre plus efficaces pour identifier les contenus viraux (qui trouveront un Ă©cho auprĂšs d’un grand nombre de personnes). Elles sont Ă©galement capables d’identifier des contenus de niche et de les faire correspondre au sous-ensemble d’utilisateurs susceptibles d’y ĂȘtre rĂ©ceptifs. Â» Si les algorithmes sont largement limitĂ©s Ă  la recherche de modĂšles dans les donnĂ©es comportementales, ils n’ont aucun sens commun. Quant au taux de clic publicitaire, il reste encore plus infinitĂ©simal – mĂȘme s’il est toujours considĂ©rĂ© comme un succĂšs !

Les ingĂ©nieurs contrĂŽlent-ils encore les algorithmes ?

Les ingĂ©nieurs ont trĂšs peu d’espace pour contrĂŽler les effets des algorithmes de recommandation, estime Narayan, en prenant un exemple. En 2019, Facebook s’est rendu compte que les publications virales Ă©taient beaucoup plus susceptibles de contenir des informations erronĂ©es ou d’autres types de contenus prĂ©judiciables. En d’autres termes, ils se sont rendu compte que le passage Ă  des interactions sociales significatives (MSI) a eu des effets de bords : les contenus qui suscitaient l’indignation et alimentaient les divisions gagnaient en portĂ©e, comme l’a expliquĂ© l’ingĂ©nieure et lanceuse d’alerte Frances Haugen Ă  l’origine des Facebook Files, dans ses tĂ©moignages. C’est ce que synthĂ©tise le tableau de pondĂ©ration de la formule MSI publiĂ© par le Wall Street Journal, qui montrent que certains Ă©lĂ©ments ont des poids plus forts que d’autres : un commentaire vaut 15 fois plus qu’un like, mais un commentaire signifiant ou un repartage 30 fois plus, chez Facebook. Une pondĂ©ration aussi Ă©levĂ©e permet d’identifier les messages au potentiel viral et de les stimuler davantage. En 2020, Facebook a ramenĂ© la pondĂ©ration des partages Ă  1,5, mais la pondĂ©ration des commentaires est restĂ©e trĂšs Ă©levĂ©e (15 Ă  20 fois plus qu’un like). Alors que les partages et les commentaires Ă©taient regroupĂ©s dans une seule catĂ©gorie de pondĂ©ration en 2018, ils ne le sont plus. Cette prime au commentaire demeure une prime aux contenus polĂ©miques. Reste, on le comprend, que le jeu qui reste aux ingĂ©nieurs de Facebook consiste Ă  ajuster le poids des paramĂštres. Pour Narayan : piloter un systĂšme d’une telle complexitĂ© en utilisant si peu de boutons ne peut qu’ĂȘtre difficile.

Le chercheur rappelle que le systĂšme est censĂ© ĂȘtre neutre Ă  l’égard de tous les contenus, Ă  l’exception de certains qui enfreignent les rĂšgles de la plateforme. Utilisateurs et messages sont alors rĂ©trogradĂ©s de maniĂšre algorithmique suite Ă  signalement automatique ou non. Mais cette neutralitĂ© est en fait trĂšs difficile Ă  atteindre. Les rĂ©seaux sociaux favorisent ceux qui ont dĂ©jĂ  une grande portĂ©e, qu’elle soit mĂ©ritĂ©e ou non, et sont rĂ©compensĂ©s par une plus grande portĂ©e encore. Par exemple, les 1 % d’auteurs les plus importants sur Twitter reçoivent 80 % des vues des tweets. Au final, cette conception de la neutralitĂ© finit par rĂ©compenser ceux qui sont capables de pirater l’engagement ou de tirer profit des biais sociaux.

Outre cette neutralitĂ©, un deuxiĂšme grand principe directeur est que « l’algorithme sait mieux que quiconque Â». « Ce principe et celui de la neutralitĂ© se renforcent mutuellement. Le fait de confier la politique (concernant le contenu Ă  amplifier) aux donnĂ©es signifie que les ingĂ©nieurs n’ont pas besoin d’avoir un point de vue Ă  ce sujet. Et cette neutralitĂ© fournit Ă  l’algorithme des donnĂ©es plus propres Ă  partir desquelles il peut apprendre. Â»
Le principe de l’algorithme qui sait le mieux signifie que la mĂȘme optimisation est appliquĂ©e Ă  tous les types de discours : divertissement, informations Ă©ducatives, informations sur la santĂ©, actualitĂ©s, discours politique, discours commercial, etc. En 2021, FB a fait une tentative de rĂ©trograder tout le contenu politique, ce qui a eu pour effet de supprimer plus de sources d’information de haute qualitĂ© que de faible qualitĂ©, augmentant la dĂ©sinformation. Cette neutralitĂ© affichĂ©e permet Ă©galement une forme de dĂ©sengagement des ingĂ©nieurs.

En 2021, encore, FB a entraĂźnĂ© des modĂšles d’apprentissage automatique pour classer les messages en deux catĂ©gories : bons ou mauvais pour le monde, en interrogeant les utilisateurs pour qu’ils apprĂ©cient des contenus qui leurs Ă©taient proposĂ©s pour former les donnĂ©es. FB a constatĂ© que les messages ayant une plus grande portĂ©e Ă©taient considĂ©rĂ©s comme Ă©tant mauvais pour le monde. FB a donc rĂ©trogradĂ© ces contenus
 mais en trouvant moins de contenus polĂ©mique, cette modification a entraĂźnĂ© une diminution de l’ouverture de l’application par les utilisateurs. L’entreprise a donc redĂ©ployĂ© ce modĂšle en lui donnant bien moins de poids. Les corrections viennent directement en conflit avec le modĂšle d’affaires.

Illustration par Jason Alderman « Those Algorithms That Govern Our Lives – Kevin Slavin« . (CC BY 2.0)

Pourquoi l’optimisation de l’engagement nous nuit-elle ?

« Un grand nombre des pathologies familiĂšres des mĂ©dias sociaux sont, Ă  mon avis, des consĂ©quences relativement directes de l’optimisation de l’engagement Â», suggĂšre encore le chercheur. Cela explique pourquoi les rĂ©formes sont difficiles et pourquoi l’amĂ©lioration de la transparence des algorithmes, de la modĂ©ration, voire un meilleur contrĂŽle par l’utilisateur de ce qu’il voit (comme le proposait Gobo mis en place par Ethan Zuckerman), ne sont pas des solutions magiques (mĂȘme si elles sont nĂ©cessaires).

Les donnĂ©es comportementales, celles relatives Ă  l’engagement passĂ©, sont la matiĂšre premiĂšre essentielle des moteurs de recommandations. Les systĂšmes privilĂ©gient la rĂ©troaction implicite sur l’explicite, Ă  la maniĂšre de YouTube qui a privilĂ©giĂ© le temps passĂ© sur les rĂ©troactions explicites (les likes). Sur TikTok, il n’y a mĂȘme plus de sĂ©lection, il suffit de swipper.

Le problĂšme du feedback implicite est qu’il repose sur nos rĂ©actions inconscientes, automatiques et Ă©motionnelles, sur nos pulsions, qui vont avoir tendance Ă  privilĂ©gier une vidĂ©o dĂ©bile sur un contenu expert.

Pour les crĂ©ateurs de contenu, cette optimisation par l’engagement favorise la variance et l’imprĂ©visibilitĂ©, ce qui a pour consĂ©quence d’alimenter une surproduction pour compenser cette variabilitĂ©. La production d’un grand volume de contenu, mĂȘme s’il est de moindre qualitĂ©, peut augmenter les chances qu’au moins quelques-uns deviennent viraux chaque mois afin de lisser le flux de revenus. Le fait de rĂ©compenser les contenus viraux se fait au dĂ©triment de tous les autres types de contenus (d’oĂč certainement le regain d’attraits pour des plateformes non algorithmiques, comme Substack voire dans une autre mesure, Mastodon).

Au niveau de la sociĂ©tĂ©, toutes les institutions sont impactĂ©es par les plateformes algorithmiques, du tourisme Ă  la science, du journalisme Ă  la santĂ© publique. Or, chaque institution Ă  des valeurs, comme l’équitĂ© dans le journalisme, la prĂ©cision en science, la qualitĂ© dans nombre de domaines. Les algorithmes des mĂ©dias sociaux, eux, ne tiennent pas compte de ces valeurs et de ces signaux de qualitĂ©. « Ils rĂ©compensent des facteurs sans rapport, sur la base d’une logique qui a du sens pour le divertissement, mais pas pour d’autres domaines Â». Pour Narayan, les plateformes de mĂ©dias sociaux « affaiblissent les institutions en sapant leurs normes de qualitĂ© et en les rendant moins dignes de confiance Â». C’est particuliĂšrement actif dans le domaine de l’information, mais cela va bien au-delĂ , mĂȘme si ce n’est pas au mĂȘme degrĂ©. TikTok peut sembler ne pas reprĂ©senter une menace pour la science, mais nous savons que les plateformes commencent par ĂȘtre un divertissement avant de s’étendre Ă  d’autres sphĂšres du discours, Ă  l’image d’Instagram devenant un outil de communication politique ou de Twitter, oĂč un tiers des tweets sont politiques.

La science des données en ses limites

Les plateformes sont bien conscientes de leurs limites, pourtant, elles n’ont pas fait beaucoup d’efforts pour rĂ©soudre les problĂšmes. Ces efforts restent occasionnels et rudimentaires, Ă  l’image de la tentative de Facebook de comprendre la valeur des messages diffusĂ©s. La raison est bien sĂ»r que ces amĂ©nagements nuisent aux rĂ©sultats financiers de l’entreprise. « Le recours Ă  la prise de dĂ©cision subconsciente et automatique est tout Ă  fait intentionnelle ; c’est ce qu’on appelle la « conception sans friction Â». Le fait que les utilisateurs puissent parfois faire preuve de discernement et rĂ©sister Ă  leurs impulsions est vu comme un problĂšme Ă  rĂ©soudre. Â»

Pourtant, ces derniĂšres annĂ©es, la rĂ©putation des plateformes n’est plus au beau fixe. Narayan estime qu’il y a une autre limite. « La plupart des inconvĂ©nients de l’optimisation de l’engagement ne sont pas visibles dans le cadre dominant de la conception des plateformes, qui accorde une importance considĂ©rable Ă  la recherche d’une relation quantitative et causale entre les changements apportĂ©s Ă  l’algorithme et leurs effets. Â»
Si on observe les raisons qui poussent l’utilisateur Ă  quitter une plateforme, la principale est qu’il ne parvient pas Ă  obtenir des recommandations suffisamment intĂ©ressantes. Or, c’est exactement ce que l’optimisation par l’engagement est censĂ©e Ă©viter. Les entreprises parviennent trĂšs bien Ă  optimiser des recommandations qui plaisent Ă  l’utilisateur sur l’instant, mais pas celles qui lui font dire, une fois qu’il a fermĂ© l’application, que ce qu’il y a trouvĂ© l’a enrichi. Elles n’arrivent pas Ă  calculer et Ă  intĂ©grer le bĂ©nĂ©fice Ă  long terme, mĂȘme si elles restent trĂšs attentives aux taux de rĂ©tention ou aux taux de dĂ©sabonnement. Pour y parvenir, il faudrait faire de l’A/B testing au long cours. Les plateformes savent le faire. Facebook a constatĂ© que le fait d’afficher plus de notifications augmentait l’engagement Ă  court terme mais avait un effet inverse sur un an. Reste que ce regard sur leurs effets Ă  longs termes ne semble pas ĂȘtre une prioritĂ© par rapport Ă  leurs effets de plus courts termes.

Une autre limite repose sur l’individualisme des plateformes. Si les applications sociales sont, globalement, assez satisfaisantes pour chacun, ni les utilisateurs ni les plateformes n’intĂ©riorisent leurs prĂ©judices collectifs. Ces systĂšmes reposent sur l’hypothĂšse que le comportement de chaque utilisateur est indĂ©pendant et que l’effet sur la sociĂ©tĂ© (l’atteinte Ă  la dĂ©mocratie par exemple
) est trĂšs difficile Ă  Ă©valuer. Narayan le rĂ©sume dans un tableau parlant, oĂč la valeur sur la sociĂ©tĂ© n’a pas de mĂ©trique associĂ©e.

Graphique montrant les 4 niveaux sur lesquels les algorithmes des plateformes peuvent avoir des effets. CTR : Click Through Rate (taux de clic). MSI : Meaningful Social Interactions, interactions sociales significatives, la métrique d'engagement de Facebook. DAU : Daily active users, utilisateurs actifs quotidiens.

Tableau montrant les 4 niveaux sur lesquels les algorithmes des plateformes peuvent avoir des effets. CTR : Click Through Rate (taux de clic). MSI : Meaningful Social Interactions, interactions sociales significatives, la mĂ©trique d’engagement de Facebook. DAU : Daily active users, utilisateurs actifs quotidiens.

Les algorithmes ne sont pas l’ennemi (enfin si, quand mĂȘme un peu)

Pour rĂ©pondre Ă  ces problĂšmes, beaucoup suggĂšrent de revenir Ă  des flux plus chronologiques ou a des suivis plus stricts des personnes auxquelles nous sommes abonnĂ©s. Pas sĂ»r que cela soit une solution trĂšs efficace pour gĂ©rer les volumes de flux, estime le chercheur. Les algorithmes de recommandation ont Ă©tĂ© la rĂ©ponse Ă  la surcharge d’information, rappelle-t-il : « Il y a beaucoup plus d’informations en ligne en rapport avec les intĂ©rĂȘts d’une personne qu’elle n’en a de temps disponible. Â» Les algorithmes de classement sont devenus une nĂ©cessitĂ© pratique. MĂȘme dans le cas d’un rĂ©seau longtemps basĂ© sur l’abonnement, comme Instagram : en 2016, la sociĂ©tĂ© indiquait que les utilisateurs manquaient 70 % des publications auxquelles ils Ă©taient abonnĂ©s. Aujourd’hui, Instagram compte 5 fois plus d’utilisateurs. En fait, les plateformes subissent d’énormes pressions pour que les algorithmes soient encore plus au cƓur de leur fonctionnement que le contraire. Et les systĂšmes de recommandation font leur entrĂ©e dans d’autres domaines, comme l’éducation (avec Coursera) ou la finance (avec Robinhood).

Pour Narayan, l’enjeu reste de mieux comprendre ce qu’ils font. Pour cela, nous devons continuer d’exiger d’eux bien plus de transparence qu’ils n’en livrent. Pas plus que dans le monde des moteurs de recherche nous ne reviendrons aux annuaires, nous ne reviendrons pas aux flux chronologiques dans les moteurs de recommandation. Nous avons encore des efforts Ă  faire pour contrecarrer activement les modĂšles les plus nuisibles des recommandations. L’enjeu, conclut-il, est peut-ĂȘtre d’esquisser plus d’alternatives que nous n’en disposons, comme par exemple, d’imaginer des algorithmes de recommandations qui n’optimisent pas l’engagement, ou pas seulement. Cela nĂ©cessite certainement aussi d’imaginer des rĂ©seaux sociaux avec des modĂšles Ă©conomiques diffĂ©rents. Un autre internet. Les algorithmes ne sont peut-ĂȘtre pas l’ennemi comme il le dit, mais ceux qui ne sont ni transparents, ni loyaux, et qui optimisent leurs effets en dehors de toute autre considĂ©ration, ne sont pas nos amis non plus !

Ouvrir le code des algorithmes ? — Oui, mais
 (1/2)

15 mai 2023 Ă  05:42

Voici le premier des deux articles qu’Hubert Guillaud nous fait le plaisir de partager. Sans s’arrĂȘter Ă  la surface de l’actualitĂ©, il aborde la transparence du code des algorithmes, qui entraĂźne un grand nombre de questions Ă©pineuses sur lesquelles il s’est documentĂ© pour nous faire part de ses rĂ©flexions.


Dans le code source de l’amplification algorithmique : publier le code ne suffit pas !

par Hubert GUILLAUD

Le 31 mars, Twitter a publiĂ© une partie du code source qui alimente son fil d’actualitĂ©, comme l’a expliquĂ© l’équipe elle-mĂȘme dans un billet. Ces dizaines de milliers de lignes de code contiennent pourtant peu d’informations nouvelles. Depuis le rachat de l’oiseau bleu par Musk, Twitter a beaucoup changĂ© et ne cesse de se modifier sous les yeux des utilisateurs. La publication du code source d’un systĂšme, mĂȘme partiel, qui a longtemps Ă©tĂ© l’un des grands enjeux de la transparence, montre ses limites.

un jeune homme montre une ligne d'une explication de l'encodage des algorithmes au rétroprojecteur

« LZW encoding and decoding algorithms overlapped Â» par nayukim, licence CC BY 2.0.

Publier le code ne suffit pas

Dans un excellent billet de blog, le chercheur Arvind Narayan (sa newsletter mĂ©rite Ă©galement de s’y abonner) explique ce qu’il faut en retenir. Comme ailleurs, les rĂšgles ne sont pas claires. Les algorithmes de recommandation utilisent l’apprentissage automatique ce qui fait que la maniĂšre de classer les tweets n’est pas directement spĂ©cifiĂ©e dans le code, mais apprise par des modĂšles Ă  partir de donnĂ©es de Twitter sur la maniĂšre dont les utilisateurs ont rĂ©agi aux tweets dans le passĂ©. Twitter ne divulgue ni ces modĂšles ni les donnĂ©es d’apprentissages, ce qui signifie qu’il n’est pas possible d’exĂ©cuter ces modĂšles. Le code ne permet pas de comprendre pourquoi un tweet est ou n’est pas recommandĂ© Ă  un utilisateur, ni pourquoi certains contenus sont amplifiĂ©s ou invisibilisĂ©s. C’est toute la limite de la transparence. Ce que rĂ©sume trĂšs bien le journaliste Nicolas Kayser-Bril pour AlgorithmWatch (pertinemment traduit par le framablog) : « Vous ne pouvez pas auditer un code seulement en le lisant. Il faut l’exĂ©cuter sur un ordinateur. Â»

« Ce que Twitter a publiĂ©, c’est le code utilisĂ© pour entraĂźner les modĂšles, Ă  partir de donnĂ©es appropriĂ©es Â», explique Narayan, ce qui ne permet pas de comprendre les propagations, notamment du fait de l’absence des donnĂ©es. De plus, les modĂšles pour dĂ©tecter les tweets qui violent les politiques de Twitter et qui leur donnent des notes de confiance en fonction de ces politiques sont Ă©galement absentes (afin que les usagers ne puissent pas dĂ©jouer le systĂšme, comme nous le rĂ©pĂštent trop de systĂšmes rĂ©tifs Ă  l’ouverture). Or, ces classements ont des effets de rĂ©trogradation trĂšs importants sur la visibilitĂ© de ces tweets, sans qu’on puisse savoir quels tweets sont ainsi classĂ©s, selon quelles mĂ©thodes et surtout avec quelles limites.

La chose la plus importante que Twitter a rĂ©vĂ©lĂ©e en publiant son code, c’est la formule qui spĂ©cifie comment les diffĂ©rents types d’engagement (likes, retweets, rĂ©ponses, etc.) sont pondĂ©rĂ©s les uns par rapport aux autres
 Mais cette formule n’est pas vraiment dans le code. Elle est publiĂ©e sĂ©parĂ©ment, notamment parce qu’elle n’est pas statique, mais qu’elle doit ĂȘtre modifiĂ©e frĂ©quemment.

Sans surprise, le code rĂ©vĂšle ainsi que les abonnĂ©s Ă  Twitter Blue, ceux qui payent leur abonnement, bĂ©nĂ©ficient d’une augmentation de leur portĂ©e (ce qui n’est pas sans poser un problĂšme de fond, comme le remarque pertinemment sur Twitter, Guillaume Champeau, car cette prĂ©fĂ©rence pourrait mettre ces utilisateurs dans la position d’ĂȘtre annonceurs, puisqu’ils payent pour ĂȘtre mis en avant, sans que l’interface ne le signale clairement, autrement que par la pastille bleue). Reste que le code n’est pas clair sur l’ampleur de cette accĂ©lĂ©ration. Les notes attribuĂ©es aux tweets des abonnĂ©s Blue sont multipliĂ©es par 2 ou 4, mais cela ne signifie pas que leur portĂ©e est pareillement multipliĂ©e. « Une fois encore, le code ne nous dit pas le genre de choses que nous voudrions savoir Â», explique Narayan.

Reste que la publication de la formule d’engagement est un Ă©vĂ©nement majeur. Elle permet de saisir le poids des rĂ©actions sur un tweet. On constate que la rĂ©ponse Ă  tweet est bien plus forte que le like ou que le RT. Et la re-rĂ©ponse de l’utilisateur originel est prĂ©dominante, puisque c’est le signe d’une conversation forte. À l’inverse, le fait qu’un lecteur bloque, mute ou se dĂ©sabonne d’un utilisateur suite Ă  un tweet est un facteur extrĂȘmement pĂ©nalisant pour la propagation du tweet.

Tableau du poids attribuĂ© en fonction des types d’engagement possibles sur Twitter.

Ces quelques indications permettent nĂ©anmoins d’apprendre certaines choses. Par exemple que Twitter ne semble pas utiliser de prĂ©dictions d’actions implicites (comme lorsqu’on s’arrĂȘte de faire dĂ©filer son fil), ce qui permet d’éviter l’amplification du contenu trash que les gens ne peuvent s’empĂȘcher de regarder, mĂȘme s’ils ne s’y engagent pas. La formule nous apprend que les retours nĂ©gatifs ont un poids trĂšs Ă©levĂ©, ce qui permet d’amĂ©liorer son flux en montrant Ă  l’algorithme ce dont vous ne voulez pas – mĂȘme si les plateformes devraient permettre des contrĂŽles plus explicites pour les utilisateurs. Enfin, ces poids ont des valeurs souvent prĂ©cises, ce qui signifie que ce tableau n’est valable qu’à l’instant de la publication et qu’il ne sera utile que si Twitter le met Ă  jour.

Les algorithmes de recommandation qui optimisent l’engagement suivent des modĂšles assez proches. La publication du code n’est donc pas trĂšs rĂ©vĂ©latrice. Trois Ă©lĂ©ments sont surtout importants, insiste le chercheur :

« Le premier est la maniĂšre dont les algorithmes sont configurĂ©s : les signaux utilisĂ©s comme entrĂ©e, la maniĂšre dont l’engagement est dĂ©fini, etc. Ces informations doivent ĂȘtre considĂ©rĂ©es comme un Ă©lĂ©ment essentiel de la transparence et peuvent ĂȘtre publiĂ©es indĂ©pendamment du code. La seconde concerne les modĂšles d’apprentissage automatique qui, malheureusement, ne peuvent gĂ©nĂ©ralement pas ĂȘtre divulguĂ©s pour des raisons de protection de la vie privĂ©e. Le troisiĂšme est la boucle de rĂ©troaction entre les utilisateurs et l’algorithme Â».

Autant d’élĂ©ments qui demandent des recherches, des expĂ©riences et du temps pour en comprendre les limites.

Si la transparence n’est pas une fin en soi, elle reste un moyen de construire un meilleur internet en amĂ©liorant la responsabilitĂ© envers les utilisateurs, rappelle l’ingĂ©nieur Gabriel Nicholas pour le Center for Democracy & Technology. Il souligne nĂ©anmoins que la publication d’une partie du code source de Twitter ne contrebalance pas la fermeture du Consortium de recherche sur la modĂ©ration, ni celle des rapports de transparence relatives aux demandes de retraits des autoritĂ©s ni celle de l’accĂšs Ă  son API pour chercheurs, devenue extrĂȘmement coĂ»teuse.

« Twitter n’a pas exactement ’ouvert son algorithme’ comme certains l’ont dit. Le code est lourdement expurgĂ© et il manque plusieurs fichiers de configuration, ce qui signifie qu’il est pratiquement impossible pour un chercheur indĂ©pendant d’exĂ©cuter l’algorithme sur des Ă©chantillons ou de le tester d’une autre maniĂšre. Le code publiĂ© n’est en outre qu’un instantanĂ© du systĂšme de recommandation de Twitter et n’est pas rĂ©ellement connectĂ© au code en cours d’exĂ©cution sur ses serveurs. Cela signifie que Twitter peut apporter des modifications Ă  son code de production et ne pas l’inclure dans son rĂ©fĂ©rentiel public, ou apporter des modifications au rĂ©fĂ©rentiel public qui ne sont pas reflĂ©tĂ©es dans son code de production. Â»

L’algorithme publiĂ© par Twitter est principalement son systĂšme de recommandation. Il se dĂ©compose en 3 parties, explique encore Nicholas :

  • Un systĂšme de gĂ©nĂ©ration de contenus candidats. Ici, Twitter sĂ©lectionne 1500 tweets susceptibles d’intĂ©resser un utilisateur en prĂ©disant la probabilitĂ© que l’utilisateur s’engage dans certaines actions pour chaque tweet (c’est-Ă -dire qu’il RT ou like par exemple).
  • Un systĂšme de classement. Une fois que les 1 500 tweets susceptibles d’ĂȘtre servis sont sĂ©lectionnĂ©s, ils sont notĂ©s en fonction de la probabilitĂ© des actions d’engagement, certaines actions Ă©tant pondĂ©rĂ©es plus fortement que d’autres. Les tweets les mieux notĂ©s apparaĂźtront gĂ©nĂ©ralement plus haut dans le fil d’actualitĂ© de l’utilisateur.
  • Un systĂšme de filtrage. Les tweets ne sont pas classĂ©s strictement en fonction de leur score. Des heuristiques et des filtres sont appliquĂ©s pour, par exemple, Ă©viter d’afficher plusieurs tweets du mĂȘme auteur ou pour dĂ©classer les tweets d’auteurs que l’utilisateur a dĂ©jĂ  signalĂ©s pour violation de la politique du site.

Le score final est calculĂ© en additionnant la probabilitĂ© de chaque action multipliĂ©e par son poids (en prenant certainement en compte la raretĂ© ou la frĂ©quence d’action, le fait de rĂ©pondre Ă  un tweet Ă©tant moins frĂ©quent que de lui attribuer un like). Mais Twitter n’a pas publiĂ© la probabilitĂ© de base de chacune de ces actions ce qui rend impossible de dĂ©terminer l’importance de chacune d’elles dans les recommandations qui lui sont servies.

Twitter a Ă©galement rĂ©vĂ©lĂ© quelques informations sur les autres facteurs qu’il prend en compte en plus du classement total d’un tweet. Par exemple, en Ă©quilibrant les recommandations des personnes que vous suivez avec celles que vous ne suivez pas, en Ă©vitant de recommander les tweets d’un mĂȘme auteur ou en donnant une forte prime aux utilisateurs payants de Twitter Blue.

Il y a aussi beaucoup de code que Twitter n’a pas partagĂ©. Il n’a pas divulguĂ© beaucoup d’informations sur l’algorithme de gĂ©nĂ©ration des tweets candidats au classement ni sur ses paramĂštres et ses donnĂ©es d’entraĂźnement. Twitter n’a pas non plus explicitement partagĂ© ses algorithmes de confiance et de sĂ©curitĂ© pour dĂ©tecter des Ă©lĂ©ments tels que les abus, la toxicitĂ© ou les contenus pour adultes, afin d’empĂȘcher les gens de trouver des solutions de contournement, bien qu’il ait publiĂ© certaines des catĂ©gories de contenu qu’il signale.

 

graphe des relations entre comptes twitter, tr-s nombreux traits bleus entre minuscules avatars de comptes, le tout donne une impression d'inextricable comlexité

« 20120212-NodeXL-Twitter-socbiz network graph Â» par Marc_Smith ; licence CC BY 2.0.

 

Pour Gabriel Nicholas, la transparence de Twitter serait plus utile si Twitter avait maintenu ouverts ses outils aux chercheurs. Ce n’est pas le cas.

Il y a plein d’autres points que l’ouverture de l’algorithme de Twitter a documentĂ©s. Par exemple, l’existence d’un Tweepcred, un score qui classe les utilisateurs et qui permet de voir ses publications boostĂ©es si votre score est bon, comme l’expliquait Numerama. Ou encore le fait que chaque compte est clustĂ©risĂ© dans un groupe aux profils similaires dans lequel les tweets sont d’abord diffusĂ©s avant d’ĂȘtre envoyĂ©s plus largement s’ils rencontrent un premier succĂšs
 De mĂȘme, il semblerait qu’il y ait certaines catĂ©gories d’utilisateurs spĂ©ciaux (dont une catĂ©gorie relative Ă  Elon Musk) mais qui servent peut-ĂȘtre plus certaines statistiques qu’à doper la portĂ©e de certains comptes comme on l’a entendu (mĂȘme s’il semble bien y avoir une catĂ©gorie VIP sur Twitter â€“ comme il y a sur Facebook un statut d’exception Ă  la modĂ©ration)


Ouvrir, mais ouvrir quoi ?

En conclusion de son article, Narayan pointe vers un trĂšs intĂ©ressant article qui dresse une liste d’options de transparence pour ceux qui produisent des systĂšmes de recommandation, publiĂ©e par les chercheurs Priyanjana Bengani, Jonathan Stray et Luke Thorburn. Ils rappellent que les plateformes ont mis en place des mesures de transparence, allant de publications statistiques Ă  des interfaces de programmation, en passant par des outils et des ensembles de donnĂ©es protĂ©gĂ©s. Mais ces mesures, trĂšs techniques, restent insuffisantes pour comprendre les algorithmes de recommandation et leur influence sur la sociĂ©tĂ©. Une grande partie de cette rĂ©sistance Ă  la transparence ne tient pas tant aux risques commerciaux qui pourraient ĂȘtre rĂ©vĂ©lĂ©s qu’à Ă©viter l’embarras d’avoir Ă  se justifier de choix qui ne le sont pas toujours. D’une maniĂšre trĂšs pragmatique, les trois chercheurs proposent un menu d’actions pour amĂ©liorer la transparence et l’explicabilitĂ© des systĂšmes.

Documenter
L’un des premiers outils, et le plus simple, reste la documentation qui consiste Ă  expliquer en termes clairs – selon diffĂ©rentes Ă©chelles et niveaux, me semble-t-il â€“ ce qui est activĂ© par une fonction. Pour les utilisateurs, c’est le cas du bouton « Pourquoi je vois ce message Â» de Facebook ou du panneau « FrĂ©quemment achetĂ©s ensemble Â» d’Amazon. L’idĂ©e ici est de fourbir un « compte rendu honnĂȘte Â». Pour les plus Ă©voluĂ©es de ces interfaces, elles devraient permettre non seulement d’informer et d’expliquer pourquoi on nous recommande ce contenu, mais Ă©galement, permettre de rectifier et mieux contrĂŽler son expĂ©rience en ligne, c’est-Ă -dire d’avoir des leviers d’actions sur la recommandation.

Une autre forme de documentation est celle sur le fonctionnement gĂ©nĂ©ral du systĂšme et ses dĂ©cisions de classement, Ă  l’image des rapports de transparence sur les questions de sĂ©curitĂ© et d’intĂ©gritĂ© que doivent produire la plupart des plateformes (voir celui de Google, par exemple). Cette documentation devrait intĂ©grer des informations sur la conception des algorithmes, ce que les plateformes priorisent, minimisent et retirent, si elles donnent des prioritĂ©s et Ă  qui, tenir le journal des modifications, des nouvelles fonctionnalitĂ©s, des changements de politiques. La documentation doit apporter une information solide et loyale, mais elle reste souvent insuffisante.

Les données
Pour comprendre ce qu’il se passe sur une plateforme, il est nĂ©cessaire d’obtenir des donnĂ©es. Twitter ou Facebook en ont publiĂ© (accessibles sous condition de recherche, ici pour Twitter, lĂ  pour Facebook). Une autre approche consiste Ă  ouvrir des interfaces de programmation, Ă  l’image de CrowdTangle de Facebook ou de l’API de Twitter. Depuis le scandale Cambridge Analytica, l’accĂšs aux donnĂ©es est souvent devenu plus difficile, la protection de la vie privĂ©e servant parfois d’excuse aux plateformes pour Ă©viter d’avoir Ă  divulguer leurs pratiques. L’accĂšs aux donnĂ©es, mĂȘme pour la recherche, s’est beaucoup refermĂ© ces derniĂšres annĂ©es. Les plateformes publient moins de donnĂ©es et CrowdTangle propose des accĂšs toujours plus sĂ©lectifs. Chercheurs et journalistes ont Ă©tĂ© contraints de dĂ©velopper leurs propres outils, comme des extensions de navigateurs permettant aux utilisateurs de faire don de leurs donnĂ©es (Ă  l’image du Citizen Browser de The Markup) ou des simulations automatisĂ©es (Ă  l’image de l’analyse robotique de TikTok produite par le Wall Street Journal), que les plateformes ont plutĂŽt eu tendance Ă  bloquer en dĂ©niant les rĂ©sultats obtenus sous prĂ©texte d’incomplĂ©tude – ce qui est justement le problĂšme que l’ouverture de donnĂ©es cherche Ă  adresser.

Le code
L’ouverture du code des systĂšmes de recommandation pourrait ĂȘtre utile, mais elle ne suffit pas, d’abord parce que dans les systĂšmes de recommandation, il n’y a pas un algorithme unique. Nous sommes face Ă  des ensembles complexes et enchevĂȘtrĂ©s oĂč « diffĂ©rents modĂšles d’apprentissage automatique formĂ©s sur diffĂ©rents ensembles de donnĂ©es remplissent diverses fonctions Â». MĂȘme le classement ou le modĂšle de valeur pour dĂ©terminer le score n’explique pas tout. Ainsi, « le poids Ă©levĂ© sur un contenu d’un type particulier ne signifie pas nĂ©cessairement qu’un utilisateur le verra beaucoup, car l’exposition dĂ©pend de nombreux autres facteurs, notamment la quantitĂ© de ce type de contenu produite par d’autres utilisateurs. Â»

Peu de plateformes offrent une grande transparence au niveau du code source. Reddit a publiĂ© en 2008 son code source, mais a cessĂ© de le mettre Ă  jour. En l’absence de mesures de transparence, comprendre les systĂšmes nĂ©cessite d’écluser le travail des journalistes, des militants et des chercheurs pour tenter d’en obtenir un aperçu toujours incomplet.

La recherche
Les plateformes mĂšnent en permanence une multitude de projets de recherche internes voire externes et testent diffĂ©rentes approches pour leurs systĂšmes de recommandation. Certains des rĂ©sultats finissent par ĂȘtre accessibles dans des revues ou des articles soumis Ă  des confĂ©rences ou via des fuites d’informations. Quelques efforts de partenariats entre la recherche et les plateformes ont Ă©tĂ© faits, qui restent embryonnaires et ne visent pas la transparence, mais qui offrent la possibilitĂ© Ă  des chercheurs de mener des expĂ©riences et donc permettent de rĂ©pondre Ă  des questions de nature causale, qui ne peuvent pas ĂȘtre rĂ©solues uniquement par l’accĂšs aux donnĂ©es.

Enfin, les audits peuvent ĂȘtre considĂ©rĂ©s comme un type particulier de recherche. À l’heure actuelle, il n’existe pas de bons exemples d’audits de systĂšmes de recommandation menĂ©s Ă  bien. Reste que le Digital Service Act (DSA) europĂ©en autorise les audits externes, qu’ils soient lancĂ©s par l’entreprise ou dans le cadre d’une surveillance rĂ©glementaire, avec des accĂšs Ă©largis par rapport Ă  ceux autorisĂ©s pour l’instant. Le DSA exige des Ă©valuations sur le public mineur, sur la sĂ©curitĂ©, la santĂ©, les processus Ă©lectoraux
 mais ne prĂ©cise ni comment ces audits doivent ĂȘtre rĂ©alisĂ©s ni selon quelles normes. Des mĂ©thodes spĂ©cifiques ont Ă©tĂ© avancĂ©es pour contrĂŽler la discrimination, la polarisation et l’amplification dans les systĂšmes de recommandation.

En principe, on pourrait Ă©valuer n’importe quel prĂ©judice par des audits. Ceux-ci visent Ă  vĂ©rifier si « la conception et le fonctionnement d’un systĂšme de recommandation respectent les meilleures pratiques et si l’entreprise fait ce qu’elle dit qu’elle fait. S’ils sont bien rĂ©alisĂ©s, les audits pourraient offrir la plupart des avantages d’un code source ouvert et d’un accĂšs aux donnĂ©es des utilisateurs, sans qu’il soit nĂ©cessaire de les rendre publics. Â» Reste qu’il est peu probable que les audits imposĂ©s par la surveillance rĂ©glementaire couvrent tous les domaines qui prĂ©occupent ceux qui sont confrontĂ©s aux effets des outils de recommandations.

Autres moteurs de transparence : la gouvernance et les calculs

Les chercheurs concluent en soulignant qu’il existe donc une gamme d’outils Ă  disposition, mais qu’elle manque de rĂšgles et de bonnes pratiques partagĂ©es. Face aux obligations de transparence et de contrĂŽles qui arrivent (pour les plus gros acteurs d’abord, mais parions que demain, elles concerneront bien d’autres acteurs), les entreprises peinent Ă  se mettre en ordre de marche pour proposer des outillages et des productions dans ces diffĂ©rents secteurs qui leur permettent Ă  la fois de se mettre en conformitĂ© et de faire progresser leurs outils. Ainsi, par exemple, dans le domaine des donnĂ©es, documenter les jeux et les champs de donnĂ©es, Ă  dĂ©faut de publier les jeux de donnĂ©es, pourrait dĂ©jĂ  permettre un net progrĂšs. Dans le domaine de la documentation, les cartes et les registres permettent Ă©galement d’expliquer ce que les calculs opĂšrent (en documentant par exemple leurs marges d’erreurs).

Reste que l’approche trĂšs technique que mobilisent les chercheurs oublie quelques leviers supplĂ©mentaires. Je pense notamment aux conseils de surveillance, aux conseils Ă©thiques, aux conseils scientifiques, en passant par les organismes de contrĂŽle indĂ©pendants, aux comitĂ©s participatifs ou consultatifs d’utilisateurs
 Ă  tous les outils institutionnels, participatifs ou militants qui permettent de remettre les parties prenantes dans le contrĂŽle des dĂ©cisions que les systĂšmes prennent. Dans la lutte contre l’opacitĂ© des dĂ©cisions, tous les leviers de gouvernance sont bons Ă  prendre. Et ceux-ci sont de trĂšs bons moyens pour faire pression sur la transparence, comme l’expliquait trĂšs pertinemment David Robinson dans son livre Voices in the Code.

Un autre levier me semble absent de nombre de propositions
 Alors qu’on ne parle que de rendre les calculs transparents, ceux-ci sont toujours absents des discussions. Or, les rĂšgles de traitements sont souvent particuliĂšrement efficaces pour amĂ©liorer les choses. Il me semble qu’on peut esquisser au moins deux moyens pour rendre les calculs plus transparents et responsables : la minimisation et les interdictions.

La minimisation vise Ă  rappeler qu’un bon calcul ne dĂ©multiplie pas nĂ©cessairement les critĂšres pris en compte. Quand on regarde les calculs, bien souvent, on est stupĂ©fait d’y trouver des critĂšres qui ne devraient pas ĂȘtre pris en compte, qui n’ont pas de fondements autres que d’ĂȘtre rendus possibles par le calcul. Du risque de rĂ©cidive au score de risque de fraude Ă  la CAF, en passant par l’attribution de greffes ou aux systĂšmes de calculs des droits sociaux, on trouve toujours des Ă©lĂ©ments qui apprĂ©cient le calcul alors qu’ils n’ont aucune justification ou pertinence autres que d’ĂȘtre rendu possibles par le calcul ou les donnĂ©es. C’est le cas par exemple du questionnaire qui alimente le calcul de risque de rĂ©cidive aux Etats-Unis, qui repose sur beaucoup de questions problĂ©matiques. Ou de celui du risque de fraude Ă  la CAF, dont les anciennes versions au moins (on ne sait pas pour la plus rĂ©cente) prenaient en compte par exemple le nombre de fois oĂč les bĂ©nĂ©ficiaires se connectaient Ă  leur espace en ligne (sur cette question, suivez les travaux de la Quadrature et de Changer de Cap). La minimisation, c’est aussi, comme l’explique l’ex-chercheur de chez Google, El Mahdi El Mhamdi, dans une excellente interview, limiter le nombre de paramĂštres pris en compte par les calculs et limiter l’hĂ©tĂ©rogĂ©nĂ©itĂ© des donnĂ©es.

L’interdiction, elle, vise Ă  dĂ©terminer que certains croisements ne devraient pas ĂȘtre autorisĂ©s, par exemple, la prise en compte des primes dans les logiciels qui calculent les donnĂ©es d’agenda du personnel, comme semble le faire le logiciel Orion mis en place par la Sncf, ou Isabel, le logiciel RH que Bol.com utilise pour gĂ©rer la main-d’Ɠuvre Ă©trangĂšre dans ses entrepĂŽts de logistique nĂ©erlandais. Ou encore, comme le soulignait Narayan, le temps passĂ© sur les contenus sur un rĂ©seau social par exemple, ou l’analyse de l’émotion dans les systĂšmes de recrutement (et ailleurs, tant cette technologie pose problĂšme). A l’heure oĂč tous les calculs sont possibles, il va ĂȘtre pertinent de rappeler que selon les secteurs, certains croisements doivent rester interdits parce qu’ils sont trop Ă  risque pour ĂȘtre mobilisĂ©s dans le calcul ou que certains calculs ne peuvent ĂȘtre autorisĂ©s.

Priyanjana Bengani, Jonathan Stray et Luke Thorburn, pour en revenir Ă  eux, notent enfin que l’exigence de transparence reste formulĂ©e en termes trĂšs gĂ©nĂ©raux par les autoritĂ©s rĂ©glementaires. Dans des systĂšmes vastes et complexes, il est difficile de savoir ce que doit signifier rĂ©ellement la transparence. Pour ma part, je milite pour une transparence “projective”, active, qui permette de se projeter dans les explications, c’est-Ă -dire de saisir ses effets et dĂ©passer le simple caractĂšre narratif d’une explication loyale, mais bien de pouvoir agir et reprendre la main sur les calculs.

CoincĂ©s dans les boucles de l’amplification

Plus rĂ©cemment, les trois mĂȘmes chercheurs, passĂ© leur article sĂ©minal, ont continuĂ© Ă  documenter leur rĂ©flexion. Ainsi, dans « Rendre l’amplification mesurable Â», ils expliquent que l’amplification est souvent bien mal dĂ©finie (notamment juridiquement, ils ont consacrĂ© un article entier Ă  la question)
 mais proposent d’amĂ©liorer les propriĂ©tĂ©s permettant de la dĂ©finir. Ils rappellent d’abord que l’amplification est relative, elle consiste Ă  introduire un changement par rapport Ă  un calcul alternatif ou prĂ©cĂ©dent qui va avoir un effet sans que le comportement de l’utilisateur n’ait Ă©tĂ©, lui, modifiĂ©.

L’amplification agit d’abord sur un contenu et nĂ©cessite de rĂ©pondre Ă  la question de savoir ce qui a Ă©tĂ© amplifiĂ©. Mais mĂȘme dire que les fake news sont amplifiĂ©es n’est pas si simple, Ă  dĂ©faut d’avoir une dĂ©finition prĂ©cise et commune des fake news qui nĂ©cessite de comprendre les classifications opĂ©rĂ©es. Ensuite, l’amplification se mesure par rapport Ă  un point de rĂ©fĂ©rence prĂ©cĂ©dent qui est rarement prĂ©cisĂ©. Enfin, quand l’amplification atteint son but, elle produit un rĂ©sultat qui se voit dans les rĂ©sultats liĂ©s Ă  l’engagement (le nombre de fois oĂč le contenu a Ă©tĂ© apprĂ©ciĂ© ou partagĂ©) mais surtout ceux liĂ©s aux impressions (le nombre de fois oĂč le contenu a Ă©tĂ© vu). Enfin, il faut saisir ce qui relĂšve de l’algorithme et du comportement de l’utilisateur. Si les messages d’un parti politique reçoivent un nombre relativement important d’impressions, est-ce parce que l’algorithme est biaisĂ© en faveur du parti politique en question ou parce que les gens ont tendance Ă  s’engager davantage avec le contenu de ce parti ? Le problĂšme, bien sĂ»r, est de distinguer l’un de l’autre d’une maniĂšre claire, alors qu’une modification de l’algorithme entraĂźne Ă©galement une modification du comportement de l’utilisateur. En fait, cela ne signifie pas que c’est impossible, mais que c’est difficile, expliquent les chercheurs. Cela nĂ©cessite un systĂšme d’évaluation de l’efficacitĂ© de l’algorithme et beaucoup de tests A/B pour comparer les effets des Ă©volutions du calcul. Enfin, estiment-ils, il faut regarder les effets Ă  long terme, car les changements dans le calcul prennent du temps Ă  se diffuser et impliquent en retour des rĂ©actions des utilisateurs Ă  ces changements, qui s’adaptent et rĂ©agissent aux transformations.

Dans un autre article, ils reviennent sur la difficultĂ© Ă  caractĂ©riser l’effet bulle de filtre des mĂ©dias sociaux, notamment du fait de conceptions Ă©lastiques du phĂ©nomĂšne. S’il y a bien des boucles de rĂ©troaction, leur ampleur est trĂšs discutĂ©e et dĂ©pend beaucoup du contexte. Ils en appellent lĂ  encore Ă  des mesures plus prĂ©cises des phĂ©nomĂšnes. Certes, ce que l’on fait sur les rĂ©seaux sociaux influe sur ce qui est montrĂ©, mais il est plus difficile de dĂ©montrer que ce qui est montrĂ© affecte ce que l’on pense. Il est probable que les effets mĂ©diatiques des recommandations soient faibles pour la plupart des gens et la plupart du temps, mais beaucoup plus importants pour quelques individus ou sous-groupes relativement Ă  certaines questions ou enjeux. De plus, il est probable que changer nos façons de penser ne rĂ©sulte pas d’une exposition ponctuelle, mais d’une exposition Ă  des rĂ©cits et des thĂšmes rĂ©currents, cumulatifs et Ă  long terme. Enfin, si les gens ont tendance Ă  s’intĂ©resser davantage Ă  l’information si elle est cohĂ©rente avec leur pensĂ©e existante, il reste Ă  savoir si ce que l’on pense affecte ce Ă  quoi l’on s’engage. Mais cela est plus difficile Ă  mesurer car cela suppose de savoir ce que les gens pensent et pas seulement constater leurs comportements en ligne. En gĂ©nĂ©ral, les Ă©tudes montrent plutĂŽt que l’exposition sĂ©lective a peu d’effets. Il est probable cependant que lĂ  encore, l’exposition sĂ©lective soit faible en moyenne, mais plus forte pour certains sous-groupes de personnes en fonction des contextes, des types d’informations.

Bref, là encore, les effets des réseaux sociaux sont difficiles à percer.

Pour comprendre les effets de l’amplification algorithmique, peut-ĂȘtre faut-il aller plus avant dans la comprĂ©hension que nous avons des Ă©volutions de celle-ci, afin de mieux saisir ce que nous voulons vraiment savoir. C’est ce que nous tenterons de faire dans la suite de cet article


❌
❌