IA gĂ©nĂ©ratives : la fin des exercices rĂ©dactionnels Ă lâuniversitĂ© ?
StĂ©phane Crozat est membre de Framasoft, auteur de « Traces » et de « Les libres », et surtout, enseignant Ă lâUniversitĂ© de Technologie de CompiĂšgne (UTC). Il nous livre ci-dessous une rĂ©flexion personnelle â initialement publiĂ©e sur son blog â au sujet de lâusage des LLM (ChatGPT ou autre) dans les travaux des Ă©tudiantâ es.
IA gĂ©nĂ©ratives : la fin des exercices rĂ©dactionnels Ă lâuniversitĂ© ?
En dĂ©cembre 2022 le magazine Ătats-unien The Atlantic titre : « The College Essay Is Dead » ( Marche, 2022 [1] ). Lâauteur de lâarticle, Ă©crivain, attribue un B+ Ă une rĂ©daction produite avec le LLM [2] GPT-3 dans le cadre du cours de Mike Sharples, enseignant en sciences humaines. Jâai moi mĂȘme attribuĂ© la note de 14/15 Ă un exercice rĂ©dactionnel rĂ©alisĂ© avec ChatpGPT en fĂ©vrier 2023 Ă lâUTC ( Turcs mĂ©caniques ou magie noire ? ). Une enseignante de philosophie lui a attribuĂ© une note de 11/20 au baccalaurĂ©at ( Lellouche, 2023 [3] ).
Jâai depuis observĂ© plusieurs cas de « triche » avec des LLM Ă lâUTC en 2023.
Se pose donc la question de la réaction à court terme pour les enseignants concernant les exercices rédactionnels qui sont réalisés par les étudiants à distance.
Je parlerai de LLM
Je parlerai de LLM [2] dans cet article plutĂŽt que de ChatGPT.
ChatGPT est un outil de lâentreprise OpenIA basĂ© sur un LLM [2] Ă vocation de conversation gĂ©nĂ©raliste (capable dâaborder nâimporte quel sujet) et le premier Ă avoir introduit une rupture dâusage dans ce domaine. Le problĂšme abordĂ© ici concerne bien cette classe dâoutils, mais pas seulement ceux dâOpenIA : des outils concurrents existent Ă prĂ©sent (certains pourront devenir plus puissants), des outils plus spĂ©cialisĂ©s existent (pour la traduction par exemple), dâautres sont probablement amenĂ©s Ă voir le jour (orientĂ©s vers la production de textes universitaires, pourquoi pas ?).
On pourra lire, par exemple, Bortzmeyer, 2023 [4] ou Tiernan, 2020 [5] pour plus dâinformations.
Je ne parlerai pas deâŠ
Les LLM [2] ne gĂ©nĂšrent pas que des textes Ă la demande, ils gĂ©nĂšrent aussi de nombreuses opinions parmi les spĂ©cialistes et les usagers ; jâessaierai de me borner aux faits prĂ©sents, Ă ce que lâon peut raisonnablement anticiper Ă court terme (sans faire de science-fiction) et Ă la seule question de lâĂ©valuation en contexte pĂ©dagogique (mais je nây arriverai pas totalementâŠ).
Je ne parlerai donc pas :
- des autres enjeux pĂ©dagogiques : quel est le rĂŽle de lâuniversitĂ© face au dĂ©veloppement des LLM ? doit-on former Ă leurs usages ? les enseignants doivent-il utiliser des LLM eux-mĂȘmes ? est-ce que ça a du sens dâapprendre Ă rĂ©diger Ă lâĂšre des LLM ?
- des enjeux technico-fonctionnels : quâest-ce que les LLM ne savent pas faire aujourdâhui ? quâest-ce quâon pense quâils ne seront jamais capables de faire ?
- des enjeux politiques et Ă©thiques : est-ce un progrĂšs ? est-ce quâon peut arrĂȘter le progrĂšs ? que penser de la dĂ©pendance croissante aux entreprises de la tech Ătats-uniennes ? du dĂ©ploiement du capitalisme de surveillance ?
- des enjeux socio-Ă©cologiques : Ă quoi ça sert ? quels humains ça remplace ? quel est lâimpact environnemental des LLM ?
- des enjeux philosophiques : les LLM sont-ils neutres ? est-ce que ça dĂ©pend comment on sâen sert ? ou bien lâautomatisation introduite change-t-elle radicalement notre rapport au langage et Ă la raison ? complĂ©ter des textes en utilisant des fonctions statistiques, est-ce penser ? quâest-ce que lâintelligence ?
- des enjeux juridiques : est-ce que les LLM respectent le droit dâauteur ? un texte produit avec un LLM est-il une crĂ©ation originale ?
- âŠ
TL;DR
Cet article Ă©tant un peu long, cette page en propose un rĂ©sumĂ© (TL;DR signifiant : « Too Long ; Didnât Read ») : RĂ©sumĂ© du prĂ©sent article.
Problématique et hypothÚse
Problématique
Peut-on continuer à faire faire des exercices rédactionnels « à la maison » comme avant ?
Sans statuer sur la dimension de rupture des LLM â est-ce une nouvelle Ă©volution liĂ©e au numĂ©rique qui percute le monde de la pĂ©dagogie, comme les moteurs de recherche ou WikipĂ©dia avant elle, ou bien une rĂ©volution qui va changer radicalement les rĂšgles du jeu â il parait nĂ©cessaire de rĂ©interroger nos pratiques : « sans sombrer dans le catastrophisme, il serait tout aussi idiot de ne pas envisager que nous sommes une nouvelle fois devant un changement absolument majeur de notre maniĂšre dâenseigner, de transmettre, et dâinteragir dans un cadre Ă©ducatif, a fortiori lorsque celui-ci est asynchrone et/ou Ă distance. ( Ertzscheid, 2023 [6]) »
HypothĂšse
Lâautomatisation permise par les LLM rend raisonnable une triche automatisĂ©e dont le rapport coĂ»t/bĂ©nĂ©fice est beaucoup plus avantageux quâune triche manuelle.
De nombreux modules universitaires comportent des exercices rĂ©dactionnels Ă rĂ©aliser chez soi. Ces travaux sont gĂ©nĂ©ralement Ă©valuĂ©s et cette Ă©valuation compte pour la validation du module et donc in fine, pour lâattribution dâun diplĂŽme.
- Dans certains contextes, il nây a pas dâĂ©valuation en prĂ©sentiel sans ordinateur et donc la totalitĂ© de la note peut bĂ©nĂ©ficier dâune « aide extĂ©rieure ».
- Souvent Ă lâuniversitĂ© la prĂ©sence et/ou la participation effective des Ă©tudiants lors des cours et TD nâest pas elle-mĂȘme Ă©valuĂ©e, et parfois il nây a pas dâexamen classique, en consĂ©quence un Ă©tudiant a la possibilitĂ© de valider un cours sans y assister en produisant des rendus Ă©crits qualitatifs Ă domicile.
Cette situation prĂ©-existe Ă lâarrivĂ©e des LLM, mais nous faisons lâhypothĂšse suivante :
- sans LLM il reste un travail significatif pour se faire aider par un humain ou copier des contenus glanés sur le Web ;
- sans LLM il reste un risque important dâune production de qualitĂ© insuffisante (lâhumain qui a aidĂ© ou fait Ă la place nâest pas assez compĂ©tent, les contenus Web copiĂ©s ont Ă©tĂ© mal sĂ©lectionnĂ©s, ou mal reformulĂ©s, etc.) ;
- avec un LMM il est possible de produire un écrit standard sans aucun effort, pour exemple la copie de philo évaluée à 11 a été produite en 1,5 minute ( Lellouche, 2023 [3]).
Triche ?
Jâutilise le terme de triche car si la consigne est de produire un texte original soi-mĂȘme alors le faire produire par un tiers est de la triche. Lâexistence dâun moyen simple pour rĂ©aliser un exercice nâest pas en soi une autorisation Ă lâutiliser dans un contexte dâapprentissage. Câest similaire Ă ce quâon peut trouver dans un contexte sportif par exemple, si vous faites une course Ă vĂ©lo, vous ne devez pas ĂȘtre aidĂ© dâun moteur Ă©lectrique.
LLM et moteurs de recherche : différence de degré ou de nature ?
JâĂ©crivais en 2015 Ă propos de lâusage des moteurs de recherche ( Le syndrome de la BibliothĂšque de Babel) : « La question intĂ©ressante qui se pose aux pĂ©dagogues nâest tant de savoir si lâĂ©lĂšve va copier ou pas, sâil va « tricher ». La question est de savoir comment maintenir un travail dâĂ©laboration dâune dĂ©marche et de production sensĂ©ment originale et personnelle qui repose explicitement sur une recherche â donc une recherche sur le web â alors que la rĂ©ponse Ă la question posĂ©e sâinvite sur lâĂ©cran, formulĂ©e trĂšs exactement telle quâattendue. Câest Ă peine une simplification en lâespĂšce de dire que la rĂ©ponse a Ă©tĂ© jointe Ă la question, par celui mĂȘme qui a posĂ© cette question. »
Les LLM font sauter cette barriĂšre : lĂ oĂč les moteurs de recherche permettaient une rĂ©ponse facile Ă une question rĂ©currente, les LLM permettent une rĂ©ponse immĂ©diate Ă une question originale.
LâĂ©valuation de tout travail avec un ordinateur
Notons que le problĂšme se pose pour tous les travaux rĂ©dactionnels avec ordinateur, mĂȘme en prĂ©sentiel ou en synchrone. En effet dĂšs lors que lâon veut que nos exercices sâappuient sur un accĂšs Ă un traitement de texte, des recherches Web ou dâautres outils numĂ©riques, alors ils ouvrent lâaccĂšs aux LLM.
Il existe des solutions humaines ou techniques de surveillance des examens pour ouvrir lâaccĂšs Ă certains outils seulement, mais dâune part elles posent des problĂšmes pratiques, Ă©thiques et juridiques, et dâautre part les LLM sâintroduisent progressivement au sein des autres outils, ainsi par exemple le moteur de recherche.
Les LLM et les Ă©tudiants
Les LLM sont utilisés par les étudiants
Lors de mes cours du semestre dernier (mars Ă juillet 2023), jâai rencontrĂ© plusieurs cas dâusage de LLM.
- Ces cas sâapparentent Ă de la triche.
- Les Ă©tudiants nâont pas facilement admis leur usage (allant dans certains cas jusquâĂ nier des Ă©vidences).
- Ce sont des cas dâusages stupides de la part des Ă©tudiants, car non nĂ©cessaires pour la validation du cours, sans intĂ©rĂȘt du point de vue pĂ©dagogique, et facilement dĂ©tectables.
On peut retenir les arguments principaux revendiqués par les étudiants :
- Le gain de temps (mĂȘme si je sais faire, « flemme » ou « retard »).
- La nĂ©cessitĂ© de ne pas Ă©chouer et la peur dâĂȘtre pĂ©nalisĂ© sur le niveau dâexpression Ă©crite.
- Le fait de ne pas ĂȘtre « sĂ»r » de tricher (ce nâest pas explicitement interdit).
Des Ă©tudiants qui nâutilisent pas encore les LLM pour les exercices rĂ©dactionnels les utilisent plus facilement pour la traduction automatique.
UTC : Un premier Ă©tudiant utilise ChatGPT (IS03)
Au sein du cours de lâUTC IS03 (« Low-technicisation et numĂ©rique »), les Ă©tudiants doivent rĂ©aliser des notes de lecture sur la base dâarticles scientifiques. Un Ă©tudiant Ă©tranger non-francophone utilise grossiĂšrement un LLM (probablement ChatGPT) pour produire en une semaine le rĂ©sumĂ© de plusieurs dizaines de pages de lectures dâarticles scientifiques difficiles et de rapports longs. Jâavais donnĂ© une liste de plusieurs lectures possibles, mais nâattendais Ă©videmment des notes que concernant un ou deux documents.
Il faut plusieurs minutes de discussion pour quâil reconnaisse ne pas ĂȘtre lâauteur des notes. Mon premier argument Ă©tant sur le niveau de langue obtenue (aucune faute, trĂšs bonne expressionâŠ) lâĂ©tudiant commencera par reconnaĂźtre quâil utilise des LLM pour corriger son français (on verra que cette « excuse » sera souvent mobilisĂ©e). Sur le volume de travail fournit, il reconnaĂźt alors utiliser des LLM pour « rĂ©sumer ».
In fine, il se justifiera en affirmant quâil nâa pas utilisĂ© ChatGPT mais dâautres outils (ce qui est trĂšs probablement faux, mais en lâespĂšce nâa pas beaucoup dâimportance).
CâĂ©tait un cas tout Ă fait « stupide », lâĂ©tudiant avait produit des notes sur prĂšs dâune dizaine de rapports et articles, sous-tendant plusieurs heures de lectures scientifiques et autant de rĂ©sumĂ©s, et avait produit des Ă©noncĂ©s sans aucune faute, tout cela en maĂźtrisant mal le français.
UTC : 6 cas identifiĂ©s lors de lâApi Libre Culture
Une ActivitĂ© PĂ©dagogique dâIntersemestre (Api) est un cours que les Ă©tudiants choisissent au lieu de partir en vacances, en gĂ©nĂ©ral par intĂ©rĂȘt, dont les conditions dâobtention sont faciles : les Ă©tudiants sont en mode stage pendant une semaine (ils ne suivent que lâApi) et leur prĂ©sence rĂ©guliĂšre suffit en gĂ©nĂ©ral pour valider le cours et obtenir les 2 crĂ©dits ECTS associĂ©s. Un devoir individuel Ă©tait Ă rĂ©aliser sur machine pour clĂŽturer lâApi Libre Culture de juillet 2023. Il consistait essentiellement en un retour personnel sur la semaine de formation.
Lors de ce devoir de fin dâApi, 6 Ă©tudiantes et Ă©tudiants (parmi 20 participants en tout) ont mobilisĂ© de façon facilement visible un LLM (ChatGPT ou un autre). Pour 4 dâentre eux câĂ©tait un usage partiel (groupe 1), pour 2 dâentre eux un usage massif pour rĂ©pondre Ă certaines questions (groupe 2). Jâai communiquĂ© avec ces 6 personnes par mail.
3 des Ă©tudiants du groupe 1 ont avouĂ© spontanĂ©ment, en sâexcusant, conscients donc dâavoir certainement transgressĂ© les rĂšgles de lâexamen. La 4e personne a reconnu les faits aprĂšs que jâai insistĂ© (envoi dâun second mail en rĂ©ponse Ă un premier mail de dĂ©ni).
Pour les 2 Ă©tudiants du groupe 2 :
- le premier nâa reconnu les faits quâaprĂšs plusieurs mails et que je lui aie montrĂ© lâhistorique dâun pad (traitement de texte en ligne) qui comportait un copie/coller Ă©vident de ChatGPT.
- le second, Ă©tudiant Ă©tranger parlant trĂšs bien français, nâa jamais vraiment reconnu les faits, sâen tenant Ă un usage partiel « pour sâaider en français » (loin de ce que jâai constatĂ©).
Ă noter quâaucun Ă©tudiant ne niait avoir utilisĂ© un LLM, leur dĂ©fense Ă©tait un usage non dĂ©terminant pour sâaider Ă formuler des choses quâils avaient produites eux-mĂȘmes.
Pour les deux Ă©tudiants du groupe 2, jâai dĂ©cidĂ© de ne pas valider lâApi, ils nâont donc pas eu les crĂ©dits quâils auraient eu facilement en me rendant un travail de leur fait, mĂȘme de faible niveau. Ils nâont pas contestĂ© ma dĂ©cision, lâun des deux prĂ©cisera mĂȘme : « dâautant plus que jâai dĂ©jĂ les compĂ©tences du fait du cours suivi dans un semestre prĂ©cĂ©dent ».
Un Ă©tudiant en Nouvelle-ZĂ©lande reconnaĂźt utiliser ChatGPT
« In May, a student in New Zealand confessed to using AI to write their papers, justifying it as a tool like Grammarly or spell-check : âI have the knowledge, I have the lived experience, Iâm a good student, I go to all the tutorials and I go to all the lectures and I read everything we have to read but I kind of felt I was being penalised because I donât write eloquently and I didnât feel that was right,â they told a student paper in Christchurch. They donât feel like theyâre cheating, because the student guidelines at their university state only that youâre not allowed to get somebody else to do your work for you. GPT-3 isnât âsomebody elseââitâs a program. » ( Marche, 2022 [1] )
On note les deux arguments principaux produits :
- je lâutilise car je ne suis pas trĂšs fort Ă lâĂ©crit et je ne trouve pas normal que cela ma pĂ©nalise ;
- ce nâest pas clairement interdit Ă lâuniversitĂ©.
Jâai interviewĂ© des collĂ©giens et lycĂ©ens
- ChatGPT est dĂ©jĂ utilisĂ© au collĂšge et au lycĂ©e : surtout par les « mauvais » Ă©lĂšves (selon les bons Ă©lĂšves)âŠ
- âŠet par les bons Ă©lĂšves occasionnellement, mais pour une « bonne raison » : manque de temps, difficultĂ©s rencontrĂ©es, etc.
- Des outils dâIA dĂ©diĂ©s Ă la traduction sont plus largement utilisĂ©s, y compris par les bons Ă©lĂšves.
- Ă lâĂ©cole « lâĂ©chec câest mal » donc le plus important est de rendre un bon devoir (voire un devoir parfait).
Les LLM sont capables dâavoir de bonnes notes
A Ă un exercice rĂ©dactionnel Ă lâUTC
Cet article fait suite à « Turcs mĂ©caniques ou magie noire ? » un autre article Ă©crit en janvier sur la base dâun test de ChatGPT Ă qui jâavais fait passer un de mes examens. Pour mĂ©moire ChatGPT obtenait selon ma correction 14/15 Ă cet examen second, Ă©galitĂ© donc avec les meilleurs Ă©tudiants du cours.
B+ à un exercice rédactionnel en Grande-Bretagne
En mai 2022, Mike Sharples utilise le LLM [2] GPT-3 pour produire une rĂ©daction dans le cadre de son cours de pĂ©dagogie ( Sharples, 2022 [7] ). Il estime quâun Ă©tudiant qui aurait produit ce rĂ©sultat aurait validĂ© son cours. Il en conclut que les LLM sont capables de produire des travaux rĂ©dactionnels du niveau attendu des Ă©tudiants et quâil faut revoir nos façons dâĂ©valuer (et mĂȘme, selon lui, nos façons dâenseigner).
Le journaliste et Ă©crivain qui rapport lâexpĂ©rience dans The Antlantic attribue un B+ Ă la rĂ©daction mise Ă disposition par Mike Sharples ( Marche, 2022 [1] ).
11 au bac de philo
ChatGPT sâest vu attribuĂ© la note de 11/20 par une correctrice (qui savait quâelle corrigeait le produit dâune IA) au bac de philosophie 2023. Le protocole nâest pas rigoureux, mais le plus important, comme le note lâarticle de Numerama ( Lellouche, 2023 [3] ) câest que le texte produit est loin dâĂȘtre nul, alors mĂȘme que le LLM nâest pas spĂ©cifiquement programmĂ© pour cet exercice. Un « GPTphilo » aurait indubitablement obtenu une meilleure note, et la version 2024 aura progressĂ©. Probablement pas assez pour ĂȘtre capable de rĂ©aliser de vraie productions de philosophe, mais certainement assez pour ĂȘtre capable de rendre caduque un tel exercice dâĂ©valuation (sâil Ă©tait rĂ©alisĂ© Ă distance avec un ordinateur).
66 % de rĂ©ussite dans le cadre dâune Ă©tude comparative
Farazouli et al. ( 2023 [8] ) ont menĂ© un travail plus rigoureux pour Ă©valuer dans quelle mesure ChatGPT est capable de rĂ©ussir dans le cadre de travaux rĂ©alisĂ©s Ă la maison, et quelles consĂ©quences cela a sur les pratiques dâĂ©valuation. 22 enseignants ont eu Ă corriger 6 copies dont 3 Ă©taient des copies ChatGPT et 3 des copies dâĂ©tudiants ayant prĂ©alablement obtenu les notes A, C et E (pour 4 de ces enseignants, ils nâavaient que 5 copies dont 2 Ă©crites avec ChatGPT).
« ChatGPT achieved a high passing grade rate of more than 66 % in home examination questions in the fields of humanities, social sciences and law. »
Dont :
- 1 travail notĂ© A sans suspicion que câĂ©tait une copie ChatGPT ;
- 4 rendus notĂ©s B, dont 1 seul Ă©tait suspectĂ© dâavoir Ă©tĂ© rĂ©alisĂ© avec ChatGPT.
On observe des disparités assez importantes en fonction des domaines :
F | E | D | C | B | A | |
---|---|---|---|---|---|---|
Philosophie | 3 | 2 | 7 | 6 | 3 | 0 |
Droit | 9 | 4 | 0 | 2 | 0 | 0 |
Sociologie | 6 | 6 | 1 | 1 | 3 | 1 |
Ăducation | 5 | 2 | 0 | 1 | 0 | 0 |
Remarque
On observe une grande disparitĂ© dans les Ă©valuations dâun mĂȘme travail (humain ou ChatGPT) par des Ă©valuateurs diffĂ©rents (de F Ă A), ce qui interroge sur le protocole suivi et/ou sur la nature mĂȘme de lâĂ©valuation.
Corriger câĂ©tait dĂ©jĂ chiantâŠ
La plupart des enseignants sâaccordent sur le fait que le plus ennuyeux dans leur mĂ©tier est la correction des travaux Ă©tudiants. Savoir que lâon corrige potentiellement des travaux qui nâont mĂȘme pas Ă©tĂ© produits par les Ă©tudiants est tout Ă fait dĂ©mobilisantâŠ
« La question câest celle dâune dilution exponentielle des heuristiques de preuve. Celle dâune loi de Brandolini dans laquelle toute production sĂ©miotique, par ses conditions de production mĂȘme (ces derniĂšres Ă©tant par ailleurs souvent dissimulĂ©es ou indiscernables), poserait la question de lâĂ©nergie nĂ©cessaire Ă sa rĂ©futation ou Ă lâĂ©tablissement de ses propres heuristiques de preuve. » ( Ertzscheid, 2023 [6] ).
Il est coûteux pour un évaluateur de détecter du ChatGPT
Prenons un exemple, Devereaux ( 2023 [9] ) nous dit quâil devrait ĂȘtre facile pour un Ă©valuateur de savoir si une source existe ou non. Il prend cet exemple car ChatGPT produit des rĂ©fĂ©rences bibliographiques imaginaires.
- Câest en effet possible, mais ce nâest pas « facile », au sens oĂč si vous avez beaucoup de rĂ©dactions avec beaucoup de rĂ©fĂ©rences Ă lire, cela demande un travail important et a priori inutile ; lors de la correction de lâexercice de ChatGPT ( Turcs mĂ©caniques ou magie noire ?), je me suis moi-mĂȘme « fait avoir » y compris avec un auteur que je connaissais trĂšs bien : je ne connaissais pas les ouvrages mentionnĂ©s, mais les titres et co-auteurs Ă©tait crĂ©dibles (et lâauteur prolifique !).
- Câest aussi un bon exemple de limite conjoncturelle de lâoutil, il paraĂźt informatiquement assez facile de coupler un LLM avec des bases de donnĂ©es bibliographiques pour produire des rĂ©fĂ©rences Ă des sources qui soient existantes. La dĂ©tection ne supposera pas seulement de vĂ©rifier que la rĂ©fĂ©rence existe mais quâon soit capable de dire Ă quel point elle est utilisĂ©e Ă propos. Le correcteur se retrouve alors plus proche dâune posture de rĂ©vision dâarticle scientifique, ce qui suppose un travail beaucoup plus important, de plusieurs heures contre plusieurs minutes pour la correction dâun travail dâĂ©tudiant.
Ă quoi sert la rĂ©daction Ă lâĂ©cole ?
Ă quoi sert la rĂ©daction Ă lâĂ©cole ?
Lâexercice rĂ©dactionnel est un moyen pour faire travailler un contenu, mais câest surtout un moyen pour les Ă©tudiants dâapprendre Ă travailler leur raisonnement.
On peut penser que la gĂ©nĂ©ralisation de lâusage de LLM conduise Ă la perte de compĂ©tences Ă lâĂ©crit, mais surtout Ă la perte de capacitĂ©s de raisonnement, pour lesquelles lâĂ©crit est un mode dâentraĂźnement
Pourquoi faire Ă©crire ?
Bret Devereaux ( 2023 [9] ) sâest posĂ© la mĂȘme question â Ă quoi sert un exercice rĂ©dactionnel ( « teaching essay ») â dans le mĂȘme contexte de lâarrivĂ©e de ChatGPT ? Il propose trois fonctions pour cet exercice.
- Lâexercice est un moyen pour travailler (chercher, lire, explorer, Ă©tudierâŠ) un contenu tiers (histoire, idĂ©eâŠ) : lâusage de ChatGPT rend lâexercice totalement inutile, mais on peut assez facilement imaginer dâautres façon de faire travailler le contenu.
- Lâexercice est un moyen dâapprendre Ă faire des rĂ©dactions : lâusage de ChatGPT rend aussi lâexercice inutile, mais une part importante des Ă©tudiants nâaura plus Ă produire de rĂ©daction en dehors de lâĂ©cole.
- Lâexercice est un moyen dâapprendre Ă mettre en forme des idĂ©es par Ă©crit. Ici encore lâusage de ChatGPT rend lâexercice inutile, puisque bien entendu, le rĂ©sultat final obtenu nâa aucune importance (le contenu sera dĂ©truit aprĂšs usage), et que seul compte le processus suivi (analyse des idĂ©es, organisationâŠ). On peut considĂ©rer que lâusage dâun LLM est ici plus dommageable en ce sens quâapprendre Ă penser via lâexercice rĂ©dactionnel est un processus dâapprentissage assez fondamental.
Exemple
Un Ă©tudiant qui a utilisĂ© ChatGPT pour un exercice rĂ©dactionnel Ă lâUTC mâa transmis un de ses exemples dâusage, pour me montrer quâil nâavait pas « trichĂ© » puisque le contenu venait de lui.
Il a ainsi donnĂ© en entrĂ©e Ă ChatGPT le texte suivant : « Le droit dâauteur, est une licence qui protĂšge les Ćuvres artistiques et intellectuelles, genre les bouquins, les musiques, les films ou les tableaux. Ăa donne aux crĂ©ateurs le pouvoir de dĂ©cider comment on peut utiliser, copier ou diffuser leur travail, et ça leur assure dâĂȘtre reconnus comme ceux qui lâont crĂ©Ă©. »
Si lâon demande une reformulation Ă ChatGPT on obtient : « Le droit dâauteur est une forme de protection lĂ©gale qui sâapplique aux Ćuvres artistiques et intellectuelles, telles que les livres, la musique, les films et les Ćuvres dâart. Il accorde aux crĂ©ateurs le pouvoir de contrĂŽler lâutilisation, la reproduction et la diffusion de leur travail, tout en garantissant quâils soient reconnus en tant que crĂ©ateurs de ces Ćuvres. »
On observe une correction de style, mais aussi une correction de fond. Le droit dâauteur nâest pas une « licence » (cette phrase nâa pas de sens) comme lâĂ©crit lâĂ©tudiant, mais bien « une forme de protection lĂ©gale » . En outre le mĂȘme texte Ă©crit avec beaucoup de fautes ressortira parfaitement Ă©crit en français (lâĂ©tudiant qui mâĂ©crivait avait certainement dĂ©jĂ corrigĂ© prĂ©alablement son texte car le mail qui lâaccompagnait comportait beaucoup de fautes dâorthographe et de formulation).
Si ChatGPT peut lâĂ©crire, ça ne sert Ă rien ?
Un argument que produit Bret Devereaux et pas mal dâautres commentateurs devant les rĂ©sultats obtenus par ChatGPT est le suivant : si une machine y arrive câest que lâexercice est sans intĂ©rĂȘt. « If your essay prompt can be successfully answered using nothing but vague ChatGPT generated platitudes, it is a bad prompt » ( Devereaux, 2023 [9] ).
Câest discutable :
- Cette assertion suppose que lâexercice nâavait pas de sens en soi, mĂȘme sâil Ă©tait pratiquĂ© avec intĂ©rĂȘt avant, et la preuve qui est donnĂ©e est quâune machine peut le faire. On peut faire lâanalogie avec le fait de sâentraĂźner Ă faire de la course Ă pied Ă lâĂšre de la voiture (des arts martiaux Ă lâĂšre du fusil, du jardinage Ă lâĂšre de lâagriculture industrielle, etc.), ce nâest pas parce quâune machine peut rĂ©aliser une tĂąche quâil est inutile pour un humain de sâentraĂźner Ă la rĂ©aliser.
- Farazouli et al. ( 2023 [8]) relÚvent que les qualités mise en avant par les évaluateurs aprÚs correction de copies produites par ChatGPT étaient notamment : la qualité du langage, la cohérence, et la créativité. Dans certains contextes les productions de ChatGPT ne sont donc pas évaluées comme médiocres.
Ce que ChatGPT ne fait pas bien
Ă lâinverse Farazouli et al. ( 2023 [8] ) ont identifiĂ© des lacunes dans lâargumentation, le manque de rĂ©fĂ©rences au cours et au contraire la prĂ©sence de contenus extĂ©rieurs au cours.
La faiblesse argumentative est peut-ĂȘtre un dĂ©faut intrinsĂšque au sens oĂč la mĂ©canique statistique des LLM ne serait pas capable de simuler certains raisonnements. En revanche on note que le manque de rĂ©fĂ©rences au cours et la prĂ©sence de rĂ©fĂ©rences extĂ©rieures est discutable (ça peut rester un moyen de dĂ©tecter, mais câest un assez mauvais objectif en soi).
- En premier cycle universitaire on ne souhaite pas en gĂ©nĂ©ral cette relation Ă©troite au cours (il existe plusieurs approches, et un Ă©tudiant qui ferait le travail par lui-mĂȘme serait tout Ă fait dans son rĂŽle).
- En second cycle, cela peut ĂȘtre le cas lorsque le cours porte sur un domaine en lien avec la recherche de lâenseignant typiquement. Mais la recherche est en gĂ©nĂ©ral publiĂ©e et le LLM peut tout Ă fait ĂȘtre entraĂźnĂ© sur ces donnĂ©es et donc « connaĂźtre » ce domaine.
Ă quoi servent les Ă©valuations Ă lâĂ©cole ?
LâĂ©valuation joue un double rĂŽle : lâĂ©valuation formative sert Ă guider lâapprenant (elle a vocation Ă lui rendre service), tandis que lâĂ©valuation sommative joue un rĂŽle de certification (elle a vocation Ă rendre service Ă un tiers).
Or on est souvent en situation de confusion de ces deux fonctions et cela conduit lâapprenant Ă se comporter comme sâil Ă©tait en situation dâĂ©valuation sommative et Ă chercher Ă maximiser ses rĂ©sultats.
On note en particulier :
- la fonction de classement entre les Ă©lĂšves des notes ;
- la confusion entre lâexercice rĂ©dactionnel comme moyen (câest le processus qui compte) ou comme fin (câest le rĂ©sultat qui compte).
Certifier ou réguler ? (confusion des temps)
LâĂ©valuation peut poursuivre trois fonctions ( Hadji, 1989 [10]) :
- Certifier (évaluation sommative) afin de statuer sur les acquis, valider un module de cours, délivrer un diplÎme ; cette évaluation se situe aprÚs la formation.
- RĂ©guler (Ă©valuation formative) afin de guider lâapprenant dans son processus dâapprentissage ; cette Ă©valuation se situe pendant la formation.
- Orienter (Ă©valuation diagnostique) afin dâaider Ă choisir les modalitĂ©s dâĂ©tude les plus appropriĂ©es en fonction des intĂ©rĂȘts, des aptitudes et de lâacquisition des prĂ©-requis ; cette Ă©valuation se situe avant la formation (et en cela lâĂ©valuation diagnostique se distingue bien de lâĂ©valuation sommative en ce quâelle se place avant la formation du point de vue de lâĂ©valuateur).
« LâĂ©valuation survient souvent Ă un moment trop prĂ©coce par rapport au processus dâapprentissage en cours ( Astofi, 1992 [11]) ».
Câest un dĂ©faut du contrĂŽle continu, arrivant tĂŽt, dĂšs le dĂ©but du cours mĂȘme, il nous place dâemblĂ©e en posture sommative. Celui qui ne sait pas encore faire est donc potentiellement stressĂ© par lâĂ©valuation dont il refuse ou minore la dimension formative.
EntraĂźner ou arbitrer ? (confusion des rĂŽles)
« Les fonctions dâentraĂźneur et dâarbitre sont trop souvent confondues. Câest toujours celle dâentraĂźneur dont le poids est minorĂ©. ( Astofi, 1992 [11]) »
« Il reste Ă articuler les deux logiques de lâĂ©valuation, dont lâune exige la confiance alors que lâautre oppose Ă©valuateur et Ă©valuĂ© ( Perrenoud, 1997 [12]) ».
Cette confusion des temps entraĂźne une confusion des rĂŽles : lâenseignant est toujours de fait un certificateur, celui qui permet la validation du cours, la poursuite des Ă©tudes, lâorientationâŠ
Se faire confiance
La question de la confiance au sein de la relation apprenant-enseignant était également relevée par Farazouli et al. ( 2023 [8] ) qui insistait sur la dégradation potentielle introduite par les LLM :
« The presence of AI chatbots may prompt teachers to ask âwho has written the text ?â and thereby question studentsâ authorship, potentially reinforcing mistrust at the core of teacherâstudent relationship »
Ăvaluation des compĂ©tences
Philippe Perrenoud ( 1997 [12]) dĂ©fend une approche par compĂ©tences qui sâĂ©carte dâune « comparaison entre les Ă©lĂšves » pour se diriger vers une comparaison entre « ce que lâĂ©lĂšve a fait, et quâil ferait sâil Ă©tait plus compĂ©tent »
. Lâauteur souligne que ce systĂšme est moins simple et moins Ă©conomique : « lâĂ©valuation par les compĂ©tences ne peut quâĂȘtre complexe, personnalisĂ©e, imbriquĂ©e au travail de formation proprement dit »
. Il faut, nous dit-il, renoncer Ă organiser un « examen de compĂ©tence en plaçant tous les concurrents sur la mĂȘme ligne ».
Cet Ă©loignement Ă la fonction de classement est intĂ©ressante Ă interroger. La fonction de classement des Ă©valuations nâest pas, en gĂ©nĂ©ral, revendiquĂ©e comme telle, mais elle persiste Ă travers les notes (A, B, C, D, E), la courbe de Gauss attendue de la rĂ©partition de ces notes, le taux de rĂ©ussite, dâĂ©chec, de A. Ces notes ont Ă©galement une fonction de classement pour lâaccĂšs Ă des semestres dâĂ©tude Ă lâĂ©tranger par exemple, ou pour des stages.
Il ne sâagit donc pas seulement de la fonction formative et de lâapprenant face Ă sa note.
La tĂąche nâest quâun prĂ©texte
« La tĂąche nâest quâun prĂ©texte »
, nous rappelle Philippe Meirieu ( Meirieu, 2004 [13]), pour sâexercer en situation dâapprentissage ou pour vĂ©rifier quâon a acquis certaines habiletĂ©s.
Il est déterminant de différencier les deux situations :
- dans le premier cas on peut travailler Ă apprendre avec lâapprenant sans se focaliser sur ce quâon produit ;
- dans le second, en revanche, cas lâĂ©nergie de lâapprenant est concentrĂ©e sur le rĂ©sultat, il cherche Ă se conformer aux attentes de lâĂ©valuation.
On oublie que la tĂąche nâest quâun prĂ©texte, le « livrable » quâon demande est un outil et non un objectif, dans lâimmense majoritĂ© des cas la dissertation ne sera pas lue pour ce quâelle raconte, mais uniquement pour produire une Ă©valuation. La rĂ©solution du problĂšme de mathĂ©matique ou le compte-rendu dâexpĂ©rience de chimie ne revĂȘt aucun intĂ©rĂȘt en soi, puisque, par construction, le lecteur connaĂźt dĂ©jĂ la rĂ©ponse. Câest Ă la fois une Ă©vidence et quelque chose que le processus Ă©valuatif fait oublier, et in fine, câest bien au rĂ©sultat qui est produit que lâĂ©tudiant, comme souvent lâenseignant, prĂȘte attention, plutĂŽt quâau processus dâapprentissage.
Ăvaluation des moyens mis en Ćuvre et non dâun niveau atteint
Ă travers lâĂ©tude des travaux de Joseph Jacotot, Jacques RanciĂšre ( 1987 [14]) propose que ce qui compte nâest pas ce quâon apprend mais le fait quâon apprenne et quâon sache que lâon peut apprendre, avec sa propre intelligence. Le « maĂźtre ignorant » nâest pas celui qui transmet le savoir, il est celui qui provoque lâengagement de lâapprenant, qui sâassure quâil y a engagement. Selon ce dispositif, la notion mĂȘme dâĂ©valuation sommative nâest pas possible, puisque le maĂźtre est ignorant de ce que lâĂ©lĂšve apprend (Jacotot enseigne ainsi les mathĂ©matiques ou la musique dont il nâa pas la connaissance).
Cette approche pourrait inspirer Ă lâĂ©valuation un rĂŽle de suivi de lâengagement (prĂ©sence, travailâŠ) dĂ©corrĂ©lĂ© de toute Ă©valuation de rĂ©sultat : prĂ©sence et participation en cours et en TD. Notons que le systĂšme ECTS [15] est dĂ©jĂ basĂ© sur une charge de travail requise (25 Ă 30 heures pour 1 crĂ©dit).
Remise en question de lâĂ©valuation sommative
LâĂ©valuation via des examens et des notes est un processus peu fiable, en tĂ©moignent les variations que lâon observe entre diffĂ©rents Ă©valuateurs, et les variations dans le temps observĂ©es auprĂšs dâun mĂȘme Ă©valuateur ( Hadji, 1989 [10]). On peut donc minorer lâimportance de la fonction certifiante de certaines notes. Or les notes coĂ»tent cher Ă produire par le temps et lâattention quâelles exigent des enseignants et des apprenants.
On peut donc se poser la question du supprimer, ou diminuer, lâĂ©valuation sommative. Cela pour une partie des enseignements au moins, quitte Ă garder des espaces sommatifs pour rĂ©pondre Ă des nĂ©cessitĂ©s de classement ou certification.
Quâest-ce quâon peut faire maintenant ?
- Interdire lâusage des LLM par dĂ©faut dans le rĂšglement des Ă©tudes (en sachant que ça va devenir difficile dâidentifier quand ils sont mobilisĂ©s) ?
- Utiliser des moyens techniques de dĂ©tection de fraude (et entrer dans une « course Ă lâarmement ») ?
- AmĂ©liorer nos exercices rĂ©dactionnel pour « Ă©chapper aux LLM » tout en restant en veille sur ce quâils savent adresser de nouveau ?
- Renoncer aux travaux rédactionnels évalués à la maison ?
- Ăvaluer uniquement en fin de module, voire en dehors des modules et/ou procĂ©der Ă des Ă©valuations de compĂ©tence individuelles ?
- Organiser des Ă©valuations certifiantes en dehors des cours (Ă©valuation de compĂ©tences, examens transversauxâŠ) ?
- Diminuer la pression sur les étudiants et modifier le contrat pédagogique passé avec eux ?
- Simplifier la notation, ne conserver que les résultats admis ou non admis, pour évacuer toute idée de classement ?
- Passer dâune obligation de rĂ©sultat Ă une obligation de moyen, câest Ă dire valider les cours sur la base de la prĂ©sence ?
- Ne plus du tout Ă©valuer certains cours (en rĂ©flĂ©chissant contextuellement Ă la fonction de lâĂ©valuation sommative) ?
Interdire ChatGPT ?
« And thatâs the thing : in a free market, a competitor cannot simply exclude a disruptive new technology. But in a classroom, we can absolutely do this thing ( Devereaux, 2023 [9]) »
Câest vrai, et le rĂšglement des Ă©tudes peut intĂ©grer cette interdiction a priori. Mais les LLM vont sâimmiscer au sein de tous les outils numĂ©riques, a commencer par les moteurs de recherche, et cela va ĂȘtre difficile de maintenir lâusage dâoutils numĂ©riques sans LLM.
Utiliser des moyens techniques de détection de fraude ?
Des systĂšmes de contrĂŽle dans le contexte de lâĂ©valuation Ă distance ou des logiciels anti-plagiat existent, mais :
- cela pose des problĂšmes de surveillance et dâintrusion dans les machines des apprenants ;
- cela suppose une « course Ă lâarmement » entre les systĂšmes de dĂ©tection et les systĂšmes de triche.
Il faut des rĂ©sultats fiables pour ĂȘtre en mesure dâaccuser un Ă©tudiant de fraude.
Adapter nos exercices et rester en veille ?
« Likewise, poorly designed assignments will be easier for students to cheat on, but that simply calls on all of us to be more careful and intentional with our assignment design ( Devereaux, 2023 [9]). »
Certains exercices pourront ĂȘtre en effet amĂ©nagĂ©s pour rendre plus difficile lâusage de LLM. On peut avoir une exigence argumentative plus Ă©levĂ©e et/ou poser des questions plus complexes (en rĂ©flĂ©chissant Ă pourquoi on ne le faisait pas avant, ce qui doit ĂȘtre modifiĂ© pour atteindre ce nouvel objectif, etc.). On peut augmenter le niveau dâexigence demandĂ© (en rĂ©flĂ©chissant au fait que cela puisse exclure des Ă©tudiants, au fait quâil faille relĂącher dâautres exercices par ailleursâŠ).
Mais pour certains exercices ce ne sera pas possible (thĂšme et version en langue par exemple). Et de plus cela implique une logique de veille active entre la conception de ces exercices et lâĂ©volution rapide des capacitĂ©s des outils qui intĂ©greront des LLM.
Renoncer aux travaux Ă la maison (ou Ă leur Ă©valuation)
On peut décider de ne plus évaluer les travaux réalisés à la maison.
On peut alors imaginer plusieurs formes de substitution : retour aux devoirs sur table et sans ordinateur, passage Ă lâoralâŠ
Ăvaluer en dehors des cours ?
On peut imaginer :
- des Ă©valuations certifiantes totalement en dehors des cours (sur le modĂšle du TOEIC ou du baccalaurĂ©at, par exemple pour les langues donc, pour lâexpression française, pour des connaissances dans certains domaines, des compĂ©tences rĂ©dactionnellesâŠ) ;
- des Ă©valuations certifiantes calĂ©es uniquement en fin dâUV (examen final de sortie de cours, avec Ă©ventuellement rattrapage, sans plus aucune note intermĂ©diaire) ;
- des évaluations de compétences individuelles (intéressantes pédagogiquement, mais coûteuses à organiser et demandant des compétences avancées de la part des évaluateurs).
Diminuer la pression sur les Ă©tudiants ?
Le contrat ECTS est trĂšs exigeant. 30 crĂ©dits par semestre câest 750 Ă 900 heures attendues de travail en 16 semaines, vacances comprises, soit 45h Ă 55h par semaine. Plus la pression sur le temps est importante plus la tentation de tricher est grande.
On peut imaginer de renouer un contrat pĂ©dagogique dâun autre ordre avec les Ă©tudiants, fondĂ© sur la confiance rĂ©ciproque et la recherche de leur intĂ©rĂȘt.
Simplifier la notation (pass or fail) ?
LâUTC a connu un systĂšme Ă 3 notes : « admis », « non admis » et « mention » (Ă©quivalent Ă A). Dans ce systĂšme, on prĂȘte moins dâattention Ă la fonction sommative des Ă©valuations. Si un apprenant obtient une note suffisante Ă un premier examen par exemple, il sait quâil validera le module et il nâa pas dâintĂ©rĂȘt particulier Ă optimiser ses autres Ă©valuations sommatives.
Sauf Ă viser un A, mais on peut aussi se passer du A : câest le cas des ActivitĂ© PĂ©dagogiques dâInter-semestre Ă lâUTC qui sont Ă©valuĂ©es juste avec « reçu » ou « non reçu ».
Passer dâune obligation de rĂ©sultat Ă une obligation de moyen ?
De fait certains cours sont mobilisĂ©s pour la validation du diplĂŽme, voire la sĂ©lection et le classement des Ă©tudiants, et dâautres comptent trĂšs peu pour cet objectif en pratique.
Certains cours pourraient donc ĂȘtre exclus du processus dâĂ©valuation sommative (comme en formation professionnelle). On Ă©conomiserait le temps de travail dâĂ©valuation sommative qui pourrait ĂȘtre rĂ©investi ailleurs. Quelques Ă©tudiants en profiteraient certainement pour « passer au travers » de certains contenus, il faudrait pouvoir Ă©valuer dans quelle mesure cela serait pire quâaujourdâhui.
Renoncer Ă noter ? (pourquoi note-t-on ?)
Certains cours, sinon tous, pourraient donc Ă©chapper totalement Ă la notation.
Ă quelle fin Ă©value-t-on les Ă©tudiants dans une Ă©cole qui a sĂ©lectionnĂ© Ă lâentrĂ©e comme lâUTC ?
- Pour valider que les étudiants ont été « bien » sélectionnés ?
- Pour les « forcer » à travailler ?
- Pour faire « sérieux » ?
- Pour rĂ©pondre aux demandes dâorganismes de certification du diplĂŽme ?
- âŠ
Notes et références
[1] â Marche Stephen. 2022. The College Essay Is Dead. in The Atlantic. https://www.theatlantic.com/technology/archive/2022/12/chatgpt-ai-writing-college-student-essays/672371/
[2] â LLM (Large Language Model) : Les grands modĂšles de langage (ou LLM, pour « Large Language Model ») sont des mĂ©canismes dâIntelligence Artificielle. Une de leurs applications les plus connues est la gĂ©nĂ©ration de textes ou dâimages. Lâouverture au public de ChatGPT, en novembre 2022, a popularisĂ© cette application. Chaque grande entreprise de lâinformatique sort dĂ©sormais son propre modĂšle, son propre LLM.
https://framablog.org/2023/07/31/que-veut-dire-libre-ou-open-source-pour-un-grand-modele-de-langage/
[3] â Lellouche Nicolas. 2023. Oubliez Enthoven : ChatGPT a eu la moyenne au bac de philo et câest ce qui compte, Oubliez Enthoven. in Numerama. https://www.numerama.com/tech/1415146-vous-navez-pas-besoin-de-neurone-pour-avoir-votre-bac-de-philo.html.
[4] â Bortzmeyer StĂ©phane. 2023. Que veut dire « libre » (ou « open source ») pour un grand modĂšle de langage ?. https://framablog.org/2023/07/31/que-veut-dire-libre-ou-open-source-pour-un-grand-modele-de-langage/.
[5] â Tiernan Ray. 2020. Quâest-ce que GPT-3 ? Tout ce que votre entreprise doit savoir sur le programme de langage dâIA dâOpenAIQuâest-ce que GPT-3 ?. https://www.zdnet.fr/pratique/qu-est-ce-que-gpt-3-tout-ce-que-votre-entreprise-doit-savoir-sur-le-programme-de-langage-d-ia-d-openai-39908563.htm.
[6] â Ertzscheid Olivier. 2023. GPT-3 : câest toi le Chat.GPT-3. https://affordance.framasoft.org/2023/01/gpt-3-cest-toi-le-chat/.
[7] â Sharples Mike. 2022. New AI tools that can write student essays require educators to rethink teaching and assessment. https://blogs.lse.ac.uk/impactofsocialsciences/2022/05/17/new-ai-tools-that-can-write-student-essays-require-educators-to-rethink-teaching-and-assessment/.
[8] â Farazouli Alexandra, Cerratto-Pargman Teresa, Bolander-Laksov Klara, McGrath Cormac. 2023. Hello GPT ! Goodbye home examination ? An exploratory study of AI chatbots impact on university teachersâ assessment practicesHello GPT ! Goodbye home examination ?. in Assessment & Evaluation in Higher Education. vol.0 n°0 pp1-13.https://doi.org/10.1080/02602938.2023.2241676.
[9] â Devereaux Bret. 2023. Collections : On ChatGPTCollections. in A Collection of Unmitigated Pedantry. https://acoup.blog/2023/02/17/collections-on-chatgpt/.
[10] â Hadji C.. 1989. LâĂ©valuation, rĂšgles du jeu : des intentions aux outils. ESF.
[11] â Astolfi Jean-Pierre. 1992. LâĂ©cole pour apprendre : lâĂ©lĂšve face aux savoirsLâĂ©cole pour apprendre. ESF.
[12] â Perrenoud Philippe. 1997. Construire des compĂ©tences dĂšs lâĂ©cole. ESF.
[13] â Meirieu Philippe. 2004. Faire lâĂ©cole, faire la classe : dĂ©mocratie et pĂ©dagogieFaire lâĂ©cole, faire la classe. ESF.
[14] â RanciĂšre Jacques. 1987. Le maĂźtre ignorant : cinq leçons sur lâĂ©mancipation intellectuelleLe maĂźtre ignorant. Fayard.
[15] â ECTS (European Credit Transfer and accumulation System). Le systĂšme europĂ©en de transfert et dâaccumulation de crĂ©dits a pour objectif de faciliter la comparaison des programmes dâĂ©tudes au sein des diffĂ©rents pays europĂ©ens. Le systĂšme ECTS sâapplique principalement Ă la formation universitaire. Il a remplacĂ© le systĂšme des unitĂ©s de valeur (UV) jusque-lĂ utilisĂ© en France. wikipedia.org