Outils d’IA et Évaluation des Étudiant·es ‒ Enseignement ‐ EPFL

L’évaluation notée est une partie importante de tout cours. Les outils d’IA peuvent intervenir dans l’évaluation notée des étudiant·es de manière appropriée et inappropriée :

Ils peuvent faciliter la production de travaux bien rédigés et bien formatés, permettant ainsi aux étudiant·es de mieux communiquer leurs idées.
Ils peuvent aider les étudiant·es à produire des travaux de meilleure qualité en servant d’outil de brainstorming et en fournissant des retours sur la forme et le contenu.
Ils peuvent permettre aux étudiant·es de soumettre des travaux d’évaluation (par exemple, des rapports de projet et de laboratoire, des essais, etc.) qui ne sont pas les leurs, mais où cela est difficile à détecter.

L’objectif de cette section est d’aider les enseignant·es à encourager l’utilisation constructive des outils d’IA par les étudiant·es tout en réduisant le risque de pratiques problématiques.

Sujets abordés dans ce document :

Utilisation appropriée et inappropriée des outils d’IA dans l’évaluation des étudiant·es
Détection de l’utilisation inappropriée de l’IA dans l’évaluation des étudiant·es
Réduction du risque d’utilisation inappropriée de l’IA dans l’évaluation des étudiant·es
Utilisation des outils d’IA par les enseignant·es dans les évaluations notées

L’utilisation appropriée des outils d’IA dépend des objectifs d’apprentissage. L’objectif des évaluations notées est de valider si l’étudiant·e est capable de démontrer la maîtrise des objectifs d’apprentissage du cours. La légitimité de l’utilisation d’un outil d’IA pour accomplir une tâche dépend des objectifs d’apprentissage. Par exemple, l’utilisation d’un outil d’IA pour traduire un texte peut ne pas être légitime dans un cours de langue (où la compétence de traduction est évaluée) mais peut être légitime si elle est réalisée dans le cadre d’un rapport de projet d’ingénierie.

Les objectifs d’apprentissage sont influencés par les outils d’IA. Il est également important de noter que l’existence des outils d’IA peut modifier les objectifs d’apprentissage d’un cours : par exemple, lors de la rédaction d’un programme pour analyser des données ou produire des graphiques, les éditeurs modernes suggèrent souvent la ligne suivante de votre code. L’analyse des données devient de facto une activité collaborative entre l’humain et la machine. Ce changement dans les pratiques signifie qu’il peut être inapproprié d’avoir comme objectif d’apprentissage “apprendre à produire des graphiques avec une librairie spécifique”; un objectif plus large tel que “analyser les données de l’expérience” peut être plus approprié. Par conséquent, la légitimité d’une utilisation particulière de l’IA dépend des compétences que vous souhaitez enseigner dans votre cours, ce qui diffère d’un cours à l’autre et peut même changer au fil du temps.

Exemples d’utilisation légitime :

Recherche et résumé de la littérature (en utilisant des outils tels que elicit.org ou perplexity.ai)
Brainstorming sur un sujet pour aider les étudiant·es à définir leurs idées de manière cohérente
Aide à la définition de la structure d’un rapport ou d’un essai
Codage avec des suggestions fournies par l’IA
Donner des retours sur la forme et le contenu, y compris des améliorations de la lisibilité pour aider à exprimer des idées de manière claire et grammaticalement correcte dans différentes langues

Communiquer les règles d’utilisation légitime aux étudiant·es.
Étant donné qu’il n’existe pas de règle universelle concernant l’utilisation de l’IA dans l’évaluation, il est recommandé que les enseignant·es mentionnent explicitement aux étudiant·es quel type d’utilisation n’est pas légitime dans leur cours et quelles règles accompagnent l’utilisation des outils d’IA. Cela pourrait prendre la forme d’une déclaration sur la page Moodle du cours qui devrait préciser :

Si l’utilisation des outils d’IA est autorisée dans le cours (par exemple, “Les étudiant·es sont autorisé·es à utiliser des outils d’IA sans restriction dans ce cours” ou “Les étudiant·es ne peuvent utiliser que des outils d’IA spécifiés et dans les circonstances décrites ci-dessous”)
Quels outils d’IA ils peuvent utiliser, le cas échéant (par exemple, Chatbots, générateurs d’images, générateurs de code, recherche de littérature ou outils de synthèse, etc.)
Dans quelles conditions (par exemple, “comme aide à l’étude, mais pas dans le matériel soumis pour évaluation”, ou “dans le matériel soumis pour évaluation à condition que l’utilisation soit correctement documentée”)
La raison de cette décision (par exemple, “Certaines tâches sont destinées à vous aider à apprendre et il serait préjudiciable à votre apprentissage d’utiliser un outil d’IA pour les accomplir”, ou “Nous devons être en mesure d’évaluer si vous pouvez accomplir des tâches spécifiques sans l’aide d’un outil d’IA”)
Les conséquences en cas de non-respect (c’est-à-dire “à l’EPFL, tout matériel d’évaluation qui n’est pas la contribution personnelle et originale de l’étudiant·e doit être reconnaissable comme tel [Lex 1.3.3, Article 4]). L’utilisation d’outils d’IA de manière non autorisée ou l’absence d’attribution de leur utilisation sera traitée comme un cas potentiel de tricherie et sera transmis à l’équipe des affaires juridiques de l’EPFL”).

Si vous souhaitez produire quelque chose de plus complet couvrant un plus large éventail de circonstances, Stanford a développé une ligne directrice complète pour élaborer une politique adaptée à votre cours : lien vers Stanford Teaching Commons.

Déclaration de divulgation de l’IA.
Les règles de l’EPFL (Lex 1.3.3, Article 4) exigent que tout matériel d’évaluation qui n’est pas la contribution personnelle et originale de l’étudiant·e soit reconnaissable comme tel. Il est donc recommandé que, lorsque l’utilisation de l’IA est autorisée, les enseignant·es exigent des étudiant·es qu’ils explicitent leur utilisation de l’IA dans la préparation du matériel d’évaluation. L’Université de Sydney (lien vers ‘Acknowledging and Referencing the use of AI’) fournit l’exemple de texte suivant qu’un·e enseignant·e peut insérer dans la description de l’évaluation : “L’utilisation de l’intelligence artificielle générative doit être correctement reconnue. Vous pouvez le faire en <insérant d’une note à la fin de votre soumission> où vous devez <décrire le(s) outil(s) d’intelligence artificielle que vous avez utilisé(s), ce qu’il(s) a(ont) permis de faire, le(s) message(s) que vous avez fourni(s) et la manière dont vous avez utilisé ou adapté les résultats de l’intelligence artificielle>. Cette description supplémentaire n’est pas comptabilisée dans le nombre de mots autorisés.”

Quelque chose de similaire peut être fourni comme exemple pour les étudiant·es (encore une fois, cela est basé sur l’exemple de l’Université de Sydney) :

« Je reconnais avoir utilisé ChatGPT (https://chat.openai.com/) pour affiner le langage académique de mon propre travail. Le <date>, j’ai soumis l’intégralité de mon essai (<lien vers le document original ici>) avec le prompt de <« Donner un feedback sur le ton académique et la précision de la langue, y compris les structures grammaticales, la ponctuation et le vocabulaire »>. Le résultat (<lien ici>) a ensuite été utilisé pour améliorer mon travail. »

Problèmes de détection du contenu généré par l’IA.
La détection du contenu généré par l’IA est un sujet controversé, et les résultats de recherche contradictoires compliquent encore les choses. Il est extrêmement difficile d’évaluer si une évaluation ou une partie d’une évaluation a été générée avec l’utilisation de l’IA. Les logiciels qui prétendent pouvoir le faire ne semblent pas, à l’heure actuelle (novembre 2024), être efficaces et peuvent être biaisés contre les personnes qui ne sont pas de langue maternelle. En effet, il y a eu des rapports de fausses accusations contre des étudiant·es (voir Farrelly et Baker, 2023). De plus, à part les outils de vérification de similarité mis à disposition à l’EPFL (iThenticate, turnitin), il n’existe actuellement aucun outil de détection d’IA validé pour une utilisation avec des données sensibles telles que les soumissions d’évaluation des étudiant·es. Pour toutes ces raisons, il est recommandé que les enseignant·es de l’EPFL n’utilisent pas de tels outils autres que ceux fournis par l’EPFL, et que, tout en utilisant les outils fournis par l’EPFL, ils ne se fient pas aux résultats de la fonctionnalité de détection de l’IA pour évaluer le plagiat de l’IA.

Outils traditionnels de vérification de similarité.
Les outils de “vérification de similarité” existants (par exemple iThenticate, turnitin) peuvent détecter des similitudes avec du matériel source existant et peuvent donc être utilisés pour détecter des cas suspects de plagiat. Ceux-ci restent généralement inefficaces dans les cas où l’IA générative est utilisée pour produire un nouveau texte. Ils peuvent, cependant, détecter des cas où l’outil d’IA reproduit un texte existant, et qu’il est inclus dans le travail d’un·e étudiant·e sans citation.

Une autre utilisation des outils de détection de plagiat est de repérer les références bibliographiques qui n’existent pas. Dans un tel cas, les outils de détection de plagiat identifient des similitudes pour la plupart des citations vraies mais ne repèrent aucune pour les citations inventées. Il peut néamnoins arriver que certaines citations vraies (par exemple, Warnock, 1977 dans l’exemple ci-dessous) ne soient pas repérées par cette méthode. Cependant, si de nombreuses références dans une soumission d’un·e étudiant·e ne sont pas signalées par un outil de vérification de similarité, vous devrez peut-être prendre investiguer plus avant pour déterminer si vous avez un cas de plagiat par IA.

Figure : Une bibliographie avec des similitudes détectées pour certaines références (c’est-à-dire qu’elles existent) et d’autres sans similitudes (elles n’existent pas ailleurs).

Étapes pour détecter les soumissions problématiques.
En l’absence de solutions numériques efficaces, il incombe aux humains d’utiliser des pratiques permettant de détecter les soumissions problématiques. Ces pratiques sont très similaires, quel que soit le problème suspecté, qu’un·e étudiant·e ait utilisé un outil d’IA pour générer sa soumission, plagié le travail de quelqu’un d’autre ou payé quelqu’un pour le faire.

Combiner plusieurs méthodes d’évaluation (par exemple, une présentation orale du rapport de projet) peut être une stratégie utile pour détecter si les étudiant·es ont eux-mêmes produit le travail soumis.

De plus, lorsqu’un·e enseignant·e a des doutes sur l’origine de certains matériaux soumis pour évaluation, il ou elle peut interviewer l’étudiant·e et lui demander de discuter et d’expliquer des parties spécifiques de sa soumission (par exemple, code, figures, idées, etc.).

En cas de suspicion de fraude et/ou de tricherie, l’enseignant·e rédige un rapport qu’il ou elle envoie ensuite au directeur de section et au Service juridique ([email protected]) avec les preuves de l’élément ou du comportement compromettant ou suspecté.

Les cas suspects ne doivent pas être traités par l’enseignant·e seul·e, car cela empêche l’école d’avoir une vue d’ensemble des étudiant·es qui peuvent agir de manière problématique de manière répétée dans plusieurs cours. De plus, l’enseignant·e doit être soutenu·e dans la gestion du problème tout en étant clair·e sur le contexte juridique.

Clarification des attentes.
Une raison courante pour laquelle les étudiant·es adoptent des comportements problématiques est qu’ils·elles ne comprennent pas ce qui est attendu d’eux·elles, surtout lorsque différents cours ont des exigences différentes. Rendre les exigences explicites pour les étudiant·es (comme décrit ci-dessus) réduit ce risque (voir ‘utilisation des grilles de notation’ dans le guide d’enseignement).

Cependant, même lorsque les étudiant·es sont informé·es de ce qui est requis, ils·elles peuvent encore avoir du mal à comprendre ce que cela signifie en pratique. Cela peut être abordé par deux stratégies :

Des exemples de bonnes pratiques (comme l’exemple de la citation de l’utilisation de l’IA générative fourni ci-dessus) peuvent aider à rendre les exigences plus applicables par les étudiant·es.

Fournir des opportunités à faible enjeu (non notées) pour que les étudiant·es reçoivent des retours (par exemple, des retours entre pairs) sur leur citation des outils d’IA peut les aider à améliorer ces pratiques avant une soumission finale.

Valoriser le processus d’apprentissage.
De manière générale, les étudiant·es peuvent être moins susceptibles de s’engager consciemment dans la tricherie s’ils·elles reconnaissent que les compétences/connaissances qu’ils·elles acquièrent en complétant l’évaluation sont significatives pour eux·elles. Il peut être utile de clarifier pour les étudiant·es l’utilité des compétences qu’ils·elles développent, pratiquent ou démontrent à travers l’évaluation du cours. Passer par un processus d’apprentissage exigeant est essentiel pour acquérir des compétences et des connaissances.

Conception des évaluations.
Lors de la conception des évaluations des étudiant·es, il peut être judicieux de demander à un outil d’IA générative (Microsoft 365 Copilot, ChatGPT) de répondre à la question d’évaluation. Cela vous permettra d’avoir une idée des types de résultats que l’on peut attendre d’un outil d’IA. Ce faisant, il peut être utile de fournir plusieurs prompts pour avoir une meilleure idée des types de résultats possibles et de comprendre comment un·e étudiant·e utilisant l’outil peut se recentrer pour inclure les concepts les plus pertinents pour le cours.

Par exemple, un premier prompt pourrait être : “Suggére la structure d’un court rapport (environ 800 mots) sur un laboratoire de chimie impliquant l’extraction des colorants des enrobages de bonbons M&M en utilisant de la laine, puis la séparation des colorants en utilisant la technique de la chromatographie sur papier ?”
Cela peut être mis à jour avec un deuxième prompt pour voir comment l’outil peut intégrer des concepts explicitement abordés dans le contenu du cours : “Adapte le rapport pour faire référence spécifiquement à (i) un diagramme en V, (ii) la phase mobile et (iii) la phase stationnaire d’une investigation par chromatographie sur papier, et (iv) le concept de temps de rétention ?”
Une mise à jour supplémentaire pourrait être : “Explique comment l’expérience aurait été différente si (i) nous avions utilisé du vinaigre au lieu de l’éthanol, (ii) nous avions utilisé de l’acrylique au lieu de la laine ?”

Comme le souligne une étude récente, une partie substantielle des questions d’évaluation à l’EPFL peut en fait être correctement répondue par des outils d’IA : lien. Dans certains cas, vous serez peut-être amené à repenser vos méthodes d’évaluation. Vous pouvez sélectionner des stratégies pour atténuer le risque que les étudiant·es utilisent des outils d’IA pour compléter les évaluations, notamment :

utiliser différents types de questions
mener des entretiens oraux en complément aux rapports
des examens surveillés et
des chroniques vidéo documentant l’avancement du projet.

Une étude menée par des collègues australien·ne·s fournit un aperçu complet des stratégies de vulnérabilité et de remédiation : lien. L’université technique de Munich a publié un guide pour repenser l’évaluation en réponse à ChatGPT : lien. Changer le contexte des évaluations pourrait également être utile. Un modèle de classe inversée permettrait aux étudiant·es de travailler sur des devoirs en classe, tout en bénéficiant de conseils sur l’utilisation appropriée des outils d’IA.

Bien qu’il soit potentiellement intéressant d’utiliser des outils d’IA pour aider à la notation des évaluations, cette utilisation n’est actuellement pas recommandée à l’EPFL. Étant donné que le matériel d’évaluation des étudiant·es peut être considéré comme des données sensibles, il n’existe pas de cadre de protection des données en place pour couvrir ce type d’utilisation. Même si des outils comme Microsoft 365 Copilot sont conformes à certains égards aux règles de protection des données, il n’y a actuellement aucune recommandation officielle de la déléguée à la protection des données (DPO) pour l’utilisation de ces outils pour traiter les soumissions des étudiants. L’exécution locale d’un LLM sur l’infrastructure de l’EPFL est pour l’instant l’approche la plus sûre, mais la plus difficile techniquement.

Il convient également de noter qu’il existe un risque de biais dans l’utilisation des outils d’IA. Il y a aussi des preuves que les utilisateurs·trices ont tendance à trop faire confiance aux résultats des outils d’IA (lien). Ce sont des considérations importantes dans l’évaluation à enjeux élevés des étudiant·es, et la recherche sur ces questions en est encore à ses débuts.

Comme cette situation évolue rapidement (en termes de cadre juridique, de recherche sur l’impact de ces outils et de la nature des outils eux-mêmes), cette recommandation sera régulièrement mise à jour.

Message de l’AVP Éducation aux étudiant·es 09/10/2023

Aujourd’hui, il existe un grand nombre d’outils d’intelligence artificielle générative capables de produire des médias synthétiques tels que des textes ou des images [1][3]. Comme tout outil, ils ont leurs avantages, mais aussi des limitations et des risques majeurs dont vous devez être conscient·es. Rappelez-vous toujours de rester critique.

Quand ne pas envisager d’utiliser des outils d’IA générative ?

N’utilisez pas ces outils pour apprendre de nouvelles choses ou pour rechercher des informations : ils génèrent souvent des absurdités plausibles et peuvent vous faire croire que ce qu’ils génèrent est vrai ou réel alors que ce n’est pas le cas.
Ne les utilisez pas pour générer du contenu que vous n’êtes pas en mesure de vérifier quant à sa véracité ou à sa forme : par exemple, une langue étrangère.

Quand envisager d’utiliser des outils d’IA générative ?

Lorsque vous voulez être surpris·e : par exemple, pour générer des idées.
Lorsque vous avez la possibilité de vérifier l’exactitude du résultat généré par l’outil d’IA : par exemple, ne générez que du code que vous pouvez exécuter et vérifier vous-même.
Lorsque vous avez besoin d’aide pour la forme de votre production, plutôt que pour son contenu : par exemple, pour améliorer la formulation de votre texte, résumer un passage trop long ou surmonter le blocage de l’écrivain.

Quels sont les risques ?

Absurdités plausibles [2] : nous avons généralement tendance à faire plus confiance aux machines qu’à nous-mêmes (biais d’automatisation [4]), ce qui nous rend d’autant plus vulnérables à la plausibilité apparente du contenu généré par ce logiciel, même lorsqu’il est complètement faux ou incorrect.
Impact environnemental : ce logiciel est parmi les moins efficaces en termes d’énergie et d’eau, alors évitez de l’utiliser lorsque vous avez des outils qui accompliront la même tâche avec moins d’impact (par exemple, rechercher sur le web, ou même regarder des vidéos).
Confidentialité : en utilisant des outils d’IA générative, vous partagez vos données avec des entreprises privées, alors n’entrez aucune donnée personnelle ou sensible vous concernant ou concernant d’autres personnes.
Biais : ce logiciel souffre de différents types de biais, qu’il s’agisse de biais de genre (par exemple, traduction automatique [5], génération d’images [6]) ou de biais basés sur l’origine ethnique ou l’orientation religieuse (par exemple, génération de texte [7]). Évaluez les résultats avec soin et pensez de manière critique.

Quelles sont les règles pour utiliser l’IA générative dans vos études ?

Suivez les instructions de vos enseignant·es. Les enseignant·es peuvent concevoir des activités d’apprentissage qui peuvent ou non inclure certains outils. Une pratique courante est de mentionner votre utilisation des outils d’IA générative dans votre travail académique. Par exemple : l’outil d’IA X a été utilisé pour améliorer la grammaire du texte et le rendre plus compréhensible ou l’outil Y a été utilisé pour générer une illustration.
Vous êtes responsable du travail que vous soumettez en votre nom et de votre comportement conformément aux attentes de la société envers les futur·es scientifiques. Dans le cadre des évaluations de projet à l’EPFL, les enseignant·es peuvent vous demander d’expliquer un paragraphe ou un fragment de code informatique pour vérifier que vous êtes l’auteur·e du travail que vous avez soumis, sans l’aide d’outils d’IA générative.

Nous vous remercions de prendre note de ce qui précède et vous souhaitons une bonne continuation pour le reste du semestre.

Pierre Dillenbourg, Vice-Président Associé pour l’Éducation
Patrick Jermann, Chef du CEDE – Centre pour l’Éducation Digitale

Pour en savoir plus :

[1] Barraud, E, Petersen, T, Overney, J., Aubort S. & Brouet A.-M. (2023). Intelligence artificielle. Amie ou concurrente. Dimensions, 8. EPFL. https://longread.epfl.ch/dossier/intelligence-artificielle-amie-ou-concurrente/

[2] Hardebolle, C. Ramachandran, V. (to appear). SEFI Editorial for the Special Interest Group on ethics: https://go.epfl.ch/plausiblenonsense

[3] Rochel, J. (2023) ChatGPT. 6 questions fondamentales. https://ethix.ch/sites/default/files/inline-files/Ethix_ChatGPT_April2023.pdf

[4] Suresh, H., Lao, N., & Liccardi, I. (2020, July). Misplaced trust: Measuring the interference of machine learning in human decision-making. In Proceedings of the 12th ACM Conference on Web Science (pp. 315-324). https://dl.acm.org/doi/10.1145/3394231.3397922

[5] Schiebinger, L., Klinge, I., Sánchez de Madariaga, I., Paik, H. Y., Schraudner, M., and Stefanick, M. (Eds.) (2011-2021). Gendered Innovations in Science, Health & Medicine, Engineering and Environment. https://genderedinnovations.stanford.edu/case-studies/nlp.html#tabs-2

[6] Leonardo Nicoletti and Dina Bass. Humans Are Biased. Generative AI Is Even Worse, Text-to-image models amplify stereotypes about race and gender — here’s why that matters https://www.bloomberg.com/graphics/2023-generative-ai-bias/ .

[7] Abid, A., Farooqi, M., & Zou, J. (2021). Large language models associate Muslims with violence. Nature Machine Intelligence, 3(6), 461-463. https://www.nature.com/articles/s42256-021-00359-2