Intelligence artificielle et information scientifique

Cette page web vous aidera à naviguer dans le paysage en constante évolution de l’utilisation responsable de l’IA pendant vos études à l’EPFL. Nous nous concentrerons sur les LLM courants comme ChatGPT d’OpenAI et Gemini de Google, ainsi que les assistants de recherche IA spécialement conçus pour diverses tâches de recherche. Nous vous présenterons quelques principes clés à garder à l’esprit lors de l’utilisation des LLM, ainsi que les principaux inconvénients dont il faut être conscient.
Au fur et à mesure que l’IA progresse à un rythme rapide, cette page sera régulièrement mise à jour. Restez à l’affût !
Artificial Intelligence and scientific information

Image générée avec ChatGPT 4.0.

Au cours des dernières années, les outils d’IA ont transformé notre façon de rechercher des informations, d’apprendre et de créer. Depuis son apparition en 2022, ChatGPT a rassemblé plus de 5 millions d’utilisateur·trices, et combiné à d’autres grands modèles de langage (LLMs) populaires, il est clair que l’IA est là pour rester.

Les grands modèles de langage sont de plus en plus intégrés aux services de bibliothèque et aux pratiques des chercheur·es grâce à leur capacité à résumer rapidement d’énormes quantités d’informations, à aider au brainstorming et à améliorer la rédaction, le tout en adoptant un ton très humain. Cependant, si vous avez déjà essayé d’utiliser un LLM, vous avez probablement constaté qu’ils peuvent être assez sujets aux erreurs, générant des informations qui semblent plausibles mais qui ne sont pas factuellement exactes. Cela provient de leur conception : les LLM sont essentiellement des outils de prédiction de texte très sophistiqués entraînés sur des quantités sans précédent d’informations générées par des humains. Ils ont été entraînés à prédire la réponse la plus probable à une invite (ou prompt en anglais), en se basant sur les schémas de communication humaine. Ils n’ont pas été conçus pour penser comme nous, pour nous corriger systématiquement lorsqu’on se trompe, ou pour « ne pas savoir » répondre à une requête. Ce sont davantage des correcteurs automatiques sous stéroïdes que de l’intelligence omnipotente. C’est pourquoi les LLM doivent être utilisés de manière responsable, comme des outils, avec nos compétences de pensée critique pleinement engagées.

Recommandations de base

Recherche d’information avec les LLM

Image générée avec ChatGPT 4.0.

Les grands modèles de langage (LLM) sont avant tout des systèmes de prédiction de texte. Cela signifie que, lorsque nous posons un prompt à un LLM (prompt), il découpe le prompt en mots ou ensembles de mots (tokens) et calcule la probabilité statistique du mot ou groupe de mots qui devrait suivre. Comme les LLMs ont été entraînés à réaliser ces calculs à partir de tout le texte présent sur Internet (articles de presse, commentaires sur les réseaux sociaux, etc.), la réponse obtenue (sortie) ressemble à celle d’une vraie personne qui sait de quoi elle parle. En réalité, les LLMs ne comprennent ni le contenu de nos prompts, ni celui de leurs réponses, comme le font les humains. Cette prédiction statistique du texte fait que la formulation et l’ordre des phrases de notre prompt peuvent modifier drastiquement la qualité de la sortie obtenue. Et, parce qu’un texte peut toujours être prolongé, les LLMs doivent fournir une réponse à tout prompt.

En gardant cela à l’esprit, voici quelques lignes directrices essentielles à retenir lors de l’utilisation des LLMs :

Principes généraux

  • Les LLMs sont des outils, pas des sources d’information fiables : ils s’appuient sur des motifs statistiques et ne possèdent pas une compréhension réelle du sujet.
  • Les LLMs peuvent « halluciner », c’est‑à‑dire générer du non‑sens plausible simplement pour répondre à nos prompts.
  • La qualité du prompt que nous fournissons peut faire la différence entre une réponse utile et une réponse inutile.

Recommandations d’usage général


  • Affiner le style/le ton (ex. : « Peux‑tu reformuler cette phrase pour la rendre plus percutante ? »)
  • Brainstorming (ex. : « Donne‑moi le plan d’un article sur… »)
  • Création d’images
  • Mentionner l’outil utilisé

 

 

  • Découverte d’un nouveau sujet –toujours vérifier les informations car les LLMs ont tendance à halluciner (cela vaut aussi pour les références bibliographiques).

 

 

 


  • Rédaction d’un travail depuis zéro – utiliser l’IA pour écrire à votre place est éthiquement inacceptable ; vous restez responsable du travail soumis.
  • Utiliser l’IA comme unique source d’information.
  • Citer les sorties de l’IA – les citations sont peu fiables par nature ; privilégiez les sources académiques vérifiées.
  • Accepter les références proposées sans vérification – à proscrire.

Recherche d’information avec les assistants de recherche

Image générée avec ChatGPT 4.0.

Les assistants de recherche IA sont également des LLMs, mais ils sont spécialisés dans la recherche scientifique. Leur corpus d’entraînement est limité aux bases de données scientifiques et aux dépôts d’articles, afin d’aider les chercheur·es dans des tâches précises : découverte de littérature, revues de littérature, affinement de questions de recherche, etc.

Comme pour tout LLM, l’efficacité de ces assistants dépend fortement de la qualité de nos prompts et de notre capacité à penser de façon critique face aux résultats. En plus des directives générales ci‑dessus, voici quelques points supplémentaires :

Principes spécifiques

  • Vérifiez, quand c’est possible, le corpus d’entraînement de l’outil : plus le corpus est vaste (Semantic Scholar ≈ 200 M d’enregistrements, Web of Science ≈ 83 M, Scopus ≈ 84 M), plus la « base de connaissances » est large, mais la taille peut parfois nuire à la qualité du contrôle.
  • Chaque assistant de recherche fonctionne différemment : identifiez ce que l’outil peut réellement faire pour vous (voir la section « Les outils » plus bas).

IA dans la rédaction académique

Image générée avec ChatGPT 4.0.

Si vous utilisez des LLMs, qu’ils soient à usage général ou des assistants de recherche, pour rédiger un manuscrit destiné à la publication, deux règles importantes s’ajoutent :

  • Les LLMs ne peuvent pas être tenus responsables du contenu qu’ils génèrent. Par conséquent, ils ne peuvent pas être listés comme auteurs ou co‑auteurs d’un manuscrit, conformément à la législation suisse (Loi sur le droit d’auteur, chapitre 2 art. 6 – https://www.fedlex.admin.ch/eli/cc/1993/1798_1798_1798/en).
  • Le LLM utilisé, la façon dont vous l’avez employé et le rôle qu’il a joué doivent être clairement indiqués dans le manuscrit. Respectez les politiques de votre éditeur concernant l’utilisation de contenus générés par l’IA (ex. : Politiques éditoriales de Nature – IA).

Protection de la vie privée et données sensibles

  • Les informations personnellement identifiables (nom, adresse, etc.) ou sensibles (orientations religieuses, opinions politiques, etc.) ne doivent jamais être divulguées dans les prompts.
  • Si vous devez absolument inclure de telles informations, anonymisez‑les avant de les soumettre.

Violation du droit d’auteur et plagiat

  • Lisez attentivement les conditions d’utilisation de l’outil afin de connaître qui détient les droits d’auteur sur le résultat généré.
  • Soyez vigilant quant aux risques de violation du droit d’auteur : demander à un LLM de créer une image à partir d’une capture d’écran d’un film, mais dans le style de Studio Ghibli, pourrait entraîner des problèmes juridiques tant du côté du détenteur du film que du studio Ghibli.
  • Le plagiat est sanctionné, qu’il soit intentionnel ou non. Évitez donc de copier mot à mot le texte produit par l’IA ; cherchez plutôt des sources crédibles pour étayer les affirmations et citez‑les correctement.

Clauses IA dans les contrats avec les éditeurs académiques

Dans le paysage actuel de la publication scientifique, les accords avec les éditeurs régissent de plus en plus l’usage de l’intelligence artificielle en lien avec le contenu licencié. À mesure que les outils d’IA s’intègrent aux flux de travail de recherche et de publication, comprendre les usages autorisés et interdits du contenu couvert par les accords devient essentiel. Une bonne maîtrise de ces termes assure la conformité et évite d’éventuels litiges.

Cette section sera mise à jour chaque fois qu’un nouvel accord sera signé.

“Open access publications with a CC-BY license can be used with any kind of available AI tool, may be used for the development and training of any AI tool and the results including the content can be freely shared.

Licensed content (closed publications) or Open Access publications with a restrictive CC-BY-NC-ND license, where Elsevier owns all rights or some key rights such as the right to create derivatives, may be used

  • with closed versions of AI tools that do not train the algorithm, do not learn from the input or incorporate the input in the AI tool (e.g. Open AI « non-learning » subscription version ChatGPT Team). The use of the closed version may be subject to a fee and / or restrictions.
  • with open versions of learning AI tools or to develop your own AI tool or platform, provided that it is used in a secure, user-controlled environment (i.e. self-hosted in an on-premises environment or in an environment hosted externally solely for use by Participating Institutions or Authorised Users).

Results generated or platforms developed with the help of AI may be published and made available for research and teaching, provided that they do not contain or reproduce content from closed or CC-BY-NC-ND publications. Links to closed publications are permitted. The commercial use of AI-generated content or platforms is prohibited.”

Source

Les outils

Intelligence artificielle générative

LLM à usage général capables de générer du texte, des images, des vidéos, du code, d’assister dans diverses tâches et de tenir des conversations. Ces modèles de base constituent la technologie centrale derrière de nombreuses applications spécialisées.

https://chatgpt.com/

Assistant conversationnel polyvalent basé sur les modèles GPT, capable de générer du texte, d’aider à la rédaction, de répondre aux questions et de tenir des conversations naturelles sur un large éventail de sujets.

Modèle économique : freemium (version gratuite avec GPT‑3.5, abonnement ChatGPT Plus pour GPT‑4 et fonctionnalités additionnelles)

Usages recommandés:

  • Création de contenu et brainstorming
  • Réponses aux questions de culture générale
  • Assistance en programmation et résolution de problèmes
  • Explications pédagogiques et tutorat

Points forts:

  • Polyvalent sur de nombreux domaines et types de requêtes
  • Large communauté d’utilisateur·trices avec un écosystème riche de plugins et d’extensions
  • Mises à jour régulières du modèle et améliorations continues
  • Forte intégration avec les autres produits et services OpenAI

Points faibles:

  • Peut occasionnellement produire des informations erronées
  • Limite de connaissances dans la version gratuite
  • Performances variables selon la qualité du prompt
  • Risque de dépendance excessive aux réponses sans vérification

https://claude.ai

Assistant conversationnel capable de raisonnement complexe et de réponses nuancées.

Modèle économique : freemium (version gratuite avec limitations, Claude Pro pour les fonctionnalités avancées)

Usages recommandés:

  • Analyse et résumé de documents
  • Conversations réfléchies sur des sujets complexes
  • Assistance à la rédaction de contenus nuancés

Points forts:

  • Capacités de raisonnement solides
  • Excellente compréhension du contexte et des nuances

Points faibles:

  • Peut être trop prudent sur certains types de contenu
  • Certaines fonctionnalités avancées réservées à la version payante

https://chat.deepseek.com/

Système d’IA axé sur l’apprentissage profond et la génération/compréhension de code, développé spécifiquement pour les tâches de programmation.

Modèle économique : freemium (fonctionnalités de base gratuites, options premium pour les abonnés)

Usages recommandés:

  • Génération et complétion de code
  • Assistance à la rédaction de documentation technique
  • Apprentissage de concepts de programmation

Points forts:

  • Spécialisé dans les tâches liées au code
  • Performances élevées sur les langages de programmation
  • Versions de modèles open‑source disponibles

Points faibles:

  • Moins polyvalent pour les tâches hors codage
  • Produit récent avec un écosystème encore en construction
  • Problèmes potentiels de censure et de confidentialité

https://gemini.google.com/

Modèle multimodal de Google capable de comprendre et de combiner différents types d’informations : texte, code, audio, image et vidéo.

Modèle économique : freemium (accès gratuit à Gemini avec un compte Google, Gemini Advanced payant)

Usages recommandés:

  • Tâches multimodales impliquant divers médias
  • Génération de contenu créatif
  • Synthèse d’informations
  • Assistance à la programmation

Points forts:

  • Capacités multimodales puissantes
  • Intégration fluide avec l’écosystème Google
  • Raisonnement avancé
  • Informations à jour lorsqu’on utilise la recherche Google

Points faibles:

  • Performances variables selon les tâches
  • Certaines fonctions avancées réservées à la version payante
  • Questions de confidentialité liées au traitement des données (Google)
  • Peut favoriser les services Google dans les recommandations

https://github.com/features/copilot

Assistant de programmation IA qui suggère du code et des fonctions entières en temps réel directement dans votre éditeur, alimenté par le modèle Codex d’OpenAI.

Modèle économique : abonnement (plans individuels et entreprises)

Usages recommandés:

  • Accélérer les tâches de codage et réduire le code répétitif
  • Apprendre de nouveaux langages ou frameworks
  • Débogage et suggestions d’amélioration du code

Points forts:

  • Comprend le contexte du code environnant
  • Prise en charge de nombreux langages de programmation
  • Suggestions en temps réel pendant la saisie

Points faibles:

  • Peut proposer du code incorrect ou inefficace
  • Coût d’abonnement pour les développeurs individuels
  • Questions juridiques potentielles concernant les données d’entraînement
  • Dépend de la qualité du code existant pour le contexte

https://www.llama.com/

Grand modèle de langage open‑source conçu pour être accessible à la recherche et aux applications commerciales, disponible en différentes tailles de paramètres.

Modèle économique : open‑source (gratuit à utiliser, adapter et déployer)

Usages recommandés:

  • Solutions IA auto‑hébergées
  • Recherche et affinement pour des domaines spécifiques
  • Applications nécessitant un déploiement local

Points forts:

  • Flexibilité open‑source
  • Diverses tailles de modèles adaptées aux ressources informatiques disponibles
  • Aucun frais d’utilisation ou coût d’API
  • Possibilité de fine‑tuning pour des cas d’usage précis

Points faibles:

  • Nécessite des compétences techniques pour un déploiement efficace
  • Ressources de calcul importantes pour les modèles de grande taille

https://copilot.microsoft.com/

Assistant IA intégré aux applications Microsoft 365 et à Windows, aidant les utilisateurs à créer du contenu, résumer des informations et automatiser des tâches au sein de l’écosystème Microsoft.

Modèle économique : mixte (certaines fonctionnalités incluses avec les abonnements Microsoft 365, options premium via Copilot Pro)

Usages recommandés:

  • Création et édition de contenu dans les applications Office
  • Rédaction et synthèse d’e‑mails dans Outlook
  • Résumés de réunions et actions dans Teams
  • Assistance à l’analyse de données dans Excel
  • Création de présentations dans PowerPoint

Points forts:

  • Intégration profonde avec l’écosystème Microsoft
  • Assistance contextuelle sur plusieurs applications
  • Sécurité et conformité de niveau entreprise
  • Réduction du temps passé sur les tâches récurrentes

Points faibles:

  • Nécessite un abonnement Microsoft 365
  • Coût supplémentaire pour les fonctionnalités Copilot Pro
  • Performances variables selon les applications
  • Utilité limitée en dehors de l’écosystème Microsoft
  • Courbe d’apprentissage pour exploiter toutes les possibilités

https://mistral.ai/

Entreprise d’IA open‑source développant des modèles de langage puissants avec des architectures efficaces, offrant de bonnes performances même avec des tailles de paramètres réduites.

Modèle économique : mixte (versions open‑source et accès API payant)

Usages recommandés:

  • Intégration IA en entreprise
  • Applications auto‑hébergées
  • Recherche et développement
  • Génération et compréhension de texte

Points forts:

  • Excellent rapport performance/taille
  • Approche ouverte avec modèles accessibles
  • Architecture efficace nécessitant moins de puissance de calcul
  • Focus européen avec accent sur la souveraineté des données

Points faibles:

  • Entreprise récente avec une gamme de produits en évolution
  • Écosystème d’outils moins établi
  • Peut être moins performant que les modèles plus grands sur certaines tâches spécialisées

Assistants de recherche

Outils IA spécialisés destinés à soutenir la recherche académique et scientifique : recherche, analyse et synthèse d’informations provenant de sources savantes. Ils accélèrent les revues de littérature et simplifient le processus de recherche.

https://consensus.app/

Moteur de recherche alimenté par l’IA, spécifiquement conçu pour la recherche scientifique ; il trouve et résume les enseignements tirés des articles académiques.

Modèle économique : freemium (recherche de base gratuite, fonctionnalités premium par abonnement)

Corpus d’entraînement : Semantic Scholar

Usages recommandés:

  • Revues de littérature
  • Suivi des évolutions de la recherche
  • Recherche du consensus scientifique sur des questions précises

Points forts:

  • Axé sur la recherche évaluée par les pairs
  • Fournit des résumés concis des résultats
  • Citations pour toutes les informations
  • Réduit la surcharge informationnelle

Points faibles:

  • Limité au contenu académique et scientifique
  • Peut omettre les publications très récentes
  • Les fonctionnalités avancées nécessitent un abonnement
  • Couverture restreinte dans certains domaines de niche

https://elicit.com/

Assistant de recherche qui utilise l’IA pour aider les chercheur·es à trouver des articles pertinents, à comprendre la recherche et à résumer les résultats.

Modèle économique : freemium (fonctions de base gratuites, équipe et fonctionnalités avancées payantes)

Corpus d’entraînement : Semantic Scholar

Usages recommandés:

  • Revues de littérature et résumés
  • Recherche d’études pertinentes sur des sujets spécifiques
  • Extraction d’informations clés à partir d’articles

Points forts:

  • Se concentre sur l’extraction d’informations pertinentes
  • Aide à formuler des questions de recherche
  • Fournit des cartes de littérature et des connexions entre travaux

Points faibles:

  • Peut rencontrer des difficultés avec des sujets très techniques ou très spécialisés
  • Idéal pour des questions de recherche précises plutôt que pour une exploration large
  • Certaines fonctionnalités avancées réservées aux plans payants

https://scite.ai/assistant

Outil d’IA qui fournit le contexte et l’analyse des citations, montrant comment les articles scientifiques ont été cités par d’autres chercheurs.

Modèle économique : freemium (fonctions de base gratuites, fonctionnalités premium par abonnement)

Corpus d’entraînement : multiples sources (éditeurs, Unpaywall, PubMed, Fatcat, divers serveurs de prépublications, dépôts universitaires, revues en libre accès, etc.)

Usages recommandés:

  • Évaluer l’impact et la réception d’un article de recherche
  • Comprendre le contexte des citations (soutien, contraste ou simple mention)
  • Identifier les articles clés d’un domaine de recherche

Points forts:

  • Affiche le contexte des citations, pas seulement le nombre
  • Classe les citations comme soutenant, contrastant ou mentionnant
  • Extension Chrome pour une intégration fluide
  • Aide à juger la validité et l’impact d’une recherche

Points faibles:

  • La couverture varie selon les disciplines
  • Courbe d’apprentissage pour saisir les classifications de citations
  • Certaines analyses avancées réservées au niveau payant

Génération augmentée par récupération (RAG)

Systèmes IA qui combinent les capacités génératives des LLMs avec la possibilité de récupérer et de référencer des informations précises provenant de sources externes ou de bases de données. Cette approche améliore la précision en ancrant les réponses de l’IA dans des faits vérifiés.

https://chatgpt.com/

Versions personnalisables de ChatGPT pouvant être configurées avec des consignes, des connaissances et des capacités spécifiques pour répondre à des cas d’usage particuliers.

Modèle économique : nécessite un abonnement ChatGPT Plus pour créer des GPTs personnalisés

Usages recommandés:

  • Assistance sectorielle ou métier‑spécifique
  • Interactions avec une base de connaissances d’entreprise
  • Flux de travail spécialisés
  • Automatisation de tâches ciblées

Points forts:

  • Personnalisable sans besoin de coder
  • Possibilité de téléverser des documents de référence
  • Adaptable à des cas d’usage précis
  • Capacités de navigation web et d’utilisation d’outils

Points faibles:

  • La création de GPTs personnalisés requiert un abonnement payant
  • Mémoire limitée entre les sessions
  • Risques de confidentialité liés aux données téléversées
  • Peut tout de même « halluciner » malgré les connaissances personnalisées

https://notebooklm.google.com/

Outil qui associe l’environnement interactif des notebooks à de grands modèles de langage, offrant une assistance IA consciente du contexte pour l’analyse de données et les flux de travail de recherche.

Modèle économique : freemium (accès gratuit avec un compte Google, version Plus payante disponible)

Usages recommandés:

  • Projets de data‑science
  • Analyse de données interactive
  • Création de contenus éducatifs
  • Documentation de recherche

Points forts:

  • Conscience du contexte de vos données et de votre code
  • Fusion des capacités computationnelles et linguistiques
  • Intégration possible aux flux de travail d’analyse de données existants

Points faibles:

  • Consommation de ressources parfois importante
  • Connaissances de domaine parfois limitées
  • Problèmes de confidentialité liés au traitement des données (Google)
  • Risque de priorisation des services Google dans les recommandations

Autres

https://www.perplexity.ai/

Moteur de réponses alimenté par l’IA qui combine capacités de recherche et modèles de langage pour fournir des réponses référencées et actualisées aux questions.

Modèle économique : freemium (fonctionnalités de base gratuites, abonnement Pro pour les options avancées)

Usages recommandés:

  • Collecte d’informations en temps réel
  • Recherche sur des sujets d’actualité
  • Vérification rapide de faits
  • Apprentissage de sujets complexes

Points forts:

  • Fournit les sources de l’information (uniquement depuis le web)
  • Allie recherche et IA
  • Plus à jour que les LLM classiques
  • Possibilité de suivi conversationnel

Points faibles:

  • Peut encore contenir des informations erronées
  • Profondeur limitée comparée aux outils de recherche spécialisés
  • Les citations ne soutiennent pas toujours pleinement les affirmations
  • Idéal pour des requêtes factuelles plutôt que des tâches créatives

Notre offre de formation

Reshaping Information Research with AI

[En anglais seulement] In the last few years, many AI-powered tools have promised to fundamentally change the way we look for information. During this workshop, we will explore some of them, focusing on so-called research assistants in order to understand how they work and how we can use them to make our research better.

Utilisation de l’IA dans la création de cette page

Nous avons utilisé ChatGPT 4.0 pour générer toutes les illustrations et affiner la rédaction de cette page (en anglais). Nous avons ensuite utilisé Lumo pour une traduction de base en français, que nous avons ensuite vérifiée nous-mêmes.

Contact

[email protected]


+41 21 693 21 56


Access map