Intelligence artificielle et information scientifique
Au fur et à mesure que l’IA progresse à un rythme rapide, cette page sera régulièrement mise à jour. Restez à l’affût !

Image générée avec ChatGPT 4.0.
Au cours des dernières années, les outils d’IA ont transformé notre façon de rechercher des informations, d’apprendre et de créer. Depuis son apparition en 2022, ChatGPT a rassemblé plus de 5 millions d’utilisateur·trices, et combiné à d’autres grands modèles de langage (LLMs) populaires, il est clair que l’IA est là pour rester.
Les grands modèles de langage sont de plus en plus intégrés aux services de bibliothèque et aux pratiques des chercheur·es grâce à leur capacité à résumer rapidement d’énormes quantités d’informations, à aider au brainstorming et à améliorer la rédaction, le tout en adoptant un ton très humain. Cependant, si vous avez déjà essayé d’utiliser un LLM, vous avez probablement constaté qu’ils peuvent être assez sujets aux erreurs, générant des informations qui semblent plausibles mais qui ne sont pas factuellement exactes. Cela provient de leur conception : les LLM sont essentiellement des outils de prédiction de texte très sophistiqués entraînés sur des quantités sans précédent d’informations générées par des humains. Ils ont été entraînés à prédire la réponse la plus probable à une invite (ou prompt en anglais), en se basant sur les schémas de communication humaine. Ils n’ont pas été conçus pour penser comme nous, pour nous corriger systématiquement lorsqu’on se trompe, ou pour « ne pas savoir » répondre à une requête. Ce sont davantage des correcteurs automatiques sous stéroïdes que de l’intelligence omnipotente. C’est pourquoi les LLM doivent être utilisés de manière responsable, comme des outils, avec nos compétences de pensée critique pleinement engagées.
Recommandations de base
Recherche d’information avec les LLM
Les grands modèles de langage (LLM) sont avant tout des systèmes de prédiction de texte. Cela signifie que, lorsque nous posons un prompt à un LLM (prompt), il découpe le prompt en mots ou ensembles de mots (tokens) et calcule la probabilité statistique du mot ou groupe de mots qui devrait suivre. Comme les LLMs ont été entraînés à réaliser ces calculs à partir de tout le texte présent sur Internet (articles de presse, commentaires sur les réseaux sociaux, etc.), la réponse obtenue (sortie) ressemble à celle d’une vraie personne qui sait de quoi elle parle. En réalité, les LLMs ne comprennent ni le contenu de nos prompts, ni celui de leurs réponses, comme le font les humains. Cette prédiction statistique du texte fait que la formulation et l’ordre des phrases de notre prompt peuvent modifier drastiquement la qualité de la sortie obtenue. Et, parce qu’un texte peut toujours être prolongé, les LLMs doivent fournir une réponse à tout prompt.
En gardant cela à l’esprit, voici quelques lignes directrices essentielles à retenir lors de l’utilisation des LLMs :
Principes généraux
- Les LLMs sont des outils, pas des sources d’information fiables : ils s’appuient sur des motifs statistiques et ne possèdent pas une compréhension réelle du sujet.
- Les LLMs peuvent « halluciner », c’est‑à‑dire générer du non‑sens plausible simplement pour répondre à nos prompts.
- La qualité du prompt que nous fournissons peut faire la différence entre une réponse utile et une réponse inutile.
Recommandations d’usage général
|
|
|
|
|
|
|
|
|
![]() |
|
|
|
|
|
|
Recherche d’information avec les assistants de recherche
Les assistants de recherche IA sont également des LLMs, mais ils sont spécialisés dans la recherche scientifique. Leur corpus d’entraînement est limité aux bases de données scientifiques et aux dépôts d’articles, afin d’aider les chercheur·es dans des tâches précises : découverte de littérature, revues de littérature, affinement de questions de recherche, etc.
Comme pour tout LLM, l’efficacité de ces assistants dépend fortement de la qualité de nos prompts et de notre capacité à penser de façon critique face aux résultats. En plus des directives générales ci‑dessus, voici quelques points supplémentaires :
Principes spécifiques
- Vérifiez, quand c’est possible, le corpus d’entraînement de l’outil : plus le corpus est vaste (Semantic Scholar ≈ 200 M d’enregistrements, Web of Science ≈ 83 M, Scopus ≈ 84 M), plus la « base de connaissances » est large, mais la taille peut parfois nuire à la qualité du contrôle.
- Chaque assistant de recherche fonctionne différemment : identifiez ce que l’outil peut réellement faire pour vous (voir la section « Les outils » plus bas).
IA dans la rédaction académique
Si vous utilisez des LLMs, qu’ils soient à usage général ou des assistants de recherche, pour rédiger un manuscrit destiné à la publication, deux règles importantes s’ajoutent :
- Les LLMs ne peuvent pas être tenus responsables du contenu qu’ils génèrent. Par conséquent, ils ne peuvent pas être listés comme auteurs ou co‑auteurs d’un manuscrit, conformément à la législation suisse (Loi sur le droit d’auteur, chapitre 2 art. 6 – https://www.fedlex.admin.ch/eli/cc/1993/1798_1798_1798/en).
- Le LLM utilisé, la façon dont vous l’avez employé et le rôle qu’il a joué doivent être clairement indiqués dans le manuscrit. Respectez les politiques de votre éditeur concernant l’utilisation de contenus générés par l’IA (ex. : Politiques éditoriales de Nature – IA).
Protection de la vie privée et données sensibles
- Les informations personnellement identifiables (nom, adresse, etc.) ou sensibles (orientations religieuses, opinions politiques, etc.) ne doivent jamais être divulguées dans les prompts.
- Si vous devez absolument inclure de telles informations, anonymisez‑les avant de les soumettre.
Violation du droit d’auteur et plagiat
- Lisez attentivement les conditions d’utilisation de l’outil afin de connaître qui détient les droits d’auteur sur le résultat généré.
- Soyez vigilant quant aux risques de violation du droit d’auteur : demander à un LLM de créer une image à partir d’une capture d’écran d’un film, mais dans le style de Studio Ghibli, pourrait entraîner des problèmes juridiques tant du côté du détenteur du film que du studio Ghibli.
- Le plagiat est sanctionné, qu’il soit intentionnel ou non. Évitez donc de copier mot à mot le texte produit par l’IA ; cherchez plutôt des sources crédibles pour étayer les affirmations et citez‑les correctement.
Clauses IA dans les contrats avec les éditeurs académiques

Dans le paysage actuel de la publication scientifique, les accords avec les éditeurs régissent de plus en plus l’usage de l’intelligence artificielle en lien avec le contenu licencié. À mesure que les outils d’IA s’intègrent aux flux de travail de recherche et de publication, comprendre les usages autorisés et interdits du contenu couvert par les accords devient essentiel. Une bonne maîtrise de ces termes assure la conformité et évite d’éventuels litiges.
Cette section sera mise à jour chaque fois qu’un nouvel accord sera signé.
“Open access publications with a CC-BY license can be used with any kind of available AI tool, may be used for the development and training of any AI tool and the results including the content can be freely shared.
Licensed content (closed publications) or Open Access publications with a restrictive CC-BY-NC-ND license, where Elsevier owns all rights or some key rights such as the right to create derivatives, may be used
- with closed versions of AI tools that do not train the algorithm, do not learn from the input or incorporate the input in the AI tool (e.g. Open AI « non-learning » subscription version ChatGPT Team). The use of the closed version may be subject to a fee and / or restrictions.
- with open versions of learning AI tools or to develop your own AI tool or platform, provided that it is used in a secure, user-controlled environment (i.e. self-hosted in an on-premises environment or in an environment hosted externally solely for use by Participating Institutions or Authorised Users).
Results generated or platforms developed with the help of AI may be published and made available for research and teaching, provided that they do not contain or reproduce content from closed or CC-BY-NC-ND publications. Links to closed publications are permitted. The commercial use of AI-generated content or platforms is prohibited.”
Les outils
Intelligence artificielle générative
LLM à usage général capables de générer du texte, des images, des vidéos, du code, d’assister dans diverses tâches et de tenir des conversations. Ces modèles de base constituent la technologie centrale derrière de nombreuses applications spécialisées.
Assistant conversationnel polyvalent basé sur les modèles GPT, capable de générer du texte, d’aider à la rédaction, de répondre aux questions et de tenir des conversations naturelles sur un large éventail de sujets.
Modèle économique : freemium (version gratuite avec GPT‑3.5, abonnement ChatGPT Plus pour GPT‑4 et fonctionnalités additionnelles)
Usages recommandés :
- Création de contenu et brainstorming
- Réponses aux questions de culture générale
- Assistance en programmation et résolution de problèmes
- Explications pédagogiques et tutorat
Points forts :
- Polyvalent sur de nombreux domaines et types de requêtes
- Large communauté d’utilisateur·trices avec un écosystème riche de plugins et d’extensions
- Mises à jour régulières du modèle et améliorations continues
- Forte intégration avec les autres produits et services OpenAI
Points faibles :
- Peut occasionnellement produire des informations erronées
- Limite de connaissances dans la version gratuite
- Performances variables selon la qualité du prompt
- Risque de dépendance excessive aux réponses sans vérification
Assistant conversationnel capable de raisonnement complexe et de réponses nuancées.
Modèle économique : freemium (version gratuite avec limitations, Claude Pro pour les fonctionnalités avancées)
Usages recommandés :
- Analyse et résumé de documents
- Conversations réfléchies sur des sujets complexes
- Assistance à la rédaction de contenus nuancés
Points forts :
- Capacités de raisonnement solides
- Excellente compréhension du contexte et des nuances
Points faibles :
- Peut être trop prudent sur certains types de contenu
- Certaines fonctionnalités avancées réservées à la version payante
Système d’IA axé sur l’apprentissage profond et la génération/compréhension de code, développé spécifiquement pour les tâches de programmation.
Modèle économique : freemium (fonctionnalités de base gratuites, options premium pour les abonnés)
Usages recommandés :
- Génération et complétion de code
- Assistance à la rédaction de documentation technique
- Apprentissage de concepts de programmation
Points forts :
- Spécialisé dans les tâches liées au code
- Performances élevées sur les langages de programmation
- Versions de modèles open‑source disponibles
Points faibles :
- Moins polyvalent pour les tâches hors codage
- Produit récent avec un écosystème encore en construction
- Problèmes potentiels de censure et de confidentialité
Modèle multimodal de Google capable de comprendre et de combiner différents types d’informations : texte, code, audio, image et vidéo.
Modèle économique : freemium (accès gratuit à Gemini avec un compte Google, Gemini Advanced payant)
Usages recommandés :
- Tâches multimodales impliquant divers médias
- Génération de contenu créatif
- Synthèse d’informations
- Assistance à la programmation
Points forts :
- Capacités multimodales puissantes
- Intégration fluide avec l’écosystème Google
- Raisonnement avancé
- Informations à jour lorsqu’on utilise la recherche Google
Points faibles :
- Performances variables selon les tâches
- Certaines fonctions avancées réservées à la version payante
- Questions de confidentialité liées au traitement des données (Google)
- Peut favoriser les services Google dans les recommandations
https://github.com/features/copilot
Assistant de programmation IA qui suggère du code et des fonctions entières en temps réel directement dans votre éditeur, alimenté par le modèle Codex d’OpenAI.
Modèle économique : abonnement (plans individuels et entreprises)
Usages recommandés :
- Accélérer les tâches de codage et réduire le code répétitif
- Apprendre de nouveaux langages ou frameworks
- Débogage et suggestions d’amélioration du code
Points forts :
- Comprend le contexte du code environnant
- Prise en charge de nombreux langages de programmation
- Suggestions en temps réel pendant la saisie
Points faibles :
- Peut proposer du code incorrect ou inefficace
- Coût d’abonnement pour les développeurs individuels
- Questions juridiques potentielles concernant les données d’entraînement
- Dépend de la qualité du code existant pour le contexte
Grand modèle de langage open‑source conçu pour être accessible à la recherche et aux applications commerciales, disponible en différentes tailles de paramètres.
Modèle économique : open‑source (gratuit à utiliser, adapter et déployer)
Usages recommandés :
- Solutions IA auto‑hébergées
- Recherche et affinement pour des domaines spécifiques
- Applications nécessitant un déploiement local
Points forts :
- Flexibilité open‑source
- Diverses tailles de modèles adaptées aux ressources informatiques disponibles
- Aucun frais d’utilisation ou coût d’API
- Possibilité de fine‑tuning pour des cas d’usage précis
Points faibles :
- Nécessite des compétences techniques pour un déploiement efficace
- Ressources de calcul importantes pour les modèles de grande taille
https://copilot.microsoft.com/
Assistant IA intégré aux applications Microsoft 365 et à Windows, aidant les utilisateurs à créer du contenu, résumer des informations et automatiser des tâches au sein de l’écosystème Microsoft.
Modèle économique : mixte (certaines fonctionnalités incluses avec les abonnements Microsoft 365, options premium via Copilot Pro)
Usages recommandés :
- Création et édition de contenu dans les applications Office
- Rédaction et synthèse d’e‑mails dans Outlook
- Résumés de réunions et actions dans Teams
- Assistance à l’analyse de données dans Excel
- Création de présentations dans PowerPoint
Points forts :
- Intégration profonde avec l’écosystème Microsoft
- Assistance contextuelle sur plusieurs applications
- Sécurité et conformité de niveau entreprise
- Réduction du temps passé sur les tâches récurrentes
Points faibles :
- Nécessite un abonnement Microsoft 365
- Coût supplémentaire pour les fonctionnalités Copilot Pro
- Performances variables selon les applications
- Utilité limitée en dehors de l’écosystème Microsoft
- Courbe d’apprentissage pour exploiter toutes les possibilités
Entreprise d’IA open‑source développant des modèles de langage puissants avec des architectures efficaces, offrant de bonnes performances même avec des tailles de paramètres réduites.
Modèle économique : mixte (versions open‑source et accès API payant)
Usages recommandés :
- Intégration IA en entreprise
- Applications auto‑hébergées
- Recherche et développement
- Génération et compréhension de texte
Points forts :
- Excellent rapport performance/taille
- Approche ouverte avec modèles accessibles
- Architecture efficace nécessitant moins de puissance de calcul
- Focus européen avec accent sur la souveraineté des données
Points faibles :
- Entreprise récente avec une gamme de produits en évolution
- Écosystème d’outils moins établi
- Peut être moins performant que les modèles plus grands sur certaines tâches spécialisées
Assistants de recherche
Outils IA spécialisés destinés à soutenir la recherche académique et scientifique : recherche, analyse et synthèse d’informations provenant de sources savantes. Ils accélèrent les revues de littérature et simplifient le processus de recherche.
Moteur de recherche alimenté par l’IA, spécifiquement conçu pour la recherche scientifique ; il trouve et résume les enseignements tirés des articles académiques.
Modèle économique : freemium (recherche de base gratuite, fonctionnalités premium par abonnement)
Corpus d’entraînement : Semantic Scholar
Usages recommandés :
- Revues de littérature
- Suivi des évolutions de la recherche
- Recherche du consensus scientifique sur des questions précises
Points forts :
- Axé sur la recherche évaluée par les pairs
- Fournit des résumés concis des résultats
- Citations pour toutes les informations
- Réduit la surcharge informationnelle
Points faibles :
- Limité au contenu académique et scientifique
- Peut omettre les publications très récentes
- Les fonctionnalités avancées nécessitent un abonnement
- Couverture restreinte dans certains domaines de niche
Assistant de recherche qui utilise l’IA pour aider les chercheur·es à trouver des articles pertinents, à comprendre la recherche et à résumer les résultats.
Modèle économique : freemium (fonctions de base gratuites, équipe et fonctionnalités avancées payantes)
Corpus d’entraînement : Semantic Scholar
Usages recommandés :
- Revues de littérature et résumés
- Recherche d’études pertinentes sur des sujets spécifiques
- Extraction d’informations clés à partir d’articles
Points forts :
- Se concentre sur l’extraction d’informations pertinentes
- Aide à formuler des questions de recherche
- Fournit des cartes de littérature et des connexions entre travaux
Points faibles :
- Peut rencontrer des difficultés avec des sujets très techniques ou très spécialisés
- Idéal pour des questions de recherche précises plutôt que pour une exploration large
- Certaines fonctionnalités avancées réservées aux plans payants
Outil d’IA qui fournit le contexte et l’analyse des citations, montrant comment les articles scientifiques ont été cités par d’autres chercheurs.
Modèle économique : freemium (fonctions de base gratuites, fonctionnalités premium par abonnement)
Corpus d’entraînement : multiples sources (éditeurs, Unpaywall, PubMed, Fatcat, divers serveurs de prépublications, dépôts universitaires, revues en libre accès, etc.)
Usages recommandés :
- Évaluer l’impact et la réception d’un article de recherche
- Comprendre le contexte des citations (soutien, contraste ou simple mention)
- Identifier les articles clés d’un domaine de recherche
Points forts :
- Affiche le contexte des citations, pas seulement le nombre
- Classe les citations comme soutenant, contrastant ou mentionnant
- Extension Chrome pour une intégration fluide
- Aide à juger la validité et l’impact d’une recherche
Points faibles :
- La couverture varie selon les disciplines
- Courbe d’apprentissage pour saisir les classifications de citations
- Certaines analyses avancées réservées au niveau payant
Génération augmentée par récupération (RAG)
Systèmes IA qui combinent les capacités génératives des LLMs avec la possibilité de récupérer et de référencer des informations précises provenant de sources externes ou de bases de données. Cette approche améliore la précision en ancrant les réponses de l’IA dans des faits vérifiés.
Versions personnalisables de ChatGPT pouvant être configurées avec des consignes, des connaissances et des capacités spécifiques pour répondre à des cas d’usage particuliers.
Modèle économique : nécessite un abonnement ChatGPT Plus pour créer des GPTs personnalisés
Usages recommandés :
- Assistance sectorielle ou métier‑spécifique
- Interactions avec une base de connaissances d’entreprise
- Flux de travail spécialisés
- Automatisation de tâches ciblées
Points forts :
- Personnalisable sans besoin de coder
- Possibilité de téléverser des documents de référence
- Adaptable à des cas d’usage précis
- Capacités de navigation web et d’utilisation d’outils
Points faibles :
- La création de GPTs personnalisés requiert un abonnement payant
- Mémoire limitée entre les sessions
- Risques de confidentialité liés aux données téléversées
- Peut tout de même « halluciner » malgré les connaissances personnalisées
https://notebooklm.google.com/
Outil qui associe l’environnement interactif des notebooks à de grands modèles de langage, offrant une assistance IA consciente du contexte pour l’analyse de données et les flux de travail de recherche.
Modèle économique : freemium (accès gratuit avec un compte Google, version Plus payante disponible)
Usages recommandés :
- Projets de data‑science
- Analyse de données interactive
- Création de contenus éducatifs
- Documentation de recherche
Points forts :
- Conscience du contexte de vos données et de votre code
- Fusion des capacités computationnelles et linguistiques
- Intégration possible aux flux de travail d’analyse de données existants
Points faibles :
- Consommation de ressources parfois importante
- Connaissances de domaine parfois limitées
- Problèmes de confidentialité liés au traitement des données (Google)
- Risque de priorisation des services Google dans les recommandations
Autres
Moteur de réponses alimenté par l’IA qui combine capacités de recherche et modèles de langage pour fournir des réponses référencées et actualisées aux questions.
Modèle économique : freemium (fonctionnalités de base gratuites, abonnement Pro pour les options avancées)
Usages recommandés :
- Collecte d’informations en temps réel
- Recherche sur des sujets d’actualité
- Vérification rapide de faits
- Apprentissage de sujets complexes
Points forts :
- Fournit les sources de l’information (uniquement depuis le web)
- Allie recherche et IA
- Plus à jour que les LLM classiques
- Possibilité de suivi conversationnel
Points faibles :
- Peut encore contenir des informations erronées
- Profondeur limitée comparée aux outils de recherche spécialisés
- Les citations ne soutiennent pas toujours pleinement les affirmations
- Idéal pour des requêtes factuelles plutôt que des tâches créatives
Notre offre de formation
Reshaping Information Research with AI
[En anglais seulement] In the last few years, many AI-powered tools have promised to fundamentally change the way we look for information. During this workshop, we will explore some of them, focusing on so-called research assistants in order to understand how they work and how we can use them to make our research better.
Ressources complementaires
Utilisation de l’IA dans la création de cette page
Nous avons utilisé ChatGPT 4.0 pour générer toutes les illustrations et affiner la rédaction de cette page (en anglais). Nous avons ensuite utilisé Lumo pour une traduction de base en français, que nous avons ensuite vérifiée nous-mêmes.
