Du moteur de recherche au moteur de réponse : la révolution de l’IA dans la science
Comment l’IA générative transformera-t-elle la science et quel sera son impact sur la société ? C’est à ces questions qu’a répondu Olivier Dumon, chief product officer d’Elsevier, à l’occasion de Think Éducation et Recherche, le 6 janvier. Interview.

Comment l’IA générative impactera-t-elle le monde de la recherche scientifique ?
Olivier Dumon : La recherche d’informations sera l’un des aspects de la recherche les plus touchés par l’intelligence artificielle générative. Actuellement, les chercheurs utilisent à la fois des moteurs de recherche mis à disposition par leurs institutions, mais aussi des moteurs de recherche « de grande consommation ». Tous sont issus d’une aventure technologique démarrée dans les années 1990.
Quelles ont été les grandes étapes de cette histoire des moteurs de recherche ?
La recherche d’informations a été marquée par plusieurs grandes étapes. Dans les années 1990, l’information était disséminée sur internet sous forme de répertoires. En 1996, Yahoo !, qui était un répertoire d’informations, a alors intégré un petit moteur de recherche. Ironie de l’histoire, ce moteur avait été conçu par la société qui est ensuite devenue Google !
Mais le tourant majeur a été la naissance de Google en 1999 et avec lui l’avènement de la recherche algorithmique, via l’invention du page rank par Larry Page and Sergey Brin. Aujourd’hui, en France, Google a 95 % de parts de marché, ce qui n’est heureusement pas le cas dans le monde de la recherche.
Et qu’ont apporté les années 2000 dans ce domaine alors naissant des moteurs de recherche ?
En 2003 est lancé le premier site de recherche sociale avec MySpace, puis Facebook en 2004, sur lesquels on suit des gens et des entités au travers de fils d’information ; des fils sur lesquels nous avons très peu de contrôle en tant qu’utilisateurs, ce qui permet par exemple aujourd’hui à Instagram de générer des revenus très importants en insérant des publicités dans le fil. Cette métaphore du fil d’information n’a en revanche pas fonctionné dans le monde de la recherche scientifique, malgré quelques tentatives.

En 2004 est lancé Google scholar que beaucoup de chercheurs utilisent en France. Puis dix ans plus tard, Google lance une nouvelle fonctionnalité appelée featured snippets qui a été une véritable révolution : vous pouvez poser une question à Google qui vous donne une réponse ; cela a fait baisser le trafic sur Wikipédia de 30 à 50 % selon les estimations !
Plus récemment, en 2023, sur la plupart de ses marchés dans le monde, Google a lancé l’« AI overview », une fonctionnalité qui construit une réponse par rapport à la demande d’un utilisateur. En ce début 2025, Google scholar indexe environ 160 millions d’articles. Il n’a pas encore lancé un moteur de réponse, mais connaissant Google cela devrait arriver sous peu !
Dans le domaine de la science, on devrait donc rapidement basculer vers des moteurs de réponses ?
Pour le monde de la recherche, on arrive en effet à une phase pivot, avec la fin de l’ère des moteurs de recherche, pour entrer dans la phase des moteurs de réponses. Chez Elsevier, nous avons déjà lancé des moteurs de réponses sur la base de nos propres moteurs de recherche.
Plus largement, la réussite des moteurs de réponses dépendra de la pertinence et de la vitesse de la réponse. Aujourd’hui les moteurs les plus pertinents rendent une réponse en moins d’une seconde, ce qui nécessite une puissance informatique considérable.
Mais nous allons très vite entrer dans une nouvelle phase qui va être concomitante à celle des moteurs de réponses : la phase des moteurs de transactions. Elle a toutefois un peu de mal à démarrer car les enjeux de confiance sont très importants ; en effet les moteurs de transactions prendront des actions en notre nom, par exemple acheter des places pour un spectacle, et devront donc avoir accès à nos cartes bancaires.
Quelles sont les attentes des acteurs académiques dans ce domaine des moteurs de recherche et de réponse ?
Un autre phénomène très important dans le monde de la recherche scientifique est que les grands acteurs de l’ESR se posent la question du corpus d’informations sur lequel ils veulent déployer leurs capacités d’IA générative.
Certains souhaitent en effet pouvoir déployer leurs capacités sur des corpus d’informations plus grands que ceux que leur proposent des vendeurs d’informations, mais aussi sur leurs propres données internes. Cet enjeu d’agrégation est très important.
En outre, dans le domaine de l’information scientifique, technique et médicale, il n’y a pas de vérité absolue. Pour preuve : sur les 1,5 million d’articles scientifiques publiés tous les ans en recherche biomédicale, un chiffre en hausse de 10 % par an, à un instant t, environ 16 % des études cliniques sont contredites par au moins un élément de connaissance publié dans l’année.
Quand le moteur de recherche construit une réponse, il ne peut pas s’appuyer sur une réalité absolue.
Donc quand le moteur de recherche construit une réponse, il ne peut pas s’appuyer sur une réalité absolue mais sur la connaissance la plus certifiée au moment où on lui demande de construire sa réponse. Comme en témoigne notre rapport Insights 2024, Attitutes toward AI, les acteurs académiques français et internationaux sont donc à la recherche de moteurs de réponses capables de construire leurs réponses à partir d’un corpus de connaissance à géométrie variable, qui pourrait même inclure leurs données internes.
D’autre part, les décideurs sont très attentifs à la qualité et la précision des réponses données par ces moteurs et exigent de ces moteurs qu’ils n’utilisent que les éléments les plus certifiés, fiables et récents pour construire leurs réponses. Le moteur ne doit bien sûr pas halluciner, mais il doit démontrer la pertinence de sa réponse en explicitant les signaux de confiance qu’il a utilisés pour sélectionner les articles de revues, les chapitres de livres, les notes de conférence… à partir desquels il a bâti sa réponse.