Fraude scientifique : avec les références furtives, « la qualité des métadonnées est un vrai enjeu »

Marine Dessaux , Manon Lamoureux
Le mardi 15 octobre 2024
Relations extérieures

Les éditeurs, désormais potentiels auteurs de fraudes aux citations ? C’est ce qu’ont découvert des chercheurs membres du Collège invisible, un collectif informel de «  détectives scientifiques  ». Si différentes techniques de manipulation des références par des chercheurs peu scrupuleux sont déjà connues, cette fois, les maisons d’édition sont concernées, marquant ainsi un véritable changement de paradigme.

Guillaume Cabanac et Lonni Besançon passent au peigne fin les 20 000 éditeurs de Crossref. - © ChatGPT

Une nouvelle forme de fraude scientifique : c’est ce qu’ont mis en lumière Guillaume Cabanac, professeur d’informatique à l’Université Paul Sabatier Toulouse 3, et Lonni Besançon, maître de conférences en visualisation à l’Université de Linköping en Suède et coordinateur de l’infrastructure de recherche InfraVis, accompagnés des chercheurs Cyril Labbé et Alexander Magazinov.

Baptisée «  sneaked references  » ou «  références furtives  », cette méthode consiste à insérer des citations dans les métadonnées d’articles qui sont absentes du texte. Une découverte qui questionne l’intégrité de certains éditeurs et le rôle des chercheurs dans la traque aux fraudes et faux résultats.

Comment avez-vous découvert les références furtives ?

Lonni Besançon  : Un peu par hasard. Guillaume était en train de signaler un article avec des expressions «  torturées  » et a remarqué des statistiques étonnantes  : un article paru dans une special issue du groupe Hindawi en 2022 avait été cité 107  fois alors qu’il n’avait été téléchargé que 62 fois et vu 107 fois. D’habitude, le ratio est plutôt d’une citation pour 100 ou 1 000  vues. C’était surprenant, surtout dans une revue scientifique peu connue.

J’ai donc effectué une recherche sur Google Scholar, et il s’avère que cet article n’est pas du tout cité. Nous avons d’abord soupçonné un bug de la source de données bibliographiques utilisée par Guillaume, Dimensions, que nous avons contacté, mais ce n’était pas le cas.

Guillaume Cabanac, à gauche, et Lonni Besançon, à droite, font partie du Collège invisible. - © Guillaume Cabanac

Nous avons finalement remarqué que le nombre de références dans le fichier PDF de l’article n’était pas le même que dans la base de données de Dimensions, et qu’il ne s’agissait pas d’une erreur. Or, les seules personnes pouvant transmettre ces données erronées ne sont pas les auteurs, mais les éditeurs scientifiques. Cela représente un changement de paradigme.

Guillaume Cabanac  : Nous avons, très tôt dans nos travaux, impliqué Crossref, qui héberge des métadonnées et attribue un DOI (en français : un identifiant d’objet numérique) aux articles, mais n’effectue pas de vérifications. Nous avons informé Crossref de notre découverte en leur envoyant le lien vers notre preprint en octobre 2023.

Crossref a ensuite contacté la maison d’édition concernée pour corriger ses erreurs. Mais il est arrivé que les responsables nous intiment l’ordre de corriger notre preprint et de supprimer leurs noms. Ce que nous n’avons évidemment pas fait. À noter qu’il peut arriver qu’un éditeur commette des erreurs en raison de logiciels un peu âgés ou peu user-friendly, en insérant plusieurs fois la référence dans un même article par exemple.

Or, notre découverte concerne des références insérées furtivement : elles ne sont pas dans l’article, mais seulement dans ses métadonnées, et bénéficient également aux éditeurs de la revue où elles sont publiées. Nos travaux montrent ainsi que la qualité des métadonnées est un vrai enjeu.

Le Collège invisible, un collectif informel de 156 détectives scientifiques

Le Collège invisible  est lancé en 2017 par Guillaume Cabanac, professeur d’informatique au sein de l’Irit (CNRS, Toulouse INP, Université Toulouse 3 - Paul Sabatier, Université Toulouse 1 - Capitole, Université Toulouse 2 - Jean Jaurès) et créateur du site Problematic Paper Screener qui signale les articles scientifiques contenant des «  expressions torturées  ».

Il crée, dans un premier temps, un groupe de discussion Slack pour échanger avec des collègues en France travaillant sur l’information scientifique et technique. Mais le Collège invisible dépasse les frontières de l’Hexagone et se développe jusqu’à réunir, aujourd’hui, 156 personnes. Parmi eux, 105 sleuths activists, des «  limiers  » qui mènent l’enquête, mais aussi des personnes issues de Retraction Watch, une plateforme qui analyse les retractions d’articles scientifiques, des représentants d’éditeurs et des journalistes scientifiques.

Ce groupe tire son nom d’un concept de sociologie des sciences datant des années 70, qui désigne des scientifiques très proches sur un sujet même s’ils sont dispersés géographiquement dans le monde entier et qui n’est donc pas légitimé par une institution.

Comment ce genre de pratique se développe-t-elle  ?

Lonni Besançon  : Mon hypothèse est que, comme les personnes faisant partie du board des éditeurs sont généralement des scientifiques, ils ont vu le potentiel de cette technique et en ont parlé à des collègues plus jeunes, qui ont besoin de démarrer leur carrière. Cela pourrait aussi concerner des amis avec lesquels ils ont déjà fraudé auparavant. Il est difficile de savoir ce qui se passe réellement en coulisses en raison du manque de transparence.

Guillaume Cabanac  : Nous n’avons pas trouvé de publicités pour cette technique de sneaked references, contrairement aux ventes d’autorat. Elle n’est probablement pas encore assez connue.

Quelles revues sont concernées  ?

Passer au peigne fin les 20 000 maisons d’édition affiliées à Crossref.

Guillaume Cabanac  : Plusieurs revues du groupe Technoscience Academy. Nous avons commencé par ce groupe, car il y avait suffisamment de matière pour prouver l’existence de ces références furtives, qui n’avaient jamais été observées ou référencées auparavant. L’étape suivante est de passer au peigne fin les 20 000 maisons d’édition affiliées à Crossref. C’est en cours.

D’après nos premiers résultats, les références furtives ne sont pas très fréquentes. Et elles ne proviennent pas des grands éditeurs comme Elsevier. Nous ferons probablement un travail de corrélation avec la liste des revues concernées.

Y a-t-il eu des retombées à la suite de la publication de vos résultats sous forme de preprint sur arXiv en octobre 2023 puis dans la revue Jasist en mai 2024  ?

Lonni Besançon  : Pas particulièrement. Les citations furtives sont juste une autre façon de tricher sur les métriques, plus complexe à détecter, mais fondamentalement, cela ne change pas la nature de la triche. Deux chercheurs m’ont contacté pour signaler des motifs étranges dans d’autres revues, mais ce n’étaient pas des références furtives.

Guillaume Cabanac  : Notre article est le troisième le plus consulté dans la revue où il a été publié. Il a été référencé sur Wikipédia, Reddit, et a eu une assez bonne couverture médiatique, notamment via Retraction Watch.

Malgré nous, nous avons agi un peu contre l’open science.

Malgré nous, nous avons agi un peu contre l’open science. Certaines institutions françaises veulent passer du Web of science à la base open source OpenAlex, qui puise dans les données de Crossref. Or, nous avons montré que ces données ne sont pas toujours fiables. Cela pourrait avoir un impact potentiellement important si d’autres méconduites étaient découvertes. Mais il ne faut pas balayer ces problèmes sous le tapis.

Avez-vous entrepris d’autres actions pour lutter contre ce phénomène  ?

Guillaume Cabanac  : Si nous avions les moyens et le temps, il faudrait analyser les fichiers PDF pour en extraire les références et les comparer avec celles présentes dans les métadonnées de Crossref. C’est ce que nous nous efforcions de réaliser en collaborant avec l’entreprise Digital Science, qui édite Dimensions.

Leur modèle économique étant fondé sur la fourniture de rapports bibliométriques fiables, ils sont prêts à faire tourner leurs serveurs et à nous aider sur certaines parties de l’analyse, par exemple dans le cadre d’un partenariat public-privé.

Quelles solutions préconisez-vous pour lutter contre ces méconduites  ?

Lonni Besançon  : Il est temps que les universités et les organismes de recherche reconnaissent le travail de sleuth et de method and error checking comme une activité académique et de recherche importante, qui sert à solidifier la base de connaissances sur laquelle tout le monde construit.

Si cette base est érodée par des fraudes ou des résultats fallacieux, c’est très problématique pour la science, qui est un processus itératif. Sans cela, nous n’aurions peut-être pas pu avoir de vaccin contre le Covid. Cela peut sauver des vies.

Donner aux chercheurs le temps nécessaire pour effectuer ce travail

Il est également important de donner aux chercheurs le temps nécessaire pour effectuer ce travail. Dans certains pays, le temps des chercheurs doit être rattaché à des projets, et ils doivent enquêter sur leur temps personnel. Certains établissements sont aussi frileux, car en cas d’erreur ou de scandale cela peut nuire à leur réputation.

Il faut aussi plus de temps pour ceux qui évaluent les chercheurs. On demande plus en plus de fournir, pour les dossiers de subvention ou de candidature, une sélection des dix articles liés au sujet, avec trois lignes pour expliquer notre rôle exact. Mais lorsqu’on reçoit 150  candidatures, comme à Inria par exemple, la tentation est forte de se baser uniquement sur le nombre de publications et le nombre de citations, car c’est plus rapide.

Certains de mes collègues travaillent ainsi sur un système permettant de mieux comparer les profils sans utiliser de métriques, c’est devenu un sujet de recherche à part entière.

D’autres exemples de fraudes existantes

Guillaume Cabanac donne plusieurs autres exemples de fraudes  :

• l’achat dans des paper mills, ou fermes à articles, des sociétés qui vendent de grandes quantités d’articles scientifiques frauduleux à des auteurs cherchant à augmenter leur nombre de publications  ;

• les citations rings, ou cercles de citations, dans lesquels plusieurs chercheurs ou revues se mettent d’accord pour se citer mutuellement de manière excessive, qui existent depuis plusieurs décennies  ;

• le white fonting, «  une arnaque qui fonctionne bien sur Google Scholar et qui consiste à ajouter des références en blanc sur blanc au PDF de l’article  ».