Le 22 mai HackYourPhd organisait un atelier à la Maison de la recherche (Paris) sur le thème « Nouvelles pratiques d’évaluation scientifique ».
L’événement a réuni une dizaine de personnes avec des profils très différents (scientifiques, étudiants, journalistes, designers, wikipédiens…). La diversité de leurs approches a permis de dresser un état des lieux élaboré des écueils des pratiques actuelles de l’évaluation scientifique et des alternatives existantes.
Voici un compte-rendu reconstruit et argumenté de cet échange très productif. Pour avoir une idée de son déroulement, vous pouvez également consulter la présentation introductive et les cartes heuristiques (n°1, n°2) réalisées par Martin Bruno.
L’atelier s’est aussi conclu sur l’évocation d’un projet inédit : l’élaboration d’une revue alternative consacré aux procédés épistémologiques émergents qui mettrait en application certains de ces procédés. Ce nouveau projet sera détaillé dans un prochain billet.
Qu’est-ce le peer-review ?
L’atelier a permis de détailler les nombreuses étapes impliquées dans le peer-review standard, utilisé, avec parfois quelques variantes, dans la très grandes majorités des revues scientifiques. Le schéma ci-dessous est évocateur.
Il peut aussi se décliner sur un mode narratif. Soit une revue X qui entreprend de publier un nouveau volume. Son éditeur réceptionne trente articles. Deux d’entre eux ne correspondent pas avec la politique éditoriale de la revue. L’éditeur ne prend pas la peine de les transmettre au comité de lecture. Il effectue lui-même une pré-sélection, ne retenant pas les soumissions hors-sujet.
Les vingt-six articles qui passent ce premier filtre expérimentent une première phase de peer-review. L’éditeur les anonymisent et les envoie à plusieurs reviewers ayant les compétences requises pour juger l’efficience du travail proposé. La quasi-totalité des reviewers effectuent leur travail correctement.
Seulement l’un d’entre eux a reconnu le travail d’un chercheur avec lequel il est en désaccord depuis de nombreuses années. Le champ de recherche privilégié par la revue X est assez restreint. Il ne concerne guère plus d’une centaine de personnes de par le monde et il est facile de reconnaître untel ou untel en fonction de son style d’écriture ou de son approche théorique. De plus ce milieu hautement spécialisé n’est pas exempt de certaines tensions et de conflits personnels. L’occasion est trop belle : le reviewer en profite pour sabrer le travail de son collègue. Ce conflit d’intérêt est en partie modéré par l’appréciation d’un second reviewer, beaucoup plus positive.
Sur les vingt-six articles, un seul est admis d’office. Dix-huit autres sont admis conditionnellement, sous réserve de modifications de plus ou moins grande ampleur. Six articles sont de facto exclus. Dans certains cas le cadre théorique n’était pas probant. Dans d’autres, les résultats se sont révélés décevants. Bien que les expériences négatives contribuent utilement à l’évolution des sciences, elles ne sont pas jugées digne d’être publiées. Enfin, les deux articles restants souffrent de difficultés considérables, même si le sujet est jugé intéressant. Leurs auteurs sont invités à réécrire leur article de A à Z.
Quelques semaines passent. Les vingt auteurs retenus proposent une nouvelle version. Elles sont soumises à un second round de peer-review et connaissent, de nouveau, des destinées variables. Au terme de ce jeu de ping-pong, dix articles sont finalement approuvés.
L’histoire ne s’arrête pas là. Les auteurs doivent encore garantir la conformité de leur article avec les codes éditoriaux de la revue. L’un d’entre eux utilisait des références en note de bas de page et des schémas colorés. Seulement, l’éditeur veut des références harvard (entre parenthèses dans le texte) et n’admet que des illustrations en noir et blanc. Le temps d’adapter tout ça, les délais sautent : la publication de l’article est finalement reportée au prochain volume.
Enfin, les droits d’auteurs doivent être transférés à la revue selon les termes prévus par l’éditeur. L’un des auteurs souhaite diffuser l’une des premières versions de son article ou preprint. Cela lui est refusé. Ayant déjà atteint son quota de publication pour l’année, l’auteur préfère déserter la revue à la dernière minute et publier son travail dans une interface d’auto-archivage.
À la fin de l’histoire, il ne reste que huit articles. On s’aperçoit quelques années plus tard que l’un d’entre eux reposait sur des prémisses erronées : les reviewer ont insuffisamment vérifié les données fournies. Inversement, l’article en preprint a finalement fait référence dans son domaine.
Ce récit grossit un peu le trait. Dans l’ensemble, le processus d’évaluation fonctionne plutôt correctement. Une étude récente en sciences cognitives montrait qu’un peer-review réussi avait un impact positif sur la productivité et la qualité du travail des peer-reviewés.
Cependant, ce procédé très complexe montre aujourd’hui ses limites. Le rapport investissement / retours est loin d’être satisfaisant. Le temps passé par les auteurs et les reviewers représente un coût dissimulé souvent considérable. Selon des estimations récentes, si chaque heure de peer-review était dûment payée, cela représenterait un surcoût de deux milliards pour l’ensemble du marché de la publication scientifique. Il ne paraît pas inconsidéré de doubler ce chiffre en tenant de l’investissement temporel des auteurs.
Et le filtre ne porte pas toutes ses promesses, loin de là. Par manque de temps, les reviewer se focalisent fréquemment sur les aspects formels et ne vérifient pas toujours les données statistiques. Cette brèche autorise des fraudes de grande ampleur : le psychologue Diederick Stapel a pu tromper plusieurs dizaines de comité de lecture en forgeant des données de toute pièce.
Cartographier les alternatives
Il y a une vingtaine d’années, l’acceptation du peer-review standard ne faisait pas de doute. On pouvait toujours spéculer sur d’éventuels modèles de substitution, mais en l’absence d’une réalisation technique concrète, ils demeuraient de simples fantaisies intellectuelles.
Les réseaux informatisés ont rebattu les cartes en jeu : les éditeurs ne sont plus la pièce essentielle du dispositif. Il est tout-à-fait possible de se passer d’eux et de publier à un coût minimal. Les participants de l’atelier ont dressé la carte d’un monde qui change, en opérant une distinction entre trois acteurs : les éditeurs, les auteurs et les acteurs intermédiaires.
Les éditeurs ont tenté quelques innovations, généralement assez timides. Plusieurs modèles économiques audacieux émergent dans le sillage de l’open access « gold ». Un ancien de PLOSone vient de lancer un projet assez attendu, PeerJ. Au lieu de payer pour un article, les auteurs paient pour un droit à publication valable un an, et ce à un tarif très raisonnable (100 € pour un article). Ce modèle permet de préserver l’indépendance du peer-review, parfois mis à mal par l’open access gold : l’auteur étant le client, il devient difficile de refuser son article. Pour le reste, les éditeurs ne touchent presque jamais au peer-review. Nature a un instant tenté de diffuser des commentaires sur son site avant d’abandonner. La revue héberge aussi depuis peu les données originelles des articles, mais généralement à des tarifs prohibitifs.
Les auteurs n’ont pas attendus les éditeurs pour changer de pratiques. L’auto-archivage autorise des formes plus diffuses d’évaluation : il ne s’agit pas d’être seulement évalué par deux ou trois pairs, mais, potentiellement, par l’ensemble de la communauté scientifique concernée. Les listes de diffusion ou, depuis peu, les interfaces d’évaluation comme pubpeer, peerevaluation.org ou F1000 facilitent l’émergence d’un peer-review fluide et autonome, qui interviendrait désormais après la publication. Une nouvelle revue, Cortex, propose quant à elle un peer-review par anticipation : les chercheurs sont jugés sur la qualité de leur projet originel, de telle sorte que les découvertes négatives ne sont plus discriminées au profit des découvertes positives. L’utilisation d’un blog, voire d’un site personnel constitue une rupture plus radicale : le chercheur se fait lui-même éditeur de son propre travail, déterminant l’interface et les modalités de publication.
Ces alternatives commencent à sérieusement concurrencer les acteurs traditionnels. Pubpeer a ainsi récemment mis à mal le processus d’évaluation de Nature. La revue de référence avait accepté une étude sur le clonage humain après un peer-review de… quatre jours seulement. L’un des auteurs de l’étude a depuis reconnu les inexactitudes relevées par des bénévoles de Pubpeer et s’apprête à rédiger une nouvelle version corrigée.
Enfin, plusieurs perspectives innovantes émergent à la lisière des milieux scientifiques et de la société civile. La science citoyenne (Citzen Science) n’est plus une vaine incantation éthique, mais un outil bien pratique : les communautés académiques, de taille souvent restreintes, peinent à analyser des corpus de données toujours croissant ; l’implication de milliers de bénévoles a ainsi aidé la NASA à identifier une vingtaine d’exoplanètes. Cette science citoyenne ne permet pas seulement de rénover les modèles usuels de production du savoir, mais aussi de repenser les structures d’évaluation. L’encyclopédie en ligne Wikipédia repose ainsi sur l’exercice d’un peer-review non-spécialisé : des contributeurs amateurs s’assurent de la vérifiabilité du contenu publié et de sa conformité avec des impératifs épistémologiques élémentaires.
Toutes ces alternatives se heurtent pour l’heure à des obstacles considérables. Les interfaces de publications sont en effet elle-même évaluées par des institutions publiques (comme l’AERES) ou par des métriques normatives (impact factor). Or, cette méta-évaluation pénalise fortement tout ce qui déborde du cadre du peer-review standard. Les blogs et les publications auto-archivées ne rentrent ainsi pas dans les cases de l’AERES et ce bien que certaines de ces productions éditoriales ont une réputation scientifique bien supérieure à de nombreux articles évalués par la voie standard.