Idéation collective autour du travail de révision bibliographique
Réunion de lancement du projet révision assistée
- Lien de connexion https://meet.jit.si/revue30-HN-revision > Renater
Participants: Nicolas, Julie, Florence, Servanne, Aurélien
Le projet est décrit ici.
Une présentation a été réalisée lors d’une table ronde à l’ANF.
Identification des besoins : révision de biblio [Synthèse]
Ce “micro-projet” vise à explorer le potentiel de révision des IA génératives, alors que plusieurs éditeurs ont lancé des initiatives similaires (cf. ANF). L’équipe d’Humanités numériques a fait le choix de mener son expérience à partir de la
, car cet élément semble le plus “facile” à traiter, en raison de sa formelle et des documentées. La pertinence du recours à l’IA générative pour traiter cet élément doit cependant être débattue dans le cadre de l’expérimentation, dans la mesure où il existe déjà un outillage plutôt efficace (AnyStyle, par exemple).Le groupe de travail se met d’accord sur un ensemble de points préliminaires :
Le projet doit débuter sur une enquête de
, afin de repartir des existantes et des besoins. Il s’agit donc de commencer par recueillir la parole des experts, en l’occurrence des expertes.Le projet devra prendre en compte un état de l’art des
existants, en tâchant d’explorer les développements en cours du côté des outils largement répandus au sein de la communauté des auteurs et éditeurs (Microsoft Word).Dans la mesure où le travail de
dépend de l’outillage existant, en particulier en ce qui concerne la révision de bibliographie, l’automatisation n’engage pas les mêmes enjeux selon que l’on travaille sur du , ou sur des déjà générées par les auteurs. Il faut donc prévoir une là où c’est efficace.Il nous semble important d’être réalistes : la réalité de la pratique, c’est que Stylo nous a permis d’exploiter les fichiers structurés que nous demand(i)ons. Mais même les fichiers structurés nous obligent à retravailler des éléments à la main (cf. les éditos + question du “dernier kilomètre”). La chaîne connaît toujours des ruptures pour effectuer des retouches.
Concrètement, du point de vue de la bibliographie, deux enjeux apparaissent, engageant sans doute des solutions distinctes :
- contenu de la biblio
- présentation de la biblio
Discussion autour de l’objectif du projet :
- gain de temps sur les étapes de vérification
- qualité ?
- rationalisation des procédures, du protocole ?
- améliorer les pratiques des revues
- proposer in fine une chaîne arrimée à Stylo
Le projet doit également prendre en compte un certain nombre de problématiques :
- exigence éditoriale (qualité des données)
- respect des conditions de travail de l’équipe, et en particulier de notre éditrice
- enjeu écologique
Discussion autour du travail bibliographique au sein de la revue HN
État des lieux des pratiques
Le travail autour de la bibliographie, en particulier, dépend de ce
que l’on reçoit au départ :
- des fichiers Word avec une biblio structurée à part
- fichier Word sans biblio structurée (liste de références, sans
CSL)
Lors de l’expérimentation Stylo, des erreurs très diverses ont été
rencontrées :
- erreurs de champ/type (article alors que c’est un rapport),
- données incomplètes,
- erreur d’orthographe
- mauvais titre de l’article. [AB : pas certain de comprendre cette mention du
titre – clair pour vous ? @servanne : il s'agit d'entrées biblio qui ne
donnent pas le titre correct (cela peut arriver notamment lorsqu'un
article a changé de titre, entre son dépôt sur HAL et sa
publi)]
En revanche, une fois qu’un
correct est intégré dans stylo et avec la CSL, plus d’erreurs de forme, le style de la revue fonctionne.Lorsque Florence travaille avec les fichiers
envoyés par les auteurs, elle retrouve ces erreurs (mauvais champs, noms, auteur manquant ou pas dans le bon ordre, erreur du titre revue, etc.). Parfois, les références n’ont pas le bon style, ou alors on retrouve des différences de style d’une ref à l’autre.Son travail consiste également à vérifier systématiquement la
entre l’appel du texte et la référence. Elle vérifie également les scories, ou les biblios gonflées (lorsque l’auteur indique en biblio des références non citées dans le corps de texte).À l’heure actuelle, les corrections sont reportées dans Word : en dépit des incitations de la revue, et de l’appétence de l’équipe pour des solutions plus ouvertes, on reçoit peu de bibtex, et on travaille exclusivement en Word, parce que c’est que les auteurs envoient.
Enfin, dans une perspective plus large, la révision apparaît comme un élément essentiel du travail de l’éditeur, y compris du point de vue du capital symbolique de la profession. C’est une étape où les auteurs “voient” le travail de l’éditeur : Word permet d’être très transparent vis-à-vis de l’auteur avec le suivi des modifications.
La question du capital symbolique est très importante, mais ainsi posée, je la trouve problématique. Ou plutôt je trouve qu’elle reflète la perte de savoir-faire des éditeurs. En effet Word permet de visibiliser le travail de l’éditeur sur le texte. Mais dans le même temps, tout ce qui reste à l’éditeur aujourd’hui comme savoir faire est le travail sur le texte.. Là où avant les traitements de textes, les éditeurs avaient aussi des compétences en composition de texte/de page, ils avaient une maîtrise de l’intelligibilité graphique du texte (son énonciation éditoriale). Donc s’accrocher à visibiliser “tout ce qui lui reste” est sans doute un impératif, mais je pense qu’il y aurait beaucoup à gagner à reprendre le contrôle de l’ensemble de la chaîne et non pas seulement du seul travail du texte. J’entends que cela puisse être pris comme une injonction “hors-sol”, mais malgré tout, si le web est effectivement devenu l’environnement de production et de diffusion des connaissances, alors […] [name=nicolas]
J’entends la critique. La question de la “visibilisation” du travail a été évoquée dans la réunion, mais également lors des Journées Repère à Rennes, par une éditrice. Si tu as raison d’évoquer les compétences de l’éditeur avant le logiciel de traitement de texte, il faut également comprendre que toute une génération d’éditeur a été formée sur du logiciel de traitement de texte. Celui-ci n’est pas nécéssairement perçu comme l’origine d’une perte de compétence, mais comme un déplacement des compétences. Est-ce que ce discours n’est pas influencé par une critique intermédiale (Kittler, kirschenbaum) ? [name=servanne]
[…alors ne devrait-on pas, en tant qu’éditeur, auteur ou diffuseur, l’embrasser pleinement ?] (désolé je terminais mon paragraphe écrit trop vite dans une pause de cours..). Pour répondre à Servanne, j’ai bien conscience de la portée plus théorique que pratique de ma remarque. Mais je crois que si je me permets d’insister, c’est parce que la question aujourd’hui est davantage politique que théorique. Or qu’en ce moment, il y a urgence politique. Il est devenu difficile aujourd’hui de ne pas comprendre en quoi un outil d’écriture pourrait être politiquement/éthiquement/écologiquement problématique. Microsoft intègre déjà ChatGPT à Word. Automatisation/amélioration/productivité/optimisation ? Peut-être. Déplacement ? c’est vrai. Mais dépossession aussi. Et nous ne saurons pas plus écrire/éditer dans le web. Mais du coup oui, ma position est politique. Ce qui ne fait pas plus avancer les choses :) [name=nicolas]
Outre le format – qui est politique, la question initiale portait sur la visibilisation. Là aussi, il existe des alternatives, plus vertueuses, mais aussi plus “rugueuses”. On pense au versionning du code sur git et à son principe de documentation (vertu) des modifications par son auteur. Stylo a cherché à reprendre ce principe en l’adaptant (simplification), mais ne l’a pas outillé suffisamment pour que les éditeurs retrouvent le même niveau de confiance/pratique que sur Word. C’est clairement un chantier. [name=nicolas]
Outils de travail bibliographiques
Nicolas soulève la question d’une bdd de références propres à la revue, sur Zotero : pour le moment, on a quelques bibliothèques pour des biblios d’articles [AB : ? =>@servanne, est-ce plus clair?], mais il n’y pas de biblio générale pour toute la revue. Au niveau local, on peut certainement tendre vers une ressource structurée unifiée.
Aurélien et Florence expliquent que l’équipe avait initialement prévu d’élaborer une archive Zotero, mais elle n’a pas encore été mise en place. Le temps manque (pour bien archiver, pour documenter, ou pour analyser les archives comme objet d’étude), mais on estime également que la réutilisation serait assez faible. Le gain pratique n’est pas clair (par rapport à une recorrection sans rompre le fil de la séance de travail ou même par rapport à un copier-coller).
Aujourd’hui, on n’utilise plus les fichiers bibtex, car les auteurs n’en envoient pas. Si le fichier est envoyé, ils ont déjà intégré dans le fichier Word leur biblio avec CSL. Les corrections ne sont pas, à l’heure actuelle, appliquées dans Zotero, mais directement sur le fichier Word.
Julie souligne pourtant que le
permet d’effectuer un contrôle qualité (dans la revue TEI, c’est une pratique courante). Outre le contrôle qualité, permet de gagner du temps, grâce à la complétion automatique de certaines données (maison d’édition, auteurs, etc.). Il est vrai que dans Word, on a accès au copier-coller qui facilite le travail.Julie utilise des parseurs pour préstructurer ses biblios : #AnyStyle, qui a fait bcp de progrès, et qui fonctionne aussi en ligne de commande (le logiciel requiert l’installation de pas mal de choses, mais il peut fonctionner en local).
Aurélien revient sur la dimension incontournable de Word, qu’il a dû réinstaller sur sa machine quand la revue HN est arrivée, pour se calquer sur les habitudes des auteurs, ainsi que sur le choix de la chaîne de publication (#Lodel).
Pourquoi ne pas imposer
? Les fonctions de commentaires et de suivi des modifications fonctionnent mal / l’interface graphique n’est pas aussi achevée / il y a des problèmes de compatibilité avec Word, où les styles Lodel sont appliqués / également, des pb de compatilibilté avec OpenEdition. Tous les auteurs utilisent Word, à de rares exceptions.On soulève également le problème du multilinguisme des biblios, généralement difficile à gérer.
Usages de l’IA générative
Florence a déjà réalisé des tests très rapides avec
: par exemple, remplacer initiale par prénom complet. Le test est concluant.Aurélien met les pieds dans le plat : l’IA est-elle vraiment utile
pour la révision de biblio ? L’usage et le recours à l’IA générative
méritent d’être discutés et réfléchis.
On ne va sans doute pas entraîner une IA à faire le travail de la , ce serait
redondant. Dans la gamme des outils éditoriaux, il existe ainsi
plusieurs exemples “négatifs” : les macros d’OpenEdition dans Word, par
exemple, qui créent davantage d’erreurs et de vérification à faire, et
ne sont donc pas utilisées.
L’équipe rappelle l’importance ici de la rigueur de l’éditeur, tenu de tout vérifier, y compris les détails des références et les appels dans le texte. L’usage de l’IA, de ce point de vue, peut être rédhibitoire, et pose un problème de confiance.
L’IA serait vraisemblablement utile pour transformer une biblio dans un format structuré, qui après pourra faire l’objet d’une conversion avec notre CSL.
Voir Anystyle qui intègre manifestement du machine learning (ne pas refaire la roue) [name=nicolas]
Auteurs
Le format structuré n’est pas la pratique des auteurs.
Florence et Aurélien notent que les
se désintéressent de la biblio, mais pas forcément du reste du texte, qui comprend souvent des problèmes d’écriture. À l’heure actuelle, on intervient d’ailleurs très peu, là où une IA générative serait sans doute beaucoup plus interventionniste. À terme, cela pose des questions éthiques : qu’est-ce que cela implique de dire à un auteur que l’on a modifié 40 % de leur texte ?!Notre protocole actuel, c’est que l’éditeur se substitue à l’auteur : on travaille comme lui, on met la virgule où il aurait dû la mettre, etc. Ce système n’est pas efficace.
Méthodologie [Synthèse]
Documentation préalable
- Documenter et déconstruire le travail de révision : enregistrer l’écran au moment d’une correction bibliographique, pour repérer les opérations et peut-être voir des différences. Comprendre le travail de révision “pas à pas”.
- État de l’art des outils à faire : comment aujourd’hui les logiciels mainstream intègrent-il l’IA ou prévoient-il de l’intégrer ? Établir ici aussi un pas à pas dans la validation ou le rejet. → ce que fait Prolexis (outil de la revue, car Florence en dispose) ou Antidote, de manière totalement intégrée.
Expériences
- faire une vérification à la mitaine, et une vérification par IA, pour comparer les performances (temps, qualité, etc.).
- Faire vérifier des biblio mal construites, mais également fautives : mauvais titre, mauvais auteur et mauvaise collation : l’IA s’en rend-elle compte ?
Établir différents scénarios en fonction des cas existants
La logique voudrait que l’on passe par un format structuré, mais ce n’est pas nécessairement la pratique (aussi parce que ce n’est pas ce que les auteurs fournissent). C’est pourquoi l’expérience devra se garder d’être prescriptive, mais partir de cas d’usages régulièrement rencontrés par l’équipe.
Choisir nos outils
Lors de la table ronde à l’ANF, des commentaires ont soulevé l’importance d’utiliser des solutions en local, pour des raisons de PI notamment. Une solution en local serait l’idéal. Il apparaît en tous les cas nécessaire d’envisager la variété des cas d’étude pour l’utilisation IA.
Plusieurs pistes sont évoquées :
- LLM personnalisé (avec des questions de faisabilité : comment procéder
? Si on prend ne serait-ce que le petit corpus de revues du projet
Revue30, on est déjà sur une variété difficile à traiter)
- Entraîner des LLM bcp plus spécialisés (enjeu éthique et écologie
politique) ?
- RAG, Retrieval-Augmented Generation (cf. les travaux du HNLab)
- Ollama
- Quels prompts ? Vérifier référence par référence ? Vérifier l’ensemble
de l’article?
Une solution modulaire est envisagée, avec le recours à un panel
d’outils :
- requête à la volée sur un DOI
- utilisation de parseurs
Comme nous l’avons exprimé plus tôt, la révision bibliographique
engage des questions de contenu, ainsi que de présentation.
- Tester l’IA d’abord sur la typo (éléments mécaniques). Notons que même
dans un bibtex, il y a plein de corrections typo à faire : majuscules,
insécables, etc.
- Vérifier la concordance entre l’appel de référence et la référence.
Toute référence doit être appelée dans le texte, tout appel doit
(correctement) conduire à une référence complète.
Textes à travailler
Textes à venir :
- intro du 11
- entretien Mansoux
Possibilité, également, de reprendre des articles déjà publiés en puisant dans nos archives.
Todo list
- A. État des lieux, par un.e étudiant revue30 + équipe, des outils à disposition & des implémentations possibles de l’IA (sur word par exemple) @Clara ?
- B. Documentation par deux éditrices (Florence et Julie), de leur travail : capture d’écran filmé de quelques minutes de leur travail de révision, afin que l’équipe puisse documenter le process, repérer les outils mobilisés, les gestes d’écriture et d’édition, et déconstruire le travail de révision “pas à pas” @Julie + @Florence
- C. Installation (et documentation) d’Olama sur nos machines. @Servanne + @Aurélien + @Florence + @Julie
- D. Rédaction des scénarios de travail à partir des cas d’usage @Servanne + @Julie
- E. Établir différentes propositions de tests à partir du pas à pas (B)
Calendrier prévisionnel & diffusion
- présenter le projet au cours de l’une des séances informelles de revue 30 ? Séance en mars ou avril ?
===
Et pour terminer, un petit message d’encouragement de Sean Takats !