Scénarios des usages

lfuKGY_QSE-rm20p9_AfrA (edit on libreon)

created: 2025-01-20

updated: 15:17:53 - March 4, 2025

licence: CC-BY-SA 4.0

tags: #j

Scénarios des usages

La révision bibliographique dans Humanités numériques

Florence Daniel, Servanne Monjour, Nicolas Sauret

Scénarios des usages : la révision bibliographique dans Humanités numériques

Les échanges avec Florence ont permis d’identifier deux grands scénarios, présentant chacun des variantes, selon la qualité des documents reçus.

Un invariant = trois grands types de vérifications :
- fond : exactitude des références (auteur bien identifié et correctement orthographié ; titre exact, éditeur, etc.).
- forme : ordre et présentation graphique des éléments.
- concordance : toutes les références citées dans le corps de texte doivent apparaitre en bibliographie ; la bibliographie ne doit pas être gonflée artificiellement.

Scénario 1 : bibtex auteur

Dans ce scénario, l’auteur envoie son article (dans la majeure partie des cas, un fichier docx) accompagné d’un fichier bibtex. Selon la qualité de ce fichier, deux process se dessinent :

1.a. le fichier bibtex est de bonne qualité, la CSL de la revue est respectée : Florence procède à des révisions mineures en désactivant la connexion à Zotero.
1.b. le fichier bibtex comprend de très nombreuses erreurs de structuration des données. Dans ce cas, Florence réimporte le fichier dans Zotero, où elle procède aux corrections.

Scénario 2 : sans bibtex

Dans le second scénario, Florence reçoit un fichier docx avec bibliographie, sans fichier .bib.
Selon l’état de la bibliographie, celle-ci peut alors faire l’objet :
- 2.a. de révisions mineures (forme)
- 2.b. de révisions majeures (fond et forme)

Actuellement, dans un cas comme dans l’autre, Florence corrige directement dans le fichier Word, sans passer par un travail de rétro-conversion word -> bibtex. Elle utilise les fonctionnalités de Word pour tenter d’automatiser certaines corrections.

Méthodologie

À partir de ces scénarios, il est possible d’identifier différents types d’intervention, à des niveaux distincts.

Transformation d’une bibliographie mal structurée dans Word en un fichier bib

Cette action serait utile dans le scénario 2.b.
Il s’agit ici d’utiliser des outils IA déjà existants et très spécialisés :
- anystyle
- Reversed-Zotero de Pleias

Vérification de la concordance

Le recours à un RAG pourrait être envisagé afin de vérifier que les références citées dans le texte sont bien reportées en bibliographie et que la bibliographie ne comprend pas de références superflues.

Un test a été réalisé par Nicolas en local (cf. ci-dessous).

Quelques remarques ou intuitions :

J’ai l’impression que plus l’auteur fournit des fichiers “problématiques” (docx sans bibtex, avec une biblio mal structurée), plus il sera “tentant” d’en passer par des IA génératives “généralistes” de type chat GPT, pour procéder à la révision formelle et graphique.

À l’inverse, il est plus facile d’entrer dans un cercle vertueux avec des fichiers déjà fournis.

Il faudrait trouver une solution pour mesurer l’impact énergétique de l’usage de ces outils, qui peuvent être remplacés par un ctrl+f tout bête.

Expérimentations

Pour le moment, nous avons travaillé avec plusieurs textes piochés ici et là.

Expérimentation conversion docx -> bibtex

À partir d’une bibliographie mal structurée, en format txt, fournie par Julie, on a réalisé deux tests de conversion avec les outils anystyle (Julie) et Reversed-Zotero (Servanne). Reversed-Zotero s’appuie sur le llm BibTexer entraîné pour la reconnaissance de ref biblio.

Nos premières impressions :

@servanne :
>En comparant les deux fichiers, je ne saurais dire quel outil réalise un meilleur travail que l’autre. À première vue :
>- bibtexer me semble mieux gérer la transformation des chaînes de caractères (il a enlevé les puces dans les listes, et bien compris que les majuscules n’appelaient pas nécessairement un point comme dans C.H.I.A.R.A.D.O.N.N.A.), mais il ne pose pas de virgule entre les noms et prénoms… ce qui crée un gros bazar lors de l’importation dans Zotero.
>- anystyle préfère Date à Year (il me semble que c’est mieux)

@julie :
> bibtexer a du mal à accepter les cas où il n’y a pas d’auteur, mais il identifie mieux les titres et les types de publication, et se laisse moins aveugler par la typographie (d’où peut-être le souci avec les virgules et l’impossibilité d’isoler le prénom, effectivement ça c’est problématique). L’outil n’est pour le moment pas très bien documenté, vs anystyle qui en plus a une bonne communauté derrière.

Expérimentation sur la vérification des concordances

test RAG Kotaemon

prompt : Dans ce document, je cherche à vérifier que toutes les références présentes dans la bibliographie de l’article sont citées dans le corps du texte de l’article. Pourrais tu lister les références absentes du corps du texte, sous forme de points.

nouveau prompt: …

Archambault, É., & Gagné, É. V. (2004). The use of bibliometrics in the social sciences and humanities. Montreal: Social Sciences and Humanities Research Council of Canada (SSHRCC), 161-69.
[…]
Yin, R. K. (2009). Case study research: Design and methods (Vol. 5). sage.

Tentative grep

Nicolas propose de faire gagner du temps en sélectionnant (avec un grep) l’ensemble des occurences à une référence biblio, afin de dresser une liste. À voir si c’est vraiment utile à Florence. En tous les cas, cela demande de passer par un terminal.

transformation du pdf en txt
pdftotext -nopgbrk ./CONSTRUCTION+ET+ORGANISATION+DES+CONNAISSANCES+DANS+LES+COLLECTIONS+NUMERIQUES+VF.pdf construction.txt
À la main, on sépare le corps et la biblio dans deux fichiers : construction-corps.txt et construction-biblio.txt
Puis on peut rechercher (grep) des appels de citation avec l’expression régulière YYYY), soit par exemple 2015) ou 1996)
```bash
$grep –color -nE “[0-9]{4})” construction-corps.txt
322:(2015), les technologies et les réseaux informatiques offrent les solutions matérielles pour
326:Prenant l’exemple sur HAL initié par le CNRS en 2001, Berthaud, Charnay et Fargier (2021)
334:dans une collection numérique, Schöpfel, Kergosien, Prost et Barrié (2022) ont réalisé une
340:Toujours dans le même ordre d’idée, Schöpfel (2020) a effectué une étude sur les dépôts dans

[…] # j’ai coupé
```

La commande suivante améliore la précédente en affichant la ligne qui précède l’occurence avec -B 1. Cela permet notamment de ne pas perdre l’occurence Deboin par exemple.

$grep --color -B 1 -nE "[0-9]{4}\)" construction-corps.txt
321-caractéristiques clés de la recherche dans la collection numérique DICAMES. Pour Deboin
322:(2015), les technologies et les réseaux informatiques offrent les solutions matérielles pour
--
325-donc ces technologies et réseaux qui ont favorisés l’émergence des collections numériques.
326:Prenant l’exemple sur HAL initié par le CNRS en 2001, Berthaud, Charnay et Fargier (2021)
--
333-d’organisation de la recherche. Dans l’optique de comprendre la construction des connaissances
334:dans une collection numérique, Schöpfel, Kergosien, Prost et Barrié (2022) ont réalisé une
--
339-laboratoires et de faire le lien avec les pratiques individuelles et l’environnement institutionnel.
340:Toujours dans le même ordre d’idée, Schöpfel (2020) a effectué une étude sur les dépôts dans

[...] #j'ai coupé, je vous laisse refaire l'expérience

On extrait la liste des (premiers) auteurs présents en biblio :

$grep --color -oE "^\b\w*\b" construction-biblio.txt | uniq  
Archambault
Callon
Chanier
Deboin
Desconnets
Leimdorfer
Maingueneau
Piron
Tessy
Fabre
Schöpfel
Trzmielewski
Yin

Et à partir de cette liste, on cherche les occurrences de ces (premiers) auteurs dans le corps de texte :

$grep --color -nE "Archambault|Callon|Chanier|Deboin|Desconnets|Leimdorfer|Maingueneau|Piron|Tessy|Fabre|Schöpfel|Trzmielewski|Yin" construction-corps.txt   
321:caractéristiques clés de la recherche dans la collection numérique DICAMES. Pour Deboin
334:dans une collection numérique, Schöpfel, Kergosien, Prost et Barrié (2022) ont réalisé une
340:Toujours dans le même ordre d’idée, Schöpfel (2020) a effectué une étude sur les dépôts dans
344:rapport aux dépôts des publications en texte intégral. A contrario, Trzmielewski et Gnoli (2019)
350:S’agissant de la collection numérique que nous choisie pour notre étude cas, Piron et al (2017)
364:de publications. (Archambault et Vignola Gagné, 2004). Cette méthode permet d’analyser la
372:En nous appuyant sur le cadre méthodologique proposé par Robert K. Yin dans son ouvrage
942:Auteur(s) : Pour Maingueneau (2009),1 la notion d’auteur se construit sur deux
960:interprétation2 (Leimdorfer, 1985). En nous appuyant sur titres 1997 thèse, nous dire que
978:Maingueneau, D. (2009). Auteur et image d’auteur en analyse du discours. Argumentation et
981:Leimdorfer, F. (1985). Analyse sociolinguistique des titres d'écrits académiques et sociologie

On peut maintenant comparer ces résultats avec celui de l’étape 1 :

sans “contexte”, c’est-à-dire avec juste les lignes concernées
avec “contexte”, c’est-à-dire en prenant la ligne précédente dans la recherche de date, et la ligne suivante dans la recherche de nom.

Au fait, dans le terminal, la lecture est facilitée par l’ajout de la couleur :

Une petite moulinette python devrait permettre d’automatiser tout ça.

Todo-list

Trouver des textes HN correspondant aux différents scénarios afin de refaire les tests et comparer les résultats