Vérification des concordances

NjjLrvi8QUSfGNITExVZMQ (edit on libreon)

created: 2025-01-20

updated: 16:01:58 - March 4, 2025

licence: CC-BY-SA 4.0

Vérification des concordances

Tests et expérimentations

Servanne Monjour, Nicolas Sauret

Florence vérifie systématiquement la #concordance entre les appels dans le texte et la référence bibliographique en fin de texte : il s’agit de s’assurer que la référence est la bonne.

Elle vérifie également les scories, ou les biblios gonflées (lorsque l’auteur indique en biblio des références non citées dans le corps de texte).

Hypothèse : pourrait-on utiliser un RAG afin d’automatiser ce travail ?

Tests réalisés sur un texte soumis à HN

Test RAG Kotaemon

En local, avec ollama.

prompt : Dans ce document, je cherche à vérifier que toutes les références présentes dans la bibliographie de l’article sont citées dans le corps du texte de l’article. Pourrais tu lister les références absentes du corps du texte, sous forme de points.

Résultat : plantage.

Archambault, É., & Gagné, É. V. (2004). The use of bibliometrics in the social sciences and humanities. Montreal: Social Sciences and Humanities Research Council of Canada (SSHRCC), 161-69.
[…]
Yin, R. K. (2009). Case study research: Design and methods (Vol. 5). sage.

Test avec NotebookLM (en ligne)

Prompt : Dans ce document, je cherche à vérifier que toutes les références présentes dans la bibliographie de l’article sont citées dans le corps du texte de l’article. Pourrais tu lister les références absentes du corps du texte, sous forme de points.

Résultat : rapide, mais non concluant.

Le document ne permet pas de vérifier si toutes les références présentes dans la bibliographie sont citées dans le corps du texte, mais il est possible d’identifier les références bibliographiques listées dans le document.

Voici les références bibliographiques listées dans le document, présentées sous forme de points :

  • Archambault, É., & Gagné, É. V. (2004). The use of bibliometrics in the social sciences and humanities.
  • Callon, M. (1991). Réseaux technico-économiques et irréversibilités.
  • Callon, M. (1992). Sociologie des sciences et économie du changement technique: l’irrésistible montée des réseaux technico-économiques.
  • Callon, M., Larédo, P., & Rabharisoa, V. (1991). Gestion des programmes publics et réseaux technico-économiques.
  • Callon, M., Laredo, P., & Mustar, P. (1995). Réseaux technico-économiques et analyse des effets structuraux.
  • Chanier, T. (2005). Archives ouvertes et publication scientifique: comment mettre en place l’accès libre aux résultats de la recherche?.
  • Deboin, M. C. (2015). Déposer ses publications dans une archive ouverte, en 8 points.
  • Desconnets, J. C., Moyroud, N., & Libourel, T. (2003, June). Méthodologie de mise en place d’observatoires virtuels via les métadonnées.
  • Leimdorfer, F. (1985). Analyse sociolinguistique des titres d’écrits académiques et sociologie de la science.
  • Maingueneau, D. (2009). Auteur et image d’auteur en analyse du discours.
  • Piron, F., Diouf, A. B., Dibounje Madiba, M. S., Mboa Nkoudou, T. H., Aubierge Ouangré, Z., Tessy, D. R., … & Lire, Z. (2017). Le libre accès vu d’Afrique francophone subsaharienne.
  • Fabre, I., & Gardiès, C. (2008). L’accès à l’information scientifique numérique: organisation des savoirs et enjeux de pouvoir dans une communauté scientifique.
  • Schöpfel, J., & Prost, H. (2010). Développement et Usage des Archives Ouvertes en France. 2e partie: Usage.
  • Schöpfel, J., Kergosien, E., Prost, H., & Barrié, J. (2022). «Pas si simple que ça…»: Une enquête sur l’usage de HAL par les unités de recherche des universités IdEx.
  • Schöpfel, J. (2020). L’usage de la plateforme HAL par des unités de recherche: Le cas de l’Université de Lille.
  • Trzmielewski, M., & Gnoli, C. (2019, October). Une classification interdisciplinaire pour l’échange et la médiation des données ouvertes de la recherche.
  • Yin, R. K. (2009). Case study research: Design and methods (Vol. 5).

Pour identifier les références absentes du corps du texte, il faudrait comparer cette liste avec les citations effectivement présentes dans le texte.

Nouveau prompt avec recherche inversée : Dans ce document, je cherche à vérifier que toutes les références présentes dans le corps de l’article figurent dans la bibliographie.

Résultat : rapide, mais non concluant.

Le document ne permet pas de vérifier si toutes les références présentes dans le corps de l’article figurent dans la bibliographie. Cependant, il est possible de retrouver certaines références citées dans le corps du texte et qui sont listées dans la bibliographie.

Les références suivantes, mentionnées dans le corps du texte, figurent également dans la bibliographie :

  • Archambault et Vignola Gagné, 2004
  • Deboin (2015)
  • Berthaud, Charnay et Fargier (2021)
  • Schöpfel, Kergosien, Prost et Barrié (2022)
  • Schöpfel (2020)
  • Trzmielewski et Gnoli (2019)
  • Piron et al (2017)
  • Robert K. Yin (2003)
  • Maingueneau (2009)
  • Leimdorfer (1985)

Pour mener à bien une vérification complète, il faudrait comparer chaque citation du corps du texte avec la liste exhaustive de la bibliographie afin de s’assurer de leur présence et de l’exactitude des informations.

Tentative grep

Nicolas propose de faire gagner du temps en sélectionnant (avec un grep) l’ensemble des occurences à une référence biblio, afin de dresser une liste. À voir si c’est vraiment utile à Florence. En tous les cas, cela demande de passer par un terminal.

  1. transformation du pdf en txt
    pdftotext -nopgbrk ./CONSTRUCTION+ET+ORGANISATION+DES+CONNAISSANCES+DANS+LES+COLLECTIONS+NUMERIQUES+VF.pdf construction.txt
  2. À la main, on sépare le corps et la biblio dans deux fichiers : construction-corps.txt et construction-biblio.txt
  3. Puis on peut rechercher (grep) des appels de citation avec l’expression régulière YYYY), soit par exemple 2015) ou 1996)
    ```bash
    $grep –color -nE “[0-9]{4})” construction-corps.txt
    322:(2015), les technologies et les réseaux informatiques offrent les solutions matérielles pour
    326:Prenant l’exemple sur HAL initié par le CNRS en 2001, Berthaud, Charnay et Fargier (2021)
    334:dans une collection numérique, Schöpfel, Kergosien, Prost et Barrié (2022) ont réalisé une
    340:Toujours dans le même ordre d’idée, Schöpfel (2020) a effectué une étude sur les dépôts dans

[…] # j’ai coupé
```

  1. La commande suivante améliore la précédente en affichant la ligne qui précède l’occurence avec -B 1. Cela permet notamment de ne pas perdre l’occurence Deboin par exemple.
$grep --color -B 1 -nE "[0-9]{4}\)" construction-corps.txt
321-caractéristiques clés de la recherche dans la collection numérique DICAMES. Pour Deboin
322:(2015), les technologies et les réseaux informatiques offrent les solutions matérielles pour
--
325-donc ces technologies et réseaux qui ont favorisés l’émergence des collections numériques.
326:Prenant l’exemple sur HAL initié par le CNRS en 2001, Berthaud, Charnay et Fargier (2021)
--
333-d’organisation de la recherche. Dans l’optique de comprendre la construction des connaissances
334:dans une collection numérique, Schöpfel, Kergosien, Prost et Barrié (2022) ont réalisé une
--
339-laboratoires et de faire le lien avec les pratiques individuelles et l’environnement institutionnel.
340:Toujours dans le même ordre d’idée, Schöpfel (2020) a effectué une étude sur les dépôts dans

[...] #j'ai coupé, je vous laisse refaire l'expérience
  
  1. On extrait la liste des (premiers) auteurs présents en biblio :
$grep --color -oE "^\b\w*\b" construction-biblio.txt | uniq  
Archambault
Callon
Chanier
Deboin
Desconnets
Leimdorfer
Maingueneau
Piron
Tessy
Fabre
Schöpfel
Trzmielewski
Yin
  1. Et à partir de cette liste, on cherche les occurrences de ces (premiers) auteurs dans le corps de texte :
$grep --color -nE "Archambault|Callon|Chanier|Deboin|Desconnets|Leimdorfer|Maingueneau|Piron|Tessy|Fabre|Schöpfel|Trzmielewski|Yin" construction-corps.txt   
321:caractéristiques clés de la recherche dans la collection numérique DICAMES. Pour Deboin
334:dans une collection numérique, Schöpfel, Kergosien, Prost et Barrié (2022) ont réalisé une
340:Toujours dans le même ordre d’idée, Schöpfel (2020) a effectué une étude sur les dépôts dans
344:rapport aux dépôts des publications en texte intégral. A contrario, Trzmielewski et Gnoli (2019)
350:S’agissant de la collection numérique que nous choisie pour notre étude cas, Piron et al (2017)
364:de publications. (Archambault et Vignola Gagné, 2004). Cette méthode permet d’analyser la
372:En nous appuyant sur le cadre méthodologique proposé par Robert K. Yin dans son ouvrage
942:Auteur(s) : Pour Maingueneau (2009),1 la notion d’auteur se construit sur deux
960:interprétation2 (Leimdorfer, 1985). En nous appuyant sur titres 1997 thèse, nous dire que
978:Maingueneau, D. (2009). Auteur et image d’auteur en analyse du discours. Argumentation et
981:Leimdorfer, F. (1985). Analyse sociolinguistique des titres d'écrits académiques et sociologie

On peut maintenant comparer ces résultats avec celui de l’étape 1 :

  • sans “contexte”, c’est-à-dire avec juste les lignes concernées
  • avec “contexte”, c’est-à-dire en prenant la ligne précédente dans la recherche de date, et la ligne suivante dans la recherche de nom.

Au fait, dans le terminal, la lecture est facilitée par l’ajout de la couleur :

Une petite moulinette python devrait permettre d’automatiser tout ça.