NER for Historical Documents

Public web page

30 mai 2024 : Florence Clavaud, Responsable du Lab aux Archives nationales de France, et membre de l’équipe de recherche EA 3624 (Centre Jean-Mabillon) de l’Ecole nationale des chartes

“NER4Archives : reconnaître, réconcilier et identifier les entités nommées dans les instruments de recherche archivistiques au format EAD”

Depuis fin 2020, les Archives nationales et l’équipe ALMAnaCH de l’Inria ont joint leurs forces, avec le soutien du ministère de la Culture, pour travailler à la reconnaissance des entités nommées dans les instruments de recherche au format XML/EAD. L’enjeu est important : les Archives nationales gèrent un corpus de plus de 31000 fichiers XML/EAD, qui constituent le coeur de leur système d’information en ligne et qui décrivent les millions de documents et groupes de documents conservés par l’institution ; mais pour diverses raisons ces fichiers sont très peu indexés, ce qui prive les usagers des Archives nationales de points d’entrée appropriés lorsqu’ils font des recherches dans les métadonnées afin d’identifier les documents et données qui les intéressent. II n’est pas possible de procéder à une indexation manuelle de ce corpus. Le problème est globalement le même dans les autres services d’archives français. Les Archives nationales disposent par ailleurs de référentiels servant à l’indexation de ces métadonnées, qu’elles ont sémantisés et souhaitent enrichir par tous les moyens utilisables. Le projet NER4Archives (Named Entity Recognition For Archives), qui entrera dans sa deuxième phase à l’automne 2023, vise donc à doter les Archives nationales (et potentiellement tout autre service intéressé) de corpus d’apprentissage et de modèles d’IA efficaces pour parvenir à annoter les entités nommées mentionnées dans les fichiers EAD, à les classifier, à les réconcilier et à les lier à des référentiels existants (Wikidata) afin d’en extraire des données, pour produire en sortie des fichiers EAD indexés, les éléments d’indexation ainsi posés étant associés à des notices des référentiels des Archives nationales, qu’elles préexistent ou qu’elles aient été créées dans le cadre du projet. La présentation, qui sera faite par plusieurs personnes représentant les deux entités qui portent le projet, évoquera dans un premier temps le contexte, les spécificités et les enjeux du projet, en fera l’historique et en présentera les résultats déjà obtenus, pour évoquer ensuite les scénarios et pistes d’intégration des outils développés dans les outils de travail des archivistes.

Références :