NER for Historical Documents

Public web page

17 mars 2023 : Carmen Brando Lebas (Dr et ingénieure de recherche en Humanités numériques à l’EHESS) et Frédérique Mélanie-Becquet (Ingénieure d’études CNRS en production, traitement et analyse de données au Lattice).

Annuaires de propriétaires et des propriétés de Paris (1898, 1903, 1913, 1923) : du papier à la carte

La présentation reprendra les grandes étapes du traitement entrepris, entre 2019 et 2022, sur l’Annuaire des propriétaires et des propriétés de Paris et du département de la Seine : transcription, structuration et analyse. Le travail que nous présenterons a été effectué dans le contexte du groupe Annuaires et adresses du consortium Paris Time Machine d’Huma-num. Notre exposé abordera dans un premier temps la transcription des données : quels outils avons-nous utilisés pour passer du format PDF au format texte ? Quels problèmes avons-nous rencontrés et comment les avons-nous solutionnés ? Dans un second temps, nous nous attarderons sur la structuration et l’analyse des données. Nous montrerons les mécanismes mis en place pour passer du texte à l’analyse. Tout d’abord, nous expliquerons comment nous avons structuré nos données : de la création du modèle d’annotation au tableur final. Ensuite, nous exposerons nos premiers résultats, les premières analyses effectuées : de l’observation quantitative des données aux premières projections sur carte.