NER for Historical Documents

Public web page

Solène Tarride (Dr, Ingénieure chez Teklia)

Extraction d’informations structurées dans des documents historiques

Dans cette présentation, TEKLIA partagera son expérience pratique sur l’utilisation du modèle DAN (vision encodeur-décodeur) pour l’extraction d’informations à partir de documents historiques. Je présenterai des cas d’usage sur des formulaires (PSE-RYZ), des tableaux (Socface, CICR) et des registres (Esposalles). Nous discuterons des aspects techniques sur toute la chaîne : l’annotation et la représentation des documents, les stratégies d’entraînement, l’estimation de scores de confiance, la prédiction des informations et de leur localisation grâce au mécanisme d’attention. Enfin, nous aborderons également les limites de telles architectures, notamment les hallucinations et les difficultés liées aux mises en page complexes.