Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

45
Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Transcript of Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Page 1: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Evaluation de la qualité des documents anciens

Vincent Rabeux LaBRI

Page 2: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Plan

• Cas d’utilisations et besoins clients.• Les outils pour répondre aux besoins.• La qualité des documents• La transparence– Modélisation– Identification des pixels par recalage– Mesure de la transparence– Prédiction de l’OCR

• Travaux actuels

Page 3: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Cas d’utilisation et besoins clients

Page 4: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Classification de document

Factures Carte identité Roman

Page 5: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Indexation des documents

Base de données- Images - Métadonnées

Recherche

Page 6: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Les outils pour répondre aux besoins

Page 7: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Les outils

• Descripteurs images• Mise en page du document• Texte• Structure logique (Table des matières,

Chapitres, Sections)• => OCR (Optical Character Recognition)– Extraction de la mise en page– Bloc de texte, image, formule mathématique, ..– Transcription du texte

Page 8: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Problèmes des OCRs

• Liés au document :– Fontes– Complexité de la mise en page

• Liés à l’image :– Défauts de l’image– Binarisation

Page 9: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

La qualité des documents

Page 10: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Les défauts des documents anciens

Page 11: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Algorithmes de restauration

Problème : - Les temps de calculs

Solution : - Détecter les images bruitées.

Page 12: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Evaluation de la qualité

• L’objectif est de répondre à la question :

– Quel sera le taux d’erreur d’un algorithme (OCR) sur une image donnée ?

Page 13: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

La transparence

Modélisation

Page 14: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Transparence

Page 15: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Transparence (Modélisation par la lumière)

Page 16: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Transparence(Modélisation par diffusion)

Page 17: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

La transparence

Identification des pixels par recalage

Page 18: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Recalage Recto-Verso

Page 19: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Recalage Recto-Verso

Page 20: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Recalage Recto-Verso

Page 21: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Recalage Recto-Verso

Page 22: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Recalage Recto-Verso

• Problème :– Le recto et le verso ne sont pas scanné en même temps.– Pas le même repère.

• Méthodes existantes :– Temps de calcul très important.– Échoue quand la transparence est faible.

• Nouvel algorithme :– Rapide– Précis– Averti l’utilisateur, en cas d’échec.

Page 23: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Recalage Recto-Verso

Page 24: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Recalage Recto-Verso

• Profils

Page 25: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Recalage Recto-Verso

• Recalage des profils Horizontaux et Verticaux Utilisation d’un « dynamic time warping »

Rotation : Redressement Décalage x et y : DTW.

Page 26: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Recalage Recto-Verso

• Erreur résultante après DTW.• Garantir la précision :– 500 images– 50 sans transparence– Seuil à 0.19

Page 27: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Recalage Recto-Verso

• Résultats :– 50 fois plus rapide (12s vs 598s)– Erreur max de l’état de l’art • Rotation : 18• Translation horizontal : 38• Translation vertical : 39

– Erreur max de notre algorithme • Rotation : 0.25• Translation horizontal : 1• Translation vertical : 11

Page 28: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Identification des pixels de transparence

Page 29: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

La transparence

Mesures

Page 30: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Mesure de la transparence

• Intensité :– Distance à l’encre.– Distance au fond.

Page 31: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Mesure de la transparence

Page 32: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Mesure de la transparence

• Composantes ajoutées.• Composantes modifiées.• A quelle point sont-elle modifiées ?

Page 33: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

La transparence

Prédiction de l’OCR

Page 34: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Utilisation des mesures

• Prédiction du taux d’erreur de 2 OCRs :

– Abbyy Fine Reader

– OCRopus

• Taux d’erreur calculé grâce à la distance d’édition.

Page 35: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Utilisation des mesures

• Besoins :– Mesurer la transparence et pas les autres défauts, – Avoir une vérité terrain pour l’OCR.

• Génération de documents synthétiques :– fonds, – fontes,– niveau de transparence, – mise en page,

• 200 images de documents générées (90% pour le modèle, 10% pour sa validation).

Page 36: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Extrait du corpus de document

Page 37: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Précision du modèle statistique

• Régression linéaire.• Modèle – OCROpus : R2 = 0.99,– ABBYY : R2 = 0.97,

• Validation– OCROpus : R2 = 0.99, Coefficient : 0.99– ABBYY : R2 = 0.97, Coefficient : 1.006.

Page 38: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Résultats encourageants

• Modèle de prédiction très précis.• Chacune des mesures a son rôle à jouer.• Problèmes :– Données synthétiques.– Beaucoup d’autres défauts.– Besoin d’une vérité terrain des défauts.

Page 39: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Travaux actuels

Page 40: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Travaux actuels

• Création d’une plateforme collaborative de création de vérité terrain: – Orienté qualité (défauts)– 3 niveaux de vérité terrain :• Synthétique.• Utilisateur.• Expert.

• Accessible par web services.

Page 41: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Documents Synthétiques

Page 42: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Niveau utilisateur

Page 43: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Niveau expert

Page 44: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Perspectives

• Finir la base d’images annotées.• Développer des mesures pour les autres

défauts :– Taches– Déformations des caractères

• Prédiction de la qualité d’un document perçu par un être humain.

Page 45: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Merci !