Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema...
-
Upload
luca-bressan -
Category
Technology
-
view
526 -
download
2
Transcript of Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema...
ESTRAZIONE AUTOMATICA DI INFORMAZIONI ESTRAZIONE AUTOMATICA DI INFORMAZIONI DA DOCUMENTI CARTACEI: PROGETTO E DA DOCUMENTI CARTACEI: PROGETTO E
REALIZZAZIONE DI UN SISTEMA DI REALIZZAZIONE DI UN SISTEMA DI SUPERVISIONE SUPERVISIONE
Università Degli Studi Di Trieste
Facoltà di Ingegneria
Corso di Laurea Specialistica in Ingegneria Informatica
Laureando:Luca Bressan
Relatore:Prof. Alberto Bartoli
Correlatori:Prof. Eric MedvetIng. Giorgio Davanzo
ScenarioScenario
La gestione di documenti cartacei è onerosa dal punto di vista del:◦Costo di gestione◦Volume di documenti movimentati
Aumenta l’utilizzo di sistemi di document understanding
Sistemi di document understandingSistemi di document understanding
document understanding: estrazione contenuto informativo tramite tecniche di elaborazione ed analisi immagini
Vantaggi:Gestione del contenuto informativo del
documento, non del documento in séMinor costo di archiviazioneMinor costo di gestione dell’informazione
Il sistema di estrazione automatica di Il sistema di estrazione automatica di informazioni da documenti cartacei (SEAD)informazioni da documenti cartacei (SEAD)
Sistema di document understanding realizzato presso il laboratorio di “Reti di calcolatori” del D.E.E.I.
Implementa algoritmi di estrazione, sottomessi per la pubblicazione internazionale. sviluppati presso il laboratorio di “Reti di calcolatori”
Funzionamento del SEADFunzionamento del SEAD
Ingresso: immagine da elaborare
uscita: documento rappresentatocome:◦Classe◦Campi◦Modello
Classe di un documentoClasse di un documento
Insieme dei documenti che fanno riferimento ad una medesima tipologia.
Esempi di classe :◦ Fatture ◦Bolle◦Scontrini fiscali◦Ecc.
CampoCampo
Documenti appartenenti alla stessa classe contengono le stesse informazioni.
La singola informazione presente in un documento viene definita campo
ModelloModello
Insieme di documenti appartenenti alla stessa classe e con stesso layout
Esempio:◦ Fatture emesse dal medesimo software
Obiettivi del SEADObiettivi del SEAD
Fornito in ingresso un documento da elaborare il SEAD cerca in maniera automatica di:
Scegliere la classe corretta
Scegliere il modello corretto
Individuare i campi presenti ed estrarre l'informazione
Workflow del SEADWorkflow del SEAD
Necessità interazione operatore (I)Necessità interazione operatore (I)
Il sistema può non essere in grado di individuare il modello
Esempi:documento potrebbe essere associato a più
modelli molto simili tra loroModello mai incontrato prima
La elaborazione del documento verrà guidata da un operatore
Necessità interazione operatore (II)Necessità interazione operatore (II)
Il sistema ha applicato il modello correttoL’elaborazione ha però portato ad errori
Esempi:Selezione errata del blocco da associare ad un
campoCampo non trovatoValore estratto non corretto (errore dell’OCR)
L’operatore dovrà eseguire delle correzioni
Architettura sistema di supervisioneArchitettura sistema di supervisione
ClientClient
Web application realizzata utilizzando il Framework GWT
Vantaggi derivanti dall’utilizzo di GWT◦Sviluppo in linguaggio Java
◦Compatibilità con i diversi browser
◦ Librerie base per la realizzazione della GUI fornite con l’SDK
Comunicazione client/serverComunicazione client/server
Utilizzato il meccanismo di RPC fornito fa GWT
Basato su servlet
Permette al client di richiedere i dati da presentare
Permette al client di inviare al sistema le modifiche effettuate
Business e Data tierBusiness e Data tier
Nel Business Tier vengono definiti:◦Entità◦EJB di interfacciamento◦EJB implementativi logica
Persistenza tramite JPA◦Permette la serializzazione/mappatura di oggetti
java su database relazionali
Interfaccia graficaInterfaccia grafica
Progettata cercando di massimizzare:
◦ Intuitività di utilizzo
◦Rapidità di intervento
◦Utilizzo dello spazio a schermo
Fondamentale:garantire elevato grado di automazione ed
efficienza del processo complessivo
Layout interfaccia graficaLayout interfaccia grafica
Interfaccia graficaInterfaccia grafica
Azioni implementate:
Selezione manuale dei campi all’interno del documento
Correzione del valore estratto per il singolo campo
Segnalazione assenza campo
Interfaccia graficaInterfaccia grafica
Azioni implementate:
Inserimento valore campo in assenza di blocco adeguato
Annullamento modifiche effettuate
Navigazione su documenti multipagina