Tesi - Presentazione
-
Upload
alessandro-bondi -
Category
Technology
-
view
1.264 -
download
0
description
Transcript of Tesi - Presentazione
Alma Mater Studiorum - Università di Bologna
Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca
SISTEMA CONFIGURABILE PER ILCOLLEGAMENTO ASSISTITO DI
DOCUMENTI NON STRUTTURATI ADOCUMENTI STRUTTURATI IN UN
EDMS ATTRAVERSO L’UTILIZZO DEIMOTORI DI RICERCA
Tesi di Laurea inBASI DI DATI E SISTEMI INFORMATIVI
Relatore PROF. DANILO MONTESI
Presentata daALESSANDRO BONDI
Gestione documentale
Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca
Documenti non strutturati
Documenti strutturati
meta datimarkup
classi di documento
Sistemi di gestione documentale (RMS) Catalogazione dei documenti Architettura client-server-repository (FS, DBMS, Link) Workflow: 3R (routes, rules, roles)
Collegamento documenti strutturati/non strutturati
Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca
Vantaggio nell'utilizzo di documenti strutturati:rendere il contenuto del documento
facilmente recuperabile ed interpretabileefficacia ed efficienza nella gestione
la strutturazione delle informazioni è unprocesso naturale della mente umana!
Indicizzazione manuale Sistemi di auto classificazione/estrazione
Information Retrieval
Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca
Componenti di un sistema di IR: (D, Q, F, R)Indicizzazione della collezione Dizionario, Posting [Termine, Documento, Occorrenze]
Processo di reperimento Query, Risultati, Valutazione
Criteri di valutazione Precision/Recall, Contesti, Semplicità
Web Information retrieval Creazione collezione, Interazione utente
Meta motori di ricerca
Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca
Processo di reperimentoQuery Formulazione (traduzione?) delle query per i singoli motori Processo di reperimento sui singoli motori Raggruppamento dei risultati relevance/rank? training data?
Eliminazione dei duplicatiRisultatiValutazione
Sistemi di voto
Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca
Sistemi di voto & Meta motori?
ma abbiamo tanti candidati di fronte a pochi elettori!
Definiscono regole di aggregazione Elettori: singoli motoriCandidati: i documenti (recuperati)
Metodo Borda-Countogni elettore classifica un insieme n di candidati in ordine di preferenza;per ogni votante, al primo della lista vengono assegnati n punti,al secondo n-1, al terzo n-2 e così via;i candidati non in classifica si dividono i punti non assegnati dall’elettore;sommando i punti viene determinata la classifica finale.
Proposta di soluzione
Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca
DESTRUTTURIAMO I DOCUMENTI!
(le istanze delle query relative al documento stesso)
Ad ogni classe di documento associamo dei query patternAd ogni query pattern associamo un coefficiente di rilevanzae un elenco di motori di ricerca su cui vanno eseguiteAd ogni motore di ricerca associamo un coefficiente di rilevanza
A partire da un documento strutturato possiamo quindiottenere dei “documenti non strutturati”
Eseguendo il processo di reperimento a partire daqueste query possiamo associare dei documenti
non strutturati ai nostri documenti strutturati.
Algoritmo generale
Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca
Processo di reperimentoPer ogni query pattern associato alla classe di documento, creo l’istanza della query relativa al singolo documento grazie ai dati contenuti nelle meta informazioniPer ogni motore di ricerca associato al query pattern, eseguo il singolo processo di reperimentoGenero l’elenco dei candidati (unisco tutti gli URL) (con i sistemi di voto tradizionali conosco prima i candidati!)Per ogni lista di risultati, calcolo il punteggio col metodo Borda-CountPer ogni punteggio, applico il calcolo dei coefficienti di rilevanza (query, motori)Sommo tutti i punteggi e restituisco la classifica finale
Sviluppi
Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca
Configurazioni e test sperimentaliQuery pattern e coefficienti di rilevanzaMotori di ricerca e coefficienti di affidabilitàEsecuzione della proceduraGestione della formattazione delle informazioniControllo di accesso
Sistemi informativi diversiConfigurazione dei query pattern (usabilità)Relevance scoresInterazioni con l’utente / Collaborative filtering
Sviluppi di ricerca
Conclusioni
Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca
Non si può mettere la parola fine!
Forte implicazione del lato umanoStruttura flessibile, configurabile, indipendentePeculiarità del contesto di riferimentoDifficoltà nella valutazione formale del sistema