1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione...

15
1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Corso di Laurea in Ingegneria Informatica Relatore Chiar.mo Prof. Sonia Bergamaschi Correlatore Dott. Maurizio Vincini Tesi di Laurea Lorenzo Lugli Controrelatore Prof. Domenico Beneventano Anno Accademico 2001 - 2002

Transcript of 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione...

Page 1: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

1

Integrazione di Sorgenti HTML in MOMIS:

Analisi Comparativa degli Strumenti Esistenti

Integrazione di Sorgenti HTML in MOMIS:

Analisi Comparativa degli Strumenti Esistenti

Università degli Studi di Modena e Reggio Emilia

Facoltà di Ingegneria – Sede di ModenaFacoltà di Ingegneria – Sede di ModenaCorso di Laurea in Ingegneria InformaticaCorso di Laurea in Ingegneria Informatica

RelatoreChiar.mo Prof. Sonia Bergamaschi

CorrelatoreDott. Maurizio Vincini

Tesi di LaureaLorenzo Lugli

ControrelatoreProf. Domenico Beneventano

Anno Accademico 2001 - 2002

Page 2: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

2

Introduzione

Crescita mole dati disponibili

Soluzione adottata daimotori di ricerca tradizionali

Ritrovamento dei dati ad un punto critico

Problemi: Velocità di crescita del Web

I contenuti delle pagine dinamiche vengono ignorati

Max accuratezza raggiungibile pagina Web

Indicizzazione di tuttele pagine presenti sul Web

Page 3: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

3

Introduzione

HumanReadableHTML

MachineReadableXML

wrapper

Wrapper XML

HTML Generatore di wrapper

XML

Soluzione adottata:

MOMIS(Mediator EnvirOnment for

Multiple Information Sources)www.dbgroup.unimo.it/Momis

Wrapper

ObjectSource

Integration Designer

Design levelUser

User level

Query ManagerOBJ ECT SERVANT

WrapperRelational

Source

Data level

SI -Designer

Global SchemaDATA REPOSITORY

SIM ODB-Toolsvalidation

SLIM WordNet InteractionARTEMIS Clustering TUNIM Map. Table tuning

I ntegration level

WordNetOBJ ECT SERVANT

Momis – Global Schema Builder

ODB-ToolsOBJ ECT SERVANT

Service levelWordNet ODB-Tools

WrapperXML

Source

Wrapper

HTMLSource

Wrapper

ObjectSource

Wrapper

ObjectSource

Integration Designer

Design levelUser

User level

Query ManagerOBJ ECT SERVANT

WrapperRelational

Source

Data level

SI -Designer

Global SchemaDATA REPOSITORY

SIM ODB-Toolsvalidation

SLIM WordNet InteractionARTEMIS Clustering TUNIM Map. Table tuning

I ntegration level

WordNetOBJ ECT SERVANT

Momis – Global Schema Builder

ODB-ToolsOBJ ECT SERVANT

Service levelWordNet ODB-Tools

WrapperXML

Source

Wrapper

HTMLSource

Page 4: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

4

Obiettivo della tesi

Analisi dei generatori di wrapper HTML XML

Test

Generazione di wrapper per siti di esempio

Utilizzo dei wrapper per trasformare le pagine HTML in XML

Individuazione di uno strumento per MOMIS

Robustezza: capacità dei wrapper di fornire un’estrazione efficace anche in seguito a cambiamenti nelle pagine sulle quali sono stati messi a punto.

Page 5: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

5

Generatori di Wrappers

XWRAP Elite Georgia Institute of Technology

RoadRunner Università di Roma Tre

Andes IBM Almaden Research Center

Lixto Lixto Software DBAI University of Technology Vienna

Lapis Carnegie Mellon University Pittsburgh

Page 6: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

6

XWRAP Elite

Obiettivo: Pagine Web data-intensive

Processo di generazione del wrapper:

Individuazione dei dati e separazione in data object

Decomposizione degli oggetti in elementi

Marcatura di oggetti ed elementi

Contributo Primario: Euristiche ed algoritmi per sopperire alla necessità di input semantici da parte del progettista

Page 7: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

7

XWRAP Elite

Fase di Test: Problemi

Immagini, Javascript

Sottoalbero minimo

HTTPS

Frame

Tabelle complesse

Page 8: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

8

Il sistema RoadRunner

ObiettivoRaggiungere completa automatizzazione

Principale intuizione:

Studio dianalogie edifferenze

Scoperta di modelli di estrazione

Page 9: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

9

Il sistema RoadRunner

Architettura

Classifier

Aligner

Expander

Labeler

Classifier

Labeler

Expander

Aligner

DatiEstratti

Wrapper con campi non etichettati

Classidi Pagine

PagineSingole

InputPunto di

Accesso al sito

XML

Page 10: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

10

Il sistema RoadRunner

Labeler

…<table> <tr>

<td>Nome</td><td>Telefono</td>

</tr> (<tr><td>$A</td>

<td>$B</td> </tr>)+ </table>…

<TABLE>

+

<TR>

<TD> <TD>

$A $B

<TR>

<TD> <TD>

Nome Telefono

Page 11: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

11

Il sistema Andes della IBM

HTML XMLXPath

Processo di conversione HTML - XML

Estrattori

Estrattore

XSL Processor XSL ProcessorOutput

XMLXMLXML …

XSLT nXSLT 1

XHTML

URL

XSLT Set

Page 12: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

12

Il sistema Andes

Sintesi degli hyperlink

Ancore: punti di riferimento per individuare concetti di interesse

Salti: percorso che porta al dato di interesse partendo dall’ancora più vicina

Filtri HTML

Filtro XHTML

Navigatore

Deposito URL

URLs

HTML conHyperlinkSintetici

HTML conJavaScript e FORM HTML

HTML

XSLT

Page 13: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

13

Il sistema Lixto

Principale caratteristica: Interfaccia visuale e interattiva

Modelli: Specificano come estrarre sezioni di dati da pagine Web

Ogni modello viene mappato in un tag XML

Filtri: Forniscono una rappresentazione alternativa dei dati che devono essere estratti

Condizioni: Servono a restringere il numero di data-object restituiti da un filtro

Page 14: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

14

Il sistema Lixto

Risultati dei test: problemi

Frame

Concetti aventi differenti significati innestati allo stesso livello di una struttura dati

Ricostruzione simple element

Estrazione multipagina

Browser interno

Risultati dei test: successo

Struttura dei dati

Struttura della paginaHTML

Page 15: 1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.

15

XWRAP Elite Data-intensive

Lixto Individuali

RoadRunner

Andes IBM

Conclusioni