Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación...

43
Extractores de Información de Kushmerick

Transcript of Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación...

Page 1: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Extractores de Información de Kushmerick

Page 2: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

Page 3: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

Page 4: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Introducción

Nicholas Kushmerick, Daniel S. Weld, Robert B. Doorenbos: Wrapper Induction for Information Extraction.

IJCAI (1) 1997: 729-737

Page 5: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

How IE works

Information extractor

Document

Extraction rules

Attributes

The Da Vinci Code

Dan Brown

15.95 €

2006

Robert Langdon…

Doubleday

Templates

Message ID: MUC-0001Message Template: Court resolutionDate of Event: April, 30 2007Charge: Terrorist attackPerpetrator: Salahuddin AminPerpetrator: Anthony GarciaPerpetrator: Waheed MahmoodPerpetrator: Omar Khyam…

The Da Vinci Code

Dan Brown

15.95 €

2006

P1

Robert Langdon…

Doubleday

A1

B1

Ontology instances

Templating/ Ontologisation rules

Page 6: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

Page 7: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Ejemplo 1

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Congo</B> <I>242</I><BR>↓<B>Egypt</B> <I>20</I><BR>↓<B>Belize</B> <I>501</I><BR>↓<B>Spain</B> <I>34</I><BR>↓</BODY></HTML>

Page 8: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Ejemplo 2

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓<B>Some Country Codes</B><P>↓<B>Congo</B> <I>242</I><BR>↓<B>Egypt</B> <I>20</I><BR>↓<B>Belize</B> <I>501</I><BR>↓<B>Spain</B> <I>34</I><BR>↓<HR><B>End</B></BODY></HTML>↓

Page 9: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Ejemplo 3

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓<B>Some Country Codes</B><P><UL>↓<LI><B>Congo</B> <I>242</I><BR>↓<LI><B>Egypt</B> <I>20</I><BR>↓<LI><B>Belize</B> <I>501</I><BR>↓<LI><B>Spain</B> <I>34</I><BR>↓</UL><HR><B>End</B></BODY></HTML>

Page 10: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Ejemplo 4

name: John↓address: 12 Main St↓

name: Jane↓

name: Sally↓address: 10 Oak Ave↓address: 20 Walnut Rd↓

Page 11: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Reglas LR

• Caracterización LR (Left – Right)

LRLR

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Page 12: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Reglas HLRT

• Caracterización HLRT (Head – Left – Right – Tail)

HLRTHLRT

Head = “* <P>”

Tail = “<HR> *”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Head = “* <P>”

Tail = “<HR> *”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Page 13: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Reglas OCLR

• Caracterización OCLR (Open – Close – Left – Right)

OCLROCLR

Open = “* <LI>”

Close = “<BR>”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Open = “* <LI>”

Close = “<BR>”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Page 14: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

Page 15: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Conceptos Preliminares

• Tokenización

• Conjunto de entrenamiento

<B>Congo</B> <I>242</I><BR>↓

Page 16: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Algoritmos de Inducción

LRHLRTOCLRN-LR

Page 17: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

LR – Delimitadores Left

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

</I><BR>↓</I><BR>↓

</I><BR>↓<B><B><B>

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>

</I><BR>↓<B>

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

<B>

</I><BR>↓<B>

</I><BR>↓<B>

CADENA SEMILLA

Page 18: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

LR – Delimitadores Left

CANDIDATOS

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

</I><BR>↓<B> /I><BR>↓<B> I><BR>↓<B> ><BR>↓<B> <BR>↓<B>

R>↓<B> BR>↓<B>

>↓<B> ↓<B> <B> B> >

Condiciones de validez para candidatos L:

1) Sufijo apropiado2) No formar parte de la cola

de la página si se trata del primer atributo

Page 19: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

LR – Delimitadores Right

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

</B> <I></B> <I></B> <I>

</B> <I>

</B> <I>

</B> <I>

</B> <I>

</B> <I>

CADENA SEMILLA

Page 20: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

LR – Delimitadores Right

CANDIDATOS

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

Condiciones de validez para candidatos R:1) No formar parte de algún

atributo2) Prefijo del texto que

ocurre inmediatamente después

</B> <I></B> <I</B> <</B> </B></B</<

Page 21: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

LR – Delimitadores Left

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

</B> <I></B> <I></B> <I>

</B> <I>

</B> <I>

</B> <I>

</B> <I>

</B> <I>

CANDIDATOS

</B> <I> /B> <I> B> <I> > <I> <I> <I> I> >

CADENA SEMILLA

Page 22: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

LR – Delimitadores Right

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

</I><BR>↓</I><BR>↓

</I><BR>↓<B><B><B>

</I><BR>↓<B>

</I><BR>↓<B>

</I><BR>↓<B>

</I><BR>↓</BODY></HTML>

</I><BR>↓</BODY></HTML>

CANDIDATOS

</I><BR>↓<B></I><BR>↓<B</I><BR>↓<</I><BR>↓</I><BR>

</I><B</I><BR

</I><</I></I</<

CADENA SEMILLA

Page 23: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Inductive algorithms

LRHLRTOCLRN-LR

Page 24: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

HLRT

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Some Country Codes</B><P>↓

<B> <I> <I> <I>

<I>

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> 242<B><B><B>

EgyptBelizeSpain

20501

34

<B>Some Country Codes</B><P>↓

<HR><B>End</B>

<I><I><I>

<I>

</B></B></B>

</B>

</B></B></B>

</B>

</I><BR>↓</I><BR>↓

</I><BR>↓</I><BR>↓

</I></I>

</I></I>

</BODY></HTML><HR><B>End</B><BR>↓

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Some Country Codes</B><P>↓<B>

CADENA SEMILLA PARA H Y l1

</BODY></HTML><BR>↓<HR><B>End</B>

CADENA SEMILLA PARA T

Page 25: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

CANDIDATOS PARA H

HLRT<HTML><TITLE>Some Country Codes</TITLE><BODY>↓<B>Some Country Codes</B><P>↓<B>Congo</B> <I>242</I><BR>↓<B>Egypt</B> <I>20</I><BR>↓<B>Belize</B> <I>501</I><BR>↓<B>Spain</B> <I>34</I><BR>↓<HR><B>End</B></BODY></HTML>

</TITLE><BODY>↓<B>/TITLE><BODY>↓<B>S…>↓<B>↓<B>S…<BB>>S …

CANDIDATOS PARA T CANDIDATOS PARA l1…<P>↓<B> P>↓<B> >↓<B> … B> >

↓<HR><B><HR><B>E …<HR><HR><B…HRR>><…

Page 26: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

HLRT

Condiciones de validez para validar la tripleta h, t, l1:1) H debe pertenecer a todas las

cabeceras de las páginas2) l1 sufijo apropiado cabecera3) T no debe ocurrir entre H y l1

4) T substring de las colas de las páginas

5) l1 no debe ocurrir antes de t6) l1 sufijo apropiado del texto

entre tuplas7) T no debe ocurrir antes que l1

TRIPLETA VÁLIDA

H:<P>T: <HR>L1:<B>H = “*<P>” T = “<HR>*”CountryName = “<B> * </B>”

TRIPLETA NO VÁLIDA

H:<HTML>T: <HR>L1:<B>

TRIPLETA NO VÁLIDA

H:<P>T: </HTML>L1:<B>

Page 27: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Inductive algorithms

LRHLRTOCLRN-LR

Page 28: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

OCLR

<I> <I> <I>

<I>

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> 242<B><B><B>

EgyptBelizeSpain

20501

34

<B>Some Country Codes</B><P><UL>↓

</UL><HR><B>End</B>

</B></B></B>

</B>

</I></I><BR>↓

</I><BR>↓</I><BR>↓

<LI><LI><LI><LI>

</B></B></B>

</B>

<I> <I>

<I> <I>

</I></I>

</I></I>

CADENA SEMILLA PARA O Y C

CADENA SEMILLA PARA l1

</I><B><LI> </I><BR>↓<B><LI> </I><BR>↓<B><LI>

</I><BR>↓<LI><B>

<BR>↓<BR>↓

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Some Country Codes</B><P><UL>↓<LI><B>

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Some Country Codes</B><P><UL>↓

<B><LI>

Page 29: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

O:<C : >L1:<B>

OCLRCondiciones de validez para validar la tripleta:1) O substring de las cabeceras2) l1 sufijo apropiado después de

O.3) C substring de la cola4) O no debe ocurrir después de C5) O substring del texto entre

tuplas6) C substring del texto entre

tuplas de cada página.7) l1 sufijo apropiado

TRIPLETA VÁLIDA

O:<LI>C : <BR>L1:<B>H = “*<LI>” T = “<BR>*”CountryName = “<B> * </B>”

TRIPLETA NO VÁLIDA

TRIPLETA NO VÁLIDA

O:<BC : >L1:<B>

Page 30: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Algoritmos de Inducción

LRHLRTOCLRN-LR

Page 31: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

N-LR

name: ame: me: e: :

Candidatos l1

John 12 Main St

Jane

Sally 10 Oak Ave 20 Walnut Rd

name:

name:

name:

address: address:

address: address:

address: address:

↓↓

Candidatos r1

Page 32: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

John 12 Main St

Jane

Sally 10 Oak Ave 20 Walnut Rd

N-LR

name:

name:

name:

Candidatos l2

address: address:

address: address:

address: address:

↓↓

↓ address: address:

address: ddress: dress: …

s: :

Candidatos r2

↓↓

Page 33: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

N-LR

CONJUNTO DE DELIMITADORES VÁLIDOS

l1:name: r1:l2:address: r2: Name = “name: * ↓” Address = “address: * ↓”

Condiciones de validez para un conjunto de candidatos l y r:

1) Selección de conjunto de candidatos y validación mediante ejecución del extractor N-LR

Page 34: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

Page 35: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

LRLRLR

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

AtributosAtributos

Congo 242Egypt 20Belize 501Spain 34

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

<B>Congo</B> <I>242 </I>

Page 36: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

HLRTHLRTHLRT

Head = “* <P>”

Tail = “<HR> *”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Head = “* <P>”

Tail = “<HR> *”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

AtributosAtributos

Congo 242Egypt 20Belize 501Spain 34

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

<B>Congo</B> <I>242 </I><B>Some Country Codes</B><P>↓

…<P>

<HR><B>End</B></BODY></HTML>↓<HR>

Page 37: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

OCLROCLROCLR

Open = “* <LI>”

Close = “<BR>”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Open = “* <LI>”

Close = “<BR>”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

AtributosAtributos

Congo 242Egypt 20Belize 501Spain 34

…<B>Some Country Codes</B><P><UL>↓<LI><B>Congo</B> <I>242</I><BR>↓<LI><B>Egypt</B> <I>20</I><BR>↓<LI><B>Belize</B> <I>501</I><BR>↓<LI><B>Spain</B> <I>34</I><BR>↓</UL><HR><B>End</B></BODY></HTML>

<LI><B>Congo </B> <I>242</I><BR>

Page 38: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

N-LR

name: John↓address: 12 Main St↓

name: Jane↓

name: Sally↓address: 10 Oak Ave↓address: 20 Walnut Rd↓

N-LRN-LR

Name = “name: * ↓”

Address = “address * ↓”

Name = “name: * ↓”

Address = “address * ↓”

AtributosAtributos

John

12 Main St

Jane

Sally

20 Walnut Rd10 Oak Ave

address:

address:address:

Page 39: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

Page 40: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Evaluación

• 70% de los casos aprende un tipo de extractor de información

• Sólo se necesitan un par de ejemplos

Page 41: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

Page 42: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

Conclusions

• LR, HLRT, OCLR, N-LR• Variantes: HOCLRT, N-HLRT• Problemáticos en la web actual

Page 43: Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.

¡Gracias por asistir!

Información de [email protected]