Extrakce informac í pomocí extrakčních ontologií

42
Extrakce informací pomocí extrakčních ontologií Martin Labský Voice Technologies and Systems Group IBM ČR Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačního a znalostního inženýrství [email protected]

description

Extrakce informac í pomocí extrakčních ontologií. Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačního a znalostního inženýrství. Martin Labsk ý Voice Technologies and Systems Group IBM ČR. [email protected]. Agenda. Extrakce informací, motivace - PowerPoint PPT Presentation

Transcript of Extrakce informac í pomocí extrakčních ontologií

Page 1: Extrakce informac í pomocí extrakčních ontologií

Extrakce informací pomocí extrakčních ontologií

Martin Labský

Voice Technologies and Systems GroupIBM ČR

Vysoká škola ekonomická v PrazeFakulta informatiky a statistikyKatedra informačního a znalostníhoinženýrství[email protected]

Page 2: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 2

Agenda

Extrakce informací, motivace Metody extrakce informací

– vybrané algoritmy a nástroje Rozšířené extrakční ontologie

– kombinace tří typů extrakčních znalostí– návrh jazyka EOL– extrakční algoritmy

Experimenty a případové studie– kontaktní informace z webových stránek– oznámení o seminářích– popisy produktů včetně obrázků

Shrnutí

Page 3: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 3

Extrakce informací – příklady aplikací

Nalézt v dokumentech údaje předem definovaného sémantického typu

Seminář

místo ?řečník ?

začátek ?konec ?

Extrakce informací

Page 4: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 4

Extrakce informací – příklady aplikací

Extrakce informací

Page 5: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 5

Využití extrakce informací

Strukturované vyhledávání– hledání dle parametrů (např. výrobku), porovnání napříč weby– disambiguace při vyhledávání (Jaguar, Johnsson)

Urychlení navigace v dokumentech– zvýraznění relevantních informací pro určitou úlohu

Automatické zodpovídání otázek– jaké je hlavní město...

Podpora automatického překladu– identifikace a nepřekládání jmen (Jan Kovář na John Smith)

Podpora posuzování kvality webových stránek– např. zda medicínské stránky splňují formální kritéria jako je

uvedení kontaktních informací

Extrakce informací

Page 6: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 6

Automatická extrakce informací

Alternativou je ruční anotace dokumentů jejich autory– např. FOAF (Friend Of A Friend)– k dispozici pouze výjimečně, navíc nemusí obsahovat potřebné

informace– anotace může být (i záměrně) nepravdivá

Automatická extrakce informací– rychlé pokrytí velkého počtu dokumentů– využívá různé typy extrakčních znalostí– spolehlivost závisí na obtížnosti úlohy, zvolených algoritmech a jimi

využitých extrakčních znalostech

Extrakce informací

Page 7: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 7

Typy extrakčních úloh

Dle typu zpracovávaného vstupu– množství formátování (žádné – rich text – tabulky)– gramatičnost textu (odstavce gramatických vět – útržky)– extrakce netextových prvků (obrázky)

Dle pokrytí– omezeno na homogenní skupinu dokumentů (konkrétní website)– omezeno na doménu (např. nabídky práce, oznámení o seminářích)– bez omezení (např. extrakce jmen osob z libovolného textu)

Dle složitosti oboru hodnot extrahovaných prvků– konečný a „malý“ (např. názvy zemí)– možno pokrýt formální gramatikou (regulárními výrazy, např. email)– možno pokrýt složitějším vzorem (např. standardní poštovní adresa určité země)– otevřené obory hodnot (jména lidí)

Dle míry nejednoznačnosti hodnot extrahovaných prvků– relativně jednoznačné (světadíly) – nejednoznačné (příjmení)

Dle struktury extrahovaných prvků– extrakce izolovaných prvků (jméno člověka)– extrakce prvků v binárních relacích (člověk zaměstnán ve firmě)– extrakce záznamů o více prvcích „plnění šablon“ (informace o fůzi, kontaktní

údaje) volně dle Cohen, 2004

Page 8: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 8

Agenda

Extrakce informací, motivace Metody extrakce informací

– vybrané algoritmy a nástroje Rozšířené extrakční ontologie

– kombinace tří typů extrakčních znalostí– návrh jazyka EOL– extrakční algoritmy

Experimenty a případové studie– kontaktní informace z webových stránek– oznámení o seminářích– popisy produktů včetně obrázků

Shrnutí

Page 9: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 9

IE algoritmy dle typu využité extrakční znalosti

Wrappery– opírají se o pevnou formátovací strukturu dokumentů z nichž může

extrakce probíhat– relevantní pozice ve formátovací struktuře lze definovat manuálně;

několik příkladů postačí k naučení „wrapperu“ Algoritmy strojového učení nevyžadující pravidlené formátování

– pravděpodobnostní metody (HMM, MEMM, CRF, Bayesovské sítě)– subsymbolické metody (SVM, neuronové sítě)– indukce pravidel z dat (LP2, Rapier)

Metody založené na ručních pravidlech– pravidla založená typicky na regulárních výrazech a datových typech

hledaných atributů– pravidla typicky hledající extrahované informace podle jejich obsahu a

kontextu Doplňkové metody: bootstrapping a aktivní učení

Page 10: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 10

Extrakční wrappery

Wrappery dle způsobu vzniku– ruční tvorba (ve specializovaném jazyce nebo pomocí grafického IDE)– supervizovaně trénované (typicky interaktivně, postačí několik příkladů)– nesupervizovaně trénované (na množině dokumentů rozpoznají měnící se

datové části dokumentů a ty extrahují) Reprezentace a indukce wrapperů

– ručně zadaná specifikace v příslušném jazyce– naučená pravidla založená na kontextech a ev. obsazích extrahovaných položek

• třídy wrapperů založené na oddělovačích, např. WIEN (Kushmerick)• varianty pokrývání množin: Whisk, Stalker (využito v projektu Crossmarc)

– naučený konečný automat (transducer) akceptující symboly dokumentu (slova a formátovací značky), který pro každý akceptovaný symbol určí extrahovanou třídu

• SoftMealy (supervizovaný)• RoadRunner (nesupervizovaný)

Některé nástroje pro vývoj, běh a udržování wrapperů– Open-source: WebHarvest, XWrap, JScrape– Komerční IDE: Kapow, Lixto

Page 11: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 11

Algoritmy strojového učení pro IE

Při aplikaci učících se algoritmů pro IE je třeba zvolit– učící se algoritmus– reprezentaci dokumentu

Algoritmy dle principu fungování– pravděpodobnostní metody (HMM, MEMM, CRF,

Bayesovské sítě)– subsymbolické metody (SVM, neuronové sítě)– indukce pravidel z dat (LP2, Rapier)

Algoritmy dle typu zpracovávaných dat– klasifikátory izolovaných příkladů– značkovače sekvencí

Možné reprezentace dokumentu– sekvence slov– sekvence hranic mezi slovy– množina sousloví určitých délek (např. 1 až 5)

Page 12: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 12

Metody IE založené na ručních pravidlech

Perl skripty s regulárními výrazy Ruční tvorba wrapperů

– např. WebHarvest Anotování dle textového obsahu ontologií

– slovníkové vyhledávání• Ontomat, Ontotext KIM plugin

– využití regulární výrazů, slovníků a pravidelného formátování • extrakční ontologie

Extrakční jazyk JAPE – součástí extrakční komponenty ANNIE v rámci GATE

Page 13: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 13

Doplňkové metody pro IE

Bootstrapping– Např. Pankow nebo Armadillo1. „Prázdný“ IE algoritmus začíná s omezenou množinou pozitivních příkladů (např.

jména prezidentů)2. Algoritmus nalezne (např. na webu pomocí vyhledávače) časté dobře

diskriminující kontexty ve kterých se známé pozitivní příklady nacházejí a indukuje z nich kontextová extrakční pravidla

3. Kontextová extrakční pravidla jsou použita k nalezení nových (pravděpodobně) pozitivních příkladů

4. GOTO 2 nebo vrať nalezené pozitivní příklady Aktivní (interaktivní) učení

– Melita, AKT1. IE systém začíná s iniciálním nebo i prázdným extrakčním modelem, a množinou

neoznačkovaných dokumentů2. Systém vyzve uživatele, aby označkoval jeden dokument, na kterém si je

současný extrakční model nejméně jistý3. Nově anotovaný dokument je přidán do trénovacích dat a extrakční model

přetrénován4. GOTO 2 dokud není přesnost extrakce na neviděných testovacích dokumentech

dostatečná

Page 14: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 14

Nevýhody izolovaných přístupů

Wrappery– využitelné jen pro dokumenty s pevnou formátovací strukturou

(např. katalog zboží konkrétní website)– nelze spoléhat na známou formátovací strukturu konkrétních

website pro úlohy, kde množina zpracovávaných website není předem dána

Trénované přístupy– často vyžadují velké množství trénovacích dat, která typicky nejsou

pro specifickou úlohu dostupná– po sběru trénovacích dat je obtížné měnit extrakční schéma

Manuální přístupy– řízení báze znalostí o mnoha extrakčních pravidlech je pro člověka

obtížné– není snadné využít případná trénovací data

Motivace, cíle a obsah disertační práce

Page 15: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 15

Agenda

Extrakce informací, motivace Metody extrakce informací

– vybrané algoritmy a nástroje Rozšířené extrakční ontologie

– kombinace tří typů extrakčních znalostí– návrh jazyka EOL– extrakční algoritmy

Experimenty a případové studie– kontaktní informace z webových stránek– oznámení o seminářích– popisy produktů včetně obrázků

Shrnutí

Page 16: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 16

Motivace pro rozšířené extrakční ontologie

Využít tři různé typy znalostí pro extrakci informací z dokumentů– pravidla zadané expertem,– znalosti indukované z trénovacích dat,– pravidelné formátování dokumentů.

Cílem extrakčních ontologií a jazyka pro jejich reprezentaci je– rychlé prototypování extrakčních aplikací,– postupné zlepšování přesnosti a pokrytí přidáním dalších znalostí,– snadné změny extrakčního schématu.

Implementace– extrakční nástroj Ex– rozšíření extrakce textových položek o extrakci obrázků

Motivace, cíle a obsah disertační práce

Page 17: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 17

Rozšířené extrakční ontologie

Termín extrakční ontologie zavedl (D.W. Embley, 2002)– metoda pro extrakci strukturovaných záznamů z internetu na bázi

ručně zadaných regulárních výrazů Navržené rozšířené extrakční ontologie

– bohatší jazyk pro manuální zadání extrakčních znalostí– využívají navíc trénovací data a nesupervizované rozpoznání

pravidelné formátovací struktury– kombinují extrakční znalosti na základě pravděpodobnostního

modelu– reprezentovány navrženým a implementovaným jazykem Extraction

Ontology Language (EOL) v rámci vyvinutého opensource nástroje Ex

Rozšířené extrakční ontologie

Page 18: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 18

Zapojení extrakčních znalostí v extrakční ontologii

z trénovacích datnesupervizovanéextrakční indiciejiné znalosti

manuální

p r

Rozšířené extrakční ontologie

Page 19: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 19

Kombinace extrakčních indicií

Každá indicie E je vybavena 2 odhady pravděpodobností vzhledem k předpovídanému atributu A:– přesnost indicie p = P(A|E) ... míra postačitelnosti

– pokrytí indicie r = P(E|A) ... míra nutnosti Každému atributu je přiřazena apriori pravděpodobnost výskytu P(A) označuje množinu indicií definovaných pro A Předpokládáme podmíněnou nezávislost indicií v rámci :

Pomocí Bayesova vzorce určíme P(A | hodnoty indicií ve ) takto:

kde

AA

A

Rozšířené extrakční ontologie

Page 20: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 20

Zapojení extrakčních znalostí v extrakční ontologii

...

z trénovacích datnesupervizovanéextrakční indiciejiné znalosti

manuální

p r

příznaky značky v místech kde byl atribut klasifikovánw1, w2,...

příznaky

Rozšířené extrakční ontologie

Page 21: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 21

Zapojení trénovaného klasifikátoru do E.O.

implementace ex. algoritmu CRF reprezentace dokumentu: sekvence slov

predikované atributy v rámci třídy

trénovaný model použít znalosti definované v této E.O. jako příznaky

odkaz na rozhodnutí „speaker“ klasifikátoru „cls1“použit ve vzoru ve <value> sekciatributu speaker.

• věříme pozitivním rozhodnutím klasifikátoru na 92%• věříme, že klasifikátor „odhalí“ aspoň 50% případů

Page 22: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 22

Extrakční proces 1/4

1. Předzpracování dokumentu, načtení formátovací struktury

2. Nalezení výskytů vzorů pro obsah a kontext atributů

3. Aplikace trénovaných klasifikátorů, označení jejich predikcí

4. Nalezení výskytů vzorů obsahujích reference na rozhodnutí klasifikátorů

5. Vytvoření kandidátů na hodnoty atributů (AC), nalezení možných koreferencí a skórování AC dle PAC =

6. Vytvoření svazu AC napříč dokumentem, uzly svazu jsou 3 typů: (ac) obsahují právě jeden AC, (null) prázdné, (bg) na pozadí uzel má skóre log(PAC)

Washington , DC

......

O(n)délka

dokumentu

Rozšířené extrakční ontologie

O(|AC|)

Page 23: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 23

Extrakční proces 2/4

7. Nalezení nejlepší cesty svazem AC cesta s nejlevnějším součtem skóre uzlů uzly typu (ac) identifikují extrahované hodnoty atributů první možný konec extrakce

8. Nesupervizovaná indukce formátovacích vzorů AC na nejlepší cestě svazem dotázány na jejich formátovací „hnízdo“ „hnízdo“ je sub-strom ve formátovací struktuře dokumentu, obsahující AC,

jehož kořen je první blokový element (např. odstavec nebo buňka tabulky) „hnízdo“ je použito jako nová indícíe pokud jeho četnost a odhad jeho

přesnosti (pomocí rel. četností v dokumentu) překročí nastavené prahy

O(k |AC|)

TD

A_hrefB

John Doe [email protected]

TD

A_hrefB

Argentina Agosto [email protected]

formátovací „hnízdo“ naučené pomocí správně rozpoznaných jmen pomáhá identifikovat

jinak špatně rozpoznatelné atributy

O(n |AC|)

*Rozšířené extrakční ontologie

průměrné větvení svazu

Page 24: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 24

Extrakční proces 3/4

9. Generování kandidátů na instance tříd (IC) zdola nahoru postupným seskupováním

jednotlivých IC s AC v jejich okolí prováděno postupně šplháním

formátovací strukturou nahoru od rozšiřovaného IC

pro rozšíření vybírán vždy nejlépe skórující IC, rozšířené IC skladovány v uspořádané frontě

řízeno a omezeno ontologií (kardinalita, axiomy a další indicie třídy) a nastavením10. Skórování IC

Skóre PIC určeno dvěma složkami – na základě skóre obsažených AC a na základě indicií třídy

kde |IC| = počet atributů v IC, ACskip = AC v rozsahu IC který není jejím členem, PAC skip = odhad pravděpodobnosti, že AC je “planý poplach”, C = množina indicií známá pro třídu C, P(C|EC) kombinuje indicie dle stejného modelu jako pro atributy

Obě skóre zkombinovány pseudo-bayesovskou funkcí známou z exp. systému Prospector:

výp. až O(n |AC|2)

Rozšířené extrakční ontologie

prost. až O(n2)

Page 25: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 25

Extrakční proces 4/4

11. Vložení validních IC do původního AC svazu skóre validních IC finalizováno a IC prořezány dle skóre každý validní IC je reprezentován novým uzlem, obcházejícím samostatné AC a uzly reprezentující „pozadí“ skóre IC uzlu =

12. Nejlepší cesta AC+IC svazem identifikuje extrahované položky algoritmus nalezení nejlepší cesty umožňuje definovat různá omezení pro položky na cestě (min/max počet

instancí nebo atributů určitého typu) n-best

||))(log( ICICscore

IC1

IC2

O(n |IC|)

O(k (|IC|+|AC|))

Rozšířené extrakční ontologie

Page 26: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 26

Implementace nástroje Ex

Systém provádí „extrakční úlohy“ v režimech:– testování,– supervizované trénování klasifikátorů,– n-násobná křížová validace,– n-násobná křížová validace s indukcí ngram rysů.

V rámci extrakční úlohy lze řetězit více parciálních úloh– několik instancí Exu nebo další nástroje

Evaluátor– přesnost, úplnost a F-míra (strict, loose)– Villain skóre hodnotící seskupování atributů do instancí

Opensource– Java, 54k řádek kódu

Page 27: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 27

Příklad extrakční úlohy

Page 28: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 28

Agenda

Extrakce informací Motivace, cíle a obsah disertační práce Rozšířené extrakční ontologie

– kombinace tří typů extrakčních znalostí– návrh jazyka EOL a implementace interpretu– algoritmy extrakčního procesu

Popis experimentů– oznámení o seminářích– kontaktní informace z webových stránek– popisy produktů

Shrnutí

Page 29: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 29

Experimenty: oznámení o seminářích

485 anglických e-mailových oznámení o seminářích na Carnegie-Melon University. Manuální EO: vytvořena člověkem na základě 50 náhodně vybraných dokumentů,

testována na zbývajících 435 dokumentech. Kombinovaná EO: stejná ontologie vybavená CRF klasifikátorem. Pro atribut Location jsou

manuální indicie použity jen jako příznaky klasifikátoru, pro ostatní atributy jsou manuální indicie plně zapojeny. 10-násobná křížová validace na testovací sadě 435 dokumentů.

manuální EO, testovací data kombinovaná EO, 10-CV shrnutí

atribut přesnost úplnost F-míra přesnost úplnost F-míra rozdíl F počet entit

Speaker 69.9 66.5 68.1 75.4 75.0 75.2 +7.1689

– loose 76.2 72.7 74.4 81.8 80.6 81.2 +6.8

Location 59.7 75.9 66.9 93.3 78.0 85.0 +18.1575

– loose 77.5 86.0 81.5 97.6 80.7 88.3 +6.8

Start time 96.0 88.7 92.2 98.1 93.3 95.6 +3.4881

– loose 96.4 88.9 92.5 98.1 93.3 95.6 +3.1

End time 97.8 90.3 93.9 97.0 94.4 95.7 +1.8380

– loose 97.9 90.5 94.1 97.2 94.7 96.0 +1.9

Celkem 79.1 80.0 79.6 90.4 85.0 87.6 +8.02525

– loose 85.9 84.1 85.0 93.2 87.2 90.1 +5.0

Popis experimentů

Page 30: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 30

Oznámení o seminářích: výsledky IE systémů

Extrakce oznámení o seminářích je jedna z často používaných srovnávacích úloh:

Nejlepší výsledky dosahuje skip-chain Conditional Random Field a Bayesovská síť BIEN.

F-míry sCRF BIEN EO LP2 HMM Rapier SRV Whisk

Speaker 80.4 76.9 75.2 77.6 76.6 53.0 56.3 18.3

Location 88.1 87.1 85.0 75.0 78.6 72.7 72.3 66.4

Start time 96.7 96.0 95.6 99.0 98.5 93.4 98.5 92.6

End time 97.1 98.8 95.7 95.5 62.1 96.2 77.9 86.0

Overall 90.6 89.7 87.6 86.0 82.0 77.3 77.1 64.9

Data viz http://tcc.itc.it/research/textec/tools-resources/learningpinocchio/CMU . Výsledky převzaty z:• BIEN: Peshkin, 2003• Skip-chain CRF: Sutton, 2006 • LP2, HMM, SRV, Rapier a Whisk: Ciravegna, 2001

Page 31: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 31

Experimenty: kontaktní informace z HTML

0

10

20

30

40

50

60

70

80

90

100

city country degree em ail nam e phone street zip average villa in

EN m anual com b D E m anual com b C Z m anual com b

Kolekce heterogenních webových stránek z medicínské domény ve 3 jazycích Manuální EO: vyvinuta člověkem pomocí 30 dokumentů z každé kolekce, testována na zbytku dokumentů s

využitím indukce formátovacích vzorů Kombinovaná EO: manuální EO doplněná CRF klasifikátorem, manuální indicie použity samostatně i jako

příznaky pro CRF, 10-násobná kříž. validace na testovacích dokumentech EN: 116 dokumentů, 7000 entit, 1131 instancí tříd, DE: 93/4950/768, CZ: 99/11000/2506

Villain score

hodnotí přesnost seskupování atributů

Popis experimentů

Page 32: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 32

Experimenty: nabídky bicyklů z HTML

0

10

20

30

40

50

60

70

80

90

100

brake

category

chaincolo

r

discount

fork

fram

e

make

name

price

size

speedyear

average

Manual

FPI

H MM

C om bined

Kolekce 103 dokumentů / 4100 entit z různých website ve V.Británii nabízejících bicykly Manuální EO: vyvinuta člověkem pomocí 50 dokumentů, testována na zbytku FPI EO: manuální EO se zapnutou indukcí formátovacích vzorů HMM EO: využívá pouze trénovaný HMM model, datotypová omezení a axiomy Kombinovaná EO: Využívá HMM model pro všechny atributy kromě ceny a slevy

Popis experimentů

23,5%

Page 33: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 33

Experimenty: HMM a extrakce obrázků

Skrytý markovský model s dedikovanými stavy pro extrahované položky a jejich kontext, inspirováno (Freitag, McCallum 2000)

Experimenty s nesupervizovaně indukovanými topologiemi

Rozšíření lexikálních distribucí stavů o n-gramové distribuce

Jediný model pro všechny extrahované položky:– 1 Background stav– 1 Target, 1 Prefix and 1 Suffix stav na 1

atribut

Popis experimentů

Vyvinuto několik binárních klasifikátorů obrázků (bicykl ano/ne)– příznaky: rozměry, barevný histogram, počet výskytů ve stránce, podobnost k trénovací kolekci

pozitivních příkladů (Praks, 2002)– 2.6% = chybovost kombinovaného klasifikátoru (10-CV na 1600 obrázcích)

HMM model propojen s klasifikátorem obrázků tak, že lexikální distribuce stavů emitují třídy obrázků předpovídané klasifikátorem– 88% F-míra pro obrázky jako součást popisu produktu

Page 34: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 34

Binární klasifikace obrázků: příznaky

Velikost– absolutní výška a šířka v pixelech– normalizovaná hodnota normálního rozdělení

odhadnutého z pozitivních příkladů (obrázků kol)

– 6,6% chyb (práh hodnoty rozdělení) Barevný histogram

– HSV reprezentace obrázku, pixely kvantizovány do 162 možných hodnot vektor četností o 162 pozicích

– 5.2% chyb (Weka, PART rozhodovací seznam)

Míra podobnosti obrázku ke kolekci pozitivních trénovacích obrázků (ke K nejpodobnějším)– latentní sémantický index– 26% chyb

Kombinace příznaků– 2.6% chybovost, PART

rozhodovací seznam– CV-10, 1600 obrázků

Page 35: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 35

Experimenty: HMM a extrakce obrázkůaplikace: malý strukturovaný vyhledávač, autory webového rozhraní jsou kolegové z KEG

Page 36: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 36

Shrnutí

Rozšířené extrakční ontologie– volitelné využití 3 různých typů extrakční znalosti

– rychlé prototypování

– snadné změny extrakčního schématu Experimentální domény

– oznámení o seminářích

– kontaktní informace

– popisy bicyklů s obrázky Open-source extrakční nástroj Ex

– distribuce, zdrojové kódy a příklady: http://eso.vse.cz/~labsky/ex

– Java, 54000 řádků kódu

Page 37: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 37

Odkazy

Chan, C.H., Kayed, M., Girgiz, M.R., Shaalan, K.F.: A Survey of Web Information Extraction Systems. IEEE Transactions on Knowledge and Data Engineering, 2006.

Cohen, W.: Information Extraction and Integration: an Overview. 2004. Online tutorial, http://www.cs.cmu.edu/~wcohen/ie-survey.ppt

Uren, V., Cimiano, P., Iria, J., Handschuh, S., Vargas-Vera, M., Motta, E., Ciravegna, F.: Semantic annotation for knowledge management: Requirements and a survey of the state of the art. Web Semantics, 2006.

Embley, D.W., Tao, C., Liddle, S.W.: Automatically extracting ontologically specified data from HTML tables with unknown structure. In: Proc. ER 2002.

Karkaletsis, V., Karampiperis, P., Stamatakis, K., Labský, M., Růžička, M., Svátek, V., Polla, M., Mayer, M, Gonzales, D: Automating Accreditation of Medical Web Content. In: ECAI, Patras, IOS Press, 2008, ISBN 978-1-58603-891-5.

Labský, M., Nekvasil, M., Svátek, V.: Towards Web Information Extraction using Extraction Ontologies and (Indirectly) Domain Ontologies. In: K-CAP, Whistler, ACM, 2007, ISBN 978-1-59593-643-1.

Labský, M., Svátek, V.: Combining Multiple Sources of Evidence in Web Information Extraction. In: ISMIS, Toronto. Foundations of Intelligent Systems, Springer-Verlag, 2008, ISBN 978-3-540-68122-9.

Labský, M., Svátek, V., Nekvasil, M.: IE Based on Extraction Ontologies: Design, Deployment and Evaluation. In: KI – Ontology-based Information Extraction Systems, Kaiserslautern, CEUR-WS, 2008, ISSN 1613-0073.

Labský, M., Svátek, V.: On the Design and Exploitation of Presentation Ontologies for Information Extraction. In: ESWC/Mastering the Gap: From Information Extraction to Semantic Representation. Budva: KMI, The Open University, 2006.

Labský, M., Svátek, V., Šváb, O., Praks, P., Krátký, M., Snášel, V.: IE from HTML Product Catalogues: from Sorce Code and Images to RDF. Web Intelligence, Compiégne, IEEE, 2005, ISBN 0-7695-2415-X.

Labský, M., Svátek, V., Šváb, O.: Types and Roles of Ontologies in Web Information Extraction. In: ECML/PKDD – Knowledge Discovery and Ontologies, Pisa, 2004.

Labský, M., Vacura, M., Praks, P.: Web Image Classification for Information Extraction. In: RAWS. VŠB TU, 2005, ISBN 80-248-0864-1.

Labský, M.: Product information extraction from semistructured documents using HMMs. Znalosti, VŠB TU, 2004 Peshkin, L., Pfeifer, A.: Bayesian Information Extraction Network. In: Proc. Intl. Joint Conference on Artificial Intelligence, 2003. Svátek, V., Labský, M., Nemrava, J., Kosek, J., Růžička, M.: Projekt MedIEQ: hodnocení zdravotnických webových zdrojů s

využitím extrakce informací. Brno 14.-17.10.2006. In: DATAKON, Brno, MU, 2006 ISBN 80-210-4102-1. Srovnání výsledků extrakčních nástrojů na úloze oznámení o seminářích: h

ttp://tcc.itc.it/research/textec/tools-resources/learningpinocchio/CMU Praks, P.,Dvorský, J.,Snášel,V.: Latent semantic indexing for image retrieval systems. In: SIAM Conference on Applied Linear

Algebra, Williamsburg, 2003.

Page 38: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 38

Děkuji za pozornost!

Otázky ?

http://eso.vse.cz/~labsky/ex

Page 39: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 39

Popis dat

Emailová oznámení o seminářích– 485 dokumentů, 3000 pojmenovaných entit 4 typů, 1 oznámení na email

Extrakce kontaktních informací z heterogenních webových stránek v medicínské doméně pro 3 jazyky– extrakce pojmenovaných entit 10 typů a seskupování do instancí 1 třídy

Extrakce popisů bicyklů z heterogenních webových stránek obchodů– 108 dokumentů, 4000 atributů 15 typů včetně 630 obrázků kol

– Binární klasifikace obrázků na kolekci 1600 obrázků Extrakce popisů počítačových monitorů a televizí z web. obchodů

– 500 webových stránek s monitory, 60 s televizemi

Počet dokumentů Počet entit Počet instancí tříd

EN 116 7000 1131

DE 93 4950 768

CZ 99 11000 2506

Page 40: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 40

DTD jazyka EOL

Součástí distribuce Ex:– ex/models/eol.dtd

Page 41: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 41

Příklady evidence v EOL

Semináře:

Kontakty:

Bicykly:

Page 42: Extrakce informac í pomocí extrakčních ontologií

4.2.2010 Extrakce informací z webových stránek pomocí extrakčních ontologií 42

Web 2.0, 3.0...

Web 2.0 – existující druhá generace technologií a designu vysoce interaktivních webových stránek a aplikací, často využívající intenzívní komunikaci mezi klientem a serverem a rozsáhlé schopnosti prohlížeče. (volně dle Wikipedie)– pro extrakci z Web 2.0 stránek lze využít API prohlížeče a jeho reprezentaci

dokumentu

– extrakční ontologie nejsou v principu omezeny na webové stránky, lze je aplikovat na dokumenty bez jakékoliv struktury; na druhé straně je možné využít i jiného hierarchického formátovaní než HTML

Web 3.0 – očekávaná další generace „sémantického webu“, kde stroje do určité míry „rozumějí“ jeho obsahu, např. jsou schopny odvozování nad prezentovanými fakty a mohou provádět operace pomocí sémanticky anotovaných webových služeb.– IE obecně je jednou z technik které by mohly „plnit“ potřebné báze znalostí