Információ integráció Szemantikus Web megközelítés...

20
Információ integráció Szemantikus Web megközelítés Alkalmazások 1

Transcript of Információ integráció Szemantikus Web megközelítés...

Page 1: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Információ integrációSzemantikus Web megközelítés

Alkalmazások

1

Page 2: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Miért van szükségünk ilyesmire? (Alkalmazások)WWW:

Összehasonlítás alapú vásárlás Portál építések több adatforrás felhasználásával B2B, elektronikus piacterek

Tudomány és kultúra: Genetika: gén információk integrálása Asztrofizika: égi jelenségek gyűjtése. Kultúra: kulturális információs adatbázisok egységes elérése országhatárokon túl

Vállalati adatintegráció Egy átlagos KNV 49 adatbázist alkalmaz és IT költségvetésének 30%‐át az adatintegrációra költi (US)

2

Page 3: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Csak szöveg volna a weben? A web jelentős része valójában strukturált…

A legtöbb web szerver mögött adatbázisok állnak Dinamikusan konvertálják az adatokat olvasható nyelvi formára 

<India, New Delhi>  => The capital of India is New Delhi. Ha vissza tudnánk konvertálni lenne strukturált adatunk!

(ki)csomagolók, csomagolók tanulása, stb… Dinamikus lapokat is fel tudunk deríteni...

Félig‐strukturált web (kialakulóban) Legtöbb lap részben strukturált (pl. XML) XML a szabvány a szintaktikára, ismert problémák az értelmezéssel

Szolgáltatások Utazási szolgáltatások, vásárlások támogatása

ÉrzékelőkTőzsdei árfolyamok, hőmérsékletek, jegyárak…

3

Page 4: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Miért nem elég: Keresőgépek szövegalapú keresést végeznek

Jól működik egyedi dokumentumokon Nem tudnak integrálni több dokumentumból származó információkat

Nem képesek hatékony általánosításra Nem tudnak dokumentumokat és adatbázisokat összekapcsolni

Az információ integráció célja strukturált és félig‐strukturált információforrások együttes kezelése 

4

Page 5: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

5

Netbot

Junglee

DealPilot.Com

Összehasonlítás alapú vásárlás?

• Hasonló• De:

• Szélesebb fókusz• Szélesebb spektruma az

adatbázisoknak• Szolgáltatások

• Új kihívás• “adattár” nem működik• Kézi forrásleírás, kezelés

korlátai

Page 6: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Miért nem csak Közös séma hiánya

Források heterogén sémákkal (és fogalmakkal, ontológiákkal) rendelkeznek

Félig‐strukturált források Régi források

Nem relációs sémák Eltérő elérési módok

Független források Nincs közös adminisztráció Nem kezelt forrás tartalmi átfedések

Nehezen előrejelezhető viselkedés Lekérdezés végrehajtás bonyolult

Általában csak olvashatóak Ez lehet szerencsés is Bár terjednek a tranzakció kezelési megoldások a weben

6

Database(relational)

Database Manager(DBMS)

-Storage mgmt-Query processing-View management-(Transaction processing)

Query(SQL)

Answer(relation)

adatbázisokelosztott adatbázisok

Page 7: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Kitérő: Ivan Herman felvezetése aW3C konferencián

7

Page 8: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

8

Szolgáltatások

Web lapok

Strukturált adatok

Szenzorok(soros adatok)

Végrehajtás

Forrás fúzionálás/Lekérdezés

tervezés

Forrás leírás

Válasz

Monitor

Mediátor

Page 9: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

9

Szolgáltatáso

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálás Lekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Válasz

Teszt lekérdezések

Monitor

• Felhasználói lekérdezések megfogalmazása a mediált sémán.

• Adatok tárolva lokális sémában.

• A tárolt információ (tartalom) ismerete alapján megfogalmazható a leképezés a sémák között.

• A mediátor alkalmazza a leképezést a felhasználói kérdés lefordítására a forrás lekérdezésekre.

Információmenedzser

Page 10: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

10

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálás Lekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Válasz

Teszt lekérdezések

Monitor

Tudásreprezentáció- Ontológiák- Metaadatok- Következtetés- Lekérdező nyelvekAutomata tervezés

-Nyelvek tervezése-Szolgáltatások kompozíciója-Reaktív tervezés/

terv monitorozás

Tanulás/bányászás-Forrás felkutatás-Forrás statisztikák-Wrapper tanulás

Hol az MI szerepe?

Page 11: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Forrás leírások Minden meta‐adat információt 

tartalmaz Forrás tartalom logikai leírása(könyvek, új autók).

Forrás képességek (pl. SQL lekérdezés feltehető)

Forrás teljesség (minden könyvet tartalmaz).

Fizikai jellemzők (forrás, hálózat). Statisztikák az adatokról Source reliability

Tükör források Frissítési frekvencia.

11

Lekérdezé

s

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervezési

kérések

Prefere

nciák

/Eléé

rsimod

ell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztikák frissítése

Információmenedzser

Lekérdezé

s

Lekérdezé

s

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervezési

kérések

Prefere

nciák

/Eléé

rsimod

ell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztikák frissítése

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervezési

kérések

Prefere

nciák

/Eléé

rsimod

ell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztikák frissítése

Információmenedzser

Page 12: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Forrás elérések Hogyan kapunk n‐eseket

Számos forrás strukturálatlan adatokat ad Néhány inherensen strukturálatlan, mások természetes nyelvi köntösben vannak

Vissza kell csomagolni az adatokat Wrapper építés/információ kinyerés Kézi munka/fél‐automatikus

12

Page 13: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Forrás fúzió/ lekérdezés tervezés Feldolgozza a felhasználói lekérdezést és 

előállítja a végrehajtási tervet Költség és hatékonyság közti optimalizáció

Forrás elérési korlátok kezelése Információ a forrásminőségről

13

Lekérdezé

s

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervezési

kérések

Prefere

nciák

/Eléé

rsimod

ell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztikák frissítése

Információmenedzser

Lekérdezé

s

Lekérdezé

s

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervezési

kérések

Prefere

nciák

/Eléé

rsimod

ell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztikák frissítése

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervezési

kérések

Prefere

nciák

/Eléé

rsimod

ell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztikák frissítése

Információmenedzser

Page 14: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Monitoring/ Végrehajtás Lekérdezési terv alapján elvégzi a 

feladatot a forrásokon Forrás késleltetések kezelése Hálózati, tranziens kimaradások Forrás elérési korlátok Szükséges lehet újratervezések elvégzése

14

QueryQuery

Services

Webpages

Structureddata

Sensors(streamingData)

Services

Webpages

Structureddata

Sensors(streamingData)

ExecutorNeeds to handleSource/network

Interruptions,Runtime uncertainty,

replanning

Source Fusion/Query Planning

Needs to handle:Multiple objectives,Service composition,

Source quality & overlap

Source TrustOntologies;

Source/ServiceDescriptions

Replanning

Requests

Prefere

nce/U

tility

Model

Answers

ProbingQueries

Sour

ce C

alls

Monitor

Updating Statistics

Page 15: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Méretek figyelembe vétele Hány forrást kell elérni? Mennyire autonómok ezek? Van ismeretünk a forrásokról? Strukturáltak az adatok? Csak lekérdezés lehetséges vagy módosítás is? Követelmények: pontosság, teljesség, teljesítmény, inkonzisztenciák kezelése

Zárt vagy nyílt világ feltételezés?

15

Page 16: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Deduktív adatbázisok Relációkat predikátumokkal írjuk le.  Relációk közti relációkat datalog szabályokkal írjuk le (Horn klózok, függvényszimbólumok nélkül) Lekérdezések megfelelnek egy datalog programnak

Emprelated(Name,Dname) :‐ Empdep(Name,Dname)

Emprelated(Name,Dname) :‐ Empdep(Name,D1), Emprelated(D1,Dname)

16

Page 17: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Kis forrás szám melletti integráció Általában ad‐hoc programozás:

speciális eset megvalósítása minden esetre, sok konzultáció.

Adattárházak: minden adat periódikus feltöltése az adattárházba. 6‐18 hónap bevezetési idő Operációs és 

döntéstámogatási RDBMS elválasztás. (nem csak adatintegrációra megoldás).

Teljesítmény jó,  adat lehet, hogy nem friss;. Rendszeres adattisztítás 

szükséges.

Adat-forrás

Adat-forrás

Adat-forrás

Relációs adatbázis (tárház)

Felhsználóilekérdezések

Adat kinyerőprogramok

Adat tisztítás

OLAP / Döntéstámogtás/Adatkockák/ Adatbányászat

Adat-forrás

Adat-forrás

Adat-forrás

Relációs adatbázis (tárház)

Felhsználóilekérdezések

Adat kinyerőprogramok

Adat tisztítás

OLAP / Döntéstámogtás/Adatkockák/ Adatbányászat

17

Lekérdezé

s

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervez ési

kérések

Prefe

renc

i ák/E

léérsi

modell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztik ák friss ítése

Információmenedzser

Lekérdezé

s

Lekérdezé

s

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

Szolgáltatások

Weblapok

Strukturáltadatok

Szenzorok(sorosadatok)

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervez ési

kérések

Prefe

renc

i ák/E

léérsi

modell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztik ák friss ítése

VégrehajtásKezel: forrás és hálózati

kapcsolatokat, futtatási

bizonytalanságokat,újratervezést

Forrás fúzionálásLekérdezés tervezés

Számos cél együttese,Szolgáltatások kompozíciója,

Forrás minőség, átfedés

Forrás leírásOntológiák,Forrás és

szolgáltatás leírások

Újratervez ési

kérések

Prefe

renc

i ák/E

léérsi

modell

Válasz

Teszt lekérdezések

Forrá

s elér

ések

Monitor

Statisztik ák friss ítése

Információmenedzser

Page 18: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Integrátor séma

18

Adat-forrás

Adat-forrás

Adat-forrás

Relációs adatbázis (tárház)

Felhasználóilekérdezések

Adat kinyerő programok

Adat tisztítás

OLAP / Döntéstámogtás/Adatkockák/ Adatbányászat

Page 19: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Virtuális integrációs séma Adatok a forrásokban 

maradnak Lekérdezés végrehajtásakor:

Releváns források meghatározása

Lekérdezés szétválasztása forrásokra vonatkozó lekérdezésekre.

Válaszok begyűjtése a forrásokból, és megfelelő kombinálása a válasz előállításához.

Friss adatok A megoldás skálázható

QueryQuery

Services

Webpages

Structureddata

Sensors(streamingData)

Services

Webpages

Structureddata

Sensors(streamingData)

ExecutorNeeds to handleSource/network

Interruptions,Runtime uncertainity,

replanning

Source Fusion/Query Planning

Needs to handle:Multiple objectives,Service composition,

Source quality & overlap

Source TrustOntologies;

Source/ServiceDescriptions

Replanning

Requests

Prefere

nce/U

tility

Model

Answers

ProbingQueries

Sour

ce C

alls

Monitor

Updating StatisticsExecutor

Needs to handleSource/network

Interruptions,Runtime uncertainity,

replanning

Source Fusion/Query Planning

Needs to handle:Multiple objectives,Service composition,

Source quality & overlap

Source TrustOntologies;

Source/ServiceDescriptions

Replanning

Requests

Prefere

nce/U

tility

Model

Answers

ProbingQueries

Sour

ce C

alls

Monitor

Updating Statistics

19

Garlic [IBM], Hermes[UMD];Tsimmis, InfoMaster[Stanford]; DISCO[INRIA]; Information Manifold [AT&T]; SIMS/Ariadne[USC];Emerac/Havasu[ASU]

Adatforrás

wrapper

Adatforrás

wrapper

Adatforrás

wrapper

Mediátor:

Felhasználói lekérdezésMediált (globális)séma

Adatforráskatalógus

Fordító motor

Optimalizáló

Végrehajtó gép

Adatforrás

wrapper

Adatforrás

wrapper

Adatforrás

wrapper

Mediátor:

Felhasználói lekérdezésMediált (globális)séma

Adatforráskatalógus

Fordító motor

Optimalizáló

Végrehajtó gép

Page 20: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt

Virtuális integrátor architektúra

20

Források: relációs adatbázisok, weblapok, szövegek.

QueryQuery

Services

Webpages

Structureddata

Sensors(streamingData)

Services

Webpages

Structureddata

Sensors(streamingData)

ExecutorNeeds to handleSource/network

Interruptions,Runtime uncertainity,

replanning

Source Fusion/Query Planning

Needs to handle:Multiple objectives,Service composition,

Source quality & overlap

Source TrustOntologies;

Source/ServiceDescriptions

Replanning

Requests

Prefere

nce/U

tility

Model

Answers

ProbingQueries

Sour

ce C

alls

Monitor

Updating StatisticsExecutor

Needs to handleSource/network

Interruptions,Runtime uncertainity,

replanning

Source Fusion/Query Planning

Needs to handle:Multiple objectives,Service composition,

Source quality & overlap

Source TrustOntologies;

Source/ServiceDescriptions

Replanning

Requests

Prefere

nce/U

tility

Model

Answers

ProbingQueries

Sour

ce C

alls

Monitor

Updating Statistics

Adatforrás

wrapper

Adatforrás

wrapper

Adatforrás

wrapper

Mediátor:

Felhasználói lekérdezésMediált (globális)séma

Adatforráskatalógus

Fordító motor

Optimalizáló

Végrehajtó gép