RDF datový model
description
Transcript of RDF datový model
RDF datový model
(nejen)
pro sémantický web
Alena Lukasová
syntaktický web sémantický web
Co to znamená? Přechod od strukturálně propojených datových
zdrojů na bázi klíčových slov k jejich propojení na bázi významových asociací.
Jak se realizuje? Potřeba sémanticky strukturovat data na webu
obrací pozornost ke konceptuální úrovni návrhů webových znalostních bází a aplikací. Sémantická struktura dat je reprezentována
konceptuálním datovým modelem RDF.
Propojení zdrojů podle významů
• Prostředek: model RDF (Resource Description Framework)
jako základní rámec reprezentace informací na webu.
• Realizace: RDF realizuje propojení webových zdrojů na
bázi významů dokumentů prostřednictvím speciálních informací (metadat) o těchto datových zdrojích.
Metadata = strukturovaná data o datech
Obecný význam RDF modelu
• Původní záměr: model základních metadat (název, autor, datum
vytvoření apod.) o webových zdrojích s využitím jazyka XML (eXtensible Markup Language),
• Nyní: obecná metoda konceptuálního modelování
znalostí obsažených v dokumentech webu, bez ohledu na formát jejich syntaxe.
RDF je obecný rámec pro výměnu dat, a to nejen těch, která jsou dostupná na webu.
Proč konceptuální model RDF
• RDF jako datový model je pro sémantický web základním reprezentačním prostředkem, podobně HTML a syntaktický web.
• RDF představuje bázi pro kódování, výměnu a používání strukturovaných metadat.
• Metadata neboli strukturovaná data o datech, na nichž je RDF model postaven, zlepšují významně možnost přístupu k informacím.
Dokumenty W3C o RDF modelu
• RDF model, který se týká metadat o datových zdrojích, je popsán v dokumentech konsorcia W3C, z nichž první (RDF) se týká syntaxe, druhý (RDFS) se týká adres slovníků (schémat), další pak sémantické stránky modelu.
• http://www.w3.org/1999/02/22-rdf-syntax-ns#• http://www.w3.org/XML/Schema• http://www.w3.org/TR/2004/REC-rdf-mt-20040
210/
Dva nové principy v konceptuálním modelování RDF
Jde o
• způsob popisu konceptů, jejich vlastností a vzájemných vztahů v termínech vlastností (atributů) a jejich hodnot a
• identifikaci prvků modelu, kterými jsou zde webové zdroje, pomocí uniformních identifikátorů zdrojů URI (Uniform Resource Identifier).
RDF a asociativní sítě
Model vychází z myšlenky známé již z asociativních (sémantických) sítí, spočívající v jednoduchých tvrzeních, týkajících se vztahů mezi objekty (zde zdroji), formou vektorů (trojic)
„subjekt - predikát – objekt“.
Dvojí syntax RDF jazyka
RDF má
• abstraktní syntax vycházející z reprezentace jednoduchých tvrzení prostřednictvím RDF trojic textovou formou i grafickou formou, a tomu odpovídající formální, na teorii modelů založenou, sémantiku,
• syntax v RDF XML.
Abstraktní syntax modelu RDF
Základním jednotkou modelu RDF je graficky reprezentovatelné tvrzení o zdrojích jako vektor (trojice), tj. tvrzení, že
"subjekt" "má vlastnost" určenou "objektem".
subjekt objekt
má_vlastnost
subjekt objekt
predikát
RDF-trojice a graf
RDF-trojice má tři komponenty:• Zdroj subjekt - pojmenovaný uzel, graficky
reprezentovaný elipsou, • spojený s jiným zdrojem objektem - pojmenovaným
uzlem, graficky reprezentovaným rovněž elipsou, • pomocí hrany - predikátu, který odkazuje též na zdroj.
RDF-trojice je uspořádaný graf reprezentující tvrzení subjekt má vlastnost predikát s hodnotou objekt.
RDF-graf je množina RDF-trojic.
Atributový centralismus RDF
Vlastnost (atribut) je prostředek vyjádření vlastností a vztahů mezi objekty (zdroji) v rámci modelu RDF.
Jádro modelu sestává z konceptů (množin objektů), reprezentovaných jedinečnými identifikátory, a binárních vztahů (tvrzení) vztahujících se k těmto konceptům.
Vlastnost je určena: • jménem• významem• možnými hodnotami, kterých nabývá• typy zdrojů, které má popisovat • vztahy k jiným vlastnostem
Identifikace zdrojů
Základem koncepce modelu RDF je 1) způsob popisu zdrojů v termínech
vlastností a jejich hodnot a2) idea identifikace věcí pomocí
uniformních identifikátorů zdrojů URI (Uniform Resource Identifier).
Model RDF pracuje uniformně pouze s URI odkazy, které stojí jak na místě subjektu a objektu, tak i na místě predikátu.
Zdroj
Zdroj je entita, kterou lze popsat RDF výrazem.
Zdrojem může být
• Webovská stránka nebo její část
• Soubor webových stránek
• Element XML ve zdrojovém dokumentu
• Objekt,dostupný přímo pomocí webu – kniha, obrázek,…
Jmenné prostory
• RDF model poskytuje slovníky jak ve formě čitelné člověkem, tak i strojově zpracovatelné formě.
• Model jednoznačně identifikuje vlastnosti s použitím jmenných prostorů jejich slovníků.
• Pro stručnější způsob zápisu se používají pro jmenné prostory jejich kvalifikovaná jména (QNames) tvořící prefixy popisovaných prvků trojic.Např. jmenný prostor Dublin Core (dc:), jehož
jmenný prostor dc: má URI http://purl.org/dc/elements/1.1/
RDFS
• Model RDF neposkytuje mechanismus pro deklarování konceptů - tříd, vlastností ani vztahů.
• To je úkolem RDF Schema (RDFS).
• RDF model tedy má dvě komponenty, z nichž první -RDF se týká syntaxe, druhý -RDFS se týká adres slovníků (schémat), určujících sémantickou stránku modelu.
Tvrzení o datu vytvoření webovské stránky, reprezentované
a) grafickými prostředky RDF, b) RDF XML kódem • Příklad
V RDF/XML jazyce:1. <?xml version=“1.0“?>2. <rdf:RDF xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#“3. xmlns:exterms=“ http://www.example.org/terms/“>.4. <rdf:Description rdf:about=“ http://www.example.org/index.html“>5. <exterms:creation-date>August 16 2006>6. </rdf:Description>7. </rdf:RDF>
http://www.example.org/index.html
http://www.example.org/terms/creation-date
August 16, 2006
a)
b)
Anonymní zdrojezde „publikace … má nějakou kapitolu…“
• Příklad
urn:ISBN:..
Handbook on Ont.
dc:title eg:chapter
dc:creator
xsd:decimal 21
Brian McBride [email protected]
eg:age
vcard:FNvcard:email
totéž v RDF XML• <rdf:description rdf:about=”urn:ISBN:…”>• <dc:Title>Handbook on Ontologies/<dc:Title>• <eg:chapter>• <rdf:Description>• <dc:Creator>• <rdf:Description>• <vcard:FN>Brian McBride/<vcard:FN>• <vcard:email>[email protected]/<vcard:email>• <eg:age rdf:datatype=”&xsd:decimal:”>21</eg:age>• </rdf:Description>• </dc:Creator>• </rdf:Description> • </eg:chapter> • </rdf:description>
• Prázdný uzel je reprezentován elementem rdf:Description bez atributu rdf:about.
RDF kontejnér bag• Příklad kontejnéru bag – dokument má více autorů
dokument
autor
rdf:bag
autor X
autor Y
autor Z
RDF kontejnér sekvence
Příklad kontejnéru sekvence – zde sekvence odstavců
dokument
část
rdf:seq
1. Úvod
2. Základní pojmy
3. Metody
RDF kontejnér alternativa• Příklad kontejnéru alternativa – několik možných zástupců firmy
firma
zástupce
rdf:alt
představitel X
představitel Y
představitel Z
.....
.....
Mechanismus typování v RDFS
RDFS datový model na rozdíl od databázových systémů nemá žádný „vestavěný“ soubor datových typů, pouze poskytuje způsob explicitního určení, jakého typu má literál být.
Prostředky, kterými definuje termíny zdrojů, resp. konceptů (tříd) v RDFS jsou
• Typování - individuum náleží určité třídě rdfs:Class
• Podtřídy - instance jedné třídy je zároveň instancí jiné třídy rdfs:subClassOf
Typový systém tříd a vlastností
• RDF Schéma (RDFS) poskytuje pro RDF model typový systém, který dává možnost, aby zdroj byl definován jako instance jedné nebo více tříd (konceptů). Tím umožňuje jejich hierarchické uspořádání.
• Jména tříd začínají velkým písmenem, jména vlastností malým.
Zdroje jsou v RDFS popisovány pomocí slovníků, které mají vždy prefix rdfs: Třídy (koncepty) jsou popsány s použitím rdfs:Class a rdfs:Ressource, vlastnosti pomocí rdf:type a rdfs:subClassOf.
Příklad - převzato z W3C dokumentu RDF Primer
a) Třída motorových vozidel a její podtřídy nákladních, osobních a dalších motorových vozidel popsaná trojicemi, kde prefix ex: zastupuje URI odkaz ( zde URL): http://www.example.org/schemas/vehicles.
ex:MotorVehicle rdf:type rdfs:Class .ex:PassengerVehicle rdf:type rdfs:Class . ex:Van rdf:type rdfs:Class .ex:Truck rdf:type rdfs:Class .ex: PassengerVehicle rdf:subClassOf rdfs:MotorVehicle .ex: Van rdf:subClassOf rdfs:MotorVehicle .ex: Truck rdf:subClassOf rdfs:MotorVehicle .
Příklad - převzato z W3C dokumentu RDF Primer
b) Zápis v jazyce RDF/XML:
<?xml version=“1.0“?><!DOCTYPE rdf:RDF [<?ENTITY xsd http://www.w3.org/2001/01/
XMLSchema#>]><rdf:RDF xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#“ xmlns:rdfs=“http://www.w3.org/2000/01/rdf-schema#“ xml:base=“http://www.example.org/schemas/vehicles#><rdfs:Class rdf:ID=“MotorVehicle“/><rdfs:Class rdf:ID=“Truck“> <rdfs:subClassOf rdf:ressource=“#Motorvehicle“/><rdfs:Class>….
Příklad - převzato z W3C dokumentu RDF Primer
c) RDF grafem
http://www.w3.org/2000/01/rdf-schema#subClassOf *
http://www.example.org/schemas/Vehicles#Van
http://www.example.org/schemas/Vehicles#Truck
*
http://www.example.org/schemas/Vehicles#MiniVan
*
*
http://www.example.org/schemas/vehicles#MotorVehicle
RDF model rozlišuje tři typy konceptu
• fundamentální koncepty
• koncepty definující schéma (pro definování nových slovníků)
• koncepty utilit (užitečné pro některé aplikační domény)
Fundamentální koncepty
rdf:Resource rdf:Property Jde o zdroje, které se používají v trojici jako
predikáty.
rdf:Statement Statement je zdrojem, který reprezentuje trojici.
Zhmotnění (reification) trojice deklaruje rdf:subject, rdf:predicate a rdf:object s hodnotami danými příslušnými zdroji.
Koncepty definující schéma
• Třídy (koncepty) specifikující zdroje jsou popsány s použitím rdf:type, rdfs:Class a rdfs:subClassOf.
• Vlastnosti jsou popsány pomocí rdf:type a rdfs:subPropertyOf.
• Jména tříd začínají velkým písmenem, jména vlastností malým.
• Vlastnost type indikuje instanci třídy/vlastnosti.
Slovníky
• Prostředky RDFS jsou poskytovány ve formě slovníků.
Slovníky (schémata), zapsané v RDFS jazyce, mají vždy prefix rdfs: a jsou
řádnými RDF grafy.
• Třída v RDFS odpovídá generickému pojmu typ nebo kategorie.
Vlastnosti v RDF modelu
Vlastnosti tvoří speciální třídu rdf:Property.
Vlastnosti jsou omezovány
doménou (domain) a oborem hodnot (range).
Výraz
P rdfs:range C
reprezentuje RDF tvrzení, jehož subjektem je P, objektem C a vlastnost je rdfs:range.
P je vlastnost, C je třída (koncept). Při použití vlastnosti P musí objekt být prvkem C.
Popis vlastností
V RDFS jsou vlastnosti popisovány jako instance třídy rdf:Property a RDFS vlastnostmi rdfs:domain, rdfs:range rdfs:subPropertyOf.
Např.
ex:weightInKg rdf:type rdf:Property .
ex:Person rdf:type rdfs:Class .
ex:author rdf:type rdfs:Property .
ex:author rdfs:range ex:Person .
ex:Book rdf:type rdfs:Class .
ex:author rdf:type rdfs:Property .
ex:author rdfs:domain ex:Book .
Sémantika jazyka RDF
je (obdobně jako v případě jazyka logiky prvního řádu) definována jako denotační sémantika, založená na přístupu teorie modelů. Předpokládá se, že jazyk je určen k tomu, aby formalizoval tvrzení o modelované doméně (světě).
Modelovaný svět určuje tedy zamýšlenou interpretaci formálního jazyka RDF a poskytuje základní fakta o tomto světě.
Interpretační pravidla pak poskytují předpis, jak stanovit pravdivostní hodnotu dalších odvozených tvrzení.
Definice interpretace jazyka
Jednoduchá interpretace I slovníku V jazyka RDF (RDFS) je dána:
• Neprázdnou množinou IR zdrojů, zvanou doménou, resp. universem diskursu interpretace I.
• Množinou IP vlastností interpretace I.• Zobrazením IEXT z IP do podmnožiny kartézského
součinu IRIR, tj. množinou dvojic x, y, x,y IR.• Zobrazení IS z množiny URI odkazů slovníku V do
sjednocení IR IP.• Zobrazení IL z množiny typovaných literálů z V do IR.• Zvláštní podmnožinou LV množiny IR, nazývanou
množinou literálních hodnot, která obsahuje všechny prosté literály z V.
Denotáty v RDF
V rámci RDF je třeba uvažovat dva typy denotace:
• denotáty jmen jsou objekty universa diskursu (zdroje) a
• denotáty trojic jsou pravdivostní hodnoty.
Interpretace bázového grafu
• Je-li E prostý literál "aaa" z V, potom je I(E) = aaa.• Je-li E prostý literál "aaa"@ttt z V, potom je I(E) = aaa,
ttt (@ttt je jazykový ukazatel).• Je-li E typovaný literál z V, potom je I(E) = IL(E).• Je-li E URI odkaz z V, potom I(E) = IS(E).• Je-li E bázová trojice s p o, potom I(E) = true, jestliže s a
p je z V, I(p) je z IP a dvojice I(s), I(o) náleží extenzi IEXT(I(p)). Jinak je I(E) = false.
• Je-li E bázový graf RDF, potom I(E) = false, jestliže pro některou trojici E´ platí I(E´) = false. Jinak je I(E) = true.
Prázdné uzly jako existenční proměnné
Pro množinu prázdných uzlů blank(E) je třeba rozšířit interpretační pravidla následující definicí.
Definice Nechť I je interpretace a A je zobrazení z množiny
blank(E) prázdných uzlů z E do universa diskursu IR, které přiřazuje každému prázdnému uzlu prvek z IR. Potom platí:
• Je-li E prázdný uzel a A(E) je definováno, potom v rozšířené interpretaci [I+A](E) = A(E).
• Je-li E RDF graf, potom je I(E) = true, jestliže platí pro nějaké zobrazení A´ z blank(E) do IR [I+A´](E) = true. V opačném případě je I(E) = false.
Logické důsledky RDF grafů
Definice Graf E je logickým důsledkem množiny S grafů, právě
když pro všechny modely množiny S platí, že graf E je v nich splněn.
Podobně jako v logice prvního řádu též platí• každý jednotlivý graf množiny S je jejím logickým
důsledkem, • logickým důsledkem grafu s prázdnými uzly je jeho
instance a Věta (o kompaktnosti) Je-li konečný graf E logickým důsledkem grafu S, potom
je E logickým důsledkem nějakého subgrafu S' grafu S.
Děkuji za pozornost
Alena Lukasová