Danica Porob ić
description
Transcript of Danica Porob ić
PRIMENA SEMANTIČKIH TEHNOLOGIJA U ORGANIZACIJI I ANALIZI PODATAKA O NAUČNIM PUBLIKACIJAMA
Danica Porobić
Data-mining
•Pronalaženje prethodno nepoznatih potencijalno korisnih informacija
•Otkrivanje znanja•Predviđanje pojava•Business intelligence•Najčešća primena u slučaju ogromnih
količina podataka
Semantic Web
•1999. Tim Berners-Lee•Mreža u kojoj mašine direktno razmenjuju
podatke oslobađajući ljude rutinskih poslova
•Počeci standardizacije 2001.•Stub treće generacije interneta kod koje
će podaci, aplikaciona logika i prezentaciona logika biti razdvojene
•Još uvek u ranim fazama razvoja
Semantic Web struktura
RDF
•Resource description framework•W3C specifikacija za modelovanje
metapodataka•RDF trojka: subjekat – predikat – objekat•RDF-S opisuje strukture trojki•SPARQL – jezik upita•Pretraga praćenjem data linkova•Najčešće ontologije prisutne na Internetu
su one koje direktno modeliraju Internet objekte
FOAF
•Friend of a friend•Modeliranje podataka o osobama•Socijalne mreže•Podaci o korisnicima online zajednica•Ručno kreirani profili (zanemarljiv
procenat)•Prepreke u primeni: mnogo načina za
pisanje imena•ID: email adresa
OpenAcademia
•Projekat otvorenog koda•Vrije univerzitet, Amsterdam•Skladištenje informacija o naučnim
publikacijama•Modularan, distribuiran sistem•Čuvaju se samo metapodaci•Osnovni formati podataka: bibtex, FOAF•Pristup informacijama: HTML, RSS
Arhitektura OpenAcademie
Ubacivanje podataka u sistem (1)•Ulazni podaci: FOAF profili istraživača
koji sadrže foaf:publications atribut koji pokazuje na adresu bibtex fajla sa podacima
•Scutter servis skuplja FOAF profile•Bib2swrc2 servis konvertuje bibtex
reference u RDF podatke koristeći SWRC ontologiju
•Smusher servis pronalazi reference koje se odnose na iste publikacije
Ubacivanje podataka u sistem (2)•Podaci se u obliku RDF trojki pamte u
Sesame RDF skladištu•Iz dostupnih radova se izdvajaju ključne
reči•Pretražuju se blog servisi u potrazi za
komentarima na publikacije•Ovaj proces se ponavlja svakih 24 sata
Pristup podacima
•HTML interfejs▫Forma za pretragu▫Rezultati pretrage se prikazuju u četiri
tekstualna oblika▫Rezultate je moguće pregledati i u jednom
od šest vizualnih oblika: tagcloud, topics, coautors, clustermap, timeline i relations
•RSS kanali▫BuRST specifikacija
Kartoni naučnih radnika
•Originalni podaci u Word dokumentima•XML dokumenti u CERIF formatu•Ručno generisani .bib fajlovi•JabRef – program za lako upravljanje
bibtex referencama•Generisani FOAF profili•Generisani RDF fajlovi sa opisom
struktura istraživačkih grupa•Podaci ubačeni u sistem
Demo: OpenAcademia
ZaključakLako dodavanje informacijaGlobalna dostupnostLaka analiza velike količine podataka
Naporno inicijalno dodavanje informacija u sistemVrlo kruta struktura podatakaNeotpornost sistema na greške
Hvala na pažnji
Osnovna stranica
Dodavanje podataka
Pretraga
Tagcloud prikaz
Topics prikaz
Graf koautorstva
Vremenski prikaz
Klasterski prikaz
Prikaz relacija - autor
Prikaz relacija - publikacija
Generisanje HTML skripte