Splendid: SPARQL Endpoint Federation Exploiting VOID Descriptions

Institute for Web Science and Technologies

University of Koblenz ▪ Landau, Germany

SPLENDID: SPARQL Endpoint Federation

Exploiting VOID Descriptions

Olaf Görlitz, Steffen Staab

WeST InstitutePeople and Knowledge Networks

Olaf GörlitzCOLD 2011, Bonn, Germany

Motivation

How to access a large number of linked data sources?



Data Integration Approaches

Data Warehouse

Efficient query execution Complete results Data copies Inflexible

Link Traversal

Live Data Access Flexible / On Demand Incomplete results Biased by starting point



Our Approach

Live data accessFlexible source integrationEffective query planningComplete results

Data Federation

Hypothesis:Efficient query federation is possible using core Semantic Web technology (i.e. SPARQL endpoints, VoiD descriptions)



VoiD: „Vocabulary of Interlinked Datasets“

}}

}

} General Information

Basic statisticstriples = 732744

Type statisticschebi:Compound = 50477

Predicate statisticsbio:formula = 39555



Distributed Query Processing

Contribution:Apply Best Practices of RDBMS for RDF Federation

http://code.google.com/p/rdffederator/



Query Example

SELECT ?drug ?title WHERE { ?drug drugbank:drugCategory category:micronutrient . ?drug drugbank:casRegistryNumber ?id . ?keggDrug rdf:type kegg:Drug . ?keggDrug bio2rdf:xRef ?id . ?keggDrug purl:title ?title . }}

Which drugs are categorized as micronutrients?



Query Processing

Source Selection Join Optimization Query Execution




Query Processing



predicate-indexdrugbank:drugCategory → drugbank

type-indexkegg:Drug → kegg

1. Step: Index-based source mapping

→ drugbank

→ kegg

→ kegg, dbpedia, Chebi

→ drugbank

→ kegg



Query Processing


No index for subject / object values

2. Step: Refinement with ASK Queries




Query Processing


3. Step: Grouping Triple Patterns


}}

drugbank

kegg

} kegg, dbpedia, Chebi

+ grouping sameAs patterns



Join Order Optimization


bind join /hash join

Dynamic Programming with statistics-based cost estimation



Evaluation

DARQ AliBaba FedX SPLENDID

Statistics ServiceDesc – – VoiD

Source Selection

Statistics(predicates)

All sources ASK queries Statistics + ASK queries

Query Optimization

DynProg Heuristics Heuristics DynProg

Query Execution

Bind join Bind join Bound Join + parallelization

Bind Join + Hash Join

Orthogonal State-of-the-Art approaches:

FedBench Evaluation Suite• Life Science + Cross Domain Data• different query characteristics

Measuring• #data sources selected• query execution time



Evaluation: Source Selection


rdf:typeowl:sameAs



Evaluation: Query Optimization




Conclusion

VoiD-based query federation is efficient

Publish more VoiD description!

What next? Combination with FedX Improving estimation and cost model Integrating SPARQL 1.1 features

Splendid: SPARQL Endpoint Federation Exploiting VOID Descriptions

Education

Transcript of Splendid: SPARQL Endpoint Federation Exploiting VOID Descriptions