Bibliotheekportalen: matching en merging uitgelegd
-
Upload
bibnet-vzw -
Category
Technology
-
view
330 -
download
2
description
Transcript of Bibliotheekportalen: matching en merging uitgelegd
Bibliotheekportalenintroductie tot matching en merging principes
Architectuur
abl abl abl abl abl abl
bron bronbron bronbron bron
data provider(ds db)
holding server(main)
matching, merging, holdings berekenen
clean up, global mappings, global settings, prefix
abl
bron bron bron bron bronbron bron bron
abl abl
fase 2 (import)
bron
fase 2
holdings db
matching db
export
fase 1
Dataprovider
PBS-bron in de dataprovider?
• voorbeeld: Vubis koppelvlak• bevat:– technische gegevens– bibliografisch record– bezits- en statusinformatie
<?xml version="1.0" encoding="UTF-8" standalone="yes"?> <RESULTSET> <ITEMS><ITEM ID="5543273" STATUS="U" MutationDate="20090710" MutationTime="16:06:21" Locations="GEN" Type="1"> <VELD101a>eng [Engels]</VELD101a> <VELD200a>Freakonica </VELD200a> <VELD200b>3 [CD]</VELD200b> <VELD200f>by Girls Against Boys ; (producer) Nick Launay</VELD200f> <VELD2104>Geffen</VELD2104> <VELD210a>Los Angeles</VELD210a> <VELD210d>1998</VELD210d> <VELD215f>47:28</VELD215f> <VELD215i>1 CD </VELD215i> <VELD658a>Gitaar - Rock</VELD658a> <VELD658a>V.S. ; Washington DC</VELD658a> <VELD7004>oth [andere]</VELD7004> <VELD700a>Launay</VELD700a> <VELD700b>Nick</VELD700b> <VELD710a>Girls Against Boys</VELD710a> <VELDPK createdate="20010926">11061475798^BERIN^GEN^KPOP^027 010 003^VCA^-^-^-^-^MUZIEK (1) pop MAGAZIJN^</VELDPK> </ITEM></ITEMS> <ResumptionToken>5543274|1|2|aquabrowser|20070921,00:00:00|0|27177123_1|*|*</ResumptionToken> </RESULTSET>
Frequentie
• Dagelijkse import van nieuwe en gewijzigde PBS-records (geen deletes)
• In het weekend volledige import (inclusief deletes)
• Beschikbaarheidsinformatie wordt live opgehaald op detailpagina van een record
Holdingsserver
stap 1: Vlacc-record proberen matchen met PBS-records
scenario A: er is één match
Vlacc record 1
matcher
PBS record a
PBS record b
PBS record c
PBS record d
...
matching op: (in volgorde)1. vlacc nummer2. isbn+year3. ean4. vlacc tijdschriftnt5. issn
stap 1 scenario A
Vlacc record 1
matcher
PBS record a
PBS record b
PBS record c
PBS record d
...
no match
stap 1 scenario A
Vlacc record 1
matcher
PBS record a
PBS record b
PBS record c
PBS record d
...
match op vlaccnr
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
stap 1 scenario A
Vlacc record 1
matcher
PBS record a
PBS record b
PBS record c
PBS record d
...
no match
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
stap 1 scenario A
Vlacc record 1
matcher
PBS record a
PBS record b
PBS record c
PBS record d
...
no match
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
stap 1 scenario A
Vlacc record 1
matcher
PBS record a
PBS record b
PBS record c
PBS record d
... no more matches
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
stap 1 scenario A
?c_librarian=true parameter(of debug mode van Aquabrowser)
scenario B: er zijn meerdere matches
Vlacc record 2
matcher
PBS record a
PBS record b
PBS record c
PBS record d
...
no matchb1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
stap 1 scenario B
Vlacc record 2
matcher
PBS record a
PBS record b
PBS record c
PBS record d
...
no match
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
stap 1 scenario B
Vlacc record 2
matcher
PBS record a
PBS record b
PBS record c
PBS record d
...
match op isbn+year
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
c2 isbn+year
Vlacc record 2verrijkt met PBS record c
stap 1 scenario B
Vlacc record 2
matcher
PBS record a
PBS record b
PBS record c
PBS record d
...
match op vlaccnr
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
c2 isbn+year
Vlacc record 2verrijkt met PBS record c
vlaccnrd
verrijkt met PBS record d
stap 1 scenario B
Vlacc record 2
matcher
PBS record a
PBS record b
PBS record c
PBS record d
... no more matches
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
c2 isbn+year
Vlacc record 2verrijkt met PBS record c
vlaccnrd
verrijkt met PBS record d
stap 1 scenario B
scenario C: zelfde pbs record mag niet met verschillende vlacc records matchen
Vlacc record 3
matcher
PBS record a
PBS record b
PBS record c
PBS record d
...
no matchb1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
c2 isbn+year
Vlacc record 2verrijkt met PBS record c
vlaccnrd
verrijkt met PBS record d
stap 1 scenario C
Vlacc record 3
matcher
PBS record a
PBS record b
PBS record c
PBS record d
...
match op isbn+year
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
c2 isbn+year
Vlacc record 2verrijkt met PBS record c
vlaccnrd
verrijkt met PBS record d
PBS record is al eens gematcht met een Vlacc record, mag niet nog eens matchen (in ontwikkeling, matchen op Vlaccnr laten voorgaan)+data optimaliseren aan kant Open Vlacc (project gestart voor dubbele isbn's) en PBS
stap 1 scenario C
Vlacc record 3
matcher
PBS record a
PBS record b
PBS record c
PBS record d
... no more matches
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
c2 isbn+year
Vlacc record 2verrijkt met PBS record c
vlaccnrd
verrijkt met PBS record d
stap 1 scenario C
scenario D: er is geen match, Vlacc record wordt niet opgenomen
Vlacc record 4
matcher
PBS record a
PBS record b
PBS record c
PBS record d
... no more matches
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
c2 isbn+year
Vlacc record 2verrijkt met PBS record c
vlaccnrd
verrijkt met PBS record d
stap 1 scenario D
dan stap 2: overblijvende PBS-records proberen matchen met PBS-records
PBS record a
matcher
PBS record a
...
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
c2 isbn+year
Vlacc record 2verrijkt met PBS record c
vlaccnrd
verrijkt met PBS record d
PBS record e
PBS record f
PBS record g
no match
stap 2 scenario A
PBS record a
matcher
PBS record a
...
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
c2 isbn+year
Vlacc record 2verrijkt met PBS record c
vlaccnrd
verrijkt met PBS record d
PBS record e
PBS record f
PBS record g
no match
stap 2 scenario A
PBS record a
matcher
PBS record a
...
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
c2 isbn+year
Vlacc record 2verrijkt met PBS record c
vlaccnrd
verrijkt met PBS record d
PBS record e
PBS record f
PBS record gmatch op isbn+year
ga isbn+year
PBS record averrijkt met PBS record g
stap 2 scenario A
PBS record a
matcher
PBS record a
...
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
c2 isbn+year
Vlacc record 2verrijkt met PBS record c
vlaccnrd
verrijkt met PBS record d
PBS record e
PBS record f
PBS record g
no more matches
ca isbn+year
PBS record averrijkt met PBS record g
stap 2 scenario A
bij stap 2: zelfde scenario's mogelijk als bij stap 1
A) er is één matchB) er zijn verschillende matchesC) zelfde PBS-record mag niet met verschillende PBS-records matchenD) er is geen match
Indien nog andere bronnen, wordt stap 2 herhaald tot ...
stap 3: indien geen match, PBS-record gewoon opnemen
b1 vlaccnr
matching tabel
Vlacc record 1verrijkt met PBS record b
database
c2 isbn+year
Vlacc record 2verrijkt met PBS record c
vlaccnrd
verrijkt met PBS record d
ca isbn+year
PBS record averrijkt met PBS record g
volledige referentietabel als rapport is een zeer belangrijk instrument als evaluatie en als mogelijkheid voor automatische dataoptimalisatie in het PBS