ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης –...

50
ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης Εργασία: Open Archives Initiative (OAI) OAI-PMH (Protocol for Metadata Harvesting) Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας "Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας" Εαρινό εξάμηνο: Ιούνιος 2004 Βασίλειος Σουλικιάς

description

Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας "Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας". ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης. Εργασία: Open Archives Initiative (OAI) - PowerPoint PPT Presentation

Transcript of ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης –...

Page 1: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗΔιδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Εργασία: Open Archives Initiative (OAI)OAI-PMH (Protocol for Metadata Harvesting)

Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας"Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας"

Εαρινό εξάμηνο: Ιούνιος 2004

Βασίλειος Σουλικιάς

Page 2: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΠΕΡΙΕΧΟΜΕΝΑ

Ιστορικό OAI, OAI-PMH

Κύριες ιδέες και τεχνικές λεπτομέρειες του OAI-PMH

Θέματα Υλοποίησης μίας εφαρμογής OAI-PMH

Συμπεράσματα

Page 3: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΙΣΤΟΡΙΚΟ (1/4)

Προηγούμενη Δημιουργία E-print αρχείων από επιστημονικές κοινότητες XXX (arXiv), CogPrints, NCSTRL, RePEc, NDLTD……

Web interfaces για τους χρήστες Διαφορετικά interfaces για διαφορετικά αρχεία Οι χρήστες έπρεπε να μάθουν διάφορα interfaces Μερική ή καθόλου αυτόματη-μηχανική ανταλλαγή

μεταδεδομένων

Page 4: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΙΣΤΟΡΙΚΟ (2/4)

Santa Fe Meeting

“…η συνδυασμένη επιρροή αυτών και των μελλοντικών ανάλογων πρωτοβουλιών μπορεί να είναι ουσιαστικά υψηλότερη όταν η διαλειτουργικότητα μεταξύ των e-print αρχείων μπορεί να επιτευχθεί …”[Ginsparg, Luce, Van de Sompel, UPS Call, July 1999]

Page 5: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΙΣΤΟΡΙΚΟ (3/4)

Τα δύο κύρια προβλήματα:

Οι χρήστες έρχονται αντιμέτωποι με πολλαπλά interfaces πράγμα που δυσκολεύει την αναζήτηση των πόρων.

Η μη ύπαρξη μηχανικού τρόπου ανταλλαγής μεταδεδομένων

Page 6: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΙΣΤΟΡΙΚΟ (4/4)

Ταυτόχρονη αναζήτηση σε πολλαπλά αποθετήρια (Cross Search);

Η εμπειρία λέει ότι cross search δεν έχει καλή απόδοση σε πάνω από 100 αποθετήρια.

Διάφορα προβλήματα σχετικά με την επιλογή των στόχων αποθετηρίων, δυσκολίες ενοποίησης δεδομένων από διαφορετικά συστήματα, η απόδοση εξαρτάται από τα συστήματα χαμηλής απόδοσης, δυσκολία δημιουργίας browse interface.

ΛΥΣΗ:Συγκέντρωση των Μεταδεδομένων σε ένα μέρος

Page 7: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Η ΙΔΕΑ ΤΟΥ HARVESTING

ΣΥΓΚΟΜΙΔΗ των μεταδεδομένων σε ένα μέρος

UPS- Universal Preprint Service Έχουμε μια γλώσσα ερωτήσεων, κοινά

γνωρίσματα αναζήτησης(attributes) και ranking αλγόριθμους. Δημιουργία Browse interface

Η UPS μετεξελίσσεται σε OAI

Page 8: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Διαθέτες δεδομένων και Υπηρεσιών Διαθέτης Δεδομένων (Data Provider)

Ο δημιουργός και αυτός που διατηρεί τα μεταδεδομένα και τα αποθετήρια των πηγών(resources)

Διαθέτης Υπηρεσιών (Service Provider) Συγκομίζουν μεταδεδομένα με σκοπό την παροχή

υπηρεσιών όπως μια διεπιφάνεια αναζήτησης.

Μια υπηρεσία μπορεί να παίξει και τους δύο ρόλους

Page 9: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Η ΑΠΑΡΧΗ ΕΝΌΣ ΠΡΩΤΥΠΟΥΓια την διευκόλυνση της συγκομιδής απαιτείται κοινή

συμφωνία στα: Στο πρωτόκολλο μεταφοράς των

δεδομένων(HTTP,FTP….) Στο format των μεταδεδομένων(DC,MARC….) Στην εξασφάλιση της ποιότητας των

μεταδεδομένων(σύνολο των υποχρεωτικών πεδίων, θεματική απόδοση, ονοματοδωσία…)

Πνευματική υπευθυνότητα – Δικαιώματα χρήσηςΗ κοινή απόφαση για τα παραπάνω οδήγησε στην

συμφωνία της Santa Fe

Page 10: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Η συμφωνία της Santa Fe

Είναι η πρώτη ενσάρκωση του ΟΑΙΣτηρίχτηκε πάνω: Στο πρωτότυπο της UPS Repec/SODA –Service/Data provider Model Πρωτόκολλο Dienst Εργασία της ομάδας Santa Fe

Στόχος η βελτίωση της αναζήτησης των e-prints

Page 11: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

OAI – PMH ver. 1.0

Εισάγει το σύνολο στοιχείων DC.Στηρίχτηκε στα: Συμφωνία της Santa Fe Στις συναντήσεις Digital Library Federation Σε εργασίες που έλαβαν χώρα στο Cornel Απαντήσεις από Alpha-testers

Εστιάζει στην βελτίωση της αναζήτησης των«document-like objects»

Page 12: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Κύρια χαρακτηριστικά του OAI-PMH 1.0 Προσδιόριζε ένα Χαμηλό επίπεδο

διαλειτουργικότητας Μοντέλο συγκομιδής “document-like objects” HTTP GET / POST αιτήσεις XML απαντήσεις unqualified Dublin Core Αποτελεί ερευνητικό πλαίσιο OAI-PMH 1.1 XML schema

Page 13: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

OAI-PMH ver. 2.0

Σημαντική αναθεώρηση – όχι συμβατή με τις 1.x

Στηρίχτηκε πάνω: OAI-PMH 1.x Απαντήσεις των συμμετεχόντων στην OAI Implementers

List διαβουλεύσεις της OAI tech Απαντήσεις των alpha-testers

Στόχος η επαναλαμβανόμενη ανταλλαγή μεταδεδομένων των πηγών μεταξύ των συστημάτων

Page 14: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Χαρακτηριστικά του OAI-PMH 2.0 Προσδιορίζει επίσης ένα Χαμηλό επίπεδο

διαλειτουργικότητας Μοντέλο συγκομιδής “μεταδεδομένα για τις πηγές (resources)” HTTP GET / POST αιτήσεις XML απαντήσεις unqualified Dublin CoreΣταθερό- Η OAI δεσμεύτηκε ότι οι επόμενες

αναθεωρήσεις θα είναι συμβατές με τις προηγούμενες

Page 15: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Από το OAI-PMH 1.x στο 2.0

The Open Archives Initiative Protocol for Metadata HarvestingChanges from OAI-PMH 1.1 to OAI-PMH 2.0

Protocol Version 2.0 of 2002-06-14Document Version 2002/06/09T16:43:00Zhttp://www.openarchives.org/OAI/migration.htm

Page 16: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης
Page 17: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης
Page 18: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης
Page 19: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης
Page 20: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Πλεονεκτήματα του OAI

Απλό Φιλική λειτουργία με τo web Ο έλεγχος πρόσβασης, η συμπίεση οι κωδικοί λαθών κλπ.,

στηρίζονται στο HTTP διάφορα toolkits (μπορούν να κρύβουν το πρωτόκολλο) Πολλαπλοί διαθέτες υπηρεσιών μπορούν να κάνουν συγκομιδή

από πολλούς διαθέτες δεδομένων εξασφαλίζοντας ευρεία εξάπλωση των μεταδεδομένων

Αποτελεί ένα βασικό επίπεδο όπου μπορούν να χτιστούν άλλες υπηρεσίες

Λειτουργεί συμπληρωματικά με άλλα πρωτόκολλα όπως το Z39.50

Page 21: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΚΥΡΙΕΣ ΙΔΕΕΣ ΤΟΥ OAI-PMH Ευρεία ενοποίηση των ακαδημαϊκών

αποθετηρίων/αρχείων Ελεύθερη πρόσβαση τουλάχιστον σε επίπεδο

μεταδεδομένων Συμμορφούμενα interfaces για αρχεία και

υπηρεσίες Πρωτόκολλο εύκολα υλοποιήσιμο καθώς

στηρίζεται σε (HTTP, XML, DC)

Page 22: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΔΙΑΓΡΑΜΜΑ ΒΑΣΙΚΗΣ ΛΕΙΤΟΥΡΓΙΑΣ

Page 23: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΓΕΝΙΚΕΣ ΠΕΡΙΓΡΑΜΜΑ

Δύο κατηγορίες συμμετεχόντων Διαθέτες δεδομένων (Open Archives, Repositories)

Ελεύθερη πρόσβαση σε μεταδεδομέναΌχι υποχρεωτικά πρόσβαση στο περιεχόμενο

Διαθέτες ΥπηρεσιώνXρήση OAI interfaces των διαθετών δεδομένων Συγκομίζουν και διατηρούν μεταδεδομένα (no live requests!)Μπορούν να επιλέγουν συγκεκριμένα υποσύνολα από τους διαθέτες δεδομένων Μπορούν να εμπλουτίζουν τα μεταδεδομέναΠροσφέρουν υπηρεσίες προστιθέμενης αξίας στο επίπεδο των μεταδεδομένων

Page 24: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΔΙΑΓΡΑΜΜΑ ΔΟΜΗΣ

Page 25: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Συνοπτική εικόνα του OAI-PMH

Πρωτόκολλο που στηρίζεται σε HTTPΟι αιτήσεις διατυπώνονται ως παράμετροι GET or POSTΈξι (6) τύποι αιτήσεων (requests)Πχ. http://archive.org?

verb=ListRecords&from=2002-11-01Οι απαντήσεις είναι κωδικοποιημένες σε XML συντακτικόΥποστηρίζει οποιοδήποτε format μεταδεδομένων (υποχρεωτικά: Dublin Core)Λογική ιεραρχία των συνόλων (logical set hierarchy) (definition: data providers)Ημερολογιακά στοιχεία (date stamps) (τελευταία αλλαγή του συνόλου των μεταδεδομένων)Υποστηρίζει μηνύματα λάθουςΈλεγχος ροής

Page 26: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Τεχνικές Λεπτομέρειες του OAI-PMH: Αποσαφηνίσεις 1/2Harvester

Μία εφαρμογή που διατυπώνει αιτήσεις OAI-PMH Αποθετήριο (Repository)

Ένας server που μπορεί να διαχειριστεί σωστά αιτήσεις OAI-PMHΠηγή (Resource)

Ένα ψηφιακό αντικείμενο για το οποίο έχουν δημιουργηθεί τα μεταδεδομένα η φύση των αντικείμένων αυτών δεν προσδιορίζεται από το OAI-PMH

Τεκμήριο (Item)Το κομμάτι-μέρος ενός αποθετηρίου από το οποίο τα μεταδεδομένα μίας πηγής μπορούν να διανεμηθούνΈχει πάντα έναν μοναδικό identifier

Εγγραφή (Record)Μεταδεδομένα σε ένα συγκεκριμένο format

Ταυτοποιητής (Identifier)Μοναδικό κλειδί για ένα τεκμήριο σε ένα αποθετήριο

Σύνολο(Set)Μη υποχρεωτικό σχήμα ομαδοποίησης των items ενός αποθετηρίου

Page 27: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Τεχνικές Λεπτομέρειες του OAI-PMH: Αποσαφηνίσεις 2/2

Page 28: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Τεχνικές Λεπτομέρειες του OAI-PMH: Εγγραφές τα μεταδεδομένα μιας πηγής σε ένα συγκεκριμένο format Αποτελείται από τρία μέρη:

1. header (mandatory)identifier (1)datestamp (1)setSpec elements status για διαγραμμένα item

2. metadata (mandatory)XML κωδικοποιημένα μεταδεδομένα (root tag, namespace)Τα αποθετήρια πρέπει να υποστηρίζουν DC

3. about (optional)Δηλώσεις δικαιωμάτωνΔηλώσεις προέλευσης

Page 29: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Τεχνικές Λεπτομέρειες του OAI-PMH: DateStampsΗμερομηνία της τελευταίας αλλαγής του συνόλου των

μεταδεδομένων(metadata set) Υποχρεωτικό χαρακτηριστικό κάθε Item Δύο πιθανές μορφές :

YYYY-MM-DD, YYYY-MM-DDThh:mm:ssZ Παρέχει την δυνατότητα αιτήσεων συγκομιδής from και until Εφαρμογή στους μηχανισμούς αύξησης και ενημέρωσης Δίνει την ημερομηνία τροποποίησης ,δημιουργίας ή διαγραφής Σχετικά με την διαγραφή υποστηρίζει τρεις καταστάσεις( no,

persistent, transient)

Page 30: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (1/3) OAI-PMH υποστηρίζει διανομή από πολλαπλά formats

μεταδεδομένων από ένα αποθετήριο Ιδιότητες των formats μεταδεδομένων

id string που προσδιορίζει το format (metadataPrefix)metadata schema URL (XML schema για έλεγχο εγκυρότητας)XML namespace URI (global identifier for metadata format)

Τα Αποθετήρια πρέπει να υποστηρίζουν διανομή σε unqualified Dublin Core

Αυθαίρετα formats μεταδεδομένων μπορούν να προσδιορίζονται και να μεταφέρονται μέσω του OAI-PMH

Τα επιστρεφόμενα μεταδεδομένα πρέπει να υπακούουν στις XML namespace προδιαγραφές

Page 31: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (2/3)Ελάχιστο standard: υποστήριξη unqualified

Dublin Corehttp://dublincore.org/

Το Dublin Core Metadata Element Set περιλαμβάνει15 στοιχεία

Τα στοιχεία δεν είναι υποχρεωτικά

Τα στοιχεία μπορούν να είναι επαναλαμβανόμενα

Page 32: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (3/3)The Dublin Core Metadata

Element Set:

Title Creator Subject Description Publisher Contributor Date

Type Format Identifier Source Language Relation Coverage Rights

Page 33: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Τεχνικές Λεπτομέρειες του OAI-PMH: Σύνολα (sets)Λογικός χωρισμός των αποθετηρίων σε τμήματα Είναι επιλογής – τα αρχεία δεν είναι υποχρεωμένα να

προσδιορίζουν sets Δεν υπάρχουν υποδείξεις για την υλοποίηση sets Δεν είναι ανάγκη να είναι εξαντλητικά ούτε ιεραρχικά Βρίσκουν εφαρμογή: σε επιλεκτική συγκομιδή(set parameter) Εφαρμογές:

Θεματικές Πύλες, μηχανή αναζήτησης διατριβών……..

ΠαραδείγματαΤύπος δημοσίευσης (thesis, article, …)Τύπος τεκμηρίου (text, audio, image, …)Θεματική ευρετηρίαση του περιεχομένου σύμφωνα με την DNB (medicine, biology, …)

Page 34: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Τεχνικές Λεπτομέρειες του OAI-PMH: παράδειγμα αίτησης

GET request: http://archive.org/oai?verb=ListRecords&metadataPrefix=oai_dc

Page 35: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Τεχνικές Λεπτομέρειες του OAI-PMH: ΑπάντησηΗ απάντηση πρέπει να είναι well-formed XML με

markup όπως τα παρακάτω: Δήλωση της XML

(<?xml version="1.0" encoding="UTF-8" ?>) root element named OAI-PMH με τρία γνωρίσματα

(xmlns, xmlns:xsi, xsi:schemaLocation) Τρία child στοιχεία

responseDate request error

Page 36: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

  

Page 37: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Τεχνικές Λεπτομέρειες του OAI-PMH: κωδικοί λαθών Τα αποθετήρια πρέπει να προσδιορίζουν τα OAI-

PMH λάθη σε μία απάντηση μιας αίτησης

Καθορισμένοι δείκτες λάθουςbadArgumentbadResumptionTokenbadVerbcannotDisseminateFormatidDoesNotExistnoRecordsMatchnoMetaDataFormatsnoSetHierarchy

Page 38: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Τεχνικές Λεπτομέρειες του OAI-PMH: Τύποι αιτήσεων Έξι (6) τύποι αιτήσεων

1. Identify (περιγραφή ενός αρχείου)2. ListMetadataFormats( ανακτά τα διαθέσιμα formats των

μεταδεδομένων)3. ListSets(ανακτά την δομή ενός αποθετηρίου)4. ListIdentifiers (συντομευμένη Listrecords ανακτά μόνο

τουςIdentifiers)5. ListRecords(συγκομιδή εγγραφών από το αποθετήριο)6. GetRecord(συγκομιδή συγκεκριμένης εγγραφής)

Ένας harvester δεν χρειάζεται να χρησιμοποιεί όλους τους τύπους

Ένα αποθετήριο πρέπει να υλοποιεί όλους τους τύπους

Page 39: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης
Page 40: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης
Page 41: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Ερωτήσεις που πρέπει να τεθούν σε μια υλοποίηση του ΟΑΙ πρωτοκόλλουΔιαθέτης Δεδομένων

Πρέπει να απαντήσει στο ερώτημα: ποία δεδομένα θέλω να διανείμω;

Ποίους διαθέτες υπηρεσιών θέλω να προμηθεύσω με δεδομένα;

Διαθέτης Υπηρεσιών Ποιες υπηρεσίες θέλω να παρέχω; Από ποίους προμηθευτές δεδομένων θα παίρνω μεταδεδομένα; Με ποιο τρόπο θα προσλαμβάνονται τα μεταδεδομένα;

Διαθέτης Δεδομένων & Διαθέτης Υπηρεσιών

Οι διαστάσεις στις οποίες πρέπει να συμφωνήσουν: (Συχνότητα ενημέρωσης, τα format των μεταδεδομένων, τα sets, τα σχήματα των θεμάτων, την αποδεκτή χρήση).

Page 42: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΕΡΓΑΛΕΙΑ ΑΝΑΠΤΥΞΗΣ ΕΦΑΡΜΟΓΩΝ ΟΑΙ Η OAI διατηρεί μια λίστα με software tools

(http://www.openarchives.org/tools/)

Final Report on Technical Issues (download from http://www.oaforum.org/documents/

GNU EPrints,DSpace , FEDORA

Page 43: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (1/3) SQL Database Μεταδεδομένα για τις πηγές Web server, πχ. Apache, IIS , programming interface / API πχ. Perl, PHP, Java-Servlet web server extension identifier αρχείου/ base URL Έναν μοναδικό identifier για κάθε item format μεταδεδομένων (ένα η περισσότερα, υποχρεωτικά

unqualified Dublin Core) datestamps για τα μεταδεδομένα (created / last modified) flow control (μηχανισμός ελέγχου ροής κυρίως για τα μεγάλα

αρχεία)

Page 44: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (2/3) Argument Parser (αξιολογεί OAI αιτήσεις) Error Generator (δημιουργεί XML απαντήσεις με

κωδικούς λαθών) Μηχανισμό Database Query / τοπική εξαγωγή

μεταδεδομένων (ακανακτά μεταδεδομένα από το αποθετήριο σύμφωνα με το αιτούμενο format).

XML Generator / Δημιουργία απάντησης (δημιουργεί XML απάντηση με κωδικοποιημένη πληροφορία.

Flow Control (δίνει τμήμα- τμήμα τα μεταδεδομένα ιδίως σε μεγάλα αποθετήρια resumption token ως μηχανισμός ελέγχου)

Page 45: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (3/3)

Page 46: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΔΙΑΘΕΤΗΣ ΥΠΗΡΕΣΙΩΝ:διάγραμμα συστατικών μερών και αρχιτεκτονικής

Page 47: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

XML Shemas για OAI-PMH(1/3) To OAI-PMH χρησιμοποιεί XML Schemas για να ορίσει το format

των εγγραφών Μπορεί να ανταλλάξει μεταδεδομένα σε οποιαδήποτε format

αρκεί να είναι κωδικοποιημένα σε XML και να ορίζεις ένα XML Schemas για αυτά τα format.

Το OAI-PMH ορίζει ένα oai_dc schema ως έλαχιστη προδιαγραφή διαλειτουργικότητας

Η τεκμηρίωση του OAI-PMH περιγράφει XML schema και για άλλα formats, και παρουσιάζει XML schemas για: rcf1807 (για RFC 1807 format μεταδεδομένα) marc21 oai_marc (για MARC μεταδεδομένα)

Page 48: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

XML Shemas για OAI-PMH (2/3)Δημιουργία ενός νέου schema επεκτείνοντας το oai_dc schema για

να προσθέσουμε νέα στοιχεία:

Ονοματοδοσία του νέου σχήματος Δημιουργία namespaces Δημιουργία ενός schema για το νέο στοιχείο elements Δημιουργία ενός 'container schema' Έλεγχος εάν είναι valid schema / records Πρόσθεση του στη "ListMetadataFormats" του αποθετηρίου Πρόσθεση στο αποθετήριο (other verbs) Έλεγχος εάν δουλεύει και εάν είναι valid

Page 49: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

XML Shemas για OAI-PMH (3/3)

Παράδειγμα πρόσθεσης ενός νέου σχήματος του ims

<metadataFormat>  <metadataPrefix>ims</metadataPrefix>  <schema>http://www.imsglobal.org/xsd/imsmd_v1p2p2.xsd</schema>  <metadataNamespace>http://www.imsglobal.org/xsd/imsmd_v1p2</metadataNamespace></metadataFormat>

Page 50: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

ΣΥΜΠΕΡΑΣΜΑΤΑ

Η εστίαση της OAI είναι στην υψηλού επιπέδου επικοινωνία μεταξύ των συστημάτων και της απλότητας των πρωτοκόλλων. Το OAI-PMH έχει συγκεντρώσει πολλή μεγάλη προσοχή μεταξύ της κοινότητας της ηλεκτρονικής δημοσίευσης

Το πρωτόκολλο OAI για τη συγκομιδή μεταδεδομένων [ Lagoze και Van de Sompel, 2001 ] στην ουσία υποστηρίζει ένα σύστημα των διασυνδεόμενων συστατικών, όπου κάθε ένα είναι DL

Το πρωτόκολλο OAI μπορεί να θεωρηθεί ως κόλλα που δεσμεύει μαζί συστατικά ενός μεγαλύτερου DL