::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ...

296
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ – ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Ακαδημαϊκό έτος: 2004-2005 Τίτλος Εργασίας: Εντοπισμός διπλών βιβλιογραφικών πόρων ή εγγραφών σε ηλεκτρονικές περιγραφές Ονοματεπώνυμο: Ανέστης Σίτας Υπεύθυνος Διδάσκων: Σαράντος Καπιδάκης 1

Transcript of ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ...

Page 1: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ – ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝΣΤΗΝ

ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ακαδημαϊκό έτος: 2004-2005

Τίτλος Εργασίας: Εντοπισμός διπλών βιβλιογραφικών πόρων ή εγγραφών σε ηλεκτρονικές περιγραφές

Ονοματεπώνυμο: Ανέστης Σίτας

Υπεύθυνος Διδάσκων: Σαράντος Καπιδάκης

Δήλωση: Δηλώνω υπεύθυνα ότι το παρόν κείμενο αποτελεί προϊόν προσωπικής μελέτης και εργασίας και πώς όλες οι πηγές που χρησιμοποιήθηκαν για τη συγγραφή της δηλώνονται σαφώς είτε στις παραπομπές είτε στο βιβλιογραφικό κατάλογο.

Υπογραφή___________________________

ΠΕΡΙΕΧΟΜΕΝΑ

1

Page 2: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΠΕΡΙΛΗΨΗ...................................................................................................................7

ΕΙΣΑΓΩΓΗ...................................................................................................................9

ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: ΔΙΠΛΕΣ ΒΙΒΛΙΟΓΡΑΦΙΚΕΣ ΕΓΓΡΑΦΕΣ

1. Καθορισμός διπλών εγγραφών.............................................................................14

1.2. Επιπτώσεις ύπαρξης διπλών εγγραφών.............................................................17

1.3. Λόγοι ύπαρξης διπλών εγγραφών.....................................................................21

1.3.1. Τοπικές πρακτικές......................................................................................23

1.3.2. Ασυνέπειες καταλογογράφησης.................................................................25

1.3.3. Απροσεξίες καταχώρησης..........................................................................38

1.3.4. Λάθη σύνταξης μορφότυπου MARC.........................................................40

ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ:

ΔΙΑΔΙΚΑΣΙΕΣ ΕΝΤΟΠΙΣΜΟΥ ΔΙΠΛΩΝ ΕΓΓΡΑΦΩΝ

2. Αλγόριθμοι ταυτοποίησης εγγραφών..................................................................43

2.1. Χειρισμός διπλών εγγραφών........................................................................44

2.2. Σχεδιασμός εντοπισμού και αφαίρεσης διπλών εγγραφών...............................46

2.2.1. Στόχος σχεδιασμού.....................................................................................46

2.2.2. Καθορισμός διπλής εγγραφής....................................................................47

2.2.3. Εφαρμογή διαδικασίας...............................................................................47

2.3. Δημιουργία αλγορίθμου ταυτοποίησης.............................................................48

2.3.1. Βήματα εφαρμογής....................................................................................48

2.3.2. Επιλογή πεδίων..........................................................................................49

2.3.3. Κλειδιά ταυτοποίησης................................................................................49

2.3.4. Αξιολόγηση ταυτοποίησης.........................................................................50

2.4. Προβλήματα αλγορίθμων εντοπισμού και συγχώνευσης εγγραφών................52

ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΑΛΓΟΡΙΘΜΩΝ

2

Page 3: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

3.1. Τύποι υλικού και κατάσταση λειτουργίας........................................................54

3.2. Διαδικασίες εφαρμογής και αξιολόγησης.........................................................57

3.3. Τελικός χειρισμός εγγραφών και χρόνος εκτέλεσης αλγορίθμων....................59

3.4. Πεδία που χρησιμοποιούνται για τη δημιουργία κλειδιών (μονογραφίες).......62

3.5. Πεδία που χρησιμοποιούνται για τη δημιουργία κλειδιών (περιοδικά)............65

3.6. Αποτελεσματικότητα αλγορίθμων....................................................................65

ΚΕΦΑΛΑΙΟ ΤΕΤΑΡΤΟ:

ΑΛΓΟΡΙΘΜΟΙ ΕΝΤΟΠΙΣΜΟΥ ΔΙΠΛΩΝ ΕΓΓΡΑΦΩΝ ΕΝΟΣ ΚΑΙ ΔΥΟ

ΒΗΜΑΤΩΝ

4.1. ΑΛΓΟΡΙΘΜΟΙ ΕΝΟΣ ΒΗΜΑΤΟΣ..............................................................69

4.1.1. ALEPH - UMI...........................................................................................69

4.1.2. Illinois Library Computer Systems Organization (ILCSO).......................73

4.1.3. Συλλογικός Κατάλογος Ελληνικών ΑΕΙ-ΤΕΙ............................................75

4.2. ΑΛΓΟΡΙΘΜΟΙ ΔΥΟ ΒΗΜΑΤΩΝ................................................................81

4.2.1. Oak Ridge National Laboratory.................................................................81

4.2.2. Online Computer Library Center (OCLC): MDBUPD..............................83

4.2.3. University of Illinois: IUCS.......................................................................84

4.2.4. Online Computer Library Center (OCLC) - Hickey & Rypka..................88

4.2.5. Online Computer Library Center (OCLC): DDR......................................92

4.2.6. Consortium of University Libraries (CURL): COPAC.............................96

ΚΕΦΑΛΑΙΟ ΠΕΜΠΤΟ:

ΑΛΓΟΡΙΘΜΟΙ ΟΜΑΔΟΠΟΙΗΣΗΣ ΕΚΔΗΛΩΣΕΩΝ ΤΕΚΜΗΡΙΩΝ

5.1. Ομαδοποίηση εκδηλώσεων τεκμηρίων...........................................................103

5.1.1. Αλγόριθμος του J. A. Hylton...................................................................105

5.1.2. Research Library Group (RLG): RLIN....................................................108

3

Page 4: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΚΕΦΑΛΑΙΟ ΕΚΤΟ:

ΑΛΓΟΡΙΘΜΟΙ ΔΥΝΑΜΙΚΟΥ ΕΝΤΟΠΙΣΜΟΥ ΔΙΠΛΩΝ ΕΓΓΡΑΦΩΝ

(ON THE FLY)

6.1. Εντοπισμός και συγχώνευση κατά τη διάρκεια της διαδικασίας....................113

6.1.1. COPAC: εντοπισμός και συγχώνευση εγγραφών κατά την αναζήτηση. .115

6.1.2. MELVYL: εντοπισμός και συγχώνευση εγγραφών κατά την ανάκτηση 117

ΚΕΦΑΛΑΙΟ ΕΒΔΟΜΟ: ΕΝΙΑΙΟΙ ΚΑΤΑΛΟΓΟΙ ΚΑΙ ΠΡΩΤΟΚΟΛΛΟ Ζ39.50

7. Ενιαίοι κατάλογοι...............................................................................................122

7.1. Φυσικοί vs Εικονικοί Ενιαίοι Κατάλογοι...................................................126

7.2. Πρωτόκολλο Ανάκτησης Πληροφοριών Z39.50........................................133

7.3. Προγράμματα εφαρμογής Z39.50..................................................................134

7.3.1. Virtual Canadian Union Catalog Project (vCuc).....................................134

7.3.2. EUCat – Πανευρωπαϊκό Ευρετήριο Ενιαίων Καταλόγων.......................135

7.4. Z39.50 Duplicate Detection Service...............................................................137

7.4.1. Μια πρόταση σχεδιασμού ενοποίησης πληροφοριών..............................138

ΣΥΜΠΕΡΑΣΜΑΤΑ.................................................................................................142

ΠΑΡΑΡΤΗΜΑ Α΄:ΑΛΓΟΡΙΘΜΟΙ ΕΜΠΟΡΙΚΩΝ ΠΡΟΓΡΑΜΜΑΤΩΝ........147

ΠΑΡΑΡΤΗΜΑ Β΄:ΠΙΝΑΚΕΣ ΠΕΔΙΩΝ ΚΑΙ ΑΠΟΔΟΣΗΣ ΒΑΡΩΝ................152

ΠΑΡΑΡΤΗΜΑ Γ΄:

ΠΙΝΑΚΕΣ ΑΞΙΟΛΟΓΗΣΗΣ ΑΛΓΟΡΙΘΜΟΥ ΣΥΛΛΟΓΙΚΟΥ

ΚΑΤΑΛΟΓΟΥ ΕΛΛΗΝΙΚΩΝ ΑΕΙ-ΤΕΙ...................................................165

ΠΑΡΑΡΤΗΜΑ Δ΄:Z39.50 DUPLICATE DETECTION SERVICE ..................167

ΑΚΡΩΝΥΜΙΑ..........................................................................................................176

ΓΛΩΣΣΑΡΙ...............................................................................................................178

ΕΥΡΕΤΗΡΙΟ............................................................................................................181

4

Page 5: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΒΙΒΛΙΟΓΡΑΦΙΑ.......................................................................................................187

5

Page 6: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΕΥΧΑΡΙΣΤΙΕΣ

Θα ήθελα να ευχαριστήσω,

● τους καθηγητές μου κ. Σ. Καπιδάκη για την ανάθεση και τη βοήθειά του στην

ανάπτυξη αυτής της εργασίας, και κ. Χ. Παπαθεοδώρου για τη συμπαράστασή

του,

● τον κ. Μ. Σφακάκη για τις καίριες προτάσεις του για την ανάπτυξη και τη

διάρθρωσή της,

● τους φίλους και συναδέλφους για τις διορθώσεις και τις προτάσεις τους,

● τέλος, θα ήθελα να ευχαριστήσω τους συμφοιτητές μου «Ανώνυμους

Μεταπτυχιακούς» για το “group therapy” των τελευταίων τριών μηνών.

6

Page 7: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΠΕΡΙΛΗΨΗ

Το ζήτημα της ύπαρξης των διπλών εγγραφών οι βιβλιοθήκες το αντιμετωπίζουν

εντονότερα τα τελευταία 25 χρόνια, καθώς αυξάνεται συνεχώς το μέγεθος και ο

αριθμός των βιβλιογραφικών βάσεων. Οι βάσεις εμπλουτίζονται με ταχύτατους

ρυθμούς και η κατάσταση επιδεινώνεται ακόμη περισσότερο, αφού ταυτόχρονα με

τον αριθμό των εγγραφών αυξάνεται και ο αριθμός των χρηστών. Σε μεμονωμένες

βάσεις γίνεται περισσότερο εμφανές όταν τα δεδομένα προετοιμάζονται για

μετανάστευση (migration) από ένα υπάρχων σύστημα σε ένα πιο σύγχρονο. Συνήθως

όμως έρχεται στο προσκήνιο όταν δημιουργούνται ενιαίοι κατάλογοι και

συγχωνεύονται εγγραφές από δύο ή περισσότερα ξεχωριστά και ανεξάρτητα

συστήματα καταλογογράφησης ή αναπτύσσονται συνεργατικά σχήματα

καταλογογράφησης σε δικτυακό περιβάλλον.

Στην εργασία αυτή εξετάζουμε και κατηγοριοποιούμε όλες τις πιθανές

μεθόδους εντοπισμού διπλών εγγραφών με βάση τη διαδικασία που ακολουθείται για

την εφαρμογή τους. Αναφέρουμε τους τρόπους διαχείρισής τους, καθώς και τις

διαδικασίες εφαρμογής των αλγορίθμων εντοπισμού διπλών εγγραφών και τα

αποτελέσματά τους. Επίσης, εξετάζουμε τις διαδικασίες ομαδοποίησης σχετιζόμενων

εκδηλώσεων βιβλιογραφικών εγγραφών. Η έρευνά μας καταλήγει στο συμπέρασμα

πως η εφαρμογή των αλγορίθμων για τον εντοπισμό διπλών βιβλιογραφικών

εγγραφών υλοποιείται σε μια διαδικασία ενός ενιαίου βήματος ή δύο συνεχόμενων

βημάτων. Διαπιστώνουμε πως η απόληξη όλων των παραπάνω διαδικασιών είναι η

διαγραφή, η συγχώνευση ή η προσωρινή και εικονική ενοποίηση των διπλών

εγγραφών. Τέλος, εξετάζουμε θέματα που αφορούν τη λειτουργία φυσικών και

7

Page 8: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

εικονικών ενιαίων καταλόγων και την εφαρμογή των υπηρεσιών του πρωτοκόλλου

Ζ39.50 για την επίλυση του προβλήματος των διπλών εγγραφών.

8

Page 9: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΕΙΣΑΓΩΓΗ

Στον κατάλογο μιας βιβλιοθήκης, θεωρητικώς, η κάθε εγγραφή αντιπροσωπεύει

μοναδικά τα τεκμήρια της συλλογής της. Το πλήθος των διπλών εγγραφών που

βρίσκονται αποθηκευμένες σε μια βιβλιογραφική βάση, είναι μια πηγή ενόχλησης το

μέγεθος και το είδος της οποίας εξαρτάται από το είδος της βιβλιοθήκης και έχει

επιπτώσεις στην απόδοση του ευρετηριασμού και την αύξηση του κόστους

αποθήκευσης και διατήρησής τους, δυσχεραίνει την αποτελεσματική αναζήτησή τους

και ως συνέπεια όλων αυτών, προκαλεί σοβαρά προβλήματα στον ποιοτικό έλεγχο,

στους χρήστες (ερευνητές, καταλογογράφους, προσωπικό που ασχολείται με τον

διαδανεισμό/ILL) και στους διαχειριστές του συστήματος. Για να μειωθούν κατά το

δυνατό οι επιπτώσεις αυτές, η κάθε εγγραφή της βάσης θα έπρεπε να απεικονίζει με

ακρίβεια και μοναδικότητα τις συγκεκριμένες πληροφορίες που αντιπροσωπεύουν τα

ξεχωριστά τεκμήρια, τα αντίτυπά τους και τα μέρη τους.

Σε μια βιβλιογραφική βάση, η δυσκολία δεν εντοπίζεται τόσο στην εύρεση των

απόλυτα διπλών εγγραφών, όσο στον εντοπισμό αυτών που αναφέρονται στο ίδιο

τεκμήριο παρουσιάζοντας ταυτόχρονα κάποιες διαφορές. Σε ορισμένες περιπτώσεις

οι όμοιες εγγραφές μπορούν να οριστούν με σαφήνεια χωρίς να αφήνουν περιθώρια

αμφισβήτησης. Σε άλλες πάλι, εμφανίζονται μικρές διαφορές οι οποίες μπορεί να

είναι ή και να μην είναι ουσιαστικές, ανάλογα με τον ορισμό της έννοιας των διπλών

εγγραφών που δίνει η συγκεκριμένη βιβλιοθήκη και ανταποκρίνεται στην φιλοσοφία

και τις ανάγκες της. Οι διαφορές αυτές συνήθως οφείλονται σε ανακριβή ή μη συνεπή

καταχώρηση δεδομένων, όπως τα ορθογραφικά λάθη ή οι διαφορετικές εκδόσεις του

ίδιου τεκμηρίου. Παρόλο που οι κανόνες καταλογογράφησης προσπαθούν να

9

Page 10: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

προσδιορίσουν τον ομοιόμορφο τρόπο καθώς και την περιοχή μέσα σε μια

βιβλιογραφική εγγραφή, στην οποία καταγράφονται οι απαιτούμενες πληροφορίες,

στην πράξη αυτοί οι κανόνες επιδέχονται πολλαπλές ερμηνείες.

● Οι διπλές εγγραφές πριν από την αυτοματοποίηση

Κατά το παρελθόν, ο εντοπισμός των διπλών εγγραφών ενός καταλόγου γινόταν

από το προσωπικό των βιβλιοθηκών με μη αυτοματοποιημένο τρόπο (manually). Οι

βιβλιοθηκάριοι που ταξιθετούσαν τα νέα δελτία στους καταλόγους, εντόπιζαν και

αποφάσιζαν για την ομοιότητα μεταξύ των υπαρχόντων εγγραφών, βασιζόμενοι

στους ακολουθούμενους κανόνες καταλογογράφησης. Στις περιπτώσεις των

παραδοσιακών βιβλιοθηκών που λειτουργούσαν αυτόνομα, χωρίς να συνεργάζονται

άμεσα με άλλες βιβλιοθήκες, ο εντοπισμός των διπλών εγγραφών ήταν μια

διαδικασία που μπορούσε να γίνει με μεγαλύτερη ευκολία αλλά και με μεγαλύτερη

ασφάλεια. Όταν η απόφαση για το εάν δύο ή περισσότερες εγγραφές περιγράφουν το

ίδιο τεκμήριο δεν ήταν δυνατό να ληφθεί με βάση μόνο τις βιβλιογραφικές

περιγραφές, συνήθως υπήρχε η δυνατότητα προσφυγής στα τεκμήρια αυτά καθ’ αυτά.

Ο Madan, ακόμη από το 1914, αναφέρει πως «χωρίς λεπτομερή έλεγχο, είναι

επικίνδυνο να αποφανθούμε εάν οποιοδήποτε βιβλίο είναι ακριβές αντίγραφο

κάποιου άλλου, όταν αυτό έχει εκτυπωθεί πριν το 1800» (Ayres 1990 ).

● Οι διπλές εγγραφές μετά την αυτοματοποίηση

Στο σύγχρονο περιβάλλον, η προσπάθεια επικεντρώνεται κυρίως στον εντοπισμό

των πραγματικών διπλών εγγραφών ή των εκδηλώσεων (manifestations) ενός

τεκμηρίου. Η ακεραιότητα και η λειτουργικότητα αυτού του περιβάλλοντος βασίζεται

στη συνεργατική καταλογογράφηση, στην ποιότητα και τον έλεγχο των εγγραφών

10

Page 11: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

αλλά και των αρχείων καθιερωμένων όρων (authority files), καθώς και στην

καθαρότητα και σαφήνεια των πληροφοριών των υπαρχόντων (holdings) μιας

συλλογής.

Ο εντοπισμός και η αφαίρεση των διπλών εγγραφών απασχολεί πολλές

μεμονωμένες βιβλιοθήκες, αλλά και δίκτυα βιβλιοθηκών. Το πρόβλημα στη

βιβλιογραφία συναντάται ως εντοπισμός/ανίχνευση διπλών εγγραφών (duplication

detection), ταυτοποίηση/ταίριασμα εγγραφών (matching), αφαίρεση-καθαρισμός-

διαχωρισμός διπλών εγγραφών (deduplication, deduping, clean up, duplicate record

resolution), συγχώνευση (merging) ή ενοποίηση (consolidation) εγγραφών και

συνδέεται και με τη δημιουργία ενιαίων (union) ή εικονικών (virtual) καταλόγων.

Όλες οι παραπάνω περιπτώσεις έμμεσα ή άμεσα αναφέρονται ή χρησιμοποιούν, ως

μέρος της διαδικασίας τους, τη δημιουργία και την εφαρμογή αλγορίθμων εντοπισμού

διπλών εγγραφών, αλλά και την επιλογή της καταλληλότερης εγγραφής που θα

αντιπροσωπεύει το τεκμήριο. Στην εργασία αυτή θα επικεντρωθούμε στους

αλγορίθμους και τις διαδικασίες εντοπισμού διπλών βιβλιογραφικών εγγραφών. Δεν

θα ασχοληθούμε με αλγορίθμους εντοπισμού και ανίχνευσης σε πλήρη κείμενα (full

text), θέμα το οποίο αποτελεί ένα ξεχωριστό πεδίο έρευνας με απώτερο στόχο τον

περιορισμό της λογοκλοπής και τον έλεγχο των πνευματικών δικαιωμάτων.

Η συγκέντρωση των πληροφοριών αυτών ήταν μια ιδιαίτερα δύσκολη και

χρονοβόρα διαδικασία, καθώς οι εφαρμοζόμενοι αλγόριθμοι δημοσιοποιούνται με

φειδώ. Όσο δε περισσότερο εμπορικά είναι τα κριτήρια λειτουργίας ενός οργανισμού,

τόσο δυσκολότερη είναι η πρόσβαση στο σύνολο των στοιχείων και των πολιτικών

του. Για παράδειγμα, ήταν πολύ πιο εύκολη η απόκτηση πληροφοριών από το

11

Page 12: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

University of California και το COPAC παρά από το OCLC. Υπήρξαν περιπτώσεις

όπου οι οργανισμοί δεν διαθέτουν κανενός είδους πληροφορία - όπως το OCLC/PICA

- αλλά ακόμη και όταν δημοσιοποιούν κάποια στοιχεία, συχνά αυτά δίνονται

αποσπασματικά και όχι στο σύνολό τους.

Στο Πρώτο Κεφάλαιο της εργασίας αυτής, εξετάζουμε τον ορισμό των διπλών

βιβλιογραφικών εγγραφών και τους λόγους δημιουργίας τους. Στο Δεύτερο Κεφάλαιο

αναφερόμαστε στις διαδικασίες εντοπισμού τους με την εφαρμογή ειδικών

αλγορίθμων. Στο Τρίτο Κεφάλαιο εξετάζουμε και κατηγοριοποιούνται τους

παρουσιαζόμενους αλγόριθμους με βάση το υλικό στο οποίο εφαρμόζονται, την

κατάσταση λειτουργίας τους, τις διαδικασίες εφαρμογής και αξιολόγησης των

ομοίων εγγραφών, τον τελικό χειρισμό τους, τα πεδία που χρησιμοποιούν και την

αποτελεσματικότητά τους. Στα επόμενα τέσσερα κεφάλαια αναπτύσσουμε

συγκεκριμένους αλγορίθμους και τους ομαδοποιούμε ανάλογα με την διαδικασία

εφαρμογή τους. Συγκεκριμένα, στο Τέταρτο Κεφάλαιο παρουσιάζουμε τους

αλγορίθμους που εφαρμόζονται σε ένα και δύο βήματα. Στο Πέμπτο Κεφάλαιο

αναπτύσσουμε τους αλγορίθμους που στοχεύουν στην ομαδοποίηση των εκδηλώσεων

ενός τεκμηρίου και στο Έκτο Κεφάλαιο τους αλγορίθμους δυναμικού εντοπισμού

διπλών εγγραφών, δηλαδή αυτών που εφαρμόζονται σε πραγματικό χρόνο κατά την

έρευνα των εγγραφών από τον χρήστη. Στο Έβδομο Κεφάλαιο, συνεχίζουμε με τη

μελέτη των αλγορίθμων που εφαρμόζονται κατά την αναζήτηση, σε σχέση με τους

φυσικούς/κεντρικοποιημένους και εικονικούς/κατανεμημένους ενιαίους καταλόγους.

Ολοκληρώνουμε το κεφάλαιο αυτό, με την αναφορά στην υπηρεσία εντοπισμού

διπλών εγγραφών του πρωτοκόλλου Ζ39.50 και με μια πρόταση αρχιτεκτονικής για

τη δημιουργία ενός συστήματος παρουσίασης των διπλών εγγραφών με τη χρήση του

12

Page 13: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

πρωτοκόλλου αυτού. Η εργασία κλείνει με την εξαγωγή των συμπερασμάτων και τα

ανοικτά ζητήματα για περαιτέρω έρευνα.

Σε ξεχωριστά παραρτήματα παρουσιάζουμε: α) τους αλγόριθμους των εμπορικών

προγραμμάτων βιβλιοθηκών, β) τους πίνακες με τα πεδία που χρησιμοποιούν οι

παρουσιαζόμενοι αλγόριθμοι με όλες τις διαθέσιμες λεπτομέρειες και την απόδοση

βαρών/τιμών όπου αυτές εφαρμόζονται, γ) τους πίνακες αξιολόγησης του αλγορίθμου

του Συλλογικού Καταλόγου των Ελληνικών ΑΕΙ και ΤΕΙ, και δ) τη μετάφραση του

Duplication Detection Service του πρωτοκόλλου Ζ39.50.

13

Page 14: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: ΔΙΠΛΕΣ ΒΙΒΛΙΟΓΡΑΦΙΚΕΣ ΕΓΓΡΑΦΕΣ

1. Καθορισμός διπλών εγγραφών

Το ιδανικό για έναν κατάλογο, θα ήταν η ύπαρξη μια βιβλιογραφικής εγγραφής

για κάθε ξεχωριστή βιβλιογραφική οντότητα. Στην πράξη όμως, υπάρχουν πολλές

περιπτώσεις στις οποίες απαιτείται ο διαχωρισμός τους. Στο περιβάλλον των

βιβλιογραφικών βάσεων, ως διπλές εγγραφές ορίζονται δύο ή περισσότερες εγγραφές

που αναπαριστούν το ίδιο βιβλιογραφικό τεκμήριο ή φέρουν το ίδιο περιεχόμενο. Με

βάση τον ορισμό που δίνει το OCLC (Online Computer Library Center), οι

πολλαπλές, φαινομενικά όμοιες εγγραφές, ορίζονται ως διπλές όταν «δύο ή

περισσότερες βιβλιογραφικές εγγραφές αφορούν το ίδιο τεκμήριο ή όταν

περιγράφουν ένα τεκμήριο το οποίο βρίσκεται ήδη καταχωρημένο στη βάση»1. Σε

κάποιες συγκεκριμένες περιπτώσεις ίσως να είναι επιτρεπτές, συνήθως όμως είναι

ανεπιθύμητες.

Στην περίπτωση του βιβλιακού υλικού για παράδειγμα, εάν οι αρχικές

στοιχειοθεσίες είναι ίδιες όσον αφορά τα κύρια σημεία τους, τότε θεωρούνται πως

αντιπροσωπεύουν το ίδιο βιβλιογραφικό τεκμήριο. Οι δευτερεύουσες παραλλαγές,

όπως η βιβλιοδεσία και η διόρθωση των τυπογραφικών λαθών, δεν σηματοδοτούν

από μόνες τους ένα νέο τεκμήριο. Οποιεσδήποτε άλλες παραλλαγές, υπαγορεύουν τη

δημιουργία μιας ξεχωριστής βιβλιογραφικής εγγραφής (O ’ Neil and Oskins 1990 ).

Στις σύγχρονες αυτοματοποιημένες βιβλιογραφικές βάσεις υπάρχουν πολλά είδη

1 OCLC glossaries: batch processing glossary, [Διαθέσιμο από http://www.oclc.org/support/documentation/glossary/default.html (Ημερομηνία πρόσβασης: 8/1/2005)]

14

Page 15: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

διπλών εγγραφών ο καθορισμός των οποίων δεν είναι ένα απλό ζήτημα. Ακόμη και

όταν καθοριστούν τα κριτήρια του ορισμού τους, συνεχίζουν να αποτελούν ένα θέμα

που απαιτεί συνεχή επαναπροσδιορισμό και αντιμετώπιση, καθώς προστίθεται νέο

υλικό σε ποικίλες μορφές.

Υπάρχουν δύο είδη εγγραφών για τις οποίες υπό κανονικές συνθήκες δεν θα

έπρεπε να εμφανίζονται πολλαπλές καταχωρήσεις τους σε μια βάση. Πρόκειται για

τις εγγραφές που είναι απόλυτα ταυτόσημες και τις εγγραφές που είναι απόλυτα

διαφορετικές. Εάν η βιβλιοθήκη, μπορούσε να εξασφαλίσει ένα αυστηρό και απόλυτα

ελεγχόμενο ποιοτικό έλεγχο, τότε ίσως το πρόβλημα να ήταν ποσοτικά μικρότερο.

Πάντα όμως θα υπάρχουν περιπτώσεις που ο ποιοτικός έλεγχος δεν θα μπορεί να

αναστέλλει το φαινόμενο των διπλών εγγραφών. Δεν υπάρχουν πολλά λογισμικά, για

παράδειγμα, που να απαιτούν μοναδικότητα στην μορφή καταχώρησης της ονομασίας

του εκδοτικού οίκου ή να προλαμβάνουν την καταχώρηση λανθασμένων αριθμητικών

δεδομένων στο πεδίο της σελιδαρίθμησης, για να αναφερθούμε σε δύο μόνιμες πηγές

παρερμηνείας της ταυτότητας των εγγραφών. Εάν ο ποιοτικός έλεγχος εφαρμόζεται

σωστά, αυτές οι περιπτώσεις θα ελαττωθούν. Παρόλα αυτά όμως, υπάρχει μεγάλη

ποικιλία διπλών εγγραφών για τις οποίες πρέπει να αποφανθούμε εάν όντως

αντιπροσωπεύουν το ίδιο τεκμήριο.

Όσον αφορά το Διαδίκτυο και τις ψηφιακές βάσεις πλήρους κειμένου, από

μελέτες που έγιναν σε δύο ειδησεογραφικές βάσεις, βρέθηκε πως το σύνολο των

διπλών τεκμηρίων ήταν από 28,6-29%. Από αυτά τα διπλά τεκμήρια ορίζονται οι

παρακάτω κατηγορίες διπλών τεκμηρίων (Conrad , Guo and Schriber 2003 ):

15

Page 16: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

1. Ακριβή αντίγραφα (exact duplicates) (δεν φέρουν απαραίτητα τον ίδιο τίτλο),

αποτελούν το 41,4-54,1%

2. Αποσπάσματα. (excerpt): ένα τεκμήριο είναι μέρος ενός πληρέστερου έργου,

αποτελούν το 4,1-9,6%

3. Επεξεργασμένα αντίγραφα (elaboration): ένα τεκμήριο προσθέτει μία ή

περισσότερες παραγράφους σε ένα άλλο συντομότερο τεκμήριο, αποτελούν το

6,9-8,2%

4. Τεκμήριο με παρεμβολές (insertion): ένα τεκμήριο είναι ίδιο, αλλά προσθέτει

μία ή περισσότερες προτάσεις στις παραγράφους ενός άλλου τεκμηρίου,

αποτελούν το 0,0-6,9%

5. Τεκμήρια με διαφορετική εστίαση (focus): ένα τεκμήριο αποτελεί

επανεγγραφή ενός άλλου τεκμηρίου, κάνοντας σαφή χρήση διαφορετικού

λεξιλογίου/περιγραφής/περιεχομένων από το άλλο άρθρο, αλλά σχετικά με

ένα ταυτόσημο ή πολύ όμοιο θέμα, αποτελούν το 28,1-40,7%

Στην έρευνα αυτή, δεν αναφέρεται πουθενά η κατηγορία των διπλών εγγραφών

που αφορά τα τεκμήρια που είναι μεν ταυτόσημα αλλά είναι διαθέσιμα σε

διαφορετικά μορφότυπα (html, pdf, κτλ). Το στοιχείο αυτό δεν εντοπίστηκε ούτε και

σε άλλες έρευνες που αφορούν το Διαδίκτυο. Στην εργασία αυτή δεν θα ασχοληθούμε

ούτε με τις διπλές εγγραφές στο περιβάλλον του Διαδικτύου, ούτε με τα τεκμήρια που

είναι διαθέσιμα σε διαφορετικά μορφότυπα. Θα επικεντρωθούμε στις ηλεκτρονικές

βιβλιογραφικές εγγραφές σε online περιβάλλοντα βιβλιογραφικών καταλόγων.

Η βιβλιογραφία που αφορά την ύπαρξη και τη διαχείριση διπλών εγγραφών στις

βιβλιογραφικές βάσεις εστιάζεται (O ’ Neill and Vizine - G oetz 1988 ):

16

Page 17: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

● στα γενικά χαρακτηριστικά - στους λόγους ύπαρξης των διπλών εγγραφών

● στα προβλήματα που προκαλούν στην αναζήτηση και στις αποφάσεις

καταλογογράφησης, και στους

● αλγόριθμους ταυτοποίησης

1.2. Επιπτώσεις ύπαρξης διπλών εγγραφών

Η ποιότητα των βάσεων απασχολεί ιδιαίτερα τις βιβλιοθήκες αφού μόνο έτσι

μπορούν να εκπληρώσουν τον στόχο τους προσφέροντας ακριβείς πληροφορίες σε

συνδυασμό με την επίτευξη όσο το δυνατόν μεγαλύτερης ταχύτητας απόκρισης. Οι

διπλές εγγραφές σε μια βιβλιογραφική βάση μπορούν να προκαλέσουν προβλήματα

στους διαχειριστές της βάσης, στους καταλογογράφους και στους τελικούς χρήστες.

Το πρόβλημα ενισχύεται περισσότερο με την εμφάνιση της συνεργατικής

καταλογογράφησης μέσω των αυτοματοποιημένων συστημάτων, καθώς κάθε

βιβλιοθήκη-μέλος ενός συστήματος μπορεί να χρησιμοποιήσει τις εγγραφές των

άλλων μελών. Οι διαχειριστές πρέπει να βελτιώσουν την ποιότητα της βάσης και να

τη διατηρήσουν λειτουργική και «καθαρή». Η ύπαρξη πολλαπλών εγγραφών για

φαινομενικά ταυτόσημα τεκμήρια κάνει την αναζήτηση δυσκίνητη, αποτελεί

παράγοντα που μπορεί να μπερδέψει τους χρήστες και να επιδεινώσει το πρόβλημα

του χειρισμού μεγάλων ομάδων ανακτημένων εγγραφών.

Συγκεκριμένα οι διπλές εγγραφές δημιουργούν προβλήματα στις παρακάτω

περιοχές, τις οποίες τις παρουσιάζουμε με βάση τη βαρύτητα της επίδρασής τους στη

λειτουργία του συστήματος :

17

Page 18: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

● Υπερφόρτωση πληροφοριών στον χρήστη

Η ανάκτηση πάρα πολλών εγγραφών από μια βιβλιογραφική βάση μπορεί να

προκαλέσει «υπερφόρτωση πληροφοριών» (“information overload”). Υπερφόρτωση

πληροφοριών σημαίνει πως παρουσιάζονται στον χρήστη περισσότερες πληροφορίες

από όσες μπορεί να απορροφήσει. Ένας χρήστης κάνοντας μια αναζήτηση ανακτά

υπερβολικά μεγάλο αριθμό τεκμηρίων (σε δικτυακά περιβάλλοντα μπορούν να

ανέλθουν και σε αρκετές χιλιάδες).

Η περίπτωση αυτή αναφέρεται στην ανάκτηση ποσοτήτων πληροφοριών που ένας

χρήστης δεν μπορεί να χειριστεί αποτελεσματικά. Ο χρήστης μπορεί να χειριστεί

μεγάλους αριθμούς ανακτημένων εγγραφών με μεγάλη δυσκολία, με αποτέλεσμα οι

ανακτήσεις στην ουσία να απαξιώνονται. Οι χρήστες μπερδεύονται και

«τυφλώνονται», κουράζονται και εγκαταλείπουν την έρευνα όταν πρέπει να

χειριστούν μεγάλους όγκους δεδομένων, τα οποία συχνά μπορεί να είναι λανθασμένα,

άχρηστα, ταυτόσημα ή ομοειδή Το αποτέλεσμα είναι να ανατρέχουν μόνο σε ένα

μικρό μέρος των ανακτηθέντων τεκμηρίων και έτσι να χάνουν σημαντικές

πληροφορίες που πιθανόν να περιέχονται σε άλλα τεκμήρια (Salim 2003 ).

Τα σύγχρονα, αυτοματοποιημένα, περιεκτικά και γρήγορα συστήματα ανάκτησης

βιβλιογραφικών εγγραφών οδηγούν αναπόφευκτα στην «υπερφόρτωση

πληροφοριών». Το μέγεθος της «υπερφόρτωσης» αυξάνεται με την αύξηση των

βιβλιογραφικών εγγραφών, αλλά και με τον αριθμό των βάσεων στις οποίες γίνεται

ταυτόχρονη αναζήτηση. Αυτό που απαιτείται είναι ένας τρόπος ώστε να μπορέσουν οι

χρήστες να επιλέξουν σωστά μέσα από τον μεγάλο όγκο των ανακτηθέντων

τεκμηρίων. Η περιοχή αυτή αποτελεί ένα από τα σημαντικότερα μειονεκτήματα των

18

Page 19: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

συστημάτων ανάκτησης αφού μειώνει την ποιότητα και την εγκυρότητα της βάσης

και κάνει εξαιρετικά δύσκολο και χρονοβόρο για έναν χρήστη, όσο έμπειρος και αν

είναι, να ελέγξει, να ταξινομήσει, να φιλτράρει και να αποφασίσει μέσα από ένα

πολυπληθές σύνολο ανακτηθέντων ποιο είναι το τεκμήριο που επιθυμεί.

Πάνω στο θέμα αυτό γίνεται εκτεταμένη έρευνα και γίνονται προσπάθειες να

δημιουργηθούν νέα εργαλεία και τεχνολογίες για την αντιμετώπισή του. Τα εργαλεία

αυτά αφενός στοχεύουν στο φιλτράρισμα μεγάλου όγκου πληροφοριών και την

μείωση του όγκου τους ώστε να είναι δυνατόν να επεξεργαστούν αποτελεσματικά,

αφετέρου δεν επιφέρουν απώλεια σημαντικών πληροφοριών. Για τον λόγο αυτό,

κρίνεται αναγκαία η εφαρμογή διαδικασιών και λογισμικών που περιορίζουν την

εμφάνιση πολλαπλών ή ομοειδών πληροφοριών, οι οποίες έχουν αρνητικό αντίκτυπο

στην πρόσβαση των χρηστών σε πληροφοριακούς πόρους.

● Μειωμένη αποτελεσματικότητα συστήματος

Οι διπλές εγγραφές σε μια βάση, δημιουργούν χωρίς λόγο μεγάλα αρχεία,

αυξάνουν αδικαιολόγητα το μέγεθος της συλλογής, άρα καταλαμβάνουν

αποθηκευτικό χώρο (που με τα σημερινά δεδομένα δεν αποτελεί ανυπέρβλητο

πρόβλημα) και εμποδίζουν την ακριβή εκτίμηση του χώρου αυτού. Μειώνουν την

αναλογία των πραγματικών αριθμών των εγγραφών της βάσης και δυσχεραίνουν την

αποτελεσματικότητα του ευρετηριασμού. Η αύξηση του αριθμού τους, δυσκολεύει

την αναζήτηση στη βάση και τη λήψη αποφάσεων καταλογογράφησης, την

ικανοποίηση των τελικών χρηστών όσον αφορά τον εντοπισμό συγκεκριμένου υλικού

και την αποτελεσματική λειτουργία εφαρμογών όπως ο διαδανεισμός. Ταυτόχρονα με

τη μείωση του συνολικού μεγέθους της βάσης, επέρχεται και η βελτίωση του χρόνου

19

Page 20: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ανάκλησης των αναζητήσεων, αλλά και η μείωση της σύγχυσης των χρηστών όσον

αφορά τη χρήση του OPAC, που δημιουργείται όταν αναγκάζονται να εξετάσουν

στην οθόνη του υπολογιστή τους πολλές εγγραφές για το ίδιο τεκμήριο.

● Χαμηλή παραγωγικότητα καταλογογράφησης

Η ύπαρξη μεγάλου αριθμού διπλών εγγραφών μπορεί να δυσκολέψει τον

καταλογογράφο, με αποτέλεσμα να απαιτείται η αφιέρωση πολύτιμου εργασιακού

χρόνου έως ότου αποφασίσει για την καταλληλότητα της εγγραφής που θα

χρησιμοποιήσει, εάν όντως υπάρχει κάποια, για ένα νεοαποκτηθέν τεκμήριο. Υπάρχει

η πιθανότητα να δημιουργήσει μια νέα εγγραφή ή να χρησιμοποιήσει μια ήδη

υπάρχουσα. Η δεύτερη περίπτωση δεν τον απαλλάσσει από επιπλέον εργασία.

Συνήθως η χρήση έτοιμων εγγραφών απαιτεί τη διόρθωση και τη βελτίωσή τους, με

βάση τις ανάγκες και τα πρότυπα της βιβλιοθήκης. Οι διπλές εγγραφές μειώνουν την

παραγωγικότητα της καταλογογράφησης αφού επιφέρουν αυξημένο χρόνο αναζήτησης,

δημιουργούν σύγχυση όσον αφορά τις διαφορές στην καταλογογράφηση και τη

δημιουργία νέων ή τη βελτίωση υπαρχόντων βιβλιογραφικών εγγραφών.

● Αύξηση κόστους λειτουργίας και συντήρησης συστήματος

Η ύπαρξη των διπλών εγγραφών επιδρά στην αναλογία κόστους-

αποτελεσματικότητας του αυτοματοποιημένου συστήματος της βιβλιοθήκης μέσω της

έμμεσης αύξησης του χρόνου (π.χ. αναζητήσεις και περιττές καταχωρήσεις), της

άμεσης αύξησης των δαπανών (π.χ. αναζητήσεις, καταλογογράφηση, διαδανεισμός),

αλλά και των αμοιβών του προσωπικού. Επιπλέον έχει ως συνέπεια την αύξηση του

κόστους αυτοματοποίησης και συντήρησης της βάσης. Η καταπολέμηση των διπλών

εγγραφών είναι μια ακριβή διαδικασία, αφού αφορά την εφαρμογή πολύπλοκων και

20

Page 21: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

δαπανηρών μη αυτοματοποιημένων διαδικασιών ή την ύπαρξη ενός

αυτοματοποιημένου συστήματος εντοπισμού τους ή ακόμη συχνότερα, απαιτεί το

συνδυασμό τους. Οι διπλές εγγραφές υπολογίζεται πως αυξάνουν το κόστος της

καταλογογράφησης κατά 5-15% (O ’ Neill and Oskins 1990 ).

1.3. Λόγοι ύπαρξης διπλών εγγραφών

Η P . Wanninger (1982) περιγράφοντας την επίδραση της ύπαρξης διπλών

εγγραφών στην αποτελεσματικότητα του OCLC Online Union Catalog και

θεωρώντας πως είναι δύσκολο να γνωρίζουμε με βεβαιότητα την αιτία ύπαρξής τους,

αναφέρει πως είναι δύσκολο να ειπωθεί γιατί οι βιβλιοθήκες-μέλη καταχωρούν διπλές

εγγραφές Αναφέρει ως πιθανές αιτίες την απρόσεκτη αναζήτηση, τη δυσκολία

αναζήτησης, την επιθυμία των καταλογογράφων να καταχωρήσουν την «τέλεια»

εγγραφή, την δυσκολία στην επεξεργασία και ενημέρωσή της (updating) και την

αποφυγή της χρέωσης πρώτης χρήσης. Σ’ αυτά μπορεί κάλλιστα να προστεθεί και η

επιθυμία (ή απαίτηση της διοίκησης) να αποφευχθεί το επιπλέον κόστος που

συνεπάγεται η λεπτομερής αναζήτηση της κατάλληλης εγγραφής στην υπάρχουσα

βάση.

Η ύπαρξη των διπλών εγγραφών, είναι ένα δυσεπίλυτο ζήτημα που απασχολεί

έντονα τις βιβλιογραφικές βάσεις, συχνά μάλιστα αποδεικνύεται και άλυτο, εξαιτίας

ελλιπών, ατελών, λανθασμένων ή αντικρουόμενων πληροφοριών. Η αντιμετώπισή

τους γίνεται ακόμη πιο πολύπλοκη στο περιβάλλον μιας συνεργατικής/κοινής

(shared) βάσης, λόγω των πρακτικών που ακολουθούνται στους κανόνες

καταλογογράφησης – στους οποίους επέρχονται και αρκετές «επίσημες» αλλαγές

21

Page 22: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

κατά την διάρκεια του χρόνου - και των παραλλαγών που εμφανίζονται ως

αποτέλεσμα της διαφορετικής ερμηνείας τους.

Σε μια βάση συνεργατικής καταλογογράφησης, οι αλλαγές στους κανόνες και οι

παραλλαγές στις πρακτικές καταλογογράφησης μπορούν να έχουν ως αποτέλεσμα τη

δημιουργία πολύ διαφορετικών εγγραφών για το ίδιο βιβλιογραφικό τεκμήριο (O ’

Neill , Rogers and Oskins 1993 ).

● Στην περίπτωση της online καταλογογράφησης, διπλές εγγραφές

δημιουργούνται όταν ο καταλογογράφος δεν βρίσκει την εγγραφή που ήδη

υπάρχει στη βάση ή δεν μπορεί να αναγνωρίσει πως η συγκεκριμένη εγγραφή

αντιπροσωπεύει το τεκμήριο που επιθυμεί να καταλογογραφήσει, με

αποτέλεσμα να την καταχωρεί ακόμη μία φορά.

● Στην περίπτωση της ομαδικής καταχώρησης (δέσμης/batch loading), διπλές

εγγραφές δημιουργούνται όταν οι παραλλαγές μεταξύ των εγγραφών που

καταχωρούνται και οι αντίστοιχες εγγραφές της βάσης αποτρέπουν το

σύστημα από την αναγνώριση των διπλών εγγραφών - στην περίπτωση βέβαια

που το σύστημα υποστηρίζει τέτοιες διεργασίες).

Λεπτομερέστερες μελέτες που διεξήχθησαν, έδειξαν πως εκτός από τους

παραπάνω λόγους, υπάρχουν και άλλοι παράγοντες που συνεισφέρουν στην ύπαρξη

διπλών εγγραφών. Αυτοί οι παράγοντες κατά σειρά σπουδαιότητας είναι οι εξής:

● Τοπικές πρακτικές

● Ασυνέπειες στην καταλογογράφηση

● Απροσεξίες καταχώρησης

● Λάθη σύνταξης του μορφοτύπου MARC

22

Page 23: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

1.3.1. Τοπικές πρακτικές

Στα μη αυτοματοποιημένα περιβάλλοντα βιβλιοθηκών, η κάθε βιβλιοθήκη

μπορούσε ελεύθερα είτε να καταλογογραφεί μόνη της τα τεκμήρια που κατείχε, είτε

να τα προμηθεύεται από άλλες υπηρεσίες όπως η LC (Library of Congress). Και στις

δύο παραπάνω περιπτώσεις, είχε την ευχέρεια να εφαρμόζει τα δικά της πρότυπα

καταλογογράφησης και να δημιουργεί δελτία που αντικατόπτριζαν τις ιδιαίτερες

πρακτικές και ικανοποιούσαν τις ανάγκες της. Για την ύπαρξη και λειτουργία όμως

του σύγχρονου περιβάλλοντος, που βασίζεται στην αυτοματοποίηση και τη

συνεργασία μεταξύ των βιβλιοθηκών, οι ακολουθούμενες πρακτικές και πολιτικές

των βιβλιοθηκών-μελών, συναποφασίζονται ή επιβάλλονται, λαμβάνοντας υπόψη όχι

πλέον τις απόλυτα τοπικές ανάγκες, αλλά αυτές που μπορούν να συγκεράσουν και να

ικανοποιήσουν το σύνολο των μελών της κοινοπραξίας ή της συνεργατικής

υπηρεσίας.

Σε συνεργατικά περιβάλλοντα στα οποία οι εγγραφές το πιθανότερο είναι να

προέρχονται από διαφορετικές πηγές, η εμφάνιση διπλών εγγραφών είναι κάτι που

πρέπει να θεωρείται αναπόφευκτο. Ακόμη και αν έχει ληφθεί κάποια κεντρική

απόφαση που υπαγορεύει την κοινή προέλευση των εγγραφών, το πρόβλημα

παραμένει αφού συχνά οι εγγραφές απαιτούν διορθώσεις ή προσαρμογές. Όπως όλοι

οι κανόνες έτσι και οι Αγγλο-αμερικάνικοι Κανόνες Καταλογογράφησης (AACR2),

παρόλο που επιδιώκουν την ομοιομορφία, δεν μπορούν να αποτρέψουν την

ποικιλότητα των ερμηνειών τους. Οι κανόνες αυτοί προσπαθούν να συμπεριλάβουν

διαφορετικά είδη τεκμηρίων και να κωδικοποιήσουν όλες τις πιθανές εκφάνσεις μιας

δημοσίευσης. Όμως προέρχονται από την βιβλιοθηκονομική κοινότητα. Το γεγονός

23

Page 24: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

αυτό δεν συνεπάγεται και την αυτόματη αποδοχή τους από την εκδοτική κοινότητα, η

οποία δεν είναι υποχρεωμένη ούτε να τους αποδέχεται, ούτε να συμβάλει στη συνεπή

εφαρμογή τους. Οι εκδότες παράγουν τα τεκμήρια δίνοντάς τους τα χαρακτηριστικά

και τις πληροφορίες που οι ίδιοι επιθυμούν. Οι καταλογογράφοι με τη σειρά τους,

καταγράφουν την παραγωγή των εκδοτών. Οι επιθυμίες των καταλογογράφων και

των εκδοτών, δεν είναι υποχρεωτικό να συναντώνται. Η ποικιλομορφία των

δημοσιευμάτων οδηγεί την κάθε βιβλιογραφική υπηρεσία ή ακόμη και τον κάθε

μεμονωμένο καταλογογράφο, να δίνουν διαφορετικές ερμηνείες σε φαινόμενα που

συναντούν.

Ο καταλογογράφος είναι υποχρεωμένος να λαμβάνει υπόψη του τις πολιτικές που

ακολουθεί η υπηρεσία του για τη δημιουργία νέων εγγραφών, με βάση τα κριτήρια

διάκρισης των τεκμηρίων ως προς την σημαντικότητα αλλά και τα ιδιαίτερα

χαρακτηριστικά τους στα οποία επικεντρώνεται το ενδιαφέρον της συγκεκριμένης

συλλογής. Κάθε οργανισμός, για τις ανάγκες του οποίου λειτουργεί μια βιβλιοθήκη,

μπορεί να επικεντρωθεί όχι μόνο σε κάποιες θεματικές περιοχές, αλλά και σε είδη ή

ειδικές μορφές υλικού τα οποία θεωρεί ως εξίσου σημαντικά με το περιεχόμενο των

τεκμηρίων.

Για πολλές συλλογές η γραμματοσειρά, η προέλευση και τα αυτόγραφα,

αποτελούν σημαντικό στοιχείο του ενδιαφέροντός τους. Αντιθέτως, για κάποιες άλλες

περισσότερο γενικές συλλογές, το ενδιαφέρον τους είναι εκ διαμέτρου αντίθετο. Το

ζητούμενο για αυτές είναι το περιεχόμενο αυτό καθ’ αυτό, οι πληροφορίες που

μεταφέρει το τεκμήριο, χωρίς να έχει καμιά απολύτως σημασία η ιδιαίτερη έκδοση, η

χρονολογία εκτύπωσης, κτλ. Για το λόγο, αυτό η κάθε βιβλιοθήκη προσαρμόζει τις

24

Page 25: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

βιβλιογραφικές εγγραφές του υλικού της έτσι ώστε να αντανακλούν και να

ικανοποιούν τα ιδιαίτερα χαρακτηριστικά της.

1.3.2. Ασυνέπειες καταλογογράφησης

Η ερμηνεία των AACR2 οδηγεί σε πολλά διαφορετικά αποτελέσματα που

αφορούν τον τρόπο του χειρισμού ενός έργου. Οι πληροφορίες που προέρχονται από

ένα τεκμήριο μπορούν να ερμηνευτούν διαφορετικά από κάθε υπηρεσία

καταλογογράφησης. Οι κανόνες καταλογογράφησης έχουν επιπτώσεις στον τύπο του

τεκμηρίου ή στην απόφαση δημιουργίας μιας νέας εγγραφής για κάθε έκφανση του

υλικού, στο είδος των πληροφοριών και στο πεδίο στο οποίο καταγράφονται οι

πληροφορίες αυτές. Όταν μια εγγραφή για παράδειγμα, αποτελεί εκδήλωση μιας

άλλης, ορίζουν τον τρόπο καταγραφής τους. Στην περίπτωση αυτή κάθε περίπτωση

αντιμετωπίζεται ξεχωριστά, με αποτέλεσμα ή να θεωρηθούν τα τεκμήρια αυτόνομα

και να τα καταχωρηθούν ξεχωριστά ή να αποφασιστεί η ενιαία καταχώρησή τους.

Εδώ μπορεί να εμφανιστεί το φαινόμενο είτε της ύπαρξης ξεχωριστών εγγραφών για

το κάθε ξεχωριστό μέρος, είτε της ύπαρξης μιας ενιαίας εγγραφής που περιλαμβάνει

μια από τις δημοσιεύσεις και σε ειδικό υποπεδίο αναφέρει όλες τις διαφορετικές

εκτυπώσεις του έργου που δεν θεωρούνται ξεχωριστές εκδόσεις. Για την διάκριση

μεταξύ διαφορετικών εκδόσεων πρωταρχικό ρόλο παίζει ο ορισμός της έννοιας της

έκδοσης.

Ορισμός έκδοσης

Οι απόπειρες της επεξήγησης και διευκρίνησης του όρου έκδοση (edition) είναι

ενδεικτικές της προσπάθειας να συναντηθεί η καταλογογράφηση με τις νέες

τεχνολογικές εξελίξεις που αφορούσαν την μετάβαση από την τύπωση βιβλίων με

25

Page 26: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

μεθόδους στοιχειοθεσίας, στην παραγωγή ποικίλων ειδών τεκμηρίων,

συμπεριλαμβανομένων και των βιβλίων, με άλλους τρόπους και νέες μεθόδους

αντιγραφής (duplication) και αναπαραγωγής (reproduction) που παρουσιάστηκαν τον

20ο αιώνα. Όσον αφορά τον ορισμό του όρου έκδοση (edition), έχουμε τους εξής

ορισμούς κατά χρονολογική σειρά εμφάνισής τους (Yee 1994 ):

Ένας αριθμός αντιγράφων (copies) ενός βιβλίου που δημοσιεύτηκαν μαζί και

στην ίδια μορφή. Μια μεταγενέστερη έκδοση του ίδιου βιβλίου χωρίς

αλλαγές, μερικές φορές ορίζει διαφορετική έκδοση, άλλες πάλι διαφορετική

κυκλοφορία ή διαφορετική χιλιάδα (Cutter 1904).

Το σύνολο του αριθμού των αντιγράφων που είναι τυπωμένα με την ίδια

στοιχειοθεσία (ALA 1941).

Όλα τα αντίγραφα μιας έκδοσης που εκτυπώθηκαν με μία στοιχειοθεσία ή

παράχθηκαν από ένα κύριο αντίγραφο (master copy) και κυκλοφόρησαν από

έναν εκδότη ή ομάδα εκδοτών. (Μια έκδοση μπορεί να περιλαμβάνει πολλές

εκτυπώσεις ή κυκλοφορίες, οι οποίες μπορεί να έχουν ελαφρές διαφορές)

(IFLA Committee on Cataloguing 1974).

Άλλες ερμηνείες που υιοθετεί η IFLA (International Federation of Library

Associations and Institutions) στο IFLA Multilingual Dictionary of Cataloguing

Terms and Concepts είναι οι εξής:2

● Όλα τα αντίγραφα που παράγονται ουσιαστικά από τον ίδιο τύπο εικόνας (με

άμεσο τρόπο ή με φωτογραφικές ή άλλες μεθόδους) και που εκδίδονται από

την ίδια οντότητα (πηγή: AACR2 1988).

2 IFLA Multilingual Dictionary of Cataloguing Terms and Concepts [Διαθέσιμο από http :// subito . biblio . etc . tu - bs . de / muldicat / page . php ? urG = ENT & urS = edition ) (Ημερομηνία πρόσβασης: 17/12/2004)]

26

Page 27: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

● Όλα τα αντίγραφα που ενσωματώνουν ουσιαστικά το ίδιο περιεχόμενο και

που εκδίδονται από την ίδια οντότητα (πηγή: AACR2 1988).

● Όλα τα αντίγραφα μιας δημοσίευσης που παράγονται ουσιαστικά από την ίδια

αρχική καταχώρηση και που εκδίδονται από την ίδια οντότητα ή ομάδα

οντοτήτων ή ένα πρόσωπο, με άμεσο τρόπο είτε με φωτογραφικές ή άλλες

μεθόδους (πηγή: ISBD-M 2002).

● Όλα τα αντίγραφα ενός βιβλιογραφικού πόρου που παράγεται ουσιαστικά

από την ίδια αρχική καταχώρηση και που εκδίδονται από την ίδια οντότητα ή

ομάδα οντοτήτων ή ένα πρόσωπο, με άμεσο τρόπο είτε με φωτογραφικές ή

άλλες μεθόδους (πηγή: ISBD-CR 2002).

● Όλα τα αντίγραφα ενός πόρου που παράγονται ουσιαστικά από το ίδιο

πρότυπο και που δημοσιεύονται ή εκδίδονται από μια συγκεκριμένη οντότητα

ή ομάδα οντοτήτων. Μια έκδοση μπορεί να προσδιοριστεί από μια δήλωση

έκδοσης στον πόρο ή μπορεί να προκύψει από τον καταλογογράφο λόγω της

παρουσίας σημαντικών διαφορών στο περιεχόμενο ή από πληροφορίες που

παρέχονται από τον εκδότη (πηγή: ISBD-ER 2002).

Αυτές οι προσπάθειες ορισμού του τι συνιστά μια έκδοση, οδηγούν παράλληλα

στον ανάλογο επαναπροσδιορισμό της έννοιας της διπλής εγγραφής. Από τις

αλλεπάλληλες αυτές προσπάθειες ορισμού της έννοιας της έκδοσης και μόνο,

εξάγουμε το συμπέρασμα πως ο ορισμός της διαδραματίζει πρωταρχικό ρόλο και

αποτελεί το σημαντικότερο παράγοντα δημιουργίας διπλών εγγραφών εκ μέρους των

καταλογογράφων. Παρακάτω αναφέρουμε κατά χρονολογική σειρά όλες τις φάσεις

της τυπογραφίας, η γνώση των οποίων μπορεί να οδηγήσει με μεγαλύτερη ασφάλεια

στον καθορισμό μιας διαφορετικής έκδοσης.

27

Page 28: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Ιστορική και τρέχουσα πρακτική για τη διάκριση μεταξύ εκδόσεων

Οι Jones και Kasnter (1983), μελετώντας συγκριτικά τις βάσεις του OCLC και

του RLIN, δίνουν έμφαση στο πρόβλημα που αντιμετωπίζουν οι καταλογογράφοι,

στη διάκριση μεταξύ εκτυπώσεων/τυπωμάτων (printings) και εκδόσεων (editions)

ενός συγκεκριμένου μονογραφικού τίτλου. Διαπίστωσαν πως αποτελεί την κύρια

αιτία παρουσίας διπλών εγγραφών, γεγονός που το αποδίδουν στον τρόπο εφαρμογής

και ερμηνείας των κανόνων καταλογογράφησης. Θεωρούν πως η κατανόηση αυτών

των στοιχείων θα βοηθήσει τους καταλογογράφους να πετύχουν συνέπεια και

ακρίβεια στη δημιουργία και επεξεργασία βιβλιογραφικών εγγραφών σε τοπικό,

εθνικό και διεθνές επίπεδο. Προσεγγίζουν το πρόβλημα ιστορικά, αναφέροντας πως

οι εκτυπώσεις και οι εκδόσεις διαφοροποιούνται κυρίως από την περίοδο

δημοσίευσης του έργου, αφού σε κάθε χρονική περίοδο επικρατούν διαφορετικοί

μηχανισμοί στοιχειοθεσίας, εκτύπωσης και εκδοτικής πρακτικής.

Εκδόσεις και εκτυπώσεις

Η κατανόηση της ιστορίας της τεχνολογίας της εκτύπωσης μπορεί να συνεισφέρει

στην ικανότητα του καταλογογράφου να διακρίνει μια «έκδοση» η όποια καθορίζεται

λαμβάνοντας υπόψη το περιεχόμενο του κειμένου και την μορφή της στοιχειοθεσίας.

Η τεχνολογία της εκτύπωσης διαιρείται σε τρεις περιόδους (Jones and Kastner 1983 ):

● Χειροκίνητης εκτυπωτικής μηχανής, 1500-1800. Οι έννοιες «έκδοση» και

«εκτύπωση» ήταν ταυτόσημες, αφού τα τυπογραφικά στοιχεία δεν

διαφυλασσόταν για να επαναχρησιμοποιηθούν σε επόμενες εκτυπώσεις. Κάθε

ακόλουθο τύπωμα σήμαινε επαναστοιχειοθέτηση των τυπογραφικών

στοιχείων και συνιστούσε νέα έκδοση.

28

Page 29: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

● Μηχανικής εκτυπωτικής μηχανής, 1800-1950. Κατά την περίοδο αυτή γινόταν

εκτενείς ανατυπώσεις από σταθερά τυπογραφικά στοιχεία ή

επαναχρησιμοποιούμενες πλάκες, δίνοντας τη δυνατότητα πολλαπλών

στοιχειοθεσιών. Η εφαρμογή αυτής της τεχνολογίας οδήγησε στη διάκριση

των όρων και των διαδικασιών της «έκδοσης» και της «εκτύπωσης».

● Σύγχρονες τεχνολογίες: φωτοστοιχειοθεσία και υπολογιστές. Συνεχίζεται η ίδια

κατάσταση με την προηγούμενη περίοδο και στη φωτοστοιχειοθεσία και στη

σύνθεση κειμένου με υπολογιστή. Μια τυπωμένη εικόνα (image)

μετατρέπεται σε φιλμ ή σε κάποιο ψηφιακό μέσο, αποθηκεύεται και

επαναχρησιμοποιείται. Μια επιπλέον «εκτύπωση» μπορεί να αποτελεί μέρος

μιας «έκδοσης», με εξαίρεση την περίπτωση που έχει επέλθει ουσιαστική

αλλαγή στο περιεχόμενο του κειμένου.

Σύγχρονες τεχνολογίες

Στις σύγχρονες μορφές εκτύπωσης μπορεί και πάλι να εμφανιστεί το ίδιο

πρόβλημα της δυσκολίας της διάκρισης μεταξύ παραλλαγών εκδόσεων. Είναι αρκετά

συνηθισμένο ένα συγκεκριμένο έργο να έχει αντιγραφεί (duplicate) σε έναν αριθμό

διαφορετικών μορφών (forms) (Ayres 1990 ):

● μπορεί να δημοσιευθεί με σκληρό δέσιμο ή χαρτόδετο,

● μπορεί να είναι δημοσιευμένο σε μια χώρα από έναν εκδότη και σε κάποια

άλλη από άλλον εκδότη,

● μπορεί να κυκλοφορήσουν αντίγραφα που είναι μέρος ενός τυπωμένου

τεκμηρίου σε μικροφίλμ, μικροφίς, CD, DVD ή σε αρχείο υπολογιστή και

στην συνέχεια να είναι «σωσμένο» σε πολλά διαφορετικά μορφότυπα (doc,

pdf, jpeg, κτλ).

29

Page 30: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Η αλλαγή που αφορά στη μορφή του κειμένου ή/και στο περιεχόμενό του, είναι

ένα ακόμη κριτήριο διάκρισης μεταξύ «εκτύπωσης» και «έκδοσης». Οι παραλλαγές

στην εξωτερική μορφή δημοσίευσης ενός τεκμηρίου, όπως π.χ. στη βιβλιοδεσία

(χαρτόδετο ή με σκληρά εξώφυλλα), απαιτούν τη λήψη αποφάσεων όσον αφορά το

αν πρόκειται για μια έκδοση ή μια ανατύπωση, αν τα δύο τεκμήρια είναι ταυτόσημα

στο περιεχόμενο και εν τέλει αν μπορεί να χρησιμοποιηθεί η υπάρχουσα εγγραφή

(αυτούσια ή με τις ανάλογες τροποποιήσεις) ή απαιτείται η δημιουργία μιας νέας

εγγραφής. Οι εγγραφές συχνά περιέχουν όλα τα ISBNs που έχουν σχέση με ένα

τεκμήριο, γεγονός που δυσχεραίνει τη διάκριση μεταξύ αυτών με αξιοπιστία,

ιδιαίτερα όταν δεν είναι διαθέσιμη στον καταλογογράφο η μία εκ των δύο εκδόσεων.

Οι τάσεις που επικρατούν στην εκδοτική βιομηχανία έχουν περιπλέξει το

πρόβλημα ακόμη περισσότερο, καθώς έχει γίνει σύνηθες το φαινόμενο της έκδοσης

του ίδιου τεκμηρίου σε πολλές χώρες, με δυσδιάκριτες τις διαφορές του περιεχομένου

του. Ένα βιβλίο μπορεί να τυπωθεί σε μια τρίτη χώρα και να κυκλοφορήσει σε

διάφορες αγγλόφωνες ή γαλλόφωνες χώρες με διαφορετικά εκδοτικά χαρακτηριστικά

(εξώφυλλα, σελίδα τίτλου, στοιχειοθεσία, κτλ), αλλά ακόμη και χρησιμοποιώντας το

τοπικό ιδίωμα της αγγλικής ή της γαλλικής γλώσσας που χρησιμοποιείται στην κάθε

συγκεκριμένη χώρα. Εμφανίζονται ακόμη και εκδόσεις που αποτελούν την λόγια και

την εκλαϊκευμένη εκδοχή του ίδιου και του αυτού περιεχομένου. Ακόμη

περισσότερο, οι δυνατότητες της ηλεκτρονικής έκδοσης, αλλά και οι νέες τεχνολογίες

που εφαρμόζονται στις έντυπες εκδόσεις, οδηγούν στη συνεχή κυκλοφορία

ενημερωμένων εκδόσεων. Οι προσθήκες και αλλαγές που ενσωματώνονται σε κάθε

νέα έντυπη έκδοση ενός τεκμηρίου δεν είναι κάτι ασυνήθιστο.

30

Page 31: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Εκτός από τον ορισμό της έκδοσης ενός τεκμηρίου, άλλα ζητήματα και πεδία της

καταλογογράφησης, ο καθορισμός των οποίων οδηγεί στην δημιουργία διπλών

εγγραφών, με βάση τη σειρά που συναντώνται σε μία βιβλιογραφική εγγραφή της

μορφής ISBD (International Standard Bibliographic Description), είναι οι εξής:

Κύρια πηγή καταλογογράφησης

Η κύρια πηγή καταλογογράφησης είναι η σελίδα τίτλου του τεκμηρίου. Έχουν

διεξαχθεί έρευνες για να διαπιστωθεί εάν οι καταλογογράφοι έχοντας στην διάθεσή

τους πληροφορίες όπως αυτές που περιέχονται στη σελίδα τίτλου, μπορούν να

ορίσουν εάν δύο τεκμήρια αφορούν την ίδια έκδοση. Έρευνα που έγινε το 1946 από

την Βιβλιοθήκη του Κογκρέσου και αφορούσε τη συχνότητα με την οποία μπορούμε

να βασιστούμε στις σελίδες τίτλου και τη σελιδαρίθμηση βιβλίων για να

αποφανθούμε εάν δύο βιβλία αφορούν την ίδια έκδοση, έδειξε πως από τις 49 ομάδες

βιβλίων οι 40 αποτελούσαν κυκλοφορίες (issues), ανατυπώσεις, πανομοιότυπα, ή

αντίτυπα και όχι μια διαφορετική έκδοση με άλλη στοιχειοθεσία (Yee 1994 ).

Ο χρόνος που μπορεί να διαθέσει ένας καταλογογράφος για την εξέταση ενός

τεκμηρίου συνήθως είναι περιορισμένος. Η συνηθισμένη πρακτική που αναφέρεται

ακόμη και από τα πιο έγκυρα εγχειρίδια καταλογογράφησης, κάνει λόγο για το

«τεχνικό διάβασμα». Το τεχνικό διάβασμα συνίσταται στη μελέτη κυρίως της σελίδας

τίτλου και των προκαταρκτικών μιας έκδοσης (πρόλογος, εισαγωγή), των

περιεχομένων και στην ακραία περίπτωση σύντομων εδαφίων του κειμένου. Ακόμη

πιο συνηθισμένη πρακτική στο σύγχρονο περιβάλλον εργασίας, είναι η προσφυγή σε

βάσεις δεδομένων για την ανεύρεση της ίδιας ή παρόμοιων εγγραφών.

31

Page 32: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Συνεξετάζοντας τα δεδομένα της σελίδας τίτλου, της σελιδαρίθμησης και των

διαστάσεων, ο καταλογογράφος αποφασίζει εάν δύο τεκμήρια είναι εκφάνσεις της

ίδιας ή δύο διαφορετικών εκδόσεων. Δυστυχώς όμως, τα δεδομένα της κύριας πηγής

καταλογογράφησης, της σελίδας τίτλου, και των προκαταρκτικών, δεν αποτελούν

πάντα αξιόπιστες πηγές διάκρισης διαφορετικών εκδόσεων. Η σύγκριση των

κειμένων για να διαπιστωθεί η ομοιότητα δύο εγγραφών είναι στην πράξη αδύνατη

και γίνεται ακόμη δυσκολότερη από το γεγονός πως η συγκριτική εξέταση των δύο (ή

περισσότερων) κειμένων δεν είναι πάντα εφικτή.

Λάθη στην κύρια αναγραφή - καθιέρωση ονομάτων

O καθορισμός της κύριας αναγραφής αποτελεί μια από τις σημαντικότερες και

συγχρόνως δυσκολότερες αποφάσεις της καταλογογράφησης. Στις περισσότερες

εγγραφές η κύρια αναγραφή αφορά το όνομα του συγγραφέα. Οι πρακτικές

καταχώρησης της καθιερωμένης μορφής ονομάτων συγγραφέων ή συλλογικών

οργάνων, παρουσιάζουν πολλές παραλλαγές και για το λόγο αυτό αποτελούν μια

ιδιαίτερη πηγή προβλημάτων. Το ίδιο όνομα μπορεί να καταχωρηθεί με πολλούς

τρόπους που εξαρτώνται και από την πηγή από την οποία προέρχονται οι

καθιερώσεις, αλλά και από τις πρακτικές και το επίπεδο ανάλυσης που επιθυμεί η

κάθε βιβλιοθήκη.

Τα ασυνήθιστα ονόματα, επίσης, προκαλούν συχνά προβλήματα, π.χ. ονόματα

που περιέχουν τα «Jr.», «Mac», «Mc», ονόματα με αριθμητικά, π.χ. (Κωνσταντίνος,

VII Πορφυρογέννητος, Αυτοκράτορας του Βυζαντίου, 905-959), ονόματα αγίων

(Γρηγόριος, ο Ναζιανζηνός, Άγιος) και τιτλούχων της εκκλησίας ή του κράτους, αλλά

και οι κύριες αναγραφές-ενιαίοι τίτλοι (Βίβλος. Π. Δ. Ψαλμοί) και τέλος οι

32

Page 33: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

περιπτώσεις που αφορούν συλλογικά όργανα και ονόματα συνεδρίων, όπου το

περιθώριο «αυτοσχεδιασμού» του καταλογογράφου είναι μεγαλύτερο, με αποτέλεσμα

να προκαλούνται ακόμη περισσότερες παραλλαγές.

Μνεία έκδοσης

Οι O ’ Neill και Oskins (1990) διαπίστωσαν πως η μνεία έκδοσης σε συνδυασμό

με άλλα πεδία, ευθύνεται για ένα πολύ μεγάλο ποσοστό διπλών εγγραφών. Στο

Κεφάλαιο 1.3.2.1. αναφέρθηκαν πολλοί ορισμοί που προσπαθούν να αποδώσουν την

έννοια της έκδοσης. Η παρουσία λέξεων όπως, έκδοση, κυκλοφορία, εκδοχή ή

ανατύπωση είναι πολλές φορές ενδεικτική για το ποια πολιτική καταλογογράφησης

θα εφαρμοστεί για το συγκεκριμένο έργο. Οι σχεδόν καθολικά εφαρμοζόμενοι

κανόνες καταλογογράφησης AACR2, δεν είναι σε θέση να δίνουν πάντα την λύση σε

τέτοιου είδους αμφισβητούμενα ζητήματα και προτρέπουν στη διάκριση των

εκδόσεων κάθε φορά που ανακύπτει κάποια αμφιβολία. Αυτό με τη σειρά του, οδηγεί

στη δημιουργία πολλαπλών εγγραφών που περιγράφουν ταυτόσημα τεκμήρια. Για

παράδειγμα οι AACR2 στο γλωσσάριό τους ενώ ορίζουν τον όρο «κυκλοφορία»

(issue) δεν παρέχουν σαφείς οδηγίες για τον χειρισμό της. Στις περιπτώσεις όπως η

παραπάνω, επιστρατεύεται η κρίση και η εμπειρία του καταλογογράφου, για να

αποφασίσει εάν ένα τεκμήριο θα θεωρηθεί κυκλοφορία ή έκδοση (Jones and Kastner

1983).

Εκδοτικός οίκος

Πολλές φορές δύο τεκμήρια μπορεί να ταυτίζονται παρά τις διαφορές που

μπορούν να εμφανίζουν στο όνομα του εκδότη. Είναι συχνό φαινόμενο η ταυτόχρονη

33

Page 34: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

παρουσία παραλλαγών της ονομασίας ενός εκδοτικού οίκου (π.χ. Εστία,

Βιβλιοπωλείον της Εστίας, Ι. Δ. Κολλάρος, Ιωάννης Δ. Κολλάρος & Σία, κτλ). Στις

περιπτώσεις αυτές, οι εγγραφές συνήθως θεωρούνται ταυτόσημες και το μόνο που

απαιτείται είναι η γνώση από τον καταλογογράφο της ύπαρξης των παραλλαγών

αυτών. Όταν όμως δύο τεκμήρια παρουσιάζονται κατά τα άλλα όμοια, αλλά με

εντελώς διαφορετικό τον εκδοτικό οίκο, αυτό είναι μια ένδειξη πως πιθανότατα θα

υπάρχουν και άλλες διαφορές, στη σελιδαρίθμηση, τη στοιχειοθεσία, κτλ. και κατ’

επέκταση ίσως και στο περιεχόμενο. Στην τελευταία περίπτωση το σύνηθες είναι να

μην προχωρά ο καταλογογράφος σε περαιτέρω σύγκριση των τεκμηρίων και να

δημιουργεί δύο διαφορετικές εγγραφές.

Χρονολογία έκδοσης

Στην ίδια έρευνα που αναφέρθηκε παραπάνω, οι O ’ Neill και Oskins (1990)

διαπίστωσαν πως η χρονολογία έκδοσης ευθυνόταν για το 50,7% των διπλών

εγγραφών του δείγματός τους. Η αλλαγή, εκ μέρους των εκδοτών της χρονολογίας

έκδοσης ενός έργου, συνήθως αποτελεί ένδειξη πως το συγκεκριμένο έργο συνεχίζει

να είναι διαθέσιμο στο εμπόριο και ταυτόχρονα ένδειξη της επικαιρότητάς του. Από

την άλλη, οι διαφορές που εμφανίζονται στην παράθεση διαφορετικών χρονολογιών

στο τεκμήριο, π.χ. χρονολογία έκδοσης, χρονολογία copyright και εκτύπωσης,

συνήθως δεν αντανακλούν κάποια πραγματική διαφορά στο περιεχόμενο. Απλώς

είναι μια ακόμη πρακτική που εφαρμόζεται από τους εκδοτικούς οίκους και αφορά

τρόπους προώθησης των εκδόσεών τους και τονισμό της επικαιρότητάς τους (Yee

1994), ακόμη όμως και λόγους που έχουν να κάνουν με πιο «πεζά» ζητήματα, όπως

αυτό της φορολόγησής τους.

34

Page 35: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Οι AACR2 δίνουν τη δυνατότητα στον καταλογογράφο να αγνοήσει την

χρονολογία που παρουσιάζεται στην κύρια πηγή της καταλογογράφησης, τη σελίδα

τίτλου, και να χρησιμοποιήσει κάποια άλλη αναφερόμενη χρονολογία εφόσον κρίνει

ότι αυτή ανταποκρίνεται περισσότερο στο συγκεκριμένο τεκμήριο. Περισσότερα

όμως προβλήματα προκαλούνται από την πρακτική ορισμένων εκδοτικών οίκων να

μην αναγράφουν καμιά χρονολογία στις εκδόσεις τους. Αυτή η πρακτική σε

συνδυασμό με την πιθανή ύπαρξη πολλών διαδοχικών ανατυπώσεων ή εκδόσεων

μπορεί να προκαλέσει αρκετές αμφιβολίες, λάθη και καθυστέρηση στη διαδικασία

της καταλογογράφησης.

Σελιδαρίθμηση

Πολύ συχνά για τη διάκριση των εκδόσεων, η σελιδαρίθμηση αποδεικνύεται πως

αποτελεί πιο αξιόπιστο στοιχείο από ότι η διαφορά που παρουσιάζεται στη σελίδα

τίτλου. Οι μελέτες που διεξήχθησαν έδειξαν πως οι διαφορές που παρουσιάζονται

στην καταχώρηση του αριθμού των σελίδων, όταν κάποια από τα κύρια στοιχεία των

βιβλιογραφικών εγγραφών είναι ταυτόσημα, μπορεί να προέρχονται είτε από λάθος

στην καταχώρηση είτε και από την διαφορετική πρακτική στον τρόπο

καταλογογράφησης. Οι διαφορές στον αριθμό των σελίδων μπορεί σε κάποιες

περιπτώσεις να αποτελέσουν την μοναδική αξιόπιστη πηγή διάκρισης μεταξύ δύο

τεκμηρίων. Αποτελούν μια ασφαλή ένδειξη αλλαγής της στοιχειοθεσίας, η οποία

πιθανά να συνοδεύεται από αλλαγές στο περιεχόμενο του κειμένου. Η

καταλογογράφηση ενός πολύτομου έργου ή ενός έργου που ανήκει σε κάποια σειρά,

είναι μια απόφαση που βασίζεται μεν στους κανόνες καταλογογράφησης αλλά

εμπεριέχει την επιθυμία και την πολιτική της συγκεκριμένης συλλογής. Για ένα

τέτοιο έργο μπορεί να γίνουν εγγραφές ισάριθμες των μερών του ή να αποφασιστεί η

35

Page 36: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

δημιουργία μιας ενιαίας και περιεκτικής εγγραφής. Ως αποτέλεσμα των δύο αυτών

διαφορετικών αποφάσεων στο πεδίο της σελιδαρίθμησης, καταχωρούνται είτε ο

αριθμός των σελίδων του μεμονωμένου τόμου, είτε το σύνολο των σελίδων όλων των

τόμων (σε περίπτωση που υπάρχει συνεχόμενη αρίθμηση) είτε και ο αριθμός των

τόμων.

Πεδία σημειώσεων

Σε μερικές περιπτώσεις ο μόνος τρόπος διάκρισης μεταξύ δύο παρόμοιων

τεκμηρίων είναι η χρήση της περιοχής των σημειώσεων της βιβλιογραφικής

εγγραφής. Όταν αναφερόμαστε στο μορφότυπο MARC21, αυτή η περιοχή αντιστοιχεί

στα πεδία 5XX. Επειδή οι σημειώσεις καταχωρούνται σε ελεύθερο κείμενο, η

χρησιμότητά τους στην ανίχνευση διπλών εγγραφών είναι γενικά περιορισμένη.

Ακόμη όμως και στις περιπτώσεις που ακολουθείται κάποια σχετική ομοιομορφία

(π.χ. πεδίο βιβλιογραφίας 504: Includes bibliographical references) αυτή δεν τηρείται

με αυστηρότητα όπως σε άλλα πεδία. Για το λόγο αυτό τα πεδία σημειώσεων δεν

θεωρούνται ως προϋπόθεση για την θετική αξιολόγηση της ποιότητας των εγγραφών.

Το πεδίο περιεχομένων δημιουργεί ιδιαίτερα προβλήματα. Η εγγραφή μιας

βιβλιοθήκης μπορεί να έχει καταχωρημένα στο πεδίο αυτό τα δεδομένα

συγγραφέα/τίτλου για το σύνολο των μερών ενός πολύτομου έργου, ενώ κάποια άλλη

να έχει καταγράψει μόνο ένα μέρος των τόμων αυτών. Αν και στο μορφότυπο MARC

υπάρχει μια σειρά από εξειδικευμένα πεδία σημειώσεων, πολλές βιβλιοθήκες

προτιμούν να καταχωρούν όλες τις σημειώσεις στο πεδίο γενικών σημειώσεων, με

αποτέλεσμα να καθίσταται δύσκολος έως αδύνατος ο αυτοματοποιημένος εντοπισμός

των διπλών εγγραφών.

36

Page 37: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Συντμήσεις

Οι συντμήσεις είναι μια ακόμη πηγή προβλημάτων που προκαλούνται από τις

διαφορές στην καταλογογράφηση. Τα ονόματα των περιοδικών, των ονομάτων

συνεδρίων, των δηλώσεων έκδοσης (edition - ed., έκδοση - εκδ., αναθεωρημένη -

αναθ., επαυξημένη - επαυξ., κτλ.), συντμούνται ή περικόπτονται με πολλούς μη

πρότυπους τρόπους. Σε γενικές γραμμές η λύση των προβλημάτων που προκαλούνται

από αυτήν την πηγή, είναι η σταθερότητα στην εφαρμογή προτυποποιημένων

συντμήσεων και αποφυγή από τους καταλογογράφους συντετμημένων πληροφοριών

όταν αυτό δεν επιβάλλεται από τις ίδιες τις πληροφορίες του τεκμηρίου.

Από όλα όσα εξετάσαμε και διαπιστώσαμε έως εδώ, βλέπουμε πως αποτελεί

ευθύνη του καταλογογράφου να διακρίνει εάν η διαφορά μεταξύ «εκτύπωσης» και

«έκδοσης» είναι σημαντική. Ταυτόχρονα ευθύνη του καταλογογράφου, όταν

πρόκειται να καταλογογραφήσει ένα τεκμήριο για το οποίο έχει βρει μια έτοιμη

εγγραφή, είναι να ερμηνεύσει σωστά όλα τα σημεία της και να αποφασίσει αν η

συγκεκριμένη εγγραφή είναι η κατάλληλη. Τέλος, οφείλει να καταλογογραφήσει το

τεκμήριο σύμφωνα με τη κρίση του αλλά και με τα όσα προβλέπουν οι κανόνες

καταλογογράφησης. Ο συνδυασμός αυτών των παραγόντων στη διαδικασία λήψης

αποφάσεων βοηθά τους καταλογογράφους να πετύχουν ακρίβεια και συνέπεια στη

δημιουργία των βιβλιογραφικών εγγραφών και ωθούν τα τμήματα

καταλογογράφησης να καθιερώσουν σαφείς οδηγίες για να βοηθήσουν το προσωπικό

να διακρίνει, όσο το δυνατόν περισσότερο, μεταξύ των εκδόσεων, των εκτυπώσεων,

των ανατυπώσεων, κτλ. (Jones and Kastner 1983 ).

37

Page 38: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

1.3.3. Απροσεξίες καταχώρησης

Εκτός από τις ασυνέπειες στην καταλογογράφηση που οφείλονται σε λάθη

ερμηνείας, ένας άλλος παράγοντας που οδηγεί στη δημιουργία διπλών εγγραφών,

είναι η παράληψη καταχώρησης των βιβλιογραφικών πληροφοριών του τεκμηρίου ή

τα λάθη που δημιουργούνται κατά την καταχώρηση των πληροφοριών στο σύστημα.

Παράλειψη πληροφοριών

Οι ελλιπείς, οι μη ολοκληρωμένες και οι ανακριβείς πληροφορίες αποτελούν έναν

ακόμη βασικό παράγοντα δημιουργίας διπλών εγγραφών. Έχουν ως αποτέλεσμα την

αποτυχία εντοπισμού μιας συγκεκριμένης εγγραφής, που με τη σειρά της οδηγεί στην

επανακαταχώρησή της σε μια βάση. Η ανάλυση των διπλών εγγραφών που έκαναν οι

O ’ Neill , Rogers και Oskins στην βάση του OCLC (1993), έδειξε πως τα στοιχεία που

συχνότερα παραλείπονται είναι οι πληροφορίες στην περιοχή του τίτλου, της μνείας

ευθύνης, των πρόσθετων αναγραφών συγγραφέων και των εκδοτών όταν είναι

περισσότεροι από ένας. Παρατηρούν πως η παράληψη αυτών των πληροφοριών, δεν

σημαίνει πως δεν ήταν διαθέσιμες στο τεκμήριο. Υπάρχουν όμως περιπτώσεις - κι

εδώ πάλι εμφανίζεται ο ρόλος της πολιτικής και των πρακτικών που ακολουθούνται

από τη βιβλιοθήκη - που οδηγούν στην καταγραφή μόνο όσων στοιχείων θεωρούνται

αναγκαία σε τοπικό επίπεδο. Σε άλλες πάλι περιπτώσεις προέρχονται αποκλειστικά

και μόνο από τον τρόπο εργασίας του καταλογογράφου. Κάποιοι θεωρούν πως δεν

είναι αναγκαίο να καταγράφεται η παραμικρή λεπτομέρεια του τεκμηρίου, ενώ άλλοι

προτιμούν την καταγραφή όλων των πληροφοριών που είναι διαθέσιμες.

38

Page 39: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Λάθη καταχώρησης

Αυτό το είδος των λαθών δημιουργείται κατά την καταχώρηση των

βιβλιογραφικών δεδομένων στην εγγραφή. Τα ορθογραφικά και τα τυπογραφικά λάθη

αποτελούν μια κατά βάση ακούσια και ευεξήγητη περίπτωση. Τα λάθη μεταγραφής

(transcription errors), το λανθασμένο γράψιμο (misspelling) και τα τυπογραφικά

λάθη, είναι συνηθισμένα. Συμπεριλαμβάνουν λάθη όπως, διαφορές στα κεφαλαία

γράμματα, στα διαστήματα, στη στίξη και στα διακριτικά σημάδια. Αν και εκ πρώτης

όψεως δεν φαίνονται ιδιαίτερα σημαντικά, εν τούτοις, δεν πρέπει να ξεχνάμε ότι η

χρήση και η «ερμηνεία» τους γίνεται από ένα μηχάνημα, γεγονός που σημαίνει πως

δημιουργούν πρόβλημα στην ανάκτηση, αφού στις περισσότερες εφαρμογές είναι

δύσκολη η παράβλεψή τους από τον υπολογιστή. Τα περισσότερα από τα λάθη αυτά

είναι διαφορές ενός χαρακτήρα, π.χ.

● αντικατάσταση γραμμάτων (“c” αντί του “s”),

● προσθήκη επιπλέον γραμμάτων (Macmillian αντί Macmillan),

● ελλιπείς τίτλοι (παράληψη κάποιων λέξεων)

Έχει παρατηρηθεί πως ο αριθμός τους είναι ανάλογος του μήκους του πεδίου.

Έτσι τα περισσότερα λάθη εμφανίζονται στα πεδία του συγγραφέα, του τίτλου, και

του εκδότη (O ’ Neill , Rogers and Oskins 1993 ).

1.3.4. Λάθη σύνταξης μορφοτύπου MARC

Ο τελευταίος παράγοντας στον οποίον μπορεί να οφείλεται η δημιουργία διπλών

εγγραφών είναι τα λάθη που οφείλονται στον χειρισμό του μορφοτύπου MARC. Είναι

τα λάθη που οφείλονται στην σύνταξή του και την ασυνέπεια στην καταχώρηση

μεταξύ των πεδίων σταθερού και μεταβλητού μήκους του. Οι πληροφορίες που

39

Page 40: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

περιέχει μία βιβλιογραφική εγγραφή καταχωρούνται σε πεδία το μήκος των οποίων

είναι μεταβλητό (variable fields). Στα πεδία αυτά καταχωρούνται όλες οι

βιβλιογραφικές πληροφορίες ενός τεκμηρίου με τον τρόπο που ορίζεται από τους

AACR2, ανεξάρτητα από το μέγεθος που αυτές καταλαμβάνουν. Τα πεδία σταθερού

μήκους (fixed fields) περιέχουν στοιχεία καθορισμένα κατά θέση και δηλώνουν

κωδικοποιημένες πληροφορίες σχετικά με ολόκληρη την εγγραφή ή σχετικά με

ειδικές εκδοχές των περιοχών μιας βιβλιογραφικής εγγραφής.3

Λανθασμένοι κωδικοί πεδίων και υποπεδίων

Το είδος αυτό των λαθών αφορά την τοποθέτηση πληροφοριών σε λανθασμένο

πεδίο (tag) ή υποπεδίο (subfield) μια βιβλιογραφικής εγγραφής και όχι στα

προοριζόμενα για αυτές πεδία και υποπεδία, καθώς και στην έλλειψη ή λανθασμένη

χρήση των δεικτών (indicators) του μορφοτύπου (format) MARC. Αυτά τα λάθη

εμπίπτουν στην κατηγορία των λαθών απροσεξίας και παράβλεψης. Μπορούν να

παρουσιαστούν στις εξής περιπτώσεις, όσον αφορά συγκεκριμένα το μορφότυπο

MARC21 (O ’ Neill , Rogers and Oskins 1993 ):

● ένας συγγραφέας που αποτελεί το θέμα του τεκμηρίου και καταχωρείται αντί

του πεδίου 600 (θέμα - όνομα φυσικού προσώπου), στο πεδίο 700 (πρόσθετη

αναγραφή φυσικό πρόσωπο)

● μνεία ευθύνης, αντί του υποπεδίου #c του πεδίου 245, καταχωρείται στο

υποπεδίο #b ως υπότιτλος, και

● εκδότης, αντί του υποπεδίου #b του πεδίου 260, καταχωρείται στο υποπεδίο

#a ως τόπος έκδοσης, κτλ

3 Furrie, Betty (2000) Understanding MARC Bibliographic: Machine-Readable Cataloging [Διαθέσιμο από http://www.loc.gov/marc/umb/ (Ημερομηνία πρόσβασης: 28/3/2005)]

40

Page 41: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Στην κατηγορία αυτή ανήκουν και τα λάθη που εμφανίζονται στους δείκτες

ταξιθέτησης. Οι δείκτες ταξιθέτησης, στην περίπτωση των εγγραφών MARC21,

ιδιαίτερα στο πεδίο 245 (πεδίο τίτλου) είναι αυτοί που ορίζουν τον αριθμό των

αρχικών χαρακτήρων που δεν λαμβάνονται υπόψη στην ταξιθέτηση (ή αλλιώς δεν

λαμβάνονται υπόψη στον ευρετηριασμό που κάνει το πρόγραμμα του υπολογιστή).

Στο MARC21 υπάρχουν έντεκα διαφορετικά πεδία στα οποία ο πρώτος ή ο δεύτερος

δείκτης ορίζει τη λέξη με βάση την οποία το λογισμικό θα προβεί στον ευρετηριασμό.

Αυτά τα πεδία είναι τα: 130, 240, 243, 245, 440, 630, 730, 740, 830, 840, 873.

Αποτελεί συχνό φαινόμενο η έλλειψη αυτών των δεικτών από τις εγγραφές ή η

λανθασμένη χρήση τους. Το αποτέλεσμά τους είναι η αδυναμία εντοπισμού των

σχετικών τεκμηρίων σε μια βάση και η καταχώρηση διπλών εγγραφών.

Ασυνέπειες μεταξύ των πεδίων σταθερού και μεταβλητού μήκους

Τα πεδία σταθερού μήκους στις εγγραφές MARC δεν περιέχουν πληροφορίες που

παράγονται απευθείας από το τεκμήριο, αλλά περιέχουν πληροφορίες που

κωδικοποιούν το σύνολο της καταλογογραφημένης βιβλιογραφικής εγγραφής. Για το

λόγο αυτό πολύ συχνά είτε περιέχουν αντικρουόμενες πληροφορίες, είτε παραμένουν

κενοί. Αντικρουόμενες πληροφορίες μπορούν να υφίστανται όταν π.χ. το τεκμήριο

που καταγράφεται είναι μικροφίλμ και στο πεδίο σταθερού μήκους καταχωρείται ως

έντυπο, ή ακόμη πιο συχνά η χρονολογία έκδοσης του τεκμηρίου παρουσιάζεται

διαφορετική από αυτή που είναι καταχωρημένη στο πεδίο μεταβλητού μήκους. Τα

λάθη αυτού του είδους εμπίπτουν στην κατηγορία των ασυνεπειών στην καταχώρηση

των εγγραφών.

41

Page 42: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Οι βιβλιοθήκες που καταλογογραφούσαν με βάση το OCLC κατά τη διάρκεια της

δεκαετίας του ‘70 διαπίστωσαν πως η ίδια εγγραφή έχει χρησιμοποιηθεί εκατοντάδες

φορές. Πριν από την ύπαρξη διαφορετικών βιβλιογραφικών μορφοτύπων για τα

περιοδικά, τα οπτικοακουστικά μέσα, τα χειρόγραφα, κτλ, οι βιβλιοθήκες

καταχωρούσαν αυτά τα τεκμήρια χρησιμοποιώντας μια ενιαία βιβλιογραφική

εγγραφή που επεξεργαζόταν επαναλαμβανόμενα, με αποτέλεσμα πολύ συχνά να μην

καταγράφεται στα πεδία σταθερού μήκους η διαφορά στη μορφή του τεκμηρίου.

Στην έρευνα που έγινε αργότερα στον Online Union Catalog του OCLC από τους

O ’ Neill , Rogers και Oskins (1993) διαπιστώθηκε πως η πιο συνηθισμένη ασυνέπεια

στη μορφή του κωδικού αναπαραγωγής του πεδίου σταθερού μήκους των πιθανών

διπλών εγγραφών, άφηνε τον αντίστοιχο κωδικό κενό ακόμη και όταν υπήρχε καθαρή

ένδειξη στα πεδία μεταβλητού μήκους πως η μονογραφία ήταν σε microform.

42

Page 43: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ:

ΔΙΑΔΙΚΑΣΙΕΣ ΕΝΤΟΠΙΣΜΟΥ ΔΙΠΛΩΝ ΕΓΓΡΑΦΩΝ

2. Αλγόριθμοι ταυτοποίησης εγγραφών

Το πρόβλημα της εμφάνισης διπλών εγγραφών γίνεται όλο και πιο σημαντικό στα

δικτυωμένα περιβάλλοντα, καθώς αυξάνεται το μέγεθος των μεμονωμένων βάσεων

και δημιουργούνται νέα συνεργατικά σχήματα ή κοινοπραξίες. Η μείωση των διπλών

εγγραφών (καθώς και των υπαρχόντων τους) απαιτεί την ανάπτυξη τεχνικών για τον

περιορισμό τους. Για να επιτευχθεί αυτό, δημιουργούνται λογισμικά που υλοποιούν

ειδικούς αλγορίθμους εντοπισμού και συγχώνευσης εγγραφών.

Αλγόριθμος είναι μια λογική διαδικασία, μια σειρά κανόνων ή βημάτων που

εφαρμόζεται για την επίλυση προβλημάτων σύμφωνα με καθορισμένους κανόνες. Οι

αλγόριθμοι ταυτοποίησης/ταιριάσματος εγγραφών (record matching algorithms) είναι

προγράμματα που χρησιμοποιούνται για τη διατήρηση της ακεραιότητας των

βιβλιογραφικών βάσεων, είτε σ’ αυτές καταχωρούνται εγγραφές που προέρχονται

από την ίδια πηγή καταλογογράφησης, είτε συγκεντρώνουν μεγάλους αριθμούς

εγγραφών από πολλές διαφορετικές πηγές. Ο αρχικός στόχος ενός τέτοιου

αλγορίθμου είναι ο προσδιορισμός των διπλών εγγραφών, αυτών δηλαδή που

αντιπροσωπεύουν το ίδιο τεκμήριο (Yee 1994 ).

Η ύπαρξη εγγραφών που να είναι απόλυτα ταυτόσημες, αν και δεν αποτελεί ένα

ιδιαίτερα συχνό φαινόμενο, οφείλεται συνήθως σε αβλεψία του καταλογογράφου

43

Page 44: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

κατά την καταχώρηση μιας νέας εγγραφής στη βάση. Ο καταλογογράφος δεν αναζητά

με τα κατάλληλα κριτήρια το νεοεισερχόμενο τεκμήριο, με αποτέλεσμα την

επανακαταχώρησή του. Ο εντοπισμός απόλυτα ταυτόσημων εγγραφών, είναι ένα

πρόβλημα που μπορεί να λυθεί σχετικά εύκολα. Σύμφωνα με τον Hunstad (1988 :

246) θα ήταν αρκετά εύκολη η δημιουργία μιας διαδικασίας η οποία ταυτοποιεί δύο

βιβλιογραφικές περιγραφές byte προς byte, που θεωρούνται ίδιες, αν υποθέσουμε ότι

όλα τα bytes ταιριάζουν και σε αριθμό και σε είδος, έτσι ώστε να θεωρούνται

διαφορετικές όταν υπάρχει έστω και κάποια μικρή διαφορά. Ακόμη όμως και έτσι,

δεν θα λυνόταν το πραγματικό πρόβλημα. Αυτό που είναι δύσκολο να αντιμετωπιστεί

είναι οι εγγραφές που είναι παρόμοιες, χωρίς να είναι ταυτόσημες.

2.1. Χειρισμός διπλών εγγραφών

Μια απόφαση που πρέπει να ληφθεί στο σχεδιασμό ενός αλγορίθμου εντοπισμού

διπλών εγγραφών, αφορά την τύχη των εγγραφών που τελικά θα θεωρηθούν διπλές.

Αρχικά, παρουσιάζονται τρεις βασικές πρακτικές (Toney 1992 ):

● Μια αναγραφή επιλέγεται ως η κύρια (master record) και οι άλλες

διαγράφονται.

● Μια εγγραφή επιλέγεται ως η κύρια και τα πεδία των διπλών εγγραφών που

διαφέρουν, προστίθενται σ’ αυτή (συγχώνευση).

● Όλες οι εγγραφές κρατούνται, αλλά ομαδοποιούνται (clustered) με μια κύρια

εγγραφή.

Στις τρεις παραπάνω πρακτικές μπορούμε να προσθέσουμε και άλλες παρόμοιες,

όπως για παράδειγμα: α) τη διατήρηση της εγγραφής που καταχωρήθηκε πρώτη και

την απόρριψη των πιο πρόσφατων β) τη διατήρηση της πιο πρόσφατης εγγραφής και

44

Page 45: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

την απόρριψη των προηγούμενων και, γ) τη διατήρηση είτε της πρώτης είτε της πιο

πρόσφατης εγγραφής και τη συγχώνευση των πληροφοριών των άλλων εγγραφών.4

Διαπιστώνουμε πως όταν υφίσταται πραγματική ενοποίηση εγγραφών κατά τον

χρόνο της φόρτωσής τους σε μια βάση, η συγχώνευση των πεδίων από διαφορετικές

πηγές σημαίνει πως, για παράδειγμα, μια εγγραφή που αρχικά δεν είχε καμία

θεματική επικεφαλίδα, μπορεί να αποκτήσει τα δεδομένα αυτά από την εγγραφή με

την οποία θα ενοποιηθεί. Έτσι αυξάνονται τα σημεία πρόσβασής της, με συνέπεια να

βελτιώνεται η δυνατότητα του χρήστη ως προς την ανάκτηση.

Από τη μελέτη των αλγορίθμων βλέπουμε πως στα παραπάνω έχει ήδη προστεθεί

και μία τέταρτη πολύ ενδιαφέρουσα επιλογή. Αυτή της συγχώνευσης των διπλών

εγγραφών μόνο κατά τη διάρκεια της διαδικασίας αναζήτησης ή ανάκτησης (on the

fly). Στην περίπτωση αυτή, στην εγγραφή που βρίσκεται αποθηκευμένη στη βάση δεν

γίνεται καμιά επέμβαση ή αλλαγή. Ούτε συγχωνεύεται, ούτε προστίθενται σ’ αυτήν

πεδία από τις όμοιες εγγραφές. Η συγχώνευση γίνεται στιγμιαία και «εικονικά» μόνο

προς χάριν της εμφάνισης μίας μοναδικής εγγραφής στην οθόνη του χρήστη.

Τους αλγορίθμους εντοπισμού και συγχώνευσης διπλών εγγραφών, έως ένα

σημείο μπορούμε να τους θεωρήσουμε κοινούς. Η διαδικασία εντοπισμού διπλών

εγγραφών έχει ως στόχο την ενοποίηση/συγχώνευσή τους ή τη διαγραφή τους.

Πολλές διαδικασίες συγχώνευσης χρησιμοποιούν έναν αλγόριθμο για τον εντοπισμό

των διπλών εγγραφών και εν συνεχεία ορίζουν τα κριτήρια ενοποίησής τους, ώστε να

ολοκληρωθεί ο στόχος του καθαρισμού της βάσης. Στην εργασία αυτή θα

αναφερθούμε μεν στους αλγόριθμους εντοπισμού διπλών εγγραφών, αλλά όπου 4 LTI, Inc, www . librarytech . com (Ημερομηνία πρόσβασης: 8/1/2005)

45

Page 46: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

κριθεί απαραίτητο, θα παραθέτουμε στοιχεία που αφορούν και τη διαχείριση των

διπλών/πολλαπλών εγγραφών μετά τον εντοπισμό τους.

2.2. Σχεδιασμός εντοπισμού και αφαίρεσης διπλών εγγραφών

Ο σχεδιασμός κάθε διαδικασίας εντοπισμού και αφαίρεσης διπλών εγγραφών από

μια βάση, πρέπει κατά σειρά προτεραιότητας να λαμβάνει υπόψη του τα εξής

ζητήματα:

2.2.1. Στόχος σχεδιασμού

Αρχικά πρέπει να καθοριστεί το είδος ή τα είδη του τεκμηρίων οι εγγραφές των

οποίων θα επεξεργαστούν. Αφού το μεγαλύτερο μέρος του υλικού των συλλογών

αποτελείται από βιβλιακό υλικό και συγκεκριμένα από μονογραφίες, είναι

αναμενόμενο οι περισσότεροι αλγόριθμοι που αναπτύχθηκαν να αφορούν εγγραφές

μονογραφιών. Παρόλα αυτά ένας από τους πρώτους που εμφανίστηκε, αυτός του Oak

Ridge National Laboratory , αποσκοπούσε στον εντοπισμό διπλών εγγραφών άρθρων

περιοδικών. Ακολούθησε η ανάπτυξη και άλλων αλγορίθμων, που εκτός από τις

μονογραφίες, συμπεριελάμβαναν και περιοδικές εκδόσεις. Αρχικά οι προσπάθειες

αυτές, είτε εξαιρούσαν τις εγγραφές πέραν των μονογραφιών και των περιοδικών,

είτε προσπαθούσαν να εφαρμόσουν τον ίδιο αλγόριθμο και για άλλα είδη τεκμηρίων

(χειρόγραφα, χάρτες, κτλ). Αργότερα αναπτύχθηκαν εξειδικευμένοι αλγόριθμοι και

για άλλους τύπους υλικού.

2.2.2. Καθορισμός διπλής εγγραφής

Το πρόβλημα που αντιμετωπίζεται, δεν είναι απλά ο εντοπισμός και κατόπιν η

αφαίρεση ή η συγχώνευση των διπλών εγγραφών. Το κύριο πρόβλημα στη

46

Page 47: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

δημιουργία ενός προγράμματος ελέγχου διπλών εγγραφών, είναι αυτό του

καθορισμού της έννοιας της διπλής εγγραφής, όπως αυτό ορίζεται από τις επιθυμίες

και τις ανάγκες των χρηστών και των ιδιοκτητών της βάσης. Για παράδειγμα, πρέπει

να ληφθούν αποφάσεις για το αν θα θεωρείται πως ταυτίζονται: οι επαναδημοσιεύσεις

και οι ανατυπώσεις με την αρχική έκδοση από την οποία προέρχονται, οι εκδόσεις με

χοντρά εξώφυλλα και οι χαρτόδετες, οι διαδοχικές εκδόσεις ενός έργου, οι

φωτοτυπικές ανατυπώσεις, οι όμοιες εκδόσεις από διαφορετικούς εκδοτικούς οίκους,

οι μονογραφίες που εκδίδονται με ξεχωριστό ISBN αλλά ταυτόχρονα και ως μέρος

μιας σειράς με κοινό ISBN, κτλ. Με δεδομένο πως υπάρχουν απεριόριστες

παραλλαγές στην περιγραφή ενός τεκμηρίου, οι Coyle και Gallaher - Brown (1985: 77)

τονίζουν πως ακόμη και ένας έμπειρος καταλογογράφος δεν μπορεί να δώσει μια

θετική απάντηση για την ομοιότητά τους.

2.2.3. Εφαρμογή διαδικασίας

Πρέπει να υπάρξει καθορισμός για το αν η διαδικασία που θα εφαρμοστεί θα

υλοποιηθεί με αυτοματοποιημένο τρόπο από υπολογιστή, με μη αυτοματοποιημένο

τρόπο από τους καταλογογράφους ή από ένα συνδυασμό τους. Οι υπολογιστές είναι

σε θέση να επεξεργάζονται με ταχύτητα και ακρίβεια μεγάλους αριθμούς εγγραφών.

Οι άνθρωποι είναι σε θέση να αντιλαμβάνονται και να κρίνουν με μεγαλύτερη

ευελιξία τα δεδομένα, αλλά και να ανατρέχουν σε άλλες πηγές αν χρειαστεί, όπως για

παράδειγμα στην εξέταση των ίδιων των τεκμηρίων. Σε κάποιες περιπτώσεις ο

συνδυασμός και των δύο ίσως να αποτελεί την καταλληλότερη λύση. Αυτό

συνεπάγεται τη λήψη απόφασης για το αν η διεργασία θα γίνει εξ’ ολοκλήρου με

αυτοματοποιημένο τρόπο ή αν μετά τον αυτοματοποιημένο έλεγχο, θα ακολουθεί

ανθρώπινη επιμέλεια για να ληφθεί η τελική απόφαση (Lazinger 1994 ). Ο Toney

47

Page 48: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

(1992 : 21) πιστεύει πως είναι αδύνατος ο σχεδιασμός ενός αλγορίθμου ικανού να

εντοπίσει και να αφαιρέσει όλες τις διπλές εγγραφές, χωρίς ταυτόχρονα να κάνει λάθη

που οδηγούν στην αφαίρεση μοναδικών εγγραφών. Για το λόγο αυτό προτείνει τη

μικτή στρατηγική, που συνδυάζει και αυτοματοποιημένες διεργασίες, αλλά και τελική

παρέμβαση των ανθρώπων όταν αυτό απαιτείται.

2.3. Δημιουργία αλγορίθμου ταυτοποίησης

Οι αλγόριθμοι ταυτοποίησης/εντοπισμού διπλών εγγραφών εφαρμόζονται πάντα

σε μια διαδικασία ενός ή δύο βημάτων. Για την εφαρμογή τους όμως, πρέπει να

καθοριστούν αφενός τα πεδία της βιβλιογραφικής εγγραφής από τα οποία θα

εξαχθούν τα στοιχεία που θα χρησιμοποιήσει ο αλγόριθμος για τη δημιουργία των

κλειδιών ταυτοποίησης και αφετέρου ο τρόπος με τον οποίο θα αξιολογείται η

ομοιότητα των εγγραφών.

2.3.1. Βήματα εφαρμογής

Από την μελέτη των αλγορίθμων που παρουσιάζουμε στην εργασία αυτή,

βλέπουμε πως η πιο συχνά ακολουθούμενη πρακτική προσδιορισμού διπλών

εγγραφών, είναι η εκτέλεση του αλγορίθμου σε διαφορετικά βήματα/περάσματα

συγκρίσεων. Μπορεί ο αλγόριθμος να εφαρμόζεται σε ένα ή σε δύο βήματα. Στις

περισσότερες περιπτώσεις ακολουθείται η πρακτική των δύο βημάτων. Το πρώτο

βήμα αφορά τον έλεγχο του συνόλου της βάσης και τη συγκέντρωση των πιθανών

διπλών εγγραφών. Το δεύτερο αφορά τη λεπτομερέστερη εξέταση και αξιολόγησή

τους. Ακολουθεί ένα τελικό βήμα που αφορά τη διαχείριση των εγγραφών που

προσδιορίστηκαν ως διπλές.

48

Page 49: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

2.3.2. Επιλογή πεδίων

Η επιλογή των καταλληλότερων πεδίων που θα χρησιμοποιούνται για τον

προσδιορισμό των διπλών εγγραφών, είναι ένα σημαντικό θέμα για τη δημιουργία

ενός αλγορίθμου. Είναι πολύ σημαντικό να επιλεγούν τα πεδία που παρουσιάζουν

ιδιαίτερη σταθερότητα ανεξάρτητα από το καταλογογράφο ή τη βιβλιοθήκη που τα

δημιουργεί, καθώς τα πεδία των οποίων τα δεδομένα είναι λιγότερο σταθερά

προσφέρουν χαμηλότερη βεβαιότητα στην ταυτοποίηση των εγγραφών (Meir and

Lazinger 1998 ). Η αφαίρεση των διπλών εγγραφών με βάση κάποιον αριθμό ελέγχου

(ISBN, ISSN, LCCN, κτλ.) αποτελεί έναν άριστο τρόπο εντοπισμού των εγγραφών σε

μια βάση. Παρόλα αυτά, οι αριθμοί ελέγχου δεν είναι ικανοί να εξασφαλίσουν τον

πλήρη εντοπισμό των διπλών εγγραφών. Στοιχεία δεδομένων όπως ο συγγραφέας, ο

τίτλος, ο τόπος έκδοσης, ο εκδότης, η χρονολογία έκδοσης και η σελιδαρίθμηση,

αποτελούν τις βασικές πηγές από τις οποίες αντλούνται πληροφορίες για την

ταυτοποίηση βιβλιογραφικών εγγραφών (Coyle 1992 ).

2.3.3. Κλειδιά ταυτοποίησης

Για το λόγο αυτό οι αλγόριθμοι για την ανεύρεση διπλών εγγραφών

χρησιμοποιούν κλειδιά ταυτοποίησης (match keys), δηλαδή κωδικοποιημένες

στοιχειοσειρές (strings) που δημιουργούνται από ένα προεπιλεγμένο πεδίο (ή

συνδυασμό πεδίων) των βιβλιογραφικών εγγραφών. Υπάρχει περίπτωση ένα πεδίο να

εφαρμόζεται ως κλειδί στο σύνολό του (π.χ. το ISBN), να χρησιμοποιείται μόνο ένα

μέρος του (π.χ. κύριος τίτλος), αλλά μπορεί να υπάρξει και η περίπτωση συνδυασμού

των πεδίων ή συγκεκριμένων μερών τους. Πριν εφαρμοστούν τα κλειδιά αυτά,

συνήθως προηγείται η κανονικοποίησή τους (normalization) η οποία αφορά την

αποβολή των κενών διαστημάτων, των σημείων στίξης, κάποιων ειδικών χαρακτήρων

49

Page 50: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

και διακριτικών και πολύ συχνά τη μετατροπή όλων των χαρακτήρων σε κεφαλαία.

Χρησιμοποιείται ακόμη μια ποικιλία τεχνικών για να αντισταθμιστούν οι διαφορές

στο περιεχόμενο των πεδίων (τυπογραφικών λαθών, ελλείψεις των στοιχείων

δεδομένων, παραλείψεις άρθρων, ελαφρές παραλλαγές λέξεων, κτλ.) με τεχνικές

όπως η αποκοπή (truncation), η δημιουργία λέξεων κλειδιών (keywording), ο

κατακερματισμός (hashing), τα Harrison Keys, η Hamming distance, ο Universal

Standard Book Code (USBC), κ.α. (Toney 1992 ).

Ο USBC αποτελεί μια ιδιαίτερη περίπτωση κωδικού που σε πειραματικές έρευνες

έχει χρησιμοποιηθεί ως κλειδί σε αλγορίθμους δύο βημάτων. Είναι ένας κωδικός που

έχει σταθερό μήκος 15 χαρακτήρων (Παράρτημα Β΄, Πίνακας 8). Τέτοιες έρευνες

είναι το τον UKLDS, το DOCMATCH και ιδιαίτερα αυτή του QUALCAT του

University of Bradford, η οποία αφορούσε την εφαρμογή αυτοματοποιημένου

ποιοτικού ελέγχου συγκεντρώνοντας σύνολα πιθανών διπλών εγγραφών που

εμφανίζονται να αναπαριστούν την ίδια μονογραφία.

2.3.4. Αξιολόγηση ταυτοποίησης

Για την αξιολόγηση της ταυτοποίησης των διπλών εγγραφών, εφαρμόζονται δύο

μέθοδοι:

● Σύγκριση πεδίων. Πολλές μεθοδολογίες αξιολόγησης διπλών εγγραφών

βασίζονται σε δυαδικές συγκρίσεις επιλεγμένων πεδίων, δηλαδή το αν τα

πεδία είναι ή δεν είναι ίδια. Το πρόγραμμα χρησιμοποιεί μια ένδειξη του

τύπου ΝΑΙ/ΟΧΙ, Σωστό/Λάθος ή Περνά/Αποτυγχάνει. Στην περίπτωση που

για τη σύγκριση χρησιμοποιείται ένα ολόκληρο πεδίο, η σύγκριση είναι

μεν ασφαλέστερη, η διαδικασία όμως είναι χρονοβόρα. Η μέθοδος αυτή

50

Page 51: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

είναι πολύ αυστηρή και αποτρέπει τον εντοπισμό εγγραφών που

παρουσιάζουν παραλλαγές στην καταλογογράφηση ή λάθη καταχώρησης.

Μπορεί όμως να χρησιμοποιηθεί και σε συνδυασμό με τη μεθοδολογία της

απόδοσης βαθμολογίας, όταν σε κάποιο σημείο της διαδικασίας απαιτείται

μεγαλύτερη ακρίβεια (O ’ Neill and Oskins , 1990 ).

● Βαθμολόγηση. Η δεύτερη τεχνική που εφαρμόζεται είναι αυτή της

ταυτοποίησης στοιχειοσειρών που υπολογίζουν την ομοιότητα αποδίδοντας

κάποια βάρη ή κάποιες τιμές. Οι τιμές αυτές δεν αντικατοπτρίζουν τη

βιβλιογραφική σπουδαιότητα των δεδομένων, αλλά τη χρησιμότητά τους

στην αναγνώριση όμοιων εγγραφών κατά τη διάρκεια της διαδικασίας

ταυτοποίησης, το πόσο πολύ ταιριάζουν και πόσο αποτελεσματικά είναι

στη διάκριση μεταξύ των τεκμηρίων (Coyle 1992 ). Ο αλγόριθμος

ταυτοποίησης επιτρέπει να συγχωνευτούν ή να διαγραφούν οι εγγραφές

μόνο εάν το βαθμολογικό τους αποτέλεσμα αγγίξει κάποια καθορισμένη

τιμή, ένα κατώφλι. Δεν είναι δηλαδή αναγκαίο όλες οι πληροφορίες που

χρησιμοποιούνται να ταυτίζονται απόλυτα. Επειδή η ταυτοποίηση

βασίζεται σε μια σταθμισμένη αξιολόγηση κάθε στοιχείου που

χρησιμοποιείται, μπορεί να θεωρηθεί πως το σύστημα αυτό είναι ανεκτικό

στην παρουσία μικρών διαφορών, όσον αφορά το περιεχόμενο των

πεδίων, τα τυπογραφικά λάθη, την πληρότητα ή την έλλειψη δεδομένων

και τις παραλλαγές στην πρακτική της καταλογογράφησης (Coyle and

Gallaher - Brown 1985 ).

51

Page 52: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

2.4. Προβλήματα αλγορίθμων εντοπισμού και συγχώνευσης εγγραφών

Η πεποίθηση πως μπορεί να υπάρξει ένας συγκεκριμένος αλγόριθμος που η

εφαρμογή του να είναι εξίσου αποτελεσματική για όλες τις βάσεις, είναι αρκετά

ουτοπική. Διαφορετικές τεχνικές μπορούν να είναι αποτελεσματικές σε διαφορετικές

βάσεις. Σε κάθε προσπάθεια ελέγχου διπλών εγγραφών το αποτέλεσμα της

ταυτοποίησης μπορεί να φέρει τα εξής αποτελέσματα:

● Τέλειες/ακριβείς ταυτοποιήσεις (exact matches). Αφορούν εγγραφές που είναι

καθ’ όλα όμοιες.

● Μερικές ταυτοποιήσεις (partial matches). Αφορούν εγγραφές που δεν είναι

απόλυτα ταυτόσημες, αλλά μόνο κατά το ένα μέρος τους. Συνήθως απαιτείται

περαιτέρω εξέτασή τους είτε αυτοματοποιημένη με κάποιο άλλο κλειδί είτε με

μη αυτοματοποιημένο τρόπο από τους καταλογογράφους.

● Λανθασμένες ταυτοποιήσεις (mismatches, false). Ταυτοποιήσεις που έκανε ο

αλγόριθμος οι οποίες στην πραγματικότητα δεν αντιπροσωπεύουν το ίδιο

τεκμήριο.

● Χαμένες ταυτοποιήσεις (missed/undetected matches). Αφορούν το σύνολο

των εγγραφών που περιγράφουν ένα κοινό τεκμήριο, τις οποίες όμως ο

αλγόριθμος απέτυχε να εντοπίσει.

Όσον αφορά τις χαμένες ταυτοποιήσεις, θεωρούνται λιγότερο σημαντικές, αφού

στην περίπτωση αυτή δεν υπάρχει απώλεια καμιάς πληροφορίας. Το πρόβλημα όμως

που προκαλούν, είναι ο περιττός διπλασιασμός των πληροφοριών. Στη βιβλιογραφία

ως σοβαρότερο πρόβλημα αναφέρεται αυτό των λανθασμένων ταυτοποιήσεων, αφού

στην περίπτωση της διαγραφής μη διπλών εγγραφών, έχουμε μόνιμη απώλεια

πληροφοριών οι οποίες δεν είναι δυνατόν να επανακτηθούν (Meir and Lazinger

52

Page 53: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

1998). Σε κάθε αλγόριθμο ενυπάρχει ο κίνδυνος του εντοπισμού και εν τέλει της

αφαίρεσης εγγραφών που στην πραγματικότητα δεν αντιπροσωπεύουν ακριβώς το

ίδιο τεκμήριο. Ο βαθμός τους κατά ένα μεγάλο ποσοστό οφείλεται στη μέθοδο που

ακολουθείται για τον εντοπισμό τους. Είναι απαραίτητο να εφαρμοστεί μια μέθοδος

που να συνδυάζει δύο αντικρουόμενες παραμέτρους. Πρέπει αφενός να είναι μια

μέθοδος χαλαρή (loose method), ώστε να μπορεί να συγκεντρώνει εγγραφές που

παρουσιάζουν κάποιο βαθμό παραλλαγών, χωρίς όμως αυτό να έχει ως αποτέλεσμα

την πιθανή διαγραφή βιβλιογραφικών πληροφοριών. Αφετέρου, πρέπει να είναι μια

μέθοδος αυστηρή (tight method) έτσι ώστε να μπορεί να περιορίζει τη συγκέντρωση

μεγάλων αριθμών πιθανών διπλών εγγραφών και ταυτόχρονα να μην επιτρέπει το

χάσιμο γνήσιων διπλών εγγραφών. Ο βαθμός διατήρησης της ισορροπίας αυτής

αποτελεί ένα από τα κύρια κριτήρια επιτυχίας ενός αλγορίθμου.

53

Page 54: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ:

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΑΛΓΟΡΙΘΜΩΝ

3.1. Τύποι υλικού και κατάσταση λειτουργίας

Στην εργασία αυτή παρουσιάζουμε συνολικά δώδεκα αλγορίθμους. Στους πίνακες

που ακολουθούν στο παρόν κεφάλαιο, γίνεται η συγκεντρωτική παράθεση των

αλγορίθμων τους οποίους τους παρουσιάζουμε με βάση τα βήματα εφαρμογής τους

(ένα ή δύο βήματα). Συνεχίζουμε με τους αλγορίθμους που δεν συγχωνεύουν τις

διπλές εγγραφές, αλλά ομαδοποιούν τις εκδηλώσεις των τεκμηρίων. Τέλος,

παραθέτουμε αυτούς που συγχωνεύουν τις εγγραφές κατά τη διάρκεια της

διαδικασίας (on the fly). Εσωτερικά στην κάθε κατηγορία, τους παραθέτουμε με βάση

τη χρονολογική σειρά της δημιουργίας τους.

Στον Πίνακα 1 παρουσιάζουμε τους αλγορίθμους αυτούς, με βάση τον τύπο των

τεκμηρίων για τα οποία αυτοί δημιουργήθηκαν, εάν δηλαδή αφορούν εντοπισμό

διπλών βιβλιογραφικών εγγραφών μονογραφιών, άρθρων ή άλλου τύπου τεκμηρίων.

Επίσης αναφέρουμε και την κατάσταση λειτουργίας τους. Εάν δηλαδή οι αλγόριθμοι

αυτοί είναι:

● ερευνητικοί: δηλαδή εφαρμόστηκαν μόνο σε περιβάλλον εργαστηρίου χωρίς

ποτέ να τεθούν σε εφαρμογή σε πραγματικό περιβάλλον,

● ανενεργοί: δηλαδή ενώ κάποια στιγμή εφαρμόστηκαν σε πραγματικό

περιβάλλον τώρα πλέον η εφαρμογή τους έχει εγκαταλειφθεί, και τέλος

● ενεργοί: δηλαδή βρίσκονται σε πλήρη εφαρμογή.

54

Page 55: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Τύποι τεκμηρίων Κατάσταση

Μονογραφίες Περιοδικά Άλλα Ερευνητικός Ανενεργός Ενεργός

ALEPH-UMI

ILCSO

Συλλογικός ΑΕΙ-ΤΕΙ

OAK άρθρα

MDBUPD

IUCS

OCLC (Hickey & Rypka)

DDR

Hylton ψηφιακά

τεκμήρια

RLIN

COPAC

MELVYL άρθρα

= ΝΑΙ

Πίνακας 1. Τύποι τεκμηρίων & κατάσταση λειτουργίας.

Οι αλγόριθμοι που εξετάζουμε στα επόμενα κεφάλαια αφορούν βιβλιογραφικές

εγγραφές μονογραφιών και περιοδικών, εκτός από αυτούς του Oak Ridge National

Laboratory ο οποίος αναφέρεται μόνο σε άρθρα περιοδικών, του J. Hylton ο οποίος

αφορά βιβλιογραφικά τεκμήρια ψηφιακών συλλογών και του OCLC (Hickey &

Rypka) που εφαρμόστηκε μόνο σε μονογραφίες. Από τους αλγόριθμους αυτούς οι

ALEPH-UMI, MDBUPD και IUCS εφαρμόζονται και για άλλα είδη τεκμηρίων

(microforms, χάρτες, κτλ), αυτός του MELVYL χειρίζεται εκτός των μονογραφιών

και των περιοδικών και άρθρα περιοδικών, ενώ του RLIN χειρίζεται μονογραφίες,

55

Page 56: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

περιοδικά, χάρτες, ηλεκτρονικές πηγές, ηχογραφήσεις, παρτιτούρες και οπτικό υλικό.

Τέλος, ο αλγόριθμος που θα εφαρμοστεί στον Συλλογικό Κατάλογο των Ελληνικών

ΑΕΙ-ΤΕΙ χειρίζεται όλα τα είδη υλικού εκτός από περιοδικές εκδόσεις.

Όσον αφορά την κατάσταση λειτουργίας των παρουσιαζόμενων αλγορίθμων,

όπως φαίνεται και στον παραπάνω πίνακα, πέντε από τους δώδεκα (41,67%), είναι

ερευνητικοί, δηλαδή εφαρμόστηκαν μόνο σε πειραματικό περιβάλλον, αλλά η

δημιουργία τους έθεσε τις βάσεις για την ανάπτυξη άλλων, πιο εξελιγμένων και

πετυχημένων προσπαθειών (Oak Ridge National Laboratory, MDBUPD και των

Hickey & Rypka του OCLC, αλλά και ο πιο πρόσφατος του J. Hylton).

Έξι από τους δώδεκα αλγορίθμους που παρουσιάζουμε (το 50%), συνεχίζουν να

βρίσκονται και σήμερα σε λειτουργία και είναι οι αλγόριθμοι που εφαρμόζονται στο

ILCSO, το πρόγραμμα DDR του OCLC και οι αλγόριθμοι του RLIN, του COPAC και

του MELVYL. Στην κατηγορία αυτή κατατάσσουμε και τον αλγόριθμος που θα

αρχίσει να εφαρμόζεται σε σύντομο χρονικό διάστημα από το Συλλογικό Κατάλογο

των ελληνικών ακαδημαϊκών βιβλιοθηκών με την αρχική συμμετοχή πέντε

ιδρυμάτων.

Μεταξύ των αλγορίθμων που παρουσιάζουμε, συμπεριλαμβάνεται και ένας ο

οποίος εφαρμόστηκε στον κατάλογο UMI του Ισραηλινού ALEPH (η λειτουργία του

τερματίστηκε το 1998). Αποφασίσαμε να τον συμπεριλάβουμε στην εργασία αυτή,

γιατί αποτελεί μια χαρακτηριστική περίπτωση προγράμματος που εφαρμόστηκε με

βάση την φιλοσοφία «καλύτερα να έχουμε κάτι φθηνό και γρήγορα παρά κάτι ακριβό

που θα καθυστερήσει η εφαρμογή του», αλλά και ταυτόχρονα χωρίς να υπάρχει καμιά

56

Page 57: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ουσιαστική προετοιμασία και συντονισμός μεταξύ των συμμετεχόντων βιβλιοθηκών.

Μια φιλοσοφία δηλαδή, που βρίσκεται πολύ κοντά στην πρακτική που ακολουθείται

πολύ συχνά και στην χώρα μας.

3.2. Διαδικασίες εφαρμογής και αξιολόγησης

Οι αλγόριθμοι αυτοί, εκτός από τη μορφή του υλικού για την οποία

εφαρμόζονται, μπορούμε να τους διακρίνουμε και ανάλογα με τα παρακάτω

χαρακτηριστικά:

● Εφαρμογή. Αναφέρεται στις απαιτούμενες φάσεις εφαρμογής τους, σε ένα ή

δύο βήματα. Τρεις από τους δώδεκα συνολικά αλγορίθμους (το 25%) που θα

παρουσιάσουμε παρακάτω, εφαρμόζονται σε ένα βήμα. Είναι οι αλγόριθμοι

των ALEPH-UMI, του ILCSO και του Συλλογικού Καταλόγου των

Ελληνικών ΑΕΙ-ΤΕΙ. Οι υπόλοιποι οκτώ (το 75%) ακολουθούν την πρακτική

των δύο βημάτων.

● Αξιολόγηση. Αναφέρεται στους ακολουθούμενους τρόπους αξιολόγησης της

ομοιότητάς τους. Εάν δηλαδή, για να αποφασιστεί πότε δύο (ή περισσότερες)

εγγραφές ταυτίζονται, εφαρμόζεται σύγκριση των βιβλιογραφικών πεδίων ή

αποδίδονται κάποια βάρη/βαθμολογία. Έξι από τους αλγόριθμους που

παρουσιάζουμε (δηλαδή το 50% του συνόλου), αυτοί του ALEPH-UMI, ο

Συλλογικός Κατάλογος των Ελληνικών ΑΕΙ-ΤΕΙ, ο MDBUPD, IUCS, Hylton

και RLIN εφαρμόζουν τη σύγκριση πεδίων. Οι υπόλοιποι έξι ακολουθούν

τρόπους απόδοσης βαρών/βαθμολογίας.

57

Page 58: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Στον Πίνακα 2 που ακολουθεί παρουσιάζουμε τον τρόπο εφαρμογής των

αλγορίθμων, σε ένα ή δύο βήματα, καθώς και εάν η εφαρμογή τους γίνεται κατά τη

διαδικασία της αναζήτησης ή ανάκτησης των εγγραφών (on the fly). Επίσης στον

πίνακα αυτόν αναφέρουμε τον τρόπο αξιολόγησης που εφαρμόζεται για να

αποφασιστεί εάν οι εγγραφές αυτές είναι όντως διπλές.

= ΝΑΙ

Πίνακας 2. Εφαρμογή και αξιολόγηση αλγορίθμων.

3.3. Τελικός χειρισμός εγγραφών και χρόνος εκτέλεσης αλγορίθμων

Τελικός χειρισμός Χρόνος εκτέλεσης

Διαγραφή Συγχώνευση Ομαδοποίηση

εκδηλώσεων

Offline Online

Εφαρμογή Αξιολόγηση

Βήματα On the fly Σύγκριση

πεδίων

Βαθμολογία

ALEPH-UMI 1

ILCSO 1

Συλλογικός ΑΕΙ-ΤΕΙ 1

OAK 2

MDBUPD 2

IUCS 2

OCLC (Hickey & Rypka) 2

DDR 2

Hylton 2

RLIN 2

COPAC 2

MELVYL 2

58

Page 59: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ALEPH-UMI

ILCSO

Συλλογικός ΑΕΙ-ΤΕΙ

OAK * * *

MDBUPD

IUCS

OCLC (Hickey & Rypka) * * *

DDR

Hylton

RLIN

COPAC

MELVYL

Επιπλέον, μπορούμε να διακρίνουμε τους αλγόριθμους και ανάλογα με τον τελικό

χειρισμό των εντοπισμένων διπλών εγγραφών που εφαρμόζεται (διαγραφή,

συγχώνευση ή ομαδοποίηση εκδηλώσεων τεκμηρίων), καθώς και τη διαδικασία

εφαρμογής τους (online ή offline), όπως αυτά τα παρουσιάζουμε στον Πίνακα 3 .

= ΝΑΙ, * = Μη διαθέσιμο

Πίνακας 3. Τελικός χειρισμός & χρόνος εκτέλεσης αλγορίθμων.

Τελικός χειρισμός

Εδώ αναφερόμαστε στην τελική φάση της διαδικασίας του εντοπισμού των

διπλών εγγραφών. Η μια μέθοδος που μπορεί να εφαρμοστεί είναι η διαγραφή όλων

των διπλών και η διατήρηση μόνο μίας εξ αυτών και η άλλη η συγχώνευση των

59

Page 60: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

εγγραφών σε μια ενιαία εγγραφή. Η συγχώνευση αυτή μπορεί να είναι φυσική,

δηλαδή να διατηρείται μόνο μια εγγραφή που να συμπεριλαμβάνει όλα τα πεδία από

όλες τις επιμέρους εγγραφές ή μπορεί να είναι εικονική, δηλαδή ουσιαστικά οι

εγγραφές δεν συγχωνεύονται, αλλά παρουσιάζονται «εικονικά» συγχωνευμένες στον

χρήστη κατά τη διάρκεια της διαδικασίας της αναζήτησης ή της ανάκτησης (on the

fly). Τέλος, μπορεί να εφαρμοστεί η ομαδοποίηση των εγγραφών όλων των

τεκμηρίων που αντιπροσωπεύουν ισοδύναμες ή διαφορετικές μορφές/εκδηλώσεις του

ίδιου τεκμηρίου, σε ένα κοινό αρχείο ή «φάκελο».

Για δύο από τους δώδεκα αλγορίθμους (OAK και των Hickey & Rypka του

OCLC) (το 16,67%) δεν υπάρχουν διαθέσιμες πληροφορίες όσον αφορά την πρακτική

που ακολούθησαν στον τελικό χειρισμό των εγγραφών.

Τρία από αυτά τα δώδεκα προγράμματα που παρουσιάζουμε (το 25%)

εφαρμόζουν τη διαγραφή των διπλών εγγραφών. Εξ’ αυτών, τα ILCSO, MDBUPD

και IUCS καταλήγουν στη διαγραφή των «περιττών» και τη διατήρηση μόνο μίας

εγγραφής, ενώ στο ILCSO επιλέγεται και διατηρείται η καταλληλότερη εγγραφή.

Άλλα πέντε (το 41,66%), αυτά του ALEPH-UMI, του Συλλογικού Καταλόγου,

του DDR και μέρος της διαδικασίας του COPAC, καταλήγουν στη συγχώνευση των

διπλών εγγραφών σε μία ενιαία εγγραφή η οποία μπορεί να περιλαμβάνει δεδομένα

από όλα τα πεδία των συγχωνευμένων εγγραφών.

Ο COPAC λόγω της δομής του ακολουθεί δύο πρακτικές. Στο εσωτερικό των δύο

εκ των τριών διαφορετικών ρευμάτων του συγχωνεύει τις εγγραφές (offline). Μεταξύ

60

Page 61: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

των τριών ρευμάτων όμως δεν υπάρχει φυσική συγχώνευση και για το λόγο αυτό

δίνεται η δυνατότητα της παρουσίασης μίας συγχωνευμένης εγγραφής σε πραγματικό

χρόνο κατά τη διάρκεια της αναζήτησης. Στο MELVYL επίσης εφαρμόζει μια

πρακτική συγχώνευσης που δεν οδηγεί στην φυσική συγχώνευση των διπλών

εγγραφών. Δημιουργείται ένας πίνακας διπλών εγγραφών κατά τη διάρκεια της

φόρτωσής τους (offline), με αποτέλεσμα την online παρουσίαση των

«συγχωνευμένων» εγγραφών κατά τη διάρκεια της ανάκτησης.

Τέλος, δύο από τα προγράμματα (το 16,67%), του Hylton και του RLIN, ούτε

διαγράφουν ούτε συγχωνεύουν τις εγγραφές, αλλά ομαδοποιούν όλες τις εγγραφές

των εκδηλώσεων ενός τεκμηρίου σε ένα κοινό αρχείο ή «φάκελο».

Χρόνος εκτέλεσης

Αναφερόμαστε στην offline ή online διεξαγωγή της διαδικασίας. Το σύνολο των

αλγορίθμων «τρέχουν» offline (επεξεργασία δέσμης/batch mode), είτε κατά τη

διάρκεια της νύχτας κάθε 24ώρου, είτε σε τακτά χρονικά διαστήματα. Μόνο τρεις εξ’

αυτών (το 25%) έχουν την δυνατότητα να εφαρμόσουν και online διαδικασίες, αυτός

των Hickey & Rypka του OCLC που ήταν σχεδιασμένος να τρέχει και με τους δύο

τρόπους, του DDR του OCLC που είναι σχεδιασμένος να εφαρμόζεται επίσης και με

τους δύο τρόπους αλλά προτιμάται η offline διαδικασία και τέλος του COPAC που

μέρος της εφαρμοζόμενης διαδικασίας είναι offline και ένα άλλο μέρος της online. Ο

όρος «online» χρησιμοποιείται με την έννοια της εφαρμογής σε πραγματικό χρόνο

(real time).

61

Page 62: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

3.4. Πεδία που χρησιμοποιούνται για τη δημιουργία κλειδιών (μονογραφίες)

Ένα ακόμη σημαντικό χαρακτηριστικό των αλγορίθμων είναι τα δεδομένα

των πεδίων που χρησιμοποιούνται για τη δημιουργία των κλειδιών σύγκρισης. Στους

Πίνακες 4 και 5 που ακολουθούν, παρουσιάζουμε τα πεδία οι πληροφορίες των

οποίων χρησιμοποιούνται στα δώδεκα προγράμματα που παρουσιάζονται στην

εργασία αυτή, ενώ στο Παράρτημα Β’ παρουσιάζουμε με όλες τις διαθέσιμες

λεπτομέρειες, τα πεδία τα οποία χρησιμοποιούν οι παρουσιαζόμενοι αλγόριθμοι.

Στον Πίνακα 4 αναφέρουμε με λεπτομέρεια όλα τα πεδία που χρησιμοποιούνται

για τον εντοπισμό διπλών βιβλιογραφικών εγγραφών που αφορούν μονογραφίες, τα

οποία τα παραθέτουμε ταξινομημένα ως προς τον αριθμό του κωδικού πεδίου του

MARC21. Χρησιμοποιούμε τη σειρά αυτή, αφού οι εγγραφές των περισσότερων από

τα παρουσιαζόμενα προγράμματα χρησιμοποιούν εγγραφές αυτού το μορφοτύπου.

62

Page 63: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Πεδία ALEPH-UMI ILCSO Συλλογικός OAK MDBUPD IUCS Hickey & Rypka DDR Hylton RLIN COPAC MELVYL

Τύπος τεκμηρίου (leader)

Βιβλιογραφικό επίπεδο (leader)

Κωδικός Αναπαραγωγής (008)

Χώρας έκδοσης (008)

Γλώσσα (008)

LCCN (010)

ISBN (020)

ISSN (022)

CODEN (030)

Αριθμός ελέγχου (035 ή 001)

Πηγή καταλογογράφησης (040)

Government Document (086)

Συγγραφέας (1ΧΧ, 7XX)

Τίτλος (24Χ)

Μνεία ευθύνης (245)

Τόμος/μέρος (245)

Έκδοση (250)

Τόπος έκδοσης (260)

Εκδότης (260)

Χρόνος έκδοσης (008 ή 260)

Σελιδαρίθμηση (300)

Διαστάσεις (300)

63

Page 64: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Σειρά (4XX, 8XX)

= ΝΑΙ

Πίνακας 4. Πεδία δημιουργίας κλειδιών (μονογραφίες)

64

Page 65: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Πίνακας 5. Ποσοστό χρήσης πεδίων μονογραφιών.

Στον Πίνακα 5 παρουσιάζουμε τα ποσοστά των χρησιμοποιούμενων πεδίων των

δώδεκα αλγορίθμων που παρουσιάζονται στα παρακάτω κεφάλαια. Παρατηρούμε

πως τα πεδία που κυριαρχούν είναι αυτά του τίτλου (χρησιμοποιείται σε 11 από τους

12 αλγόριθμους, 92%), του συγγραφέα και της χρονολογίας έκδοσης που

παρουσιάζονται σε δέκα από τους δώδεκα αλγορίθμους το καθένα (83%). Σε αρκετά

μεγάλο ποσοστό εμφανίζονται τα πεδία της σελιδαρίθμησης (σε 8 αλγορίθμους με

ποσοστό 67%), το ISBN (σε 7 με 58%), το ISSN και το LCCN (σε 6 με 50%), ο

αριθμός έκδοσης (σε 5 με 42%), ο τόπος έκδοσης (σε 4 με 33%), η σειρά (σε 3 με

25%), ακολουθούν τα δεδομένα για τον τύπο του τεκμηρίου, την χώρα έκδοσης, τον

αριθμό κυβερνητικού εγγράφου και του κωδικό αναπαραγωγής που παρουσιάζονται

σε 2 από τους 12 αλγορίθμους (17%) και τέλος από 1 φορά στους 12 αυτούς

65

Page 66: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

αλγορίθμους, εμφανίζονται τα πεδία της γλώσσας έκδοσης, του αριθμού ελέγχου, του

τόμου/μέρους, του βιβλιογραφικό επιπέδου, της πηγής καταλογογράφησης, της

μνείας ευθύνης και των διαστάσεων (8%).

3.5. Πεδία που χρησιμοποιούνται για τη δημιουργία κλειδιών (περιοδικά)

Δύο από τους αλγόριθμους που παρουσιάζουμε, παρέχουν ειδικές επεξηγήσεις

για τον εντοπισμό διπλών εγγραφών περιοδικών όπως αυτές τις καταγράφουμε στον

Πίνακα 6. Πρόκειται για τους αλγόριθμους του RLIN και του MELVYL. Τα πεδία

που κυριαρχούν είναι αυτά του LCCN, ISSN, τίτλου, τόπου και χρονολογίας

έκδοσης. Σε μικρότερο ποσοστό χρησιμοποιούνται και οι πληροφορίες του

βιβλιογραφικού επιπέδου, της χώρας έκδοσης, του συγγραφέα, της έκδοσης, του

εκδότη και του entry convention (αφορά την πληροφορία εάν ένα περιοδικό όταν

αλλάζουν τα βιβλιογραφικά του στοιχεία καταλογογραφείται α) εκ νέου, β) ως

συνέχεια κάποιας προηγούμενης εγγραφής ή γ) αντικαθιστά μια υπάρχουσα

εγγραφή).

Πεδία RLIN MELVYL

Βιβλιογραφικό Επίπεδο (leader θέση 07)

Χώρα έκδοσης (008), θέσεις 15-17

Entry Convention (008 θέση 34 ή 006 θέση 17)

LCCN (010)

ISSN (022)

Συγγραφέας (1ΧΧ)

Τίτλος (22Χ)

Έκδοση (250)

Τόπος έκδοσης (260), υποπεδίο #a

Εκδότης (260), υποπεδίο #b

Χρονολογία έκδοσης (008 θέσεις 07-14 ή 260 υποπεδίο #c)

66

Page 67: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

=ΝΑΙ

Πίνακας 6. Πεδία δημιουργίας κλειδιών περιοδικών σε RLIN & MELVYL.

3.6. Αποτελεσματικότητα αλγορίθμων

Οι περισσότεροι οργανισμοί οι οποίοι εφαρμόζουν διαδικασίες εντοπισμού

πολλαπλών εγγραφών, δεν έχουν δημοσιοποιήσει τα ποσοστά αποτελεσματικότητας

των αλγορίθμων τους. Αλλά ακόμη και τα στοιχεία που διαθέτουμε δεν είναι

απολύτως συγκρίσιμα, αφού η κάθε περίπτωση είναι ξεχωριστή και το αποτέλεσμα

της εφαρμογής εξαρτώνται: α) από τον τύπο ή τους τύπους των τεκμηρίων, β) από τα

κριτήρια που ορίζουν τη έννοια της «διπλής εγγραφής», γ) από τον ποιοτικό έλεγχο

των συμμετεχόντων βάσεων, την συνέπεια της καταλογογράφησης και της

καταχώρησης στη βάση, και δ) από τον στόχο που θέτει κάθε αλγόριθμος.

Αποτελεσματικότητα Λανθασμένες

ταυτοποιήσεις

Χαμένες

ταυτοποιήσεις

ALEPH-UMI * 0-1,5% 17,4-34%

Συλλογικός Ελληνικών ΑΕΙ-ΤΕΙ 44,95% * *

IUCS 56,58-99,62% 0,54% *

67

Page 68: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

OCLC (Hickey & Rypka) 54-69% 1,3% *

DDR 56% * 4%

Hylton 90% 1% 5%

* Μη διαθέσιμο

Πίνακας 7. Αποτελεσματικότητα αλγορίθμων.

Από τα υπάρχοντα στοιχεία που παραθέτουμε στον Πίνακα 7 εξάγουμε τα εξής:

● Αποτελεσματικότητα 44,95-90%: δηλαδή από το σύνολο των διπλών

εγγραφών που εντοπίστηκαν, πραγματικές εγγραφές ήταν μόνο το

προαναφερόμενο ποσοστό.

● Οι λανθασμένες ταυτοποιήσεις κυμαίνονται σε ποσοστό κάτω του 1,5%.

● Οι χαμένες ταυτοποιήσεις κυμαίνονται γύρω στο 4-5%, με εξαίρεση αυτές

που παρουσιάζονται στο ALEPH-UMI οι οποίες κυμαίνονται από 17,4-34%.

Στο 4 ο , 5 ο , 6 ο και 7 ο Κεφάλαιο που ακολουθούν, παρουσιάζουμε αναλυτικά τα

στοιχεία κάθε μεμονωμένου αλγορίθμου. Παραθέτουμε τους αλγόριθμους με την εξής

σειρά: πρώτα παρουσιάζουμε αυτούς που εφαρμόζονται σε ένα βήμα και έπονται

αυτοί που εφαρμόζονται σε δύο βήματα. Ακολουθούν οι αλγόριθμοι που δεν

συγχωνεύουν τις εγγραφές, αλλά ομαδοποιούν τις εκδηλώσεις των τεκμηρίων. Τέλος,

παραθέτουμε αυτούς που συγχωνεύουν τις εγγραφές κατά τη διάρκεια της

διαδικασίας (on the fly).

Εκτός από τους αλγορίθμους που μελετάμε εδώ και αποτελούν προσπάθειες

μεγάλων βιβλιοθηκών ή οργανισμών και κοινοπραξιών, τα περισσότερα

ολοκληρωμένα εμπορικά προγράμματα βιβλιοθηκών εφαρμόζουν διάφορες

διαδικασίες για τον εντοπισμό των διπλών εγγραφών, οι οποίες αποτελούν έναν

68

Page 69: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

πρώτο πρόχειρο, στοιχειώδη και πολύ γρήγορο έλεγχο της βάσης, χωρίς όμως αυτό

να μπορεί θεωρηθεί ουσιαστικός εντοπισμός διπλών εγγραφών. Εκτός από τις

εταιρίες που διαθέτουν τα προγράμματα αυτά, υπάρχουν και αυτές οι οποίες

ασχολούνται με τη μεταφορά δεδομένων και τη συγχώνευση και αφαίρεση διπλών

εγγραφών βιβλιογραφικών βάσεων και αρχείων καθιερωμένων όρων. Αν και οι

πληροφορίες που προέρχονται από εταιρίες που λειτουργούν με απόλυτα εμπορικά

κριτήρια είναι περιορισμένες, θα αναφέρουμε μερικά διαθέσιμα στοιχεία για δύο από

τα κυρίαρχα προγράμματα που χρησιμοποιούνται στις ελληνικές βιβλιοθήκες, καθώς

και για τα προγράμματα δύο εταιριών που δραστηριοποιούνται στον χώρο του

καθαρισμού και της συγχώνευσης αρχείων. Οι αλγόριθμοι όλων αυτών των

προγραμμάτων παρουσιάζονται στο Παράρτημα Β΄.

69

Page 70: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΚΕΦΑΛΑΙΟ ΤΕΤΑΡΤΟ:

ΑΛΓΟΡΙΘΜΟΙ ΕΝΤΟΠΙΣΜΟΥ ΔΙΠΛΩΝ ΕΓΓΡΑΦΩΝ ΕΝΟΣ ΚΑΙ ΔΥΟ ΒΗΜΑΤΩΝ

4.1. ΑΛΓΟΡΙΘΜΟΙ ΕΝΟΣ ΒΗΜΑΤΟΣ

Η εφαρμογή των αλγορίθμων σε ένα μόνο βήμα, τις περισσότερες φορές αποτελεί

ένα συμβιβασμό, ώστε να επιτευχθεί η αφαίρεση των διπλών εγγραφών με τρόπο

γρήγορο και φθηνότερο. Ο αλγόριθμος που χρησιμοποιείται είναι πιο γενικός και

χαλαρός, με αποτέλεσμα ο έλεγχος να συγκεντρώνει μεγάλους αριθμούς διπλών

εγγραφών, γεγονός που αυτόματα δημιουργεί την ανάγκη για περαιτέρω

αυτοματοποιημένο ή μη αυτοματοποιημένο έλεγχο. Παρόλα αυτά, μπορεί να

συμπεριλάβει και πρόσθετα στοιχεία ελέγχου ώστε να αποκτήσει τη δυνατότητα

ακριβέστερης εξέτασης, έχοντας όμως έτσι αρνητικές επιπτώσεις όσον αφορά τον

χρόνο εκτέλεσής του.

4.1.1. ALEPH - UMI

Το ALEPH είναι το δίκτυο των ερευνητικών βιβλιοθηκών του Ισραήλ. Είναι ένα

αποκεντρωμένο δίκτυο που αποτελείται από πολλές ξεχωριστές και ανεξάρτητες

συλλογές που συντηρούσαν τον ενιαίο κατάλογο ULM. Ο ULM-Union List of

Monographs (Ενιαίος Κατάλογος Μονογραφιών), δεν περιείχε μόνο μονογραφίες και

ουσιαστικά αφορούσε ένα ενιαίο ευρετήριο για τον εντοπισμό βιβλιογραφικών

τεκμηρίων κατά συγγραφέα ή τίτλο και συμπεριλάμβανε μια συντομευμένη μορφή

των βιβλιογραφικών εγγραφών από τις βιβλιοθήκες μέλη. Οι εγγραφές αυτές

70

Page 71: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

κατέβαιναν (download) από το τοπικό αρχείο με μια offline διαδικασία. Με ftp

στέλνονταν στον υπολογιστή του ULM όπου φορτώνονταν με τη χρήση ενός

αλγορίθμου που ήταν σχεδιασμένος να εντοπίζει και να συγχωνεύει τις διπλές

εγγραφές.

Στη δεκαετία του 1980 είχε προηγηθεί η χρήση ενός αλγορίθμου

συσταδοποίησης/ομαδοποίησης (clustering) που ταύτιζε τις κύριες αναγραφές και τα

πεδία των τίτλων. Ο πρώτος αυτός αλγόριθμος εγκαταλείφθηκε πολύ γρήγορα γιατί

αφενός παρήγαγε πάρα πολύ μεγάλους αριθμούς διπλών εγγραφών και αφετέρου,

ήταν τόσο αυστηρός, που έχανε πολλές όμοιες εγγραφές. Η πρώτη προσπάθεια

παραγωγής του ULM απέδειξε πως ο έλεγχος των αρχείων καθιερωμένων όρων των

βιβλιοθηκών-μελών του ALEPH ήταν τόσο ελλιπής που ακόμη και ένας χαλαρός

αλγόριθμος, που απαιτεί ταυτοποίηση μόνο κατά συγγραφέα, τίτλο και χρονολογία,

δεν ήταν ικανός να αποτρέψει έναν μεγάλο αριθμό χαμένων ταιριασμάτων (Lazinger

1994 : 217).

4.1.1.2. Αλγόριθμος ταυτοποίησης και συγχώνευσης

Το 1991 εφαρμόστηκε ένας δεύτερος αλγόριθμος, ο οποίος βρέθηκε πως

λειτουργεί αρκετά καλά χωρίς να παρουσιάζει πολλές λανθασμένες ταυτοποιήσεις,

τουλάχιστον όσον αφορά τις μονογραφίες. Βασιζόταν στη σύγκριση ενός σταθερού

αριθμού μη συχνά συναντόμενων γραμμάτων που προερχόταν από τέσσερα πεδία:

(Lazinger 1994 : 218 )

● συγγραφέα (πέντε χαρακτήρες)

● τίτλου (επτά χαρακτήρες)

● χρονολογίας έκδοσης, και

71

Page 72: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

● γλώσσας

Το 1992 ο ULM ξαναχτίστηκε, εφαρμόζοντας έναν πρόσθετο κανόνα

κανονικοποίησης, ο οποίος μείωνε ακόμη περισσότερο τον αριθμό των χαμένων

ταυτοποιήσεων. Η νέα διαδικασία χρησιμοποιούσε για τη συγχώνευση, μόνο τη λέξη

πριν το πρώτο κόμμα του πεδίου του συγγραφέα και το πρώτο γράμμα μετά το

κόμμα. Αν το πεδίο του συγγραφέα δεν περιείχε κόμμα, ο αλγόριθμος

χρησιμοποιούσε το κείμενο ολόκληρου του πεδίου. Με τη βελτίωση αυτή, ο

αλγόριθμος έγινε αρκετά αυστηρός ώστε να αποτρέπει την ύπαρξη πάρα πολλών

διπλών εγγραφών (Lazinger 1994 : 218 ).

4.1.1.3. Αποτελέσματα

To 1996 πραγματοποιήθηκε από τις Meir και Lazinger μια έρευνα μόνο για τις

μονογραφίες, χωρίς την συμμετοχή και τη βοήθεια της Ex Libris,5 της εταιρίας που

ανέπτυξε τον αλγόριθμο, ώστε να εκτιμηθεί και πάλι η απόδοσή του. Η εκτίμησή τους

ήταν πως ο αλγόριθμος μπορούσε να περιγραφεί ως αρκετά «αυστηρός», δηλαδή

απαιτούσε μια πολύ ακριβή ταυτοποίηση πριν συγχωνεύσει τις εγγραφές. Παρουσίαζε

0% ποσοστό λανθασμένων ταυτοποιήσεων για τις εβραϊκές εγγραφές και 1,4% για τις

αγγλικές εγγραφές. Επίσης αποτύγχανε να εντοπίσει το 17,4% των αγγλικών και το

34,0% των εβραϊκών εγγραφών (Meir and Lazinger 1998 ) .

Μια τελευταία αξιολόγηση του αλγορίθμου που έγινε το 1997, ανέφερε πως ο

αλγόριθμος συγχώνευσης, είναι μη-ακριβής. Η ταυτοποίηση των εγγραφών που

επιτύγχανε δεν απέτρεπε την εξάλειψη του φαινομένου σε ικανοποιητικά ποσοστά και

5 Επικοινωνία μέσω e-mail με Daniel D. Meir (25/1/2005)

72

Page 73: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ακόμη χειρότερα προκαλούσε τη λανθασμένη συγχώνευση τεκμηρίων που εκ των

υστέρων ήταν αδύνατον να εντοπιστούν.

Μια ένδειξη της ανακρίβειας του αλγορίθμου είναι το γεγονός ότι η παλιά βάση

(ELM) περιείχε 2,5 εκατομμύρια τεκμήρια, από αυτά πάνω από 2 εκατομμύρια

παρουσιαζόταν να έχουν υπάρχοντα μόνο από μια βιβλιοθήκη. Σύμφωνα με τις

εκτιμήσεις που έγιναν, θεωρήθηκε αδύνατον το 80% των συλλογών των

πανεπιστημιακών βιβλιοθηκών να αποτελείται από μοναδικά τεκμήρια!

Δοκιμάστηκαν διάφορες αλλαγές στον αλγόριθμο για να λυθούν επιμέρους

προβλήματα ταυτοποίησης, ο καθένας όμως δημιουργούσε νέες, αν και διαφορετικού

είδους, λανθασμένες ταυτοποιήσεις. Αν και ο αλγόριθμος ήταν σχεδιασμένος έτσι

ώστε να αγνοεί διάφορα διακριτικά σημάδια της εβραϊκής γραφής, αυτό

εξακολουθούσε να δημιουργεί μεγάλη σύγχυση και να οδηγεί σε λανθασμένες

ταυτοποιήσεις.6 Ο ULM, το όνομα του οποίου δεν ανταποκρινόταν στο

“monographs” και τώρα πλέον ονομάζεται ULI–Union List of Israel, αποφάσισε πως

ο αλγόριθμός του δεν μπορούσε να ικανοποιήσει τις απαιτήσεις του και από το 1998

αποφάσισε να μην εφαρμόζει καμία διαδικασία αφαίρεσης ή συγχώνευσης των

διπλών εγγραφών.

6 Επικοινωνία μέσω e-mails με Elhanan Aldler, Deputy Director for Information Technology, Jewish National and University Library (14-16/1/2005)

73

Page 74: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

4.1.2. Illinois Library Computer Systems Organization (ILCSO)

O ILCSO είναι μια υπηρεσία με 56 βιβλιοθήκες-μέλη που διατηρούν έναν

ενιαίο/συνεργατικό κατάλογο.

4.1.2.1. Εντοπισμός διπλών εγγραφών

Για να γίνει δυνατός ο εντοπισμός των διπλών εγγραφών, το σύστημα διαθέτει

ευρετήρια που αφορούν τους αριθμούς ελέγχου: OCLC, LCCN, ISSN, ISBN και τον

αριθμό του εκδότη. Κάθε φορά που γίνεται μαζική εισαγωγή εγγραφών στον

κατάλογο με μια διαδικασία δέσμης (batch/offline), οι εγγραφές της εισαγωγής αυτής

συνδέονται με το προφίλ εντοπισμού των διπλών βιβλιογραφικών εγγραφών που

περιέχει τα πεδία που χρησιμοποιούνται για την ταυτοποίηση. Όταν τα δεδομένα των

ευρετηρίων αυτών ταυτίζονται, τους αποδίδονται καθορισμένες βαθμολογίες και με

βάση το συνολικό ποσό της βαθμολογίας ορίζονται οι περαιτέρω ενέργειες. Από

μελέτες που έγιναν διαπιστώθηκε πως το LCCN δεν αποτελεί ένα αξιόπιστο μέσο

εντοπισμού διπλών εγγραφών, αφού το διαθέτουν μόνο εγγραφές που προέρχονται

από την συγκεκριμένη πηγή καταλογογράφησης. Επιπρόσθετα, διαπιστώθηκε πως η

αξιοπιστία των ISBNs και ISSNs βελτιώνεται όταν χρησιμοποιούνται σε συνδυασμό

με το LCCN. Τα βάρη αυτά μπορούν να προσαρμόζονται ανάλογα με την

απαιτούμενη διαδικασία. Οι τιμές οι οποίες προτείνονται για την μαζική εισαγωγή

εγγραφών, χωρίς τον συνυπολογισμό των υπαρχόντων τους, είναι οι εξής: (ILCSO

2003 : 13)

74

Page 75: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Αφού γίνει η σύγκριση και οι ταυτοποιήσεις καθορίσουν πως δύο βιβλιογραφικές

εγγραφές αντιπροσωπεύουν το ίδιο τεκμήριο, το Voyager προσφέρει τη δυνατότητα

αξιολόγησης των δύο εγγραφών ώστε να επιλεγεί η καταλληλότερη η οποία και

τελικά θα παραμείνει στη βάση ενώ η άλλη θα διαγραφεί. Σε κάθε πεδίο που

χρησιμοποιείται για την ταυτοποίηση δίνεται μια «βαθμολογία πεδίου» (field weight)

έτσι ώστε να υπάρχει η δυνατότητα τα πεδία αυτά να θεωρηθούν περισσότερο (ή

λιγότερο) σημαντικά από τα άλλα επιλεγμένα πεδία για την αξιολόγηση των διπλών

εγγραφών, ώστε να ληφθεί απόφαση για την εγγραφή που θα κρατηθεί στον

κατάλογο. Τα κριτήρια αυτά είναι: η πηγή καταλογογράφησης, το επίπεδο

κωδικοποίησης, η πηγή που έκανε διορθώσεις στην πρωτότυπη εγγραφή και το

επίπεδο καταλογογράφησης του συγκεκριμένου τύπου της εγγραφής.

4.1.2.2. Αποτελέσματα

Παρόλο που οι περιπτώσεις λάθους που αναφέρονται είναι σχετικά σπάνιες, η

εφαρμογή των διαδικασιών αυτών μπορεί να παρουσιάσει δύο είδη λαθών: μη

εντοπισμένες διπλές εγγραφές και λανθασμένες ταυτοποιήσεις και στις περιπτώσεις

Αντικατάσταση διπλής εγγραφής = 100

Προειδοποίηση διπλής εγγραφής = 30

Ευρετήρια και βάρη:

035O = 100

010A = 20

020A = 25

022A = 15

028A = 10

75

Page 76: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

αυτές πρέπει οι καταλογογράφοι να επέμβουν και να λάβουν την τελική απόφαση

συγκρίνοντας τις εγγραφές με μη αυτοματοποιημένο τρόπο (ILCSO 2003 : 13 ).

4.1.3. Συλλογικός Κατάλογος Ελληνικών ΑΕΙ-ΤΕΙ

Στο πλαίσιο του έργου «Δικτύωση βιβλιοθηκών ιδρυμάτων τριτοβάθμιας

εκπαίδευση», Δράση 1, Ενέργεια «Βιβλιοθήκες», του Επιχειρησιακού Προγράμματος

Εκπαίδευσης και Αρχικής Επαγγελματικής Κατάρτισης (Α’ ΕΠΕΑΕΚ),

δημιουργήθηκε μια Ομάδα Εργασίας Σύνταξης Βιβλιογραφικών Προδιαγραφών

προκειμένου να μελετήσει και να προτείνει λύσεις για τη δημιουργία ενός συλλογικού

καταλόγου των βιβλιοθηκών των ελληνικών εκπαιδευτικών ιδρυμάτων της

τριτοβάθμιας εκπαίδευσης. Υιοθετήθηκε το κεντρικοποιημένο μοντέλο του

υποτελούς συλλογικού καταλόγου (slave union catalog) σύμφωνα με το οποίο οι

βιβλιοθήκες καταλογογραφούν το υλικό τους στα τοπικά τους συστήματα και κατόπιν

οι εγγραφές τους μεταφορτώνονται σε μια κεντρική βάση (Ηλεκτρονική δικτύωση…

1997 : 15).

Η έκθεση αυτή κατατέθηκε το Δεκέμβριο του 1997. Υπογραμμίζεται η ανάγκη

ενσωμάτωσης ενός αλγορίθμου που να υποστηρίζει τον εντοπισμό των πολλαπλών

εγγραφών, για αυτό και προέβλεπε τη συγχώνευση των διπλών εγγραφών και τη

δημιουργία μιας εγγραφής που θα περιλαμβάνει όλα τα πεδία της πληρέστερης

εγγραφής, στην οποία θα συγχωνεύονται τα πεδία των θεμάτων, καθώς και τα τοπικά

πεδία από όλες τις άλλες εγγραφές (Ηλεκτρονική δικτύωση… 1997 : 17-18).

76

Page 77: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Όσον αφορά την αντιμετώπιση των διπλών εγγραφών, δοκιμάστηκαν διάφοροι

αλγόριθμοι και ακολουθήθηκε μια συνεχής διαδικασία ελέγχων και βελτιώσεων του

αλγορίθμου. Για τη διενέργεια των δοκιμών διπλασιάστηκε ένα μέρος του καταλόγου

της Βιβλιοθήκης του Παντείου Πανεπιστημίου. Η μέθοδος ελέγχου επιτυχίας του

αλγορίθμου που ακολουθήθηκε ήταν αυτή της δημιουργίας ενός αρχείου εργασίας

των εντοπισμένων πιθανών διπλών εγγραφών και η προώθησή τους για έλεγχο και

επιβεβαίωση από μια ομάδα καταλογογράφων. Μετά από μια περίοδο δοκιμών

διαφόρων αλγορίθμων, έχει ήδη οριστικοποιηθεί ο αλγόριθμος που θα

χρησιμοποιηθεί. Πρόκειται για μια διαδικασία που εφαρμόζεται σε ένα βήμα, χωρίς

να υφίσταται κάποια βαθμολογία και κάποιο βαθμολογικό κατώφλι. Οι αμφίβολες

διπλές εγγραφές κρατούνται σε ένα αρχείο εργασίας ώστε να εξεταστούν με μη

αυτοματοποιημένο τρόπο.

Αυτός ο συλλογικός κατάλογος δεν στάθηκε δυνατό να υλοποιηθεί έως σήμερα,

αλλά οι προσπάθειες για την υλοποίηση και τον καθορισμό όλων των λεπτομερειών

που προέβλεπε η παραπάνω πρόταση συνεχίζονται. Υπολογίζεται πως κατά τους

πρώτους μήνες του 2005 θα είναι δυνατή η πραγματική λειτουργία του εκ μέρους της

εταιρίας που ανέλαβε τη δημιουργία του.

Η δημιουργία του κλειδιού που χρησιμοποιείται για τον εντοπισμό των διπλών

εγγραφών, γίνεται στα στάδια προετοιμασίας του υλικού πριν αυτό φορτωθεί. Την

ώρα του φορτώματος γίνεται ο έλεγχος των διπλών εγγραφών και η συγχώνευση. Οι

εγγραφές διαβάζονται σειριακά και ελέγχονται με το σύνολο των εγγραφών της

βάσης. Υπάρχει μία σειρά προγραμμάτων ανάλογα με το πρόγραμμα από το οποίο

προέρχονται οι εγγραφές, τα οποία αλλάζουν το format, το σύνολο χαρακτήρων, τις

77

Page 78: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

πληροφορίες υπαρχόντων, κλπ. Είναι ήδη έτοιμα τα αντίστοιχα προγράμματα για

επεξεργασία εγγραφών από τα προγράμματα Geac-Advance, Horizon, ΑΒΕΚΤ και

VIRTUA. Το κλειδί του Συλλογικού Καταλόγου δημιουργείται παίρνοντας στοιχεία

από τα παρακάτω πεδία UNIMARC7:

● Τίτλος

● Συγγραφέας

● Δήλωση έκδοσης

● Χρονολογία έκδοσης

● ISBN (συνυπολογίζεται εάν υπάρχει)

 

4.1.3.1. Αποτελέσματα

Η βάση στην οποία έγιναν οι δοκιμές περιείχε 47500 εγγραφές. Από αυτές, με

την χρήση του αλγόριθμου, εντοπίστηκαν ως διπλές 218 εγγραφές. Οι εγγραφές αυτές

επεξεργάστηκαν και αξιολογήθηκαν από τους βιβλιοθηκονόμους οι οποίοι κατέληξαν

στα παρακάτω συμπεράσματα (βλέπε επίσης Παράρτημα Γ΄, Πίνακες 1 και 2).

Πραγματικές διπλές εγγραφές

Στην κατηγορία αυτή ανήκουν οι διπλές εγγραφές των οποίων τα κοινά πεδία και

υποπεδία περιείχαν απόλυτα ταυτόσημες πληροφορίες. Η συντριπτική πλειοψηφία

του κάθε ζεύγους (ή σε κάποιες περιπτώσεις πολλαπλές διπλές εγγραφές) διέφεραν

μόνο ως προς τον επιπλέον αριθμό πεδίων που είχε η μία ή η άλλη (άλλες). Τα

επιπλέον αυτά πεδία περιείχαν κυρίως τοπικές πληροφορίες και κρίθηκε ότι δεν

μπορούν να αποτελέσουν αξιόπιστο κριτήριο ταύτισης ή μη ταύτισης. Σύμφωνα με τα

7 Όλες οι πληροφορίες που αφορούν τον αλγόριθμο του Συλλογικού Καταλόγου προέρχονται από την επικοινωνία μέσω e-mails με τον Γ. Βουγιουκλή, Τεχνικό Διευθυντή της ELiDOC (11-17/2/2005)

78

Page 79: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

παραπάνω κριτήρια, σε σύνολο 218 εγγραφών βρέθηκαν 98 πραγματικές διπλές

εγγραφές (αποτελεσματικότητα 44,95 %).

Προβλήματα κλειδιού

Στην κατηγορία αυτή ανήκουν οι εγγραφές των οποίων συγκεκριμένα πεδία και

υποπεδία βρέθηκαν να διαφέρουν σημαντικά ως προς τις πληροφορίες που περιείχαν.

Κρίθηκε ότι οι συγκεκριμένες εγγραφές δεν μπορεί να θεωρηθούν πραγματικές

διπλές. Αναλυτικότερα, βρέθηκαν (βλέπε επίσης Παράτημα Γ΄, Πίνακας 2):

1. Διαφορετικός τίτλος (πολύ μεγάλος τίτλος με διαφορετικές λέξεις στο τέλος): 20

εγγραφές

2. Εγγραφές τίτλων υπό παραγγελία (με εξαιρετικά μικρό αριθμό πεδίων που

κρίθηκε ότι δεν μπορούν να αποτελέσουν αξιόπιστο κριτήριο ταύτισης ή μη

ταύτισης): 8 εγγραφές

3. Διαφορετική χρονολογία έκδοσης: 8 εγγραφές

4. Διαφορετικός εκδότης: 8 εγγραφές

5. Διαφορετικός δεύτερος υπότιτλος: 5 εγγραφές

6. Διαφορετικές πληροφορίες στο πεδίο περιεχομένων: 4 εγγραφές

7. Επαναλαμβανόμενο υποπεδίο #a του πεδίου 200 (στην επανάληψη περιέχονται

διαφορετικές πληροφορίες ): 3 εγγραφές

8. Διαφορετικές πληροφορίες στα πεδία φυσικής περιγραφής και γενικών

σημειώσεων: 2 εγγραφές

9. Διαφορετικές πληροφορίες στα πεδία πρόσθετης αναγραφής συγγραφέα: 2

εγγραφές

10. Διαφορετικές πληροφορίες στο πεδίο 702 (πρόσθετη αναγραφή): 2 εγγραφές

79

Page 80: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

11. Διαφορετικές πληροφορίες στο πεδίο της τοποχρονολογίας: 1 εγγραφή

12. Διαφορετικός τόμος σειράς: 1 εγγραφή

13. Διαφορετική σειρά : 1 εγγραφή

14. Λέξη που θα μπορούσε να καταχωρηθεί στη λεγόμενη stop list ώστε να μην

λαμβάνει υπόψη από το κλειδί: 1 εγγραφή

Σύμφωνα με τα παραπάνω κριτήρια, σε σύνολο 218 εγγραφών βρέθηκαν 66

εγγραφές (17,89 %) με προβλήματα που οφείλονται στο εφαρμοζόμενο κλειδί. Τα

ποσοστά των προβλημάτων που εμφανίστηκαν στο κλειδί, αφορούσαν συγκεκριμένα

τα πεδία και υποπεδία όπως αυτά εμφανίζονται στο Παράρτημα Γ’, Πίνακας 2.

Προβλήματα πολιτικής

● Διαχωρισμός τόμων, CD: 45 εγγραφές

● Αντίτυπο του ίδιου βιβλίου σε φωτοτυπία: 1 εγγραφή

Σύμφωνα με τα παραπάνω κριτήρια, σε σύνολο 218 εγγραφών βρέθηκαν 46

εγγραφές (12, 47 %) με προβλήματα που οφείλονται στην ακολουθούμενη πολιτική.

Προβλήματα καταλογογράφησης

● Διαφορετικές πληροφορίες στο πεδίο 035: 25 εγγραφές

● Λάθος πληροφορίες στο υποπεδίο #e του πεδίου 200: 1 εγγραφή

Σύμφωνα με τα παραπάνω κριτήρια, σε σύνολο 218 εγγραφών βρέθηκαν 26

εγγραφές (7, 05 %) με προβλήματα που οφείλονται στην καταλογογράφηση.

80

Page 81: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Άλλα προβλήματα

Σε 23 περιπτώσεις παρατηρήθηκε το φαινόμενο η ίδια εγγραφή να εμφανίζεται

δύο ή περισσότερες φορές μετά την πρώτη της εκτύπωση. Ο αριθμός των εγγραφών

αυτών είναι 65 ενώ μετά τον έλεγχο προκύπτει ότι είναι 23. Σύμφωνα με τα

παραπάνω κριτήρια, σε σύνολο 218 εγγραφών βρέθηκαν 65 εγγραφές (17, 62 %) με

άλλου είδους προβλήματα.

Με βάση τις παραπάνω παρατηρήσεις, έγιναν κάποιες τελευταίες βελτιώσεις στο

κλειδί, ώστε να μειωθούν τα λάθη που προέρχονται από μεγάλους τίτλους.

81

Page 82: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

4.2. ΑΛΓΟΡΙΘΜΟΙ ΔΥΟ ΒΗΜΑΤΩΝ

Όταν η εφαρμογή του αλγορίθμου γίνεται σε δύο βήματα, συνήθως το πρώτο

αποτελεί μια περιορισμένη σύγκριση, έτσι ώστε να δημιουργηθεί ένα ξεχωριστό

αρχείο που να περιέχει όλες τις πιθανές διπλές εγγραφές της συλλογής. Ο κύριος

στόχος αυτού του βήματος είναι να ελαχιστοποιηθούν οι συγκρίσεις του δευτέρου

βήματος και να μειωθεί η περίπτωση της λανθασμένης ταυτοποίησης που θα

οδηγούσε σε διαγραφή μοναδικών εγγραφών. Αν σ’ αυτό το πρώτο βήμα εντοπιστούν

με βεβαιότητα διπλές εγγραφές, μπορούν να οδηγηθούν στη συγχώνευση ή τη

διαγραφή. Για τις αμφίβολες εγγραφές ακολουθεί το δεύτερο βήμα.

Στο δεύτερο βήμα γίνεται η επιβεβαίωση της ταυτοποίησης που έγινε στο πρώτο

βήμα, εφαρμόζοντας μια λεπτομερή και ακριβή σύγκριση, ώστε να οριστεί ποιες από

αυτές είναι στην πραγματικότητα διπλές.

4.2.1. Oak Ridge National Laboratory

Στο Oak Ridge National Laboratory το 1976 έγινε μια από τις πρώτες

προσπάθειες δημιουργίας ενός αλγορίθμου με στόχο τον εντοπισμό διπλών εγγραφών

αρχείων παραπομπών άρθρων περιοδικών. Εφαρμοζόταν offline και παρήγαγε

κλειδιά σταθερού μήκους που περιείχαν όλες τις πληροφορίες που θεωρήθηκε ότι

οδηγούν σε ασφαλή εντοπισμό των διπλών εγγραφών και έτσι μειωνόταν η ανάγκη

ανάκτησης του συνόλου της βιβλιογραφικής εγγραφής (Hickey and Rypka 1979 ).

Οι πληροφορίες για την ταυτοποίηση των εγγραφών προέρχονταν από την

χρονολογία έκδοσης, τον αριθμό της αρχικής σελίδας, το CODEN, τον αριθμό τόμου

82

Page 83: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

του περιοδικού και δείγματα από το όνομα του συγγραφέα, τον τίτλο του περιοδικού

και τον τίτλο του άρθρου (Παράρτημα Β΄, Πίνακας 1).

Για τον εντοπισμό των διπλών εγγραφών, τα κλειδιά ταξινομούνταν/σορτάρονταν

(sort) με αρκετά και διαφορετικά πεδία. Αν αυτά τα πεδία ταυτίζονταν απόλυτα τότε

χρησιμοποιούνταν ένα σταθμισμένο ταίριασμα των υπόλοιπων πεδίων. Ο αλγόριθμος

ολοκληρωνόταν από ένα σορτάρισμα σελίδων/έτους και ένα συγγραφέα/τίτλου.

Σορτάρισμα σελίδων/έτους. Για να θεωρηθούν όμοια, έπρεπε:

α) να είναι όμοιοι οι τίτλοι των άρθρων και οι συγγραφείς

β) να είναι όμοιοι οι συγγραφείς και οι τίτλοι των περιοδικών ή οι τόμοι

γ) να είναι όμοιοι οι τίτλοι των άρθρων και τίτλοι των περιοδικών ή οι τόμοι

Σορτάρισμα συγγραφέα/τίτλου. Για να θεωρηθούν όμοια, έπρεπε:

α) να είναι όμοια το έτος, ο τίτλος του περιοδικού και οι τόμοι

β) να είναι όμοιες σελίδες και οι τόμοι ή ο τίτλος του περιοδικού

4.2.1.1. Αποτελέσματα

Οι δημιουργοί του σχήματος αυτού ισχυρίζονται πως δούλεψε αρκετά καλά, αν

και αμφισβητήθηκε η αποτελεσματικότητά του σε πιθανή εφαρμογή του σε

μονογραφίες.

83

Page 84: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

4.2.2. Online Computer Library Center (OCLC): MDBUPD

Το πρόγραμμα αυτό δημιουργήθηκε στο OCLC λίγο μετά το 1976, ονομάστηκε

Master Data Base Update (MDBUPD) και λειτουργούσε offline. Ο στόχος του ήταν ο

εντοπισμός των διπλών εγγραφών και η δημιουργία μιας κοινής βάσης που θα

αποτελούνταν από τις νέες εγγραφές MARC II της LC και τις υπάρχουσες εγγραφές

στον Online Union Catalog του OCLC. Το MDBUPD έπρεπε να ανακτήσει μια

ολόκληρη βιβλιογραφική εγγραφή για να μπορέσει να τη συγκρίνει με τις άλλες που

ήδη υπήρχαν στην βάση (Wanninger 1982 ). Ο αλγόριθμος αυτός ήταν σχεδιασμένος

για να εφαρμόζεται σε δύο βήματα και για τη δημιουργία των κλειδιών

χρησιμοποιούσε δεδομένα από τα πεδία μεταβλητού μήκους των εγγραφών που είχαν

δημιουργηθεί με βάση το μορφότυπο US-MARC.

Αρχικά αναζητούσε στον Online Union Catalog χρησιμοποιώντας το LCCN

(Library of Congress Control Number) και κλειδιά αναζήτησης παραγόμενα από το

OCLC. Τα κλειδιά αυτά προέρχονταν από τα πεδία ονόματος/τίτλου ή μόνο του

τίτλου.

Έπειτα το MDBUPD έλεγχε πρόσθετα πεδία επαλήθευσης που ήταν τα εξής:

εκδότης, τόπος έκδοσης, τίτλος, χρονολογία, σελίδες ( Παράρτημα Β΄, Πίνακας 2).

Στο τέλος της διαδικασίας αυτής όταν το αποτέλεσμα ήταν η πλήρης ταύτιση

όλων των πεδίων που συγκρίθηκαν, διαγραφόταν οι διπλές εγγραφές που είχαν

εντοπιστεί.

84

Page 85: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

4.2.2.1. Αποτελέσματα

Επειδή ο αλγόριθμος ήταν πολύ αυστηρός και δύσκαμπτος, οι λανθασμένες

ταυτοποιήσεις διαφορετικών εγγραφών ήταν σχετικά λίγες, ταυτόχρονα όμως ήταν

μεγάλος ο αριθμός των διπλών εγγραφών που αδυνατούσε να εντοπίσει. Τα κύρια

προβλήματα που εμφάνιζε, αφορούσαν τα πεδία του εκδότη, του τίτλου και της

σελιδαρίθμησης. Τα προβλήματα στους τίτλους παρουσιαζόταν λόγω των

παραλλαγών τους, ειδικά στους υπότιτλους, αλλά και λόγω της παράληψης λέξεων.

Τα λάθη στο πεδίο του εκδότη προερχόταν από τις ποικίλες μορφές με τις οποίες

μπορεί να εμφανιστεί ένας εκδότης, συμπεριλαμβανομένων των συντομογραφιών. Οι

παραλλαγές στη σελιδαρίθμηση ευθύνονταν για έναν ακόμη αξιοσημείωτο αριθμό

λαθών (Hickey and Rypka 1979 ).

4.2.3. University of Illinois: IUCS

Οι Williams και MacLaury, στο University of Illinois, στην προσπάθειά τους να

δημιουργήσουν έναν ενιαίο πολιτειακό κατάλογο, ανέπτυξαν ένα σύστημα

εντοπισμού διπλών εγγραφών που ονομάστηκε IUCS (IRRL [Information and

Retrieval Research Laboratory] Union Catalog System). Ήταν φτιαγμένο έτσι ώστε

έως κάποιο σημείο να ξεπερνάει τις διαφορές στα μορφότυπα και να εντοπίζει και μη

μονογραφικά τεκμήρια, π.χ. χάρτες, filmstrips, κτλ. (Williams and Mac Laury 1979 ).

Το σύστημα αυτό λειτουργούσε με μια διαδικασία σύγκρισης πεδίων που

εφαρμοζόταν σε δύο βήματα/περάσματα (passes).

Το πρώτο βήμα αφορούσε τον εντοπισμό και διαχωρισμό χωρίς πολύ αυστηρά

κριτήρια των υποψηφίων διπλών εγγραφών. Περιελάμβανε τη δημιουργία ενός

85

Page 86: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

κλειδιού που ονομάζεται κλειδί ταυτοποίησης (matching key). Για να διασφαλιστεί εκ

των προτέρων η ελαχιστοποίηση των παραλλαγών που θα μπορούσαν να

παρουσιαστούν στο πεδίο αυτό εφαρμοζόταν διαδικασίες κανονικοποίησης των

δεδομένων (MacLaury   1979 : 149 ).8 Το κλειδί αυτό προερχόταν από 8 χαρακτήρες

του τίτλου και του υπότιτλου συν τα 2 τελευταία ψηφία της χρονολογίας κάθε

εγγραφής, ώστε να γίνεται δυνατή η διάκριση μεταξύ πολυάριθμων ταυτόσημων

τίτλων, όπως στην περίπτωση των συνεδρίων, συμποσίων, κτλ. Αυτά τα κλειδιά

«τίτλου-χρονολογίας» σορτάρονταν και όσων εγγραφών τα κλειδιά ήταν όμοια

ανακτώνταν και συγκρίνονταν σε ένα δεύτερο βήμα (Hickey and Rypka 1979 ).9

Για το δεύτερο βήμα εφαρμογής του αλγόριθμου, ακολουθούσε ένα σύνολο

λεπτομερέστερων ταυτοποιήσεων ώστε να επαληθευτεί ή να απορριφθεί η αρχική

εκτίμηση. Χρησιμοποιήθηκε ένα κλειδί που ονομάζεται κλειδί αντιστοίχισης τίτλου

(mapping key) διαφορετικό από αυτό του πρώτου βήματος. Το κλειδί αυτό

ταυτοποιούσε ολόκληρους τίτλους και ήταν ανεκτικό στα τυπογραφικά λάθη. Στο

δεύτερο βήμα συγκρίνονταν, τα ονόματα των συγγραφέων, οι τίτλοι και η

σελιδαρίθμηση των εγγραφών που ανακτήθηκαν στο προηγούμενο βήμα ως πιθανά

διπλές και καθοριζόταν ποιες τελικά από αυτές ήταν όντων διπλές.

8 Μετατροπή όλων των χαρακτήρων σε κεφαλαίους. Οι λέξεις που συνδέονται με το ενωτικό σημείο (hyphen) θεωρούνται ως μία λέξη. Αφαιρούνται τα σημεία στίξης (και όλα τα διακριτικά σημεία). Το επιτρεπόμενο σετ χαρακτήρων περιέχει 43 χαρακτήρες: A-Ζ, 0-9, !, #, $, %, &, ? και κενά. Αφαιρούνται Τα αρχικά άρθρα (A, An, The). Οι συντομευμένοι τίτλοι δεν υπολογίζονται για τη δημιουργία του κλειδιού. (MacLaury 1979 : 149)9 Το μέρος του τίτλου του παραπάνω κλειδιού είναι: 1;3:, 1:, 1:/1:, 1:, ;4:2L, που σημαίνει πως χρησιμοποιούνται οι εξής χαρακτήρες:

● Πρώτη λέξη: ο πρώτος και ο τρίτος χαρακτήρας● Δεύτερη λέξη: ο πρώτος χαρακτήρας● Τρίτη λέξη: ο πρώτος χαρακτήρας● Πρώτη λέξη από το τέλος: ο πρώτος χαρακτήρας● Δεύτερη λέξη από το τέλος: ο πρώτος χαρακτήρα.● Τρίτη λέξη από το τέλος: ο τέταρτος χαρακτήρας από την αρχή και ο δεύτερος χαρακτήρας

από το τέλος της λέξης

86

Page 87: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Ταυτοποίηση ονομάτων συγγραφέων

Στην περίπτωση συγγραφέων φυσικών προσώπων, χρησιμοποιούσε τους πρώτους

πέντε χαρακτήρες και της κύριας και των πρόσθετων αναγραφών. Για τις κύριες και

πρόσθετες αναγραφές ονομάτων που αφορούσαν συλλογικά όργανα και συνέδρια, οι

αρχικές λέξεις εξαλείφονταν μέσω ενός συνόλου stopwords (κενών λέξεων). Αφού

γινόταν αυτή η ταυτοποίηση, τοποθετούνταν δείκτες (markers) που δήλωναν εάν

κάποια από τις εγγραφές (ή και οι δύο) δεν είχαν πεδίο συγγραφέα (κύρια ή πρόσθετη

αναγραφή), καθώς και εάν η αντιστοίχιση που βρέθηκε ήταν μεταξύ των πρόσθετων

αναγραφών. Αυτοί οι δείκτες χρησιμοποιούνταν σε συνδυασμό με τον αλγόριθμο

ταυτοποίησης του αριθμού των σελίδων για να καθοριστεί εάν ήταν αναγκαία η

ανθρώπινη παρέμβαση για την τελική απόφαση ομοιότητας.

Ταυτοποίηση τίτλων

Χρησιμοποιούσε τα Harisson keys10 στα οποία τα μεμονωμένα bits «θέτονταν» με

βάση συγκεκριμένα χαρακτηριστικά του τίτλου. Στη συνέχεια, ως κριτήριο

ταυτοποίησης χρησιμοποιήθηκε μια στοιχειοσειρά δύο λέξεων, για τη σύγκριση των

κλειδιών του τίτλου με τη χρήση της Hamming distance11. Η ταυτοποίηση αυτή

λειτουργούσε ως μια πιο αυστηρή σύγκριση των τίτλων αλλά δεν περιλαμβάνει

συγκρίσεις χαρακτήρα προς χαρακτήρα. Επέτρεπε τον εντοπισμό διπλών τίτλων που

παρουσιάζουν μόνο πολύ μικρές διαφορές, προφανώς λόγω τυπογραφικών λαθών ή

μικρών παραλλαγών που δημιουργήθηκαν κατά την καταχώρηση των τίτλων

(Williams and Mac Laury 1979 : 163 ).

10 Τα Harrison keys είναι ένα bit string και όχι ένα string χαρακτήρων.11 Hamming distance: ο αριθμός των bits ενός κλειδιού μιας λέξης που διαφέρουν από εκείνα ενός δεύτερου κλειδιού μιας άλλης λέξης και το οποία δίνουν μια ένδειξη της έκτασης της διαφοράς τους. Η Hamming distance μεταξύ δύο τίτλων είναι ίση με την διαφορά μεταξύ των Harrison Keys, που προέρχονται από κάθε τίτλο.

87

Page 88: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Ταυτοποίηση σελιδαρίθμησης

Το αποτέλεσμα της εξέτασης των σελίδων συνδυαζόταν με τα αποτελέσματα από

την ταυτοποίηση των συγγραφέων και των τίτλων για να καθοριστεί εάν ένα

συγκεκριμένο ζευγάρι εγγραφών αναπαριστά πραγματικές διπλές εγγραφές, πιθανές

διπλές εγγραφές (που απαιτούν περαιτέρω εξέταση) ή μη διπλές εγγραφές.

Χρησιμοποιήθηκε το τελευταίο νούμερο της πρώτης μη φθίνουσας σειράς αραβικών

αριθμών του αριθμού των σελίδων από τα αντίστοιχο πεδίο του MARC, δηλαδή από

το κυρίως σώμα των σελίδων και όχι από την ξεχωριστή αρίθμηση των

προκαταρκτικών ή των πινάκων στο τέλος του τεκμηρίου (Williams and Mac Laury

1979).

Αφού ολοκληρωνόταν και η ταυτοποίηση των σελίδων οι εγγραφές: (Williams

and Mac Laury 1979 : 164 )

● απορρίπτονταν ως μη διπλές

● εξετάζονταν περαιτέρω

● γίνονταν αποδεκτές ως διπλές και αφαιρούνταν

4.2.3.1. Αποτελέσματα

Η αποτελεσματικότητα του αλγόριθμου αυτού αναφέρεται πως κυμαινόταν από

56,58-99,62% ανάλογα με τη βάση στην οποία γινόταν οι δοκιμές. Επίσης

αναφέρεται πως το ποσοστό των λανθασμένων ταυτοποιήσεων που δημιουργούσε

αφορά το 0,54% του συνόλου των διπλών εγγραφών. Οι χαμένες ταυτοποιήσεις κατά

81% οφειλόταν σε λάθη του τίτλου, 12,3% σε λάθη στην χρονολογία έκδοση, 5,8%

σε λάθη στην σελιδαρίθμηση και τέλος κατά 1% σε λάθη στο πεδίο του συγγραφέα

(Williams and Mac Laury 1979 : 166 ).

88

Page 89: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Ο αλγόριθμος αυτός αποκάλυψε και επιβεβαίωσε πως η αποτυχία εντοπισμού των

διπλών εγγραφών προέρχεται κυρίως από λάθη στην καταλογογράφηση, από τις

παραλλαγές στους τίτλους και οι περισσότερες από τις αποτυχίες αφορούσαν

υπότιτλους που δεν είχαν καταχωρηθεί ή που παρουσίαζαν παραλλαγές στην

καταχώρησή τους. Οι διπλές εγγραφές εντοπιζόταν με ένα τρόπο κάπως αόριστο

συγκεντρώνοντας διαφορετικές εκδόσεις, σειρές και μορφές αναπαραγωγής (Hickey

and Rypka 1979 ). Εμφανιζόταν μερικές αστοχίες (περιπτώσεις που οι «ύποπτες»

εγγραφές δεν ήταν δυνατό να απορριφθούν ή να γίνουν αποδεκτές ως διπλές) κατά το

δεύτερο βήμα ταυτοποίησης που έκαναν απαραίτητη την εκτύπωσή τους και την μη

αυτοματοποιημένη σύγκριση των εγγραφών. Έπρεπε να ανακτηθεί το σύνολο της

βιβλιογραφικής εγγραφής για να ακολουθήσει το δεύτερο βήμα. Η σύγκριση του

τίτλου ήταν κάπως αυστηρή και επέτρεπε μόνο κάποιες μικρές παραλλαγές, όπως για

παράδειγμα απλά τυπογραφικά λάθη ( Hickey and Rypka 1979 ).

4.2.4. Online Computer Library Center (OCLC) - Hickey & Rypka

Το OCLC γύρω στο 1978-1979 προσπάθησε και πάλι (μετά το MDBUPD) να

αναπτύξει ένα πρόγραμμα αναγνώρισης και εντοπισμού διπλών εγγραφών

μονογραφιών. Η προσπάθεια αυτή ήταν ένα ερευνητικό έργο γεγονός που σημαίνει

πως ο αλγόριθμος αυτός χρησιμοποιήθηκε μόνο σε περιβάλλον εργαστηρίου με

δεδομένα από τη βάση του OCLC, χωρίς όμως να χρησιμοποιηθεί ποτέ σε

πραγματικό περιβάλλον. Αφού μελέτες που είχαν γίνει έδειξαν πως τα πεδία που

χρησιμοποιούσε το MDBUPD για τη σύγκριση εγγραφών μπορούσαν να εντοπίσουν

ικανοποιητικά τις διπλές εγγραφές, αποφασίστηκε η ανάπτυξη ενός αλγορίθμου για

89

Page 90: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

τον εντοπισμό τους με βάση το MDBUPD βελτιώνοντάς το ώστε να μπορεί να

ανταποκριθεί στα προβλήματα που παρουσιάζονταν λόγων των παραλλαγών στην

μορφή της ονομασίας των εκδοτικών οίκων ή της μορφής της σελιδαρίθμησης

(Wanninger 1982 ). Ο αλγόριθμος αυτός αναπτύχθηκε από τους Thomas Hickey και

David Rypka και όπως φαίνεται από τη βιβλιογραφία είχε την μεγαλύτερη επίδραση

από όλους τους άλλους, στον σχεδιασμό των μεταγενέστερων αλγορίθμων. Είχε τη

δυνατότητα να εφαρμόζεται και online και offline. Χρησιμοποιήθηκε ένα κλειδί

εντοπισμού διπλών εγγραφών, 52 bytes ανά εγγραφή, μοναδικού για κάθε

βιβλιογραφική εγγραφή. Εφαρμοζόταν σε δύο βήματα/τμήματα (sections): (Hickey

and Rypka , 1979 : 133 )

● Το πρώτο βήμα, ή βήμα ακριβούς ταυτοποίησης (exact-match) στόχευε στην

ομαδοποίηση σχετικών κλειδιών έτσι ώστε να ελαττωθούν οι συγκρίσεις του

πλήρους κλειδιού (full key) για κάθε εγγραφή.

● Στο δεύτερο βήμα εφαρμοζόταν όλα τα άλλα κλειδιά των επιλεγμένων πεδίων

που μπορεί να ταίριαζαν είτε ακριβώς ή μερικώς.

Τα δεδομένα του κλειδιού προερχόταν από τα εξής πεδία της εγγραφής: τον

κωδικό αναπαραγωγής, τον κωδικό του τύπου της εγγραφής, την αρχή του τίτλου, τη

χρονολογία, τον τόπο έκδοσης, το όνομα συγγραφέα, τις σελίδες, τον εκδότη

(publisher) και τον κερματισμένο τίτλο (hashed title). Τα υπόλοιπα μέρη του κλειδιού

ενσωματώνονταν μόνο όταν τα πεδία από το οποία προέρχονται υπήρχαν στη

βιβλιογραφική εγγραφή και αφορούσαν: τον αριθμό SuDocs, το ISBN, τον αριθμό

έκδοσης, τη σειρά και το LCCN (Παράρτημα Β΄, Πίνακας 3.1).

90

Page 91: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Ο αλγόριθμος αυτός ελεγχόταν από έναν πίνακα αποφάσεων (decision table) για

να καθοριστεί αν τα κλειδιά είναι διπλά. Ο πίνακας αυτός όριζε δεκαέξι

εναλλακτικούς τρόπους με τους οποίους δύο κλειδιά μπορούν να ταυτοποιηθούν. Η

σύγκριση δύο κλειδιών μπορούσε να παράγει έναν όρο ο οποίος έπαιρνε μία από τις

τρεις τιμές (values): - =mismatch, P=partial match, E=exact match (Παράρτημα Β΄,

Πίνακας 3.2).

4.2.4.1. Αποτελέσματα

Με την εφαρμογή του αλγορίθμου αυτού βρέθηκε πως το ποσοστό των

λανθασμένων ταυτοποιήσεων ήταν της τάξης του 1, 3% του συνόλου των εγγραφών

που υποδείχθηκαν ως διπλές (Hickey and Rypka 1979 ). Υπολογίστηκε πως η διαφορά

στους πρώτους 34 χαρακτήρες της στοιχειοσειράς του τίτλου από το οποίο

προέρχονταν τα αρχικά κλειδιά χρονολογίας/τίτλου προκαλεί το 12% των χαμένων

ταυτοποιήσεων (missed matches) (Hylton 1996 ).

Οι παραλλαγές στον εκδότη, στον τίτλο και στο πεδίο σελιδαρίθμησης ήταν οι

κύριοι λόγοι που ο αλγόριθμος αυτός αποτύγχανε στον εντοπισμό διπλών εγγραφών.

Αν και ο αλγόριθμος, ανάλογα με τον ορισμό της διπλής εγγραφής, δηλαδή εάν οι

ανατυπώσεις με διαφορετικές χρονολογίες εκτύπωσης θεωρούνταν ως αντίγραφα,

εντόπιζε περίπου το 54-69% των διπλών εγγραφών, παρόλα αυτά η απλότητά του και

το μήκος του κλειδιού επέτρεπε την εφαρμογή του και για αναδρομικό και για online

έλεγχο διπλών εγγραφών.

Οι αδυναμίες του αλγορίθμου όπως παρουσιάζονται από τους ίδιους τους

δημιουργούς του είναι οι εξής (Hickey and Rypka 1979 : 139-140 ):

91

Page 92: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Το πεδίο της χρονολογίας ευθύνεται για τον μεγαλύτερο αριθμό διπλών

εγγραφών που απέτυχε ο εντοπισμός τους.

Το πεδίο του ονόματος δημιουργεί επίσης πολλές παραλλαγές.

Πολλαπλά LCCN και ISBN είναι μια ακόμη κύρια αιτία αποτυχίας του

αλγορίθμου.

Το πεδίο του τόπου έκδοσης απαιτεί ουσιαστικό καθαρισμό ώστε να

συγκεντρωθούν συντομογραφίες και διαφορές στην ορθογραφία.

Οι Hickey και Rypka στην έρευνά τους υπολόγισαν πως το ποσοστό των διπλών

εγγραφών στη βάση του OCLC ήταν 4,8%. Εντούτοις, διατύπωσαν πως αυτό δεν

ήταν το αληθινό ποσοστό του συνόλου της βάσης, το οποίο εκτίμησαν πως ίσως να

έφθανε και το 7-9%, ανάλογα με τη διευκρίνιση που θα δινόταν στον όρο «διπλή

εγγραφή». Με βάση τον υπολογισμό των διπλών εγγραφών που έγινε με τον

αλγόριθμο αυτό αποδείχθηκε πως απέδιδε περισσότερο από το προηγούμενο

πρόγραμμα MDBUPD κατά 50-90%. Λίγα χρόνια μετά, το 1982, η Wanniker βρήκε

στην ίδια βάση ένα ποσοστό διπλών εγγραφών της τάξης του 19% αλλά εκτίμησε πως

το αληθινό ποσοστό θα ήταν μεταξύ του 19% και του ποσοστού των Hickey και

Rypka, ενώ αρκετά χρόνια αργότερα, το 1990, οι O ’ Neill και Oskins το ποσό αυτό το

υπολόγισαν περίπου στο 11,9% της βάσης.

4.2.5. Online Computer Library Center (OCLC): DDR

92

Page 93: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Το 1990, το OCLC Office of Research παρουσίασε ένα νέο αλγόριθμο για τον

εντοπισμό των διπλών εγγραφών. Πρόκειται για μια offline διαδικασία που

εφαρμόζεται για τις μονογραφίες και τα περιοδικά. Με βάση τη νέα θεώρηση, ο

εντοπισμός των διπλών εγγραφών περιλαμβάνει δύο βήματα (steps) (O ’ Neill and

Oskins 1990 ):

● Πρώτο βήμα. Συσταδοποίηση (clustering), αφορά τον προσδιορισμό και τη

συγκέντρωση των ζευγαριών των εγγραφών που υπάρχει περίπτωση να είναι

διπλές,

● Δεύτερο βήμα. Αξιολόγηση (evaluation), αφορά την εκτίμηση της πιθανότητας

αν ένα δεδομένο ζευγάρι εγγραφών είναι όντως διπλές.

Πρώτο βήμα: Αλγόριθμος συσταδοποίησης (Clustering algorithm)

Οι πιθανές διπλές εγγραφές ομαδοποιούνται με την χρήση ενός κλειδιού τίτλου οκτώ

χαρακτήρων (3, 2, 2, 1),12 αφού πριν τα δεδομένα κανονικοποιηθούν.13 Από τον πλήρη

τίτλο παράγεται ένα κύριο κλειδί (primary key). Ένα εναλλακτικό κλειδί (alternate key)

δημιουργείται είτε από τον κύριο τίτλο είτε από τον ενιαίο τίτλο. Το εναλλακτικό κλειδί

χρησιμοποιείται μόνο εάν είναι διαφορετικό από το κύριο κλειδί.

Όταν ο κύριος και ο ενιαίος τίτλος παράγουν διαφορετικά κλειδιά, χρησιμοποιείται

μόνο το κλειδί που διαμορφώνεται από τον κύριο τίτλο (O ’ Neill and Oskins 1990 ).

12 Αυτό σημαίνει πως χρησιμοποιούνται: ● τα τρία πρώτα γράμματα της πρώτης λέξης, ● τα δύο πρώτα γράμματα της δεύτερης λέξης, ● τα δύο πρώτα γράμματα της τρίτης λέξης, και ● το πρώτο γράμμα της τέταρτης λέξης.

13 Αγνοούνται οι αρχικές λέξεις “a”, “an” και “the”, ανεξάρτητα από τη γλώσσα του βιβλίου, καθώς και όλες οι ακολουθίες ενιαίων κεφαλαίων γραμμάτων συμπιέζονται έτσι ώστε να δημιουργηθεί μια μεμονωμένη λέξη, με αποτέλεσμα αρχικά όπως το Ι. Β. Μ., I.B.M., ή ΙΒΜ να αντιμετωπίζονται ως ταυτόσημα (O’ Neill and Oskins 1990).

93

Page 94: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Σ’ αυτήν την ομαδοποίηση των πιθανών διπλών εγγραφών, συμπεριλαμβάνονται

μόνο οι εγγραφές με ίδια κλειδιά τίτλου. Δεδομένου ότι οι εγγραφές μπορούν να

ζευγαρωθούν με την ταυτοποίηση α) των κύριων κλειδιών, β) κύριων ή εναλλακτικών

κλειδιών, ή γ) μόνο εναλλακτικών κλειδιών, αυτό σημαίνει πως μπορούν να

ζευγαρωθούν περισσότερες από μία φορά. Για να αποτραπεί αυτό, οι

κύριες/εναλλακτικές ταυτοποιήσεις εξετάζονται μόνο για τις εγγραφές με διαφορετικά

κύρια κλειδιά (O ’ Neill and Oskins 1990 ).

Για την ομαδοποίηση αυτή χρησιμοποιούνται επιπλέον επτά στοιχεία: LCCN,

ISBN, χρονολογία έκδοσης, αριθμός σελίδων, συγγραφέας, εκδότης και πλήρης τίτλος.

Οι εγγραφές με ίδια κλειδιά τίτλου, καθώς επίσης και με ταύτιση στα LCCN ή ISBN,

είτε ταυτόχρονα τουλάχιστον σε δύο από τα άλλα πέντε στοιχεία, θεωρούνται ως πιθανά

διπλές (O ’ Neill and Oskins 1990 ).

Δεύτερο βήμα: Αλγόριθμος αξιολόγησης (Evaluation algorithm)

Ο αλγόριθμος αξιολόγησης υπολογίζει την ομοιότητα με την οποία κάθε ζευγάρι

πιθανών διπλών εγγραφών μπορεί να αντιπροσωπεύει το ίδιο βιβλιογραφικό τεκμήριο.

Υπολογίζει την ομοιότητα δύο στοιχειοσειρών. Οι τιμές (values) ομοιότητας

κυμαίνονται από “0,0” για μη ταυτόσημες εγγραφές ως “1,0” για απολύτως όμοιες

εγγραφές. Οι ταυτοποιήσεις με τιμές “1,0” μπορούν να μην είναι ταυτόσημες byte προς

byte δεδομένου ότι οι δευτερεύουσες διαφορές όπως τα διαστήματα, τα κεφαλαία

γράμματα και η στίξη, αγνοούνται (O ’ Neill and Oskins 1990 ).

Συγκρίνονται δεκατέσσερα στοιχεία (Παράρτημα Β΄, Πίνακας 4). Όσο υψηλότερο

είναι το μέτρο ομοιότητάς τους, τόσο πιο πιθανό να πρόκειται για διπλές εγγραφές (O ’

94

Page 95: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Neill and Oskins 1990 ). Τα στοιχεία θεωρούνται μερικές ταυτοποιήσεις (partial

matches) εάν η ομοιότητά τους είναι μεγαλύτερη από 0,85 και λανθασμένες

ταυτοποιήσεις (mismatches) εάν η ομοιότητά τους είναι μικρότερη από 0,85. Όταν τα

στοιχεία έχουν τιμή “1” τότε η ταυτοποίηση θεωρείται πλήρης (complete match). Οι

εγγραφές για τις οποίες δεν στάθηκε δυνατή η αυτοματοποιημένη λήψη απόφασης,

προωθούνται για μη αυτοματοποιημένο έλεγχο από καταλογογράφους.

4.2.5.1. Αποτελέσματα

Από την έρευνα που έκαναν σε δείγμα της βάσης του OCLC οι O ’ Neill και Oskins

(1990), κατέληξαν στις παρακάτω διαπιστώσεις:

● Σχετικά με τον αλγόριθμο συσταδοποίησης: Η ανάκληση της

συσταδοποίησής του υπολογίζεται σε 96% σε αντίθεση με αυτή των

καταλογογράφων που υπολογίζεται σε 59%. Το 4% των περιπτώσεων που ο

αλγόριθμος απέτυχε να ομαδοποιήσει τις διπλές εγγραφές, οφειλόταν σε

διαφορές στις πρώτες τέσσερις λέξεις του τίτλου.

● Σχετικά με τον αλγόριθμο αξιολόγησης: Υπολογίστηκε, πως το 96% των

εντοπισμένων διπλών εγγραφών ήταν όντως διπλές. Εν τέλει η

αποτελεσματικότητά του είναι 56%, δηλαδή τελικά εντοπίζεται το 56% του

συνόλου των διπλών εγγραφών.

Στο ίδιο δείγμα βρέθηκε ακόμη πως:

● το 77,5% των διπλών εγγραφών είχαν τον ίδιο τίτλο, και

● το 50,7% είχαν την ίδια χρονολογία έκδοσης.

95

Page 96: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

4.2.5.2. DDR - Duplicate Detection and Resolution software

Ο αλγόριθμος που παρουσιάστηκε παραπάνω οδήγησε στην δημιουργία του

λογισμικού DDR - Duplicate Detection and Resolution software, το οποίο

αναπτύχθηκε από το OCLC και χρησιμοποιείται για να προσδιορίζει αυτόματα και να

συγχωνεύει τις διπλές εγγραφές που αφορούν βιβλία και περιοδικά στη βάση του

WorldCat και τέθηκε σε εφαρμογή τον Ιούνιο του 1991. Αν και μπορεί να τρέξει και

online, το OCLC έχει επιλέξει να το εφαρμόζει ως μια offline διαδικασία.14

Συγχωνεύει τα ζευγάρια των εγγραφών επιλεκτικά, με βάση την ομοιότητα των

συγκρινόμενων στοιχείων. Τα υπάρχοντα και οι συγκεκριμένες μεταβλητές

μεταφέρονται στην διατηρούμενη εγγραφή. Οι συγχωνεύσεις έχουν επιπτώσεις μόνο

στην κύρια βιβλιογραφική εγγραφή (master record) και τα υπάρχοντα που την

αφορούν. Δεν έχουν επιπτώσεις στις αρχειακές εγγραφές (archival records) και στις

εγγραφές των τοπικών συστημάτων.

Εκτός από το DDR, υπάρχουν και τα προγράμματα Extended matching και

Batchload DDR, που ουσιαστικά αποτελούν διαφορετικές εφαρμογές του DDR και

εφαρμόζονται στις διάφορες υπηρεσίες που προσφέρει το OCLC.

4.2.5.2.1. Αποτελέσματα

14 Επικοινωνία μέσω e-mails με E. O’Neill, OCLC, Consulting Research Scientist (20-25/1/2005)

96

Page 97: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Το πρόγραμμα αυτό «τρέχει» περίπου μία φορά τον χρόνο. Κατά τη διάρκεια των

πρώτων εννιά χρόνων της λειτουργίας του συγχωνεύτηκαν 1.261.470 εγγραφές

(News from OCLC , 2002 ) και υπολογίζεται πως κατά τα τελευταία χρόνια κάθε φορά

που τρέχει συγχωνεύονται περίπου 50-55 χιλιάδες βιβλιογραφικές εγγραφές.

4.2.6. Consortium of University Libraries (CURL): COPAC

Ο COPAC είναι ο ενιαίος κατάλογος των μεγαλύτερων ερευνητικών βιβλιοθηκών

της Μ. Βρετανίας και της Ιρλανδίας που περιέχει τις εγγραφές των μελών του CURL

(Consortium of University Libraries) και βρίσκεται σε λειτουργία από το 1996. Η

διαδικασία που ακολουθείται για τη λύση του προβλήματος των διπλών εγγραφών

στο COPAC, έχει βελτιωθεί με την πάροδο του χρόνο και έτσι τώρα ακολουθεί

ταυτόχρονο δύο ξεχωριστές πρακτικές. Για αυτό τον λόγο, στην εργασία αυτή

παρουσιάζεται σε δύο ξεχωριστά σημεία. Στο παρόν κεφάλαιο παρουσιάζεται η

πρώτη εφαρμοζόμενη πρακτική που αφορά την διαδικασία εντοπισμού και

συγχώνευσης διπλών εγγραφών όπως εφαρμόζεται πλέον μόνο σε ένα μέρος της

βάσης του, ενώ στο Κεφάλαιο 6.1.1 παρουσιάζεται η δεύτερη πρακτική που

εφαρμόζεται στο σύνολο της βάσης κατά τη διάρκεια της διαδικασίας της

αναζήτησης από τον χρήστη.

Η διαδικασία εντοπισμού των διπλών εγγραφών γίνεται offline με την χρήση δύο

σχετικά απλών αλγορίθμων. Αυτό έχει ως αποτέλεσμα τη συγχώνευση των διπλών

εγγραφών και την παραγωγή μιας μοναδικής εγγραφής για κάθε τεκμήριο που

αντιπροσωπεύει τα υπάρχοντα πολλών βιβλιοθηκών. Κατά το σχεδιασμό του

επιλέχθηκε η υιοθέτηση λιγότερο αυστηρών κριτηρίων ώστε να αποφευχθεί, κατά το

97

Page 98: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

δυνατόν, η λανθασμένη ενοποίηση εγγραφών, γεγονός το οποίο θεωρήθηκε

σημαντικότερο από την αποτυχία ανίχνευσής τους ( Cousins 1997 ).

Το παρακάτω σχεδιάγραμμα παρουσιάζει τους δρόμους που μπορεί να

ακολουθήσει μια εγγραφή ακολουθώντας τις διαδικασίες εντοπισμού διπλών

εγγραφών, από την άφιξή της, έως την τελική φόρτωσή της στη βάση (Cousins 1998 :

239).

Σχεδιάγραμμα 1. Διαδρομές εισερχόμενων εγγραφών

Η όλη διαδικασία εκτελείται σε δύο βήματα/στάδια (stages). Στο πρώτο βήμα

γίνεται ένας αρχικός έλεγχος πιθανών διπλών εγγραφών και στο δεύτερο, ακολουθεί

μια πιο λεπτομερής σύγκριση για να διαπιστωθεί ή να απoριφθεί η αρχική

ταυτοποίηση. Αφού επιβεβαιωθεί η ταυτοποίηση μιας εγγραφής με κάποια άλλη, οι

εγγραφές αυτές ενοποιούνται ώστε να σχηματίσουν μια κοινή εγγραφή στο COPAC.

Αρχικά η ανάπτυξη του αλγορίθμου ταυτοποίησης αφορούσε μόνο τις απλές

98

Page 99: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

περιπτώσεις μονογραφιών. Σταδιακά όμως, καθώς εξελισσόταν και βελτιωνόταν ο

αρχικός αλγόριθμος, προστέθηκαν και άλλες λειτουργίες που αφορούσαν τον

χειρισμό πιο σύνθετων τεκμηρίων, όπως τα περιοδικά.

Πρώτο βήμα: Για να εντοπιστούν πιθανές διπλές εγγραφές, οι εισαγόμενες

εγγραφές συγκρίνονται, η κάθε μία ξεχωριστά, με το σύνολο της βάσης. Για να γίνει

αυτό χρησιμοποιούνται δύο μέθοδοι: (Cousins 1998 : 232 )

● Ταυτοποίηση ISBN/ISSN: αυτή η διαδικασία εντοπίζει συστοιχίες

(clusters) εγγραφών που ταυτίζονται, με βάση το ISBN ή το ISSN. Μια

εγγραφή που ενώ διαθέτει ISBN ή ISSN αποτυγχάνει να ταυτοποιηθεί με

κάποια από τις εγγραφές στην υπάρχουσα βάση, ελέγχεται συμπληρωματικά,

με την χρήση της ταυτοποίησης ακρωνύμου συγγραφέα/τίτλου.

● Ταυτοποίηση ακρωνύμου συγγραφέα/τίτλου: οι εγγραφές που δεν

έχουν ISBN ή ISSN και αυτές που έχουν αλλά αποτυγχάνουν να βρουν

κάποια όμοια εγγραφή με την χρήση των πεδίων αυτών, εξετάζονται σε ένα

δεύτερο έλεγχο, με την χρήση ενός ακρωνύμου συγγραφέα/τίτλου 4/4

γραμμάτων και χρονολογίας, π.χ. μια έκδοση του 2001 του East of Eden του

John Steinbeck θα γινόταν stei/east, 2001.

Οι εγγραφές που δεν ταυτοποιούνται με καμιά από τις εγγραφές της βάσης,

προσθέτονται ως ξεχωριστές εγγραφές στη βάση του COPAC. Όσες παράγουν

πιθανές ταυτοποιήσεις προωθούνται στο επόμενο βήμα της διαδικασίας

ταυτοποίησης.

99

Page 100: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Δεύτερο βήμα: Για να επιβεβαιωθεί η ταυτοποίηση μεταξύ πιθανών εγγραφών,

γίνεται ένας αριθμός λεπτομερών ταυτίσεων πεδίων. Τα πεδία που χρησιμοποιούνται

στη διαδικασία αυτή είναι: το ISBN, το ISSN, η χρονολογία, ο τίτλος, ο συγγραφέας,

η έκδοση, η σειρά, οι σελίδες και ο εκδότης (Παράρτημα Β΄, Πίνακας 5). Ο τρόπος

χρήσης τους εξαρτάται από το είδος της αρχικής ταυτοποίησης, καθώς και από την

φύση της εγγραφής. Όσο πιο σύνθετες είναι οι εγγραφές τόσο πιο περίπλοκες είναι οι

διαδικασίες χειρισμού τους.

4.2.6.1. Ταυτοποιήσεις και βαθμολογία

Ταυτοποίηση ISBN/ISSN

Οι εγγραφές της κάθε ξεχωριστής συστοιχίας πιθανών διπλών εγγραφών

ταυτίζονται μεταξύ τους, με την χρήση των προαναφερθέντων πεδίων. Στις

περισσότερες από τις ταυτοποιήσεις αυτές αποδίδεται μια βαθμολογία (score)

(Παράρτημα Β΄, Πίνακας 5) που εξαρτάται από τα πεδία τα οποία ταυτίζονται πρώτα.

Η βαθμολόγηση επιτρέπει στη διαδικασία να αντισταθμίσει τις παραλλαγές στην

καταλογογράφηση όσον αφορά την χρήση του συγγραφέα και του τίτλου.

Η ύπαρξη ευελιξίας των διαδικασιών ταυτοποίησης διασφαλίζει πως η

αυστηρότητα των εφαρμοζόμενων κανόνων δεν θα επιφέρει την απόρριψη κάποιων

σωστών ταυτοποιήσεων όταν κάποια πεδία περιέχουν περισσότερες από μία τιμές

(values), π.χ. τα πεδία χρονολογίας πολύτομων έργων. Στην περίπτωση αυτή, η

ταυτοποίηση γίνεται αποδεκτή εφόσον αντιστοιχεί ένα στοιχείο σε κάθε πεδίο. Πριν

από την ταυτοποίηση αυτών των πεδίων, το κείμενο κανονικοποιείται.15

15 Αφαίρεση στίξης και μη αλφαβητικών χαρακτήρων. Μετατροπή γραμμάτων σε πεζά (conversion to lower case). Οι τίτλοι ταυτοποιούνται με τη χρήση soundex έτσι ώστε να αντισταθμιστούν τουλάχιστον μερικά ορθογραφικά λάθη, καθώς και παραλλαγές στην πρακτική του μεταγραμματισμού

100

Page 101: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Στο τέλος προστίθενται οι βαθμολογίες όλων των πεδίων. Αν επιτευχθεί

συνολικό αποτέλεσμα ίσο ή μεγαλύτερο του 13, τότε στις περισσότερες περιπτώσεις

η εγγραφή προορίζεται για ενοποίηση. Στις περιπτώσεις όμως που η εγγραφή διαθέτει

μνεία έκδοσης πρέπει να γίνει αντιστοίχιση και σ’ αυτό το πεδίο. Αν δεν υπάρχει

ταυτοποίηση στο πεδίο αυτό, τότε οι εγγραφές δεν θεωρούνται διπλές. Με τον ίδιο

ακριβώς τρόπο, πραγματοποιούνται οι έλεγχοι και για τους τόμους σειρών και

πολύτομων έργων (Cousins 1998 : 233 ).

Ταυτοποίηση ακρωνύμων

Όταν η ταυτοποίηση των εγγραφών που εντοπίστηκαν κατά το πρώτο βήμα της

διαδικασίας με βάση το ISBN/ISSN, αποτύχει να επιβεβαιωθεί από τη διαδικασία

ταυτοποίησης πεδίων που ακολουθεί, η εισερχόμενη εγγραφή επιστρέφει στο πρώτο

βήμα της διαδικασίας ταυτοποίησης, ώστε να ελεγχθεί από την αρχή έναντι όλης της

βάσης, αυτή τη φορά όμως με την αυστηρότερη διαδικασία της αντιστοίχισης

ακρωνύμων. Στο σημείο αυτό δεν ορίζονται βαθμολογίες και για κάθε πεδίο η

ταυτοποίηση είναι ένα απλό ΝΑΙ/ΟΧΙ ή ακριβέστερα «περνά»/«αποτυγχάνει»

(pass/fail). Η αντιστοίχιση ακρωνύμων εισάγει την ταυτοποίηση δύο νέων πεδίων:

του εκδότη και του αριθμού σελίδων (Cousins 1998 : 234 ).

● Εκδότης (publisher): Το πεδίο εκδότη χειρίζεται με τρόπο όμοιο των πεδίων

συγγραφέα/τίτλου, αφού πρώτα κανονικοποιηθεί το κείμενο. Αρχικά από το

πεδίο αυτό αφαιρείται ένας αριθμός stopwords. Για να γίνει δεκτή μια

ταυτοποίηση, το όνομα του εκδότη πρέπει να έχει τουλάχιστον μια κοινή

(Cousins 1998 : 233).

101

Page 102: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

υποομάδα λέξεων. Ο ελάχιστος αριθμός λέξεων εξαρτάται από το συνολικό

αριθμό των λέξεων που απέμειναν στο πεδίο. Δηλαδή για να γίνει αποδεκτή

μια αντιστοίχιση του πεδίου αυτού, απαιτούνται οι παρακάτω αριθμοί

ταυτιζόμενων λέξεων:

Σύνολο λέξεων στο όνομα (χ) Αριθμός αντιστοιχούντων λέξεων

x < = 3 > = 1

x = 4 > = 2

x > = 5 x = 3

● Αριθμός σελίδων: Υπάρχουν περιπτώσεις εγγραφών, στις οποίες ο αριθμός

των σελίδων είναι το μόνο στοιχείο με το οποίο μπορούν να διακριθούν. Γι’

αυτό κρίθηκε απαραίτητη η διενέργεια ταυτοποίησης με βάση τον αριθμό των

σελίδων.

4.2.6.2. Αποτελέσματα

Δεν υπάρχουν πληροφορίες σχετικά με τα ποσοστά επιτυχίας, λανθασμένων ή

χαμένων ταυτοποιήσεων από την εφαρμογή των αλγορίθμων που χρησιμοποιούνται

στο COPAC. Αυτό όμως που είναι γνωστό, είναι πως όταν φορτώνεται η βάση μιας

νέας βιβλιοθήκης στον COPAC, καταγράφεται ένας μέσος όρος μείωσης των

μεμονωμένων εγγραφών κατά 50%. Κατά συνέπεια, θεωρείται πως επιτυγχάνονται

καλά επίπεδα εξάλειψης διπλών εγγραφών. Όσον αφορά τις λανθασμένες

ταυτοποιήσεις, αναφέρεται απλώς πως είναι σπάνιες (Cousins 1998 ).

102

Page 103: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Ο COPAC σήμερα συνεχίζει να εφαρμόζει τις διαδικασίες που περιγράφηκαν

παραπάνω, όμως ένα μέρος της διαδικασίας του γίνεται πιο δυναμικά κατά τη

διαδικασία αναζήτησης από τους χρήστες. Το μέρος αυτό της διαδικασίας

παρουσιάζεται στο Κεφάλαιο 6.1.1 «Αλγόριθμοι Δυναμικού Εντοπισμού Διπλών

Εγγραφών (on the fly) - COPAC: εντοπισμός και συγχώνευση εγγραφών κατά την

αναζήτηση».

103

Page 104: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΚΕΦΑΛΑΙΟ ΠΕΜΠΤΟ:

ΑΛΓΟΡΙΘΜΟΙ ΟΜΑΔΟΠΟΙΗΣΗΣ ΕΚΔΗΛΩΣΕΩΝ ΤΕΚΜΗΡΙΩΝ

5.1. Ομαδοποίηση εκδηλώσεων τεκμηρίων

Οι αλγόριθμοι που παρουσιάστηκαν έως τώρα αφορούσαν διαδικασίες ενός ή δύο

βημάτων που αρχικά εντοπίζουν τις διπλές εγγραφές και ακολουθεί το τελικό στάδιο

της διαγραφής ή της συγχώνευσή τους. Μία διαφορετική προσέγγιση που έχει

απασχολήσει την κοινότητα των βιβλιοθηκών, είναι αυτή των σχέσεων μεταξύ των

τεκμηρίων και της ομαδοποίησης των ισοδύναμων ή διαφορετικών εκδηλώσεών τους

(manifestation). Ως εκδήλωση ενός τεκμηρίου, ορίζεται μια εκδοχή ή μια έκδοσή του

η οποία δεν διαφέρει σημαντικά από μια άλλη εκδοχή ή έκδοσή του με κάποιον τρόπο

που να θεωρείται αρκούντως σημαντικός από τους περισσότερους χρήστες (Yee 1994

: 246).

Η B . Tillett (1991 : 27-28), ορίζει την παρακάτω ταξινομία σχέσεων μεταξύ των

βιβλιογραφικών εγγραφών:

● Σχέση ισοδυναμίας (Equivalence relationship). Υπάρχει όταν περιγράφεται

το ίδιο τεκμήριο αλλά σε διαφορετικό μέσο, π.χ. αναπαραγωγή, μικροφίλμ,

πρωτότυπο βιβλίο.

● Παράγωγη σχέση (Derivative relationship). Υπάρχει μεταξύ εκδοχών ενός

κειμένου, π.χ. διαφορετικές εκδόσεις, προσαρμογές, διασκευές.

● Αναφορικές σχέσεις (Referential relationships). Υπάρχει όταν ένα τεκμήριο

περιέχει ρητώς μια αναφορά ή μια σύνδεση σε ένα άλλο τεκμήριο, π.χ.

κριτικές, περιλήψεις και άλλες δευτερεύουσες αναφορές.

104

Page 105: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

● Διάδοχη σχέση (Sequential relationships). Υπάρχει μεταξύ του συνόλου και

των μερών ενός συγκεκριμένου έργου, π.χ. η σχέση μεταξύ ενός βιβλίου και

των κεφαλαίων του.

● Σχέση «Κοινών χαρακτηριστικών» (“Shared characteristic” relationship).

Υπάρχει μεταξύ βιβλιογραφικών εγγραφών που έχουν την ίδια αξία σε ένα

συγκεκριμένο επιστημονικό πεδίο.

Σύμφωνα μη την προσέγγιση αυτή, το ζητούμενο από τον χρήστη δεν είναι να

εντοπίσει ξεχωριστά όλες τις διαφορετικές εκδοχές ενός έργου. Αυτό αποτελεί το

ζητούμενο μόνο μιας αρκετά περιορισμένης ομάδας ειδικών ή βιβλιογράφων.

Αντίθετα, το ζητούμενο είναι η δημιουργία ενός συστήματος που μπορεί να

συγκεντρώνει όλες τις εκδηλώσεις ενός τεκμηρίου και σε δεύτερη φάση να μπορεί ο

χρήστης να επιλέγει τις μορφές που επιθυμεί. Τα πλεονεκτήματα αυτής της μεθόδου

είναι:

● Δυνατότητα εξέτασης σε μια ενιαία εγγραφή του συνόλου των εγγραφών που

σχετίζονται με ένα τεκμήριο.

● Συγκέντρωση υλικού σε ομάδες ανεξάρτητα από το είδος της έκδοσης, το

μέσο και το μορφότυπο αποθήκευσης.

● Μειώνεται η υπερφόρτωση πληροφοριών που προκαλείται από την ανάκτηση

εκ μέρους των χρηστών πληθώρας εγγραφών και μπορεί να προκαλέσουν

σύγχυση ή να αποτελέσουν ανασταλτικό παράγοντα για τη συνέχιση της

έρευνας εκ μέρους τους χρήστη.

● Μια εκδήλωση μπορεί να είναι μέρος πολλών ομάδων.

● Δεν αφαιρείται καμιά εγγραφή, άρα δεν χάνονται πληροφορίες.

105

Page 106: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

● Αν και δεν υπάρχει φυσική συγχώνευση, οι εγγραφές της ίδιας

ομάδας/συστάδας αποκτούν αυτόματα όλα τα καταχωρημένα σημεία

πρόσβασης που είναι διαθέσιμα στη συστάδα.

● Ανεξαρτησία στις ακολουθούμενες πολιτικές εκ μέρους των συμμετεχόντων

συλλογών.

Ως μειονεκτήματά αυτής της προσέγγισης μπορούν να αναφερθούν πως:

● Δεν υπάρχει ουσιαστικός καθαρισμός της βάσης από τις διπλές εγγραφές.

● Η υπερφόρτωση πληροφοριών συνεχίζει να υφίσταται, αφού οι χρήστες

μπορούν να συναντήσουν την ίδια εκδήλωση σε διαφορετικές συστάδες.

Τα δύο προγράμματα που παρουσιάζονται παρακάτω (του J. A. Hylton και της

RLG), προσπαθούν να διαχειριστούν αυτό ακριβώς το πρόβλημα της ομαδοποίησης

εκδηλώσεων ενός τεκμηρίου.

5.1.1. Αλγόριθμος του J. A. Hylton

Ο Jeremy A. Hylton στην μεταπτυχιακή του εργασία “Identifying and merging

related bibliographic records ” που κατατέθηκε στο Μ.Ι.Τ. Laboratory of Computer

Science (1996), εστιάζει την προσοχή του στον εντοπισμό σχετικών και όχι απλώς

ταυτόσημων ή όμοιων βιβλιογραφικών εγγραφών ενός τεκμηρίου σε μια ψηφιακή

συλλογή και προσανατολίζεται στη δημιουργία «φακέλων πληροφοριών»

(information dossier). Σε εργαστηριακό περιβάλλον, δημιούργησε έναν αλγόριθμο

συσταδοποίησης σχετιζομένων βιβλιογραφικών εγγραφών που περιγράφουν το ίδιο

έργο που επιτυγχάνεται με την χρήση στοιχείων από τα πεδία του συγγραφέα και του

106

Page 107: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

τίτλου. Στο τέλος της διαδικασίας δημιουργείται μια ενιαία/σύνθετη εγγραφή, που

προέρχεται από τις εγγραφές που ορίστηκαν πως είναι όμοιες. Οι συστοιχίες

(clusters) που παράγονται από τον αλγόριθμο μπορούν να περιλάβουν πολλές

εκδηλώσεις, δηλαδή διαφορετικές αλλά σχετικές μεταξύ τους εγγραφές. Ο

αλγόριθμος αυτός δεν εκτελεί μια πλήρως αυτοματοποιημένη εργασία σε πραγματικό

χρόνο, αλλά προσπαθεί να θέσει τις βάσεις προς μια τέτοια κατεύθυνση.

Είναι σχεδιασμένος έτσι ώστε να μην απαιτείται η σύγκριση κάθε εγγραφής με

κάθε μία από τις άλλες υπάρχουσες εγγραφές. Κατά την εξέταση ταυτοποίησης

προσπαθεί να αντιμετωπίσει το πρόβλημα των ορθογραφικών και τυπογραφικών

λαθών καθώς και τις παραλλαγές στις πρακτικές της καταλογογράφησης.

Χρησιμοποιεί δύο βήματα/γύρους (rounds) συγκρίσεων.

Στο πρώτο βήμα, γίνεται αναζήτηση στο πλήρες κείμενο των πεδίων συγγραφέα

και τίτλου και δημιουργείται ένα αρχείο/δεξαμενή (pool) που περιέχει όλες τις

πιθανές διπλές εγγραφές της συλλογής. Στην φάση αυτή γίνονται τρεις διαφορετικές

αναζητήσεις με λέξεις που επιλέγονται τυχαία από τα παραπάνω πεδία της πηγαίας

εγγραφής.16 Κάθε αναζήτηση περιλαμβάνει τα επίθετα των συγγραφέων και δύο

λέξεις από το πεδίο του τίτλου. Οι λέξεις από τον τίτλο που αποτελούνται από έναν ή

δύο χαρακτήρες ή βρίσκονται στην stoplist (η οποία περιλαμβάνει τις 50 πιο

συνηθισμένες λέξεις) αγνοούνται. Όταν δεν υπάρχουν αρκετές λέξεις που επιτρέπουν

την εκτέλεση των τριών αναζητήσεων, οι αναζητήσεις χρησιμοποιούν λιγότερες

λέξεις ή ακόμη υπάρχει και η περίπτωση να γίνει μόνο μία ή δύο αναζητήσεις αντί

των τριών (Hylton 1996 : 44 ).

16 Πηγαία εγγραφή είναι αυτή για την οποία γίνεται η διαδικασία ταυτοποίησης μέσα σε μια βάση.

107

Page 108: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Στο δεύτερο βήμα, με την χρήση στοιχείων από τα πεδία του συγγραφέα και του

τίτλου, κάθε πιθανή ταυτοποίηση που βρίσκεται στο αρχείο συγκρίνεται με την

πηγαία εγγραφή και δημιουργείται μια συστοιχία των εγγραφών που ταυτοποιούνται.

Για τη σύγκριση αυτή των δύο πεδίων εφαρμόζεται μια ταυτοποίηση που βασίζεται

σε ένα αλγόριθμο ταυτοποίησης στοιχειοσειράς (string), λόγω του οποίου

επιτυγχάνεται ανεκτικότητα σε λάθη που αφορούν τη μορφή της εγγραφής καθώς και

σε τυπογραφικά λάθη και παραλήψεις λέξεων (Hylton 1996 : 44 ). Πριν την

επεξεργασία γίνεται η κανονικοποίηση των χαρακτήρων.17

Για τη σύγκριση των ονομάτων δύο συγγραφέων, οι δύο στοιχειοσειρές

χωρίζονται σε τέσσερα μέρη: μικρό όνομα, δεύτερο μικρό όνομα (middle name),

επίθετο και επίθεμα (π.χ. Jr.). Για να ταυτίζονται τα ονόματα αυτά πρέπει να ισχύει

ένα από τα παρακάτω (Hylton 1996 : 45-46 ):

● Η σύγκριση trigram να αναφέρει πως οι στοιχειοσειρές είναι όμοιες.

● Μια από τις στοιχειοσειρές είναι αρχικό (initial) και η άλλη είναι όνομα

που ξεκινά με αρχικό, ή και οι δύο στοιχειοσειρές είναι το ίδιο αρχικό.

● Και οι δύο στοιχειοσειρές είναι κενά.

Με βάση την διαδικασία αυτή τα ονόματα “G. Steel” και «Guy L. Steele Jr.”

θεωρούνται όμοια, ενώ τα ονόματα “B. Clifford Neuman” και “Clifford Neuman” δεν

θεωρούνται όμοια.

Ο αριθμός των συγκρίσεων που γίνονται εξαρτάται από τον αριθμό των εγγραφών

που βρίσκονται στο αρχείο πιθανών διπλών εγγραφών, το οποίο παρατηρήθηκε πως

συνήθως δεν ξεπερνά τις 30 εγγραφές (Hylton 1996 : 49 ).17 Μετατροπή γραμμάτων σε κεφαλαία, αφαίρεση στίξης.

108

Page 109: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

5.1.1.1. Αποτελέσματα

Ο αλγόριθμος για τη δημιουργία συστοιχιών τίτλου/συγγραφέα μπορεί να

αποτύχει με δύο τρόπους: α) μπορεί να δημιουργήσει συστοιχίες που περιέχουν

εγγραφές που αντιπροσωπεύουν περισσότερα από ένα τεκμήρια (λάθος ταυτοποίηση)

και β) μπορεί να δημιουργήσει δύο διαφορετικές συστοιχίες που και οι δύο περιέχουν

εγγραφές που αντιπροσωπεύουν το ίδιο τεκμήριο (χαμένη ταυτοποίηση) (Hylton 1996

: 55). Τα αποτελέσματα του δείγματος που μελετήθηκε έδειξαν πως ο αλγόριθμος

αποδίδει με αποτελεσματικότητα που ξεπερνάει το 90% (Hylton 1996 : 91-92 ) πως οι

λανθασμένες ταυτοποιήσεις είναι λιγότερες από το 1% του συνόλου, το δε ποσοστό

των χαμένων ταυτοποιήσεων κινήθηκε γύρω στο 5% (Hylton 1996 : 55 ). Αν και ο

αλγόριθμος του Hylton μπορεί να είναι ανεπαρκής όταν πρέπει να αντιμετωπίσει

μερικές από τις διφορούμενες εγγραφές που μπορούν να βρεθούν στα μεγάλα

συστήματα καταλόγων βιβλιοθηκών, εν τούτοις θεωρείται σημαντική η έμφαση που

δίνει στο ζήτημα της συγκέντρωσης διαφορετικών φυσικών αντιγράφων ενός

τεκμηρίου (Tennant 2002 ).

5.1.2. Research Library Group (RLG): RLIN

Το RLIN (Research Libraries Information Network) είναι η βιβλιογραφική βάση

της RLG των ΗΠΑ, η οποία κατά την τρέχουσα περίοδο βρίσκεται στην μετάβασή

της στο νέο RLIN21. Τον Μάρτιο του 2005 ολοκληρώθηκε η μετάβαση και η

μεταφορά όλων των βάσεων δεδομένων που υπήρχαν από το RLIN στο RLIN21. Η

δομή και η φιλοσοφία των συστάδων (clusters) στην οποία βασιζόταν η οργάνωση

της βάσης των βιβλιογραφικών εγγραφών, παρόλα αυτά, παραμένει η ίδια. Οι

109

Page 110: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

διαδικασίες εντοπισμού διπλών εγγραφών που εφαρμόζονται δεν αφορούν μόνο τις

μονογραφίες αλλά και άλλου είδους υλικό όπως περιοδικές πηγές, χάρτες,

ηλεκτρονικές πηγές, ηχογραφήσεις, παρτιτούρες και οπτικό υλικό.

Στον Ενιαίο Κατάλογο της RLG διατηρείται κάθε μεμονωμένη βιβλιογραφική

εγγραφή που αφορά την ίδια εκδήλωση. Οι εγγραφές για την ίδια εκδήλωση

συγκεντρώνονται σε συστάδες και οι χρήστες της RLG έχουν πρόσβαση στην

εγγραφή της κάθε βιβλιοθήκης. Λόγω αυτής της δομής της βάσης, αν και

εφαρμόζεται ένας αλγόριθμος ταυτοποίησης για την ομαδοποίηση των εγγραφών σε

συστάδες, ουσιαστικά οι εγγραφές αυτές δεν θεωρούνται διπλές από το σύστημα και

δεν οδηγούνται στη διαγραφή ή τη συγχώνευσή τους.

Κάθε συστάδα περιέχει το αντίγραφο κάθε βιβλιοθήκης για την εγγραφή μιας

συγκεκριμένης εκδήλωσης ενός βιβλιογραφικού τεκμηρίου. Μια εγγραφή στην

συστάδα ορίζεται ως το κύριο μέλος συστάδας (primary cluster member - PCM). Ως

PCM θεωρείται η πληρέστερη εγγραφή μιας συστάδας ή αυτή που φέρει κάποια

ιδιαίτερα χαρακτηριστικά όπως αυτά έχουν καθοριστεί εκ των προτέρων από τους

καταλογογράφους. Οι άλλες εγγραφές σε μια συστάδα, εάν υπάρχουν, είναι τα

δευτερεύοντα μέλη συστάδας (secondary cluster member). Οι συστάδες αυτές

περιλαμβάνουν εγγραφές όλων των τύπων τεκμηρίων, εκτός των αρχειακών

συλλογών και των μικτών τεκμηρίων. Για παράδειγμα στην ίδια συστάδα μπορούν να

βρίσκονται σύνθετα τεκμήρια που περιέχουν ηλεκτρονικά συστατικά (CD-ROMs) τα

οποία μπορούν να καταλογογραφηθούν ως αρχεία υπολογιστή (computer files) αλλά

και ως οπτικό υλικό (visual materials). Η κάθε συστάδα αντιπροσωπεύει μια

ευδιάκριτη έκδοση ενός έργου, παρόλα αυτά, η κάθε βιβλιοθήκη μπορεί να

110

Page 111: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

καταχωρήσει τα αντίγραφά της διαφορετικά, με συνέπεια να υπάρχουν περισσότερες

από μια συστάδες για κάθε έκδοση. Πρέπει να διευκρινιστεί πως οι κύριες αναγραφές,

οι πρόσθετες αναγραφές, οι αναγραφές σειράς, οι θεματικές επικεφαλίδες και πολλά

ακόμη πεδία, παρόλο που ευρετηριάζονται δεν χρησιμοποιούνται για να ορίσουν από

μόνα τους μια συστάδα.18

Το σύνολο των διαδικασιών είναι μια επεξεργασία δέσμης (offline) και εκτελείται

ως μέρος της συνολικής επεξεργασίας των εγγραφών και της ευρετηρίασής τους.

Αυτό γίνεται κατά τη διάρκεια της νύχτας για όλες τις εγγραφές που προστίθενται στο

αρχείο κατά την διάρκεια της εργάσιμης μέρας. Διατηρούνται σε ένα ξεχωριστό

αρχείο και επεξεργάζονται το βράδυ. Μετά την ολοκλήρωση της μεταφοράς των

δεδομένων σε νέα βάση, σχεδιάζεται να εκτελείται περισσότερες από μία φορές κατά

τη διάρκεια της ημέρας για τις νεοεισερχόμενες εγγραφές.19

Διαδικασία συσταδοποίησης (clustering)

Στο πρώτο βήμα, η διαδικασία της συσταδοποίησης εφαρμόζεται για να

καθοριστεί εάν η νέα εγγραφή αφορά μια ήδη υπάρχουσα εκδήλωση που υπάρχει ήδη

στη βάση και ακολουθεί η σύγκρισή της με βάση το ISBN/ ISSN, το LCCN ή τον

τίτλο, με τις εγγραφές που υπάρχουν ήδη στο αρχείο για να οριστεί έτσι εάν η

νεοεισερχόμενη εγγραφή μπορεί να γίνει μέρος μιας υπάρχουσας συστάδας. Η

ταυτοποίηση στις τιμές σε οποιοιδήποτε από αυτά τα πεδία, υποδεικνύει μια πιθανή

συστάδα.

18 Record clustering in the RLG Union Catalog [Διαθέσιμο από http://www.rlg.org/en/page.php?Page_ID=20508, 2005 (Ημερομηνία πρόσβασης: 21/1/2005)]19 Επικοινωνία μέσω e-mails με Ed Glazier, RLG, Senior Analyst (13-23/1/2005)

111

Page 112: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Για το λόγο, ακολουθεί το δεύτερο βήμα όπου συγκρίνονται διάφορα πεδία της

νέας εγγραφής με το PCM της συστάδας.20

Το σύνολο των πεδίων και υποπεδίων που χρησιμοποιούνται από τον αλγόριθμο

του RLIN για όλα τα είδη τεκμηρίων παρουσιάζονται στο Παράρτημα Β΄ (Πίνακες

6.1 - 6.7). Ο ορισμός της ταυτοποίησης εξαρτάται από το συγκεκριμένο πεδίο.

Συνήθως οι κύριες αναγραφές, δηλαδή τα πεδία 1ΧΧ, δεν χρησιμοποιούνται για τον

ορισμό της συστάδας στην οποία θα καταχωρηθεί κάθε εγγραφή, αφού έτσι μπορούν

να συμπεριληφθούν στην ίδια συστάδα παλαιότερες και νεότερες εγγραφές που

διαφέρουν εξαιτίας της αλλαγής στους κανόνες καταλογογράφησης, αλλά και της

διαφοροποίησης των καθιερωμένων όρων. Οι κύριες αναγραφές χρησιμοποιούνται

μόνο στην περίπτωση τεκμηρίων που αφορούν βιβλία, περιοδικά και ηλεκτρονικές

πηγές. Αν μια λέξη του τίτλου τους, μεγαλύτερη των τριών χαρακτήρων ανήκει σε

ένα καθορισμένο σύνολο stopwords, τότε συγκρίνονται οι κύριες αναγραφές.21 Η

σύγκριση γίνεται με βάση τον πιο σύντομο τίτλο.

Εάν μια εγγραφή μπορεί να γίνει μέρος μιας υπάρχουσας συστάδας, τότε τα

σημεία πρόσβασής της προσδιορίζονται και συγκρίνονται με τα σημεία πρόσβασης

που δημιουργήθηκαν ήδη για τις άλλες εγγραφές της συστάδας. Γενικά θα είναι τα

ίδια, αν και προστίθενται και άλλα σημεία πρόσβασης στη συστάδα για τις θεματικές

επικεφαλίδες και τους ταξινομικούς αριθμούς της εισερχόμενης εγγραφής που δεν

αντιπροσωπεύονταν ως τώρα. Η αναζήτηση οποιουδήποτε σημείου πρόσβασης θα

ανακτήσει ολόκληρη τη συστάδα, ακόμα κι αν το συγκεκριμένο πεδίο που

20 Record clustering in the RLG Union Catalog [Διαθέσιμο από http://www.rlg.org/en/page.php?Page_ID=20508, 2005 (Ημερομηνία πρόσβασης: 21/1/2005)]

21 Record clustering in the RLG Union Catalog, ο. π.

112

Page 113: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

αναζητήθηκε δεν είναι σε όλες τις εγγραφές. Πριν τη σύγκριση των πεδίων,

προηγείται κανονικοποίηση.22 Στην περίπτωση που η εγγραφή δεν μπορέσει να

καταχωρηθεί σε κάποια άλλη συστάδα, τότε αποτελεί την πρώτη εγγραφή μιας νέας

συστάδας.

22 Μετατροπή των γραμμάτων σε κεφαλαία, αφαίρεση σημείων στίξης, αφαίρεση κοινών λέξεων από κάποια πεδία.

113

Page 114: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΚΕΦΑΛΑΙΟ ΕΚΤΟ:

ΑΛΓΟΡΙΘΜΟΙ ΔΥΝΑΜΙΚΟΥ ΕΝΤΟΠΙΣΜΟΥ ΔΙΠΛΩΝ ΕΓΓΡΑΦΩΝ

(ON THE FLY)

6.1. Εντοπισμός και συγχώνευση κατά τη διάρκεια της διαδικασίας

Όλες οι διαδικασίες εφαρμογής αλγορίθμων για τον εντοπισμό διπλών εγγραφών,

έχουν ως ουσιαστικό στόχο τους την αφαίρεση, την ενοποίηση ή την ομαδοποίησή

τους. Υπάρχει όμως και μια άλλη πρακτική που ακολουθείται. Πρόκειται για την

εφαρμογή των εργασιών αυτών κατά τη «διάρκεια της διαδικασίας» (on the fly).

Αυτό σημαίνει πως ο εντοπισμός και η συγχώνευση των διπλών εγγραφών γίνεται

κατά διάρκεια της αναζήτησης (π.χ. στον COPAC) ή της ανάκτησης (π.χ. στο

MELVYL). Το αποτέλεσμα της μεθόδου αυτής δεν είναι η φυσική ενοποίηση των

εγγραφών στη βάση, αλλά απλώς η προσωρινή ή η «εικονική» ενοποίησή τους για

λόγους παρουσίασης στον χρήστη.

Τα πλεονεκτήματα αυτής της μεθόδου, ανάλογα με την σημαντικότητά τους, είναι

τα εξής:

● Απλοποιούνται και επιταχύνονται οι διαδικασίες ελέγχου και συγχώνευσης.

● Παρέχει τη δυνατότητα ταυτόχρονου εντοπισμού και ενοποίησης διπλών

εγγραφών από πολλαπλές πηγές σε πραγματικό χρόνο.

● Αποφεύγεται η περίπτωση να χαθούν χρήσιμες πληροφορίες που υπήρχαν σε

κάποιες από τις εγγραφές (αφού ουσιαστικά δεν υπάρχει συγχώνευση

πληροφοριών).

● Προσφέρει μεγαλύτερη ανεξαρτησία στη διαχείριση μεμονωμένων βάσεων.

114

Page 115: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

● Δεν επιβαρύνει οικονομικά το σύστημα, αφού είναι πλήρως

αυτοματοποιημένη και δεν εμπλέκεται καθόλου ο ανθρώπινος παράγοντας.

H αφαίρεση των διπλών εγγραφών κατά τη διάρκεια της διαδικασίας αναζήτησης

ή ανάκτησης παρουσιάζει όμως και μειονεκτήματα:

● Επιβραδύνει την εμφάνιση των αποτελεσμάτων, γεγονός που κάνει την

απόδοση της ανάκλησης πιο αργή από ότι το σύστημα θα ήταν σε θέση να

κάνει σε άλλη περίπτωση.

● Υπάρχει ένα ανώτερο όριο στον αριθμό των εγγραφών που ενοποιούνται κατά

τη διάρκεια της διαδικασίας (π.χ. στον COPAC ορίζεται στις 750 εγγραφές).

● Επειδή στην πραγματικότητα δεν ενοποιούνται οι εγγραφές, αλλά απλώς

εμφανίζεται μια εγγραφή που συμπεριλαμβάνει όλες στις πληροφορίες

υπαρχόντων όλων των άλλων εγγραφών ή επιλέγεται για εμφάνιση η

πληρέστερη των εγγραφών, υπάρχει περίπτωση απώλειας χρήσιμων

πρόσθετων λεπτομερειών που δεν θα εμφανιστούν στον χρήστη.

● Η ενοποίηση κατά τη διάρκεια της αναζήτησης είναι απλά ένας τρόπος

επεξεργασίας των ανακτημένων εγγραφών (και όχι επεξεργασίας της βάσης

αυτής καθ’ αυτής), γεγονός που δεν προσφέρει κάποια βελτίωση στα

ανακτημένα αποτελέσματα.

● Δεν έχει ως αποτέλεσμα την ουσιαστική καθαρότητα της βάσης.

Ακολουθεί η παρουσίαση δύο προγραμμάτων που εφαρμόζουν τη μέθοδο της

on the fly συγχώνευσης των διπλών εγγραφών, το COPAC (κατά την αναζήτηση)

και το MELVYL (κατά την ανάκτηση)

115

Page 116: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

6.1.1. COPAC: εντοπισμός και συγχώνευση εγγραφών κατά την αναζήτηση

O COPAC (CURL [Consortium of University Libraries] OPAC) πλέον

χρησιμοποιεί το πρωτόκολλο Z39.50. Το κομμάτι του λογισμικού που αφορά την

ταυτοποίηση των εγγραφών είναι ένα αναπόσπαστο στοιχείο της γενικότερης

διαδικασίας φόρτωσης των δεδομένων και των διαδικασιών αναζήτησης. Η

διαδικασία αν και άλλαξε με το πέρασμα του χρόνου, π.χ. υιοθετήθηκαν ειδικοί

«κανόνες» για τις εγγραφές περιοδικών, παρόλα αυτά, η γενικές αρχές παραμένουν

ίδιες με αυτές που εφαρμόζονται στον COPAC από το 1996.

Το μεγαλύτερο μέρος της διαδικασίας εντοπισμού και ενοποίησης των διπλών

εγγραφών συνεχίζει και σήμερα να γίνεται offline ακολουθώντας τις διαδικασίες που

έχουν ήδη περιγραφεί στο Κεφάλαιο 4.2.6. Δεδομένου όμως πως οι εγγραφές του

COPAC έχουν πολλαπλασιαστεί κατά πολύ, έχουν επέλθει κάποιες αλλαγές. Η

ταυτοποίηση των εγγραφών και η ενοποίησή τους είναι μια σχετικά αργή διαδικασία

και καθώς ο αριθμός των καταλόγων του COPAC αυξήθηκε, η διαρκής ενημέρωσή

του έγινε ακόμη δυσκολότερη ιδιαίτερα όσον αφορά την ενοποίησή τους, όπου ο

απαιτούμενος χρόνος κάνει δυνατή την πρόσθεση μόνο των εγγραφών μιας

βιβλιοθήκης την κάθε φορά. Για να αποφευχθεί αυτό το πρόβλημα, εφαρμόζεται μια

διαδικασία τριών ρευμάτων φόρτωσης (loading streams) δεδομένων, η οποία όμως

οδηγεί στην δημιουργία τριών τμημάτων (segments) στη βάση:23

● το ένα είναι μόνο για τα δεδομένα της British Library, οι εγγραφές της οποίας

δεν ενοποιούνται, καθώς σ’ αυτό το τμήμα υπάρχει μόνο μια βιβλιοθήκη, και

23 Οι πληροφορίες αυτές προέρχονται από επικοινωνία μέσω e-mail με την S. Cousins, Copac Service, Manchester Computing, University of Manchester (11/1/2005)

116

Page 117: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

● τα άλλα δύο ρεύματα φόρτωσης, το καθένα από τα οποία αφορά περίπου τις

μισές από τις άλλες βιβλιοθήκες, οι εγγραφές στο εσωτερικό των οποίων

ενοποιούνται κατά τη διάρκεια της φόρτωσής τους στο συγκεκριμένο τμήμα

με την διαδικασία που περιγράφτηκε στο Κεφάλαιο 4.2.6.

Έτσι, εν τέλει, δημιουργείται ένα σύνολο δεδομένων της British Library συν δύο

ξεχωριστά σύνολα, τα οποία όμως σε αντίθεση με αυτό της British Library, έχουν τις

εγγραφές στο εσωτερικό τους ενοποιημένες. Δεν υπάρχει καμιά ενοποίηση των

εγγραφών μεταξύ των τριών αυτών τμημάτων κατά τον χρόνο της φόρτωσής τους,

γεγονός που σημαίνει πως τώρα πλέον μπορεί μεν να εφαρμόζεται κάποιος

καθαρισμός στο εσωτερικό των τμημάτων, παρατηρείται όμως ύπαρξη διπλών

εγγραφών μεταξύ τους. Για να αποφευχθεί αυτό, έγινε απλούστερος ο έλεγχος των

διπλών εγγραφών ο οποίος γίνεται κατά τη διάρκεια της διαδικασίας της αναζήτησης

(on the fly). Όταν ένας χρήστης πραγματοποιεί μια αναζήτηση, πριν εμφανιστεί από

το σύστημα το σύνολο των αποτελεσμάτων, ελέγχεται για διπλές εγγραφές. Όταν σε

ένα σύνολο αποτελεσμάτων βρεθούν διπλές εγγραφές, εμφανίζεται στον χρήστη μόνο

μια εγγραφή από αυτές, συμπεριλαμβανομένων όλων των πληροφοριών των

υπαρχόντων από τις άλλες εγγραφές που υπάρχουν στο εσωτερικό του. Έτσι, ο

τρόπος που διενεργείται η ενοποίηση κατά τον χρόνο φόρτωσης, σε συνδυασμό με τη

διαδικασία ενοποίησης κατά την διάρκεια της αναζήτησης του χρήστη, αποτελεί

ουσιαστικά έναν «συμβιβασμό» όσον αφορά τον πραγματικό εντοπισμό και τη

συγχώνευση διπλών εγγραφών μεγάλων ποσοτήτων δεδομένων.

117

Page 118: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

6.1.2. MELVYL: εντοπισμός και συγχώνευση εγγραφών κατά την ανάκτηση

Το σύστημα βιβλιοθηκών του University of California (UC) θέλοντας να αλλάξει

το παλιό λογισμικό του καταλόγου MELVYL, συνεργάστηκε με την εταιρία Ex

Libris για την δημιουργία ενός ενιαίου καταλόγου βασισμένου στο πρόγραμμα

ALEPH 500, σχεδιασμένου έτσι ώστε να μπορεί να υποστηρίξει και να αναγνωρίσει

ετερογενή συστήματα. Υποστηρίζει ένα σύνολο από δέκα τοπικά συστήματα και μια

ποικιλία παραμέτρων και πινάκων ελέγχου, τα οποία εκτελούν τη συγχώνευση των

διπλών εγγραφών κατά τη διαδικασία της ανάκτησης (on the fly). Τα βιβλιογραφικά

στοιχεία από όλα τα συστήματα βιβλιοθηκών του Πανεπιστημίου εξάγονται και

φορτώνονται σε συνεχή βάση στο MELVYL. Το UC προτίμησε να μη συγχωνεύει

φυσικά τις εγγραφές αλλά να τις συγχωνεύει και να τις παρουσιάζει δυναμικά κατά τη

διαδικασία αναζήτησης.24

Ο αλγόριθμος εντοπισμού και συγχώνευσης διπλών εγγραφών που

χρησιμοποιείται στο MELVYL, αποτελεί τη συνέχεια της εργασίας των Coyle και

Gallaher-Brown, που η εφαρμογή της ξεκίνησε τον Οκτώβριο του 1984. Η τρέχουσα

εφαρμογή του αποτελεί μια βελτιωμένη και τροποποιημένη μορφή, η οποία έχει

προσαρμοστεί κατάλληλα ώστε να χρησιμοποιηθεί από την νέα εκδοχή του

MELVYL. Η εφαρμογή του ξεκίνησε τον Απρίλιο του 2003 και εμφανίστηκε

δημόσια τον Σεπτέμβριο του 2003 ως μέρος του «νέου» MELVYL. Εκτός από τις

εγγραφές βιβλίων και περιοδικών, εφαρμόζεται και σε αναλυτικές εγγραφές (in-

analytics), δηλαδή άρθρα περιοδικών ή μέρη μιας συλλογής, καθώς και σε χάρτες και

άλλα τεκμήρια για τα οποία χρησιμοποιείται ο αλγόριθμος των μονογραφιών. Ο

24 ALEPH 500 in the consortial environment [Διαθέσιμο στο www . exlibris - usa . com (Ημερομηνία πρόσβασης: 18/1/2005)]

118

Page 119: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

αλγόριθμος εφαρμόζεται κατά τη διάρκεια της φόρτωσης κάθε νέας εγγραφής στη

βάση του MELVYL, ουσιαστικά δηλαδή λειτουργεί offline. Το σύστημα δεν

συγχωνεύει φυσικά την εγγραφή με κάποια άλλη ή άλλες. Κάθε φορά που

φορτώνεται μια νέα εγγραφή εντοπίζονται οι πιθανές όμοιές της και το αποτέλεσμα

σώζεται σε έναν πίνακα της Oracle. Η πληροφορία αυτή χρησιμοποιείται για την

παρουσίαση των «συγχωνευμένων» εγγραφών στην οθόνη του υπολογιστή. Αν μια

εγγραφή ταιριάζει με μια αναζήτηση ενός χρήστη, τότε αυτόματα γίνεται ένας

έλεγχος σ’ αυτόν τον πίνακα και ανασύρεται η κατάλληλη εγγραφή που τελικά θα

ανακτηθεί.25

Βαθμολογία

Από τις συγκρίσεις που γίνονται οι εγγραφές λαμβάνουν μια βαθμολογία και

καθορίζεται ένα κατώφλι, το οποίο πρέπει να αγγίζει η βαθμολογία ώστε οι εγγραφές

να θεωρηθούν διπλές. Σε διαφορετικά στοιχεία δεδομένων αποδίδονται διαφορετικές

τιμές (values) και σε διάφορα σημεία της διαδικασίας υπολογίζεται το σύνολο της

βαθμολογίας ώστε να ληφθούν αποφάσεις για τη συνέχισή της. Ο πίνακας των

βαθμών που χρησιμοποιείται στο MELVYL επιτρέπει την απόδοση έως και πέντε

διαφορετικών αρνητικών και θετικών βαθμών, εκτός του μηδενός. Εάν μια εγγραφή

συγκεντρώσει βαθμολογία κάτω από το καθορισμένο κατώφλι, δεν θεωρείται όμοια

με κάποια άλλη και προωθείται στο δεύτερο βήμα. Εάν συγκεντρώσει βαθμολογία

ίση ή μεγαλύτερη του κατώτατου ορίου, θεωρείται πως ταυτίζεται με κάποια άλλη.

Διαδικασία ταυτοποίησης νεοεισερχομένων εγγραφών μονογραφιών - (Revised

19/01/2005)25 Επικοινωνία μέσω e-mails με την Cristina Campbell, Melvyl Project Coordinator (19-31/1/2005)

119

Page 120: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Για να οδηγηθούν οι όμοιες εγγραφές στην τελική φάση της συγχώνευσης

ακολουθείται μια διαδικασία δύο βημάτων.

Αρχικά δημιουργείται ένα αρχείο/δεξαμενή (pool) πιθανών διπλών εγγραφών της

βάσης. Στο πρώτο βήμα η σύγκριση γίνεται με έναν περιορισμένο αλγόριθμο και

είναι δυνατή μόνο όταν και η εισερχόμενη εγγραφή και η εγγραφή από την ομάδα

των πιθανών διπλών εγγραφών διαθέτουν τους μοναδικούς αριθμούς LCCN ή ISBN.

Αποδίδεται μια βαθμολογία (weight) από τον πίνακα παραμέτρων. Το κατώφλι για τη

συγχώνευση εγγραφών μονογραφιών είναι οι 875 βαθμοί. Η βαθμολογία αυτή

προέρχεται από τη σύγκριση των πεδίων LCCN/ISBN, χρονολογίας έκδοσης και των

πρώτων 25 χαρακτήρων του τίτλου.

Εάν στο πρώτο βήμα δεν επιτευχθεί ταυτοποίηση μεταξύ των δύο εγγραφών που

συγκρίνονται η οποία να μπορεί να οδηγήσει με ασφάλεια στη συγχώνευση,

ακολουθεί το δεύτερο βήμα. Στο δεύτερο βήμα η σύγκριση πραγματοποιείται βάσει

στοιχείων από τα πεδία του τίτλου (κανονικοποιημένος), της χώρας δημοσίευσης, της

κύριας αναγραφής (κανονικοποιημένη), της σελιδαρίθμησης και του εκδότη. Στον

Πίνακα 7.1 του Παραρτήματος B ΄ παρουσιάζονται με λεπτομέρειες όλες οι πιθανές

περιπτώσεις ταυτοποίησης και βαθμολόγησης των συγκρίσεων.

Διαδικασία ταυτοποίησης νεοεισερχομένων εγγραφών περιοδικών - (Revised

19/01/2005)

120

Page 121: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Και για τα περιοδικά η όλη διαδικασία ακολουθεί με ακρίβεια το μοντέλο των δύο

βημάτων που εφαρμόζεται για τις μονογραφίες.

Αρχικά δημιουργείται η ομάδα των πιθανών διπλών εγγραφών. Στο πρώτο βήμα

η σύγκριση και η απόδοση της βαθμολογίας γίνεται βάσει των στοιχείων του LCCN,

του ISBN, της χρονολογίας έκδοσης και των πρώτων 25 χαρακτήρων του

κανονικοποιημένου τίτλου. Όσον αφορά τη σύγκριση των περιοδικών, υπάρχει

ειδικός κατάλογος κοινών λέξεων (stopwords) που αφορά τους τίτλους τους (βλέπε

Παράρτημα Β΄, Πίνακα 7.3). Εάν οι τίτλοι των περιοδικών των εισερχόμενων

εγγραφών βρίσκονται στον κατάλογο αυτόν, τότε αναζητούνται ολόκληροι. Αυτό

σημαίνει ότι πρέπει να υπάρχει πλήρης ταύτιση. Εάν δεν βρίσκονται στον κατάλογο

κοινών τίτλων, αναζητούνται οι πρώτοι 25 χαρακτήρες του κανονικοποιημένου

τίτλου και αυτό θεωρείται περικομμένη ταυτοποίηση (truncated match). Εάν η

εγγραφή συγκεντρώσει βαθμολογία ίση ή μεγαλύτερη του κατώτατου ορίου,

θεωρείται πως ταυτοποιείται. Το κατώφλι για τη συγχώνευση εγγραφών περιοδικών

είναι οι 800 βαθμοί. Εάν μια εγγραφή συγκεντρώσει βαθμολογία κάτω από το

καθορισμένο κατώτατο όριο, δεν θεωρείται ταυτοποίηση και η εγγραφή προωθείται

στο δεύτερο βήμα (βλέπε Παράρτημα Β΄, Πίνακα 7.2).

Στο δεύτερο βήμα η σύγκριση πραγματοποιείται βάσει στοιχείων από τα πεδία

του τίτλου (κανονικοποιημένος), της κύριας αναγραφής (κανονικοποιημένη), του

τόπου έκδοσης και της χώρα έκδοσης.

6.1.2.1. Αποτελέσματα

121

Page 122: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Ο αλγόριθμος αυτός, από τους ίδιους τους διαχειριστές του, αναγνωρίζεται πως

δεν είναι «τέλειος». Ήδη αυτήν την περίοδο σκέφτονται εάν θα πρέπει να

προχωρήσουν σε κάποιες τροποποιήσεις όσον αφορά άλλες μορφές τεκμηρίων (π.χ.

χάρτες) αφού δεν μπορεί πλέον η επεξεργασία τους να γίνεται με όρους παρόμοιους

των μονογραφιών.

122

Page 123: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΚΕΦΑΛΑΙΟ ΕΒΔΟΜΟ:

ΕΝΙΑΙΟΙ ΚΑΤΑΛΟΓΟΙ ΚΑΙ ΠΡΩΤΟΚΟΛΛΟ Ζ39.50

7. Ενιαίοι κατάλογοι

Αν και το πρόβλημα των διπλών εγγραφών παρουσιάζεται σε οποιαδήποτε μορφή

βάσης και ανεξάρτητα από το μέγεθός της, είναι αναμενόμενο πως πολλαπλασιάζεται

με την αύξηση του αριθμού των τεκμηρίων και γίνεται οξύτερο σε περιβάλλοντα

ενιαίων καταλόγων ή συνεργατικών σχημάτων καταλογογράφησης (shared ή

cooperative cataloging).26 Το επίπεδο της καταλογογράφησης ποικίλει από

βιβλιοθήκη σε βιβλιοθήκη. Η συμμετοχή περισσοτέρων ανθρώπων από διαφορετικές

βιβλιοθήκες και περιβάλλοντα, προκαλεί αύξηση των παραλλαγών και των κανόνων

που ακολουθούνται. Οι εγγραφές προέρχονται από μια σειρά διαφορετικών πηγών και

βρίσκονται αρχικά αποθηκευμένες σε διαφορετικά συστήματα και συνήθως

καταχωρούνται στον ενιαίο κατάλογο μαζικά.

Η δημιουργία και συντήρηση ενιαίων καταλόγων πάντα αποτελούσε μια από τις

βασικές επιδιώξεις των βιβλιοθηκών. Από τα σημαντικότερα επιτεύγματα των

καταλόγων είναι η παράθεση όλων των έργων ενός μεμονωμένου συγγραφέα,

συγκεντρωμένων κάτω από μια ενιαία μορφή του ονόματός του και η συγκέντρωση

26 “Cooperative cataloging”, Το πλαίσιο στο οποίο μια βιβλιοθήκη ή ένα σύστημα βιβλιοθηκών, συμφωνούν να ακολουθήσουν καθιερωμένες πρακτικές και εργασίες καταλογογράφησης μέσω αυτοματοποιημένων συστημάτων ή εγκαταστάσεων που διευκολύνουν τη δημιουργία βιβλιογραφικών εγγραφών και εγγραφών καθιερωμένων όρων, σε μια μορφή που μπορεί να μοιραστεί με άλλες βιβλιοθήκες. Αναφέρεται στην περίπτωση που η προετοιμασία μιας καταλογογραφημένης εγγραφής γίνεται από μία εκ των συμμετεχόντων βιβλιοθηκών και κατόπιν χρησιμοποιείται ως έχει από τις υπόλοιπες [Διαθέσιμο από ODLIS: online dictionary for Library and Information Science, http :// lu . com / odlis / (Ημερομηνία πρόσβασης: 5/2/2005)]

123

Page 124: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

των διαφορετικών εκδόσεων και εκδοχών τους. Οι στόχοι ενός καταλόγου όπως τους

περιέγραψε ο Charles A. Cutter το 1904, επικεντρωμένοι στις λειτουργίες της

εύρεσης και της συγκέντρωσης τεκμηρίων, είναι οι εξής:27

● Να μπορεί κάποιος να εντοπίσει ένα βιβλίο όταν κάτι από τα ακόλουθα είναι

γνωστό:

α) ο συγγραφέας

β) ο τίτλος

γ) το θέμα

● Να δείξει τι υλικό κατέχει η βιβλιοθήκη:

δ) ενός συγκεκριμένου συγγραφέα

ε) για ένα συγκεκριμένο θέμα

ζ) για ένα συγκεκριμένο είδος βιβλιογραφίας

● Να βοηθήσει στην επιλογή ενός βιβλίου:

στ) ως προς την έκδοσή του (βιβλιογραφικώς)

ζ) ως προς τον χαρακτήρα του (λογοτεχνικό ή θεματικό)

Αν και γίνεται εμφανές, ότι η παραπάνω κάλυψη είναι ελλιπής, συνεχίζει να

αποτελεί τη βάση των καταλόγων όλων των ειδών. Υπάρχουν δύο προσεγγίσεις, για

την παροχή του συνόλου των συμβατικών υπηρεσιών καθώς και των νέων που

προκύπτουν από το σύγχρονο περιβάλλον πληροφόρησης. Είναι οι ενιαίοι κατάλογοι

και τα κατανεμημένα συστήματα αναζήτησης που βασίζονται στο πρωτόκολλο

Z39.50.

27 Wynar, Bohdan S. (1985) Introduction to cataloging and classification. Libraries Unlimided , pp. 16

124

Page 125: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Ως ενιαίος, ορίζεται ο κατάλογος των υπαρχόντων περισσοτέρων της μίας

ανεξάρτητων βιβλιοθηκών ή συστημάτων βιβλιοθηκών, στον οποίο δηλώνεται η

τοποθεσία κάθε τεκμηρίου με το όνομα ή το σύμβολο των βιβλιοθηκών που κατέχουν

τουλάχιστον ένα αντίτυπό του.28 Η αναζήτηση πληροφοριών σε δικτυακά

περιβάλλοντα αυξάνεται. Συγχρόνως, η ανάγκη ύπαρξης ενός καταλόγου, αποσκοπεί

περισσότερο στην παροχή των υπηρεσιών που μπορεί να προσφέρει ένας ενιαίος

κατάλογος, παρά στην απλή περιγραφή των περιεχομένων μιας τοπικής συλλογής.

Οι ενιαίοι κατάλογοι υπερβαίνουν τις κανονικές λειτουργίες ενός απλού

καταλόγου. Αν και η βασική τους λειτουργία ήταν η προμήθεια βιβλιογραφικών

εγγραφών, πάντα αποτελούσαν ένα πολύτιμο εργαλείο παροχής της δυνατότητας

αναζήτησης, αρχικά μόνο από τους βιβλιοθηκονόμους και αργότερα και από τους

χρήστες, από ένα μοναδικό σημείο εργασίας και ταυτόχρονη πρόσβαση σε πολλαπλές

συλλογές, φυσικές ή εικονικές (Hider 2004 ).

Τέλος, ένας ενιαίος κατάλογος παρουσιάζεται στους χρήστες του ως υψηλής

ποιότητας διαχειριζόμενο σύστημα πρόσβασης πληροφοριών. Αυτό σημαίνει ότι το

σύστημα πρέπει να ανταποκρίνεται στα πρότυπα που αφορούν το γρήγορο χρόνο

απόκρισης, την υψηλή διαθεσιμότητα και αξιοπιστία χωρίς διακοπές λειτουργίας,

καθώς επίσης και την ικανοποίηση της προσδοκίας του χρήστη που επιθυμεί η

λειτουργία του καταλόγου να είναι ιδιαίτερα επαναλαμβανόμενη από σύνοδο σε

σύνοδο (Lynch 1997 ).

28 “Union catalog”, ODLIS: online dictionary for Library and Information Science [Διαθέσιμο από http://lu.com/odlis/ (Ημερομηνία πρόσβασης: 5/2/2005)]

125

Page 126: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Υπάρχουν διάφοροι τρόποι σχεδιασμού των ενιαίων καταλόγων, αλλά οι

βασικές αρχιτεκτονικές είναι δύο: η αρχιτεκτονική των φυσικών ενιαίων

καταλόγων και η αρχιτεκτονική των εικονικών καταλόγων. Η

πρώτη αφορά τον παραδοσιακό ενιαίο κατάλογο, στον οποίο οι

εγγραφές από πολλαπλές πηγές ενσωματώνονται σε μια ενιαία

βάση. Στην περίπτωση αυτή, υπάρχει μια κεντρικοποιημένη (centralized) βάση

στην οποία οι εγγραφές μπορούν να καταχωρούνται είτε άμεσα (δημιουργούνται απ’

ευθείας στην κεντρική βάση) είτε έμμεσα (δημιουργούνται πρώτα στον τοπικό

κατάλογο και στη συνέχεια φορτώνονται στον ενιαίο κατάλογο), είτε και τα δύο. Στο

είδος αυτού του καταλόγου αποδίδεται το προσωνύμιο «φυσικός»

(physical/real) ώστε να δηλώνεται η ύπαρξη μιας φυσικής

τοποθεσίας, αλλά και να διακρίνεται από ένα εναλλακτικό είδος

καταλόγου. Πρόκειται για τον «κατανεμημένο» (distributed) ή

«εικονικό ενιαίο κατάλογο» (virtual union catalog), στον οποίο κάθε

επιμέρους κατάλογος παραμένει ξεχωριστός, αλλά μπορούν να

χρησιμοποιηθούν όλοι από έναν τελικό χρήστη σαν ένας μοναδικός

και ενιαίος πόρος (Cousins 1999 ). Ο εικονικός ενιαίος κατάλογος (όπως ο

Canadian Virtual Union Catalog) είναι ένα αυτοματοποιημένο σύστημα αναζήτησης

των υπαρχόντων δύο ή περισσοτέρων διακριτών καταλόγων βιβλιοθηκών, με την

χρήση του πρωτοκόλλου Z39.50 ή άλλων μηχανισμών για broadcast (καθολικά

εκπεμπόμενη) αναζήτηση και ανάκτηση, σε αντίθεση με τον κεντρικοποιημένο ενιαίο

κατάλογο στο οποίον οι εγγραφές του συγκεντρώνονται σε μια ενιαία βάση ή φυσική

τοποθεσία.29

29 “Virtual union catalog”, ODLIS: online dictionary for Library and Information Science [Διαθέσιμο από http://lu.com/odlis/ (Ημερομηνία πρόσβασης: 5/2/2005)]

126

Page 127: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Ένας τέτοιος κατάλογος δεν διατηρείται σε μια ενιαία θέση αλλά δημιουργείται

σε πραγματικό χρόνο με την έρευνα του καταλόγου κάθε τοπικής βιβλιοθήκης μέσω

του πρωτοκόλλου Z39.50. Αυτό αποβάλει τον πλεονασμό της αποθήκευσης

εγγραφών, καθώς επίσης και τη δαπάνη της μεταφόρτωσης δεδομένων και της

διατήρησης της πρόσβασης στον κεντρικό κατάλογο (Coyle 2000 ).

7.1. Φυσικοί vs Εικονικοί Ενιαίοι Κατάλογοι

Η βασικότερη διαφορά μεταξύ των δύο αρχιτεκτονικών, είναι πως ο μεν φυσικός

ενώνει τους καταλόγους των βιβλιοθηκών-μελών, ο δε εικονικός συνδέει τους

κατανεμημένους καταλόγους των μελών του. Στον παρακάτω πίνακα παρουσιάζονται

οι ομοιότητες και οι διαφορές των φυσικών και των εικονικών ενιαίων καταλόγων

(Lunau 1998 ).

Γενικά χαρακτηριστικά και διαφορές ενιαίων καταλόγων

Φυσικός/κεντρικοποιημένος Ενιαίος Κατάλογος

Εικονικός/κατανεμημένος Ενιαίος Κατάλογος

Υπάρχει μόνο μία βάση Πολλές ανεξάρτητες βάσεις

Παρουσίαση δεδομένων με κοινά πρότυπα

και αρχεία καθιερωμένων όρων

Διαφορετικά πρότυπα και αρχεία

καθιερωμένων όρων

Διάθεση υπαρχόντων συνήθως μέσω μιας

ενιαίας εγγραφής

Τα υπάρχοντα δεν είναι εύκολο να

παρουσιαστούν

Αναζήτηση από μία διεπαφή χρήστη Αναζήτηση από μία διεπαφή χρήστη

Συνεπής ερμηνεία αναζητήσεων και

δεδομένων

Ασυνεπής ερμηνεία αναζητήσεων και

ιδιοτήτων

Μεγαλύτερη ακρίβεια αποτελεσμάτων

αναζήτησης

Περισσότερα λάθη αναζήτησης εξαιτίας

διαφορετικών ερμηνειών και αντιστοιχίσεων

Συνήθως δεν είναι διαθέσιμες οι πληροφορίες

κατάστασης δανεισμού

Είναι ευκολότερη η παροχή πληροφοριών

κατάστασης δανεισμού

127

Page 128: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Μη ενημερωμένα δεδομένα Περισσότερο ενημερωμένα δεδομένα

Ακριβή συντήρηση Δεν υπάρχει κεντρική συντήρηση

Συνέπεια διαχείρισης συστήματος Δεν υπάρχει κεντρική διαχείριση

Επίτευξη συνέπειας

Αν και για την ακεραιότητα ενός φυσικού ενιαίου καταλόγου απαιτείται η

εφαρμογή ενός υψηλού βαθμού τυποποίησης, κάποιο ποσοστό ασυνέπειας πρέπει να

θεωρείται αναπόφευκτο, λαμβάνοντας υπόψη ότι οι εφαρμοζόμενες πολιτικές

αλλάζουν και η εφαρμογή τους ποικίλλει. Παρόλα αυτά, σε έναν κεντρικοποιημένο

κατάλογο είναι ευκολότερο να επιτευχθεί συνέπεια και μεγαλύτερη αυστηρότητα στις

ακολουθούμενες πρακτικές, πρότυπα και πολιτικές, όσον αφορά στην

καταλογογράφηση, την καταχώρηση, την ευρετηρίαση και την αναζήτηση των

εγγραφών. Με την χρήση κοινού λογισμικού, επιτυγχάνεται ομοιομορφία και

σταθερότητα στην επιλογή πεδίων για τη δημιουργία ευρετηρίων και την εξαγωγή

κλειδιών αναζήτησης. Οι περισσότεροι φυσικοί κατάλογοι εφαρμόζουν κάποιους

κανόνες διασφάλισης της καθαρότητας και της ποιότητάς τους, είτε αυτοί αφορούν

την εφαρμογή συγκεκριμένων κανόνων, πολιτικών και μορφοτύπων, είτε τον

εντοπισμό και την αφαίρεση των διπλών βιβλιογραφικών εγγραφών και των

εγγραφών καθιερωμένων όρων (ονόματα, θεματικοί όροι, σειρές).

Ένα τεκμήριο σε έναν «καθαρό» φυσικό ενιαίο κατάλογο αντιπροσωπεύεται από

μια και μοναδική εγγραφή. Τα δεδομένα των καταλόγων των άλλων βιβλιοθηκών

αντιπροσωπεύονται μόνο από τον προσδιορισμό των βιβλιοθηκών στις οποίες

ανήκουν. Στην περίπτωση ενός εικονικού ενιαίου καταλόγου το αποτέλεσμα της

αναζήτησης είναι πολλές, ελαφρώς ή περισσότερο, διαφορετικές εγγραφές του ίδιου

τεκμηρίου. Αυτό σημαίνει ότι ο φυσικός ενιαίος κατάλογος προσφέρει τις ίδιες

128

Page 129: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

πληροφορίες με τον εικονικό, αλλά με έναν πιο ομοιόμορφο τρόπο, ενώ η χρήση των

διαθέσιμων δεδομένων μέσω των πολλαπλών ευρημάτων στους εικονικούς

καταλόγους, μπορεί να εξασθενίσει την ποιότητα και τη συμβατότητα των

καταλόγων (Vajda 2004 : 337 ).

Η Coyle (2000) αναφέρει πως για να είναι εφικτός ένας εικονικός ενιαίος

κατάλογος, οι συμμετέχουσες βάσεις πρέπει να προσφέρουν ένα ομοιόμορφο σύνολο

ευρετηρίων και λειτουργιών αναζήτησης για την ανάκτηση συγκρίσιμων τεκμηρίων

από κάθε κατάλογο. Η ασυνέπεια που εμφανίζεται στους κατανεμημένους

καταλόγους οφείλεται στις διαφορές στην ευρετηρίαση των δεδομένων που

εφαρμόζεται από τις συμμετέχουσες βιβλιοθήκες. Οι διαφορές αυτές σημαίνουν ότι οι

αναζητήσεις που είναι κοινές για όλες τις βάσεις, εξαιτίας των περιορισμών που

οφείλονται είτε στα μορφότυπα περιγραφής είτε στα διαφορετικά λογισμικά, είναι

αναγκαστικά λίγες και βασικές, με αποτέλεσμα πολύ συχνά οι ακριβείς καθολικές

(broadcast) αναζητήσεις να μην είναι δυνατές (Gatenby and Charldorp 2004 ).

Τέλος, οι βιβλιοθήκες που συμμετέχουν σε έναν κατανεμημένο κατάλογο, είναι

δύσκολο να συμφωνήσουν πάνω σε κοινές πολιτικές και πρακτικές. Υποστηρίζεται

όμως, πως έστω και θεωρητικά, ασυνέπεια μπορεί να προκύψει ή να μειωθεί και στην

κατανεμημένη αρχιτεκτονική, αφού και στα δύο μοντέλα οφείλεται στους ίδιους

ανασταλτικούς παράγοντες. Παρόλα αυτά, ο βαθμός έλλειψης ομοιομορφίας και

συνέπειας, είναι μεγαλύτερος στον εικονικό κατάλογο (Hider 2004 ).

Αριθμός λαθών

129

Page 130: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Διαφορά παρατηρούμε και στην ποσότητα καθώς και στην ποιότητα μεταξύ των

δύο αρχιτεκτονικών. Σε ένα κεντρικοποιημένο σύστημα όταν μια βιβλιοθήκη

τροποποιεί, διορθώνει ή ολοκληρώνει μια εγγραφή, υπάρχει αυτόματη ωφέλεια για

όλες τις συμμετέχουσες βιβλιοθήκες, γεγονός βέβαια που επαφίεται στην ύπαρξη

κατάλληλων μηχανισμών ενημέρωσης των βασικών ή πηγαίων εγγραφών της βάσης.

Κάτι παρόμοιο θα μπορούσε να συμβαίνει και στον κατανεμημένο κατάλογο. Αυτό

όμως προϋποθέτει ειδικές και διευρυμένες εξουσιοδοτήσεις των καταλογογράφων,

ώστε να έχουν πρόσβαση σε άλλους καταλόγους, αλλά να έχουν και το δικαίωμα να

επιφέρουν αλλαγές στα δεδομένα τους. Κάτι τέτοιο φαντάζει υπερβολικά δύσκολο,

πολύ δε περισσότερο όταν δεν υπάρχει κανενός είδους οργανική και διοικητική σχέση

μεταξύ των βιβλιοθηκών.

Χρόνος επεξεργασίας και απόκρισης

Τα δίκτυα των μεγάλων κατανεμημένων συστημάτων, συνήθως παρουσιάζουν

σημαντικά πιο αργούς χρόνους αναζήτησης και απόκρισης, αφού γενικά όσο

μεγαλύτερος είναι ο αριθμός των μεμονωμένων καταλόγων που αναζητούνται

ταυτόχρονα, τόσο πιο αργά παρουσιάζονται τα αποτελέσματα. Σε μερικές

περιπτώσεις όμως, οι βιβλιοθήκες που συμμετέχουν σε κεντρικοποιημένους ενιαίους

καταλόγους, οι οποίοι λόγω της αρχιτεκτονικής τους περιλαμβάνουν μια κεντρική

βάση, ενδέχεται να παρατηρήσουν πως η ροή της καταλογογράφησης μπορεί να

παρακωλυθεί από την ανάγκη τροφοδότησης του καταλόγου με νέες εγγραφές (Hider

2004). Αυτό έχει ως αποτέλεσμα οι βιβλιοθήκες αυτές να δέχονται χρονικές πιέσεις

όσον αφορά την επεξεργασία και καταχώρηση νέων εγγραφών.

130

Page 131: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Άλλοι παράγοντες που έχουν επίπτωση στον απαιτούμενο χρόνο επεξεργασίας

των εγγραφών είναι οι εξής: (Hider 2004 )

● Οι υπερασπιστές του κατανεμημένου καταλόγου, επισημαίνουν, πως σ’ αυτό το

είδος του καταλόγου, είναι πιθανότερο να παραχθούν εκτεταμένες πληροφορίες

υπαρχόντων σε πραγματικό χρόνο, αφού το σύστημα είναι σε θέση να ενημερώνει

άμεσα τον χρήστη για τις βιβλιοθήκες που κατέχουν ένα τεκμήριο.

Από τον εικονικό ενιαίο κατάλογο δεν μπορούν να μεταφορτωθούν (download)

εγγραφές, εάν οι βιβλιοθήκες δεν έχουν τον δικό τους Z client, γεγονός που μπορεί να

επιβραδύνει τον απαιτούμενο χρόνο της καταλογογράφησης.

Διπλές εγγραφές

Ανεξάρτητα από το είδος του ενιαίου καταλόγου, ο χειρισμός των διπλών

εγγραφών είναι ένα από τα σημαντικότερα ζητήματα που πρέπει να αντιμετωπιστούν.

Σε προηγούμενα κεφάλαια μελετήθηκαν οι λόγοι και τα προβλήματα που επιφέρει η

ύπαρξή τους, καθώς και η δημιουργία αλγορίθμων για τη μείωση του προβλήματος.

Μια από τις κυριότερες διαφορές μεταξύ των κεντρικοποιημένων βάσεων και των

εικονικών ενιαίων καταλόγων αφορά τις διπλές εγγραφές Η ανάκτηση μοναδικών

εγγραφών σε έναν κατανεμημένο κατάλογο, είναι πολύ δυσκολότερο έργο. Όπως έχει

αναφερθεί, ο αριθμός τους εξαρτάται από τον τρόπο και τη συνέπεια με την οποία

διενεργείται η καταλογογράφηση σε τοπικό επίπεδο, καθώς και με τις διεργασίες

αφαίρεσης διπλών εγγραφών που εφαρμόζονται στα τοπικά συστήματα. Ο εντοπισμός

του συνόλου των διπλών εγγραφών είναι ένα δυσεπίλυτο πρόβλημα ακόμη και όταν

εφαρμόζονται προγράμματα περίπλοκων και εξειδικευμένων αλγορίθμων. Για το

λόγο αυτό άλλωστε, το πρωτόκολλο Ζ39.50 για να ορίσει σύνολα αποτελεσμάτων

131

Page 132: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

όσο το δυνατόν περισσότερο απαλλαγμένα από διπλές εγγραφές, προσπαθεί να

χειριστεί μόνο μικρά σύνολα εγγραφών.

Ακόμα κι αν αναπτυχθεί ένα τέτοιο περίπλοκο σύστημα στο πλαίσιο ενός

κατανεμημένου καταλόγου, παραμένει μια άλλη πιθανή αιτία ύπαρξης διπλών

εγγραφών που πιθανώς δεν θα ίσχυε για το κεντρικοποιημένο μοντέλο βάσεων. Όταν

ένας ή περισσότεροι από τους servers των βιβλιοθηκών είναι εκτός λειτουργίας, ο

καταλογογράφος μπορεί να υποθέσει πως δεν υπάρχει καμιά ταυτοποίηση σε

οποιονδήποτε από τους άλλους καταλόγους. Μπορεί ακόμη και να μη

συνειδητοποιήσει ότι ένας από τους servers, δεν μπορεί να προσεγγιστεί (Hider

2004).

Ενοποίηση εγγραφών

Η έμφαση στην ανεύρεση και την ενοποίηση των διπλών εγγραφών δεν είναι

κοινή σε κάθε φυσικό κατάλογο. Η εφαρμογή των ανάλογων διαδικασιών είναι

χρονοβόρα και παράλληλα συνεπάγεται μεγάλη οικονομική επιβάρυνση, όσον αφορά

την επεξεργασία και τα λογισμικά. Ο εντοπισμός διπλών εγγραφών και η ενοποίησή

τους σε έναν εικονικό κατάλογο, από πολλούς ερευνητές όπως οι J . Gilby , A . Sanders

και S . Cousins (1999, 2004) θεωρείται πως είναι από προβληματική έως αδύνατη,

αφού οι απαιτούμενες διαδικασίες θα ασκούσαν μια αρνητική επίδραση στους

χρόνους απόκρισης των ερωτήσεων εάν πραγματοποιούνται κατά τη διάρκεια της

διαδικασίας της αναζήτησης.

Οι ταυτόχρονες αναζητήσεις σε πολλαπλά συστήματα και βάσεις δεδομένων,

επιστρέφουν ένα σύνολο εγγραφών χωρίς αυτές να είναι συγχωνευμένες ή

132

Page 133: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ταξινομημένες. Αν και το πρωτόκολλο Z39.50 περιλαμβάνει μια λειτουργία

ταξινόμησης, λίγα συστήματα υποστηρίζουν αυτό το χαρακτηριστικό γνώρισμα.

Ακόμη όμως και με αυτήν τη λειτουργία σε ισχύ, η διεπαφή του ενιαίου καταλόγου

θα πρέπει να συγχωνεύει τα ανακτημένα σύνολα καθώς επίσης και να αφαιρεί τις

διπλές βιβλιογραφικές πληροφορίες διατηρώντας τα μεμονωμένα δεδομένα

υπαρχόντων. Επειδή δε, οι αναζητήσεις ανακτούν συχνά μεγάλα σύνολα

αποτελεσμάτων, η ταξινόμηση και η συγχώνευση αναμένεται να αποτελέσουν

τεχνολογικές προκλήσεις (Coyle 2000 ).

Υβριδικά συστήματα

Η έως τώρα εμπειρία δείχνει πως στα συμβατικά περιβάλλοντα οι

κεντρικοποιημένοι κατάλογοι λειτουργούν ικανοποιητικά. Πέρα από τις διαφορές που

υπάρχουν μεταξύ των δύο προσεγγίσεων των ενιαίων καταλόγων, εμφανίζεται και μια

ακόμη άποψη. Αυτή που αφορά τον συνδυασμό τους και την δημιουργία ενός

υβριδικού συστήματος, με συμπληρωματική χρήση τους. Υποστηρίζεται πως η

διάκριση μεταξύ ενός κεντρικά σχεδιασμένου συστήματος που λειτουργεί ως

κεντρικοποιημένη βάση και ενός που εφαρμόζεται τεχνικά ως μια κατανεμημένη

βάση δεδομένων, είναι όλο και περισσότερο χωρίς νόημα, αφού ακόμη και ένας μόνο

μεγάλος mainframe ουσιαστικά μπορεί να είναι ένα σύνολο κατανεμημένων μηχανών

σε ένα πολύ γρήγορο τοπικό δίκτυο (Lynch 1997 ). Στην πραγματικότητα είναι

απολύτως δυνατό ένας ενιαίος κατάλογος που βασίζεται σε μια κεντρικοποιημένη

βάση να εκτελεί και επιπρόσθετες αναζητήσεις μέσω του Z39.50 ώστε να ανακτά

πληροφορίες σε πραγματικό χρόνο, αν και έως τώρα τέτοια υβριδικά συστήματα

έχουν εφαρμοστεί σε λίγες περιπτώσεις (Hider 2004 ).

133

Page 134: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Παρόλη την πετυχημένη εφαρμογή και λειτουργία των κεντρικοποιημένων

καταλόγων, η επιδίωξη ευρύτερης ανεξαρτησίας στις αποφάσεις και τις πολιτικές εκ

μέρους των μεμονωμένων βιβλιοθηκών, καθώς και η ανάγκη για ενιαία πρόσβαση σε

πολλαπλές και ετερογενείς πηγές, οδηγούν στην εφαρμογή συστημάτων με την χρήση

των δυνατοτήτων που προσφέρουν οι κατανεμημένες βάσεις. Ο φραγμός που ακόμη

υπάρχει και οφείλεται στην τιμή των Ζ39.50 servers, αναμένεται να εξαλειφθεί,

καθώς οι τιμές θα γίνονται ολοένα και λιγότερο απαγορευτικές.

7.2. Πρωτόκολλο Ανάκτησης Πληροφοριών Z39.50

Υπάρχουν διάφοροι τρόποι με τους οποίους οι εικονικοί ενιαίοι κατάλογοι θα

μπορούσαν να αναπτυχθούν, αλλά η μεγαλύτερη προσοχή έχει

επικεντρωθεί στη χρήση του πρωτοκόλλου Ανάκτησης Πληροφοριών

Z39.50 (Information retrieval Z 39.50 ) (ANSI/NISOZ39.50-2003, maintenance

revision of Z39.50-1995).

Σχεδιάγραμμα 1. Η αρχιτεκτονική του Z39.50

Z39.50Client

(Origin)

Z39.50Server(Target)

Biblio.

Full Text

Etc.

Query

ResultZ-Speak

Z-Association

Result

134

Page 135: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Το Z39.50 είναι πρότυπο για την αναζήτηση και την ανάκτηση πολλών τύπων

πληροφοριών όπως κείμενο, εικόνες και πολυμέσα, μεταξύ κατανεμημένων

συστημάτων βάσεων δεδομένων σε ένα ετερογενές δίκτυο. Είναι ένα πρωτόκολλο

που είναι βασισμένο στο μοντέλο client/server, που ορίζει τις δομές δεδομένων και

τους κανόνες ανταλλαγής που επιτρέπουν σε έναν client (που ονομάζεται “origin”) να

κάνει αναζητήσεις σε βάσεις δεδομένων που βρίσκονται σε έναν server (που

ονομάζεται “target”) και να ανακτά τα αποτελέσματα που ορίζονται από αυτές τις

αναζητήσεις. Το Z39.50 ασχολείται μόνο με τις αλληλεπιδράσεις μεταξύ του client

και του server. Δεν αντιμετωπίζει τα ζητήματα που αφορούν τη διεπαφή χρήστη του

client ή οτιδήποτε άλλο αφορά τη διαχείριση των βάσεων δεδομένων του server

(Lynch 1997 ). Στο Σχεδιάγραμμα 1 παρουσιάζεται με τυπική αρχιτεκτονική του

πρωτοκόλλου αυτού

7.3. Προγράμματα εφαρμογής Z39.50

Παρακάτω παρουσιάζουμε δύο χαρακτηριστικά προγράμματα που εφάρμοσαν το

πρωτόκολλο Ζ39.50. Το πρώτο πρόγραμμα - το vCuc - είναι ένα από τα πρώτα και

προγράμματα που εφαρμόστηκαν στον κόσμο με στόχο τη δημιουργία ενός ενιαίου

κατανεμημένου καταλόγου, το δεύτερο πρόγραμμα - το EUCat – αποτελεί μια

προσέγγιση δημιουργίας ενός υβριδικού συστήματος.

7.3.1. Virtual Canadian Union Catalog Project (vCuc)

Ένα από τα πρώτα προγράμματα στον κόσμο που αφορούσαν την χρήση του

Z39.50 για τη σύνδεση των διαφορετικών καταλόγων οι βάσεις των οποίων

βρίσκονται σε διαφορετικές γεωγραφικές τοποθεσίες και λειτουργούσαν με

135

Page 136: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

διαφορετικά λογισμικά, ήταν αυτό που διεξήγαγε από το 1996 έως το 1998 η Εθνική

Βιβλιοθήκη του Καναδά (vCuc, http :// www . collectionscanada . ca /8/6/ index - e . html ).

Στην αξιολόγηση του προγράμματος αναγνωρίζεται πως το Z39.50 δεν ήταν κατά

τη διάρκεια του έργου ικανό να αντικαταστήσει με πληρότητα και ακρίβεια έναν

ολοκληρωμένο φυσικό ενιαίο κατάλογο, αλλά παρόλα αυτά προσφέρει μέγιστες

δυνατότητες για έναν αποτελεσματικό τρόπο αναζήτησης καθώς και ένα μέσο για

εύρεση έτοιμων βιβλιογραφικών εγγραφών που μπορούν να αντιγραφούν χωρίς

ιδιαίτερο κόστος, αφού οι περισσότερες βιβλιοθήκες επιτρέπουν την μεταφόρτωσή

τους. Τα αποτελέσματα του έργου αυτού κρίνονται «συγκρατημένα αισιόδοξα». Αν

και στην τελική αναφορά του αξιολογείται θετικά, θεωρείται ότι τα χαρακτηριστικά

γνωρίσματα που απαιτούνται για να μεγιστοποιήσουν τη δυνατότητα του Z39.50

ώστε να καταφέρει να αντικαταστήσει έναν κεντρικοποιημένο κατάλογο είναι:

(Lunau 1998 )

η δυνατότητα αφαίρεσης των διπλών βιβλιογραφικών εγγραφών και η

συγχώνευση των αποτελεσμάτων έτσι ώστε ο χρήστης να βλέπει μια ενιαία

βιβλιογραφική εγγραφή που περιέχει τα τεκμήρια από όλες τις πηγές,

οι κοινές ερμηνείες των ιδιοτήτων (attributes/όροι αναζήτησης) και των

συνδυασμών ιδιοτήτων για να αυξηθεί η ακρίβεια των αποτελεσμάτων της

αναζήτησης, και

η λειτουργικότητα του client που επιτρέπει στο χρήστη να ταξινομήσει τα

αποτελέσματα και να ξεφυλλίσει (browse) τα ευρετήρια.

136

Page 137: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

7.3.2. EUCat – Πανευρωπαϊκό Ευρετήριο Ενιαίων Καταλόγων

Ο στόχος του έργου αυτού ήταν η δημιουργία ενός ενιαίου σημείου πρόσβασης σε

όλες τις πηγές των ευρωπαϊκών βιβλιοθηκών που θα προσφέρει στους χρήστες online

πρόσβαση σε περιεκτικό, υψηλής ποιότητας, αξιολογημένο υλικό, αλλά και offline

διανομή του υλικού αυτού (EUCat study 2004 : 1 ). Το έργο της δημιουργίας ενός

πανευρωπαϊκού καταλόγου αποτελεί μια προσπάθεια εφαρμογής του υβριδικού

μοντέλου. Ενός μοντέλου που συνδυάζει το κεντρικοποιημένο και το κατανεμημένο

με την ταυτόχρονη ύπαρξη ενός κεντρικοποιημένου ευρετηρίου για πολλαπλούς

ενιαίους καταλόγους από τους οποίους θα μπορούν να παρέχονται υπηρεσίες όπως

ILL, συνδέσεις στα τοπικά συστήματα, αυθεντικοποίηση, εξόρυξη δεδομένων και

συνδέσεις με τους προμηθευτές των τεκμηρίων. Στις περιπτώσεις που δεν είναι

δυνατό να επιτευχθεί η συμμετοχή ενός ενιαίου καταλόγου στο κεντρικοποιημένο

ευρετήριο, μπορεί να χρησιμοποιηθεί η αναζήτηση μέσω του πρωτοκόλλου Ζ39.50.

Το έργο της ανάπτυξης του EUCat το έχει αναλάβει το OCLC/PICA. Στο έργο αυτό

συμμετέχουν ο ολλανδικός ενιαίος κατάλογος Nederlandse Centrale Catalogus (NCC)

και οι γερμανικοί κατάλογοι GBV (Gemeinsamer Bibliotheksverbund) και ZDB

(Zeitschriftendatenbank) (Gatenby 2002 ). Στο Σχεδιάγραμμα 2 παρουσιάζεται η

αρχιτεκτονική με βάση την οποία είναι σχεδιασμένο το EUCat.

137

Page 138: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Σχεδιάγραμμα 2. Η αρχιτεκτονική του EUCat

Η ιδέα του EUCat ήταν αυτή της δημιουργίας ενός ευρετηρίου από μεγάλους

ενιαίους καταλόγους της Ευρώπης. Η δημιουργία του ευρετηρίου και η σύνδεση των

ενιαίων καταλόγων μπορεί να υλοποιηθεί με την εφαρμογή πρωτοκόλλων όπως το

Z39.50. Το EUCat είναι ένα πολύγλωσσο εργαλείο (αγγλικά, γερμανικά, ολλανδικά

και γαλλικά), παρέχει ευελιξία στον τρόπο παρουσίασης των αποτελεσμάτων και

χειρισμό αρχείων καθιερωμένων όρων. Όσον αφορά τον χειρισμό των διπλών

εγγραφών, αυτές εντοπίζονται, ομαδοποιούνται (δεν αφαιρούνται) και συνδέονται

(Gatenby , 2002 ). Το 2004 το OCLC/PICA, για οικονομικούς λόγους, αποφάσισε να

τροποποιήσει τους στόχους και την ανάπτυξη του έργου αυτού και να στραφεί στην

ανάπτυξη μηχανισμών πανευρωπαϊκού και παγκόσμιου διαδανεισμού (EUCat study

2004 : 11).

7.4. Z39.50 Duplicate Detection Service

138

Page 139: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Τα συστήματα client θα μπορούσαν να εφαρμόσουν ένα απλό επίπεδο

ταυτοποίησης και συγχώνευσης διπλών εγγραφών, με τη χρήση παραδοσιακών και

απλών αριθμών ελέγχου, όπως το ISBN. Στην πράξη όμως απαιτείται η εφαρμογή

πολύ πιο εξελιγμένων και περίπλοκων αλγορίθμων. Αρχικά, η βιβλιογραφία φαίνεται

να υποστηρίζει την άποψη, πως η εφαρμογή τους παρουσιάζει πολλά προβλήματα

εξαιτίας του απαγορευτικού μεγέθους της εφαρμογής, των δαπανών και του

καταστρεπτικού αντίκτυπου στο χρόνο απόκρισης (Lunau and Turner 1997 ). Εν

τούτοις, παρουσιάζονται προσπάθειες ανάπτυξης του πρωτοκόλλου, αλλά και

προτάσεις που αφορούν την προσαρμογή του και την εξέλιξή του ώστε να μπορέσει

να ανταποκριθεί με επάρκεια και στον τομέα αυτό.

Η υπηρεσία Εντοπισμού Διπλών Εγγραφών του Z39.50 επιτρέπει στον origin

(Z39.50 client) να ζητήσει από τον target (Z39.50 server) να αναλύσει ένα ή

περισσότερα σύνολα αποτελεσμάτων (result sets) πιθανών διπλών εγγραφών και να

κατασκευάσει ένα νέο σύνολο αποτελεσμάτων σύμφωνα με κριτήρια που έχουν

οριστεί από τον origin για τον εντοπισμό, τη διατήρηση, την ομαδοποίηση και την

ταξινόμηση των εγγραφών, συμπεριλαμβανομένων των διπλών (Information retrieval

Z 39.50-2003, section 3.2.7.2 : 51-55 ).

Σύμφωνα με το μοντέλο αυτό, οι διπλές εγγραφές ομαδοποιούνται (clustered) σε

«κατηγορίες ισοδυναμίας», με την εφαρμογή κριτηρίων ταυτοποίησης σε ένα

συγκεκριμένο μέρος της κάθε εγγραφής. Στη συνέχεια επιλέγεται μια

αντιπροσωπευτική εγγραφή για κάθε κατηγορία ισοδυναμίας, η οποία διατηρείται και

ταξινομείται σύμφωνα με τις τιμές προκαθορισμένων παραμέτρων (Sfakakis and

139

Page 140: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Kapidakis 2004 : 290 ). Οι παράμετροι αυτοί παρουσιάζονται με λεπτομέρειες στο

Παράρτημα Δ΄.

7.4.1. Μια πρόταση σχεδιασμού ενοποίησης πληροφοριών

Στο 7ο European Conference on Digital Libraries που έγινε το 2003, οι Μ.

Σφακάκης και Σ. Καπιδάκης πρότειναν μια αρχιτεκτονική που αφορά τον εντοπισμό

των διπλών πόρων σε κατανεμημένα συστήματα που λειτουργούν σε περιβάλλον

Ζ39.50, η οποία μπορεί να εφαρμοστεί ανεξάρτητα από τον αλγόριθμο που θα

χρησιμοποιηθεί.

Ο στόχος αυτής της αρχιτεκτονικής είναι η παρουσίαση στον

χρήστη σε πραγματικό χρόνο, των αποτελεσμάτων της αναζήτησής

του (on the fly), αφού πρώτα αφαιρεθούν οι πιθανές διπλές

εγγραφές, με τη βαθμιαία εφαρμογή της διαδικασίας του

εντοπισμού τους σε μικρά λαμβανόμενα πακέτα (σύνολα

αποτελεσμάτων). Ο αλγόριθμος εντοπισμού διπλών εγγραφών δεν

εφαρμόζεται ταυτόχρονα (in one shot), σε όλες τις εγγραφές

μεταδεδομένων που ανήκουν σε ένα συγκεκριμένο αποτέλεσμα

αναζήτησης (Sfakakis and Kapidakis 2004 ).

Η εφαρμογή της διαδικασίας αφαίρεσης των διπλών εγγραφών γίνεται στα πρώτα

πακέτα των συνόλων δεδομένων που φθάνουν από τους servers, κατά τη διάρκεια των

πρώτων παρουσιάσεων των δεδομένων στον χρήστη. Με τον τρόπο αυτόν

εξοικονομείται χρόνος και όταν απαιτείται η σύγκριση μεγάλου αριθμού εγγραφών,

140

Page 141: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

αυτό γίνεται κατά τη διάρκεια του χρόνου που ο χρήστης διαβάζει τα παρουσιασμένα

δεδομένα (Sfakakis and Kapidakis 2004 : 291 ). Στο Σχεδιάγραμμα 3 παρουσιάζονται

τα υποσυστήματα, τα συστατικά και οι διαδράσεις του προτεινόμενου συστήματος.

Σχεδιάγραμμα 3. Υποσυστήματα, συστατικά και διαδράσεις

συστήματος

Το προτεινόμενο σύστημα αποτελείται από τρία υποσυστήματα

(modules), τα οποία εργάζονται παράλληλα (Sfakakis and Kapidakis 2004 : 293-

295).

● Request Interface (Διεπαφή Αιτήματος). Λαμβάνει και αποστέλλει

κάθε αίτημα χρηστών (αναζήτηση ή παρουσίαση) στα

κατάλληλα εσωτερικά υποσυστήματα.

● Resource Communicator (Πληροφοριοδότης πόρων). Έχει πρόσβαση

στους πόρους, με τη χρήση κατάλληλων πρωτοκόλλων

επικοινωνίας (π.χ. Z39.50) στους οποίους αποστέλλει τις

141

Page 142: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

αντίστοιχες εντολές ώστε να ανακτήσει τα δεδομένα τους.

Αιτεί από τους servers τη χρήση των υπηρεσιών εντοπισμού

διπλών εγγραφών ή ταξινόμησης (εάν είναι διαθέσιμες).

● Data Integrator (Ενοποιητής Δεδομένων). Αφού λάβει τα σύνολα δεδομένων

από τον Resource Communicator, προχωρεί στην ενοποίηση των

πληροφοριών με την εφαρμογή της διαδικασίας εντοπισμού διπλών εγγραφών.

Διαχειρίζεται τις επεξεργασμένες ενιαίες εγγραφές έτσι ώστε να είναι έτοιμες

για παρουσίαση στον χρήστη. Η αποστολή των συνόλων παρουσίασης των μη

διπλών εγγραφών στο Request Interface, γίνεται τμηματικά. Η εσωτερική

δομή του υποσυστήματος του Data Integrator περιλαμβάνει τέσσερα

συστατικά:

o Data provider (Πάροχος δεδομένων). Δέχεται τα δεδομένα από τον

Resource Communicator και τα στέλνει, ένα την κάθε φορά, στο

κατάλληλο συστατικό.

o Local Result Set Manager (Διαχειριστής τοπικού συνόλου

αποτελεσμάτων). Κρατά και ταξινομεί τις εγγραφές από τις οποίες

έχουν ήδη αφαιρεθεί οι διπλές τους, στην εσωτερική δομή του Local

Result Set (τοπικού συνόλου αποτελεσμάτων). Ενεργοποιεί την

διαδικασία εντοπισμού διπλών εγγραφών και προετοιμάζει το σύνολο

αποτελεσμάτων προς παρουσίαση.

o De-duplicator (Αφαίρεση διπλών εγγραφών). Είναι το συστατικό που

αφορά τη διαδικασία των αλγορίθμων εντοπισμού των διπλών

εγγραφών. Αφού δεχθεί μια εγγραφή από τον Local Result Set

Manager, συγκρίνει την εγγραφή με όλες τις άλλες που βρίσκονται στο

Local Result Set, ακολουθώντας μια προκαθορισμένη σειρά. Κατόπιν

142

Page 143: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

διαβιβάζει τα αποτελέσματα πίσω στον Local Result Set Manager ο

οποίος τα ταξινομεί στην κατάλληλη σειρά του Local Result Set.

o Data presenter (Παρουσιαστής δεδομένων). Δέχεται τις αναζητήσεις

των δεδομένων από το Request Interface, τις διαβιβάζει στον Local

Result Set Manager και επιστρέφει τις μοναδικές εγγραφές πίσω στο

Request Interface.

Η παραπάνω προτεινόμενη αρχιτεκτονική δεν στοχεύει στην ταυτόχρονη

ενοποίηση του συνόλου των ανακτηθέντων πόρων. Επικεντρώνεται στην ανάκτηση

ενός μικρού αριθμού εγγραφών, την ενεργοποίηση της διαδικασίας εντοπισμού

διπλών εγγραφών και τέλος της παρουσίασης στον χρήση ενός συνόλου ενιαίων

εγγραφών κατά τη διάρκεια της αναζήτησης (Sfakakis and Kapidakis 2004 : 298 ).

143

Page 144: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΣΥΜΠΕΡΑΣΜΑΤΑ

Στην εργασία αυτή εντοπίσαμε και μελετήσαμε τους λόγους της δημιουργίας

διπλών βιβλιογραφικών εγγραφών, καθώς και τα προβλήματα που δημιουργούνται σε

ένα αυτοματοποιημένο σύστημα καταλόγων από την ύπαρξή τους. Αναφέραμε

συγκεκριμένους αλγορίθμους εντοπισμού και αφαίρεσης των εγγραφών αυτών.

Καταλήξαμε στο συμπέρασμα πως εφαρμογή τους συνήθως υλοποιείται σε ένα ή δύο

βήματα. Στην περίπτωση της εφαρμογής σε ένα βήμα (ALEPH-UMI, ILCSO και

Συλλογικός Κατάλογος) επιτυγχάνεται ταχύτερη εκτέλεσή τους αλλά τα ποσοστά

καθαρισμού της βάσης παραμένουν συνήθως χαμηλά. Η πλειοψηφία των αλγορίθμων

εφαρμόζεται σε δύο βήματα. Η βελτίωση που επιτυγχάνεται σε όλους τους τομείς

είναι μεγαλύτερη, αφού αρχικά με την εφαρμογή ενός σύντομου κλειδιού

συγκεντρώνονται οι πιθανές διπλές εγγραφές και στη συνέχεια στο νέο αυτό αρχείο

εφαρμόζεται το υπόλοιπο και πιο λεπτομερές μέρος του αλγορίθμου.

Παρατηρήσαμε πως οι διαδικασίες εφαρμογής των αλγορίθμων αυτών

καταλήγουν είτε στη συγχώνευσή τους είτε στη διαγραφή τους με βάση την

εφαρμογή κάποιων κριτηρίων συγχώνευσης. Εκτός από τις προσεγγίσεις των δύο

βημάτων που ενσωματώνουν ή διαγράφουν τις διπλές εγγραφές, εντοπίσαμε και την

εφαρμογή άλλων προσεγγίσεων. Κάποιες εξ’ αυτών στοχεύουν στη συγκέντρωση και

την ομαδοποίηση όλων των σχετιζομένων εκδηλώσεων ενός τεκμηρίου (Hylton και

RLIN) και όχι στην φυσική συγχώνευσή τους, ενώ άλλες στην προσωρινή ενοποίησή

τους κατά τη διάρκεια της ανάκτησής τους (MELVYL) ή της αναζήτησης (COPAC)

από τον χρήστη (on the fly). Το αποτέλεσμα των μεθόδων αυτών δεν είναι η φυσική

144

Page 145: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ενοποίηση των εγγραφών στη βάση, αλλά απλώς η προσωρινή ή η «εικονική»

ενοποίησή τους για λόγους παρουσίασης στον χρήστη. Τέλος, εξετάσαμε και το θέμα

της δημιουργίας κατανεμημένων ενιαίων καταλόγων και της δυνατότητας εφαρμογής

υπηρεσιών εντοπισμού διπλών εγγραφών σε πραγματικό χρόνο με τη χρήση των

υπηρεσιών του πρωτοκόλλου Ζ39.50.

Συμπεραίνουμε πως σήμερα στην πλειοψηφία τους οι αλγόριθμοι ανεξάρτητα από

την μέθοδο αξιολόγηση των διπλών εγγραφών που χρησιμοποιούν και ανεξάρτητα

από τον τρόπο που ομαδοποιούν ή χειρίζονται τις εντοπισμένες διπλές εγγραφές, είναι

αλγόριθμοι εφαρμογής δύο βημάτων. Τα προγράμματα που βρίσκονται σήμερα σε

λειτουργία είναι αυτά του ILCSO, το πρόγραμμα DDR του OCLC και οι αλγόριθμοι

του COPAC, του RLIN, του MELVYL και σύντομα αναμένεται να τεθεί σε

λειτουργία και ο Συλλογικός Κατάλογος των ελληνικών ακαδημαϊκών βιβλιοθηκών.

Δύο εξ’ αυτών (ILCSO και Συλλογικός Κατάλογος) εφαρμόζουν διαδικασίες ενός

βήματος, ενώ οι άλλοι τέσσερις (DDR, COPAC, RLIN και MELVYL) εφαρμόζουν

διαδικασίες δύο βημάτων. Όλοι οι παραπάνω αλγόριθμοι «τρέχουν» offline. Ακόμη

και το MELVYL που ο αλγόριθμός του δεν συγχωνεύει φυσικά τις διπλές εγγραφές

αλλά τις σώζει σε ειδικό πίνακα απ’ όπου ανασύρονται για να παρουσιαστούν στον

χρήστη, εφαρμόζει τη διαδικασία αυτή κατά την εισαγωγή δέσμης των εγγραφών στη

βάση. Η ενιαία εγγραφή παρουσιάζεται στον χρήστη κατά τον πραγματικό χρόνο της

ανάκτησης. Μόνο ο COPAC εφαρμόζει τη διαδικασία σε πραγματικό χρόνο και αυτό

συμβαίνει μόνο σε ένα μέρος της διαδικασίας του, η οποία αφορά την ταυτόχρονη

αναζήτηση και στα τρία τμήματά του.

145

Page 146: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Καταλήγουμε, πως η λύση στο προβλήματα της ύπαρξης διπλών εγγραφών είναι

ένα ζήτημα πολύπλοκο και δυσεπίλυτο. Αφενός τα λάθη - είτε προέρχονται από την

ερμηνεία των κανόνων καταλογογράφησης είτε από αβλεψία στην καταχώρηση - εφ’

όσον εξαρτώνται από τον ανθρώπινο παράγοντα και την κρίση του, θα συνεχίσουν να

υπάρχουν. Αφετέρου, η εφαρμογή αυτοματοποιημένων διαδικασιών για την

πρόληψη, διαχείριση και περιορισμό του φαινομένου απαιτεί επιλογές και λύσεις

προσαρμοσμένες στην εκάστοτε περίπτωση που συχνά απαιτεί και την εμπλοκή του

ανθρώπινου παράγοντα για τη λήψη της τελικής απόφασης για διφορούμενες ή μη

ευδιάκριτες πολλαπλές εγγραφές. Για τη δημιουργία και την επιλογή των

κατάλληλων αλγορίθμων διαχείρισης διπλών εγγραφών δεν υπάρχει κάποια

ενδεδειγμένη και συγκεκριμένη λύση, ούτε υπάρχει ένα σύστημα ή εργαλείο που

μπορεί απλά να μεταφερθεί από ένα περιβάλλον και να εφαρμοστεί αυτούσιο σε

κάποιο άλλο. Κάθε περιβάλλον έχει τις δικές του ιδιαιτερότητες και φιλοσοφία,

εφαρμόζει ιδιαίτερες πρακτικές και έχει συγκεκριμένες και ειδικές ανάγκες. Σε κάθε

τέτοιο σύστημα η εφαρμογή των αλγορίθμων αυτών απαιτεί ειδική μελέτη και

προσαρμογή ώστε να ανταποκρίνεται στις δεδομένες ανάγκες. Σε κάθε περίπτωση

πάντως θα πρέπει να είμαστε ανεκτικοί σε κάποιες περιπτώσεις χαμένων και

λανθασμένων ταυτοποίησεων.

Η μεγάλη τεχνολογική πρόκληση που παρατηρούμε να εμφανίζεται, είναι η

δημιουργία και η εφαρμογή ειδικών αλγορίθμων εντοπισμού και συγχώνευσης

διπλών εγγραφών που να ικανοποιούν τις νέες λειτουργίες των καταλόγων με στόχο

τη συγκέντρωση και ομαδοποίηση σχετικών εκδηλώσεων τεκμηρίων, και η

ταυτόχρονη εφαρμογή σύγχρονων αρχιτεκτονικών με βάση τα κυρίαρχα πρωτοκόλλα

επικοινωνίας. Διαπιστώνουμε πως η ανάγκη για ανάκτηση καθαρών και λειτουργικά

146

Page 147: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ταξινομημένων ανακτήσεων ηλεκτρονικών πόρων είναι έντονη. Το ζητούμενο είναι η

διαχείριση μεγάλου όγκου δεδομένων και η επίλυση του προβλήματος, σε

δικτυωμένα περιβάλλοντα σε πραγματικό χρόνο. Οι εικονικοί κατάλογοι και το

πρωτόκολλο Ζ39.50 είναι τα σημεία εστίασης της έρευνας ώστε να ικανοποιηθούν οι

επιθυμίες των χρηστών, είτε αυτοί είναι οι καταλογογράφοι είτε οι τελικοί χρήστες

των βιβλιοθηκών. Οι χρήστες επιθυμούν ένα κατάλογο περιεκτικό, ενημερωμένο,

καθαρό, συνεπή και γρήγορο, ο οποίος πέρα από τις συμβατικές υπηρεσίες

αναζήτησης, να είναι σε θέση να ενσωματώνει αναζητήσεις μεταξύ κατανεμημένων

βάσεων δεδομένων σε ένα ετερογενές δίκτυο, μέσω μιας ενιαίας διεπαφής χρήστη

(interface) με δυνατότητα εκμετάλλευσης όλων των νέων εργαλείων οργάνωσης και

διανομής των πληροφοριών με συνέπεια, ακρίβεια και ταχύτητα.

Για τη μελλοντική έρευνα σημαντικό στόχο αποτελεί η εξέλιξη των μεθόδων

ομαδοποίησης των εκδηλώσεων των έργων και οι νέοι τρόποι διαχείρισής τους. Στο

πεδίο αυτό το μοντέλο FRBR (Functional Requirements for Bibliographic Records)

που αποτελεί σύσταση του 1998 της IFLA (http :// www . ifla . org / VII / s 13/ frbr / frbr . htm )

και αφορά την αναδόμηση των βάσεων καταλόγων, αποτελεί ένα σημαντικό πεδίο

έρευνας στον χώρο της επιστήμης της πληροφόρησης, ώστε να αντανακλάται η

εννοιολογική δομή των πληροφοριακών πόρων με βάση τις σύγχρονες αντιλήψεις,

εφαρμόζοντας ειδικούς αλγορίθμους εντοπισμού και συγκέντρωσης εγγραφών.

Επίσης σημαντικό στόχο θεωρούμε την έρευνα που έχει ήδη ξεκινήσει για την

εφαρμογή αλγορίθμων ανίχνευσης αντιγράφων (copy detection) σε ψηφιακά

τεκμήρια πλήρους κειμένου και αφορά την πρόληψη της λογοκλοπής και της

διαχείρισης των πνευματικών δικαιωμάτων.

147

Page 148: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Η χρήση των υπηρεσιών του πρωτοκόλλου Ζ39.50 και η εφαρμογή ειδικών

αλγορίθμων, αποτελεί τεχνολογική πρόκληση. Λόγου του μεγάλου όγκου του

διαθέσιμου υλικού, η ταξινόμηση και η συγχώνευση των ανακτηθέντων πληροφοριών

αποτελούν ένα από τα ζητούμενα της έρευνας. Με τη χρήση των υπηρεσιών του

Ζ39.50 αλλά και με άλλα πρωτόκολλα αναζήτησης όπως το ZING SRW / SRU και

το OAI αναμένεται να διατυπωθούν νέες προτάσεις και να δοθούν λύσεις, που

αφορούν τη διαχείριση των πολλαπλών εγγραφών ή πόρων σε ένα δικτυωμένο,

κατανεμημένο και ετερογενές περιβάλλον.

148

Page 149: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΠΑΡΑΡΤΗΜΑ Α΄

ΑΛΓΟΡΙΘΜΟΙ ΕΜΠΟΡΙΚΩΝ ΠΡΟΓΡΑΜΜΑΤΩΝ

1. HORIZON

Tο πρόγραμμα βιβλιοθήκης Horizon, στις νεώτερες εκδόσεις του, παρέχει τη

δυνατότητα εντοπισμού διπλών εγγραφών των αρχείων καθιερωμένων όρων

(authorities). 30 Δίνεται η δυνατότητα κατά την παραμετροποίηση του προγράμματος

να δηλωθούν τα κριτήρια ελέγχου διπλών εγγραφών με βάση μοναδικούς αριθμούς

που καταχωρούνται στα διάφορα υποσυστήματά του. Ορίζονται τα σημεία ταύτισης

που επιθυμεί η βιβλιοθήκη, π.χ. 001 (κωδικός εγγραφής), ISBN, ISSN, LCCN,

ραβδοκώδικας αντιτύπου, ραβδοκώδικας δανειζομένου, κωδικοί συλλογών,

βιβλιοθηκών, αριθμών εισαγωγής, με αποτέλεσμα το σύστημα να αποτρέπει

αυτόματα την καταχώρηση εγγραφών που εμπίπτουν στις ταυτίσεις αυτές. Το

Horizon διατηρεί αρχείο συμβάντων (log file) που αναφέρει στο διαχειριστή ποια

εγγραφή δεν εισήχθηκε και με ποια ταυτίζεται βάσει κριτηρίου (π.χ. ISBN).

Στην περίπτωση που ο καταλογογράφος επιχειρήσει να δημιουργήσει ακριβώς τον

ίδιο όρο στο Αρχείο Καθιερωμένων Τύπων που έχει ήδη καταχωρηθεί στη βάση του,

το πρόγραμμα κατά την προσπάθεια αποθήκευσης εμφανίζει ένα παράθυρο στο οποίο

αναφέρεται ο αριθμός της Εγγραφής Καθιερωμένου Τύπου που βρέθηκε να περιέχει

τον ίδιο όρο και επιτρέπει τρεις επιλογές: α) αποθήκευση της εγγραφής ως

διπλοεγγραφή, β) επικάλυψη της υπάρχουσας με τη νέα που δημιούργησες, και γ)

ακύρωση της αποθήκευσης. Τέλος, στο υποσύστημα των προσκτήσεων, παρέχεται η

δυνατότητα ελέγχου με βάση το ISBN.

30 Επικοινωνία μέσω e-mail με Θάλεια Τσαλκιτζή, Product manager of Dynix products (14/1/2005)

149

Page 150: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

2. GEAC-ADVANCE

Το σύστημα οργάνωσης βιβλιοθηκών ADVANCE31 κατά την παραμετροποίησή

του επιτρέπει στον διαχειριστή του να δημιουργήσει το επιθυμητό προφίλ

φορτώματος με βάση το οποίο θα γίνεται ο αυτόματος έλεγχος καταχώρησης

διπλοτύπων. Στο προφίλ αυτό χρησιμοποιούνται μοναδικοί βιβλιογραφικοί αριθμοί

(συνήθως ISBN, ISSN ή LCCN). Υπάρχει η δυνατότητα να ορισθούν πρόσθετοι

παράμετροι όπως για παράδειγμα ένα μοναδικός αριθμός συν ένας ορισμένος αριθμός

χαρακτήρων από την αρχή του τίτλου (π.χ. οι 20 πρώτοι χαρακτήρες). Το ADVANCE

παρέχει επίσης τη δυνατότητα να ενσωματωθούν ειδικές ρουτίνες που

κατασκευάζονται από το συγκεκριμένο σύστημα βιβλιοθηκών οι οποίες συσχετίζουν

της παραμέτρους που θέτει το ίδιο τα πρόγραμμα με τις συγκεκριμένες παραμέτρους

που επιθυμεί η βιβλιοθήκη (π.χ. κωδικός παραρτήματος). Όσον αφορά τον έλεγχο

ποιότητας των Αρχείων Καθιερωμένων Όρων, εδώ υπάρχει ένα ακόμη πιο σύνθετο

προφίλ φόρτωσης, που παρέχει τη δυνατότητα επιλογής δράσης. Το σύστημα κατά

την φόρτωση εάν διαπιστώσει ταυτότητα εγγραφών ρωτάει εάν η εγγραφή που

καταχωρείται πρέπει να επικαλυφθεί, να διαγραφεί ή να αντικατασταθεί.

3. Library Technologies, Inc. (LTI)

Η αμερικάνικη εταιρία LTI (Library Technologies, Inc.) (Willow Grove, PA,

www .librarytech.com ) στο σύνολο των δραστηριοτήτων της που αφορούν προσφορά

υπηρεσιών προς τις βιβλιοθήκες, περιλαμβάνει και την υπηρεσία του εντοπισμού και

της αφαίρεσης των διπλών εγγραφών σε βιβλιογραφικές βάσεις. Οι λειτουργίες αυτές

κατά ένα πολύ μεγάλο βαθμό εξαρτώνται από την πηγή που προέρχονται οι εγγραφές

αυτές και ιδιαίτερα από την πληρότητα της καταλογογράφησης και την παρουσία

αριθμών ελέγχου.31 Τηλεφωνική επικοινωνία με Γιώργο Βουγιουκλή, Τεχνικό Διευθυντή της ELiDOC (11/2/2005)

150

Page 151: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Ο εντοπισμός των διπλών εγγραφών και η συγχώνευσή τους είναι μια διαδικασία

δύο βημάτων. Εάν η πλειοψηφία των εγγραφών προέρχονται από το OCLC, τότε το

πιο ενδεδειγμένο κλειδί ταυτοποίησης είναι ο αριθμός ελέγχου του OCLC. Στην

περίπτωση που η βιβλιοθήκη χρησιμοποιεί κάποιον άλλον δικό της μοναδικό αριθμό

ελέγχου, η αναζήτηση αυτή γίνεται με βάση τον αριθμό αυτό.32 Μετά από την

παραπάνω ταυτοποίηση για όσες εγγραφές απέμειναν, ακολουθεί η σύγκρισή τους με

βάση δύο ακόμη κλειδιά αριθμών ελέγχου, το ISBN και έπειτα το LCCN, ενισχυμένα

με τέτοιον τρόπο ώστε να προσδιορίζουν και να αποβάλουν όλες τις διπλές εγγραφές

από τις βάσεις των οποίων οι εγγραφές δεν διαθέτουν μοναδικούς αριθμούς ελέγχου.

Οι αριθμοί ελέγχου ISBN και LCCN δεν χρησιμοποιούνται ποτέ μεμονωμένα. Σε

αυτούς τους αριθμούς προστίθενται δεδομένα από τον τίτλο και τη χρονολογία

δημοσίευσης. Αντιθέτως, οι αριθμοί ελέγχου του OCLC θεωρούνται πως σε γενικές

γραμμές είναι πιο ασφαλείς όταν χρησιμοποιούνται μεμονωμένα, δηλαδή χωρίς την

«ενίσχυσή» τους με τις πληροφορίες του τίτλου και της χρονολογίας.33

Για την ανίχνευση των διπλών εγγραφών οι οποίες στερούνται κάποιον αριθμό

ελέγχου, υιοθετείται ένα «μη αριθμητικό» κλειδί ταυτοποίησης 52 χαρακτήρων.34

Αυτό το κλειδί συνδυάζει πληροφορίες που προέρχονται από τα πεδία σταθερού και

μεταβλητού μήκους του MARC. Κατά ένα μεγάλο μέρος προέρχεται από την αρχή

και το τέλος του τίτλου, το πεδίο εκδότη, της χρονολογίας δημοσίευσης και της

σελιδαρίθμησης. Όλες οι παραπάνω διαδικασίες πραγματοποιούνται offline και για

τον λόγο αυτό, όσο διαρκεί η επεξεργασία της βάσης το δίκτυο πρέπει να «παγώσει»

και να σταματήσουν όλες οι λειτουργίες που αφορούν την τροποποίηση ή την

32 LTI, Inc, www . librarytech . com (Ημερομηνία πρόσβασης: 8/1/2005) 33 LTI, Inc, www . librarytech . com (Ημερομηνία πρόσβασης: 8/1/2005)34 Επικοινωνία μέσω e-mail με τον Jim Schoenung, LTI, Inc, (10/1/2005)

151

Page 152: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

διαγραφή των υπαρχόντων εγγραφών και υπαρχόντων. Παρόλα αυτά, κατά τη

διάρκεια της περιόδου στην οποία η επεξεργασία βρίσκεται σε εξέλιξη, η βιβλιοθήκη

μπορεί να προσθέτει νέες βιβλιογραφικές εγγραφές στον κατάλογό της, καθώς επίσης

και να προσθέτει τις εγγραφές των υπαρχόντων τους.

Παρόλο που η εταιρία σημειώνει πως δεν μπορεί να εκτιμήσει το κόστος του

εντοπισμού και της συγχώνευσης των εγγραφών μιας βάσης χωρίς προηγούμενο

έλεγχο, ως μια γενική εκτίμηση αναφέρει πως το κόστος ανέρχεται σε $0,03 για κάθε

συγχωνευμένη εγγραφή που προκύπτει.35

4. MARCIVE, Inc.

Άλλη μια αμερικάνικη εταιρία που ασχολείται με εντοπισμό και συγχώνευση

βιβλιογραφικών εγγραφών, καθώς και υπαρχόντων και εγγραφών αρχείων

καθιερωμένων όρων, είναι η MARCIVE (San Antonio, TX,

http :// www . marcive . com ).

Αρχικά εφαρμόζει τον εντοπισμό των διπλών εγγραφών με βάση τους υπάρχοντες

μοναδικούς αριθμούς ελέγχου. Εάν η πηγή καταλογογράφησης είναι άλλη εκτός των

OCLC, RLIN και WLN, χρησιμοποιεί άλλους κοινούς αριθμούς, όπως το LCCN ή το

ISBN. Στην περίπτωση που μια βάση διαθέτει εγγραφές που προέρχονται από πολλές

διαφορετικές πηγές, γεγονός που σημαίνει πως δεν υπάρχει ένας κυρίαρχος μοναδικός

αριθμός, για να ταυτοποιήσει και να συγχωνεύσει την εισερχόμενη εγγραφή,

προχωρεί με τη σύγκριση των πεδίων:

● του τίτλου,

● της κύριας αναγραφής, και35 Επικοινωνία μέσω e-mail με τον Jim Schoenung, LTI, Inc, (10/1/2005)

152

Page 153: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

● της τοποχρονολογίας.

Στο λογισμικό αυτό υπάρχει η δυνατότητα να δηλωθεί μια ιεραρχία πηγών από τις

οποίες προέρχονται οι εγγραφές αλλά και μια ιεραρχία βιβλιοθηκών με βάση την

οποία γίνεται δυνατή η διατήρηση της εγγραφής που προέρχονται από αυτές, σε

αντίθεση με τις άλλες που θα συγχωνεύονται. Άλλη επιλογή είναι η διατήρηση της

εγγραφής που έχει χρησιμοποιηθεί ή δημιουργηθεί ή ενημερωθεί πιο πρόσφατα.

Το κόστος της διαδικασίας αυτής είναι φθηνότερο όταν η σύγκριση γίνεται μόνο

με βάση τους αριθμούς ελέγχου, γεγονός που είναι δυνατή μόνο σε λίγες περιπτώσεις.

Σε γενικές γραμμές εξαρτάται από τους εξής παράγοντες:

● Αν όλες οι εγγραφές προέρχονται από το OCLC.

● Αν όλες οι εγγραφές προέρχονται μόνο από μία πηγή καταλογογράφησης.

● Αν όλες οι εγγραφές προέρχονται από το ίδιο τοπικό σύστημα.

153

Page 154: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΠΑΡΑΡΤΗΜΑ Β΄

ΠΙΝΑΚΕΣ ΠΕΔΙΩΝ ΚΑΙ ΑΠΟΔΟΣΗΣ ΒΑΡΩΝ

Πίνακας 1. Oak Ridge National Laboratory

Στοιχεία Σχόλιο

Χρονολογία έκδοσης

Σελιδαρίθμηση Αρχική σελίδα.

CODEN

Αριθμός τόμου περιοδικού

Συγγραφέας

Βασίζονταν στο σχήμα SOUNDEX. Χρήση πρώτου

γράμματος του επιθέτου, ακολουθούμενο από έως 6 μη

επαναλαμβανόμενα σύμφωνα και το πρώτο αρχικό του

ονόματός του.

Τίτλος περιοδικού Τα 2 πρώτα γράμματα των πρώτων 4 λέξεων.

Τίτλος άρθρου Τα 4πρώτα και τα 4 τελευταία σύμφωνα.

Πίνακας 2. OCLC: MDBUPD

Στοιχεία Σχόλιο

ΕκδότηςΟι 4 πρώτοι μη κενοί χαρακτήρες με τα αρχικά (initials) της ονομασίας του και τα αρχικά άρθρα διαγραμμένα.

Τόπος έκδοσης Οι 8 πρώτοι χαρακτήρες μέχρι το τέλος του πεδίου ή έως το κόμμα.

Τίτλος Οι 6 πρώτοι χαρακτήρες, εξαιρουμένων των “a”, “an”, “the” και οι 16 τελευταίοι.

Χρονολογία Οι δύο πρώτες χρονολογίες αποτελούμενες από 4 συνεχόμενα ψηφία η κάθε μία. Στην περίπτωση πολλαπλής χρονολογίας η ταυτοποίηση μόνο της μίας εκ των δύο είναι αρκετή.

Σελίδες Το πρώτο σύνολο συνεχόμενων ψηφίων.

154

Page 155: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Πίνακας 3. OCLC (Hickey and Rypka)

3.1. Πίνακας πεδίωνΣτοιχεία Πεδία36 Σχόλιο

Χρονολογία 008, θέσεις 7-14 και 260#c Ακριβής ταυτοποίησηΤύπος εγγραφής Leader, θέση 06 Ακριβής ταυτοποίηση Κωδικός αναπαραγωγής 008, θέση 06 Ακριβής ταυτοποίηση Αρχή τίτλου 245 #a, #b Περιέχει τους μη κενούς χαρακτήρες

των θέσεων 1, 2, 3, 5, 8, 13, 21 και 34. Προηγείται κανονικοποίηση.Ακριβής ταυτοποίηση.

Τόπος έκδοσης 260 #a Οι πρώτοι 6 μη κενοί χαρακτήρες.Προηγείται κανονικοποίηση.

Όνομα συγγραφέα 100, 110, 111, 700, 710, 711 Αποτελείται από 3 τμήματα: α) κωδικός ευρετηρίου για το πεδίο από το οποία ελήφθησαν οι πληροφορίες, β) για τα ονόματα φυσικών προσώπων το μήκος του επιθέτου για τα συλλογικά όργανα και τα συνέδρια το συνολικό μήκος του πεδίου, και γ) ένα παραγόμενο κλειδί 3 bytes. Π.χ. David J. Rypka αντιστοιχεί το κλειδί 2, 1, 0 δηλ. RYD.

Εκδότης 260 #b Κατακερματίζεται σε ένα κλειδί 61 bits, με χρήση bigrams (ζεύγη χαρακτήρων).

Κερματισμένος τίτλος Όπως το κλειδί «Αρχικού τίτλου»

Το σύνολο του τίτλου κατακερματίζεται σε κλειδί 109 bits από τις τιμές των trigrams.

Σελίδες 300 #a Ο μεγαλύτερος αριθμός.SuDocs 086 #a ISBN 020Έκδοση 250 #a Αποτελείται από δύο μέρη: α) ορίζει

έναν από τους ειδικούς τύπους εκδόσεων π.χ. βιβλίο του καθηγητή. Ακριβής ταυτοποίηση, β) χρησιμοποιείται για αριθμημένες και αναθεωρημένες εκδόσεις.

Σειρά 400, 410, 411, 440, 490 Αριθμός σειράς.LCCN 010 #a

36 Αν και όταν αναπτύχθηκε βασίστηκε στο μορφότυπο MARC II (US-MARC), λόγω των αλλαγών που έχουν γίνει στην νέα έκδοσή του MARC21, ιδιαίτερα στις θέσεις των πεδίων σταθερού μήκους, εδώ αναφέρονται οι αντίστοιχες θέσεις του MARC21.

155

Page 156: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Πίνακας 3.2. Πίνακας αποφάσεωνElements 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Reproduction code

E E E E E E E E E E E E E E E E

Record type E E E E E E E E E E E E E E E E

Beginningof title

E E E E E E E E E E E E E E E E

Date E E E E E E E E E E E - E E E E

Place - - - E - - - E - - E E - - - -

LCCN E E E - P P P P P P E P P P P P

ISBN P P P P E E E - P P P E P P P P

SuDocs P P P P P P P P E E - - P P P P

Edition P P - P - - - P P P P P P P P E

Series - - - P - E - P P P P P P P E P

Name (author)

- - - P - - - - - - P P E - - -

Page P - - P P - - E E P E E P E P P

Publisher - P - P - - - P - - - P P P P P

Hashed title - - P E - - P E - P - E P P P E

Τιμές: E=exact match, P=partial match, - =mismatch (Πηγή: Hickey and Rypka 1979 : 134 )

156

Page 157: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Πίνακας 4. OCLC – DDRData element Primary

source (s)Type of

comparisonCondition Weight

LCCN 010 #a Numeric Occurs in both records 1. 00

ISBN 020 #a Maximum numeric At least one valid ISBN in both records 2. 00Gov. Doc. Number

086 #a Maximum numeric string similarity

At least one entry in both records 1. 00

Cataloging Library

040 #a Numeric Same in both records 1. 00

Publication date Date typedate1, date2

Table Detailed dateSimple valid dates in both recordsPublication date uncertain All other cases

2. 000. 650. 350. 50

Media Repr Character One of the records is for a photocopyConsistent information in both recordsInconsistent information in one or both records

1. 003. 00

1. 50Author 100 #a + 110 #a +

111 #a +710#a + 711 #a

String similarity Occur in both records 1. 50

Title 245 #a + #b + #n + #p

String similarity and table

Identical normalized titlesSingle typographical errorDifferent number or acronymOne title is truncatedOne word omitted form titleA phrase omitted form titleWord substitutionOther differences

3. 003. 003. 003. 003. 003. 003. 003. 00

Statement of responsibility

245 #c String similarity Occur in both records 1. 00

Edition 250 #a + #b Numeric string similarity

Numbered editionsNumbered Romance editionsNon-numeric editionsIncompatible editionsOnly one record has an edition statementOne record has bracketed edition statement, other record has noneOne record has Romance edition statement, other record has noneUnbracketed portions of the edition statement match

2. 000. 252. 002. 001. 50

0. 75

0. 25

1. 50

Publisher and Place

260 #a + #b500 #a533 #b + #d

String similarity Both records contain reliable place and publisher entries Both records contain valid place or publisher entries One publisher entry contains Questionable dataReprint publisher compared

3. 00

1. 50

0. 751. 00

Pages 300 #a Table and string similarity

Both record contains simple pagination entriesOne record contains a complex pagination entryExtents strings compared of physical unitsOne record has extent in number of unitsOne record has extent in form of n units in m

1. 50

1. 00

2. 001. 00

1. 50

Size 300 #c Table Occurs in both records 1. 00

Series 400 #a + #v410 #a + #v411 #a + #v440 #a + #v490 #a + #v533 #f830 #a + #v

Maximum numeric string similarity

Only one record has a series statementBoth records has a single series statementOne record has multiple series statement

0. 101. 501. 00

(Πηγή: O’ Neill and Oskins 1990)

157

Page 158: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Πίνακας 5. COPAC

Στοιχεία ΠεδίαΤαυτοποίησηISBN/ISSN

ΤαυτοποίησηΑκρωνύμου

ISBN/ISSN 021 #a, #b #z 8Χρονολογίες 008 #a, 260 #c 3 ΝΑΙΤίτλος 245 #a, #b, #1 2 ΝΑΙΤίτλος πολυμερούς (multi-part) 248 #g, #h ΝΑΙ ΝΑΙΣυγγραφέας 100 #a, #h, 110 #a, #c, #e 2 ΝΑΙΈκδοση 250 #a ΝΑΙ ΝΑΙΣειρά 400 #v, 410 #v, 440 #v, 490

#v, 840 #v, 890 #vΝΑΙ ΝΑΙ

Σελίδες 300 #a ΝΑΙΕκδότης 260 #b ΝΑΙ

(Πηγή: Cousins 1998 : 233 )

158

Page 159: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Πίνακας 6. RLIN 37

6.1. ΜονογραφίεςΣτοιχεία Πεδία Σχόλιο

Leader θέση 06, a ή t (μέσο έκδ.) Πλήρης ταυτοποίηση.Leader θέση 07όχι b, i, ή s - όταν το 006 δεν είναι conΤόπος 260 #aΕκδότης 260 #b Υπολογίζεται μόνο το πρώτο #b.

Stopwords: publishers, Verlag, publication, university, κτλ.

Χρονολογία έκδοσης 008 (θέση 06), 008 (θέση 07-14) ή 260 #c Πλήρης ταυτοποίηση.LCCN 010 #a ή #z Πλήρης ταυτοποίηση.ISBN 020 #a ή #z Πλήρης ταυτοποίηση.Τίτλος 245 #a, #b, #n, #p Τα αρχικά άρθρα αγνοούνται μόνο

όταν αυτό δηλώνεται από τον αντίστοιχο δείκτη του πεδίου 245, εάν παρόλα αυτά ο δείκτης (λόγω παράληψης) παραμένει κενός, τότε αγνοούνται τα αρχικά άρθρα “a”, “an” και “the”.Stopwords: conference, meeting, papers, κτλ.

Σελίδες 300 #a Υπολογίζεται μόνο ο μεγαλύτερος αραβικός αριθμός του #a. Οι αριθμοί των τόμων δεν μπορούν να συγκριθούν με τον αριθμό των σελίδων.

Έκδοση 250 #a Οι λέξεις ταυτοποιούνται με βάση την συντομότερη μορφή. Όταν υπάρχει ταυτοποίηση αριθμού/τίτλου, υπολογίζεται μόνο η αραβική αρίθμηση.

37 Πηγή: Record clustering in the RLG Union Catalog, http://www.rlg.org/en/page.php?Page_ID=20508, 2005 (Ημερομηνία πρόσβασης: 21/1/2005)

159

Page 160: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

6.2. Περιοδικές πηγές Στοιχεία Πεδία

Leader θέση 07, b, i, ή s – ή 006 είναι conΤόπος 260 #aΕκδότης 260 #bΧρονολογία έκδοσης 008 (θέση 06), 008 (θέση 07-14) ή 260 #c ή 362 #aEntry convention 008con/34 ή 006con/17LCCN 010 #a ή #zISSN 022 #a ή #zΤίτλος κλειδί 222 #a, #bΤίτλος 245 #a, #b, #n, #p. Πλήρης ταυτοποίηση #aΣελίδες 250 #aΈκδοση 250 #a

6.3. Χάρτες Στοιχεία Πεδία

Leader θέση 06, e ή fΤόπος 260 #aΕκδότης 260 #bΧρονολογία έκδοσης 008 (θέση 06, 07-14) ή 260 #cΧρονολογία έκδοσης (περιοδικές πηγές) 362 #aΤίτλος 245 #a, #b, #n, #pLCCN 010 #a ή #zΚώδικας γεωγραφικής ταξινόμησης 052 #a, #b. Πλήρης ταυτοποίηση.Φυσική περιγραφή (μη περιοδικές πηγές) 300 #aISBN (μη περιοδικές πηγές) 020 #a ή #zISSN (περιοδικές πηγές) 022 #a ή #zΈκδοση 250 #aEntry convention (περιοδικές πηγές) 008con/34 ή 006con/17Τίτλος κλειδί (περιοδικές πηγές) 222 #a, #b

6.4. Ηλεκτρονικές πηγές

160

Page 161: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Στοιχεία ΠεδίαLeader θέση 06, mΤόπος 260 #aΕκδότης 260 #bΧρονολογία έκδοσης 008/06, 008/07-14 ή 260 #cΧρονολογία έκδοσης (περιοδικές πηγές) 362 #aLCCN 010 #a ή #zISSN (περιοδικές πηγές) 022 #a ή #zISBN (μη περιοδικές πηγές) 020 #a ή #zΦυσική περιγραφή (μη περιοδικές πηγές) 300 #aΈκδοση 250 #aΤίτλος 245 #a, #b, #n, #pΧαρακτηριστικά αρχείου υπολογιστή 256 #aEntry convention (περιοδικές πηγές) 008con/34 ή 006con/17Τίτλος κλειδί (περιοδικές πηγές) 222 #a, #b

6.5. ΗχογραφήσειςΣτοιχεία Πεδία

Leader θέση 06, i ή jΑριθμός εκδότη για μουσική: 028 #a ή 262 #k. Πλήρης ταυτοποίηση.Εκδότης 028 #b ή 260 #b ή 262 #bΧρονολογία έκδοσης 008/06, 008/07-14 ή 260 #c ή 262 #cΧρονολογία έκδοσης (περιοδικές πηγές) 362 #aΦυσική περιγραφή (μη περιοδικές πηγές) 010 #a ή #zLCCN 020 #a ή #zΤίτλος 022 #a ή #z. Stopwords: sound, vocal, score, κτλ.ISBN (μη περιοδικές πηγές) 020 #a ή #zISSN (περιοδικές πηγές) 022 #a ή #zEntry convention (περιοδικές πηγές) 008con/34 ή 006con/17Τίτλος κλειδί (περιοδικές πηγές) 222 #a, #b

6.6. Παρτιτούρες

161

Page 162: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Στοιχεία ΠεδίαLeader θέση 06, c ή dΕκδότης 028 #b ή 260 #b ή 260 #aΤόπος (μόνο αν δεν υπάρχει τα 028, #b και 260, #b) 260 #aΑριθμός εκδότη για μουσική 028 #aΧρονολογία έκδοσης 008/06, 008/07-14 ή 260 #cΧρονολογία έκδοσης (περιοδικές πηγές) 008/06, 008/07-14 ή 260 #cΦυσική περιγραφή (μη περιοδικές πηγές) 300 #aΤίτλος 245 #a, #b, #n, #p . Stopwords: sound, vocal, score, κτλ.LCCN 010 #a ή #zΈκδοση 250 #aISBN (μη περιοδικές πηγές) 020 #a ή #zΠεριοχή μουσικής παρουσίασης 022 #a ή #z. Έως 100 χαρακτήρες.ISSN (περιοδικές πηγές) 022 #a ή #z Entry convention (περιοδικές πηγές) 008con/34 ή 006con/17Τίτλος κλειδί (περιοδικές πηγές) 222 #a, #b

6.7. Οπτικό υλικό (Visual materials) Στοιχεία Πεδία

Leader θέση 06, g, k, o, ή rΤόπος και Εκδότης 260 #a, #b ή 261 #f, #aΧρονολογίες 008/06, 008/07-14 ή 260 #c ή 261 #dΧρονολογία έκδοσης (περιοδικές πηγές) 362 #aΤίτλος 245 #a, #b, #n, #pLCCN 010 #a ή #z, ή 245 #hΦυσική περιγραφή (μη περιοδικές πηγές) 300 #aISBN (μη περιοδικές πηγές) 020 #a ή #zΈκδοση 250 #aISSN (περιοδικές πηγές) 022 #a ή #zEntry convention (περιοδικές πηγές) 008con/34 ή 006con/17008con/34 ή 006con/17Τίτλος κλειδί (περιοδικές πηγές) 222 #a, #b

162

Page 163: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Πίνακας 7. University of California – MELVYL: εντοπισμός και συγχώνευση εγγραφών κατά την ανάκτηση38

Πίνακας 7.1. Πεδία και βαθμοί μονογραφιών

LCCN 010 #a, #z Match on subfield #a 200Match on subfield #z 50Match between #a and #z 100Field present in both records but no match -320Either record or both records missing 0

ISBN 020 #a, #z Match on subfield #a 85Match on subfield #z 10Match between #a and #z 30Field present in both records but no match -225Either record or both records missing 0

Date 008, pos. 7-10 Exact match 200+/- 2 years -25 No match -250 Value missing 0

Short-Title 245 #a, #b, #n, #p Exact match on first 25 characters 450Non match 0

Full-Title 245 #a, #b , #n, #p Exact match 600Either title contained within other title 350Either title shorter than 9 characters 0Non match -600Matching keywords *

Country of 008, pos. 15-17Publication

Exact match 40Either one missing 0Non match -205

Pagination 300 #a Match exactly and > 10 100Match exactly and < 10 50Match within 10 and both are > 10 50Match within 10 and either < 10 20Non match (by more than 10) -225

Publisher 260 #b Exact match 100Either missing 0Occur within the other 100Non match -25

Main entry 100 #a, #b, #c, #d, #k, #q Exact match 125 110 # a, #b, #c, #d, #k, #n 111 #a, #b, #c, #d, #e, #g, #k, #n, #q

Matching keywords **Field missing from one record -25Fields missing from both records 75Non match -200

* Υπολογισμός βαθμολογίας με βάση το ποσοστό των λέξεων κλειδιών από τον πλήρη τίτλο που είναι κοινές στην εισερχόμενη εγγραφή και στην εγγραφή της βάσης (% κοινές) x 450. Αν οι λέξεις κλειδιά βρίσκονται στην ίδια σειρά τότε προστίθενται 50 βαθμοί.

** Αν είναι κοινές οι μισές ή περισσότερες από τις λέξεις κλειδιά της κύριας αναγραφής, η βαθμολογία υπολογίζεται με βάση το ποσοστό των κοινών λέξεων κλειδιών x 80. Αν οι λέξεις κλειδιά βρίσκονται στην ίδια σειρά τότε προστίθενται 50 βαθμοί.

38 Πηγή: e-mails από Cristina Campbell, Melvyl Project Coordinator (19-31/1/2005)

163

Page 164: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Πίνακας 7.2. Πεδία και βαθμοί περιοδικώνLCCN* 010 #a, #z Match on subfield #a 200

Match on subfield #z 50Match between #a and #z 100Non match on subfield #a -470Non-match between subfield #a and #z -50Non-match on subfield #z 0Either or both records missing field 0

ISSN* 022 #a, #y, #z Match on subfield #a 200Match on subfield #y 50Match on subfield #z 10Match between #a and #y 100Match between #a and #z 50Match between #y and #z 30Non match on subfield #a -250Non match between subfields and on subfields #y or #z 0Either record or both records missing field 0

Date 008 pos. 7-10 Exact match 225+/- 1 year 50 + /- 2 years 25If first three digits match then check 4th digit and if either record has a 0

20

No match -150 The value is missing from either or both records 0

Country* 008 pos. 15-17 Match 40Non match -20Either record or both records missing the value 0

Place of 260 #a Exact match on normalized place of publication 200Publication* Either or both records are missing the subfield 0

Non match on normalized place of publication -100Main Entry 110 #a, #b ,#c, #d,

#k, #n Exact match** 200

111 #a, #b, #c, #d, #e, #g, #n, #q 130 #a, #d, #g, #k,

If more then 60% match and occur in the same order ***If more then 60% match but not in order ****

#l, #m, #n, #o, #p, #r, #s, #t

If 60% or less then 60% of the key words in main entry fields match -250Either or both record missing fields 0

Title 245 #a, #b, #n, #p Exact match on title key – title NOT in list of common titles 600Exact match on title key – title is IN list of common titles 135Match on truncated title – title NOT in list of common titlesThe truncated title here is really the 245 #a only

175

Match on truncated title – title is IN list of common titlesThe truncated title here is really the 245 #a only

135

Non match on title -600Matching keywords ****

* Και οι δύο εγγραφές, η εισερχόμενη και αυτή της βάσης, μπορούν να έχουν πολλές τιμές. Όλες οι τιμές αξιολογούνται και χρησιμοποιείται η ανώτερη τιμή.

** Οι ταυτοποιήσεις της κύριας αναγραφής συμβαίνουν μεταξύ των πεδίων – αν το κανονικοποιημένο περιεχόμενο των πεδίων ταιριάζει τότε αυτό θεωρείται απόλυτη ταυτοποίηση ακόμη και αν τα δεδομένα βρέθηκαν σε διαφορετικά πεδία.

*** Η τιμή υπολογίζεται πολλαπλασιάζοντας το ποσοστό των λέξεων που ταυτίζονται με το 75 και προσθέτοντας το 25.

**** Η τιμή υπολογίζεται πολλαπλασιάζοντας το ποσοστό των λέξεων που ταυτίζονται με το 75.

164

Page 165: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Πίνακας 7.3. Κατάλογος κοινών τίτλων περιοδικών

ANALESANNUAL BUDGETANNUAL FINANCIAL REPORTANNUAL FINANCIAL REPORTANNUAL REPORTANNUAL REPORT FORANNUAL REPORT FOR THE FISCAL YEAR ENDED <MONTH YEAR>BIENNIAL REPORTBUDGETBULLETINBULLETINCALENDARCATALOGUECIRCULARCOMPREHENSIVE CONFERENCE PROCEEDINGSCONFERENCE RECORDDIRECTORYFACT SHEETFINAL BUDGETFINANCIAL REPORTGENERAL CATALOGJAHRESBERICHTJOURNALLANGUAGE SCIENCESLAWS ETCLEGISLATIVE CALENDARLEGISLATIVE SUMMARYMEMBERSHIP DIRECTORYMEMOIRESMEMORIAMINUTESMITTEILUNGEN

MONOGRAPHMONTHLY BULLETINNEWS RELEASENEWSLETTEROCCASIONAL PAPEROCCASIONAL PAPERSPROCEEDINGSPROCEEDINGS OF THE ANNUAL MEETINGPROGRESS REPORTPROPOSED BUDGETPUBLICACIONESPUBLICATIONPUBLICATIONSRAPPORTRAPPORT ANNUELREPORTREPORT AND ACCOUNTSRESEARCH REPORTREVISTASEMI ANNUAL REPORT TO THE CONGRESSSEMIANNUAL REPORT TO THE CONGRESSSESSION LAWSSTATISTICAL REPORTTECHNICAL BULLETINTECHNICAL REPORTTRANSACTIONSTRAVAUXTRUDYUPDATEVEROEFFENTLICHUNGENVEROFFENTLICHUNGENWORKSYEAR BOOKYEARBOOK

165

Page 166: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Πίνακας 8. Universal Standard Bibliographic Code: QUALCAT

Στοιχεία Πεδία ΣχόλιοΧρονολογία 260 #c 2 χαρακτήρες

Τίτλο 245 & 248 8 χαρακτήρες (έως 6 από τα #a και #b, 1 από

το πρώτο #h του 245 και 1 από το πρώτο #h του 248)

Τόμος/Μέρος 248 & 4ΧΧ 2 χαρακτήρες (από το πρώτο εμφανιζόμενο υποπεδίο μεταξύ των: #g του 248, #g του 245, #v των 4ΧΧ)

Έκδοση 250, #a 1 χαρακτήρας

Συγγραφέα 100 #a & 700 #a 2 χαρακτήρες

(Πηγή: Ayres, Cullen, Gierl, Huggill, Ridlay and Torsun 1991 : B 1 )

166

Page 167: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΠΑΡΑΡΤΗΜΑ Γ΄

ΠΙΝΑΚΕΣ ΑΞΙΟΛΟΓΗΣΗΣ ΑΛΓΟΡΙΘΜΟΥ ΣΥΛΛΟΓΙΚΟΥ ΚΑΤΑΛΟΓΟΥ ΕΛΛΗΝΙΚΩΝ ΑΕΙ-ΤΕΙ

Πίνακας 1. Αποτελέσματα εφαρμογής κλειδιού

167

Page 168: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Πίνακας 2. Προβλήματα κλειδιού

168

Page 169: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΠΑΡΑΡΤΗΜΑ Δ΄

Z39.50 DUPLICATE DETECTION SERVICE 39

Παράμετροι

Στις στήλες “Origin Request” και “Target Response” χρησιμοποιείται η ακόλουθη

σημειογραφία: (Information retrieval Z 39.50 -200, section 3.2.7.2 : 51-55 )

[0,1] : η παράμετρος είναι προαιρετική, μη επαναλαμβανόμενη δηλ. μηδέν ή ένα.

0+ : η παράμετρος είναι προαιρετική, επαναλαμβανόμενη δηλ. μηδέν ή περισσότερο.

1 : η παράμετρος είναι προαιρετική, μη επαναλαμβανόμενη δηλ. ακριβώς 1.

1+ : η παράμετρος είναι προαιρετική, επαναλαμβανόμενη δηλ. ένα ή

περισσότερο.

Parameter Origin Request

Target Response Condition

Input Result Set Id 1+    

Output Result Set Name 1    Applicable Portion of Record [0,1]    

Duplicate-detection Criterion 0+    

Clustering [0,1]  

Μπορεί να παραλειφθεί αν πρόκειται να διατηρηθεί μόνο η αντιπροσωπευτική εγγραφή (αν το κριτήριο διατήρησης /retention criterion) είναι «αριθμός καταχωρήσεων» και η τιμή του είναι «1». Διαφορετικά πρέπει να συμπληρωθεί.

Retention Criterion 1+    Sort Criterion 0+    

Status   1  Result count   [0,1] Must occur if Status is “success”.

Diagnostic   0+ Must occur if Status is “failure”.Other-information [0,1] [0,1] [0,1] [0,1]

Reference-id [0,1] [0,1] [0,1] [0,1]

39 Το κείμενο αποτελεί μετάφραση του πρωτότυπου κειμένου του πρωτοκόλλου Ζ39.50 (Information

retrieval Z39.50) (ANSI/NISOZ39.50-2003, maintenance revision of Z39.50-1995).

169

Page 170: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Input Result Set Id (Ταυτότητα Συνόλου Εισαγομένων Αποτελεσμάτων) και

Output Result Set Name (Όνομα Συνόλου Εξαγομένων Αποτελεσμάτων)

Ο origin (client) προσδιορίζει ένα ή περισσότερα παροδικά σύνολα

αποτελέσματος που ανήκουν στην τρέχουσα Z-association. Ο target (server)

συγχωνεύει λογικά τα σύνολα (αφαιρώντας τις διπλές εγγραφές και ταξινομώντας τις

τάξεις ισοδυναμίας (equivalence classes) σύμφωνα με τις παρακάτω παραμέτρους),

σε ένα ενιαίο σύνολο αποτελεσμάτων, που διευκρινίζεται από την παράμετρο Output

Result Set Name.

Applicable Portion of Record (Μέρος της εγγραφής προς εφαρμογή)

Ο origin μπορεί να διευκρινίσει ποιο μέρος της εγγραφής υπόκειται σε

ταυτοποίηση (παραδείγματος χάριν, ένα ή περισσότερα πεδία) ώστε να εντοπιστούν

οι διπλές εγγραφές. Εάν αυτή η παράμετρος παραλείπεται, ο target αποφασίζει ποια

μέρη της εγγραφής υπόκεινται σε ταυτοποίηση.

Duplicate-detection Criterion (Κριτήριο Εντοπισμού Διπλών Εγγραφών)

Για λόγους διαμόρφωσης, θεωρείται ότι δημιουργείται, ένα προσωρινό ενδιάμεσο

σύνολο αποτελεσμάτων (όχι το σύνολο εξαγομένων αποτελεσμάτων/output result set)

το οποίο περιλαμβάνει όλα τα τεκμήρια του συνόλου αποτελεσμάτων από όλα τα

σύνολα εισαγομένων αποτελεσμάτων/input result sets (συμπεριλαμβανομένου του

συνόλου αποτελεσμάτων των διπλών τεκμηρίων). Ο target εφαρμόζει τα κριτήρια

εντοπισμού διπλών εγγραφών που παρέχονται σε αυτήν την παράμετρο (ή εάν ο

170

Page 171: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

origin παραλείπει αυτήν την παράμετρο, ο target εφαρμόζει οποιοδήποτε κριτήριο

εντοπισμού διπλών εγγραφών επιλέξει) για να χωρίσει το ενδιάμεσο σύνολο

αποτελεσμάτων σε μια ή περισσότερες κατηγορίες ισοδυναμίας (equivalence classes)

όπου δύο σύνολα αποτελεσμάτων θεωρούνται ισοδύναμα εάν είναι διπλά. Δηλαδή ο

χωρισμός έχει τις ακόλουθες ιδιότητες:

Κάθε τεκμήριο του συνόλου αποτελεσμάτων που ανήκει σε ένα από τα

σύνολα εισαγομένων αποτελεσμάτων, ανήκει μόνο σε μια κατηγορία.

Οποιαδήποτε δύο τεκμήρια του συνόλου αποτελεσμάτων, ανήκουν στην ίδια

κατηγορία, εάν και μόνο εάν είναι διπλά.

Ο target διακρίνει ένα μοναδικό (single) τεκμήριο του συνόλου αποτελεσμάτων

μέσα σε κάθε κατηγορία ισοδυναμίας ως την αντιπροσωπευτική εγγραφή για αυτή την

κατηγορία. Η επιλογή της αντιπροσωπευτικής εγγραφής μπορεί να βασιστεί στην τιμή

της παραμέτρου Κριτήριο Ταξινόμησης (Sort Criterion).

Ο origin μπορεί να ορίσει ένα ή περισσότερα κριτήρια για τον εντοπισμό των

διπλών εγγραφών, τα οποία μπορούν να περιλαμβάνουν τα εξής (ο κατάλογος

υπόκειται στην επέκταση):

1. Επίπεδο ταυτοποίησης (Level of match). Εάν συμπεριλαμβάνεται αυτό το

κριτήριο, ο origin ορίζει ένα επίπεδο ταυτοποίησης με ποσοστιαίους όρους.

Παραδείγματος χάριν, τα fingerprints μπορεί να είναι διπλοεγγραφές βάσει

μιας ταυτοποίησης 60%, το 100% μπορεί να σημαίνει ότι οι εγγραφές είναι

διπλές μόνο εάν είναι ταυτόσημες.

2. Case sensitive (έχει σημασία εάν οι χαρακτήρες είναι κεφαλαίοι ή πεζοί)

3. Punctuation sensitive (σημαντικότητα στίξης)

171

Page 172: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

4. Regular expression. Εάν συμπεριλαμβάνεται αυτό το κριτήριο ο origin

παρέχει μια κανονική έκφραση για να κατευθύνει την ταυτοποίηση

5. Σύνολο αποτελεσμάτων διπλών εγγραφών (Result-set duplicates). Δύο

τεκμήρια του συνόλου αποτελεσμάτων αποτελούν διπλές εγγραφές του

συνόλου αυτού εάν αναφέρονται στην ίδια εγγραφή της βάσης.

Clustering (Συσταδοποίηση)

Ο origin ορίζει ένα από τα ακόλουθα:

1. Συστάδες (Clusters)

Το σύνολο εξαγομένων αποτελεσμάτων/output result set περιλαμβάνει ένα

τεκμήριο για κάθε τάξη ισοδυναμίας. Για κάθε τάξη ισοδυναμίας, δημιουργεί

ένα σύνολο αποτελεσμάτων μόνο για την αντιπροσωπευτική εγγραφή και

διατηρεί τις διπλές ως μεταδεδομένα. (Οι εγγραφές μπορούν στη συνέχεια να

παρουσιαστούν είτε ως (α) αντιπροσωπευτική εγγραφή με τις διπλές τους

επισυναπτόμενες ως μεταδεδομένα, χρησιμοποιώντας, παραδείγματος χάριν,

GRS40 ή (β) ως εγγραφή συστάδας (cluster record), με τη χρήση μιας

κατάλληλης σύνταξης συστάδων.

2. Μεμονωμένες καταχωρήσεις (Individual Entries)

Για τις αντιπροσωπευτικές εγγραφές, δημιουργεί μεμονωμένα τεκμήρια

συνόλου αποτελεσμάτων, όπως επίσης και για τις διπλές εγγραφές που

πρόκειται να διατηρηθούν (σύμφωνα με το Retention Criterion). Ταξινομεί το

σύνολο εξερχομένων αποτελεσμάτων έτσι ώστε οι εγγραφές μέσα σε μια

ισοδυναμία να συγκεντρωθούν μαζί. Η παράμετρος Sort Criterion μπορεί να

παρασχεθεί, για να ορίσει τον τρόπο ταξινόμησης των εγγραφών μέσα σε μια

τάξη.40 Αφορά μια πολύ γενικού σκοπού σύνταξη που ονομάζεται Generalized Record Syntax

172

Page 173: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Αυτή η παράμετρος μπορεί να παραλειφθεί μόνο εάν «ο αριθμός καταχωρήσεων»

παρέχεται ως κριτήριο διατήρησης και η τιμή που παρέχεται είναι “1”.

Retention Criterion (Κριτήριο Διατήρησης)

Ο origin διευκρινίζει ένα ή περισσότερα κριτήρια επιλογής των εγγραφών για το

συνυπολογισμό ή τον αποκλεισμό τους από κάθε τάξη ισοδυναμίας. Αυτά τα κριτήρια

περιλαμβάνουν τα ακόλουθα (ο κατάλογος υπόκειται στην επέκταση):

1. Αριθμός καταχωρήσεων

Εάν επιλεγεί αυτό το κριτήριο, ο origin παρέχει έναν αριθμό, N>0, που

σημαίνει πως διατηρεί (μέχρι) Ν καταχωρήσεις σε κάθε τάξη ισοδυναμίας.

N=1 σημαίνει πως διατηρεί μόνο την αντιπροσωπευτική εγγραφή. Αυτή η

τιμή μπορεί να χρησιμοποιηθεί σε συνδυασμό με το (3) ή/και το (4), αλλά όχι

με το (2).

2. Ποσοστό των καταχωρήσεων (Percent of entries)

Εάν επιλεγεί αυτό το κριτήριο, ο origin παρέχει ένα ποσοστό xx, πως σημαίνει

πως διατηρεί xx τοις εκατό των καταχωρήσεων σε κάθε τάξη ισοδυναμίας.

xx=100 σημαίνει πως διατηρεί όλες τις καταχωρήσεις. Αυτή η τιμή μπορεί να

χρησιμοποιηθεί σε συνδυασμό με το (3) ή/και το (4), αλλά όχι με το (1).

3. Μόνο διπλές εγγραφές. (Duplicates only)

Απορρίπτει την αντιπροσωπευτική εγγραφή. Αυτή η τιμή δεν πρέπει να

οριστεί εκτός αν η τιμή της παραμέτρου Clustering είναι «Μεμονωμένες

Καταχωρήσεις». Αυτή η τιμή μπορεί να χρησιμοποιηθεί σε συνδυασμό με το

(1) ή το (2), ή/και το (4).

4. Απόρριψη του συνόλου αποτελεσμάτων των διπλών εγγραφών (Discard result-

set duplicates)

173

Page 174: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Αυτή η τιμή μπορεί να χρησιμοποιηθεί σε συνδυασμό με το (1) ή το (2), ή/και

το (3). Εάν χρησιμοποιείται με το (1) ή το (2) τα σύνολα αποτελεσμάτων των

διπλών εγγραφών πρέπει πρώτα να απορριφθούν (προτού να επιλεγούν οι

καταχωρήσεις).

Sort Criterion (Κριτήριο Κατάταξης)

Ο client μπορεί να παρέχει ένα ή περισσότερα κριτήρια κατάταξης για την

επιλογή της αντιπροσωπευτικής εγγραφής καθώς επίσης και για τη σειρά των

εγγραφών μέσα σε μια τάξη ισοδυναμίας.

Αυτή η παράμετρος έχει επιπτώσεις στην ταξινόμηση των τεκμηρίων του

συνόλου αποτελεσμάτων μόνο στο εσωτερικό μιας τάξης ισοδυναμίας (και όχι στην

ταξινόμηση των τάξεων ισοδυναμίας). Εάν η τιμή της παραμέτρου Συσταδοποίησης

είναι «Συστάδες» τότε αυτή η παράμετρος δεν θα έχει καμία επίδραση οποιαδήποτε

και αν είναι η σειρά του συνόλου αποτελεσμάτων (αν και μπορεί να παραχθεί, για να

καθορίσει την επιλογή των αντιπροσωπευτικών εγγραφών καθώς επίσης και τη σειρά

στις οποίες παρουσιάζονται οι διπλές εγγραφές μέσα σε μια ενιαία εγγραφή της

συστάδας).

Μπορούν να παρασχεθούν περισσότερα από το ένα και μοναδικό κριτήριο

ταξινόμησης. Στην περίπτωση αυτή, η σειρά στην οποία παρέχονται είναι από το

κύριο (major) στο δευτερεύον (minor), και χρησιμοποιείται μόνο το πρώτο

παρεχόμενο κριτήριο για τον καθορισμό της επιλογής μιας αντιπροσωπευτικής

εγγραφής. Τα κριτήρια κατάταξης περιλαμβάνουν τα ακόλουθα (ο κατάλογος

υπόκειται στην επέκταση):

174

Page 175: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

1. Η πιο περιεκτική (Most Comprehensive)

Ως αντιπροσωπευτική επιλέγεται η μεγαλύτερη εγγραφή (η περιεκτικότερη)

και οι διπλές εγγραφές μέσα σε μια τάξη ισοδυναμίας ταξινομούνται με

κατιούσα περιεκτικότητα.

2. Η λιγότερο περιεκτική (Least Comprehensive)

Ως αντιπροσωπευτική επιλέγεται η πιο σύντομη εγγραφή (λιγότερο

περιεκτική) και οι διπλές εγγραφές μέσα σε μια τάξη ισοδυναμίας

ταξινομούνται με ανιούσα περιεκτικότητα.

3. Η πιο πρόσφατη (Most Recent)

Ως αντιπροσωπευτική επιλέγεται η πιο πρόσφατη εγγραφή και οι διπλές

εγγραφές μέσα σε μια τάξη ισοδυναμίας ταξινομούνται κατά ανιούσα

παλαιότητα (ascending age).

4. Παλαιότητα (Oldest)

Ως αντιπροσωπευτική επιλέγεται η παλαιότερη εγγραφή και οι διπλές

εγγραφές μέσα σε μια τάξη ισοδυναμίας ταξινομούνται με κατιούσα

παλαιότητα (descending age).

5. Λιγότερο ακριβή (Least Cost)

Ως αντιπροσωπευτική επιλέγεται η λιγότερο ακριβή εγγραφή και οι διπλές

εγγραφές μέσα σε μια τάξη ισοδυναμίας ταξινομούνται από την ακριβότερη

προς τη φθηνότερη.

6. Προτιμώμενη βάση (Preferred Database)

Ως αντιπροσωπευτική επιλέγεται μια εγγραφή από μια προτιμώμενη βάση και

οι διπλές εγγραφές μέσα σε μια τάξη ισοδυναμίας ταξινομούνται ανάλογα με

μια σειρά προτίμησης των βάσεων. Όταν παρέχεται αυτό το κριτήριο, ο origin

περιλαμβάνει έναν κατάλογο βάσεων δεδομένων με σειρά προτίμησης.

175

Page 176: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Status (Κατάσταση)

Ο target δείχνει την κατάσταση της «επιτυχίας» ή της «αποτυχίας».

Result Count (Μέτρηση αποτελέσματος)

Εάν η τιμή της παραμέτρου Status είναι «επιτυχία», τότε η τιμή αυτής της

παραμέτρου είναι το μέγεθος του συνόλου εξερχομένων αποτελεσμάτων.

Diagnostic (Διαγνωστικό)

Ο target μπορεί πάντα να περιλαμβάνει ένα ή περισσότερα διαγνωστικά στην

απάντηση. Εάν η τιμή της παραμέτρου Status είναι «αποτυχία», πρέπει να περιληφθεί

τουλάχιστον ένα διαγνωστικό.

Other-Information

Αυτή η παράμετρος μπορεί να χρησιμοποιηθεί από τον client ή τον server για

πρόσθετες πληροφορίες που δεν ορίζονται από το πρότυπο.

Reference-id

Η αίτηση από έναν client για την έναρξη ενός συγκεκριμένου τύπου λειτουργίας

εισάγει μια operation (λειτουργία) η οποία εκτελείται από την αντίστοιχη απάντηση

του server. Σε κάθε λειτουργία ορίζεται μια ταυτότητα αναφοράς από τον client. Ο

client περιλαμβάνει την ταυτότητα αυτή μέσα στο αίτημα έναρξης και η ίδια

ταυτότητα αναφοράς πρέπει να περιλαμβάνεται μέσα σε κάθε μήνυμα της

λειτουργίας.

176

Page 177: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΑΚΡΩΝΥΜΙΑ

AACR Ango-American Cataloging Rules

ALA American Library Association [USA]

ALEPH Automated Library Expandable Program Hebrew University

COPAC CURL OPAC

CURL Consortium of University Libraries [G. Britain and Ireland]

DDR Duplicate Detection and Resolution software

DOCMATCH Document Matching

IFLA International Federation of Library Associations and

Institutions

ILCSO Illinois Library Computer Systems Organization [USA]

ILL InterLibrary Loan

ISBD International Standard Bibliographic Description

ISBN International Standard Book Number

ISSN International Standard Serial Number

IUCS IRRL [Information and Retrieval Research Laboratory] Union

Catalog System) [University of Illinois in Urbana-Champaign]

LC Library of Congress [USA]

LCCN Library of Congress Control Number

MARC Machine Readable Cataloging

MDBUPD Master Data Base Update

OCLC Online Computer Library Center

OPAC Online Public Access Catalog

QUALCAT Quality control in Cataloguing

177

Page 178: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

RLG Research Library Group [USA]

RLIN Research Libraries Information Network [USA]

SuDocs Superintendent of Documents

UC University of California

UKLDS United Kingdom Library Database System

ULI Union List of Israel

ULM Union List of Monographs [Israel]

USBC Universal Standard Bibliographic Code

WLN Washington Library Network [USA]

178

Page 179: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΓΛΩΣΣΑΡΙ

Authority file: αρχείο καθιερωμένων όρων

Batch loading: καταχώρησης δέσμης

Bibliographic element: βιβλιογραφικό στοιχείο

Centralized catalog: κεντρικοποιημένος κατάλογος

Character string: σειρά χαρακτήρων

Cluster: συστοιχία

Clustering algorithm: αλγόριθμος συσταδοποίησης

Clustering: συσταδοποίηση

Code: κώδικας, κωδικός

Consolidation: ενοποίηση

Control number: αριθμός ελέγχου

Copy detection: εντοπισμός/ανίχνευση αντιγράφων

Copy: αντίγραφο, αντίτυπο

Deduplication: αφαίρεση διπλών εγγραφών

Detection: εντοπισμός, ανίχνευση

Distributed catalog: κατανεμημένος κατάλογος

Document: τεκμήριο (βλ. επίσης Item)

Duplicate record: διπλή (πολλαπλή) εγγραφή

Duplicate: διπλή εγγραφή

Edition: έκδοση

Evaluation algorithm: αλγόριθμος αξιολόγησης

Exact match: τέλεια/ακριβής ταυτοποίηση (ταίριασμα)

Filed: πεδίο

179

Page 180: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Fixed filed: πεδίο σταθερού μήκους

Hashing: κατακερματισμός

Holdings: υπάρχοντα

Indicator: δείκτης

Issue: κυκλοφορία

Item: τεκμήριο (βλ. επίσης Document)

Level: επίπεδο (βήμα) (βλ. επίσης Pass, Round, Section, Stage, Step)

Loose algorithm: χαλαρός αλγόριθμος

Main entry: κύρια αναγραφή

Manifestation: εκδήλωση

Match key: κλειδί ταυτοποίησης

Matching: ταυτοποίηση

Merging: συγχώνευση

Mismatch: λανθασμένη ταυτοποίηση

Missed match: χαμένη ταυτοποίηση

Module: υποσύστημα

Normalization: κανονικοποίηση

On the fly: κατά τη διάρκεια της διαδικασίας

Partial match: μερική ταυτοποίηση

Pass: πέρασμα (βήμα) (βλ. επίσης Level, Round, Section, Stage, Step)

Physical union catalog: φυσικός ενιαίος κατάλογος

Pool: αρχείο, δεξαμενή

Printing: εκτύπωση

Record: εγγραφή

Reprint: ανατύπωση

180

Page 181: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

Result set: σύνολο αποτελεσμάτων

Round: γύρος (βήμα) (βλ. επίσης Level, Round, Section, Stage, Step)

Scheme: σχήμα

Section: τμήμα (βήμα) (βλ. επίσης Level, Round, Section, Stage, Step)

Shared cataloging: συνεργατική καταλογογράφηση

Source record: πηγαία εγγραφή

Stage: στάδιο (βήμα) (βλ. επίσης Level, Pass, Round, Section, Step)

Step: βήμα (βλ. επίσης Level, Pass, Round, Section, Stage)

String: στοιχειοσειρά

Tag: κωδικός πεδίου

Threshold: κατώφλι

Tight algorithm: αυστηρός αλγόριθμος

Uniform title: ενιαίος τίτλος

Union catalog: ενιαίος κατάλογος

Utilities: βοηθητικά προγράμματα

Value: τιμή, αξία

Variable filed: πεδίο μεταβλητού μήκους

Version: εκδοχή

Virtual union catalog: εικονικός ενιαίος κατάλογος

Weight: βαθμός, βάρος

181

Page 182: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΕΥΡΕΤΗΡΙΟ

AACR2, 23, 24, 26, 32, 33

ALEPH-UMI, 53, 54, 56, 57, 58, 59,

68, 141

British Library, 114, 115, 184

Canadian Virtual Union Catalog, 124

CODEN, 62, 80, 151

COPAC, 10, 54, 55, 57, 58, 59, 60, 62,

95, 97, 100, 101, 112, 113, 114, 141,

142, 155, 175, 185, 186

copyright, 33

CURL, 95, 114, 175, 186

DDR, 54, 55, 57, 58, 59, 60, 62, 65,

91, 94, 142, 154, 175

DOCMATCH, 48, 175

Duplicate Detection Service, 136, 166,

193

EUCat, 134, 135, 186

filmstrips, 83

FRBR, 144

Geac-Advance, 76, 147

Hamming distance, 47, 85

Harrison Keys, 47, 85

Horizon, 76, 146

Hylton, 53, 54, 55, 56, 57, 58, 60, 62,

65, 89, 104, 105, 106, 107, 141, 188

ILCSO, 54, 55, 56, 57, 58, 59, 62, 72,

74, 141, 142, 175, 188

ISBN, 29,45, 47, 62, 63, 72, 76, 88, 90,

92, 97, 98, 99, 109, 118, 119, 136,

146, 147, 148, 149, 152, 153, 154,

155, 156, 157, 158, 159, 160, 175

ISSN, 47, 62, 63, 64, 72, 97, 98, 99,

109, 146, 147, 155, 157, 158, 159,

175

IUCS, 53, 54, 56, 57, 58, 59, 62, 65,

83, 175, 192

Library of Congress, 22, 30, 82, 175

LCCN, 47, 62, 63, 64, 72, 82, 88, 90,

92, 109, 118, 119, 146, 147, 148,

149, 152, 153, 154, 156, 157, 158,

159, 160, 175

Library Technologies, Inc, 147

MARC, 22, 35, 36, 38, 82, 86, 148,

152, 175

MARC21, 35, 37, 61, 152

MARCIVE, 149

182

Page 183: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

MDBUPD, 53, 54, 55, 56, 57, 58, 59,

82, 87, 90, 151, 175

MELVYL, 53, 54, 55, 57, 58, 59, 62,

64, 112, 113, 116, 117, 141, 142,

160, 185

OAI, 145

Oak Ridge National Laboratory, 44,

53, 55, 80, 151

OCLC, 10, 13, 20, 27, 38, 40, 53, 54,

55, 57, 58, 59, 60, 62, 65, 72, 82, 87,

90, 91, 93, 94, 95, 134, 135, 142,

148, 149, 150, 151, 152, 154, 175,

188, 190, 191, 192

offline, 58, 60, 69, 72, 80, 82, 88, 91,

94, 95, 109, 117, 142, 148

on the fly, 43, 52, 56, 59, 66, 101, 112,

113, 115, 116, 137, 141

online, 15, 21, 58, 60, 88, 89, 94, 121,

123, 124, 134, 190, 191

OPAC, 17, 20, 38, 82,114, 175, 184,

190, 191

origin, 132, 136, 167, 168, 169, 170,

173, 184

QUALCAT, 48, 163, 175, 184

RLIN, 27, 53, 54, 55, 56, 57, 58, 60,

62, 64, 107, 110, 141, 142, 149, 156,

176

stoplist, 105

stopwords, 85, 100, 110, 119

SuDocs, 88, 152, 153, 176

target, 133, 136, 167, 168, 173

UKLDS, 48, 176

UNIMARC, 76

University of California, 10, 116, 160,

176, 185, 190

USBC, 47, 48, 176, 184

VIRTUA, 76

Z client, 129

Z39.50, 7, 11, 12, 114, 121, 122, 124,

129, 130, 131, 132, 133, 134, 135,

136, 137, 139, 142, 144, 166, 184,

186, 188, 189, 191, 193

ZING SRW / SRU, 145

ΑΒΕΚΤ, 76

ακριβείς ταυτοποιήσεις, 49

ακριβή αντίγραφα, 14

αλγόριθμος αξιολόγησης, 92, 93

αλγόριθμος συσταδοποίησης, 69, 91, 93

αναλυτικές εγγραφές, 116

183

Page 184: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ανατυπώσεις, 28, , 34, 36, 30, 45, 89

αντίγραφα, 9, 15, 25, 26, 28, 89, 108,

177

απόδοσης βαρών, 56

αποθηκευτικό χώρο, 17

απόλυτα ταυτόσημες, 14, 41, 50, 76

αποτελεσματικότητα, 16, 65

απροσεξίες καταχώρησης, 22, 39

απώλεια πληροφοριών, 50

άρθρα περιοδικών, 53, 44, 80, 116

αρχεία καθιερωμένων όρων, 9, 31, 66,

69, 110, 121, 125, 126, 135, 146,

149, 177

αυστηρός αλγόριθμος, 69, 70, 83, 179

αφαίρεση μοναδικών εγγραφών, 46

βαθμολογία, 48, 56, 57, 72, 73, 75, 98,

99, 117, 118, 119, 160

βήματα εφαρμογής αλγορίθμων, 11,

46, 48, 52, 55, 56, 57, 66, 68, 75, 80,

82, 83, 84, 87, 88, 91, 92, 96, 97,

98, 99, 102, 105, 106, 110, 109, 117,

118, 119, 141, 142, 148

βιβλιογραφικό επίπεδο, 64

βιβλιοδεσία, 13, 29

Βιβλιοθήκη Παντείου Πανεπιστημίου,

75

γλώσσα, 29, 63, 69

δείκτες ταξιθέτησης, 37

δημιουργία κλειδιών, 61, 64

διαγραφή, 7, 43, 50, 57, 58, 59, 80,

108, 141, 149

διάρκεια διαδικασίας αναζήτησης, 43,

113

διαστάσεις, 30, 64

εκδηλώσεις τεκμηρίων, 7, 9, 11, 58,

60, 102, 104, 141, 143, 144

έκδοση, 8, 24, 25, 26, 27, 28, 29, 30,

32, 33, 34, 35, 36, 37, 38, 44, 45, 47,

53, 62, 63, 64, 69, 76, 77, 80, 82, 86,

87, 88, 90, 92, 94, 97, 98, 99, 102,

103, 109, 118, 119, 122, 146, 152,

156, 157, 158, 159177

εκδότης, 14, 25, 26, 28, 32, 33, 37, 39,

47, 64, 72, 77, 82, 83, 88, 89, 92, 98,

99, 100, 118, 148, 158, 159

εκτύπωση, 24, 25, 27, 28, 29, 33, 36,

89

184

Page 185: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ενιαίος κατάλογος, 7, 68, 95, 121, 122,

123, 124, 125, 126, 127, 129, 131,

133, 135, 142, 178, 179

ενοποίηση εγγραφών, 7, 10, 43, 96, 99,

112, 113, 115, 114, 130, 139, 140,

141, 142, 177

επιλογή πεδίων, 46

επίπεδο κωδικοποίησης, 73

ευρετηρίαση, 8, 17, 37, 109

ηλεκτρονικές πηγές, 53, 108, 110

ηχογραφήσεις, 53, 108

θεματικές επικεφαλίδες, 10, 14, 15, 20,

37, 43, 46, 109, 111, 122, 142

κανόνες καταλογογράφησης, 8, 9, 21,

23, 24, 26, 32, 33, 34, 36, 110

κανονικοποίηση, 106, 111, 152, 178

καταλογογράφηση, 7, 9, 16, 17, 18, 22,

24, 25, 27, 30, 31, 32, 33, 34, 35, 36,

41, 48, 49, 64, 65, 72, 73,78, 87, 98,

105, 121, 126, 129, 143, 148, 149,

150, 179

κατανεμημένος κατάλογος, 125, 126,

127, 128, 129, 131, 134

κλειδιά αντιστοίχισης τίτλου, 84

κλειδιά, 47, 48, 50, 76, 78, 79, 80, 81,

82, 84, 88, 89, 91, 92, 148, 152, 157,

158, 159, 160, 178

κλειδιά ταυτοποίησης, 47, 84, 148, 178

κλειδιά σύγκρισης, 61

κόστος, 8, 16, 18, 20, 133, 149, 150,

179

κυκλοφορία, 25, 29, 30, 32, 178

κύρια αναγραφή, 31, 69, 109, 110,

118, 119, 150, 160, 178

κωδικός αναπαραγωγής, 88

κωδικοί πεδίων, 37

λάθη καταχώρησης., 39, 48

λάθη μεταγραφής, 39

λανθασμένες ταυτοποιήσεις, 50, 65,

66, 69, 70, 71, 73, 80, 83, 86, 89, 93,

101, 107, 143

λογοκλοπή, 10, 144

μερικές ταυτοποιήσεις, 50

μετανάστευση, 7

μη αυτοματοποιημένη σύγκριση, 9, 45,

50, 74, 75, 87

μνεία ευθύνης, 37, 64

185

Page 186: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

μονογραφίες, 38, 44, 45, 48, 52, 53,

61, 62, 63, 68, 69, 70, 81, 87, 91,

108, 116, 118, 119, 120, 160

μορφότυπο, 15, 28, 35, 37, 38, 82, 83,

103, 126, 127, 152

ομαδική καταχώρηση, 21

ομαδοποίηση, 52, 60, 66, 142

οπτικό υλικό, 53, 108, 109

οπτικοακουστικά μέσα, 38

ορθογραφικά λάθη, 8, 99

πανομοιότυπα, 30

παρτιτούρες, 53, 108

πεδία μεταβλητού μήκους, 38, 82

πεδία σημειώσεων, 35

πεδία σταθερού μήκους, 38, 38, 178

πεδίο μεταβλητού μήκους, 38, 179

περιοδικά, 35, 38, 44, 53, 64, 81, 91,

94, 97, 110, 114, 116, 119, 162

πλήρες κειμένου, 14, 144

ποιοτικός έλεγχος, 14

πολιτικές, 10, 22, 23, 104, 126, 127,

131

προκαταρκτικά, 30, 86

πρόσθετες αναγραφές, 85, 109

σειρά, 45, 63, 78, 86, 109, 152

σελίδα τίτλου, 29, 30, 33, 34

σελιδαρίθμηση, 14, 30, 33, 34, 47, 63,

81, 83, 84, 86, 87, 88, 89, 98, 100,

118, 148

στίξη, 39, 47, 92, 111

στοιχειοθεσία, 25, 27, 29, 30, 33, 34

συγγραφέας, 31, 35, 37, 39, 47, 62, 63,

64, 68, 69, 70, 76, 77, 81, 85, 87, 88,

92, 97, 98, 100, 104, 105, 106, 107,

121, 122, 151, 152, 155

σύγκριση πεδίων, 48, 57

συγχώνευση, 7, 10, 41, 43, 44, 49, 50,

52, 58, 59, 60, 66, 67, 69, 70, 71, 74,

75, 80, 82, 94, 95, 101, 102, 104,

108, 112, 113, 114, 115, 116, 117,

118, 119, 130, 131, 134, 136, 141,

142, 143, 145, 148, 149, 160, 167,

178

συλλογικά όργανα, 31, 85, 152

Συλλογικός Κατάλογος Ελληνικών

ΑΕΙ-ΤΕΙ, 53, 56, 74, 164

συνέδρια, 85, 152

συνεργατική καταλογογράφηση, 16, 21

συντμήσεις, 35

συντομογραφίες, 83

186

Page 187: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

συσταδοποίηση, 104, 109, 177

ταυτοποίηση εγγραφών, 10

ταυτοποίησης στοιχειοσειράς, 106

ταυτόσημα τεκμήρια, 16, 42

ταχύτητας απόκρισης, 16

τελικός χειρισμός, 11, 57, 58, 59

τιμές, 49, 72, 89, 92, 98, 110, 117, 132,

137, 152

τίτλος, 1, 27, 30, 35, 37, 39, 40, 47, 62,

63, 64, 69, 76, 77, 81, 82, 83, 84, 85,

86, 87, 88, 89, 91, 92, 93, 97, 98,

100, 105, 106, 107, 110, 118, 119,

122, 147, 148, 150, 151, 152, 155,

156, 157, 158, 159, 179

τόμος, 34, 64, 80, 151

τοπικές πρακτικές, 22

τόπος έκδοσης, , 64, 88

τυπογραφικά λάθη, 13, 39, 47, 49, 84,

85, 87, 105, 106

τυπογραφικά στοιχεία, 27, 28

υβριδικά συστήματα, 131

υπερφόρτωση πληροφοριών, 18, 19,

103, 104

φάκελοι πληροφοριών, 104

φωτοστοιχειοθεσία, 28

χαλαρός αλγόριθμος, 68, 69, 178

χαμένες ταυτοποιήσεις, 50, 65, 66, 70,

86, 89, 100, 107

χάρτες, 44, 53, 83, 108, 116, 120

χειρόγραφα, 38, 44

χρόνος αναζήτησης, 18

χρονολογία δημοσίευσης, 24, 33, 38,

47, 69, 77, 80, 82, 86, 88, 92, 94, 98,

148

χρόνος εκτέλεσης αλγορίθμων, 58, 60

187

Page 188: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

ΒΙΒΛΙΟΓΡΑΦΙΑ

1. Adler, Elhanan (1995) “The Israeli university libraries and ALEPH”

[Διαθέσιμο από http :// sab . unisi . it / icau / icau 95/ urs / il - unilib . htm (Ημερομηνία

πρόσβασης: 15/1/2005)]

2. Ayres, F. H. (1990) “Duplication and other manifestations: a new approach to

the presentation of bibliographic information”, Journal of Librarianship, 22

(4), pp. 236-251

3. Ayres, F. H. L., P. S. Nielsen and M. J. Ridley (1998) The Bradford OPAC 2

(BOPAC2): managing and displaying retrievals from a distributed search in

Z39.50, British Library Research and Innovation Centre [Διαθέσιμο από

http://www.bopac2.comp.brad.ac.uk/~bopac2/report/ (Ημερομηνία

πρόσβασης: 28/1/2005)]

4. Ayres, F. H., J. A. W. Huggill and E. J. Yannakoudakis (1988) “The Universal

Standard Bibliographic Code (USBC): its use for cleaning, merging and

controlling large databases, Program, 22, pp. 117-132

5. Ayres, F. H., J. Cullen, C. Gierl, J. A. W. Huggill, M. J. Ridlay and I. S.

Torsun (March 1991) QUALCAT: automation of quality control in

cataloguing, Final report, British Library Research & Development Report

6068, Department of Computing, University of Bradford, Report CS-28-91

6. Ayres, F. H., L. P. S. Nielsen, M. J. Ridley and I. S. Torsun (1996) “USBC

(Universal Standard Bibliographic Code): its origin and evolution, Journal of

Librarianship and Information Science, 28 (2), pp. 83-91

188

Page 189: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

7. Conrad, Jack G., Xi S. Guo and Cindy P. Schriber (2003) “Online duplicate

document detection: signature reliability in a dynamic retrieval environment”,

Conference on Information and Knowledge Management, pp. 443-452

[Διαθέσιμο από http://portal.acm.org/citation.cfm?id=956946 (Ημερομηνία

πρόσβασης: 18/3/2005)]

8. Cousins, Shirley (1997) “COPAC: the new nationally accessible Union

Catalogue”, Ariadne, 8 [Διαθέσιμο από

http://www.ariadne.ac.uk/issue8/copac/ (Ημερομηνία πρόσβασης:

18/12/2004)]

9. Cousins, Shirley (April 1999) “Virtual OPACs versus union database: two

models of union catalogue provision”, The Electronic Library, 17 (2), pp. 97-

103 [Διαθέσιμο από

http://titania.emerald-library.com/vl=1615554/cl=163/nw=1/fm=docpdf/rpsv/

cw/mcb/02640473/v17n2/s3/p97 (Ημερομηνία πρόσβασης: 16/2/2005)]

10. Cousins, Shirley (March 1997) “COPAC: the new nationally accessible union

catalogue”, Ariadne, 8 [Διαθέσιμο από

http://www.ariadne.ac.uk/issue8/copac/intro.html (Ημερομηνία πρόσβασης:

15/12/2004)]

11. Cousins, Shirley Anne (1998) “Duplicate detection and record consolidation in

large bibliographic databases: the COPAC database experience”, Journal of

Information Science, 24 (4), pp. 231-240

12. Coyle, Karen (1985) “Record matching: a discussion”, Information

Technologies and Libraries, 4 (1), pp. 57-59

13. Coyle, Karen (June 1992) Rules for merging MELVYL ® records, Technical

Report No. 6. Oakland, CA.: University of California, DLA

189

Page 190: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

14. Coyle, Karen (March 2000) "The virtual union catalog: a comparative study,

D-Lib Magazine, 6 (3) [Διαθέσιμο από

http://www.dlib.org/dlib/march00/coyle/03coyle.html (Ημερομηνία

πρόσβασης: 18/12/2004)]

15. Coyle, Karen and Linda Gallaher-Brown (1985) “Record matching: an expert

algorithm”, ASIS Proceedings, 4 (1), pp. 77-80

16. CURL feasibility study to investigate potential applications and strategic

implications of Z 39.50 technology on the COPAC Service (September 1998)

[Διαθέσιμο από http://www.curl.ac.uk/projects/z3950.pdf (Ημερομηνία

πρόσβασης: 15/11/2004)]

17. EUCat study: public report (2004) Pleiade Management and Consultancy BV,

Kinetica Advisory Committee paper KAC/2004/1/12 [Διαθέσιμο από

http://www.nla.gov.au/kinetica/kac/EUCATstudy.pdf (Ημερομηνία

πρόσβασης: 12/2/2005)]

18. French, James C. and Charles L. Viles (June 1999) "Personalized information

environments: an architecture for customizable access to distributed digital

libraries”, D-Lib Magazine, 5 (6) [Διαθέσιμο από

http://www.dlib.org/dlib/june99/french/06french.html (Ημερομηνία

πρόσβασης: 18/12/2004)]

19. Gatenby, Janifer (2002) “Aiming at quality and coverage combined: blending

physical and virtual union catalogues”, TEL Milestone Conference 29 - 30

April, Die Deutsche Bibliothek Frankfurt am Main, Germany [Διαθέσιμο από

http://www.europeanlibrary.org/doc/tel_milconf_presentation_gatenby.doc

(Ημερομηνία πρόσβασης: 12/2/2005)]

190

Page 191: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

20. Gatenby, Janifer “Z39.50: an overview” [Διαθέσιμο από

http://oclcpica.org/content/45/pdf/z3950_birmingham.pdf (Ημερομηνία

πρόσβασης: 18/12/2004)]

21. Gatenby, Janifer and Rein Van Charldorp (2004) “EUCAT: a pan-european

index of union catalogs: why a pan-european index?” In Lass, Andrew and

Richard E. Quandt (eds.) Union catalogs at the crossroad, Hamburg

University Press, pp. 31-50 [Διαθέσιμο από

http://hup.rrz.uni-hamburg.de/pdf/Lass_Quandt_Union_Catalogs.pdf

(Ημερομηνία πρόσβασης: 12/2/2005)]

22. Gilby, John, Ashley Sanders and Shirley Cousins (March 2004)

“Bibliographic union catalogue results and display issues”, CC-Interop

Project, WP-A-05, Issue 1 [Διαθέσιμο από

http://ccinterop.cdlr.strath.ac.uk/documents/WPALastReportIssue1.pdf

(Ημερομηνία πρόσβασης: 15/10/2004)]

23. Goyal, Pankaj (1987) “Duplicate record identification in bibliographic

databases”, Information Systems ,12 (3), pp. 239-242

24. Gray, Lesley (2002) “The union catalogue and Voyager” Cambridge

University Libraries Information Bulletin, [Διαθέσιμο από

http://www.lib.cam.ac.uk/CULIB/culib_50.html (Ημερομηνία πρόσβασης:

15/11/2004)]

25. Hickey, Thomas B. and David J. Rypka (1979) “Automatic detection of

duplicate monographic records”, Journal of Library Automation, (2) 12: 125-

142

26. Hider, Philip (2004) “The bibliographic advantages of a centralized union

catalogue for ILL and resource sharing”, Interlending & Document Supply, 32

191

Page 192: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

(1), pp. 17-29 [Διαθέσιμο από http://www.ifla.org/IV/ifla69/papers/120e-

Hider.pdf (Ημερομηνία πρόσβασης: 2/2/2005)]

27. Hunstad, Siv (1988) “Norwegian bibliographic databases and the problem of

duplicate records”, Cataloguing and Classification Quarterly, 8 (3/4), pp. 239-

248

28. Hylton, Jeremy A. (1996) Identifying and merging bibliographic records

[Master thesis]. MIT [Διαθέσιμο από

www . python . org /~ jeremy / pubs / thesis / MIT - LCS - TR -678. ps . gz και ltt-

www.lcs.mit.edu/ltt-www/People/jeremy/thesis/main.html (Ημερομηνία

πρόσβασης: 11/11/2004)]

29. ILCSO (Illinois Library Computer Systems Organization) (July 2003) Using

OCLC for ILLINET Online/Voyager data entry, Illinois Library Computer

Systems Office [Διαθέσιμο από

http :// office . ilcso . illinois . edu / Docs / using _ OCLC . pdf (Ημερομηνία

πρόσβασης: 27/12/2004)]

30. Information retrieval (Z39.50): application service definition and protocol

specification, Approved November 27, 2002 by the American National

Standards Institute, ANSI/NISO Z39.50-2003 (maintenance revision of

Z39.50-1995). NISO Press [Διαθέσιμο από

http :// www . niso . org / standards / resources / Z 39-50-2003. pdf (Ημερομηνία

πρόσβασης: 15/10/2004)]

31. Jones, Barbara and Arno Kastner (1983) “Duplicate records in the

bibliographic utilities: a historical review of the printing versus edition

problem, Library Resources and Technical Services, 27, pp. 211-220

192

Page 193: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

32. Lazinger, Susan S. (1994) “To merge and not to merge – Israel’s Union List of

Monographs in the context of merging algorithms, Information Technology

and Libraries, 13 (3), pp. 213-219

33. Lohrum, Stefan, Wolfram Schneider and Josef Willenborg (June 8, 1999) De-

duplication in KOBV, Konrad Zuse Zentrum für Informationstechnik in Berlin

(ZIB), Preprint SC 99-05 [Διαθέσιμο στο

http://wolfram.schneider.org/papers/duplication/duplication.html (Ημερομηνία

πρόσβασης: 15/10/2004)]

34. Lunau, Carrol and Fay Turner (April 1997) Issues related to the use of Z39.50

to emulate a centralized union catalogue. Prepared for the ARL Access

Committee, National Library of Canada, [Διαθέσιμο στο

www.collectionscanada.ca/resource/vcuc/ezarlr2.htm (Ημερομηνία

πρόσβασης: 18/12/2004)]

35. Lunau, Carrol D. (1998) “The Virtual Canadian Union Catalogue Project

(vCuc): using Z39.50 to emulate a centralized union catalogue”, 64th IFLA

General Conference, August 16 - August 21, 1998 [Διαθέσιμο στο

www.ifla.org/IV/ifla64/081-160e.htm (Ημερομηνία πρόσβασης: 29/12/2004)]

36. Lynch, Clifford A. (1997) “Building the infrastructure of resource sharing:

union catalogs, distributed search, and cross-database linkage”, Library

Trends, 45 (3), pp. 448-461 [Διαθέσιμο από

http://www.caslin.cz:7777/caslin99/a3.htm (Ημερομηνία πρόσβασης:

15/12/2004)]

37. Lynch, Clifford A. (April 1997) “The Z39.50 Information Retrieval Standard.

Part I: a strategic view of its past, present and future”, D-Lib Magazine,

193

Page 194: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

[Διαθέσιμο στο http://www.dlib.org/dlib/april97/04lynch.html (Ημερομηνία

πρόσβασης: 6/12/2004)]

38. MacLaury,  Keith D. (1979) “Automatic merging of monographic data bases -

use of fixed-length keys derived from title strings”, Journal of Library

Automation, 12, (2), pp.143-155

39. McNellis, Claudia H. (1985) “Describing reproductions: multiple physical

manifestations in the bibliographical universe”, Cataloguing and

Classification Quarterly, 5 (3), pp. 35-48

40. McPherson, Dorothy S., Karen E. Coyle and Teresa L. Montgomery (1982)

“Building a merged bibliographic database: the University of California

experience”, Information Technology and Libraries, 1, pp. 371-380

41. Meir, Daniel D. and Susan S. Lazinger (Sept. 1998) “Measuring the

performance of a merging algorithm: mismatches, missed-matches, and

overlap in Israel's Union List”, Information Technology and Libraries, 17 (3), 

pp. 116-23 [Διαθέσιμο από

http :// vnweb . hwwilsonweb . com / hww / shared / shared _ main . jhtml ; jsessionid = D

TX 40 RBEQKCYNQA 3 DILCFGGADUNGIIV 0?_ requestid =684

(Ημερομηνία πρόσβασης: 2/1/2005)]

42. News from OCLC (March/June 2002), OLAC Newsletter, 22 (1/2) [Διαθέσιμο

από http :// ublib . buffalo . edu / libraries / units / cts / olac / newsletters / mar -

june 02. html # oclc (Ημερομηνία πρόσβασης: 2/1/2005)]

43. O’ Neil, Edward T. (1990) “Duplicate detection”, Annual Review of OCLC

Research, July 1989- June 1990, pp. 13-14

44. O’ Neil, Edward T. and Diane Vizine-Goetz (1988) “Quality-control in online

database”, Annual Review of Information Science and Technology, 23, pp.

194

Page 195: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

125-156

45. O’ Neil, Edward T., Sally A. Rogers and W. Michael Oskins (1993)

“Characteristics of duplicate records in OCLC’s Online Union Catalog”,

Library Resources & Technical Services, 37 (1), pp. 59-71

46. O’ Neill, Edward and W. Mike Oskins (July 1990) Duplicate records in the

Online Union Catalog [internal report], OCLC Office of Research

47. Onorato, E. S. and G. Bianchi (1981) “Automatic identification of duplicates

after multi-database online searching”, Online Review, 5 (6), pp. 445-451

48. Payette, Sandra D. and Oya Y. Rieger (April 1997) “Z39.50: the user’s

perspective”, D-Lib Magazine, [Διαθέσιμο από

http://www.dlib.org/dlib/april97/cornell/04payette.html (Ημερομηνία

πρόσβασης: 18/12/2004)]

49. Preece, Barbara (2001) “Union and virtual catalogs in a consortial

environment”, The Journal of Academic Librarianship, 27 (6), pp. 470-472

[Διαθέσιμο από

http://vnweb.hwwilsonweb.com/hww/shared/shared_main.jhtml;jsessionid=4

B2OUQHOF0YULQA3DIMCFF4ADUNGIIV0?_requestid=1641

(Ημερομηνία πρόσβασης: 8/2/2005)]

50. Ridley, M. J. (1992) “An expert system for quality control and duplicate

detection in bibliographic databases”, Program, 26 (1), pp 1-18

51. Salim, Maud (2003) Information overload and its implications for a corporate

library: as perceived by eight researchers at AstraZeneca. Magisteruppsats i

Biblioteks, BHS [Διαθέσιμο από

http://www.hb.se/bhs/slutversioner/2003/03-112.pdf (Ημερομηνία πρόσβασης:

10/3/2005)]

195

Page 196: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

52. Sfakakis, Michalis and Sarantos Kapidakis (2004) “An architecture for online

information integration on concurrent resource access on a Z39.50

environment”, Lecture Notes in Computer Science, 2769, pp. 288-299

[Διαθέσιμο από http://www.springerlink.com/app/home/contribution.asp?

wasp=73947067745e413b9ce4faaff0f62c53&referrer=parent&backto=issue,2

7,47;journal,659,1972;linkingpublicationresults,1:105633,1 (Ημερομηνία

πρόσβασης: 10/2/2005)]

53. Slach, June E. (1985) “Detection and eliminating of duplicates from

multidatabase searches”, Bulletin of the Medical Library Association, 73 (3),

pp. 235-237

54. Svenonius, Elaine, Edward T. O'Neil and Duane A. Rice (1988) “Clustering

equivalent bibliographic records”, 1987-1988, Annual Review of OCLC

Research, pp. 6-8

55. Tennant, Roy (2002) “Digital Libraries: the consequences of cataloging”,

Library Journal, 1, [Διαθέσιμο από http://www.libraryjournal.com/index.asp?

layout=articleArchive&articleid=CA188765 (Ημερομηνία πρόσβασης:

2/2/2005)]

56. Tillet, Barbara B. (1991) “A taxonomy of bibliographic relationships”, Library

Resources & Technical Services, 32 (2), pp. 150-158

57. Toney, Stephen R. (1992) “Cleanup and deduplication of an international

bibliographic database”, Information Technologies and Libraries, 11 (1), pp.

19-28

58. Vajda, Erik I. “Principles of a national union catalog: shared cataloging in a

small country”, In Lass, Andrew and Richard E. Quandt (eds.) Union catalogs

at the crossroad. Hamburg University Press, pp. 327-338 [Διαθέσιμο από

196

Page 197: ::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ ...dlib.ionio.gr/mtheses/sitas_duplication.doc · Web viewΑυτή της συγχώνευσης των διπλών

http://hup.rrz.uni-hamburg.de/pdf/Lass_Quandt_Union_Catalogs.pdf

(Ημερομηνία πρόσβασης: 4/1/2005)]

59. Wanninger, Patricia Dwyer (1982) “Is the OCLC database too large? a study

of the effects of duplicate records in the OCLC system”, Library Resources

and Technical Services, 26, pp. 353-361

60. Whisler, John (June 6, 2002)  “Voyager Universal Catalog” [Διαθέσιμο από

http://office.ilcso.illinois.edu/Reports/IUAG_reports/IUAG_UC.pps

(Ημερομηνία πρόσβασης: 15/10/2004)]

61. Williams, Martha E. and Keith D. MacLaury (1979) “Automatic merging of

monographic data bases - identification of duplicate records in multiple files:

the IUCS Scheme”, Journal of Library Automation, 12 (2), pp.156-168

62. Yee, Martha M. (1994) “Manifestations and near-equivalents: theory, with

special attention to moving-image materials”, Library Resources & Technical

Services, 38 (3), pp. 227-255

63. Z39.50 Duplicate Detection Service (April 1999) [Διαθέσιμο στο

www . loc . gov / z 3950/ agency / amend / dedup . html (Ημερομηνία πρόσβασης:

8/11/2004)]

64. Ηλεκτρονική δικτύωση βιβλιοθηκών ΑΕΙ-ΤΕΙ: έκθεση ομάδας εργασίας

σύνταξης βιβλιοθηκονομικών προδιαγραφών για τον Συλλογικό Κατάλογο

(1997) [Διαθέσιμο στο www . ntua . gr / library / deliv 01. htm (Ημερομηνία

πρόσβασης: 19/1/2005)]

197