Napredne metode u pronalaženju informacija Bibliografski formati
description
Transcript of Napredne metode u pronalaženju informacija Bibliografski formati
Napredne metode u pronalaženju informacija
Bibliografski formati
Zorica Janković
2
Uvod
Sistem za pronalaženje informacija treba da kreira i održava jednu ili više baza podataka. Informacije se mogu svrstati u tri velike kategorije:
1. faktualne informacije.2. bibliografske ili tekstualne informacije3. lične informacije, informacije o institucijama, projektima i
sl. Informacije se razmenjuju između brojnih korisnika i institucija i
zato je izbor formata u kom se baza podataka kreira od ogromne važnosti. Postoji nekoliko formata za razmenu podataka. Većina ovih formata je razvijena da bi nosili bibliografske podatke, mada neki od njih mogu da prihvate i druge vrste podataka. Velika mogućnost izbora stvara dodatne probleme organizacijama prilikom izbora formata koji odgovara njihovim potrebama.
Ova prezentacija daje kratak uvid u ovu problematiku.
3
Bibliografski zapisi
Elen Gredli i Alan Hopkinson su bibliografske zapise definisali na sledeći način: Bibliografiski zapis je skup logički organizovanih elemenata podataka koji predstavljaju bibliografski predmet, gde je bibliografski predmet svaki dokument, knjiga, publikacija ili drugi zapis ljudske komunikacije; svaka grupa dokumenata ili deo dokumenta koji se tretira kao celina.
Da bi se bibliografski zapisi mogli pretraživati, pronalaziti i razmenjivati između različitih organizacija potrebno je da postoji standardna forma. Ovo je osnovna svrha bibliografskih formata. Naravno, važno je praviti razliku između lokalnih formata i formata za razmenu.
4
Bibliografski zapisi
Da bi se zapis mogao razmenjivati njegov format mora da sadrži sledeće tri komponente:
1. fizičku strukturu
2. označitelj sadržaja
3. sadržaj zapisa
5
Bibliografski zapisi fizička struktura
Standard ISO 2709 u strukturi zapisa umnogome je pojednostavio razmenu bibliografskih zapisa i dao veliki doprinos informatičkoj zajednici. Ovaj standard je razvijen za razmenu podataka na magnetnoj traci, ali je njegova logika primenjena i u razmeni podataka na drugim medijima (na Internetu, disketi, CD-u).
6
Bibliografski zapisi označitelj sadržaja
Druga komponenta se odnosi na kodove koji definišu različite elemente zapisa. Postoji nekoliko bibliografskih formata koji mogu da se koriste za kreiranje i razmenu bibliografskih zapisa: MARC – Machine-Readable Catalogue i drugi članovi njegove porodice, onda CCF – Common Communication Format, IDIN – International Development Information Network, MIBIS – Microcomputer-Based Bibliographic Information Systems i dr.
7
Bibliografski zapisi sadržaj zapisa
Treća komponenta, koja se odnosi na oblik i sadržaj elemenata podataka, razlikuje se zavisno od „kataloškog koda“ koji se koristi i načina na koji se elementi podataka po pravilu dele. Ovaj deo direktno zavisi od programa za pronalaženje informacija koji se koristi. Svaki sistem za pronalaženje bibliografskih podataka treba da prati neka kataloška pravila kako bi se obezbedila doslednost u prezentaciji informacija – kako na ekranu tako i u štampanom obliku.
8
Bibliografski zapisi
Različite organizacije koriste različite formate i problem nastaje kada one požele da razmene podatke. Iako su ovi formati dosta slični, nisu identični i zapisi se ne mogu direktno prebaciti iz jednog formata u drugi.
Problem nedostatka jednoobraznosti između standardnih formatima je rešen razvojem međunarodnin standardnih formata za razmenu.
Zajednica nacionalnih biblioteka je razvila UNIMARC format.
Zajednica za apstrakovanje i indeksiranje koristi UNISIST.
Organizacije koje primaju zapise iz različitih agencija moraju da imaju odvojene računarske programe da bi mogle da prihvate svaku vrstu zapisa.
9
Integrisana baza podataka
Da bi se prevazišao problem postojanja različitih formata za razmenu koji, zatim, zahtevaju postojanje različitih baza podataka koji rade u različitim programima razvijaju se integrisane baze podataka.
Jedan od osnovnih ciljeva u dizajniranju integrisanih baza podataka jeste da korisnik jednim upitom može da pronađe sve relevantne bibliografske zapise zajedno sa profilom projekata, institucija i informacionih sistema i lica na istom predmetu.
Mana ovakvih baza podataka jeste njihova veličina.
10
Integrisana baza podataka
Postoji više načina integracije: Integracija različitih tipova zapisa u jednu bazu
podataka. Funkcionalna integracija – „rezultat“ jedne faze
pretrage je „ulazni podatak“ za narednu fazu. Integracija mrežom (korišćenjem LAN i WAN mreža). Korišćenjem aplikacija koje mogu da povezuju zapise
iz više baza podatak uporedo. Upotrebom dve ili više prethodno navedenih metoda.
Nelemajgan (Neelameghan) i njegovi saradnici su razvili integrisanu bazu podataka, koja sadrži i bibliografske i nebibliografske podatke.
Sistem koji su razvili naziva je ABNCD+ i radi na MicroCDS/ISIS programu.
11
ISO 2709: Format za razmenu bibliografskih informacija
ISO 2709 je međunarodni standard koji definiše zahteve za opšti mašinski format koji može da nosi svaku vrstu bibliografskog zapisa.
Ovaj standard ne definiše sadržaj samog zapisa, kao ni značenje dodeljeno etiketama, indikatorima ili identifikatorima, već daje generalnu strukturu kojom se mogu prenositi zapisi između između sistemu za obradu podataka.
12
ISO 2709
Shematski prikaz generalne strukture bibliografskog zapisa prema ISO 2709 bi izgledao ovako:
Separator zapisa
Oznaka
Direktorijum
Polje podatka
13
ISO 2709
Bibliografski zapis treba da sadrži sledeća polja fiksne i promenljive dužine: Oznaka zapisa (fiksne dužine) Direktorijum (promenljive dužine) Identifikator zapisa (promenljive dužine) Rezervisana polja (promenljive dužine) Polja za bibliografske podatke (promenljive
dužine) Separator polja Terminator zapisa
14
ISO 2709primer
Oznaka (dužine 24 karaktera)00101a_m__2200067___452_
Direktorijum001000700000**200001600007**300001000023**#
Polje podatakaA12345#00@AJones@BJohn#00@AFruit#%
Ceo zapis bi izgledao ovako00101a_m__2200067___452_001000700000**200001000023**300001600007**#A12345#00@AJones@BJohn#00@AFruit#%
15
MARC format
MARC je skraćenica od MAchine-Readable Catalogue/Cataloguing, u prevodu Mašinski čitljiv katalog.
Gredli i Hopkinson su ga definisali kao grupu formata koji koriste određeni skup konvencija za identifikaciju i uređivanje bibliografskih podatak za računarsku obradu.
Kongresna biblioteka SAD-a je razvila MARC 1965-66.
Od tada je razvijen čitav niz nacionalnih MARC formata (USMARC, UKMARC, CAN/MARC i dr.), kao i MARC 21 i svima je zajedničko to što se oslanjaju na strukturu ISO 2709 zapisa.
16
MARC 21
Kongresna biblioteka i Nacionalna biblioteka Kanade je uskladila svoje nacionalne MARC-ove i 1999. godine izdala format MARC 21.
http://www.loc.gov/marc/ MARC 21 je set kodova i označitelja sadržaja
definisanih za kodiranje mašinski čitljivih zapisa za sledećih 5 tipova podataka:
Bibliografski podaci Podaci o fondu Podaci o ovlašćenjima Podaci o klasifikaciji Podaci o zajednici
17
MARC 21
MARC 21 zapis se sastoji od polja koja su određena etiketom od 3 karaktera.
U njih se skladište informacije potrebne za obradu zapisa i informacije potrebne za katalogizaciju.
Polja mogu biti ponovljiva (R) i neponovljiva (NR).
18
MARC 21polja
MARC 21 sadrži sledeća polja: Kontrolna polja 001-006 Kontrolno polje 007 Kontrolno polje 008 Polje brojeva i kodova 01X-04X Polja klasifikacije i signature 05X-08X Polja glavnog unosa 1XX
100 1#$aChurchill, Winston,$cSir,$d1874-1965
19
MARC 21polja, nastavak
Polja naslova i varijanti 20X-24X 222 #0$a Information sources and searching on the WWW
Polja izdanja i štampe 250-270250 ##$a2nd ed.
Polja fizičkog opisa 3XX300 ##$a149p. ;$c23cm.
Polja serije 4XX (R)440 #0$a Library and Information Science series$n No. 5
20
MARC 21polja, nastavak
Polja beleški: 1. deo 50X-53X i 2. deo 53X-58X500 ##$a Based on an Indian folk tale
Polja predmeta 6XX650 #0$aArchitecture, Modern$y20th century
Polja dodatnog unosa 70X-75X Polja povezivanja 76X-78X Polja dodatnog serijskog unosa 80X-830 Polja fonda, lokacije i sl. 841-88X
856 40$uhttp://www.ref.oclc.org:2000$zAddress for aaccessing the jounal using authorization number and password through OCLC FirstSearch Electronic Collections Online
21
UNIMARC format
IFLA je objavila UNIMARC – UNIversal MARC 1977. godine
Drugo izdanje UNIMARC uputstva iz 1994 dostupno je na ovoj adresi: http://archive.ifla.org/VI/3/p1996-1/sec-uni.htm
Poslednje izdanje (3. izd.) je iz 2008. i dostupno je samo u obliku knjige, a na ovoj adresi mogu se naći neka uputstva na mreži: http://www.ifla.org/en/publications/unimarc-formats-and-related-documentation
22
UNIMARC format
Osnovni zadatak UNIMARC formata je da olakša komunikaciju između neka dva formata iz porodice MARC.
Zapis iz nekog MARC formata se konvertuje u UNIMARC format, koji se zatim konvertuje u neki drugi, tj. treći MARC format.
23
UNIMARC format
Polje UNIMARC zapisa sadrži sledeće komponente:etiketa (3 ASCII numerička
karaktera; 001-999)indikator (2 jednocifrena broja; #-
prazno polje)potpolje (2 karaktera: $-deliminator i
malo slovo ili brojevi 0-9)oznaka za kraj polja (@)
24
UNIMARC format
Sastoji se od 10 blokova:
0 – blok za identifikaciju1 – blok kodiranih podataka2 – blok podataka za opis3 – blok napomena4 – blok podataka za povezivanje5 – blok za povezivanje naslova6 – blok sadržinske obrade7 – blok intelektualne odgovornosti8 – blok za međunarodnu upotrebu9 – blok za nacionalnu upotrebu
25
UNIMARC formatprimeri
010##$a0-19-212262-2$d£12.95@1011#$aeng$cfre@210##$aOxford$cOxford University
Press$d1959@311##$aTranslation of:Le Grand Meaulnes.
Paris: Emile-Paul, 1913@454#1$1001db140203$150010$a{NSB}Le
{NSE}Grand Meaulnes$1700#0$aAlain-Fournier$f1886- 1914$1210##$aParis$cEmile-Paul$d1913@
26
UNIMARC formatprimeri, nastavak
50010$a{NSB}Le {NSE}Grand Meaulnes$mEnglish@
606##$aFrench fiction$2lc@
700#0$aAlain-Fournier,$f1886-1914@
801#0$aUK$bWE/N0A$c19590202$gAACR2@
98700$aNov.1959/209@
27
CCF – The Common Communication Format
Ovaj format je razvijen radi olakšavanja razmene bibliografskih podataka između organizacija, a objavio ga je Unesco 1984.
Drugo prošireno izdanje je izašlo 1988. Specifikacija ovog izdanja može se naći
na:http://unesdoc.unesco.org/images/0008/000806/080626eb.pdf
28
CCF – The Common Communication Format
CCF ima tri osnovne svrhe:Da omogući razmenu zapisa između
agencija.Da omogući upotrebu jednog seta
računarskih programa za manipulaciju primljenih zapisa.
Da bude osnovni format agencijama za njihove bibliografske ili faktualne baze podataka.
29
Zaključak
Postoji više tipova bibliografskih formata. Poseban izazov je razmena podataka između formata
i zapisivanje raznorodnih tipova informacija u jednom formatu.
Rešenja su integrisane baze podataka i univerzalni formati.
ABNCD+ je primer uspešno implementirane integrisane baze podataka
Porodica MARC formata je rešenje za problem raznorodnih formata, sa UNIMARC-om kao univerzalnim formatom za razmenu koji omogućava translaciju između dva MARC formata.
30
Hvala!