Samlet bacheloropgave.docx - pure.iva.dkpure.iva.dk/files/35349740/Bachelor_opgaven.docx  · Web...

81
Bachelorprojekt 2013: Operation: Operationalization - Bibliometrics revisited Det Informationsvidenskabelige Akademi Afleveret d. 27/5-2013 Skrevet af: Mads Breum & Kasper Bruun Vejleder: Jeppe Nicolaisen Fagområde: Bibliometri Ord: 15.105

Transcript of Samlet bacheloropgave.docx - pure.iva.dkpure.iva.dk/files/35349740/Bachelor_opgaven.docx  · Web...

Bachelorprojekt 2013:

Operation: Operationalization

- Bibliometrics revisited

Det Informationsvidenskabelige AkademiAfleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper BruunVejleder: Jeppe NicolaisenFagområde: BibliometriOrd: 15.105

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

AbstractIn this paper we look at the established practise of using only one operationalization of a subject area when collecting data intended for bibliometric analysis. Using the method Åström utilized in his 2007 Article “Changes in the LIS research front” and by operationalizing LIS in two other distinct ways, our aim was to characterize resulting changes, if any, when the resulting data was used as basis for four common bibliometric analyses. These were the Lotka, Bradford, co-citation, and co-author analysis, two publication analysis and two citation analyses. The results were that of the four, only one remained largely unaffected by the difference in operationalization. The implications of this are discussed and we propose a series of important considerations that has to be taken into account when collecting empirical data for these kinds of analysis. Our findings also implies that a revision of established practice should be undertaken with the twin purposes of making bibliometric tools like citation analysis and publication analysis more powerful as well as making bibliometry an essential tool in the domain analysis approach.

2

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

IndholdAbstract......................................................................................................................................... 2

Indledning......................................................................................................................................5

Problemformulering...................................................................................................................... 6

Teori...............................................................................................................................................7

Dataindsamling..........................................................................................................................7

Emnesøgninger..........................................................................................................................7

Citationsteori.............................................................................................................................9

Normativisme og socialkonstruktivisme................................................................................9

Analyseformsteori....................................................................................................................11

Publikationsanalyser............................................................................................................11

Citationsanalyser................................................................................................................. 13

Metode........................................................................................................................................ 15

Operationalisering af emneområdet LIS..................................................................................15

Dataindsamling........................................................................................................................16

Genskabning af Åströms datasæt........................................................................................16

Topic søgning.......................................................................................................................18

Web of Science category: Information Science Library Science...........................................18

Databehandling........................................................................................................................19

Publikationsanalyse............................................................................................................. 19

Citationsanalyse...................................................................................................................20

Resultater.................................................................................................................................... 23

Lotka analyse........................................................................................................................... 23

Åström................................................................................................................................. 23

Web of Science Category.....................................................................................................24

Web of Science Topic...........................................................................................................24

Bradford analyse......................................................................................................................25

Åström................................................................................................................................. 25

Web of Science Category.....................................................................................................26

Web of Science Topic...........................................................................................................27

Co-citationsanalyse..................................................................................................................28

3

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Web of Science Category.....................................................................................................33

Web of Science Topic...........................................................................................................35

Co-author analyse....................................................................................................................36

Åström................................................................................................................................. 37

Web of Science Category.....................................................................................................39

Web of Science Topic...........................................................................................................41

Analyse........................................................................................................................................ 42

Sammenligning af resultater....................................................................................................42

Lotka.................................................................................................................................... 42

Bradford...............................................................................................................................42

Co-citation........................................................................................................................... 44

Co-author.............................................................................................................................45

Fejlkilder.................................................................................................................................. 47

Diskussion.................................................................................................................................... 49

Konklusion................................................................................................................................... 57

Litteraturliste............................................................................................................................... 58

Tekster..................................................................................................................................... 58

Hjemmesider........................................................................................................................... 59

Figur- og tabeloversigt.................................................................................................................61

Figurer......................................................................................................................................61

Tabeller....................................................................................................................................61

4

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

IndledningVi vil i denne opgave kigge nærmere på bibliometrisk praksis og se på hvilken indflydelse, hvis nogen, operationaliseringen af et emneområde kan have på grundlaget for analyse og karakterisering af dette. I den forbindelse har vi kigget på Hjørland og Nicolaisens artikel fra 20071 der viste en markant ændring i Bradfordanalysens inddeling af tidsskrifter alt efter operationalisering og vil i den forbindelse udvide undersøgelsen til også at omfatte citationsanalyser. Dette har vi valgt at fokusere på ud fra den betragtning at bibliometri som analytisk værktøj i dag ikke bliver brugt til dets fulde potentiale. Især har vi her taget Hjørlands forslag til domæneanalyse2 med i vores overvejelser og har derudfra valgt at gå i dybden med bibliometrien.

Gennem især det meste af nullerne har udviklingen indenfor IT og databehandlingskapacitet gjort det at lave bibliometriske analyser på store datasæt lettere og mindre ressourcekrævende. Den etablerede praksis indenfor bibliometrien begyndte med White og McCains3 emneundersøgelse gennem co-citationsanalyse på et større datasæt. Vi vil dog i stedet tage udgangspunkt i en nyere artikel af Åström fra 20074 og forsøge at genskabe det datasæt og den operationalisering som han brugte. Dette gør vi på grund af at Åström i forhold til White og McCain mere tilbundsgående beskriver sin fremgangsmåde i forhold til hvordan han operationaliserede emnet. Deres fremgangsmåde er dog grundlæggende ens og er som tidligere sagt den etablerede praksis. Der har i nullerne været et fokus på selve den tekniske, mekaniske og algoritmiske del af området, i stedet for at gå længere tilbage i processen og undersøge hvorledes forskellige operationaliseringer kan påvirke det endelige resultat.

Vi vil derfor lave to yderligere operationaliseringer af emnet og kigge på både publikationsanalyser og citationsanalyser på disse datasæt. Disse vil vi holde op imod Åströms resultater og prøve at karakterisere forskelle og ligheder. Vi vil på alle datasæt, inklusiv Åströms genskabte datasæt, lave co-citationsanalyse, co-authoranalyse, Bradfordanalyse og Lotkaanalyse. Det er vores tese, at alt efter hvilken operationalisering man vælger, vil der ligesom i Hjørland og Nicolaisens artikel5, forekomme forskelle i de kort og tabeller der ligger til grund for emneområdets karakterisering og analyse.

Vi har på tidligere semestre beskæftiget os med lignende analyser, både publikations- og citationsanalyser, foruden at især vores databehandlingsmetode blev distilleret i forbindelse med dette. Vi har brugt disse tidligere erfaringer som en inspiration og delvist som grundlag for vores teoretiske og metodiske tilgang til opgavens opbygning.

1 Nicolaisen & Hjørland 20072 Hjørland 20023 White & McCain 19984 Åström 20075 Nicolaisen & Hjørland 2007

5

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

ProblemformuleringVed at operationalisere emneområdet Library & Information Science på fire forskellige måder, vil det så være muligt at se en forskel i analyse og karakteriseringsgrundlaget?

● Bliver bibliometriske analyser påvirket af forskellige operationaliseringer, og i så fald i hvor høj grad?

● Hvilke forhold påvirker operationaliseringer af fagområder i forhold til bibliometriske analyser?

6

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Teori

DataindsamlingDer findes en række forskellige metadatabaser med videnskabeligt materiale. I dette afsnit vil vi kort redegøre for fire af slagsen, som er blandt de mest kendte og brugte.

DIALOG er en databasevært, eller metadatabase, hvilket betyder at man på samme tid kan få adgang til flere databasers indhold gennem DIALOGs programflade, i stedet for at søge i hver respektiv database separat. DIALOG gør det muligt at få vist indholdet på en standardiseret måde og kommandosproget gør at man kan få det vist flere forskellige slags data.

Web of Science (WoS) er på samme måde som DIALOG en databasevært, og hører under Web of Knowledge som er ejet af Thomson Reuters. Forskellen er, at det hovedsageligt er fokuseret på citationsindekser, inklusiv de tre Thomson Reuters citationsindex, og har ikke det brede spektrum af fagspecifikke databaser som DIALOG. Det er dog stadig muligt gennem DIALOG at søge i citationsindekserne da de er inkluderet i de tilgængelige databaser. Web of Science har i forhold til DIALOG et mere brugervenligt interface og har desuden funktionaliteter der gør det muligt at lave forskellige statistiske og bibliometriske undersøgelser på en mere enkel måde, hvor mange af de udregninger man i DIALOG er nødt til at foretage på egen hånd, allerede er udregnet.

Google Scholar er Googles metadatabase på samme måde som deres normale søgemaskine. Forskellen ligger i, at den søger mere specifikt på videnskabeligt materiale, såsom afhandlinger, specialer, bøger, uddrag, artikler og lignende dokumenter6. Man kan via Google Scholar se statistik omkring forfattere, som via deres Google profil kan blive målt statistisk, for eksempel over citationer modtaget, hvem der citerer og andre relevante oplysninger, på samme måde som i Web of Science og DIALOG. Problemet ved Google Scholar er dog, at forfatteren skal have oprettet en bruger i Google for at disse oplysninger er tilgængelige.

Scopus er ifølge deres hjemmeside den største abstract- og citationsdatabase over peer-review godkendt litteratur7. Scopus indeholder materiale til brug af research om videnskabeligt, teknisk, medicinsk, socialvidenskab og andet humaniora.

EmnesøgningerI forbindelse med denne undersøgelse bygger vi vores empiri på data der er genskabt og indsamlet gennem WoS. Da hovedfokus for opgaven er operationaliseringer er det for vores analyse og diskussion af vores resultater vigtigt, tilbundsgående at definere nogle grundlæggende søgefelter og hvilken data de indeholder. Vi vil derfor i dette afsnit kigge på fire

6 Google 20117 Scopus 2013

7

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

af citationsindekset SSCIs søgefelter, da disse bliver brugt i en af vores operationaliseringer. Vil vil desuden gennemgå hvilke fejlkilder der kan forekomme ved brugen af disse.

Når man benytter citationsindekser til emnesøgning, har man siden 1991 haft mulighed for at at søge emneord via to typer af poster8; “author keywords” og “KeyWord Plus”. “Author keywords”, som bliver kaldt descriptor (DE) i SSCI, indeholder emneord som blev indekseret dengang publikationen blev indekseret. Emneordene er valgt af forfatteren eller forlaget, da tanken bag descriptor er, at forfatteren af publikationen bedst kan sætte ord på indholdet af artiklen og derfor vil være mest kvalificeret til at sætte relevante og dækkende emneord på værket. Dog må man medregne en vis fejlmargin, da forfatteren ikke nødvendigvis forstår konceptet bag emneord og/eller ikke udvælger emneordene grundigt, hvilket kan ende med at gøre emneordsvalget misvisende. Udvælgelsen af emneordene bliver altså valgt ud fra delvist subjektive observationer og man kan falde over værker der ikke passer til ens emnesøgning på den bekostning. Modsat de kvalitativt udvalgte emneord, findes der et mekanisk værktøj til valg af emneord, navngivet KeyWord Plus9. Dette emneordsregister, som bliver kaldt identifier (ID) i SSCI, er en måde at mekanisere udvælgelsesprocessen af emneord for en given publikation ved hjælp af litteraturlistens mest frekvente ord i titlerne. Denne kvantitative metode til udvælgelse af emneord gør, at der ikke er indblandet kvalitative vurderinger af forfatter eller forlag og derfor fjerner det subjektive element i udvælgelsesprocessen. Dog er der flere forbehold man skal tage i forhold til brugen af KeyWord Plus i sin emnesøgning. Publikationer der bliver refereret til omhandler ikke nødvendigvis nøjagtigt det samme som den refererende publikation. Et eksempel i Svend Bruhns bog10 omhandler en undersøgelse af KeyWord Plus hvor en post havde fået emneordene “dog” og “rat”. Den pågældende artikel handlede ikke om hunde eller rotter, men fordi artiklen handlede om forsøg med andre dyr, og i den forbindelse havde refereret til en artikel hvor hunde og rotter blev brugt, fik den refererende artikel altså de to misvisende Keyword Plus emneord.

Ved brug af Web of Science til emnesøgning i citationsindekserne bliver titel, abstract, author keywords og KeyWord Plus samlet under søgetermet “topic”11. Dette skal gøre det hurtigere at få et overblik over et emneområde, da man ikke behøver at samle de forskellige emnesøgningsværktøjer, men i stedet har et overordnet nemt tilgængeligt værktøj til rådighed. Problemet ved denne løsning er, at man ikke kan søge i enkelte felter, som det er muligt i DIALOG og ikke kan fravælge enkelte led i søgningen, hvis man for eksempel ikke stolede på Keyword Plus resultaterne.

Laver man en bibliografisk emnesøgning baserer man dem på ord eller fraser i de søgefelter, der er defineret af den eller de pågældende databaser der søges i, såsom titel (TI), abstract (AB), descriptor (DE) eller identifier (ID) felterne. Dette eleminerer til en vis grad det bias der kan forekomme i forhold til udvælgelse af et kernedokument eller forfatterens valg af referencer.

8 Bruhns 20109 Bruhns 201010 Bruhns 201011 Thomson Reuters 2009

8

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Ydermere er der den fordel at både abstract og titel skal være kort og præcist, og derfor kan man regne med at netop de ord eller fraser man søger efter må indgå i en eller begge af disse felter. Descriptor og identifier er udvalgte og mekanisk fremstillede emneord, hvilket giver specifikke emneord at søge efter som de optimalt set dækker indholdet af publikationen. Dog er denne metode afhængig af, at det meste, hvis ikke alt, relevant litteratur er katalogiseret korrekt og at abstract og titel er formuleret ordentligt12. Forskellige forfattere formulerer både titel og abstract forskelligt og kan være upræcise og ikke dække indholdet af artiklen. Det er forfatterens subjektive vurdering af en passende titel og formulering af abstract der bestemmer, om de relevante begreber der søges efter bliver inkluderet. Bruges synonymer eller en anden stavemåde end man definerer i søgningen kan der ske en utilsigtet eksludering af vigtige dokumenter. Der er også en større risiko for støj og mindre relevante dokumenter der måske nævner ordet eller frasen man søger efter, men i en kontekst der ikke passer med den brug af disse som man leder efter. Forfattere kan også være kreative med deres valg af titel og artiklens titel indeholder ingen ord eller fraser som artiklen handler om. Som beskrevet omkring author keywords og KeyWord Plus er der også elementer i denne form for søgning der kan fordreje resultatet. Her kan altså være et bias, at nogle artikler der befinder sig i yderkanten af fagområdet ikke kommer med i søgningen, da der er blevet fokuseret på andre aspekter af deres indhold i forhold til emneord.

Citationsteori

Normativisme og socialkonstruktivismeFor at kunne lave citationsanalyser er det nødvendigt at forstå det teoretiske udgangspunkt for hvad en citation er, med hvilke øjne man kan kigge på vægten af disse.

En citation er en bibliografisk henvisning fra et værk til et andet13. En henvisning bliver givet til et værk som på en eller anden måde har influeret indholdet af det refererende værk. Henvisningen finder man i litteraturlisten som typisk forekommer bagerst i værket. Disse henvisninger indeholder grundlæggende oplysninger om det refererede værk, opsat i en oftest standardiseret form, eller ihvertfald med stamoplysninger om det pågældende værk så som forfatter, titel, årstal for udgivelse og publikation. Oplysningerne skal gøre det muligt at identificere værket og genfinde det. Når denne henvisning finder sted, får modtageren en citation, som man via forskellige programmer, såsom DIALOG og Web of Knowledge, kan lave statistiske undersøgelser på.

Hvorvidt citationer kan bruges til sådanne statistiske undersøgelser er der flere meninger om. Fortalerne for at bruge citationsanalyser er den mertonianske skole, eller normativistiske citationister14. Normativister tror for det meste på, at størstedelen af de forfattere der producerer viden følger Mertons CUDOS principper15, som er fællesskab, universalitet, upartiskhed og

12 Hjørland 199713 Bruhns 201014 Bruhns 201015 Bruhns 2010

9

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

organiseret skepticisme. På engelsk Communism, Universalism, Disinterestedness and Organized Skepticism. Dette princip antager at citationer bliver givet ud fra et videnskabeligt synspunkt og bliver givet både til dem som er enige og uenige med ens pointer. De bliver givet til videnskabeligt arbejde der er af en hvis kvalitet, hvilket vil sige at mængden af citationer kan sige noget om kvaliteten af det pågældende værk og forfatterne af disse. Det videnskabelige fagfællesskab er styret af en række normative regler i forhold til citationer16. En citation er et værktøj til at kreditere en anden fagfælles værk, en form for valuta der kan veksles til mere omdømme og der igennem indirekte få en monetær værdi. Det vil sige, at videnskabeligt “godt” arbejde bliver belønnet af andre forfattere gennem deres citation af værket17.

Eugene Garfield må siges at være den største normativistiske citationist af dem alle. Det var Garfield der udviklede Science Citation Index18, som er et af de største indekser man søger i når man skal lave citationsanalyser. Af andre store normativistiske citationister finder man Henry Small, som er stærk fortaler for at citationer er normative19. Han er af den overbevisning at citationer altid bliver givet, enten som kredit eller miskredit og altid i overensstemmelse med hvad forfatteren mener. Hvis forfattere ikke følger CUDOS er de afvigere og altså ikke betyder noget i citationsteorier, hvor mængden af data udligner de eventuelle afvigelser. Howard White er en anden normativistisk citationist20. Han er af samme opfattelse, at mængden af data udligner eventuelle afvigere. Han er dog mere moderat og er af den mening at socialkonstruktivister, såsom sociologer, gennem kvalitative undersøgelser kan lave mere en dybdegående beskrivelse af områder som co-citationsanalyser ikke kan opnå.

Modsat de normativistiske citationister, er der de socialkonstruktivistiske citationister. Mens man ud fra den normativistiske synsvinkel ser alle citationer som lige og alle henvisninger er givet ud fra CUDOS principperne, mener socialkonstruktivisterne, at citationer kan blive givet af flere andre årsager, både med vilje og ved uheld. Den generelle kritik går på, at man ikke citerer for at give kreditering til en anden forfatter, men at man bruger det som et led i sin overtalelse af læseren, og ikke som en reel argumentering eller diskussion af et emne. Forfattere bruger citationer til at overbevise læseren om at vedkommendes pointer er korrekte ved at citere, og citerer måske anerkendte artikler af denne årsag. Der kan desuden være andre former for citationer der ikke lever op til CUDOS principperne, såsom rygklapning, hvor man citerer venner eller kolleger. Man kan ligeledes citere højt citerede værker for at få mere opmærksomhed.

Derudover findes der også mekaniske og menneskelige fejl i citationerne. Forfattere kan have skrevet forkert i deres henvisning, der kan være fejl i metadatabasens indeksering osv. Derudover undlader forfattere at citere artikler som er kritiske overfor det valgte emne, såsom Gilbert og Woolgars artikel fra 197421, hvor Woolgar senere kritiserede normativistiske

16 Nicolaisen 200817 Nicolaisen 200818 Bruhns 201019 Bruhns 201020 Bruhns 201021 Gilbert & Woolgar 1974

10

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

citationister for ikke at citere deres artikel, da den forholdte sig kritisk overfor det normative synspunkt22. Der er altså ifølge de socialkonstruktivistiske citationister mange grunde til, at se skeptisk på brugen af citationsanalyser som statistisk værktøj, til evaluering og kvalitetsvurdering. Der er flere principper indenfor citationsadfærd som tager en socialkonstruktivistisk holdning i forhold til hvad en citation betyder og hvordan der citeres, blandt andet Matthæus effekten23, som siger at højt citerede forfattere generelt har nemmere ved at få flere citationer, hvor imod lavt citerede forfattere har svært ved at få anerkendelse og citationer. De rige bliver rigere og de fattige bliver fattigere.

Af anticitationister24, en betegnelse givet af normativistiske citationister til de socialkonstruktivitiske ditto, finder man David Edge, som kritiserer citationsanalyser og mener ikke at kvantitative målinger af videnskabskommunikation kan bruges indenfor hans felt, da det ødelægger de vidensbyrd om individuelle variationer, da citationsanalyser gennemsnitliggør et område25. Man får altså et generaliserende billede af et felt, uden at forklare de små variationer som mere kvalitative analyser gør tilgængelige, og som er den slags analyser Edge mener er vigtigst. MacRoberts & MacRoberts, der også betragtes som anticitationister, kritiserede normativismen i deres række af artikler fra 80’erne og 90’erne26 og lavede en undersøgelse på 15 artikler der viste, at kun 20-30% af artiklens influenter egentlig blev citeret.

AnalyseformsteoriI forbindelse med vores valg af emne og metodevalg i forhold til at kortlægge og karakterisere emneområdet LIS, har vi valgt at bruge fire forskellige former for analyse. Disse fire er opdelt i to former for publikationsanalyse og to former for citationsanalyse. De to publikationsanalyser vi har valgt er i dette tilfælde Lotka- og Bradfordanalyserne, mens de to citationsanalyser er co-author- og co-citationsanalyse.

PublikationsanalyserPublikationsanalyser bliver indenfor bibliometrien brugt til at bedømme forfatteres produktivitet og tidsskrifters udgivelsesmængde indenfor det valgte emneområde. Publikationsanalyser er en kvantitativ analyseform og forholder sig derfor ikke til kvaliteten af eksempelvis en forfatters arbejde eller et tidsskrifts udgivelser. Ydermere gælder det for tidsskrifter i forhold til denne form for analyse at der heller ikke bliver taget hensyn til om det er et special- eller reviewtidsskrift der henholdsvis beskæftiger sig med en meget smal niche eller er et opsamlingstidsskrift. Vores valgte publikationsanalyser, Lotka- og Bradfordanalyse, er henholdsvis analyser der bruges til at karakterisere forfatteres produktivitet og tidsskrifters udgivelsesmængde indenfor det

22 Bruhns 201023 Bruhns 201024 Bruhns 201025 Bruhns 201026 Nicolaisen 2008

11

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

undersøgte fagområde. Vi vil i dette afsnit kigge lidt nærmere på teorien bag disse to analyseformer.

LotkaLotkaanalysen er baseret på Lotkas lov der siger, at størstedelen af et emnes litteratur bliver produceret af en lille gruppe af de forfattere der har skrevet om det pågældende emne27. Metoden til udregningen af denne analyse ser matematisk således ud:

p(n)= Cna

Denne analyse er funderet i flere empiriske undersøgelser som bekræfter denne tendens28. Problemet med Lotkas lov er, at den ikke siger noget om kvaliteten af den enkelte forfatters udgivelser. En lavproduktiv forfatter kan have skrevet kernelitteratur indenfor feltet mens en højproduktiv forfatters udgivelser kan være af tvivlsom kvalitet. Denne form for analyse er altså at foretrække i forbindelse med andre former for bibliometriske analyser, såsom citationsanalyser for at vurdere de lavproduktive og højproduktive forfatteres relevans for feltet og kvaliteten af udgivelserne, hvis man er af den opfattelse, at antallet af citationer er lig med kvalitet.

BradfordBradfordanalysen er baseret på Bradfords lov og har ifølge Nicolaisen og Hjørland29 længe været betragtet som en af de vigtigste bibliometriske analyser indenfor bibliometrien. Den har hovedsageligt været brugt til at identificere kernetidsskrifter, baseret på hvor mange artikler de udgav indenfor et givent emneområde. Ifølge Bradfords lov er dokumenterne om et givet emne fordelt efter en matematisk funktion. Antallet af tidsskrifter, der producerer samme antal artikler fordeler sig i forholdet 1:n:n², med n som multiplikator.

“[...]Bradford’s law states that a small core of, for example, journals have as many papers on a given subject as a much larger number of journals, n, which again has as many papers on the subject as n2 journals.”30

Tilhængere af Bradfords lov mener, at det er en objektiv og neutral måde at rangere tidsskrifter på, men som Nicolaisen og Hjørland påpeger i deres artikel er der to problemer forbundet med dette syn. De problemer er for det første den manglende kvalitative bedømmelse, da det fremherskende paradigme indenfor emnet let kommer til at overskygge alternative teorier. Det andet problem er, som også er fokus for vores undersøgelse, at operationaliseringen af emneområdet kan påvirke resultaterne af en Bradfordanalyse.

27 De Bellis 200928 De Bellis 200929 Nicolaisen & Hjørland 200730 Nicolaisen & Hjørland 2007

12

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

CitationsanalyserCitationsanalyser er ligesom publikationsanalyser en kvantitativ analyseform, men i stedet for at analysere og karakterisere produktivitet og udgivelsesmængder, sigter citationsanalyser efter at karakterisere fagfællesskaber og kvaliteten af tidsskrifter og enkelt dokumenter. Vurdering af tidsskrifter vil ske gennem en JIF-analyse, men denne vil vi ikke komme ind på denne opgave da det ikke er en analyse vil vil foretage. Hvorvidt JIF-analysen tilstrækkeligt vurderer et tidsskrifts kvalitet er desuden et helt andet og meget større studie der er blevet diskuteret i en lang årrække.

Til formålet ved at karakterisere produktivitet og kvalitet blandt forfattere og udgivelser, kan bibliometriske kort blandt andet bruges, der alt efter analysemetode bruges til at overskueliggøre forskellige aspekter af det valgte emneområde. Som vi har været inde på tidligere er der i det akademiske miljø en hvis uenighed om hvordan disse kort skal tolkes, men de beskriver hver især nogle vigtige aspekter af det emneområde man analyserer på. Vi vil derfor i dette afsnit kigge nærmere på co-author- og co-citatonsanalysernes teoretiske grundlag.

Co-citationEn co-citationsanalyse tager et dokuments litteraturliste og registrerer hvilke dokumenter der bliver citeret31. Hvor ofte to dokumenter bliver citeret sammen i et tredje dokument bestemmer hvor stærk en co-citationskobling de har, hvilket på et bibliometrisk kort vil blive visualiseret gennem hvor tæt de pågældende dokumenter ligger i forhold til hinanden og hvor tyk stregen mellem dem er. Denne form for analyse kan bruges til at se hvilke dokumenter der skriver om samme emne eller på anden måde er koblet metodisk eller emnemæssigt. Dette kan man for eksempel bruges til at identificere vigtige dokumenter indenfor et emne. I Åströms artikel bruges det til at se hvilke klynger af tekster der er indenfor emnet, og ved at kigge på indholdet af disse kan man altså se hvilke forskningsområder der i tidsperioden var velciterede og derved blev betragtet som vigtige i den diskussion de var en del af.

Co-authorCo-authoranalysen bruger data fra et dokuments forfatterliste og er derfor et godt værktøj til at danne sig et overblik over kollaborative fællesskaber og forskergrupper. Dette kan især klarlægge forbindelser der ikke umiddelbart fremgår af Lotka- og co-citationsanalyser. Især i forhold til co-citationsanalyser er det meningsfyldt at lave opfølgende co-authoranalyser. Dette skyldes den måde hvorpå information i citationsindekerne er indekseret. Cited reference feltet i SSCI har eksempelvis kun første forfatter stående, dermed kan det via en co-citationsanalyse være svært at danne sig et fuldt overblik over forfatteres reele bidrag til et emneområde. Her kan co-authoranalysen være med til at give et bedre overblik over eventuelt oversete medforfattere der alligevel har bidraget betydeligt til feltet. Den vil på samme måde som co-citationsanalysen blive visualiseret i kort via hvor størrelsen af deres cirkel fortæller hvor produktive de er og tykkelsen af stregen repræsenterer hvor ofte de har skrevet sammen med de forfattere stregen forbinder dem til.

31 Bruhns 2010

13

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Denne form for analyse kan også blive set brugt som en del af studier af de såkaldte “invisible colleges” indenfor et fagområde. Ideen om disse usynlige akademiske fagfællesskaber blev først fremsat af Derek J. de Solla Price i 1963, men som Alesia Zuccala påpeger i sin artikel “Modeling the Invisible College”32 har der ikke været en entydig konsensus om hverken definitionen af begrebet eller en konkret metodisk praksis i forhold til at beskrive dem. Her foreslår hun bl.a. at bruge co-authoranalysen som et bibliometrisk redskab som en del af en større analyse.

“To measure both collaborative and collegial activity within a subject specialty, data basedthe scientists’ co-authorship patterns as well as their conference attendance patterns can be collected and analyzed in a joint ACA-Social Network Analysis.”33

Det er i den forbindelse vigtigt at holde sig for øje at en sådan co-authoranalyse kun forholder sig til den mere formelle del af disse usynlige fællesskaber, men netop kan indgå som en del af en mere tilbundsgående karakteristik.

I forbindelse med vores undersøgelse af operationaliseringers betydning i forhold til bibliometriske analyser har vi valgt at tage en mere systematisk tilgang end Zuccala. Istedet for at kigge på de forfattere der findes frem til via co-citationsanalysen vil vi kigge på de mest produktive forfattere i vores datasæt. Metoden for dette vil blive beskrevet senere.

32 Zuccala 200633 Zuccala 2006

14

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Metode

Operationalisering af emneområdet LISEt populært emne indenfor den bibliometriske forskning er, at bruge bibliometriske analyser til at afdække forskningsområde. Dette kan gøres ved at se på hvilke dokumenter der oftest bliver citeret og af hvem, at se på hvem der oftest skriver sammen og andre lignende undersøgelser. Blandt denne slags undersøgelser er White & McCains artikel34 og Åströms artikel35 gode eksempler på den etablerede praksis i forhold til hvordan co-citationsanalyser bliver lavet. I Åströms artikel bruger han co-citationsanalyse til at producere et bibliometrisk kort over Library and Information Science forskningsområdet og der igennem konkludere på hvordan dette område så ud i tidsafgrænsningen 1990-2004.

Begge artikler er grundige i analyse af deres datasæt, men udvælgelsen af disse datasæt bliver i disse artikler gjort gennem en enkelt operationalisering. Dette kan være problematisk i forhold til det endelige resultat, ifølge Nicolaisen & Hjørlands artikel “Practical potentials of Bradford’s law: a critical examination of the received view”36. Artiklen viser hvordan Bradford zonerne ændrer sig, hvis man operationaliserer det samme emne på flere forskellige måder. Sagt på en anden måde bliver man hvad man spiser. Netop denne konklusion er ofte en overset problematik inden for den bibliometriske analyse af emneområder, for hvis Nicolaisen og Hjørlands artikel har ret kan man stille spørgsmålstegn ved hvorvidt man kan nøjes med en enkelt operationalisering, når ens mål er at afdække et helt emneområde.

Nicolaisen påpeger i sit konferencebidrag til InSciT200637, at udvælgelsen af datasæt bør udspringe af en mere gennemgribende analyse af det pågældende domæne. Dette kan for eksempel gøres gennem en større domæneanalyse, som foreslået af Hjørland i hans artikel “Domain analysis in information science: Eleven approaches – traditional as well as innovative”38. I denne artikel indgår bibliometri som én blandt flere forskellige metoder der kunne indgå i en sådan domæneanalyse. “Du bliver hvad du spiser” problematikken gør det derfor interessant at kigge på om og i så fald hvordan forskellige bibliometriske analyser bliver påvirket af forskelle i operationaliseringen af samme emneområde.

Vi vil derfor ud fra det samme emneområde som Åström analyserer i hans artikel, lave andre operationaliseringer af emnet og se om der er forskel i de bibliometriske undersøgelser, og i så fald hvilke og hvor store. I de følgende afsnit vil vi gennemgå vores konkrete fremgangsmåde for indsamling og behandling af data der bruges som grundlag for denne karakteristik.

34 White & McCain 199835 Åström 200736 Nicolaisen & Hjørland 200737 Nicolaisen 200638 Hjørland 2002

15

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

DataindsamlingÅström bruger Web of Science til at indsamle sin data39. For at kunne sammenligne på et ens grundlag vil vi i vores dataindsamling bruge samme database til alle vores operationaliseringer. Grunden til dette er, at vi ved valg af forskellige metadatabaser ville få en fejlkilde, da vi derved ikke er sikre på om vores datasæt er baseret på samme datagrundlag. Forudsætningerne for at sammenligne operationaliseringer ville derfor have en grundlæggende fejlkilde som ville kræve yderligere bibliometriske undersøgelser for at be- eller afkræfte eksistensen af. En sådan undersøgelse ligger dog udenfor vores undersøgelses fokusområde, men at undersøge forskellen på data, hvis nogen, i metadatabaser kunne være et andet interessant emne.

Databaserne vi søger i er disse tre:

Social Sciences Citation Index (SSCI)Conference Proceedings Citation Index- Science (CPCI-S) Conference Proceedings Citation Index- Social Science & Humanities (CPCI-SSH)

Vi søger i SSCI, da området Information Science Library Science ligger under denne kategori40 og det er det område der i denne opgave operationaliseres. De to Conference Proceedings Citation Indexes tager vi med, da Åström i hans operationalisering vælger at inkludere tidsskriftet Proceedings of the ASIS/ASIST Annual Meetings41. For at vores operationaliseringer af Library and Information Science ikke har en fejlkilde i, at der ikke bliver søgt i det samme data, vil vi altså benytte os af de tre førnævnte databaser.

Genskabning af Åströms datasætFor at genskabe Åströms datasæt brugte vi hans liste over tidsskrifter han havde udvalgt til sit datasæt42. Hans grundige gennemgang af hvordan disse tidsskrifter blev udvalgt gjorde det let og overskueligt at følge hans metode. Vi løb dog ind i et problem i forbindelse med hvordan Åström sorterer i artiklerne fra journalerne. I Åströms artikel skriver han følgende:

“[...] the ISI Web of Science was used to download all 13.605 genuine research articles 1990–2004.”43

En forklaring på hvad Åström mener er “genuine research articles” findes der ikke og hvordan der bliver sorteret ud fra dette kriterium. Web of Knowledge har nogle funktionaliteter der er rettet mod at kunne især indsnævre en søgning ved at krydse nogle kategorier eller nøgleord af i forskellige metadatafelter. Her var metadatafeltet ved navn Document Type af særlig interesse, da det giver os muligheden for at sortere i hvilken form for dokument der vises. Blandt Åströms udvalgte tidsskrifter findes der følgende dokument typer:

39 Åström 200740 Thomson Reuters 201341 Åström 200742 Åström 200743 Åström 2007

16

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

● Book review● Article● Editorial material● Letter● Proceedings paper● Software review● News item● Note● Meeting abstract● Database review● Review● Bibliography● Correction addition● Correction● Reprint● item about an individual● Bibliographic item● Hardware review● Discussion● Fiction creative prose

Der er ikke noget i Åströms metode der gør det muligt umiddelbart at vurdere hvilke af disse dokumenttyper der hører ind under betegnelsen “genuine research articles” i hans optik og vi kan derfor ikke genskabe hans datasæt uden at lave nogle kvalificerede formodninger og antagelser om denne metode. For at begrænse antallet af subjektive antagelser i forhold til denne genskabning, vil vi i stedet se på hvilke former for dokumenter der bliver brugt i forbindelse med andre etablerede bibliometriske praksisser.

I forbindelse med JIF-analysen er der en definition af det der bliver kaldt “citeable” items44 45, disse er af ISI, det der nu er Thomson Reuters, defineret som research articles, reviews og notes. Til trods for at man godt kan citere andre former for dokumenter, er det også for at vurdere tidsskrifter i et videnskabeligt område og derfor er disse hvad man vil se som “genuine research articles”. Det er ud fra den betragtning at vi vil indsnævre vores operationaliseringer til de tre førnævnte dokumenttyper.

Dette giver os 12.099 artikler, hvilket ikke helt rammer Åströms tal, men dette kan eksempelvis skyldes at Thomson Reuters har revideret deres databaser og eventuelt fjernet duplikater af artikler i løbet af de sidste 6 år siden Åströms artikel blev udgivet. Hvorvidt vores datasæt ligner Åströms vil vi først først kunne bedømme i forbindelse med sammenligning af vores bibliometriske kort med hans originale.

44 De Bellis 200945 Glänzel & Moed 2002

17

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Topic søgningSom beskrevet i afsnittet om emnesøgninger, kan man i Web of Science søge i søgefelterne title, abstract, author keywords og KeyWord Plus på samme tid. For at kunne sammenligne med Åströms datasæt må vi have samme indgangsvinkel til hvad datasættet skal repræsentere, at kunne vise gennem bibliometriske kort hvordan et forskningsområde har set ud i en afgrænset tidsperiode. Derfor er det nødvendigt at få så meget med af det relevante litteratur som muligt og derigennem deres referencer så vi kan lave samme undersøgelser som Åström. Ved at søge i Topic leder vi i fire forskellige søgefelter, hvilket forøger vores chance for at finde relevant litteratur. Desuden er disse søgefelter ikke direkte defineret af Thomson Reuter, hvilket også gør det til en anden operationalisering.

Åström udvalgte sine søgeparametre ud fra tidsskrifter der direkte havde en forbindelse til emneområdet. For at afgrænse vores søgesæt og få de relevante poster, søgte vi først i de relevante databaser, Social Sciences Citation Index, Conference Proceedings Citation Index- Science og Conference Proceedings Citation Index- Social Science & Humanities. Vi afgrænsede det til den samme tidsperiode, 1990-2004, og søgte således:

TS=(library) OR TS=(information science)

Dette gjorde vi for at få begge områders data og dernæst kunne afgrænse det igennem Web of Science categories46. Vi valgte den der hedder “INFORMATION SCIENCE LIBRARY SCIENCE”, da det er i denne kategori vi formoder at finde den relevante data.

Dernæst afgrænsede vi hvilke former for dokumenttyper datasættet skulle indeholde. Her valgte vi igen de samme som med Åströms datasæt og fik et datasæt på 12.668 poster. Dette mener vi er tæt nok på antallet af poster i Åströms datasæt til at kunne holde det op imod.

Web of Science category: Information Science Library ScienceSom den sidste operationalisering vil vi benytte os af Web of Science categories, som vi også har brugt i de to andre operationaliseringer. Istedet for at bruge det som et sorteringsværktøj vil vi tage alle dokumenter der er registreret i den kategori der hedder Information Science Library Science. Dette gøres ved at søge således:

wc=information science library science

Derudover præciserer vi datasættet på samme måde som de to forrige, ved først at afgrænse søgningen til samme tidsperiode og de samme databaser og dernæst at vælge article, review og notes som document type. Dette gav 33.669 poster. En af grundene til at vi får så mange poster er, at vi tager alle poster i en kategori der dækker hvad vi formoder må dække Library and Information Science tilbundsgående.

46 Thomson Reuters 2010

18

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

DatabehandlingI forbindelse med behandlingen af vores data kommer vi til at lave to forskellige typer af analyser, navnligt publikations- og citationsanalyser. Til vores valgte publikationsanalyser kan analysen begynde allerede i WoS og derefter for bedre visualisering og yderligere databehandling overføres dataen til Excel. I forbindelse med citationsanalyserne bruger vi til selve databehandlingen programmet BibExcel47 og til visualisering af de bibliometriske kort programmet Pajek der findes på samme hjemmeside som BibExcel.

PublikationsanalyseDe publikationsanalyser vi har valgt er i denne forbindelse Lotka- og Bradfordanalysen. I forbindelse med WoS er der inkluderet nogle værktøjer der gør det nemt at udtrække den relevante data for at kunne udføre disse analyser. Når man har defineret datasættet kan man i øverste højre hjørne af artikellisten trykke på et link der hedder “Analyze results”. Her kan man vælge at ranke efter antal af poster i forskellige datafelter.

Da vi har valgt at lave Lotka- og Bradfordanalyse er de for os interessante datafelter “Authors” og “Source titles” respektivt. De lister man derved får kan gemmes som tekstfil og importeres til Excel for videre databehandling. I Excel er det derefter muligt at lave grafer og f.eks at inddele tidsskrifter i bradford zoner, udregne inddelingsforhold osv.

Lotka analyseFor at lave en Lotka kurve til sammenligning, åbner man først tekst-dokumentet fra Web of Science i et tekstbehandlingsprogram, såsom Editpad Lite, som formaterer tekst output formatet så det kan kopieres ind i et Excel dokument. Her får man tre kolonner. Den første er Authors, den anden er records og den sidste er procent af de samlede antal poster. Det er kun de to første kolonner der skal bruges. Ved at markere disse to kan man i Excel lave grafer ved at trykke på Indsæt -> punktdiagram, og så vælge formatet man vil have på grafen. Herefter får man en Lotkakurve. Se bilag 3 for resultatet.

Bradford analyseVed Bradford analysen foregår det på samme måde som i Lotka analysen, ved at åbne tekst-dokumentet i Editpad Lite og kopiere det over i et Excel dokument. Her er de tre kolonner Source titles, records og procent af samlede antal poster. Herefter skriver man i en ny kolonne, først procenttallet fra den første post, og derefter den næste posts procenttal lagt sammen med procenttallet fra den foregående udregning. Sådan fortsætter man med alle posterne. Herefter skulle man gerne have 100% som slutresultat. Efterfølgende inddeler man posterne i Bradford zonerne, 33%, 66% og de resterende, ved at kigge på procenttallet man har udregnet og skille ved de to punkter. Åströms datasæt var betydelig mindre end de to andre med hensyn til antallet af tidsskrifter. Dette skyldes, at Åströms metode til dataindsamling var, at udvælge enkelte tidsskrifter der skulle søges i, hvilket vil sige at vi kun har de tidsskrifter til at sætte i Bradfords zoner. Dog kan resultatet stadig bruges til at sammenligne med Bradfordanalyserne

47 Bibexcel 2013

19

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

på de to andre operationaliseringer, hvilket vi vil komme ind på i analysen. Se bilag 3 for resultatet.

CitationsanalyseAf citationsanalyser har vi valgt at lave co-author og co-citationanalyse, som argumenteret for i teoriafsnittet. Til dette bruger vi som nævnt BibExcel til selve databehandlingen og Pajek til visualisering gennem bibliometriske kort.

For at have adgang til alle relevante felter der kunne tænkes at skulle bruges til analyser i BibExcel er det her vigtigt at sørge for at man vælger den option der hedder “Full record” med underfeltet “Cited References” som findes i bunden af den visning af poster man får frem i WoS. For at få brugbart data fra WoS er det nødvendigt at lave noget forarbejde, da det ikke er muligt at få data ud i blokke af mere end 500 poster af gangen. Det er muligt at hente på hinanden følgende blokke af data hvis antallet af poster overskrider denne begrænsning og sætte dem sammen således at det er muligt at lave analyser på større datasæt. Ved hjælp af simple tekstbehandlingsprogrammer såsom notepad eller wordpad, kan man gøre dette forholdsvis let, selvom det kan være tidskrævende, alt efter størrelsen på datasættet.

I forbindelse med de valgte analyser er de datafelter der især er af interesse for os “Cited Reference” og “Author”. Disse to bliver respektivt brugt til co-citations- og co-authoranalyse. En udførlig gennemgang af hvordan vi konkret laver databehandlingen findes i bilag 1. Det er værd at bemærke at vi i forbindelse med databehandlingen i BibExcel har taget nogle valg der kan påvirke de bibliometriske kort vi får ud. Det drejer sig hovedsageligt om vores standardisering af forfatternavne. Vi har valgt at begrænse forfatteres initialer til et enkelt bogstav for at begrænse den støj der kan opstå ved at forskellige udgivelser har forskellige praksisser i forbindelse med at hvordan deres henvisninger er sat op.

Dette kan gøre at eksempelvis forfatteren Derek J. de Solla Price i det samme datasæt kan refereres til på fire forskellige måder “Price D”, “Price D.”, “Price DJ” og “Price DJD”. Dette kan føre til at en forfatter ikke fremstår som at have produceret særligt meget på trods af at han måske er en af de mest produktive indenfor feltet. I vores undersøgelse vil det derfor betyde at alle variationer af referencer til denne forfatter vil være af formen “Price D”. Dette indfører dog en anden fejlkilde, nemlig at forskllige forfattere bliver regnet for at være den samme person. Laver man en hurtig søgning på “D Price”, “DJ Price” og “DJD Price” i google scholar, vil man blandt de første poster under den enkelte søgning finde tre forskellige forskere der svarer til disse initialer. I dette tilfælde fandt vi “David Price”, “Daniel J. Price” og “Derek J. de Solla Price”. Dette kan især være et problem hvis to sådanne forskere befinder sig indenfor samme fagområde. Det kan derfor være nødvendigt i forbindelse med sådanne valg være nødvendigt at lave stikprøver på dokumenter i ens datasæt der inkluderer forskellige former for referencer for at se om det drejer sig om den samme forsker eller flere forskellige forskere før man begynder på en sådan standardisering. I vores tilfælde viste sådanne stikprøver ikke at det drejede sig om forskellige personer og vi mener derfor at standardiseringen ikke indførte en betydelig ny fejlkilde i forhold til den der blev fjernet.

20

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Co-citationsanalyseI forbindelse med vores databehandling var det hensigten at følge Åströms metode så tæt som muligt. Som han skriver i sin artikel48 valgte han i sin metode at lave bibliometriske co-citationskort ud fra de dokumenter der havde 50 citationer eller flere, hvilket resulterede i 66 dokumenter. I det datasæt hvor vi har forsøgt at genskabe Åströms operationalisering viste det sig at 105 dokumenter har 50 citationer eller mere. Vi valgte derfor at lave to bibliometriske kort i forbindelse med denne operationalisering. Det ene baseret på de 105 dokumenter med 50 citationer eller mere og det andet med de som i Åströms artikel 66 mest citerede dokumenter.

Grunden til denne dobbeltanalyse af Åström operationaliseringen er tofoldig. Det bibliometriske kort med det 66 mest citerede dokumenter vil hovedsageligt blive brugt til at lave en direkte sammenligning med Åströms originale artikel. Den andet bibliometriske kort baseret på de dokumenter der har 50 eller flere citationer, vil hovedsageligt blive brugt i forbindelse med vores sammenligning med de resterende operationaliseringer.

I forbindelse med vores WoS Topic operationalisering valgte vi at tage de dokumenter der havde 50 eller flere citationer. Vores grund for dette var dels at datasættet var af en, i forhold til Åström datasættet, lignende størrelse og antallet af dokumenter vi derved lavede kort ud fra også var relativt ens.

Vores tredje operationalisering, baseret på WoS Category, var mere end dobbelt så stort som vores to andre operationaliseringer. Vi valgte derfor at medtage dokumenter der havde 100 citationer eller mere, da dette gav et antal af dokumenter der forholdsmæssigt svarede til de andre operationaliseringer.

Co-authoranalyseFor at udvælge forfattere til vores co-author tog vi udgangspunkt i Åströms datasæt og udvalgte et antal forfattere der svarede nogenlunde til co-citations analysens antal. I den forbindelse viste det sig at der var 101 forfattere der optrådte i AU feltet i vores datasæt 15 gange eller mere. Vi brugte derfor denne skillelinje som skabelon for udvælgelsen i vores andre operationaliseringer.

I vores Topic operationalisering brugte vi derfor forfattere der optrådte 15 gange eller mere grundet datasættets lighed i størrelse med Åström datasættet.

I forhold til vores WoS Category operationalisering valgte vi ud fra samme ræsonnement som i co-citationsanalysen at medtage forfattere der optrådte 30 gange eller mere i AU feltet i denne operationaliserings datasæt.

48 Åström 2007

21

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

ResultaterI dette afsnit vil vi præsentere resultaterne af vores operationaliseringer. På grund af størrelsen af datasættene der bliver analyseret på vil vi ligge de fulde datasæt i bilag. Hvilke bilag der hører til hvilke analyser vil vi komme ind på i hvert afsnit om den pågældende analyse. En mere udførlig forklaring og analyse af resultaterne vil komme i et senere afsnit.

Lotka analyseHer kan ses de tre Lotka analyse kurver, lavet ud fra de tre forskellige datasæt. I bilag 3 kan man finde den dataliste som de er lavet ud fra.

Åström

Figur 1: Lotka analyse på det genskabte Åström datasæt.

22

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Web of Science Category

Figur 2: Lotka analyse på Web of Science Category datasættet.

Web of Science Topic

Figur 3: Lotka analyse på Web of Science Topic datasættet.

23

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Bradford analyseFor at kunne sammenligne Bradford analyserne har vi lagt de to første Bradfordzoner i dette afsnit, da det er disse to der er fokusområdet i denne forbindelse.

Åström

Figur 4: Bradford analyse på det genskabte Åström datasæt.

24

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Web of Science Category

Figur 5: Bradford analyse på Web of Science Category datasættet.

25

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Web of Science Topic

Figur 6: Bradford analyse på Web of Science Topic datasættet.

26

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Co-citationsanalysePå kortene er der enkelte dokumenter der ikke har nogen forbindelse til et cluster, hvilket betyder at de bliver vist på kortet tilfældigt. Dette skyldes at vi i databehandlingen, særligt visualiseringen igennem Pajek, var nødt til at fjerne en del af de svage co-citationssammenhænge. Således er der på vores co-citationskort for begge Åströms kort og for vores topic kort kun medtaget en co-citationsgrad af >15. På vores category co-citationskort har vi på grund af det større datasæt også valgt kun at medtage en co-citationsgrad på >30. På kortet har vi derfor rykket de dokumenter der derved ikke er forbundet med andre dokumenter hen til de clusters de hører til. Dette gjorde vi hovedsageligt af overskuelighedsgrunde og er klar over at denne stressning af kortene kan påvirke fortolkningsgrundlaget. Derfor stressede vi ellers kortene så lidt som muligt og kun i en grad så man kan læse navnene på første forfatter. I dette afsnit viser vi de stressede kort men vi har inkluderet de ustressede kort i bilag 3.

Ved dette afsnit præsenteres de kort og giver en kort karakteristik af de enkelte clusters, altså at forsøge at identificere specialområdet eller fællessnævneren for hvert enkelt cluster i hvert kort. Dette gør vi ved at udtage stikprøver af enkeltdokumenter, hovedsageligt dem med høj citationsgrad og høj co-citationsgrad. Vi udtager minimum 3 for hvert cluster, med mindre det har færre dokumenter. Se bilag 4 for de udtagne stikprøver.

27

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Åström

Figur 7: Co-citationsanalyse, lavet ud fra Åström datasættet med dokumenter der har 50 citationer eller mere.

28

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Cluster nummer og farve Fagområde/specialitet

Cluster nr. 1, mørkeblå Grundlæggende bibliometriske teorier

Cluster nr. 2, lilla Bibliometric mapping og diskussion af brug

Cluster nr. 3, orange Bibliometric mapping - metodologi

Cluster nr. 4, lyserød Webometri

Cluster nr. 5, gul Information retrieval - automatisering

Cluster nr. 6, grøn Information behaviour - seeking and use

Cluster nr. 7, blå Information seeking and use/cognitive IR - kritik af nuværende praksis

Cluster nr. 8, rød Information seeking and use/information behaviour

Cluster nr. 9, hvid Information seeking and use/cognitive IR - teoretisk tilgang

Tabel 1: Tabel over clusternes indhold, lavet ud fra Åström co-citationskortet med dokumenter der har 50 citationer eller mere.

29

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Figur 8: Co-citationsanalyse, lavet ud fra Åström datasættet med de 66 højest citerede dokumenter .

30

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Cluster nummer og farve Fagområde/specialitet

Cluster nr. 1, blå Grundlæggende bibliometriske teorier

Cluster nr. 2, orange Bibliometric mapping og diskussion af brug

Cluster nr. 3, hvid Bibliometric mapping - metodologi

Cluster nr. 4, gul Information retrieval - automatisering

Cluster nr. 5, grøn Information behaviour - seeking and use

Cluster nr. 6, lyserød Information seeking and use/cognitive IR - teoretisk tilgang

Cluster nr. 7, rød Information seeking and use/cognitive IR - kritik af nuværende praksis

Tabel 2: Tabel over clusternes indhold, lavet ud fra Åström co-citationskortet med de 66 højest citerede dokumenter.

31

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Web of Science Category

Figur 9: Co-citationsanalyse, lavet ud fra Web of Science Category datasættet med dokumenter der har 50 citationer eller mere.

32

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Cluster nummer og farve Fagområde/specialitet

Cluster nr. 1, hvid Grundlæggende bibliometriske teorier

Cluster nr. 2, blå Information retrieval - automatisering

Cluster nr. 3, Mørkeblå Irrelevant for LIS (organisationsteori og enkelt medicinsk)

Cluster nr. 4, grøn Information retrieval/webometrics

Cluster nr. 5, turkis Sociologi

Cluster nr. 6, lilla Co-citationsanalyse

Cluster nr. 7, lyserød Business & informations systemer

Cluster nr. 8, gul Bibliometric mapping & webometri

Cluster nr. 9, rød Brugere, systemer og evaluering

Cluster nr. 10, orange MIS & sociologisk evaluering

Tabel 3: Tabel over clusternes indhold, lavet ud fra Web of Science Category co-citationskortet med dokumenter der har 50 citationer eller mere.

33

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Web of Science Topic

Figur 10: Co-citationsanalyse, lavet ud fra Web of Science Topic datasættet med dokumenter der har 50 citationer eller mere.

34

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Cluster nummer og farve Fagområde/specialitet

Cluster nr. 1, gul Co-citationsanalyse/webometrics

Cluster nr. 2, grøn IR & bibliometrics

Cluster nr. 3, rød Informatrion retrieval - kognitivt synspunkt

Cluster nr. 4, blå Kommunikations- og informationsteknologi - en oversigt

Cluster nr. 5, lyserød IR - automatisering

Cluster nr. 6, hvid MIS

Tabel 4: Tabel over clusternes indhold, lavet ud fra Web of Science Topic co-citationskortet med dokumenter der har 50 citationer eller mere.

Co-author analyseSom beskrevet i vores metodeafsnit har vi lavet co-author kortene ud fra hvor mange gange de enkelte forfattere optrådte i AU søgefeltet. Dette gør vi ud fra den betragtning af det er praksis indenfor det bibliometriske felt, at kigge på de mest produktive forfattere indenfor det fagområde man undersøger.

En anden metode kunne være, at gennemgå forfattere repræsenteret på co-citationskortene for at se om, og i så fald hvilken grad, disse forfattere indgår i kollaborativt arbejde. Denne metode bliver blandt andet brugt af Zuccala49 som en del i en større karakteristik af de sociale sammenhænge, både formelle og uformelle, indenfor området Library Literature & Information Science.

Da det ikke er vores intention at lave en gennemgribende analyse af feltet, men at kigge på forskelle i forbindelse med operationaliseringer, er det mere relevant med en konsekvent metodisk tilgang til co-author kortene. Dette gøres ved direkte at se hvordan kortene ser anderledes ud alt efter operationalisering, kontra hvordan co-citationskortenes forfattere arbejder sammen med andre.

Det der er grundlaget for at vi har valgt den kvantitative tilgang er, at de mest produktive eller citerede bliver brugt som udvælgelseskriterie i vores tre andre former for analyse, henholdsvist Lotka, Bradford og co-citationsanalyse.

Indenfor hvert co-author kort vil vi karakterisere fagområdet for de mest fremtrædende kolaboratører, ved at se på temaet for artikler de har indgået i samarbejde om.

49 Zuccala 2006

35

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Åström

Figur 11: Co-author kort, lavet ud fra Åström datasættet med dokumenter der har 50 citationer eller mere.

36

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Forfatterpar Fagområde

Egghe L + Rousseau R Impact factors & research evaluation

Thelwall M + Vaughan L Webometrics

Glanzel W + Braun T Scientometrics

Glanzel W + Scuhbert A Forskningsindikatorer

Schubert A + Braun T Scientometrics

Moed H + Vanleeuwen T JIF & research evaulation

Moed H + Vanraan A Co-citation mapping

Nicholas D + Huntington P + Williams P Information behaviour

Mcclure C + Bertot J Government MIS

Large A + Beheshti J Webometrics & information behaviour

Tabel 5: Tabel over clusternes indhold, lavet ud fra Åström co-author kort med dokumenter der har 50 citationer eller mere.

37

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Web of Science Category

Figur 12: Co-author kort, lavet ud fra Web of Science Category datasættet med dokumenter der har 50 citationer eller mere.

38

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Forfatterpar Fagområde

Egghe L + Rousseau R Impact factors & research evaulation

Nicholas D + Huntington P + Willaims P Information behaviour

Glanzel W + Braun T Scientometrics

Glanzel W + Schubert A Forskningsindikatorer

Schubert A + Braun T Scientometrics

Stratford J + Stratford J Government MIS

Lewis R + Palevitz B Ikke relevant for LIS (Scientist)

Tabel 6: Tabel over clusternes indhold, lavet ud fra Web of Science Category datasættet med dokumenter der har 50 citationer eller mere.

39

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Web of Science Topic

Figur 13: Co-author kort, lavet ud fra Web of Science Topic datasættet med dokumenter der har 50 citationer eller mere.

Forfatterpar Fagområde

Spink A + Cole C Information behaviour/seeking

Nicholas D + Bawden D Informationsformidling

Chowdhury G + Foo S Bibliometri

Mcclure C + Hernon P Government MIS

Kinnel M + Oppenheim C Information science

Tabel 7: Tabel over clusternes indhold, lavet ud fra Web of Science Topic datasættet med dokumenter der har 50 citationer eller mere.

40

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Analyse

Sammenligning af resultater

LotkaSom det ses på figur 1-3 følger alle tre Lotka kurver Lotkas lov. På trods af forskellen i mængden af data kurverne er lavet ud fra, ligner de hinanden i så høj grad, at denne forskel kan skyldes almindelig statistisk usikkerhed. Dette vil vi ikke komme nærmere ind på, da det ikke er fokus for denne opgave.

Hvis vi ser bort fra sandsynligheden for statistisk usikkerhed, må man sige at forskellige operationaliseringer ikke umiddelbart påvirker Lotkakurven. Udover at Lotkas lov flere gange før er blevet bevist i andre sammenhænge50, så kan det i vores tilfælde skyldes flere ting. Analysen tager som udgangspunkt ikke nogle egentlige socialkonstruktivistiske hensyn, men kigger udelukkende på forfatteres produktivitet. Dette giver mening i forhold til vores resultater, da vi i vores tre datasæt formentlig har ret store sammenfald i indholdet og derfor vil mange af de forfattere der mest produktive gå igen i de forskellige Lotka kurver. Hvis der skulle være ændringer i Lotka kurven ved de forskellige operationaliseringer kunne det betyde, at en operationalisering ramte et specialområde med et højt indhold af en eller flere højproduktive forskergrupper, der altid skriver sammen og derved vises som lokale maxima på Lotkakurven. Dog er der, som De Bellis påpeger, stadigvæk nogle faktorer omkring Lotkas lov og de konstanter og variabler der findes i den matematiske formel der er tilknyttet til loven som stadigvæk bliver debateret51. Men det er ikke fokus for denne opgave og vi vil derfor ikke komme nærmere ind på dette her. Ud fra vores resultater kan vi derfor udelukkende konkludere at Lotkaanalysen ikke i høj grad bliver påvirket af forskellige operationaliseringer.

BradfordLigesom Nicolaisen & Hjørland konkluderer i deres artikel om operationaliseringer og Bradfordanalyse52, sker der ændringer i Bradford zonerne alt efter hvilken operationalisering analysen er lavet ud fra. Det er dog værd at bemærke med Åströms operationalisering figur 4 i forhold til Web of Science Category operationaliseringen figur 5, at de faktisk stemmer relativt godt overens. Topic operationaliseringen figur 6 placerer i zone 1 derimod mange af dem der findes i Bradfordzone 2 i Åströms operationalisering.

I WoS Category operationaliseringen fandt vi, ved udtagelse af stikprøver, at tidsskrifterne Scientist og Online kun var indekseret under to WoS Categories. Scientist havde Library Science Information Science og Multidisciplinary Science. Online havde Computer Science Information Systems og Library Science Information Science. I begge tilfælde var antallet af dokumenter ens i hver af de to categories de henholdsvist indekseret i. Dette kunne tyde på et

50 De Bellis 200951 De Bellis 200952 Nicolaisen & Hjørland 2007

41

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

manglende fokus eller indekseringsarbejde forbundet med tildeling af passende categories til de forskellige tidsskrifter. Det ser heller ikke ud som om at det kun er et problem i Categories, men også i Research Areas hvor Scientist også har to kategorier med alle dokumenter i begge. Research Areas er lig med søgefeltet Subject Category i DIALOG53.

Hvis man gennemgår de 30 mest citerede artikler blandt Scientist er kun én af dem umiddelbart relevant for Information Science Library Science feltet. På den måde er det ud fra Åströms metode velbegrundet at frasortere Scientist, men det viser at en operationalisering ikke nødvendigvis vil give resultater der ligger indenfor det fag/emneområde man gerne vil undersøge, da man er afhængig af at dokumenterne er indekseret korrekt og fyldestgørende. Dette kan tyde på, at der er et grundlæggende problem ved indekseringen af tidsskrifter og artikler. Enkelte mangler eller fejl, såsom at give Scientist de to kategorier hvoraf den ene må betragtes som værende fagspecifik og som ikke rammer tidsskriftets egentlige fokus, kan have betydelig indvirkning i det endelige resultat ved bibliometriske analyser, så det er ikke kun på enkeltdokument niveau at man skal være opmærksom på fejl.

Grunden til at netop Scientist kom med i vores Bradfordzone 1 i vores Web of Science Category søgning kan have noget at gøre med, at tidsskriftet oprindeligt blev grundlagt af Eugene Garfield54. Om The Scientist forsætligt er blevet indekseret under Information Science Library Science på grund af Garfields status inden for dette område, eller om han selv har haft en grund til at ligge det i netop den kategori, eventuelt af hensyn til citationstal og synlighed i hans felt, vides ikke. Men The Scientist har intet med den kategori at gøre55 og det er derfor en fejlkilde der skal tages hensyn til, især i nogle af de andre analyser.

I Topic søgningen figur 6 ligger de tidsskrifter der i Åströms datasæt figur 4 ligger i zone 1 mere spredt ud over zone 1 og 2. Omvendt ligger mange af Åströms tidsskrifter i zone 2 i Topic zone 1. Der er altså en betydelig forskel i udseendet med vores anden operationalisering i forhold til placering i hierarkiet og hvilken Bradfordzone de pågældende tidsskrifter ender op i. Dette kan skyldes at vi søger på emneord og derved får en mere specifik sortering af indholdet i dokumenterne i stedet for at tage alle artikler med fra et nøje udvalgt sæt. Tidsskrifter der på den anden side er blevet sorteret fra i Åströms metode har så fået en plads i hierarkiet, da denne operationalisering netop fokuserer mere på de enkelte dokumenters indhold uden hensyntagen til hvilke publikationer de er blevet udgivet i. Man kan sige, at det er en mere dokumentspecifik søgning når man søger i Topic og de indekseringsfelter dette søgefelt indeholder.

Et par interessante tidsskrifter blandt dem vi fandt i Bradford zonerne som ikke opstår i Åströms datasæt er Bulletin of the Medical Library Association og Journal of the american Medical Informatics association figur 5-6. I Category søgnigen ligger de i zone 1 og 2 og i Topic søgningen finder man Bulletin of the Medical Library Association i zone 1. Grunden til at de er

53 Thomson Reuters 2012a54 Garfield 198655 The Scientist 2013

42

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

blevet sorteret fra i Åströms datasæt er på grund af hans metode til udvalg af tidsskrifter. Han kiggede på de mest citerende tidsskrifter til det pågældende tidsskrift og vurderede om det var et LIS-relevant tidsskrift. Hvis det ikke var blandt disse, blev det sorteret fra. Begge medicinske tidsskrifter findes i the Journal Citation Reports fra 2003, som Åström brugte i hans metode. Problemet er, at de hovedsageligt bliver citeret af andre medicinske tidsskrifter og derved er blandt de tidsskrifter der er blevet frasorteret. Artikler fra de to tidsskrifter kan til gengæld være citeret højt blandt informationsspecialister på grund af deres informationsvidenskabelige metodiske tilgang til de emner de berører. Så på trods af, at tidsskrifterne i Åströms optik ikke hører med til området kan enkelte artikler godt have indflydelse på området. Dette kan også være en generel observation blandt de resterende tidsskrifter som ikke er taget med i Åströms datasæt men som optræder blandt tidsskrifterne i de to andre operationaliseringer.

En interessant betragtning i forhold til Åströms metode og de tidsskrifter han vælger fra, er en artikel af Falagas et. al. der er publiceret i FASEB Journal, hvis umiddelbare fokus er mikrobiologi56. Artiklen undersøger de fire metadatabaser PubMed, Scopus, Web of Science og Google Scholars dækningsgrad. Den er fokuseret på citationsanalyse og Information Retrieval, som må betragtes som værende højt relevant for LIS feltet. Netop denne pointe bliver også bakket op af vores Bradford analyse ud fra Category og Topic operationaliseringerne, da man som vi har været inde på finder de to tidsskrifter i zone 1 der hovedageligt har med medicin at gøre.

Co-citationFørst og fremmest kan vi se, at på trods at vi har prøvet at genskabe Åströms operationalisering får vi ikke 100% de samme resultater. Flere af artiklerne er dog på kortet, men der er stadig enkelte der enten mangler eller er i de andre clusters. Derudover ser vi også enkelte som ikke er med i Åströms co-citationskort, som er med i vores. Der er også et ekstra cluster på det ene af vores citationskort, men dette cluster ligger dog inde midt i et andet som kan betragtes som en underkategori. Kortet vi ser på figur 7 er lavet ud fra Åströms metode, ved at tage de dokumenter med 50 citationer eller mere og lave kortet ud fra det. Kigger man på vores andet kort, lavet ud fra vores genskabte Åström data, hvor vi ligesom Åström har taget de 66 mest citerede, bliver forskellene endnu mere udtalte. Selvom vi igen ser et sammenfald af fagspecialiteter i de forskellige clusters, er der i dette kort i figur 8 kun 7 clusters mod Åströms originale 8.

Kigger man på vores figur 8 og sammenligner det med Åströms originale, kan vi blandt andet se at hans cluster 8, se tabel 2 der har med world wide web og webometri at gøre, for det meste er forsvundet. Den eneste der er tilbage fra det cluster på vores eget kort er Lawrence S 1999, der er blevet intregreret i det cluster der har med bibliometric mapping at gøre. Tager man den samme cluster i forhold til vores figur 7 har Ingwersen P 1998 og Lawrence S 1999 fået selskab af blandt andet Thelwall M 2001, Brin S 1998 og Rousseau R 1997. Til gengæld er Almind TC 1997, som optræder på Åströms originale kort, ingen steder på nogen af vores egne.

56 The Federation of American Societies for Experimental Biology (2013)

43

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Som et andet eksempel på omplacering eller på manglende centrale dokumenter, kan nævnes Merton RK 1968, der slet ikke figurerer på vores kort og Kuhn T 1970, der i Åströms originale dokument er placeret i clusteret der handler om bibliometric mapping, findes på vores kort under det cluster der handler om bibliometric distributions. Der er dog nogle grundlæggende lighedspunkter, blandt andet er det forholdsvist let at se ligheder i clusternes indhold og vi har også mange gengangere, eksempelvis Garfield, Egghe, Kuhlthau, Salton, Bradford og Small.

At der er forskelle kan skyldes flere ting; Citationsdatabaserne er blevet ryddet op i, og/eller revideret57 så den data vi har søgt på ikke stemmer 100% overens med Åströms originale data. Derudover har vi, som beskrevet i metodeafsnittet, taget nogle kvalificerede overvejelser omkring Åströms definition på genuine research articles, som kan være forkerte og derved har operationaliseret forkert. Et tredje sted der kan være skabt forskel i kortene er Persson algoritmen, der i Bibexcel bliver brugt til at fordele artiklerne i clusters. Vi kan ikke sige, om den er blevet ændret siden 2007, hvor Åström benyttede sig af den og derfor kan det være en rent programteknisk ændring der gør udfaldet. Programmet bliver løbende opdateret og vi har ikke umiddelbart mulighed for at sikre os at vi benytter samme algoritme som den så ud i 2007. Dette skulle dog kun påvirke clustersne, og ikke selve dataen, da den bliver udvalgt før Persson algoritmen bliver kørt på datasættet.

I forhold til de to resterende operationaliseringer, WoS Topic figur 10 og tabel 4 og WoS Category figur 9 og tabel 3, vil vi sammenligne og analysere ud fra de kort vi selv har konstrueret på baggrund af den genskabte Åström data figur 7-8 og tabel 1-2. Dette gør vi hovedsageligt på grund af at vi kan være sikre på at dataen er blevet behandlet på samme måde og eventuelle fejlkilder vil være gældende for alle. Grundlæggende sikrer vi os at vores analyser ikke bliver påvirket af ukendte faktorer mere end højest nødvendigt. Den antagelse bygger vi på, at vi selv har bestemt og reflekteret over hvert eneste skridt i operationaliseringen og databehandlingen.

Co-authorKigger man på co-author kortene, lavet på baggrund af Åströms data figur 11 og WoS Category data figur 12, er der især to øjenfaldende ligheder. Der findes på begge kort to trioer af forfattere; Huntington P, Nicholas D og Williams P er den ene trio. Den anden er Glanzel W, Braun T og Schubert A. Derudover er der også på begge kort Egghe L og Rousseau R, som ofte er co-authors. Kigger man på nogle af de enkeltstående forfattere på co-author kortet baseret på Åströms datasæt og som ikke er co-authors ofte med andre, men som også findes på co-citationskortene, kan nævnes Garfield E, Cronin B, Ingwersen P, Saracevic T, White H og Mccain K.

En påfaldende ting er dog, hvis man for eksempel kigger på det antal forfattere der bliver inkluderet på kortene, hvor Åström co-author kortet har en del flere forfattere på trods af at være halvt så stor som category datasættet. Denne tendens bliver endnu mere åbenlys hvis man

57 Thomson Reuters 2012b

44

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

kigger på WoS Topic co-author kortet figur 13, hvor antallet af forfattere der skriver sammen er så lille at det ikke engang er muligt at danne mere end et enkelt cluster i BibExcel. Kigger man på WoS Topic co-author kortet i forhold til de to andre kort finder vi ingen af hverken trioerne eller duoerne der er fremtrædende på de andre kort. Det eneste sammenfald der er fra Topic kortet til Category kortet, er Mcclure C og Hernon P. På Category kortet er de i samme cluster mens de i Topic står meget svagt forbundet.

Hvis vi går ind på nogle mere generelle overvejelser omkring disse co-author kort er det påfaldende at af de mest fremtrædende trioer både på Åström og Category kortene kun på et af vores co-citationskort optræder med en enkelt forfatter, i dette tilfælde Schubert A som er at finde på det genskabte Åström co-citationskort med 50 citationer eller mere, figur 7. Til gengæld er de to duoer Egghe L og Rousseau R, og Cronin B og Davenport E, repræsenteret ved henholdsvist Egghe L og Cronin B på samtlige co-citationskort.

Kigger man mere konkret på de fagområder tabel 5-7 som forfatterduoerne og trioerne i denne forbindelse skriver om, kan man se at de mest fremtrædende her hovedsageligt kredser omkring scientometrics, webometrics og research evaluation. De eneste to emner på Åström kortet, som ligger i udkanten af Library & information science området, er trioen Nicolas D, Huntington P og Williams P som skriver om brugerorienteret informationsadfærd og som er meget fremtrædende i forhold til de andre forbindelser. Trioen findes også på vores WoS Category kort, hvor den også er fremtrædende. Det andet emne der ligger i udkanten af Library & Information science området, er det der går under betegnelsen government MIS.

Dette emneområde findes på alle vores tre af vores kort. På Åström og Topic kortet er Mcclure C en af forfatterne, i samarbejde med henholdsvist Burtot J på Åström kortet og Hernon P på WoS Topic kortet. På vores WoS Category kort er emnet behandlet af forfatterduoen Stratford J og Stratford J. Det er ikke en fejl på kortet at Stratford J fremstår to gange, da det er to forskellige personer, hvor de har samme initial efter vores standardisering af forfatternavne i BibExcel. Havde vi taget flere initialer med ville de have komme til at fremstå som Stratford JS og Stratford J.

På vores WoS Category kort finder man en co-author forbindelse mellem Lewis R og Palevitz B. Søger man på denne duo i Web of Science finder man, at de eksklusivt skriver for tidsskriftet the Scientist. Ingen af de artikler som de har skrevet sammen omhandler noget der har relevans for Library and information science fagområdet. Som vi har været inde på tidligere i forbindelse med Bradfordanalysen, kan dette skyldes indekseringsproblemet i forhold til the Scientist.

Vores mindste kort, WoS Topic kortet, omhandler for det meste meget godt Library & Information science, ud fra det begrænsede kort vi har til at karakterisere med. Der er ikke de samme klare forbindelser eller større trioer og duoer som i forbindelse med de andre operationaliseringer. En af grundene til at Topic kortet er så lille i forhold til de andre, på trods af, at antallet af poster i datasættet svarer til Åströms operationalisering, kan udspringe i hvad vi ser med Lotka analysen. For alle vores operationaliseringer er der som tidligere beskrevet god

45

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

overensstemmelse med Lotkas lov og antallet af produktivitet blandt forfattere indenfor emneområdet. Da Library & Information science ud fra denne analyse kan karakteriseres som et fag hvor der hovedsageligt bliver skrevet alene eller i små forskningsgrupper, er det derfor ikke overraskende at vi ikke finder særlig mange co-author forbindelser. At vores Åström kort medtager forholdvist mange forfattere i denne forbindelse kan eventuelt tilskrives at Åströms metode har ramt de tidsskrifter der indenfor feltet har flest artikler med flere forfattere.

FejlkilderDette afsnit er en opsummering af de fejlkilder vi har diskuteret i løbet af opgaven og som kan have indflydelse på de konklusioner vi drager.

Ved gendannelsen af Åströms datasæt var der, som nævnt i metodeafsnittet, tvivlspørgsmål om Åströms definition på genuine research articles. Vi antog i denne forbindelse, da han bruger Journal Citation Reports som kan rangere tidsskrifters betydning efter JIF, at definitionen på en genuine research article følger samme udvælgelseskriterier. Dette udvælgelseskriterium er det der kaldes for “citeable items” hvilket er begrænset til article, review og notes58. Da vi ikke ved om Åström har inkluderet flere parametre, såsom corrections, reprint eller lignende, kan dette have indflydelse på forskellen i datasættets indhold.

Som fremgår af Thomson Reuters hjemmeside er den seneste revision af JCR sket i 201159. Da Åströms datasæt er baseret på data indsamlet i 2007 kan revisionen af JCR have indflydelse på den indeksering og hvis denne revision også inkluderer citationsindekserne kan dette også have haft indflydelse på det genskabte datasæts indhold.

I BibExcel har vi som beskrevet lavet en standardisering af citationerne til kun at inkludere forfatteres første initial og udgivelsesår for dokumentet. Dette kan resultere i, at flere forfattere bliver betragtet som en. Det kan også betyde, at forskellige artikler udgivet af samme forfatter i samme år i løbet af databehandlingen er blevet betragtet som en artikel. Hvor stor denne fejlkilde er, er svær at bedømme, men som også beskrevet tidligere er det vores antagelse at denne standardisering af især forfatternavne vil kunne fjerne en anden fejlkilde som potentielt set er et større problem i citationsindekserne, navnligt at forfattere står citeret med forskellige antal initialer med eller uden punktum etc. Metoden til denne standardisering er ikke perfekt, hvilket også fremgår af vores eget kort. Hvis man kigger på figur 7 og sammenligner med figur 10, finder man Taylor R fra 1968, som går igen på begge kort, men også en på Topic kortet, en Taylor R 1986, der på det genskabte Åström co-citationskort med 50 citationer eller mere, figur 7, står som Taylor Robert S 1986. Dette er dog umiddelbart det eneste eksempel vi kunne finde i co-citationskortene. På vores WoS Category co-author kort finder vi også en duo, som tidligere beskrevet, Stratford J og Stratford J. Selvom de deler samme navn og første initial bliver de stadig betragtet som separate forfattere. Om det samme gælder for co-citationerne ville dog

58 De Bellis 200959 Thomson Reuters 2012b

46

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

kræve en undersøgelse af, om det er et større og gennemgående problem. Dette ligger dog udenfor denne undersøgelses rammer, dog er det ikke vores indtryk, ud fra stikprøver, at det påvirker undersøgelsen i større grad.

Den måde vi udfører vores databehandling på kan give en fejlkilde i forhold til hvis flere artikler udgivet af samme forfatter indenfor det samme år, kan tages som at være den samme artikel, selvom de burde få hver deres, især i forhold til co-citationsanalyse. For at kunne bedømme hvor stor denne fejlkilde er ville det kræve en større gennemgang af datasættet før og efter frekvensanalysen, som BibExcel foretager automatisk. Da vi udfører præcis de samme systematiske trin i forbindelse med vores databehandling laver vi den antagelse, at en fejlkilde af denne type vil være den samme for samtlige operationaliseringer. Ud fra denne antagelse mener vi, at en sammenligning af operationaliseringerne ikke bliver påvirket i betydelig grad.

I forhold til vores co-citationskort, cluster antal, tilhørsforhold i disse clusters og dokumenters opdeling, kan den brugte algoritme i BibExcel have en hvis betydning for disse elementer. Som vi har kommet ind på tidligere er det især i forhold til Åströms originale artikel meget sandsynligt at opdatering af BibExcel også har inkluderet en opdatering af algoritmen der styrer disse elementer. Vi antager dog, at siden den samme algoritme er blevet anvendt på alle de operationaliseringer vi selv har lavet, er dette ikke er en betydelig faktor. Det eneste der kan blive påvirket af en eventuel opdatering er vore sammenligning af Åströms originale co-citationskort og dem vi har produceret ud fra vores forsøg på genskabelse af det originale datasæt.

47

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

DiskussionHvis man ser på analyserne sammen, Lotka, Bradford, co-citation og co-author, kan man ud fra vores tidligere sammenligningsafsnit se at kun en af dem i mindre grad bliver påvirket af operationaliseringen. På trods af, at Lotka analysen blev fremsat allerede i 192660, er det først i løbet af 1970’erne at den for alvor fik opmærksomhed og blev efterprøvet. Som De Bellis skriver:

“Contributions on the subject piled up at such a pace that, as early as 1978, a bibliography of 437 works on Lotka’s Law and related statistical regularities appeared in the first issue of the journal Scientometrics.“61

Den formel vi i teori afsnittet om Lotkas lov præsenterer er på grund af den nævnte undersøgelse og opfølgende undersøgelser blevet den mere generelle matematiske beskrivelse af Lotkas lov. Selvom vi ikke går ind i at beskrive de Lotka kurver vi har præsenteret, kan man dog se, som vi også har påpeget, at de store træk er ens. Det vi udleder er, at det er et felt hvor der er tendens til at arbejde alene eller arbejde i små forskergrupper. Dette er også understøttet af vores co-author analyse hvor antallet af artikler med mere end en forfatter, i forhold til antallet af poster i datasættet, viser meget få stærke forbindelser. Som vi tidligere har diskuteret omkring selve teoriens opbygning, kan grunden til at vores Lotka analyse ikke bliver påvirket af operationaliseringen, hænge sammen med at den ikke forholder sig til kvalitet i forhold til forskning men kun på produktivitet hos den enkelte forfatter.

Den anden publikationsanalyse vi har med, navnligt Bradford analysen, er på samme måde som Lotka analysen hovedsageligt et kvantitativt værktøj. Formålet er som vi også har beskrevet at identificere kernetidsskrifter og rangere tidsskrifter, således at man danner sig et overblik over i hvilke tidsskrifter man kan finde hovedparten af den primære litteratur om det undersøgte fagområde.

Kigger man på vores tre forskellige tabeller over de i Bradford zone 1 og 2 inkluderede tidsskrifter, som de bliver præsenteret i sammenligningsafsnittet, kan man se at der er et sammenfald i forhold til rækkefølgen på tidsskrifterne i Åström og Web of Science Category operationaliseringen. Topic operationaliseringen havde derimod en helt anden rækkefølge og hvis man vil kortlægge Library & Information Science fagområdet ud fra disse kernetidsskrifter vil det se grundlæggende anderledes ud, end hvis man havde brugt de to andre operationaliseringer. Grunden til ligheden mellem to af kortene kan hænge sammen med at vi her gik ud fra overordnede definitioner af feltet. Dette kommer dels fra Thomson Reuters side i forbindelse med WoS Category søgningen, dels forbindelse med Åström operationaliseringen hvor der blev medtaget tidsskrifter der er af Thomson Reuter er blevet beskrevet som at ligge indenfor dette felt. Derfor er det vores antagelse, at disse to operationaliseringer i høj grad

60 Lotka 192661 De Bellis 2009

48

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

bygger på det samme datagrundlag. Vores Topic operationalisering er derimod bygget op omkring felter der direkte eller indirekte er påvirket af forfatteren selv, i form af selvvalgte emneord eller indhold i abstract, titel og litteraturlisten. Thomson Reuter har ikke haft direkte indflydelse på indholdet af disse søgefelter og er derfor ikke kontrolleret på samme måde som de to foregående. På den anden side har vi i Topic operationaliseringen begrænset datasættet til kun at inkludere poster der lå inden for WoS kategorien Library Science Information Science. Umiddelbart kunne man derved forvente at der var en høj grad af sammenfald med de andre operationaliseringer, men det er ikke hvad vi observerer her. Dette understøtter hvad Nicolaisen & Hjørland62 konkluderede i deres artikel fra 2007.

I denne forbindelse er det værd at bemærke, at selvom socialkonstruktivistiske citationsteoretikere har kritiseret brugen af citationer som en måleenhed for forskningsindflydelse, er Bradford analysen i den forbindelse ikke blevet anfægtet.

I vores co-citationsanalyse af de tre forskellige operationaliseringer så vi, hvordan clusterantallet og clusternes indhold og emne varierede alt efter hvilket kort vi kiggede på. Nogle eksempler på dette vises allerede i præsentationsafsnittet. Dette belyser problematikken med den nuværende praksis, som fremsat af White & McCain63 og som også kan ses i Åströms metode64.

Small & Griffith skrev i 1974 den første artikel, der fremsatte metoden til computerassisteret co-citationsanalyse65. I artiklen diskuteres der hvordan man i starten af 70’erne begyndte at lave citationsanalyser og at kortlægge fagområder. Undersøgelser før har haft fokus på meget snævre special fagområder, da det hele skulle gøres i hånden. Ved hjælp af computerprogrammer kunne man altså begynde at udvide parametrene og give en bredere karakteristik. Dataene kom, ligesom idag, fra citationsindekserne. I denne artikels tilfælde var det Science Citation Index. Ligesom White & McCain og Åström henholdsvis 25 og 35 år senere, er det ved hjælp af disse co-citationsanalyser der bliver forsøgt at komme med en bred karakteristik af et områdes litteratur. Det er i denne forbindelse påfaldende at betragte deres tilgang til data og de konklusioner de mener kan drages. Som Small & Griffith skriver om deres tanker omkring betydningen og brugsværdien i forhold til sådanne analyser:

“The mapping of specialties, to show their internal structures and their relationships to one another, is a task of prime importance for the understanding of science and its social and intellectual structure.”66

Det bliver altså slået op som et værktøj til at kunne lave kvantitative undersøgelser som kan give et overblik over et fagområde, ikke kun dets citationspraksis men også som et værktøj til at identificere og forstå de sociale sammenhænge som før har været tavs viden. Selvom Small i

62 Nicolaisen & Hjørland 200763 White & McCain 199864 Åström 200765 Small & Griffith 197466 Small & Griffith 1974

49

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

dag bliver betragtet som en af de største normativistiske citationister67, viser han netop i denne artikel en mere hermeneutisk tilgang:

“Most of the authors identified are among the ‘important’ individuals in their respective specialties, and such eminence is nearly always accompanied by a high citation rate (although high citation rate, by itself, does not produce eminence).”68

Her siger han netop, at man ikke direkte kan sætte et lighedstegn mellem betydning for et fagområde og citationsgraden for en forfatter eller artikel. Man kan i til en hvis grad sige, at det der står i parentesen med tiden er blevet glemt af de normativistiske citationister, for selvom Åström i hans artikel ikke direkte påstår at de mest citerede artikler på hans kort er lig med kvalitet, mener han dog at de har været vigtige for den diskussion der har foregået i det cluster de er en del af.

Kigger man på kritikken ved brug af co-citationsanalyser til at kortlægge et fagområde, blev der allerede dengang hvor metoden blev fremsat af Small og Griffith69 fremsat kritik ved denne metode. Edge skrev i sin artikel om hvorfor han ikke var citationist70, at denne form for undersøgelse endte med at gennemsnitliggør og forflade de små niche og specialområder, da de ikke vil fremtræde på kortet og at man ved at basere ens fagområdeundersøgelse på disse kort fik et unuanceret billede af emnet.

Ser man nærmere på co-citationskortene vi har konstrueret ud fra de forskellige operationaliseringer er det umiddelbart tydeligt at se, at operationaliseringen har en indvirkning på kortene. Kigger man på kortene individuelt vil de fortolkninger man kan ud fra hver af dem drage forskellige konklusioner. Kigger man på dem samlet er det dog muligt at karakterisere ligheder og forskelle på kortene. De ligheder vi ser på kortene må være at betragtes som kernedokumenter og for clusternes vedkommende kerneområder indenfor undersøgelsens fokus. Med kernedokumenter menes der her dokumenter som på tværs af fagområder har relevans og bliver citeret i høj grad og i mange forskellige sammenhænge. Kigger man derimod på forskellene er tendensen, at de dokumenter og clusters der optræder i forskellig grad eller på nogle kort ganske enkelt ikke er med, repræsenterer nogle underområder af det overordnede fagområde.

Selve co-author analysen og de kort vi i den forbindelse har lavet har vi allerede i mindre grad været inde på det under Lotka analysen. Kigger man på co-author kortene i forhold til vores co-citationskort viser der sig nogle områder som ikke figurerer på co-citationskortene, såsom Government management information systems (MIS) og information behaviour. Disse områder tolker vi som værende for nicheprægede eller specialiserede i forhold til at kunne fremgå tydeligt på co-citationskortene, som viser de mest fremtrædende fagområder. En grund til dette

67 Bruhns 201068 Small & Griffith 197469 Small & Griffith 197470 Edge 1974

50

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

kunne være, da co-citationsanalysen fokuserer på enkeltdokumenter, kigger co-author analysen i højere grad på de forfattere der oftest skriver sammen. Hvis dette er en generel tendens i forhold til at lave co-citationsanalyser med tilhørende co-author analyser, vil det kunne adressere nogle af de kritikpunkter som socialkonstruktivister netop har kritiseret ved den anerkendte praksis indenfor citationsanalyse. Dette forudsætter dog at forfattere inden for disse nicheområder skriver i forskergrupper eller ofte arbejder sammen. Vi kan ikke på det grundlag ikke generalisere og sige at det altid vil være tilfældet med denne form for citationsanalyse. Det vil kræve yderligere undersøgelser inden for andre fagområder. Vil vil derfor ikke diskutere kvaliteten af co-author analysen og de slutninger man der ud fra kan drage yderligere i denne forbindelse.

Kigger man på vores Web of Science Category kort, har vi et relativt prominent co-author par der belyser vores tidligere kritik af brugen af Category til operationaliseringen med hensyn til hvilke kategorier de enkelte tidsskrifter har fået af Thomson Reuters. De to forfattere, Lewis R og Palevitz B skriver udelukkende for The Scientist tidsskriftet og har i de artikler vi har kunne finde af dem ikke været tæt på at berøre Library & Information science fagområdet. Det er dog kun et fænomen vi finder i Web of Science Category kortet, hvilket også stemmer overens med de observationer og konklusioner vi har gjort os i forhold til Bradfordzonernes indhold i det tidligere afsnit.

Som vi har været inde på tidligere er der i tre af vores fire bibliometriske analyser forskelle i forbindelse med diverse operationaliseringer. I forbindelse med dette har det dog stadig været muligt at se nogle gennemgående temaer, for eksempel på de clusters der kom frem på samtlige af de co-citationskort, eller sammenfaldet i rækkefølgen af tidsskrifterne i to af Bradford analyserne. Det er dog lige så interessant at se på forskellene i analyserne. Hvad der findes på et kort findes ikke på et andet, skifter cluster og fremstår mindre eller mere prominent.

Vi mener det i høj grad underbygger vores tese og Nicolaisen & Hjørlands tidligere arbejde71. Vi har ikke i lige så store forskelle som Nicolaisen og Hjørland i Bradfordanalysens forskelle mellem forskellige operationaliseringer, men tendensen kan klart ses. Denne tendens bliver kun bekræftet når vi kigger på vores citationsanalyser, som ligeledes har forskelle kortene imellem. Det er derfor nødvendigt for bibliometrikere at kigge kritisk på etableret praksis og eventuelt anvende flere forskellige bibliometriske værktøjer, samt at bygge fagområde karakteristikker op omkring datasæt baseret på forskellige operationaliseringer.

Netop denne tilgang vil være et stærkt værktøj til at danne sig overblik over et fagområde, men på grund af at det er en kvantitativ tilgang egner den sig derfor ikke i lige så høj grad til at gå i dybden og se på niche og smalle special områder. Noget som både White og Edge fremhæver som et problem ved nuværende praksis i forhold til brugen af citationsanalyser. Bruhns beskriver Whites synspunkt omkring hvad citationsanalyser reelt set burde blive brugt til72. White beskriver her co-citationsanalyser som en “overflyvningsteknik” (aerial), forstået på den måde at

71 Nicolaisen & Hjørland 200972 Bruhns 2010

51

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

co-citationsanalyser kan bruges til at danne sig et overordnet blik af et emneområde, hvor imod de traditionelle humanistiske tilgange til kvalitativ bedømmelse af videnskaben er på “jordniveau” (grounded), altså at de kan betragtes som at prøve at grave under overfladen for at finde ud af hvad der ligger til grund for de sociale og videnskabelige forbindelser. Edge skriver i sin artikel fra 1977, at brugen af co-citationsanalyse som et redskab til at forklare et felts videnskabelige forbindelser og sociale forhold, både formelle og uformelle, grundlæggende ikke tager hensyn til niche- og specialområder. Han skriver:

“[...]citation and co-citation analysis, in striving to accumulate and average, destroys the evidence we need of individual variations. It is often because individual scientists and groups do not share the consensus view, defined by (inter alia) co-citations maps, that crucial innovative decisions are made.”73

På trods af, at disse to betragtninger begge kritiserer brugen af co-citationsanalyser til kvalitative vurderinger, kan denne problemstilling overføres til kritikken af den nuværende operationaliseringspraksis. Ved brug af en operationalisering får man et fladt og unuanceret billede, da man dels tager data som i bedste fald kan være mangelfuldt og i værste fald være forkert eller misvisende. Derudover vil man, når du samler al din data i en enkelt operationalisering, lave citationsanalyser og publikationsanalyser som hovedsageligt belyser de mest citerede eller mest produktive tidsskrifter, artikler eller forfattere. Dette resulterer i, at niche- og specialområderne ikke vil figurere i nogle af disse analyser. På den måde har man altså akkumuleret al dataen om et emne og har gennemsnitliggjort det og man vil have blinde vinkler.

Som man kan se ud fra vores analyser af de tre forskellige operationaliseringer, får man ud fra forskellene i kortene, for eksempel i co-citationskortene, et mere nuanceret billede af hvilke niche- og specialområder der findes inden for feltet. Tager man webometri som et eksempel, har vi som beskrevet tidligere set, at det på vores co-citationskort nogle gange ligger integreret i et mere generelt cluster og på et andet kort har det et cluster for sig selv. Man kan ud fra forskellen identificere områder der ville være interessante at operationalisere yderligere på.

For at tage Whites billede af co-citationsanalyser som luftbilleder som er taget via en overflyvning, kan man sige at denne fordybelse i niche- og specialområderne stadig ikke kan indgå som en erstatning for de traditionelle humanistiske tilgange til kvalitativ bedømmelse af videnskaben. Man skal holde sig for øje, at denne fokus på metodeoptimering via flere forskellige operationaliseringer kan betragtes som en fortsættelse af det fysiske paradigme, som påpeget af Hjørland:

“The physical paradigm - or at least the expression: “physical paradigm” resembles what Ingwersen and Wormell (1990) call the “systems-driven paradigm,“ i.e., a paradigm only interested in the technical side, not in how well potential users are informed.”74

73 Edge 197774 Hjørland 1995

52

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

På grund af dette er det vigtigt, at bruge disse bibliometriske værktøjer i samspil med andre former for analyser, hvis man gerne vil have en mere fyldestgørende karakteristik af et felt. Dette leder os tilbage til Hjørlands domæneanalyse75 og bibliometri ud fra den betragtning kun indgår som en af flere værktøjer man kan bruge i forbindelse med en sådan domæneanalyse.

Der er eksempler på forskere der allerede i dag bruger denne tilgang med, at koble citationsanalyser med kvalitative metoder. Et eksempel vi fandt på dette er Zuccala76, som vi også har nævnt tidligere. Zuccala foreslår i sin artikel “Modeling the Invisible College”, at bruge både co-citation og co-author analyser sammen med kvalitative interview, geografiske analyser og hvor ofte forskere deltager i konferencer, til at karakterisere både samarbejde og kollegialitet indenfor et givent fagområde. Ud fra hendes metodebeskrivelse og henvisninger til netop alle de store normative teoretikere, må det derfor antages at hun begrænser sig til én operationalisering. Dette behøver ikke nødvendigvis at forringe undersøgelsen, især ud fra den betragtning at hun kombinerer det med flere kvalitative undersøgelser, men et mere komplet billede kunne have været resultatet hvis hun havde brugt flere operationaliseringer til sin citationsanalyse.

Hvis vi træder et skridt tilbage og kigger på vores egen metode og undersøgelse, er der flere forhold vi kunne have taget med i vores overvejelser i forhold til operationaliseringerne af Library & Information science området.

I forbindelse med vores valg af operationalisering begrænsede vi os selv til en enkelt metadatabase, Web of Science. Det gjorde vi da vi, som beskrevet i metodeafsnittet, har taget udgangspunkt i Åströms artikel og hans valg af metadatabase. At operationalisere ud fra en enkelt metadatabase kan resultere i en ukomplet dækning af fagområdet, ihvertfald indenfor operationaliseringens rammer. De forskellige metadatabaser, som også nævnt i teoriafsnittet om dataindsamling, har forskellig dækningsgrad i forhold til hvilke tidsskrifter og artikler de har inderkseret. Der kan også være forskelle i fagfokus, hvor dækningen af det medicinske område er mere komplet i metadatabasen PubMed. Falagas et. al. undersøger i deres artikel hvor stor de forskellige metadatabasers dækningsgrad er77, og det viser sig desuden at metadatabasen Scopus har en 20% større dækningsgrad end Web of Science. Det kunne have været interessant i forhold til vores undersøgelse at lave lignende operationaliseringer i Scopus og holde dem op imod de resultater vi fik ud af operationaliseringerne fra Web of Science.

En anden overvejelse man skal have med når man laver operationaliseringerne er hvilke sprog de forskellige metadatabaser dækker og i den forbindelse også hvilke nationer der er førende indenfor det undersøgte fagområde. Der kan i de nationale databaser ligge en masse relevant litteratur “gemt”, men på grund af sprogbarrierer er denne forskning ikke synlig. Med mindre at der i databasen er investeret ressourcer i en engelsk thesaurus vil det desuden være meget

75 Hjørland 200276 Zuccala 200677 Falagas 2008

53

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

kompliceret og ressourcekrævende arbejde at operationalisere. Dette er noget som Gordon og Santman også kommer ind på i deres artikel fra 198178, hvor de konkluderer at der er brug for at investere flere ressourcer i oversættelsen af primær litteratur fra originalsproget til engelsk. Ud fra dette mener vi, at man i sine overvejelser i forhold til operationalisering bør tage dette aspekt med.

Et problem ved at operationalisere på forskellige måder i forskellige metadatabaser er den mængde af kort man i sidste ende ville ende op med og skulle lave fortolkninger ud fra. For eksempel ville vi ende op med at have mellem 26 og 39 figurer, hvis vi valgte at lave de samme operationaliseringer i henholdsvis en eller to andre metadatabaser. For at begrænse dette antal kunne man med fordel, via Bibexcel, standardisere posternes format og efterfølgende sammenlægge disse datasæt i en fil, så vi til sidst endte op med tre datasæt, lavet ud fra de valgte operationaliseringer men med dataen samlet fra alle tre databaser. Via Bibexcel ville alle dubletter kunne fjernes og man ender i stedet op med et datasæt der er mere komplet. Vi har ikke efterprøvet denne metode, det er dog i forbindelse med optimering af operationaliseringer i forbindelse med bibliometriske analyser en fremgangsmåde der ville være værd at undersøge nærmere.

Til sidst vil vi opsummere overvejelser vi mener er vigtigt at gøre sig i forhold til valg af operationaliseringer.

● Hvilket fagområde er det tilsigtede fokus?○ Indenfor hvilket overordnet felt?

■ Humaniora■ Samfundsvidenskab■ Naturvidenskab

● Hvilken periode skal undersøges?○ Årstal

● Hvordan skal der søges?○ Hvilke databaser skal der søges i?

■ Findes der domænespecifikke metadatabaser?■ Findes der fagspecifikke databaser?■ Hvilke sprog bliver der skrevet i?

● Hvor finder man disse data?○ Hvilke søgefelter skal der søges i?

■ Hvad stiller databasen eller metadatabasen til rådighed?■ Kan der operationaliseres på samme måde i forskellige metadatabaser?

○ Hvordan nåes der tilstrækkeligt rundt i hele emnet?■ Bruge operationaliseringer til at kvalificere andre operationaliseringer?■ Inspiration fra tidligere undersøgelser, med forbehold for

operationaliseringen i disse● Hvordan bruger jeg dataen?

78 Gordon & Santman 1981

54

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

○ Hvilke analyser skal udføres?○ Hvilke kvalitative undersøgelser skal analysen holdes op imod?

■ Domæneanalystisk tilgang

55

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

KonklusionVed at anvende anerkendt praksis i forhold til operationalisering af et fagområde på flere forskellige måder, har vi fundet frem til følgende:

Af de valgte bibliometriske analyseformer blev tre ud af fire påvirket af operationaliseringen i en sådan grad, at der var tale om forskelligt fortolkningsgrundlag. Af de fire analyseformer, Lotka, Bradford, co-citation og co-author, var det kun Lotka analysen der forblev forholdsvist uændret. I forhold til de tre andre bibliometriske analyser, var forskellen i fortolkningsgrundlag i hovedparten af tilfældende stor nok til, at en karakteristik af fagområdet baseret på disse, ville have markant forskellige. I Bradford analysen var der i ved alle tre operationaliseringer variationer i større eller mindre grad. I co-citationsanalysen var der forskellige antal clusters alt efter operationalisering og indholdet af disse varierede ligeså. Det samme gælder for co-author analysen.

Når man operationaliserer et fagområde kan flere forskellige faktorer have indflydelse på hvilke fortolkningsmuligheder man har; valg af metadatabase, valg af søgefelter, valg søgeord og fagområdets primære sprog. Alle disse bør alle tages med i de overvejelser man gør sig når man skal operationalisere et fagområde.

Den i dag anvendte praksis bør tages op til revision, da en enkelt operationalisering kan resultere i ukomplet eller fejlbehæftet data. Bibliometriske analyser bør baseres på et større antal af operationaliseringer for at give et bedre overblik over det fagområde man tilsigter at karakterisere. Metoden er kvantitativ og skal mere kvalitative træk i forhold til fagområdet analyseres, bør den kobles med andre undersøgelser, for eksempel en eller flere kvalitative undersøgelser.

56

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Litteraturliste

TeksterBruhns, S. (2010). Citationsindexering (1. udg.). Danmark: Bibliografica.

De Bellis, N. (2009). Bibliometrics and Citation Analysis: From the Science Citation Index to Cybermetrics (1.udg.). USA: Scarecrow Press Inc.

Edge, D. (1974). Why I am not a co-citationist. Society for Social Studies of Science Newsletter, 2, s. 13-19.

Falagas M.E., Pitsouni E.I., Malietzis G.A., Pappas G. (2008). Comparison of PubMed, Scopus, Web of Science, and Google Scholar: strengths and weaknesses. FASEB J. 2008, 22(2), s. 338-342.

Garfield, E. (1986). The Scientist: How it all began. Current Contents 1986, 33, s. 3-6.

Gilbert, G. M., Woolgar, S. (1974). The Quantitative study of Science: An Examination of the Literature. Science Studies, vol. 4, no. 3, s. 279-294.

Glanzel W., Moed H.F. (2002). Journal impact measures in bibliometric research. Scientometrics 2002, 53(2), s. 171-93.

Gordon, M.D., Santman, A. (1981). Language barriers, literature usage and the role of reviews: an international and interdisciplinary study. Journal of Information Science August 1981, 3, s. 185-189.

Hjørland, B. (1995). Towards a New Horizon in Information Science - Domain-Analysis. Journal of the American Society for Information Science, 46/1995I(6). s. 400-425.

Hjørland, B. (1997). Information Seeking and Subject Representation: An Activity-Theoretical Approach to Information Science (1. udg.). USA: Greenwood Publishing Group Inc.

Hjørland, B. (2002). Domain analysis in information science. Eleven approaches - traditional as well as innovative. Journal of Documentation, 58(4), 422-462.

Lotka, A.J. (1926). The Frequency Distribution of Scientific Productivity. J. Washington Acadademy of Science, 16, s. 317-323.

Nicolaisen, J., Hjørland, B. (2007). Practical potentials of Bradford's law: a critical examination of the received view. Journal of Documentation, 63/2007(3), s. 359-377.

57

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Nicolaisen, J. (2007). Citation analysis. Annual Review of Information Science and Technology, 41, s. 609–641.

Persson, O. D., Dannel, R., Schneider, J. W. (2009). How to use Bibexcel for various types of bibliometric analysis. In Celebrating scholarly communication studies: A Festschrift for Olle Persson at his 60th Birthday. International Society for Scientometrics and Informetrics, s. 9-24.

Small, H., Griffith, B. C. (1974). Structure of scientific litteratures. 1. Identifying and graphing specialties. Science Studies, 4(1), s. 17-40.

White, H. D., McCain, K. W. (1998). Visualizing a discipline: An author co-citation analysis of information science, 1972-1995. Journal of the American Society for Information Science, 49/1998(4), s. 327-355.

Zuccala, A. (2006). Modeling the invisible college. Journal of the American Society for Information Science and Technology, 57, s. 152–168.

Åström, F. (2007). Changes in the LIS Research Front: Time-Sliced Cocitation Analyses of LIS Journal Articles, 1990–2004. Journal of the American Society for Information Science, 58/2007(7), s. 947-957.

HjemmesiderBibexcel (2013). Bibexcel. Lokaliseret d. 26/5-2013 på: http://www8.umu.se/inforsk/Bibexcel/

Google (2011). Om Google Scholar. Lokaliseret d. 26/5-2013 på: http://scholar.google.dk/intl/da/scholar/about.html

Scopus (2013). What does Scopus cover?. Lokaliseret d. 26/5-2013 på: http://www.info.sciverse.com/scopus/scopus-in-detail/facts/

The Federation of American Societies for Experimental Biology (2013). The FASEB Journal. Lokaliseret d. 26/5-2013 på: http://www.fasebj.org/

The Scientist (2013). About & Contact. Lokaliseret d. 26/5-2013 på: http://www.the-scientist.com/?home.about

Thomson Reuters (2009). Topic. Lokaliseret d. 26/5-2013 på: http://images.webofknowledge.com/WOK45/help/WOS/hs_topic.html

Thomson Reuters (2010). Web of Science Subject Areas. Lokaliseret d. 26/5-2013 på: http://incites.isiknowledge.com/common/help/h_field_category_wos.html

58

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Thomson Reuters (2012a). Research Areas. Lokaliseret d. 26/5-2013 på: http://images.webofknowledge.com/WOKRS57B4/help/WOS/hp_research_areas_easca.html

Thomson Reuters (2012b). Thomson Reuters announces new 2011 journal citation reports. Lokalsieret d. 26/5-2013 på: http://thomsonreuters.com/content/press_room/science/68833z<2

Thomson Reuters (2013). Social Science Citation Index - Subject Categories. Lokaliseret d. 26/5-2013 på: http://ip-science.thomsonreuters.com/cgi-bin/jrnlst/jlsubcatg.cgi?PC=SS

59

Bachelorprojekt 2013 Afleveret d. 27/5-2013Skrevet af: Mads Breum & Kasper Bruun Det Informationsvidenskabelige AkademiVejleder: Jeppe Nicolaisen Fagområde: Bibliometri

Figur- og tabeloversigt

Figurer● Figur 1: Lotka analyse på det genskabte Åström datasæt.● Figur 2: Lotka analyse på Web of Science Category datasættet.● Figur 3: Lotka analyse på Web of Science Topic datasættet.● Figur 4: Bradford analyse på det genskabte Åström datasæt.● Figur 5: Bradford analyse på Web of Science Category datasættet.● Figur 6: Bradford analyse på Web of Science Topic datasættet.● Figur 7: Co-citationsanalyse, lavet ud fra Åström datasættet med dokumenter der har 50

citationer eller mere.● Figur 8: Co-citationsanalyse, lavet ud fra Åström datasættet med de 66 højest citerede

dokumenter .● Figur 9: Co-citationsanalyse, lavet ud fra Web of Science Category datasættet med

dokumenter der har 50 citationer eller mere.● Figur 10: Co-citationsanalyse, lavet ud fra Web of Science Topic datasættet med

dokumenter der har 50 citationer eller mere.● Figur 11: Co-author kort, lavet ud fra Åström datasættet med dokumenter der har 50

citationer eller mere.● Figur 12: Co-author kort, lavet ud fra Web of Science Category datasættet med

dokumenter der har 50 citationer eller mere.● Figur 13: Co-author kort, lavet ud fra Web of Science Topic datasættet med dokumenter

der har 50 citationer eller mere.

Tabeller● Tabel 1: Tabel over clusternes indhold, lavet ud fra Åström co-citationskortet med

dokumenter der har 50 citationer eller mere.● Tabel 2: Tabel over clusternes indhold, lavet ud fra Åström co-citationskortet med de 66

højest citerede dokumenter.● Tabel 3: Tabel over clusternes indhold, lavet ud fra Web of Science Category co-

citationskortet med dokumenter der har 50 citationer eller mere.● Tabel 4: Tabel over clusternes indhold, lavet ud fra Web of Science Topic co-

citationskortet med dokumenter der har 50 citationer eller mere.● Tabel 5: Tabel over clusternes indhold, lavet ud fra Åström co-author kort med

dokumenter der har 50 citationer eller mere.● Tabel 6: Tabel over clusternes indhold, lavet ud fra Web of Science Category datasættet

med dokumenter der har 50 citationer eller mere.● Tabel 7: Tabel over clusternes indhold, lavet ud fra Web of Science Topic datasættet

med dokumenter der har 50 citationer eller mere.

60