CS276 Lecture 14 Crawling and web indexes. Today’s lecture Crawling Connectivity servers.
Crawling the net publ
-
Upload
niels-bruegger -
Category
Education
-
view
656 -
download
0
description
Transcript of Crawling the net publ
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
1
Crawling the net
Digital forskningsinfrastruktur, netværksanalyse og websfæren ved
Folketingsvalget 2011
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
2
Det her er, hvad jeg kommer til at snakke om...
Jeg kommer altså ikke til at snakke om:A. Halavais, ”Searching”. The search engine society. London: Polity Press pp. 32-56
Netværk fra Folketingsvalg2011 — lavet ved hjælp af IssueCrawler
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
3
Præsentation af mig
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
4
Præsentation af mig
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
5
Media History: Theories, Methods, Analysis (red. m. S. Kolstrup),Aarhus Universitetsforlag, Aarhus, 2002
Web History (ed.), Peter Lang, New York, 2010
Histories of Public Service Broadcasters on the Web (red. m. M. Burns),Peter Lang, New York, 2011 (forthcoming)
— samt diverse artikler, bogkapitler mm.
Præsentation af mig
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
6
1. Digital forskningsinfrastruktur kilder er nødvendige hvad er en (digital) forskningsinfrastruktur? Digitalt Humaniora Laboratorium
2. Netværksanalyse og IssueCrawler kort introduktion til social network analysis (SNA) netværksanalyse ved hjælp af analytisk software min case: Danske Folketingsvalg 2011, 2007, 2001 hvordan gør man så?
3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater
4. Nyt projekt: det danske EU-formandsskab foråret 2012
Forelæsningens hovedpunkter
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
7
1. Digital forskningsinfrastruktur — kilder er nødvendige
Referent
Indhold
Kode
Medie
Kontekst
Kontakter Kontaktet
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
8
1. Digital forskningsinfrastruktur — kilder er nødvendige
Både elementer og relationer skal være udtrykt i kilder
At vise det, der ikke umiddelbart kan ses (analysens emne) gennem det, der faktisk kan ses (kilder).
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
9
En af disse kilder kan være internettet eller web
1. Digital forskningsinfrastruktur — kilder er nødvendige
Overordnede kildetyper
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
10
Samlinger
Forskningsinfrastruktur
Forskningsproces
Hvad er en forskningsinfrastruktur?
Fx bøger, aviser, museumsgenstande
Ordnet tilgængeliggørelse af samlingerne, fx katalog, registrant, o.lign.
1. Digital forskningsinfrastruktur — hvad er en forskningsinfrastruktur?
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
11
Samlinger
Forskningsinfrastruktur
Forskningsproces
Hvad er så det nye ved en digital forskningsinfra-struktur?
Samlingerne bliver i stigende grad digitale — digitalisering samt født digitale kilder
Den ordnede tilgænggørelse til samlingerne bliver også digital
Åbner helt nyt felt, ud over tilgængeliggørelse: digitale analyseværktøjer, lige fra sofistikerede søgninger, søgning på billed/lyd til analyser af sociale netværk på web mmm.
1. Digital forskningsinfrastruktur — hvad er en forskningsinfrastruktur?
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
12
Digitalt Humaniora Laboratorium
Skal starte i begyndelsen af 2012
Fælles national samling af digitale forskningsinfrastrukturer inden for humaniora og samfundsvidenskaberne
Bygger på et nationalt konsortium (AU, KU, AAU, SDU), som etablerer DigiHumLab 2012-2017
Indlejres herefter på deltagende universiteter
Finansieret direkte af Videnskabsministeriet / Forsknings- og Innovationsstyrelsen
Forankret på ARTS, Aarhus Universitet
1. Digital forskningsinfrastruktur — Digitalt Humaniora Laboratorium
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
13
Tre ‘søjler’
1. Digital forskningsinfrastruktur — Digitalt Humaniora Laboratorium
Sprogteknologiske resourserog værktøjer
Medieværktøjer Eksperimenterende labs
Lyd- og billedmedier NetLab
Udvikling af digitale analyseværktøjer til analyse af web, både i samlinger og live web på nettet
et eksempel på analytisk værktøj: værktøj til analyse af sociale netværk på web
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
14
2. Netværksanalyse og IssueCrawler — intro til social network analysis
Lang sociologisk tradition
Wasserman & Faust: Social Network Analysis, 1994, 824 p.
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
15
Sociologiske analyser af netværk kobles med analyser af hyperlinks
2. Netværksanalyse og IssueCrawler — intro til social network analysis
Garton, Haythornthwaite & Wellman (1997). Studying Online Social Networks. Journal of Computer-Mediated Communication, 3(1), 13 p.
1.hyperlinket manifesterer netværkets relationer konkret2.indsamling og visualisering foregår også på web
Park & Thelwall (2003). Hyperlink Analyses of the World Wide Web: A Review. Journal of Computer-Mediated Communication, 8(4) , 13 p.
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
16
Der er lavet utallige analyser — et par eksempler på brug
PoliticoSphere.net, http://politicosphere.net/map Mapping online publics, http://www.mappingonlinepublics.net
2. Netværksanalyse og IssueCrawler — intro til social network analysis
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
17
2. Netværksanalyse og IssueCrawler — analytisk software
Mark Round: SNA Tools and Formats diagram – updated, juli 2009
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
18
Hvad er det, netværksanalyse ved hjælp af analytisk software analyserer?
2. Netværksanalyse og IssueCrawler — analytisk software
1.Det tilgængelige web2.Den fysisk performative del af det hyperlinkede netværk
3.Website, websfære, web som sådan4.Og hvordan foregår det så?
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
19
Det tilgængelige web
Producenter Web som tekst/medie
Brugere
N. Brügger: ”Website history and the website as an object of study”, New Media & Society, 11(1-2), Sage, London 2009, 115-132
N. Brügger: Website analysis. Elements of a conceptual architecture. Center for Internetforskning, Århus, 2010
http://cfi.au.dk/fileadmin/www.cfi.au.dk/publikationer/cfis_skriftserie/012_brugger.pdf
2. Netværksanalyse og IssueCrawler — analytisk software
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
20
Den fysisk performative del af det hyperlinkede netværk
Hyperlink:•en semantisk størrelse•en formal størrelse•en fysisk performativ størrelse
2. Netværksanalyse og IssueCrawler — analytisk software
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
21
Web strata:• webelement• webside• website• websfære• web
Webelement
2. Netværksanalyse og IssueCrawler — analytisk software
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
22
Webside
2. Netværksanalyse og IssueCrawler — analytisk software
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
23
Website
Webside
Webelement
Website
2. Netværksanalyse og IssueCrawler — analytisk software
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
24
Website
Webside
Webelement
Websfære
Websfære
2. Netværksanalyse og IssueCrawler — analytisk software
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
25
Web
Web
2. Netværksanalyse og IssueCrawler — analytisk software
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
26
The web
Website
Web page
Webelement
Web sphere
2. Netværksanalyse og IssueCrawler — analytisk software
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
27
Hvad er det, netværksanalyse ved hjælp af analytisk software analyserer?
1.Det tilgængelige web2.Den fysisk performative del af det hyperlinkede netværk
3.Website, websfære, web som sådan4.Og hvordan foregår det så?
2. Netværksanalyse og IssueCrawler — analytisk software
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
28
Hvad tilføjer det analytiske software?
• håndkodet• semi-automatisk kodning• fuldautomatisk kodning + analyse + visualisation
Et eksempel på en link-ripper — del af IssueCrawler.net
2. Netværksanalyse og IssueCrawler — analytisk software
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
29
Co-link Analysis. Cawls the specified starting points, captures the starting points’ outlinks, and performs co-link analysis to determine which outlinks at least two starting
points have in common.
Privilege Starting points: This setting keeps your starting points in the results after the first iteration. [...]. The software understands a social network as the starting points
plus those organizations receiving at least two links from the starting points.
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
30
2. Netværksanalyse og IssueCrawler — Folketingsvalg 2011 og før
Websfæren i forbindelse med danske Folketingsvalg 2011, 2007 og 2001
"Hvordan så det tilgængelige danske web ud for en vælger, som ønskede at bruge det til politisk
interaktion i forbindelse med danske Folketingsvalg i 2011, 2007 og 2001?"
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
31
April
May
April
May
Sep
Dec
Sep
Dec
Sep
Dec
Sep
Dec
April
May
2. Netværksanalyse og IssueCrawler — Folketingsvalg 2011 og før
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
32
En forestillet vælgers mulige opførsel:•besøge politiske partiers websites•besøge individuelle kandidaters websites•besøge partier og kandidater på andre 'webtilstedeværelser', fx Facebook, Twitter, Youtube, osv.•søge på Google
Og senere i processen tilføjet:•medier og store organisationer
2. Netværksanalyse og IssueCrawler — Folketingsvalg 2011 og før
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
33
Netværk baseret på følgende seedlists:
•alle de politiske partiers websites (partier der allerede sidder i Folketinget)•alle de politiske partiers webtilstedeværelse på Facebook, Twitter, Youtube, osv.•de individuelle kandidaters websites (nuværende medlemmer af Folketinget, 179 personer)•de individuelle kandidaters webtilstedeværelse på Facebook, Twitter, Youtube, osv.•Google-søgning på ’Folketingsvalg’ og ’2011’ — de første 100 søgeresultater•store mediers og organisationers websites
Crawl-intervaller:•en gang om måneden inden valget udskrives•hver anden uge når valget er udskrevet •oftere de sidste to uger før valget
En lille hjælper til at holde styr på periodens begivenheder...
2. Netværksanalyse og IssueCrawler — Folketingsvalg 2011 og før
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
34
Synkrone hypoteser
Partier og kandidater:• netværket: netstederne vil danne klynger enten omkring de
største partier eller i de to politiske hovedblokke ('rød', 'blå')• specifikke noder: Facebook vil spille en afgørende central rolle,
mens Twitter og Youtube vil spille mindre centrale roller
Google:• netværket: det vil være fragmenteret, ingen klyngedannelser• specifikke noder: Facebook vil kun være én blandt flere lige
centrale noder
2. Netværksanalyse og IssueCrawler — Folketingsvalg 2011 og før
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
35
Diakrone hypoteser
Partier og kandidater:• netværket: de forskellige partier og deres kandidater (eller klynger
af begge) vil blive mere og mere relateret til hinanden, efterhånden som valget nærmer sig
• specifikke noder: Facebook vil blive endnu mere central, efterhånden som valget nærmer sig, mens Twitter vil blive tilsvarende mindre central
Google:• netværket: den fragmenterede webaktivitet i forbindelse med
Folketingsvalget vil koncentreres om et relativt lille antal kernewebsites, efterhånden som valget nærmer sig
• specifikke noder: Facebook vil være ét af disse kernewebsites, men der vil være andre, som er lige så centrale
2. Netværksanalyse og IssueCrawler — Folketingsvalg 2011 og før
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
36
2. Netværksanalyse og IssueCrawler — hvordan gør man så?
Spørgsmål — med min case som et eksempel på svar:
Hvordan finder man sine start-URLer?
Hvordan kan man indstille IssueCrawler?
Hvor længe varer en crawl?
Kan jeg se mine tidligere udførte crawls?
Kan jeg gemme og eksportere visualiseringerne af netværket?
Mmm.
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
37
Hvordan har jeg gjort? Og hvordan er det så gået?
Der er lavet 9 crawls fra 3. marts til 13. september, med ca. 1 måneds interval, oftere under valgkampen.
Søgeresultaterne fra Google vokser:•93.300•736.000 (mærkeligt...) •175.000 •246.000 •269.000 •303.000 •497.000•1.230.000•6.180.000•6.590.000
3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
38
Googlesøgningens netværk
1.Fra at have været et 'blandet' netværk op til valget, hvor både sociale medier, politiske partier, medier og valgets ’logistikere’ (borger.dk o.lign.) var tilstede, så udvikler googlesøgningens netværk sig i retning af et næsten rent netværk, der kan hjælpe vælgerne med praktiske valgrelevante oplysninger
2.Længe før valget udskrives, fylder Facebook meget i netværket, men det mister så vægt til Twitter, der næsten bliver lige så vægtigt, for så at blive meget lille — og Twitter forsvinder helt.
3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
39
Partiernes netværk
• I partiernes netværk fylder Facebook markant meget — det er ubetinget netværkets største node gennem hele perioden. Twitter kommer på et tidspunkt med, men med markant mindre vægt
• Rød blok er markant tilstede i netværket gennem hele perioden, og linker i hele perioden meget til hinanden
• Blå blok går fra lidt til noget mere vægt, men linker ikke særlig meget til hinanden, men derimod til Facebook
• Opstillede enkeltpersoners websites brænder igennem i netværket tidligt, men har markant mindre gennemslagskraft, efterhånden som vi kommer længere frem — det tyder på en linkmæssig koncentrering omkring partiernes officielle websites
3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
40
De siddende folketingsmedlemmers netværk
1.I hele perioden er Facebook stabilt netværkets ubestridt vægtigste node, Twitter er markant mindre, Flickr og Youtube er tilstede, men med meget lidt vægt — det er dog værd at bemærke, at Youtube er med, hvilket det ikke er i de andre netværk
2.I begyndelsen af perioden er de politiske partier mindre tilstede, mens de opstillede enkeltpersoner er mere tilstede, men det ændres, så partiernes websites fylder mere, delvist på bekostning af enkeltpersonernes, som dog stadig er fint med
3.Medierne indgår stort set ikke i netværket, omend de er mere med lige før valget udskrives
4.Rød blok fylder særdeles godt, interlinker meget, blå blok fylder markant mindre og har mindre interlinkning, men Venstre linker mest til de øvrige, der ikke linker tilbage
3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
41
Foreløbige hovedkonklusioner
1.Rød blok er åbenbart bedst til at skabe sammenhængende linkuniverser (fx fairforandring, fairlosning, thorning-schmidt, dsu.net, socialdemokraterne, sammenomdanmark.dk...) — og det gælder både parti-websites samt enkeltopstilledes personlige websites, der linker fint til hele røds 'linkunivers’, og de fylder måske derfor godt i netværket
2.Blå blok interlinker mindre, men linker mere til Facebook — de har ikke linkuniverser mellem satellit-websites; internt i blå blok ser Venstre ud til at linke mest til de øvrige, der ikke linker tilbage
3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
42
Foreløbige hovedkonklusioner (fortsat)
1.Google-søgningens netærk udvikler sig noget overraskende, i hvertfald for mig, nemlig fra at have været et 'blandet' netværk op til valget, hvor både sociale medier, politiske partier, medier og officielle 'valgforberedende' websites var tilstede, i retning af et næsten rent netværk, der kan hjælpe vælgerne med praktiske valgrelevante oplysninger
2.De opstillede medlemmers netværk er mere rettet mod Facebook og mod partiernes 'moder-sites' end mod mediernes websites
3.Youtube bruges mere af enkeltpolitikere end af partier4.Og endelig så kan det lykkes for en enkelt kommentator at opnå
en vis position i netværket, som holder sig over tid (jarlcordua)
Uddrag af resultaterne kan ses her:http://www.internethistorie.dk/networks/fv11/fv11.html
3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater
INSTITUT FOR ÆSTETIK OGKOMMUNIKATION
Niels Brügger, Centerleder, Center for InternetforskningMedie-, kultur- og samfundsteori , 29. november 2011
43
Foreløbig plan
Primært den danske websfære.
Google-søgning på EU, formand, Danmark
Seedliste med de forventeligt væsentligste aktørers websites samt deres offentligt tilgængelige tilstedeværelser på sociale medier:
• politiske partier• folketingsmedlemmer• EU-politikere• ministerier• landsdækkende medier• interesseorganisationer (DA, LO...)• større virksomheder (Lego, Grundfos, B & O...)• græsrødder og NGO (Greenpeace, Dansk Naturfredning...)• enkeltpersoner• diskussionsfora• hvad har jeg glemt?
Nyt projekt: det danske EU-formandsskab foråret 2012