Web harvesztelés Automatikus módszerekkel

28
Web harvesztelés Automatikus módszerekkel Kovács Péter OSZK Web harvesztelés Automatikus módszerekkel Kovács Péter Országos Széchényi Könyvtár

Transcript of Web harvesztelés Automatikus módszerekkel

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Web harvesztelés Automatikus módszerekkel

Kovács PéterOrszágos Széchényi Könyvtár

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Miről lesz szó?

• Mi is az a web harvesztelés?

• Mire és hol használjuk? Miért hasznos?

• Saját megvalósításaink

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Mi a web harvesztelés?(web aratás)

• Interneten található weboldalak begyűjtése, majd az adatok feldolgozása (Pl.: kereshetővé tétele)

• Lépések– Adatok begyűjtése (crawl)– Feldolgozás (index)– Közzététel (search)

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Nem egy új keletű dolog

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Mire és hol használjuk a szolgáltatást, miért hasznos?

• Főként keresésre használjuk• Otthon, munkahelyen, iskolákban –

mindenhol, ahol internet van• Hasznos

– Gyors, egyszerű keresés– Szűrési lehetőségek („” , site: stb.)– Tárolt változat

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Hasznosak, ingyenesek, DE…

• Nem a sajátunk, ezért– Nem azt aratjuk, amit mi szeretnénk – Nem akkor aratunk, amikor mi szeretnénk– Forráskód nincs a birtokukban, ez fejlesztési

szempontból hátrány– Harvesztelt adatok sincsenek a birtokunkban– Kulturális értékeket meg kell őrizni, ennek a

legjobb módja, ha eltároljuk őket

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Saját megoldások• Szerettünk volna olyan megoldást, ahol MI

irányítjuk a harvesztelést + adott esetben fejleszteni is tudjuk a szolgáltatást

• 3 dolog hiányzott: Szerver, tárhely, ember• Open Source programokat kerestünk

– Ingyenesek– Forráskód, beállítások elérhetők– Segítség (Forum, wiki, howto)

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Szerver• Teszteléshez használt konfiguráció

(Hp Proliant ML350Hp Proliant ML350)

– 2 magos Intel Xeon Processzor (32 bit)– 2 GB RAM– SCSI merevlemez

• Javasolt szerver konfiguráció (Ideális esetben 3 szerver)(Ideális esetben 3 szerver)

– 2*2 vagy 1*4 magos processzor (64 bit)– 8 GB RAM– SAS vagy SSD merevlemez

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Operációs rendszer

• Debian linux 5.0 (Lenny)

– Linux disztribúciók közül az egyik legjobb

– Vannak tapasztalataink– Gyors, stabil, biztonságos– Ingyenes

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Felhasznált programok

• Crawler – adatok begyűjtését végzi

• Indexer - fulltext kereséshez

• Indexer – URL kereséshez

• Java alap kereső felületekhez használjuk

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Folyamat

Adat gyűjtés (Crawl)

Adatok indexelése (Fulltext és URL kereséshez)

Kereső felületek

Központi adattároló(Storage)

1

3

2

4

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

• Aktuális stabil verzió: 3.0.0• Weboldalak begyűjtését végzi (crawl)• Warc.gz fájlokban tárolja az adatokat

– WARC (Web ARChive) fájl – képeket, dokumentumokat stb. is a fájlban tárolunk

– Tömörített fájl – helymegtakarítás fontos a nagyobb harveszteléseknél

– Szabványnak köszönhetően más programok gond nélkül kezelik

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

WARC fájl – timestamp (időbélyeg)

• Fájl névben van egy időbélyeg – mikor készült a fájl

• Minden egyes url mellé a Heritrix szintén hozzáad egy időbélyeget– Pl.: 20090914123124 – Egyedi– Fontos szerepe van

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Heritrix - GUI

- Meghibásodás esetén hasznos- Automatikus vagy kézi létrehozás- Kis méret (~500 KB)

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

• Jelenlegi stabil verzió 0.13• Begyűjtött adatokat indexeljük vele

– I/O műveletek miatt magas memória és gyors merevlemez igény

– Index adatbázisban keresünk– Fulltext keresés– Mindent leindexel ami a warc fájlban van

• Szöveges dokumentumokban (PDF, DOC, RTF stb.) is kereshetek

• Képek, videók, flash fájlok stb nevére kereshetek

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Nutchwax - Search

• Java alapú kereső, Apache Tomcat alatt fut• Java miatt lassú, nem könnyű szerkeszteni

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Nutchwax - Opensearch

• Nem kell hozzá Java, HTML alapú• Gyors, könnyű beágyazni weblapokba

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Nucthwax – search vs. opensearch

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Opensearch - all versions

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

• Jelenlegi stabil verzió 1.4.2• Szintén a begyűjtött adatokat indexeljük

vele– Index adatbázisában keresünk (kisebb méret)– URL-ek keresésére használjuk– Kezeli az időbélyegeket

• Azonos URL címek között különbséget tesz• Verziókövetésre kiváló

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Timestamp példa

• http://www.oszk.hu/index.html aratva lett:

– 20090914123124 = 2009.09.14 12:31:24– 20091023092522 = 2009.10.22 09:25:22

• Bár az URL cím ugyanaz, az időbélyeg, mint egy egyedi azonosító megkülönbözteti a 2 harvesztelést

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Wayback kereső

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

www.oszk.hu/index.html - 2009.09.14

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

www.oszk.hu/index.html - 2009.10.22

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Heritrix vs. Google

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Hol tartunk, tervek• Tesztelési fázis

– Kell még tesztelni– Új szerver – 6.0-ás Debián tesztje

• Tervek– Teljes magyar domain (.hu) fél évenkénti,

illetve különböző oldalak - események időszakos harvesztelése

– Két további szerverre lenne szükség, ezzel kapcsolatban már fordultunk a fenntartókhoz

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Forrásanyagok

• http://crawler.archive.org/

• http://archive-access.sourceforge.net/projects/nutch/

• http://www.archive.org/web/web.php

• http://tomcat.apache.org/

Web harvesztelés Automatikus módszerekkelKovács Péter OSZK

Köszönöm a figyelmet!

[email protected]