Web harvesztelés Automatikus módszerekkel
Transcript of Web harvesztelés Automatikus módszerekkel
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Web harvesztelés Automatikus módszerekkel
Kovács PéterOrszágos Széchényi Könyvtár
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Miről lesz szó?
• Mi is az a web harvesztelés?
• Mire és hol használjuk? Miért hasznos?
• Saját megvalósításaink
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Mi a web harvesztelés?(web aratás)
• Interneten található weboldalak begyűjtése, majd az adatok feldolgozása (Pl.: kereshetővé tétele)
• Lépések– Adatok begyűjtése (crawl)– Feldolgozás (index)– Közzététel (search)
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Mire és hol használjuk a szolgáltatást, miért hasznos?
• Főként keresésre használjuk• Otthon, munkahelyen, iskolákban –
mindenhol, ahol internet van• Hasznos
– Gyors, egyszerű keresés– Szűrési lehetőségek („” , site: stb.)– Tárolt változat
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Hasznosak, ingyenesek, DE…
• Nem a sajátunk, ezért– Nem azt aratjuk, amit mi szeretnénk – Nem akkor aratunk, amikor mi szeretnénk– Forráskód nincs a birtokukban, ez fejlesztési
szempontból hátrány– Harvesztelt adatok sincsenek a birtokunkban– Kulturális értékeket meg kell őrizni, ennek a
legjobb módja, ha eltároljuk őket
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Saját megoldások• Szerettünk volna olyan megoldást, ahol MI
irányítjuk a harvesztelést + adott esetben fejleszteni is tudjuk a szolgáltatást
• 3 dolog hiányzott: Szerver, tárhely, ember• Open Source programokat kerestünk
– Ingyenesek– Forráskód, beállítások elérhetők– Segítség (Forum, wiki, howto)
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Szerver• Teszteléshez használt konfiguráció
(Hp Proliant ML350Hp Proliant ML350)
– 2 magos Intel Xeon Processzor (32 bit)– 2 GB RAM– SCSI merevlemez
• Javasolt szerver konfiguráció (Ideális esetben 3 szerver)(Ideális esetben 3 szerver)
– 2*2 vagy 1*4 magos processzor (64 bit)– 8 GB RAM– SAS vagy SSD merevlemez
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Operációs rendszer
• Debian linux 5.0 (Lenny)
– Linux disztribúciók közül az egyik legjobb
– Vannak tapasztalataink– Gyors, stabil, biztonságos– Ingyenes
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Felhasznált programok
• Crawler – adatok begyűjtését végzi
• Indexer - fulltext kereséshez
• Indexer – URL kereséshez
• Java alap kereső felületekhez használjuk
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Folyamat
Adat gyűjtés (Crawl)
Adatok indexelése (Fulltext és URL kereséshez)
Kereső felületek
Központi adattároló(Storage)
1
3
2
4
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
• Aktuális stabil verzió: 3.0.0• Weboldalak begyűjtését végzi (crawl)• Warc.gz fájlokban tárolja az adatokat
– WARC (Web ARChive) fájl – képeket, dokumentumokat stb. is a fájlban tárolunk
– Tömörített fájl – helymegtakarítás fontos a nagyobb harveszteléseknél
– Szabványnak köszönhetően más programok gond nélkül kezelik
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
WARC fájl – timestamp (időbélyeg)
• Fájl névben van egy időbélyeg – mikor készült a fájl
• Minden egyes url mellé a Heritrix szintén hozzáad egy időbélyeget– Pl.: 20090914123124 – Egyedi– Fontos szerepe van
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Heritrix - GUI
- Meghibásodás esetén hasznos- Automatikus vagy kézi létrehozás- Kis méret (~500 KB)
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
• Jelenlegi stabil verzió 0.13• Begyűjtött adatokat indexeljük vele
– I/O műveletek miatt magas memória és gyors merevlemez igény
– Index adatbázisban keresünk– Fulltext keresés– Mindent leindexel ami a warc fájlban van
• Szöveges dokumentumokban (PDF, DOC, RTF stb.) is kereshetek
• Képek, videók, flash fájlok stb nevére kereshetek
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Nutchwax - Search
• Java alapú kereső, Apache Tomcat alatt fut• Java miatt lassú, nem könnyű szerkeszteni
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Nutchwax - Opensearch
• Nem kell hozzá Java, HTML alapú• Gyors, könnyű beágyazni weblapokba
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
• Jelenlegi stabil verzió 1.4.2• Szintén a begyűjtött adatokat indexeljük
vele– Index adatbázisában keresünk (kisebb méret)– URL-ek keresésére használjuk– Kezeli az időbélyegeket
• Azonos URL címek között különbséget tesz• Verziókövetésre kiváló
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Timestamp példa
• http://www.oszk.hu/index.html aratva lett:
– 20090914123124 = 2009.09.14 12:31:24– 20091023092522 = 2009.10.22 09:25:22
• Bár az URL cím ugyanaz, az időbélyeg, mint egy egyedi azonosító megkülönbözteti a 2 harvesztelést
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Hol tartunk, tervek• Tesztelési fázis
– Kell még tesztelni– Új szerver – 6.0-ás Debián tesztje
• Tervek– Teljes magyar domain (.hu) fél évenkénti,
illetve különböző oldalak - események időszakos harvesztelése
– Két további szerverre lenne szükség, ezzel kapcsolatban már fordultunk a fenntartókhoz
Web harvesztelés Automatikus módszerekkelKovács Péter OSZK
Forrásanyagok
• http://crawler.archive.org/
• http://archive-access.sourceforge.net/projects/nutch/
• http://www.archive.org/web/web.php
• http://tomcat.apache.org/