NoSQL alternatívák „big data feladatok megoldásához · 4/4/2011 · „Big Data” • „big...
Transcript of NoSQL alternatívák „big data feladatok megoldásához · 4/4/2011 · „Big Data” • „big...
NoSQL alternatívák „big data”
feladatok megoldásához
Sidló Csaba István
Adattárházak és Üzleti Intelligencia Csoport
http://dms.sztaki.hu
http://bigdatabi.sztaki.hu
Adattárház Fórum, 2012. június 12.
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
„Big Data”
• „big data”: a probléma maga az adatméret – “big data is when the size of the data itself becomes
part of the problem”
– “big data is data that becomes large enough that it cannot be processed using conventional methods”
– „4 (3) V: volume, variety, velocity, variability”
– Gartner 2011 trend No. 5: Next Generation Analytics: „significant changes to existing operational and business intelligence infrastructures”
• példák: – Google:1PB rendezése 33 percben
(2011.07.09.)
– Amazon S3 store: 762B objektum (2012.01.31.)
– New Relic: 20B+ application metrika egy nap alatt (2011.07.18.)
– Walmart: 100M entitás monitorozása valós időben (2011.09.12.)
forrás: 1. The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective, ICT-2011.4.4, Info day
2. http://aws.typepad.com/aws/2012/01/amazon-s3-growth-for-2011-now-762-billion-objects.html
Amazon S3
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
SZTAKI és big data
• Informatika Kutató Laboratórium: http://dms.sztaki.hu
– adatbányászat, Webes keresés, üzleti intelligencia, adattárházak
– kutatás – fejlesztés, teljes innovációs lánc
– kb. 30-40 tag, kutatók, fejlesztők, hallgatók
– infrastruktúra fejlődőben, most: 50 régi dual core, 4 GB, 1.5 TB, 7 új 2 x quad, 50+ GB, össz. 40 TB
• Big Data Üzleti Intelligencia Csoport: http://bigdatabi.sztaki.hu
partner: Mérnöki és Üzleti Intelligencia Laboratórium, Dr. Viharos Zsolt János
• 2012 „Big Data” MTA Lendület Fiatal Kutatói Díj: Benczúr András
• projektek valódi „big data” feladatokkal
– logelemzés, webanalitika, webes keresés, spam detektálás, ajánlórendszerek, csalásfelderítés
– smart city / home / country, mobilitás, „internet of things”
• SZTAKI Cloud
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
Big data rétegek
Fast Data
Big Analytics
Big Data Services
forrás: The
Emerging Big
Data slide from
the Intelligent
Information
Management
DG INFSO/E2
Objective, ICT-
2011.4.4 Info
day
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
Big data: osztott eszközök,
szolgáltatások
• big data feladatok:
– adatintenzív (logelemzés,
Web-adatok stb.)
– számításintenzív (genom,
képkeresés stb.)
– adat és számításintenzív
(pl. hálózatelemzés)
• melyeket válasszuk,
milyen részfeladatra?
• hagyományos RDBMS
(SQL): új bővítmények
• NoSQL, Not Only SQL,
NewSQL
• eszközök, egész stack-
ek, szolgáltatások,
szolgáltatók, Cloud,
SasS
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
NoSQL: „CAP tétel” és adatmodell
P
C A
ábra forrás: http://blog.nahurst.com/visual-guide-to-nosql-systems
ACID vs.
gyengített
kritériumok, pl.
BASE: Basically
Available, Soft
state, Eventual
consistency
kettőt
választhatsz
!
CP: nincs válasz, ha nincs egyetértés a replikákkal MongoDB, Redis, HBase,
Hypertable, BigTable, …
CA: nincs partíció RDBMS (Oracle,
PostgreSQL,
MSSQL, DB2 …),
Greenplum, Vertica,
Membase, OrientDB,
Neo4j, …
AP: replika válaszolhat hibásan Dynamo, Project
Voldemort, Riak,
Tokyo Cabinet,
Cassandra,
CouchDB, OrientDB,
A
C P „Consistency”:
minden node
mindig ugyanazt
az adatot látja
„Partition
tolerance”:
kieshetnek
node-ok, de a
rendszer
működik
„Avalilability”:
mindig van
visszajelzés
adatmodell:
SQL
key-value
„wide column”
dokumentum-
orientált
gráf
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
SQL, NoSQL eszközkombinációk
• ábra: alkalmazók, eszközök, szolgáltatók; teljesség igénye nélküli gyűjtés!
• „polyglot persistence”
• hagyományos alkalmazások?
– főleg Web 2.0 alkalmazók és fejlesztők!
– ld. „hype cycle”, „crossing the chasm”
• Mo.?
• nagy szereplők:
– saját eszközkészlet
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
: Longitudinal Analytics of Web Archive Data,
virtual Web observatory
• indexelés, spam weboldal azonosítás
• hardware megközelítések:
– Hanzo Archives: Amazon EC2 cloud + S3
– IM, SZTAKI: 50 low-end szerver
(hardware kb. €10,000; Amazon ár kb. €5000 / hó)
• software, osztott eszközök: Hadoop, Hbase, Project
Voldemort
• tesztek: 3TB adat tömörítve, ~ 0.5 milliárd oldal
Webarchívum
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
Webarchívum: tapasztalatok
• indexelés kereséshez: – napon belüli futásidők
– open-source indexelő eszközök még nem tűnnek kiforrotnak (Lucene, Solr, ElasticSearch, IndexTank)
– iteratív feldolgozás, gráfbejárás (PageRank pl.): MapReduce nem ideális – nincs adatlokalitás
• spam azonosítás – adatfeldolgozás, elérés:
• Hadoop: feature generálás,
• Hbase: alapadatok,
• Project Voldemort – host információk
– klasszifikáció: • feature-ök előállítása: Hadoop, egyszerű szétosztás; minden node egy-
egy host oldalait dolgozza fel
• osztott gépi tanuló eszközök (GiRaph, GraphLab, Radoop, Mahout) használhatóságát vizsgáljuk, jelenleg nem elosztott eszközök is elegendőek (ebben a fázisban már viszonylag kevés az adat)
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
Azonosságfeloldás: ügyféladatok
azonosságfeloldás (entity resolution, (iteratív) deduplikáció): rejtett,
való világbeli entitásokhoz köthető megfigyelések csoportosítása az
entitások köré
• „Hány ügyfelünk van igazából?”
• adatintegráció, ETL: heterogén formátumok, tartalom
• bonyolult feladat: rekordok számában négyzetes futásidő elosztott
megoldás szükséges
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
Azonosságfeloldás: elosztási változatok
osztott Key-Value Store
– eloszott B-fa index
– okos és gyors feature-alapú keresés
– szekvenciális, nem osztott algoritmus
MapReduce
– map reduce műveletek
– disk alapú, rendezés-központú algoritmus
Bulk Synchronous Parallel (BSP)
– superstep: számítás →
kommunikáció → barrier sync
– in-memory, okos algoritmus
Project Voldemort
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
Azonosságfeloldás: tapasztalatok
15 öreg szerver: 4GB memory, 3GHz CPU
biztosító ügyféladat (személyenként átlag 2 előfordulás)
Sidló, Benczúr, Garzó, Molnár,
Infrastructures and bounds for
distributed entity resolution.
QDB 2011
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
15 öreg szerver: 4GB memory, 3GHz CPU
biztosító ügyféladat (személyenként átlag 2 előfordulás)
Azonosságfeloldás: tapasztalatok
Sidló, Benczúr, Garzó, Molnár,
Infrastructures and bounds for
distributed entity resolution.
QDB 2011
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
• osztott Key-Value store, Project Voldemort:
– nem valódi párhuzamos algoritmus nem jól skálázódik
– memória-korlát kitolására jó lehet; fölötte: nagyságrenddel lassabb
• Apache HAMA:
– számításigényes feladatokhoz (ld. még:
Pregel, S4, Storm)
– igéretes koncepció, kiforratlan eszköz
– rendezéshez lassú
• Hadoop:
– adatintenzív feladatokhoz, diszk-alapú
– kiforrott, megbízható, jól skálázódik
– iteratív feldolgozáshoz nem szerencsés
(összefüggő komponensek keresése)
– nincs lokális adat
HAMA fázisok
Rendezés
Azonosságfeloldás: tapasztalatok
Hadoop fázisok
Összefüggő komponensek
http:dms.sztaki.hu http://bigdatabi.sztaki.hu
Web és Big Data fejlődése
Posted by John Klossner on Aug 03, 2009
• WEB 1.0 (browsers) – Users find data
WEB 2.0 (social networks) – Users find each other
WEB 3.0 (semantic Web) – Data find each other
• WEB 4.0 – Data create their own Facebook page, restrict friends.
• WEB 5.0 – Data decide they can work without humans, create their
own language.
• WEB 6.0 –Human users realize that they no longer can find data
unless invited by data.
• WEB 7.0 – Data get cheaper cell phone rates.
• WEB 8.0 – Data horde all the good YouTube videos, leaving human
users with access to bad ’80′s music videos only.
• WEB 9.0 – Data create and maintain own blogs, are more popular
than human blogs.
• WEB 10.0 – All episodes of Battlestar Gallactica will now be shown
from the Cylons’ point of view.
Big Data interpetation:
recommenders, personalization, info extraction