Élet az SQL után: Az adatfeldolgozás legújabb trendjei
-
Upload
starschema -
Category
Documents
-
view
1.388 -
download
5
description
Transcript of Élet az SQL után: Az adatfeldolgozás legújabb trendjei
Élet az SQL-en túl:Az adatfeldolgozás legújabb
trendjeiFöldi Tamás – [email protected]
www.starschema.net
IBM KutatóközpontSan Jose, California, 1970
www.starschema.net
www.starschema.net
www.starschema.net
Negyven évvel
később…
www.starschema.net
www.starschema.net
Gartner Report
Elsősorban relációs
adatbázisok
Tranzakciókezelés
(ACID)
Erős adatbázis
szerverek (SMP)
Megjelenik a Masszív
Párhuzamos
feldolgozás
Adattárházakban használt adatbázis-kezelők
mágikus kvadránsai, Gartner 2010
Legforgalmasabb weboldalak
Weboldal Terhelés
Google Adat előfeldolgozás: 20 Petabájt / nap
Facebook Inbox: 100 TB, 150 gépes klaszter
Adattárház: 15 Petabyte adat, 1400 gép, 11200 CPU
Youtube Napi 30 milliárd lekérés, 350ezer oldal/másodperc
Microsoft Live, Bing Havonta 50 millió egyedi látogató
Yahoo! 92 Petabyte adat, a legnagyobb lekérdezés 10ezer
gépen fut párhuzamosan 73 óráig
Twitter Adatbázis növekedés 7TB naponta, 2+ PB évente
Wikipedia
BBC
Myspace Napi 11 milliárd oldalletöltés
Amazon
www.starschema.net
Legforgalmasabb weboldalak
www.starschema.net
Weboldal Főbb adatbázismotor Adatbázis típusa
Google GFS, Google BigTable Columnar NoSQL
Facebook Cassandra, Hadoop/HIVE Columnar NoSQL
Youtube MySQL RDBMS
Microsoft Live,
Bing
Azure Tuple store, RDBMS
Yahoo! Hadoop, PNUTS Columnar NoSQL
Twitter FlockDB, Cassandra,
Hadoop/Hbase
Graph, Columnar NoSQL
Wikipedia Flatfile, MySQL Flat file, RDBMS
BBC CouchDB Document
Myspace Aster Data nCluster MPP RDBMS + MapReduce
Amazon Amazon Dynamo Columnar NoSQL
www.starschema.net
= Not only SQL
Mi a NoSQL?
www.starschema.net
“Choosing the right tool for the job”
Werner Vogels, Amazon CTO
Új trendek
www.starschema.net
Miért NoSQL?
Web és adattárház alkalmazásoknak más
igényeik vannak
Alacsony és kiszámítható válaszidők
Skálázhatóság és dinamikus bővíthetőség
Hibatűrés
Rugalmasság
Illetve nem feltétlenül szükséges
Tranzakciókezelés, erős konzisztencia
Horizontálisan kiválóan skálázhatóak
www.starschema.net
RDBMS vs. NoSQL
RDBMS-ek:
Konzisztens
Hibatűrő
Új szereplők:
www.starschema.net
Hibatűrő, széttagolható
Nem teljesen konzisztensek
Más megkötések a teljesítmény és
skálázhatóság érdekében
Múlt és jelen
www.starschema.net
A jövő pedig
www.starschema.net
Tárolási trendek
„Shared Nothing”
Minden szerver saját diszkjeit használja
Horizontálisan skálázható architektúra
Tároló és az adatbázis kezelő összeolvad
A tároló tudja, mit tárolnak rajta
Tartalom alapú replikáció és párhuzamos
olvasás
Kiváltja a RAID funkcionalitását
Olcsó PC a drága SAN helyett
www.starschema.net
SAS és a Masszív Parallel jövő
A SAS új technológiájának köszönhetően 18
óráról két és fél percre csökkentette egy
marketing-adatbázis feldolgozási idejét
196 szerver, 1664 CPU mag
„Shared-nothing” alapú memóriahasználat
Több terabájtnyi memória
A legtöbb szállító MPP architektúrát fejleszt
Jelenlegi trendek
www.starschema.net
Map-Reduce
www.starschema.net
MapReduce
A Google által kifejlesztett elosztott
adatfeldolgozási eljárás, amely két
részből áll:
MAP: A feladatot elemi szintre bontja,
szétszórja a hálózatban, majd elemi
szinten kiszámolja
REDUCE: A részeredményeket begyűjti a
hálózatról, majd összesíti
Példa MapReduce 1.
Feladat
Új tarifacsomag tesztelése kiválasztott
telefonszámok korábbi hívásadatain
„Map”
Kiválasztja hívásrekordokat telefonszám és
időintervallum alapján, majd telefonszám
szinten elkészíti a számlaösszegeket
„Reduce”
Összegzi a telefonszám alapú eredményeket
www.starschema.net
Példa MapReduce 2.
www.starschema.net
Telefonszám
7-9-ig
Telefonszám
4-6-ig
Telefonszám
0-3-ig
Teljes hívásrekord
adatbázis
telefonszám alapján
szétosztva a tárolók
között
REDUCEMAP
részfeladatok
Példa MapReduce 2.
www.starschema.net
Telefonszám
7-9-ig
Kiválasztott
telefonszámokTelefonszám
4-6-ig
Telefonszám
0-3-ig
Eredmények
Új
számlázási
adatok
MapReduce
A „mit?” helyett a „hogyan?”
Független, elosztott végrehajtás
A feladatokat az adatbázis-kezelő felszeleteli,
és a szeleteket ott futtatja le, ahol a releváns
adat található
Tervezhető futási idő és erőforrások
Felhőképes koncepció
www.starschema.net
MapReduce támogatás
www.starschema.net
Bejelentés dátuma Adatbázis szállító
2008. Augusztus Aster Data Systems
2008. Augusztus Greenplum
2009. Július Microsoft (Azure)
2009. Augusztus Vertica
2009. Szeptember Teradata
2009. Október Oracle
2009. December Sybase
www.starschema.net
Myspace Adattárház
Ügyfél: Myspace
120 millió aktív felhasználó
Többszáz terabájtos DW
2-3 TB/nap új adat
Riport és elemzési igények
Megoldás: Aster Data
Aster Data nCluster MPP adatbázis-szerver
MapReduce alapú ETL
BI és Ad-hoc elemzések közvetlenül az adattárházból
www.starschema.net
Hadoop
Mi a Hadoop?
“Bővíthető és hibatűrő
megoldás nagy mennyiségű, elosztott
számítási és adatfeldolgozási feladat
elvégzéséhez hétköznapi
PC-kből álló hálózaton”
Nyílt forráskód + Olcsó hardver = IT
költségcsökkentés
www.starschema.net
Hol használják?
AOL
Fox Interactive Media
IBM
ImageShack
Joost
Last.fm
Meebo
Microsoft
The New York Times
Rackspace
www.starschema.net
Hadoop Ecosystem
www.starschema.net
Hadoop HIVE
Hadoop DWH megoldása
MapReduce feldolgozás
HDFS tárolás
Hive Query Language
Alap SQL utasítások
Nagyteljesítményű
adattárház, BI illesztéssel
www.starschema.net
Yahoo-Hadoop Story
Yahoo Search! optimalizálás
1 trilliárd link feldolgozása (1 000 000 000 000
000 000 000, billiószor milliárd)
15 Petabájt kapacitás
10.000 magos klaszter
Eredmények:
Hadoop használatával 66%-os teljesítmény
növekedés az előző célszoftverhez képest
Egy hétről három napra csökkent a futásidő
Összefoglalás
www.starschema.net
Hazai helyzet
Jelenleg nem tudunk sem éles, sem pilot
adattárházas felhasználásról
Több cég foglalkozik a technológia
tesztelésével, elemzésével
Komoly befektetések nélkül könnyen
kipróbálható, tesztelhető
www.starschema.net
Összefoglalás
NoSQL létezik és erősödik a használata
Különösen a skálázhatósági igények felső
végén
Ingyenes szoftverek és olcsó hardverigény
Konvergencia: nagy terjesztők is
felkarolják
Fejlődés viszont nem áll meg
A jövő kérdéses, de izgalmas!
Felhasznált képek / Used pictures
Dia / Slide no. Forrás / Source
3-5, 12 Tim Anglade – NoSQL for Fun and Profit (presentation)
7 Gartner - Magic Quadrant for Data Warehouse
Database Management Systems (white paper)
15,16 Jason Davies - Non-relational databases and world
domination (presentation)
19,32,33 Philippe Julio – Hadoop Architecture (presentation)
28 Aster Data - MySpace.com Scales
Analytics for All of Its Friends (white paper)
www.starschema.net