Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o...
Transcript of Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o...
![Page 1: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/1.jpg)
Big data áttekintés
Sidló Csaba
MTA Számítástechnikai és Automatizálási Kutatóintézet
Üzleti Intelligencia és Adattárházak Csoport Big Data Üzleti Intelligencia Csoport
http://dms.sztaki.hu
http://bigdatabi.sztaki.hu
2014. november 6.
![Page 2: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/2.jpg)
MTA SZTAKI Informatika Kutatólabor teljes innovációs lánc, kutatástól alkalmazásokig
o adatbányászat, gépi tanulás, keresőtechnológiák, üzleti intelligencia, adattárházak, szociális hálózatok, bioinformatika
o „Big Data”: • Web, közösségi média elemzés és keresés
• smart city, mobilitás
• szenzoradatok (pl. szélerőmű), log-adatok
• dedikált csoportok: „Lendület – Big Data”, „Big Data Üzleti Intelligencia” (partner: SZTAKI EMI)
Longneck data integration
![Page 3: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/3.jpg)
Tartalom
• definíció
• megoldások, szállítók
• trendek, kutatási témák
• alkalmazás példák
• néhány kiemelt big data téma o számítási modellek, pl. Hadoop
o osztott rendszerek problémái
![Page 4: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/4.jpg)
source: https://secure.flickr.com/photos/t_gregorius/5839399412
![Page 5: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/5.jpg)
Big Data
Big Data
![Page 6: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/6.jpg)
Big Data definíciók • adatok 3 (vagy 4, 5) V-je:
o volume (mennyiség – sok),
• pl. a 12-es farm 42. szélerőművének generátora el fog romlani, karbantartást igényel!
o velocity (sebesség – gyorsan jön és megy),
• pl. az ügyfél vonalban van, ki ő, mi a története?
o variety (változatosság – sokféle forrás, típus)
• pl. milyen népszerű a héten a termékünk közösségi hálókon?
o veracity (megbízhatóság – változó adatminőség), value (érték – feldolgozással értéknövekedés), variability (változékonyság – változó tartalom)
• “big data is data that becomes large enough that it cannot be processed using conventional methods”
• elsődleges alkalmazók: analitika, üzleti intelligencia
volume
velocity variety
big data
![Page 7: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/7.jpg)
Wired magazin, 2013:
• 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott) (giga tera peta exa zetta)
• sok százezer PetaByte méretű adatbázis
forrás:
http://www.wired.com/magazine/2013/04/bigdata/
business email each year
Google index
Facebook upload each year
Youtube upload each year
Volume: mennyi?
![Page 8: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/8.jpg)
Big data megoldások
• hagyományostól eltérő, jól skálázódó rendszerek: o több / gyorsabb / változatosabb adat jól megoldható marad a
feladat, tervezhetően több számítási erőforrással
• régi módszerek, új megoldások: o oszd meg és uralkodj: párhuzamosítás, sok gép, elosztott rendszerek
o áttérés új architektúrákra: • in-memory, SSD
• GPU
• SQL, NoSQL, NewSQL példa: új technológiák és hype
Petabytes
![Page 9: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/9.jpg)
„Numbers Everyone Should Know”
- a megoldások korlátai
RAM • L1 cache reference 0.5 ns • L2 cache reference 7 ns • Main memory reference 100 ns • Read 1 MB sequentially from memory 250,000
ns
Intra-process communication • Mutex lock / unlock 100 ns • Read 1 MB sequentially from network
10,000,000 ns
Disk • Disk seek 10,000,000 ns • Read 1 MB sequentially from disk 30,000,000 ns
forrás: Jeff Dean, Google
Disk • 10+TB
RAM • 100+ GB
CPU • L2 1+ MB • L1 10+ KB
GPU onboard
memory • Global 4-8 GB • Block shared 10+ KB
![Page 10: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/10.jpg)
Big data piac • kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd
USD
• növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat
• IBM, Oracle, Microsoft, SAP, EMC, HP, … felvásárolnak
forrás:
http://wikibon.org/wiki/v/Big_
Data_Vendor_Revenue_and
_Market_Forecast_2012-2017
![Page 11: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/11.jpg)
forrás, 2012.06: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/
![Page 12: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/12.jpg)
forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation
![Page 13: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/13.jpg)
forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation
• rétegek: adatelérés, analitika, alkalmazások • sok szereplő, erős verseny
• SQL vs. NoSQL vs. NewSQL • kötegelt vs. streaming (real time)
feldolgozás • …
• szolgáltatások, eszközök, eszköz-kombinációk, full stack-ek, SaS, open source stb.
• feladathoz megfelelő kombináció
![Page 14: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/14.jpg)
Big data rétegek
Fast Data
Big Analytics
Big Data Services
forrás: The
Emerging Big
Data slide from
the Intelligent
Information
Management
DG INFSO/E2
Objective, ICT-
2011.4.4 Info
day
![Page 15: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/15.jpg)
SQL, NoSQL eszközkombinációk
• ábra: alkalmazók, eszközök, szolgáltatók; teljesség igénye nélküli gyűjtés!
• „polyglot persistence”
• hagyományos alkalmazások?
o főleg Web 2.0 alkalmazók és fejlesztők!
o ld. „hype cycle”, „crossing the chasm”
• Mo.?
• nagy szereplők:
o saját eszközkészlet
![Page 16: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/16.jpg)
Big data trendek – szubjektív válogatás
• innovációs görbe:
o early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn)
o early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.)
• pezsgés: meetup-ok, konferenciák (tudományos is)
• real time, streaming (adatfolyam) feldolgozás: hatalmas igény
• flash memória, SSD vs. hagyományos tároló-tömbök
• in memory feldolgozás
o pl. SAP Hana és Oracle Exadata X3 (vs. Hadoop)
• statisztika + informatika + üzlet „data science” (“the sexiest job in the 21st century”, Harward Business Review)
kép:http://en.wikipedia.org/wiki/Diffusion_of_innovations
![Page 17: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/17.jpg)
Big data kutatás
• első nagyobb big data konferencia: IEEE BigData 2013
• hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD
• irányvonalak: o alapok
• elméleti modellek, szabványok, …
o infrastruktúra
• cloud, stream, osztott feldolgozás, open platformok, NoSQL, …
o adatkezelés
• adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, …
o keresés és adatbányászat
o biztonság és adatvédelem
o alkalmazások
forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/
![Page 18: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/18.jpg)
Néhány kiemelt kutatási téma
• új elméleti és számítási modellek:
o MapReduce, BSP, Storm topológiák – mi a következő? mi jön a Hadoop / MapReduce után?
o egyszerűség, gyorsaság vs. komplex műveletek
• pl. relációs SQL vs. NoSQL key-value stores
o cluster, cloud, grid – különböző környezetek hogyan támogassák a big data problémák megoldását?
• keresés és adatbányászat
o nagyléptékű gráf adat feldolgozás és analitika
o valósidejű adatbányászat, jól skálázódó gépi tanulás, ajánlórendszerek
![Page 19: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/19.jpg)
Néhány kiemelt kutatási téma 2.
• big data vizualizáció
• benchmarking
• skálázható adat-management felhőkön
o storage rendszerek: adat lokalitás elrejtése
o pl. több adat center lokális számításokkal Amazon S3-on
![Page 20: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/20.jpg)
Új üzleti intelligencia módszertanok
• data science o matematika, statisztika, informatika, hacker atitűd, tudományos
megközelítés, iparági ismeretek
o “the sexiest job in the 21st century” (Harward Business Review): keresett, drága szakemberek
• agile data, agilie BI o agilis fejlesztési elvek üzleti intelligencia célokra
o agile data science – hagyományos alkalmazások ?
• önkiszolgáló analitika o könnyen kezelhető eszközök a teljes folyamatra, adateléréstől
vizualizációig
o támogassuk és hagyjuk kibontakozni az elemzőket és azokat, ahol az információigény jelentkezik
• adatvezéreltség
![Page 21: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/21.jpg)
Adatbányászat és big data adatbányászat: hasznos (meglepő?) tudás kinyerése nagy adattömegből; • eszközök:
o algoritmusok (nagy méret) o adatbázisok (elrendezés, hozzáférés) o Mesterséges Intelligencia és Gépi Tanulás (modellek) o Statisztika (hipotézisvizsgálat)
big data adatbányászat: minden még nagyobb; • eszközök:
o algoritmusok (elosztott, MapReduce, Cloud) o adatbázisok (elosztott, NoSQL) o okostelefonok, közösségi média (Facebook, Twitter, …) o Mesterséges Intelligencia és Gépi Tanulás – ajánló rendszerek, hálózatok o Statisztika
• adat „más célból” gyűlik • gyakran nincs mintavételezés • adatgazdagítás helyett a hiányzó adatokat átugró módszerek
![Page 22: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/22.jpg)
Emberi genom
• dekódolás / szekvenálás o 725 MB adat kb.
o 1990: 10-15 év, $3 milliárd
o most: EC2, MapReduce, $100; egész folyamat: <$1000
o 40-node, 320-core: < 3 óra, 10-node: 1 nap
![Page 23: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/23.jpg)
CERN • CERN Wigner adatközpont:
1 PB/sec 2x100GB 100-200e gép, 70 PB
![Page 24: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/24.jpg)
Web
• web 2.0 cégek: úttörők o Google: 1PB rendezése 33 percben (2011.07.)
• miért nincs Európában F1 adatbázisuk? Kevés az áram!
o Facebook: 30+ PB felhasználói adat (2012.06.), 180 PB/év adattárházban (2013 .02.)
o Twitter
o Amazon • kiskereskedelemből kinőve felhő szolgáltatások, megvehetjük az
infrastruktúráját
o …
• web keresés, látogatottság elemzés, ajánlások, hirdetések, trend elemzés
![Page 25: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/25.jpg)
Saját web feladat példák
• Hanzo Archives (UK):
o Amazon EC2 cloud + S3
• Internet Memory Foundation:
o low-end szerverekkel PB-ok feldolgozása
• SZTAKI Web adat, pl. http://kopi.sztaki.hu plágiumkereső
• saját kódok – open source eszközök még nem elég kiforrottak
• 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz
• hardware kb. $15,000; Amazon ár kb. $1000 lenne
• Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal – kis rész
![Page 26: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/26.jpg)
Gráfvizualizáció
• YAGO entitások
• kapcsolatok
![Page 27: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/27.jpg)
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
![Page 28: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/28.jpg)
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
![Page 29: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/29.jpg)
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
kép: http://mirror.co.uk
![Page 30: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/30.jpg)
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
![Page 31: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/31.jpg)
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
kép: http://bbc.com
![Page 32: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/32.jpg)
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
![Page 33: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/33.jpg)
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
![Page 34: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/34.jpg)
Kiskereskedelem • Walmart: 250 gépes Hadoop cluster,
napi több TB felhasználói aktivitás (2012.)
• hagyományos adatbányászati / elemzési feladatok - nagy adathalmazon
Ajánlórendszerek • magyar pl. Gravity, Scarab Research
• collaborative filtering (hasonló felhasználók), tartalom alapú, session alapú – nagyon kis késleltetés az elvárt!
![Page 35: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/35.jpg)
1 4 3
4
4 4
4
2
1,5
-1,0
2,1
0,8
1,0
1,6 1,8
0.7 1.6
0,0
1,4 1,1
0,9 1,9
2,5 -0,3
P
Q
R 3.3 2.4
-0.5 3.5 1.5
1.1 4.9
Forrás: Tikk Domonkos, Gravity
![Page 36: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/36.jpg)
Mobilitás
• mobilszolgáltatók: infrastruktúrából location adatok
o 4,5 milliárd mobil kb. mostanában
o minőségi mutatók valós idejű követése, liquid applications, smart city
o real-time scalable distributed stream processing: 100 000 events / sec (several million people)
• itthon pl: t-mobil kísérleti rendszer, helyfüggő kedvezmények sms-ben
![Page 37: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/37.jpg)
Forgalmi térkép, útvonaltervezés
woophoo.com, ~2008
google.com, 2011
![Page 38: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/38.jpg)
woophoo.com (~2008)
![Page 39: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/39.jpg)
• “big data” competition open to the scientific community o exploring the tremendous potential
of telephone data
o producing rich, diverse ideas
• Orange anonymised data set: Ivory Coast, December 2011 April 2012, ~ 5M users, 2.5 billion records o aggregate communication
between cell towers
o communication sub-graphs
o mobility traces: privacy vs. fine resolution
• coarse (prefectures) with more users,
• fine resolution dataset with less users (sparse sample)
http://perso.uclouvain.be/vincent.blondel/netmob/2013/
![Page 40: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/40.jpg)
D4D saját példa vizualizáció
Aggregated cell density predictions Sample of individual user predictions
![Page 41: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/41.jpg)
„Okos város” D4D példák • Songdo City, Santander, …
• itthon: o HUGO útdíj, Futár
o Székesfehérvár, Debrecen, Szeged, Szolnok
Unique in the crowd:
The privacy bounds of human mobility
disease containment using calls matrix and
mobility matrix
AllAboard: a system for exploring urban mobility and optimizing
public transport using cellphone data
forrás: D4D challenge
http://movingobject.co/
![Page 42: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/42.jpg)
![Page 43: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/43.jpg)
4/6 villamos megállóinak detekciója telefon szenzor- adatokból
• már a telefonon szűrni kell
• pontatlan, heterogén, sok, gyorsan keletkező adat
![Page 44: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/44.jpg)
Szenzoradatok
• Internet of Things, Cyber Physical Systems: szenzor mindenhol
• szélerőművek: o 1 turbina, ms mintavétel, 20-30 szenzor, 60-100 szignál > 100GB /hó
o farm: 10-100 turbina, régió: 5-50 farm
kép: http://www.newscientist.com/
![Page 45: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/45.jpg)
-30
-20
-10
0
10
20
30
40
50
60
70
80
90
100
110
120
130
0
10
20
30
40
50
60
70
80
90
100
110
Mod
el e
stim
atio
n er
ror (
%) [
limit:
+/-
17%
]
Tem
pera
ture
s
Time - a year
Non-conform situation detection - estimation of the gearbox bearing temperature by a neural network modell
(Model validity: ambient temperature between 4 and 10 C)
Values_for_Model_INPUT_2 Values_for_Model_INPUT_1
Gearbox bearing temperature_MODEL_ESTIMATES Gearbox bearing temperature_MEASURED
Ambient temperature (for model vaildity) Error_%
![Page 46: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/46.jpg)
Sensors – smart home, city, country, …
• Road and parking slot sensors • Mobile parking traces • Public transport, Oyster cards • Bike hire schemes
Source: Internet of Things Comic Book, http://www.smartsantander.eu/images/IoT_Comic_Book.pdf
![Page 47: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/47.jpg)
… even agriculture …
![Page 48: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/48.jpg)
Kép és hang
• megoldható? Keresem azt a képet, amin én (íme az arcképem) állok egy hegycsúcson!
• 1 db. MRI kép mérete: 2-5 GB o már csak hordozni is nehéz, pl. kórházról kórházra
o évente mondjuk 1500 betegre: 3-7 TB
• rendszámfelismerés
• call center hívások o leiratok
o NLP
o sentiment analysis
o entity recognition
![Page 49: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/49.jpg)
Ügyféladatok: azonosságfeloldás • nehéz feladat: O(n2)
• Ügyfél rekordok csoportosítása
valós személyek
• Hány természetes személy ügyfelünk van?
• Lehetséges felhasználások pl.:
• Call center, marketing lead-ek kezelése
• Kockázatelemzés, riasztás
• Kitiltott ügyfelek, új ügyfél kedvezmények
![Page 50: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/50.jpg)
Mire alkalmazható?
● személyazonosság
– ügyfelek, adóalanyok
– internet szolgáltatás felhasználói (email, facebook stb.)
– nemzetbiztonság, terror-elhárítás
● termékek
● weboldalak (spam)
● helyek, POI-k
● összetett entitások:
– szervezetek, cégek, családok
![Page 51: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/51.jpg)
Ügyfélkezelés
• CRM: külső adatforrások csatolása o pl. Twitter tweet-ek, Facebook
• teljesebb történet – mire panaszkodott napok óta, mielőtt telefonált?
• jogilag kérdéses az adatgyűjtés!
• call center o beszélgetés leiratok
• hangulat (sentiment), kulcsszavak stb.
• keresés
• digitális marketing o tranzakciók felhasználása: vásárlások, beszélgetések, mindenféle
kapcsolható esemény
o lemorzsolódás előrejelzés, személyre szabott ajánlatok, …
o AdWords stb.
![Page 52: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/52.jpg)
IT logok, alkalmazás naplók
• gyűjteni sokszor muszáj, elemezni nehéz
• pl. prezi.com: 150 GB / nap (2013)
• valós idejű tőzsdei kereskedés: pl. GusGus.hu: 400 TB + 170 GB / nap, Hadoop 5PB tár, 240 gép (2013)
• webanalitika, weblog: kiforrott megoldások
kép: http://www.google.com/analytics/
![Page 53: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/53.jpg)
saját kísérletek: 30-100+ GB/nap
30-60 M esemény
IT-log feldolgozás adatfolyam Adattárház aggregáció
szűk keresztmetszetek azonosítása,
folyamat-optimalizáció
csalások, visszaélések, támadások felderítése
?
hagyományos módszerek elhasalnak!
adatintenzív feladat
![Page 54: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/54.jpg)
Elosztott
rendszerek
Murphy
törvénye
2013-09-17 54
![Page 55: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/55.jpg)
NoSQL: „CAP tétel” és adatmodell
P
C A
ábra forrás: http://blog.nahurst.com/visual-guide-to-nosql-systems
ACID vs. gyengített kritériumok, pl. BASE: Basically Available, Soft state, Eventual consistency
kettőt választhatsz!
CP: nincs válasz, ha nincs egyetértés a replikákkal MongoDB, Redis, HBase, Hypertable, BigTable, …
CA: nincs partíció RDBMS (Oracle, PostgreSQL, MSSQL, DB2 …), Greenplum, Vertica, Membase, OrientDB, Neo4j, …
AP: replika válaszolhat hibásan Dynamo, Project Voldemort, Riak, Tokyo Cabinet, Cassandra, CouchDB, OrientDB,
A
C P „Consistency”: minden node mindig ugyanazt az adatot látja
„Partition tolerance”: kieshetnek node-ok, de a rendszer működik
„Avalilability”: mindig van visszajelzés
adatmodell: SQL key-value „wide column” dokumentum- orientált gráf
![Page 56: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/56.jpg)
Mi történik, ha szétesik a rendszer?
• Végül lehet konzisztens (eventual consistency)
• A kapcsolat helyreállása után lehet adatot cserélni
CAP tétel bizonyítás
• Partition (P): a jobb oldalra beírt új értéket nem ismeri a bal oldal
• Ha azonnal kérdezünk a bal oldalon (availability), akkor hibás a válasz
• Vagy availability (A), vagy konzisztencia (C)
2013-09-17 56 Big Data
![Page 57: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/57.jpg)
reduce
Hadoop és MapReduce
• Hadoop:
o open source, kiforrott („enterprise ready”), sok helyen használt platform
o sokan építenek rá terméket, szolgáltatást
o viszonylag nagy késleltetés, kötegelt adatfeldolgozásban nyerő leginkább
• MapReduce: a Hadoop számítási modellje
o amiben jó: elosztott rendezés
o példa: Keressük meg a top 10 leggyakoribb szót az előadás diáin!
Inp
ut
(HD
FS)
Ou
tpu
t (H
DFS
)
map
map
map
reduce
map map
…
reduce reduce
…
split: (k, v) sort by k merge: (k, [v, v2, v3, …])
![Page 58: Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,](https://reader033.fdocuments.net/reader033/viewer/2022041718/5e4cf68f19104265787db71b/html5/thumbnails/58.jpg)
A Big Data nem csodafegyver
NoSQL By Perry Hoekstra
Technical Consultant
Perficient, Inc.