Real-time big data v tvojej samoške - Pygmalios Analytics
-
Upload
nexteria -
Category
Data & Analytics
-
view
725 -
download
9
Transcript of Real-time big data v tvojej samoške - Pygmalios Analytics
![Page 1: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/1.jpg)
“Real-time big data v tvojej samoške”
![Page 3: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/3.jpg)
PrieskumKto z vás nakupuje v kamenných
obchodoch?Ráta sa aj bufet.
![Page 4: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/4.jpg)
PrieskumKto z vás tam nakupuje rád?
![Page 5: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/5.jpg)
Fakt
Fyzické nakupovanie je naša každodenná realita,
ktorá častokrát bolí.
![Page 6: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/6.jpg)
Kvíz
Akú časť celosvetových tržieb v maloobchode podľa vás tvoria nákupy cez
internet?
![Page 7: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/7.jpg)
![Page 8: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/8.jpg)
![Page 9: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/9.jpg)
Fakt
Fyzické nakupovanie v mnohých ohľadoch vážne zaostáva
za e-nakupovaním
![Page 10: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/10.jpg)
Problém č.1
![Page 11: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/11.jpg)
Problém č.2
![Page 12: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/12.jpg)
Naša misiaFixnúť tieto problémy.
![Page 13: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/13.jpg)
Naše riešenieSenzory a software.
![Page 14: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/14.jpg)
![Page 15: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/15.jpg)
![Page 16: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/16.jpg)
Pygmalios Engineering
![Page 18: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/18.jpg)
Kamery RTLS Mobily
Obchod
![Page 19: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/19.jpg)
Dátový tok v reálnom čase
1.Z predajne chodia 10tky JSON správ za sekundu2.Na 2 týždne sa uložia do Kafky3.Spark Streaming číta z Kafky
4.Dáta v pôvodnom tvare ukladá do Cassandry5.Zagregované do Influxu
6.Node.js číta z Influxu cez HTTP API
![Page 20: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/20.jpg)
Zdroje dát
WiFi na mobilochReal-time location system - presná poloha
Kamery (nie video) - počítanie ľudí, pohlavie, vekPOS transakcie
Služby tretích strán (počasie, atď.)
Chceme byť nezávislí od konkrétneho HW
![Page 21: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/21.jpg)
![Page 22: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/22.jpg)
Kamery RTLS Mobily
Obchod
![Page 23: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/23.jpg)
Distribuovaná implementácia kruhového buffera uloženého na magnetický disk
Úžasne veľká priepustnosťSpoľahlivosť
![Page 24: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/24.jpg)
![Page 25: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/25.jpg)
Kamery RTLS Mobily
Obchod
![Page 26: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/26.jpg)
Prekrásny funkcionálny objektový jazyk pre JVMSilné statické typovanieImmutability by default
Bohatá štandardná knižnicaOveľa menej kódu ako v Jave
![Page 27: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/27.jpg)
![Page 28: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/28.jpg)
![Page 29: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/29.jpg)
![Page 30: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/30.jpg)
Sada nástrojov na paralelné a distribuované appky
Futures, ActorsClustering / remoting
Let it crash!
"Without Resilience, Nothing Else Matters" - Jonas Bonér
![Page 31: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/31.jpg)
Batchové aj streamové spracovanie dátĎalšia generácia po Hadoop MapReduce
Bohaté API - Scala, Python, R, JavaStrojové učenie
Interaktívny režimVeľa spôsobov nasadenia
![Page 32: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/32.jpg)
![Page 33: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/33.jpg)
Kamery RTLS Mobily
Obchod
![Page 34: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/34.jpg)
Distribuovaná databázaVysoká dostupnosť
Lineárna škálovateľnosťRýchly zápis
Dátový model ideálny pre immutable časové dátaDenormalizácia je štandard
![Page 35: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/35.jpg)
Kamery RTLS Mobily
Obchod
![Page 36: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/36.jpg)
Databáza pre časové údajeBohaté API
Jednoduchá integrácia s grafovými nástrojmiPriekopnícky spolupracujeme s autormi
Spravili sme vlastný reaktívny driver
![Page 37: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/37.jpg)
![Page 38: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/38.jpg)
Kamery RTLS Mobily
Obchod
![Page 39: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/39.jpg)
Čítanie dát z Influxu cez HTTP APIUživateľské rozhranie
![Page 40: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/40.jpg)
Infraštruktúra
![Page 41: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/41.jpg)
Architektúra
![Page 42: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/42.jpg)
Lambda architektúra
Immutable master datasetDonekonečna pribúdajúce dáta, zdroj všetkej pravdy
Každá query je fcia na všetkými dátami
Batch vrstvaPre každú query pregeneruje view z master datasetu
Speed vrstvaKompenzuje pomalosť batchu
ale môže vniesť nekonzistentnosť
![Page 43: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/43.jpg)
![Page 44: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/44.jpg)
Vďaka Sparku sú algoritmypre batch aj speed vrstvu
naimplementované iba raz
![Page 45: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/45.jpg)
Príklad:
Konverzia nakupujúcich
![Page 46: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/46.jpg)
Priemerná konverzia nakupujúcichPočet odchádzajúcich ľudí / počet tých čo nakúpili
Zdroje dát: 1. info o pohybe ľudí z kamier2. POS transakcie z pokladní
![Page 47: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/47.jpg)
![Page 48: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/48.jpg)
Transformácie
Agregácia do 15-minútových okienCassandra counter dátový typ
Joinproblém
![Page 49: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/49.jpg)
![Page 50: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/50.jpg)
Join nie je ľahký
Spojenie dvoch prúdov dát do jedného
Čo ak niektoré správy prídu o hodinu (deň) neskôr?
Čo ak niektoré prídu viac razy?
Čo ak sa popredbiehajú?
Cassandra ho nepodporuje
![Page 51: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/51.jpg)
![Page 52: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/52.jpg)
![Page 53: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/53.jpg)
Garancia doručenia správ
![Page 54: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/54.jpg)
Garancia doručenia správ
Najviac razsprávy sa strácajú
Aspoň raznič sa nestráca ale môže prísť viackrát
Práve raznedá sa - viď. Byzantínci
![Page 55: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/55.jpg)
Naozaj sa "práve raz" nedá?
Nevadí, sú spôsoby ako sa s tým vysporiadať:
idempotenciatransakcie
Výsledok je ako keby bola každá správa doručená práve raz
![Page 56: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/56.jpg)
![Page 57: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/57.jpg)
Centrálny monitoring a logging
![Page 58: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/58.jpg)
![Page 59: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/59.jpg)
![Page 60: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/60.jpg)
Škálovanie
![Page 61: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/61.jpg)
Škálovanie
Pribúdajú predajne
Naša výhoda je predvídateľnosť
![Page 62: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/62.jpg)
![Page 63: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/63.jpg)
Treba kapacitu vôbec plánovať?
![Page 64: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/64.jpg)
Škálovanie vďaka Akke
Actorom je im jedno, či sú na tej istej mašine
Akka Cluster zabezpečuje odolnú decentralizáciu
![Page 65: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/65.jpg)
NodeGuardian
AvgConvRateActor PeopleCountActorPosTransactionActor SepApiActor
Hierarchia Akka actorov
![Page 66: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/66.jpg)
Škálovanie vďaka Sparku
Master / worker architektúra
Flexibilné pridávanie worker nodov
![Page 67: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/67.jpg)
![Page 68: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/68.jpg)
Škálovanie vďaka Cassandre
Partitioning
Lineárna charakteristika
![Page 69: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/69.jpg)
![Page 70: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/70.jpg)
Škálovanie vďaka Amazon Web Services
EC2 inštancie
s predpripravenými imagemi
DataStax Enterprise
Okamžité spustenie
![Page 71: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/71.jpg)
AWS m3.xlarge
Cassandra
Spark
Akka
![Page 72: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/72.jpg)
![Page 73: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/73.jpg)
Škálovanie vďaka Dockeru
Horizontálne škálovanie vytvorením
nových kontajnerov inštancií aplikácie
![Page 74: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/74.jpg)
Predikcia je náš cieľ
![Page 75: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/75.jpg)
Historické dáta sú nuda
Treba predpovedať budúcnosťPriamo povedať prevádzkarovi čo robiť
Nech odpoveď nehľadá v grafoch a reportoch
"O týždeň v stredu príde 17 žien v strednom veku a nakúpia Alpu. Doobjednaj ďalšie na sklad."
![Page 76: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/76.jpg)
Spark Machine Learning library
Klasifikácia, regresia, clustering, ...Prediktívna analýza pre existujúce metriky
SW riešenie namiesto HW:okoloidúci vs. návštevníci z intenzity WIFI signálu
![Page 77: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/77.jpg)
![Page 78: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/78.jpg)
Technológie nás bavia
![Page 79: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/79.jpg)
Chceme byť tech
Beta verzie cutting-edge technológiiPrispievanie do open sourcuVerejné zdieľanie skúsenostíBudovanie lokálnej komunity
![Page 80: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/80.jpg)
![Page 81: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/81.jpg)
![Page 82: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/82.jpg)
Teraz môžem v práci robiť to,čo som kedysi robil iba po nociach
![Page 83: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/83.jpg)
![Page 84: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/84.jpg)
Povedzte nám, čo vás bavía príďte k nám na Spark workshop
![Page 85: Real-time big data v tvojej samoške - Pygmalios Analytics](https://reader030.fdocuments.net/reader030/viewer/2022020203/5880590c1a28ab22088b734d/html5/thumbnails/85.jpg)
Ďakujeme