Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster...
Transcript of Mammutti vai elefantti? - SUGIF · SAS Data Loader (Web App) SAS/Access to Hadoop Hadoop Cluster...
Mammutti vai elefantti?
Tänään tarjolla
• Arkkitehtuuri - baseline• Esittelyssä Elefantti ylhäältä ja alhaalta – teoriaa
ja kokemuksia• Elefantti vs. Mammutti • Kuka vie peliä – ja millä säännöillä• Meidän esimerkki• SAS + Hadoop
Tietoarkkitehtuuri - baseline
Kehittämisympäristöt BI-työkalut, liittymät
Tiedon louhinta, oivaltaminen, innovointi, analytiikka
Tapahtumadata,NoSQL/Hadoop
PalvelurajapintaRajapinta olemassaoleviin raportointivälineisiin, -palveluihin jne. Myös Data Virtualization/Federation.
Raportointi, analytiikka
Asiakastieto, tapahtumadata EDW
Strukturoimaton data, ulkoinen tietoStrukturoitu data, in-house data,
sovellukset, tietokannat1.
Landing area2.
3.
5.
6.
4.BIG DATA
Hadoop Ecosystem palapeli
• Alusta (framework) big data prosessoinnille
• Hadoop –alustan palveluissa
• ’ETL’ väline; shell komennoilla -> ohjelmiksi
• Runsaasti valmiskirjastoja: Streaming, SQL, GraphX, MLlib
• Core concept: RDD (Resilient Distributed Dataset)
Mikä Spark?
• Nopeasti kasvava käyttäjäkunta
• Distribuutioissa mukana; hyvin tuettu
• ’Rock star’ …
• Scala, Java, Python
Mikä Spark?
• Verrattuna esim. MapReduceen Spark SQL ja Sparkin DataFrame API nostavat abstraktiotaso huomattavasti (esim. rajaukset, liitokset, aggregointi) (vrt. SAS ja Python/Panda)
• Tulee ymmärtää miten operaatiot toimivat pohjimmiltaan (transactions ja actions)
Kokemuksia
• Rinnakkaistuuko ajo, ja miten siinä autetaan (esim. miten data on ositettu levylle)
• Alusta kehittyy huikeaa vauhtia
• Hyvin ja kattavien dokumentaatioiden rajallisuus
• Tunaamista, esim.: http://blog.cloudera.com/blog/2015/03/how-to-tune-your-
apache-spark-jobs-part-2/
Kokemuksia
Mammutti+
• Toimivaa, evolutiivisesti edennyttä teknologiaa
• Substanssista yksimielisyyttä (mallinnus, relaatiot, arkkitehtuurit)
• Osaajia
• Vaihtoehtoja
Mammutti-
• Tietovarasto perusjäykkä muutoksille
• Muutostyöt usein hitaita ja kalliita (self serviceBI ei vielä ihan tätä päivää)
• Aktiivisen tiedon ylläpito kallista
• Skaalautuvuus
Elefantti-
• Nousevia teknologioita; yksittäisten komponenttien dokumentointi, toimivuus, käyttäjätuki, yhteensopivuus
• Osaaminen
• Best practises
• Mihin junaan hypätä (minne ja kauan juna kulkee)
Elefantti+
• Nousevia teknologioita; kehitystyö nopeaa
• Laaja, aktiivinen käyttäjäkunta
• Runsaasti vaihtoehtoja
• Tehty skaalautuvaksi ja fault-tolerantiksi
• Mahdollistaja (jota EDW:llä ei voida tehdä; tiedon määrä, talletus, prosessointi, skaalautuvuus…)
Elefantti+
• Pilvipalveluista löytyy valmis(komponentti)ratkaisuja
• Pilvi/in-house/kombinaatio
• (Paas/Saas/Iaas)
Miten (ja miksi) verrata elefanttia ja
mammuttia(antikliimaksi)?• Eivät ole kilpailevia vaan toisiaan täydentäviä
• Elefanttiteknologiat lisäävät vaihtoehtojen määrää
• Käytetään tapauskohtaisesti
• Uber(isaatio…)• AirBnb• Verkkokaupat• Mediamyllerrys• Informaatiokupla (Filter
Bubble)• Crowdsourcing/talkoista
minen…
Samaan aikaan toisaalla(?) …
Mistä kumpuaa…
User Interface
Metadata
Data Access
DataProcessing
Hadoop
In-MemoryData Access
HivePig
Hadoop HDFS
SAS/ACCESS® to Hadoop
Pig
SAS® Data Integration Studio
SAS® Visual Analytics
SAS® Visual Statistics
SAS® Enterprise Miner
SAS ® Studio
SAS® Enterprise Guide
SAS ® Embedded Process
SAS® In-Memory Statistics
SAS SOLUTIONS IN HADOOP ECOSYSTEM
SAS® Data Loader
Hive / Impala / Spark
Source Systems
SAS ® Metadata
Source A Source B Source C
SAS ® LASR™ AnalyticServer
Source D
How does it work?
SASvAPP
SAS Data Loader (Web App)
SAS/Access to Hadoop
Hadoop Cluster
Hadoop Cluster Node
SAS Code Accelerator for Hadoop
SAS Data Quality Accelerator for Hadoop
SAS LASR In-Memory Analytic Server (Optional)
QueryFilterTransformDe-duplicate
ProfileCleanseJoinLoad
(Web Browser)
TextFiles
RDBMS
SAS
SAS Embedded Process
SASDS2code
SAS Embedded Process
Avarea Marketing Dashboard
Datasources Storage
-Historical data
Data Ingestion
-Real-time datapipelines
• Search Engine Marketing (SEM)• Social and Display Ads• Referrals, Social Engagement• Offline Ads• Search Engine Optimization (SEO)• Content Marketing• Email Marketing• Engineering as Marketing• Target Market Blogs• Business Development (Partnerships, Distribution)• Affiliate Programs• Internal Data (Business Applications, Sales, CRM..)
Delivery
-Dashboards-Advanced Analytics-Export (Applications, Marketing Automation etc)