Big Analytics & Visualisation

61
Big Analytics & Visualisation SAS - Excel TEM – Marketing Digital Lundi 9 mai 2016 Sabine Bruaux I @sbruaux Je remercie Halim Msilti pour sa contribution à ce support

Transcript of Big Analytics & Visualisation

Page 1: Big Analytics & Visualisation

Big Analytics &VisualisationSAS- Excel

TEM– MarketingDigitalLundi9mai2016

SabineBruaux I@sbruaux

JeremercieHalim Msilti poursacontribution àcesupport

Page 2: Big Analytics & Visualisation

SAS– Outil(avancé)delaBusinessIntelligence

• SystèmeSAS• Al’origine,en1976,SAS estunlogicielconçucommeoutilspécialiséenanalysestatistique

• Aujourd’hui,SASestunnomdemarque, SAS Institute§ Sociétéaméricaineindépendante(noncotéeenbourse)§ 1er éditeurmondialdansledomainedel’informatiquedécisionnelle

SabineBruaux- PrésentationàTEM- 09/05/2016 2

Page 3: Big Analytics & Visualisation

Applications métiers : finance, marketing, relation client, approvisionnement, …

• Metadata Server• Application Server• Management console

• SAS information Delivery Portal(portail, diffusion de rapports)

SAS AppDevSAS WebReport StudioSAS Visual Data explorer

• SAS Enterprise Guide• SAS Enterprise Miner

SAS ServerEnterprise Business Intelligence Server(outils de requêtes et de reporting)

Analytical Server(outils d’analyse)

• SAS Olap Server • SAS SPDSl

Intelligence Storage(bases de données décisionnelles, entrepôts de données)

• SAS ETL Studio • SAS Data Quality

Enterprise ETL Server(extraction, transformation, alimentation et traitement de données)Sy

stèm

e SA

S

SabineBruaux- PrésentationàTEM- 09/05/2016 3

Page 4: Big Analytics & Visualisation

SAS– DifférencesparrapportauxoutilsdelaBureautique• SystèmebureautiqueVs.Systèmedécisionnel

Données- Traitement– Services

► Systèmebureautique• Micro-ordinateurs

+/- isolés• Petites applications

Conviviales - Simples - Statiques• Requêtes utilisateurs simples• Bases de Données utilisées

Locales - ChangeantesOrientées édition de donnéesDonnées de types standardStructures de données figéesAucun lien avec sauvegarde sur disque

• Organisation – Intégration au SI+/-

► Systèmedécisionnel• Serveurs centraux et/ou répartis

Postes de travail en réseau(x)• Grosses Applications

Clients/Serveurs – n-tiers – DynamiquesTemps réel

• Requêtes utilisateurs complexes• Bases de Données utilisées

Centrales - Historique évolutifOrientées traitement de donnéesDonnées scientifiques-techniquesStructures de données dynamiquesPersistance

• Organisation – Intégration au SIParallélisme – Concurrence (accès simul.)RobustesseAdministration complexe

ArtisanatPilotage par la technologieRoutineActivités au jour le jour

IndustrialisationPilotage par les métiers (BPM)Stratégie à long terme+ de CréativitéTravail collaboratif

SabineBruaux- PrésentationàTEM- 09/05/2016 4

Page 5: Big Analytics & Visualisation

SAS– DifférencesparrapportauxoutilsdelaBureautique• SystèmebureautiqueVs.Systèmedécisionnel

Données- Traitement– Services

► Excel/Access•Outils individuels

Pas de travail coopératif/collaboratif•Capacités limitées

Volume de donnéesCohérence des donnéesStockageSuivi de l’historiqueExploitation des Feuilles de calcul…

••Organisation – Intégration au SI

+/-

► SAS• Outil individuel et en groupe

Travail collaboratif/coopératif simultané• Fédération et Intégration

Données et Informations hétérogènes, dispersées dans les BdD de l’entreprise

• Restitution Information dans un format unifié

• Mécanisme de reporting centraliséOpérationnel et décisionnel

• Organisation – Intégration au SICouplage PGI-BI-BPMModélisation de la stratégie d’une entrepriseTableaux de bord prospectifsCommunication simplifiée

Moteur de calcul, requêtage, …Véhicule de tourismeLéger (V4, V6)

SAS = Excel + Access + …Véhicule industrielLourd (V8, V12, …)

5

Page 6: Big Analytics & Visualisation

Organisationdesdonnées

• Pointsd’entréedeSAS u Portail d’information SAS

• Page Web permettant l’accès aux différentes applications, à leurs résultats, pour une consultation ou une étude.

• Portail configurable, modulable, sécurisé.

• Permet de fédérer les informations de l’entreprise

SabineBruaux- PrésentationàTEM- 09/05/2016 6

Page 7: Big Analytics & Visualisation

Organisationdesdonnées

• SortiesdeSAS u L’ensemble des résultats produits par SAS. • Une ou plusieurs table(s) SAS

• Du texte, appelé listing (mise en forme minimale) ; mode d’affichage par défaut

• Un ou plusieurs graphique(s) qui font l’objet d’un affichage séparé

• Un ou plusieurs fichier(s) mis en forme : • Documents Word - Feuilles Excel – Documents PDF

• Page(s) Web

• Code SAS

• Code SQL

• …SabineBruaux- PrésentationàTEM- 09/05/2016 7

Page 8: Big Analytics & Visualisation

Dossier virtuel

Dept VentesBons de commande

FacturesStock

BdDLocale

SAVLivraisonsGaranties

Réclamations

BdDLocale

Dept Finance et Comptabilité

PaiementsCaisse

Comptabilité Gén.Comptabilité An.

BdDLocale

Dept Juridique

RecouvrementsRéclamations

Litiges

BdDLocale

ExtraireChargerTraiter

Technologie(s) avancée(s)Centralisation/RépartitionSynchronisationChaîne de traitementVue partielle/globaleTravail collaboratifBPM…

DossierClient

Ancien, actuel, nouveau

Solution : Classeur SAS

AnalyserPrévoirDécider

Organisation des données

SabineBruaux- PrésentationàTEM- 09/05/2016 8

Page 9: Big Analytics & Visualisation

TablesetvuesdeSAS

u Table : structure de données logiqueOrganisée en Lignes (Observations) et Colonnes (Variables)

Une table est une « photo » des données stockées sur un support physique (disque, bande magnétique, CD-ROM, …)

SabineBruaux- PrésentationàTEM- 09/05/2016 9

Page 10: Big Analytics & Visualisation

TablesetvuesdeSAS

u Vue : présentation tabulaire de donnéesRésultat d’une requête (instruction d’un langage de programmation)Une vue est un « lien » vers un ensemble de données

u Lignes et colonnes ne sont pas interchangeables, au contraire d’une feuille Excel

SabineBruaux- PrésentationàTEM- 09/05/2016 10

Page 11: Big Analytics & Visualisation

TablesetvuesdeSAS

Sémantique des données et relations entre les données

Base de donnéesphysique

Mode d’inscription des données sur le support physique : blocs d’octets

Base de données conceptuelle

Vue 1

Application 1

Vue 2

Application 2

Vue N

Application N

Tableaux dynamiquesGraphiques dynamiques

Modèles d’Interfaces utilisateurs

Niveau logique

SabineBruaux - PrésentationàTEM- 09/05/201611

Page 12: Big Analytics & Visualisation

Architecturetype

SabineBruaux- PrésentationàTEM- 09/05/2016 12

Page 13: Big Analytics & Visualisation

u Cubes SAS (MDDB – Multi-Dimensional DataBase)Structures de données complexes, pré-agrégées, sur lesquellesdes statistiques ont déjà été calculées, et des axes d’exploration (dimensions) déjà définis.

u Accès à l’aide de méthodes OLAP – OnLine Analytical Processvia les modules SAS/EIS, SAS/AF

u Création à partir des procédures du module SAS/MDDB

temps

Clients

Adresse

Bases de données multidimensionnelles

SabineBruaux- PrésentationàTEM- 09/05/2016 13

Page 14: Big Analytics & Visualisation

Lemultidimentionnel

Axe d'analyse: Le temps(Année, trimestre, mois, semaine)

Variables analysées:Nb unités, CA, marge...

Axe d'analyse: La géographie (Pays - région - ville)

Axe d'analyse: Les produits (classe, produit)

Axes d'analyse: dimensionsVariables analysées: indicateurs

SabineBruaux- PrésentationàTEM- 09/05/2016 14

Page 15: Big Analytics & Visualisation

Lagranularitédesdimensions

• Exemple:lemontantdesventesfonctionde(Mois,région,Produit)Produit

Mois

TypeRégionAnnée

CatégoriePaysTrimestre

ProduitVilleMoisSemaine

MagasinJour

Granularitédesdimensions:

SabineBruaux- PrésentationàTEM- 09/05/2016 15

Page 16: Big Analytics & Visualisation

LagranularitédesdimensionsExemple

NumFou

NumPro

Date

F1

F2

P1 P2 P3

2000

2001

2002

250

300

350

500

600

400

300

200

SabineBruaux- PrésentationàTEM- 09/05/2016 16

Page 17: Big Analytics & Visualisation

Lanavigationmultidimensionnelle

• Rollup:• Agrégerselonunedimension

• SemaineèMois

• Drilldown:• Détaillerselonunedimension

• Moisè Semaine

• SliceetDice:• Sélectionetprojectionselon1axe

• Mois=04-2003;Projeter(Région, Produit)

• Pivot:• Tournelecubepourvisualiseruneface

• (Région,Produit)è(Région, Mois)

CA

Projection en 2 dimensions

Produits

Région

Réduction selon 1 dimension

Produits

Temps en mois

CA

Coupe d ’un cube

CA

Produits

Temps en semaines

pour une région donnée

France

Sud

Marseille NiceLyon

Est Ouest

Zoom selon une dimension

SabineBruaux - PrésentationàTEM- 09/05/2016 17

Page 18: Big Analytics & Visualisation

Lesvuesd'uncubeExempleCUBE

• SELECTAnimal,Lieu,SUM(Quantite)asQuantiteFROMAnimauxGROUPBYAnimal,MagasinWITHCUBE

Animal Lieu QuantiteChien Paris 12Chat Paris 18Tortue Rome 4Chien Rome 14Chat Naples 9Chien Naples 5Tortue Naples 1

Animal Lieu QuantiteChat Paris 18Chat Naples 9Chat - 27Chien Paris 12Chien Naples 5Chien Rome 14Chien - 31Tortue Naples 1Tortue Rome 4Tortue - 5- - 63- Paris 30- Naples 15- Rome 18

SabineBruaux - PrésentationàTEM- 09/05/201618

Page 19: Big Analytics & Visualisation

Lesvuesd'uncubeExempleROLLUP

• SELECTAnimal,Lieu,SUM(Quantite)asQuantiteFROMAnimauxGROUPBYAnimal,MagasinWITHROLLUP

Animal Lieu QuantiteChien Paris 12Chat Paris 18Tortue Rome 4Chien Rome 14Chat Naples 9Chien Naples 5Tortue Naples 1

Animal Lieu QuantiteChat Paris 18Chat Naples 9Chat - 27Chien Paris 12Chien Naples 5Chien Rome 14Chien - 31Tortue Naples 1Tortue Rome 4Tortue - 5- - 63

SabineBruaux- PrésentationàTEM- 09/05/2016 19

Page 20: Big Analytics & Visualisation

Aidesàladécision

OLTPetOLAP

DWOLTP

ETL

Appli.

Reports&

Analysis

DM

OLAPAppli.Appli.

SabineBruaux- PrésentationàTEM- 09/05/2016 20

Page 21: Big Analytics & Visualisation

Datawarehouse :définition

• Entrepôtdedonnées• Ensemblededonnéeshistorisées variantdansletemps,organiséparsujets,consolidédansunebasededonnéesunique,gérédansunenvironnementdestockageparticulier,aidantàlaprisededécisiondansl’entreprise.

• Troisfonctionsessentielles:• collectededonnéesdebasesexistantesetchargement• gestiondesdonnéesdansl’entrepôt• analysededonnéespourlaprisededécision

SabineBruaux- PrésentationàTEM- 09/05/2016 21

Page 22: Big Analytics & Visualisation

ConcevoirleDW

• Exportdedonnéesdessources• Hétérogènesetvariées• Fichiers,BDpatrimoniales,Web,…• Définitiondesvuesexportées

• Définitiond'unschémaglobal• Intègrelesdonnéesutiles• S'appuiesurlemodèlerelationnel

• Nécessitéd'unegestiondeméta-données• Descriptiondessources• Descriptiondesvuesexportées• Descriptionduschémaglobal

SabineBruaux- PrésentationàTEM- 09/05/2016 22

Page 23: Big Analytics & Visualisation

ConcevoirleDWOrganisationparsujet• Lesdonnéessontorganiséesparsujetsmajeurs:

• Clients,produits,ventes,…

• Sujet=faits+dimensions• Collectelesdonnéesutilessurunsujet

• Exemple:ventes• Synthétiseunevuesimpledesévénementsàanalyser

• Exemple:Ventes(N°,produit,période,magasin,)• Détaillelavueselonlesdimensions

• Exemple:Produits(IDprod, description, couleur, taille,…)• Magasins(IDmag,nom,ville,dept,pays)• Periodes(IDper, année, trimestre,mois,jour)

SabineBruaux- PrésentationàTEM- 09/05/2016 23

Page 24: Big Analytics & Visualisation

ConcevoirleDWConceptionduschémaintégré• Isolerlesfaitsàétudier

• Schémadestablesdefaits

• Définirlesdimensions• Axesd'analyse

• Normaliserlesdimensions• Éclaterenplusieurstablesliésparcontraintesréférentielles

• Intégrerl'ensemble• Plusieurstablesdefaitspartagentquelquestablesdedimension(constellationd’étoiles)

SabineBruaux- PrésentationàTEM- 09/05/2016 24

Page 25: Big Analytics & Visualisation

ConcevoirleDWSchémasenétoile• UnetabledefaitsencadréesparNtablesdedimensions

IDperannéetrimestremoisjour

Periodes

IDmagnomvilledépartementpays

Magasins

Tabledefaits“ventes”

produitmagasin

unités_vendues

montant_ventes

taxes_ventes

IDproddescriptioncouleurtaillefournisseur

Produits

periode

SabineBruaux- PrésentationàTEM- 09/05/2016 25

Page 26: Big Analytics & Visualisation

ConcevoirleDWSchémasenflocons• Raffinementduschémaétoileavecdestablesnormaliséespardimensions

• Avantages• Évitelesredondances• Conduitauxconstellations(plusieurstablesdefaitsàdimensionspartagées)

IDproddescriptioncouleurtailleIDfour

Produits

IDfourdescriptiontypeAdresse

Fournisseurs

Ventes

SabineBruaux- PrésentationàTEM- 09/05/2016 26

Page 27: Big Analytics & Visualisation

AlimenterleDW

• ETL=Extracteur+Intégrateur• Extract +Transform +Load

• Extraction• Depuislesbasessourcesoulesjournaux• Différentestechniques

• Push=règles(triggers)• Pull=requêtes(queries)

• Périodiqueetrépétée• Dateroumarquerlesdonnéesenvoyées

• Difficulté• NepasperturberlesapplicationsOLTP

SabineBruaux- PrésentationàTEM- 09/05/2016 27

Page 28: Big Analytics & Visualisation

AlimenterleDWTransformation• Accèsunifiésauxdonnées

• Unificationdesmodèles• Traductiondefichiers,BDréseaux,annuairesentables• EvolutionversXML(modèled'échange)plusriche

• Unificationdesaccès• Rowset,SQLlimité,SQLcomplet,…

SabineBruaux- PrésentationàTEM- 09/05/2016 28

Page 29: Big Analytics & Visualisation

Lerecueildesdonnées

Type(format)defichier Volumedu fichierStructure Outil(s)

Fichierplat

Petit

Excel

E-views

Sphinx

Grand

Access

Excel2010+PowerPivot

SAS

Fichierdebasededonnées

PetitFaiblecomplexité Access

GrandComplexe

Excel2010+PowerPivot

SAS

- Les données requises se trouvent-elles dans un fichier plat ?- Les données requises se trouvent-elles dans un fichier de base dedonnées ?

- …

SabineBruaux - PrésentationàTEM- 09/05/201629

Page 30: Big Analytics & Visualisation

Sourcesdedonnées

Les sources de données sont nombreuses,et les conditions d’accès aux donnéessouvent restrictives

• Accès libre/gratuit• Téléchargement à partir d’une source publique ou

privée• Accès restreint/payant

• Partenariat école-entreprises• Par exemple : SAS Institute

• Alternance-Entreprise• Votre sujet est en rapport avec votre formation

N° Source(s)

1 Universités- Ecoles

2 Laboratoiresderecherche

3 Organismespublics etpara-publics

4 Observatoires- Associations

5 Entreprisespartenairesdel’école

6 Entreprises(alternance)

7 Institutsd’études

8 Laboratoiresd’idées (Think thank)

9 Cabinetsdeconseils

10 Basesdedonnéesprivées

11 Recherche directesurleWebdata+set+keyword

SabineBruaux- PrésentationàTEM- 09/05/2016 30

Page 31: Big Analytics & Visualisation

ExemplesdeBDprivéesenmarketing

Nom delabasededonnées Type d’informationdisponible

EuromonitorGMID(EuromonitorInternational)

Informationsqualitativesetstatistiquespour24marchésdeproduitsdeconsommation.Couvre205pays(dont80paysenprofondeur).Sontégalementdisponibles desprofilsd'entreprisesetdescalculsdepartsdemarchéainsiquedesrapports surlasantéfinancièredesentreprises.

Luxury Goods -EuromonitorGMID

(EuromonitorInternational)

Informationsqualitativesetstatistiquessurl'industrieduluxedanslemonde.Couvre26paysetanalyselesmarchésetleursperspectivesàtraversdesdonnés demarché,chiffresclés,profilsd'entreprises, etétudespays.

SabineBruaux- PrésentationàTEM- 09/05/2016 31

Page 32: Big Analytics & Visualisation

Sourceprivée:SASInstituteLancer le logiciel SAS EnterpriseGuide 4.3 (depuis le portail Citrix)

Nouveau projetAide en ligne

SAS On the WebSAS Statistics Resources

Sélectionnez le logiciel SAS Enterprise Guide 4.2 puis cliquez sur GOChoisir Dowload SAS DataChoisir sujet ; par exemple Statistics puis cliquez sur le bouton List Data Set (télécharger lesfichiers)

Autre choix : Solve exercicesVous pouvez commencer par choisir le format de fichiers à importer (Excel ou SAS).Ciquez sur GO. Tous les fichiers sont téléchargés.Autre possibilité : choisir un sujet, puis regardez dans les différents onglets (Data, Solution, …)

Accès direct par InternetSabineBruaux- PrésentationàTEM- 09/05/2016 32

Page 33: Big Analytics & Visualisation

AlimenterleDWTransformation• Mapping plusoumoinssophistiqué

• Unificationdesnoms• Appelerpareillesmêmeschosesetdifféremment leschosesdifférentes• Applicationdes"business rules"

• Eliminationdesdoubles• Jointure,projection,agrégation(SUM,AVG)

• Cleaning desdonnées• AucuneétudeouanalysesérieusenepeutêtremenéesansdesdonnéesqualifiéesSource,qualité,pertinence,volume,historique, format(s)desfichiers,etc.

SabineBruaux- PrésentationàTEM- 09/05/2016 33

Page 34: Big Analytics & Visualisation

AlimenterleDWChargement• Pasdemiseàjour

• Insertiondenouvellesdonnées• Archivagededonnéesanciennes

• Degrosvolumes• Périodicitéparfoislongue• Chargementenblocs(bulk load)• Miseàjourdesindexetrésumés

• Problèmes• Cohabitationavecl'OLAP?• Procéduresdereprises?

SabineBruaux- PrésentationàTEM- 09/05/2016 34

Page 35: Big Analytics & Visualisation

GérerleDW

• Baserelationnelle• Supportdelargesvolumes(qq 100gigasàqq téras)• Historisationdesdonnées(fenêtres)• Importancedesagrégatsetchargementsenblocs

• Basespécialisée• Basemultidimensionnelle• Combinaisondesdeux

• Machinesupportparallèle• Multiprocesseurs• Mémoirepartagée,cluster,buspartagé,etc.

SabineBruaux- PrésentationàTEM- 09/05/2016 35

Page 36: Big Analytics & Visualisation

Chaînedevaleur

DATA ETL INTELLIGENTSTORAGE

BUSINESSINTELLIGENCE

BUSINESSANALYTICS

DBMS

DataWarehouse(s)DataMarts(s)CubeOLAP

Rapportsd’informationGraphiques

Tableauxdebordopérationnels (Dashboards)

BSCRisk

Decision Aid

SabineBruaux- PrésentationàTEM- 09/05/2016 36

Page 37: Big Analytics & Visualisation

u Quoi ?» Intelligence fait référence à la notion de connaissance, au sens anglo- saxon du

terme» Business Intelligence : connaissance/maîtrise des affaires

Compréhension d’une situation et des principes de base de gestion de la situation

• Prise en compte de l’environnement : partenaires, relations d’affaires, etc. • Intégration du temps• Intégration du risque et de l’incertitude• Maîtrise des processus opérationnels

La bonne compréhension d’une situation (passé, présent), permet de prendre la bonne décision au bon moment (futur)

Socle de la Business IntelligenceInformatiquedécisionnelle

SabineBruaux- PrésentationàTEM- 09/05/2016 37

Page 38: Big Analytics & Visualisation

Business Intelligence & AnalyticsInformatiquedécisionnelle

q Butu Développement d’applications métiers

Analyse des ventes et prévision de la demande - Stocks – LogistiqueSegmentation et analyse du comportement de la clientèle

u Etudes décisionnelles et modélisation (différents départements)Indices de performance - Tableaux de bord

u Optimisation des processus pour l’aide à la décision (opérationnelle et stratégique) et valorisation de l’information

Production de statistiques : ventes par région (types de produits, période)Production de graphiques : projection temporelleProduction de cartes : Géolocalisation (2D ou 3D), SIGProduction de statistiques : ventes par région (types de produits, période)Ciblage d’une campagne marketing (octroi de crédit par exemple)Quels sont les clients à contacter ? Quel taux de retour attendre du modèle ? Quels sont les scores sur les clients ?

SabineBruaux- PrésentationàTEM- 09/05/2016 38

Page 39: Big Analytics & Visualisation

AlerteAnalyseexploratoireRapportàla

demande

Démarche&SolutionAnalytique

PrésentPassé Futur(s)

Degréd’intelligence

Information

BusinessIntelligence BusinessAnalytics

Rapportprédéfini

Analysedescriptive

Analyseprédictive

EvaluationetAnalysedurisque

AméliorationQualité

Décrireetcomprendrecequiestarrivé§ Quoi?Qu’est-il arrivé?Ques’est-ilpassé? Où?§ D’oùvientleproblème ?Quiestimpliqué ?§ Pourquoi est-cearrivé?§ …

Quepeut-ilarriver?§ Quesepassera-t-ilsi…?§ Faut-ilréagir?Quefaut-ilfaire?§ Quellesactionsfaut-il mener?§ Pourquelsrésultats ?§ …

Gestiondecrise Scénariid’évolution

(hypothèsesvraisemblables)Aideàladécision

Tableauxdebordopérationnels

Réagir- Interagir- Anticiper§ Quelsoutils(rapports, études, synthèse)?§ Quellesanalyses?Compréhension ?Restitution ?

Socleanalytique:Statistiquedescriptive, Calculdesprobabilités, Statistiqueinférentielle,DataMining,Optimisation, …

Commentintégrerlesnouveauxfacteurs?§ Mobilité- Internet§ Ubiquité - Réalitéaugmentée§ Processus– Organisation– Stratégie§ Relations(clients, collaborateurs, décideurs, …)§ …

Changement

SabineBruaux- PrésentationàTEM- 09/05/2016 39

Page 40: Big Analytics & Visualisation

Utilisateurs de la BI• Exemplededémarcheanalytique:scènedecrime

Descriptionde lascène

Collectededonnéesobjectives

Compréhensionduproblème

Profilage:victime(s),criminel(s)

Hypothèses

Instructiondel’affaire

Compréhension duproblème

Hypothèses

Miseenexamen,gardeàvue,arrestation

Conclusion:accusation,libération

Justice:procureur,juge(s)Police :servicesetacteursdivers

RelationPolice/Justice:problématiques, objectifs,confiance,moyens,…

Investigation :enquêtes, analyses,recherched’information,surveillance

SabineBruaux- PrésentationàTEM- 09/05/2016 40

Page 41: Big Analytics & Visualisation

Big Analytics &Big Data

SabineBruaux- PrésentationàTEM- 09/05/2016 41

Page 42: Big Analytics & Visualisation

Objectifcommun:Valued Data

• La donnée utile (un moyen et non une fin) pour créer un nouvel océan :• nouveaux champs des possibles : usages - pratiques - besoins• avantage compétitif :

• actions ciblées et optimisées : meilleure identification et (géo)localisation des contacts - meilleureexplication et prévision de leurs comportements – (inte)réaction instantanée et localisée - relierles contacts…

• technologies avancées : pouvoir examiner tout type de données liées sous toutes les coutures• nouvelles métriques (ROI)

SabineBruaux- PrésentationàTEM- 09/05/2016 42

Page 43: Big Analytics & Visualisation

LeparadigmeBig Data

“Big data is high-Volume, high-Velocity and high-Varietyinformation assets that demand cost-effective, innovativeforms of information processing for enhanced insight anddecision making.” Gartner 2008

SabineBruaux- PrésentationàTEM- 09/05/2016 43

Page 44: Big Analytics & Visualisation

LeparadigmeBig Data

SabineBruaux- PrésentationàTEM- 09/05/2016 44

Page 45: Big Analytics & Visualisation

Unebonnevidéoéducative

http://www.lachaineweb.com/quest-ce-que-big-data-video/

SabineBruaux- PrésentationàTEM- 09/05/2016 45

Page 46: Big Analytics & Visualisation

Big Data:lesVRAIESnouveautés

Les4Vsontprésents…maislaVARIETEestcertainementleplusnovateuraprèslavélocité(tempsréel)

SabineBruaux- PrésentationàTEM- 09/05/2016 46

Page 47: Big Analytics & Visualisation

Collecteretstockerlesdonnéesdesentreprises≠ nouveau

SabineBruaux- PrésentationàTEM- 09/05/2016 47

Page 48: Big Analytics & Visualisation

Analyserlesdonnéesdesentreprises≠ nouveau

SabineBruaux- PrésentationàTEM- 09/05/2016 48

Page 49: Big Analytics & Visualisation

Synthétiserlesdonnéesdesentreprises≠ nouveau

SabineBruaux- PrésentationàTEM- 09/05/2016 49

Page 50: Big Analytics & Visualisation

Utiliserlesdonnéesdesentreprises≠ nouveau

SabineBruaux- PrésentationàTEM- 09/05/2016 50

Page 51: Big Analytics & Visualisation

NouveautésentermesdeVolume

• Solutions de stockage massif distribué avec parallélisation de l’exécution desrequêtes et des traitements analytiques

• Appliances Teradata,Oracle Exadata, IBMNetezza• Nouvelles architectures issues du Web : Hadoop avec le paradigme de programmation «Map-Reduce »

• Arrivée de Spark commemoteur de traitement de données• application -> donnée

SabineBruaux- PrésentationàTEM- 09/05/2016 51

Page 52: Big Analytics & Visualisation

Solutionsd’appliance :étatdumarché

IBMNetezza

SolutionMPP

(traitementsmassivementparallèles)

InstallationApplianceseule

Offre initialedepuis2000;

versionactuelledepuis

2004

Teradata

SolutionMPP

(traitementsmassivementparallèles)

InstallationApplianceseule

Offre initialedepuis1983;

versionactuelledepuis

2009

EMCGreenplum

SolutionMPP

(traitementsmassivementparallèles)

ApplianceetSoftware,(stockagecolonneethybride)

Offre initialedepuis2005

HPVertica

SolutionMPP

(traitementsmassivementparallèles)

Base dedonnées en

modecolonne

Offre initialedepuis2005

OracleExadata

ApplianceData

WareHouse

Stockagemixte (flashetdisque),modecolonneetcompression

Version11gExadata

depuis2008

SAPHANA

SolutionMPP

(traitementsmassivementparallèles)

Configurationmixte

applianceetsoftware

Offre initialedepuis2011

SASHP

Analytics

SolutionMPP

Inmemory

SolutionMPP

Inmemory

Offre initialedepuis2011

SabineBruaux- PrésentationàTEM- 09/05/2016 52

Page 53: Big Analytics & Visualisation

ExpérimentonsMapReduce pourlefun!MapReduce est un framework de développement inventé parGoogle pour effectuer des calculs parallèles

MapReduce

1. L’étape File : on lit le fichier en entrée et on initialise les différents «Workers MapReduce»

2. Lʼétape Splitting : on distribue les données à traiter sur les différents noeuds du cluster de traitement

3. L’étapeMap : on effectue le compte de chacune des lettres et ceci en local sur chaque noeud du cluster de traitement

4. L’étape Suffling : on regroupe toutes les lettres ainsi que leur compte à partir de tous les noeuds de traitement

5. L’étape Reduce : on effectue le cumul de toutes les valeurs de chaque lettre

6. L’étape Result : on agrège tous les résultats des différentes étapes Reduce et on retourne le résultat final

SabineBruaux - PrésentationàTEM- 09/05/201653

Page 54: Big Analytics & Visualisation

NouveautésentermesdeVélocité

• Solutions pour le traitement des données arrivantsous la forme de flux continus dedonnées

• Décisionnel temps réel

• « Complex Event Processing»• Alarmes par filtrage• Agrégations sur fenêtre temporelle glissante• Scoring temps réel

• Fouille de flux de données• Modèles adaptatifs

SabineBruaux- PrésentationàTEM- 09/05/2016 54

Page 55: Big Analytics & Visualisation

NouveautésentermesdeVariété

• Variétédestypesdedonnées• Donnéestemporelles, spatiales• Texte,image,audio, vidéo,…• Donnéesstructuréessous formedegraphe

Ø bénéficiedelaflexibilitéetpassageàl’échelledesnouvellesarchitecturesissuesduWeb(ex.Hadoop)parrapportaustockagerelationnel

• Variétédessourcesdedonnées• Réseauxdecapteursdistribués géographiquement

Ø architecturesdédiéesou«Complex EventProcessing »distribué

• Variétédessourcesdedonnées• Partageetcroisementdedonnées• Donnéesouvertes(«opendata»)• Gestiondesdonnées personnelles

SabineBruaux- PrésentationàTEM- 09/05/2016 55

Page 56: Big Analytics & Visualisation

LestechnologiesduBig Data

SabineBruaux- PrésentationàTEM- 09/05/2016 56

Page 57: Big Analytics & Visualisation

LestechnologiesduBig Data

SabineBruaux- PrésentationàTEM- 09/05/2016 57

Page 58: Big Analytics & Visualisation

LeBig data transformetout…Transformationsinternes• Evolution significative (des modèles) de l’entreprise:

• Mode(s) de gestion : gouvernance des données (collecte, manipulation, extraction, stockage) –système d’analyse (business analytics, business intelligence) – CRM (datamining, personnalisation)

• Stratégie : obsolescence du principe de base de données centralisée traitant des donnéestransactionnelles structurées (MDM, SGBDR) - management de l’innovation (capacité à capter leprogrès, esprit de conquête, vision, capacité à porter le changement)

SabineBruaux- PrésentationàTEM- 09/05/2016 58

Page 59: Big Analytics & Visualisation

MenerunprojetBig Data

• Le Big Data représente un challenge technique pour lequel il n’existe aucune architecture uniquesupportant tous les problèmes de goulot d’étranglement :

• Stockage (accès aux données)• Traitement (nombre de CPU)• Transaction (requêtes concurrentes)• Streaming (temps de latence)

• Questions à se poser :• Traitement ponctuel ou permanent?• Cycle de vie des données : mortes ou vivantes ?• Compatibilité tps de traitement/volume• Hébergement : internalisation ou externalisation

SabineBruaux- PrésentationàTEM- 09/05/2016 59

Page 60: Big Analytics & Visualisation

MenerunprojetBig Data

• Défis• Trouver le modèle économiquedes traitementsBigData• Déterminer ce qui est possible en fonction des contraintes juridiques et éthiques (privacy)• Définir une organisation dans l’entreprise (ou avec des partenaires) permettant une mise enœuvre efficace des approchesBig Data, en particulier les compétences

• Connaître ses propres données et celles disponibles à l’externe

• Risques/opportunités• Perdre la rentabilité face à la concurrence / Optimiser son activité• Perdre de l’activité / Augmenter et développer son activité• Trouver de nouveaux produits et services• Levier de décloisonnement et demodernisationde l’entreprise

SabineBruaux- PrésentationàTEM- 09/05/2016 60

Page 61: Big Analytics & Visualisation

Mercidevotreattention,àvousde« jouer »maintenant!

• ExercicessousExcel• Réaliserunepyramidedesâges(indicateurdepilotagemétier)• Réaliserunquadrantmagique(indicateursdepilotagestratégique)

• ExercicessousVA-SAS• Priseenmaindel’outilVisualAnalytics SAS(étudedecasBioOrganics)http://www.teradatauniversitynetwork.com/

SabineBruaux- PrésentationàTEM- 09/05/2016 61