Le zoo du Big Data - Comment apprivoiser les animaux
-
Upload
zdnet-france -
Category
Technology
-
view
4.692 -
download
3
Transcript of Le zoo du Big Data - Comment apprivoiser les animaux
Le zoo du Big Data – Comment apprivoiser les animaux
La nécessité d'une plateforme intégrée pour les informations de l'entreprise
Octobre 2012
Un livre blanc de
Dr Barry Devlin, 9sight Consulting
Le Big data est probablement l'évolution la plus importante dans
l'utilisation des informations par les commerciaux et les informaticiens,
cette dernière décennie. Elle révolutionne la manière dont les entreprises
décident, fonctionnent, réussissent ou échouent. En exploitant les
informations intelligemment, elle permet d'anticiper le changement et
d'en tirer parti. Pour ce faire, l'équipe informatique doit regarder au-delà
des technologies traditionnelles et faire appel à de nouveaux outils pour
traiter des volumes plus importants de données hétérogènes, et ce, plus
rapidement que jamais.
L'analyse du zoo du Big Data a omis un point essentiel : que le volume soit
petit ou gros, ce sont toujours des données. Il convient les gérer et les
intégrer dans toute l'entreprise pour les valoriser pleinement et garantir
leur utilisation cohérente. Apprivoiser le Big Data est une condition
essentielle pour obtenir cette valeur. Ce livre blanc propose trois solutions :
1. La base pour extraire la valeur métier maximale des volumes massifs
de données à leur source est une plateforme technologiquement
diversifiée et étroitement intégrée pour toutes les informations
(Big Data et transactions traditionnelles).
2. Une approche d'entreprise – réunissant plateforme, produits et
processus – est indispensable pour préserver la qualité et l'utilisation à
long terme du Big Data, conjointement avec les données provenant de
systèmes de Business Intelligence et autres.
3. Le déploiement rapide des projets de Big Data est nécessaire pour tirer
parti au plus tôt des nouvelles opportunités commerciales. Pour ce
faire, il contient d'intégrer progressivement des fonctionnalités de
Big Data dans l'infrastructure de gestion des données au sein de
l'entrepôt de données.
Sommaire
3 La parabole des aveugles et
de l'éléphant – Le contexte du Big Data
5 Big Data et petits volumes
vus du ciel
7 Une plateforme intégrée
pour tous les types d'information
9 Mise en œuvre d'une
plateforme d'informations intégrée
11 Conclusion
Copyright © 2012, 9sight Consulting. Tous droits réservés. 2
Apprivoiser les animaux du Big Data est la prochaine étape dans la gestion
des données.
Parrainé par :
International Business Machines
www.ibm.com
Copyright © 2012, 9sight Consulting. Tous droits réservés. 3
i le Big Data était un mammifère, ce serait un éléphant. Peut-être imaginez-
vous un petit éléphant jaune. Moi pas. J'imagine un grand éléphant gris,
membre d'un troupeau. Je parle de quelque de plus grand que Hadoop. Je
parle de tous les types de données que les entreprises collectent dans des
quantités de plus en plus importantes. À cet égard et malgré sa nouveauté
technique, le Big Data ressemble aux autres données : il faut le gérer et l'utiliser
correctement à l'échelle de l'entreprise pour en extraire une valeur métier
significative et obtenir l'impact durable annoncé.
Si le Big Data était un reptile, ce serait un caméléon. Avant 2005, le Big Data était une expression
utilisée par des scientifiques incapables de stocker ou d'analyser toutes les données produites par
leurs expériences. C'est toujours le cas. Ensuite, le Big Data est devenu un terrain de jeu pour les
chercheurs qui, au sein d'entreprises comme Google et Netflix, exploitaient des volumes massifs de
données Web à leur disposition. C'est toujours le cas. En 2008, Hadoop est devenu un projet « Open
Source » prioritaire d'Apache, synonyme de Big Data. C'est toujours le cas. Avant 2010, même le
magazine The Economist a publié un numéro spécial1 sur le Big Data et les spécialistes du marketing
ont commencé à tout renommer. Le Big Data englobe tout ceci… et bien plus encore. Mais
aujourd'hui, il est temps d'arrêter de triturer la forme. Désormais, le Big Data est au cœur d'une
technologie de pointe, qui bouleverse la donne en profondeur : l'analyse métier ou Business Analytics.
La vitesse d'exécution de cette technologie et les volumes qu'elle prend en charge sont tels que
l'ancien paradigme consistant à tout copier et tout nettoyer dans un entrepôt de données est
complètement obsolète. La majeure partie de cette analyse doit être effectuée sur des volumes
massifs de données dans leur format natif, aussi proche que possible de leur source. Et nul besoin
d'être un grand penseur pour savoir qu'une approche fédérée ou virtualisée – réunissant l'entrepôt
de données et le Big Data – est indispensable.
Le Big Data ouvre de nouvelles opportunités d'analyse et d'anticipation permettant aux entreprises
de surclasser significativement leurs concurrents2. En 2011, McKinsey estimait que le Big Data pourrait
générer 300 milliards de dollars dans le secteur de la santé et 250 milliards de dollars
dans le secteur public aux États-Unis3. Clairement, les opportunités commerciales ne
manquent pas et les premiers positionnés en tirent déjà parti. Ceci dit, tout n'est pas
aussi simple. Parmi les prévisions de Gartner pour 2012 et au-delà4, on pouvait lire : « En
2015, plus de 85 % des entreprises du classement Fortune 500 ne seront pas en mesure
d'exploiter efficacement le Big Data à leur avantage » en raison de leur incapacité à relever
les défis techniques et en matière de gestion.
Ces défis concernent essentiellement l'informatique. Le Big Data n'est pas le seul élément de
l'infrastructure. Pour un déploiement et une utilisation efficaces, il doit être intégré dans les
processus métier existants. Il doit être et sera associé à tous les outils informationnels actuellement
en place dans une plateforme d'entreprise complète. Idéalement, la mise en place du Big Data doit
être progressive et, la plupart du temps, précoce pour être véritablement efficace.
Pourtant, trois idées reçues perdurent sur le Big Data. Tout d'abord, il peut résoudre le problème de
la faim dans le monde ou, du moins, garantir la réussite de chaque entreprise. Ensuite, il semble
supplanter toutes les technologies traditionnelles de Business Intelligence et d'entrepôt de données.
Enfin, tout le monde semble l'utiliser. Malheureusement, aucune de ces affirmations n'est vraie !
Au final, le Big Data ressemble davantage à un virus qui apparaît et se propage comme une pandémie.
La vérité est à la fois plus révolutionnaire et plus terre à terre. Le Big Data peut et va ouvrir des
opportunités commerciales gigantesques… mais uniquement si nous conservons nos racines : des
processus de gestion des données efficaces et des technologies d'entreprise bien intégrées.
S
Le Big Data ouvre de grandes opportunités,
mais peu d'entreprises en
tireront parti efficacement.
Copyright © 2012, 9sight Consulting. Tous droits réservés. 4
La parabole des aveugles et de l'éléphant – Le contexte du Big Data
« Six hommes d’Hindoustan / très enclins à parfaire leurs connaissances, Allèrent voir un éléphant / (bien que tous fussent aveugles),
Afin que chacun en l'observant / puisse satisfaire sa curiosité.5
a parabole des aveugles qui touchent différentes
parties d'un éléphant et en tirent des conclusions
fausses – découvrant que toute vérité est relative –
illustre assez bien la situation actuelle du marché par
rapport au Big Data. Chaque consultant et chaque fournisseur voient et décrivent le Big Data en
fonction des parties qu'ils touchent… sans parler des outils qu'ils possèdent ni des marchés qu'ils
aspirent à conquérir. L'impression globale est celle d'une confusion… que nous allons dissiper tout
de suite.
Chaque année, la quantité d'informations stockée et traitée augmente de plus de 50 %,
selon IDC6. Cette caractéristique appelée à juste titre volume est à l'origine de l'expression
« Big Data ». La plupart des définitions du Big Data y ajoutent deux autres mots : la vitesse
(le rythme de plus en plus rapide d'arrivée et de traitement des données) et la variété (la
diversité croissante des structures de données à prendre en charge). IBM a récemment
introduit un quatrième aspect : la véracité, c'est-à-dire la nécessité de considérer comme
fiables les données utilisées pour prendre des décisions stratégiques et opérationnelles. Certains
analystes tiennent à ajouter la variabilité ; d'autres, la valeur, la viralité, la validité et la viscosité. Ces
définitions ne sont ni satisfaisantes, ni cohérentes. En fait, le terme vague est probablement celui qui
convient le mieux. Aucun de ces termes ne se prête à une mesure précise. Donc, comment de simples
mortels peuvent-ils répondre à cette simple question : le Big Data est-il pour moi ?
L'approche la plus simple, suivie de manière pragmatique par les tout premiers sur le marché,
consiste à examiner les utilisations commerciales du Big Data et à voir comment les mettre en œuvre.
Bien sûr, cette approche ne peut pas être complète, car de nouvelles utilisations sont susceptibles
d'être découvertes. Mais, le Big Data peut avoir son importance si votre entreprise travaille dans un
ou plusieurs des secteurs suivants :
1. Le marketing utilise le contenu des médias sociaux, les informations sur les relations
et les données collectées en interne sur les interactions avec les clients (comme les
journaux des centres d'appels), pour mieux connaître les motivations des clients.
Dans des secteurs tels que la vente au détail, les biens de consommation et les
télécommunications, où l'interaction avec un grand nombre de clients peut être
directe ou indirecte, le Big Data permet une transition entre l'échantillonnage et
l'analyse d'un jeu complet de données, entre des segments démographiques et des
marchés très ciblés, et entre un suivi à long terme de données historiques et une
réaction en temps réel à des nouveaux événements. Le but ultime étant la prévision du
comportement des clients et la suggestion d'actions, comme une deuxième meilleure offre.
2. L'identification des fraudes et d'autres irrégularités dans les données des transactions financières
porte sur des volumes croissants de transactions de petite valeur, sur des intervalles de temps de
L
Le Big Data se développe
rapidement, mais le définir précisément
n'est pas chose facile.
Le volume, la vitesse et la variété ont
beaucoup moins d'importance que ce
que vous faites avec le Big Data.
Copyright © 2012, 9sight Consulting. Tous droits réservés. 5
plus en plus courts. Les techniques d'analyse de Big Data sur les flux de données – avant ou sans
stockage sur disque – sont devenues la norme.
3. La prévision en temps réel devient possible car les services de distribution – eau, électricité,
télécommunications – peuvent désormais suivre la consommation des clients individuellement,
grâce à une technologie de capteurs omniprésents et à des processus de Big Data capables de
traiter ces données. La valeur réside dans la capacité à prédire les pics et les creux de
consommation, et dans une certaine mesure, à les lisser en influençant le comportement des
clients.
4. Le suivi d'articles physiques (aliments, appareils électroménagers, colis ou conteneurs) par les
fabricants, les producteurs et les distributeurs, depuis la distribution jusqu'à la mise au rebut,
permet d'optimiser les processus métier et d'améliorer le taux de satisfaction des clients. Les
personnes, en tant qu'entités physiques, peuvent aussi faire l'objet d'un suivi pour des motifs liés
au commerce ou à la surveillance.
5. Le renouvellement des processus métier par une utilisation innovante des données générées par
les capteurs permet de modifier des secteurs d'activité entiers. Par exemple, une compagnie
d'assurance peut fixer le montant des primes en fonction du comportement réel des
automobilistes et non d'un risque moyen calculé de manière statistique. Au-delà des questions
éthiques, les données génomiques individuelles et les dossiers médicaux électroniques
constituent des opportunités intéressantes pour les compagnies d'assurance santé.
Il convient également de faire barrage à certaines idées fausses propagées par des soi-disant experts
qui se focalisent trop sur chaque partie de l'éléphant.
Le Big Data est bien plus que des flux de médias sociaux comme Twitter et Facebook. Ce type de
données est important mais essentiellement pour des clients réels et des transactions économiques
que nous enregistrons habituellement dans des systèmes opérationnels et que nous analysons avec
des outils de BI (Business Intelligence). De même, une vision axée uniquement sur les données de
capteurs, provenant de l'« Internet des objets », omet que l'utilisation ou l'analyse de ces données
doit, d'une façon ou d'une autre, s'intégrer dans les processus métier actuels ou repensés. De même,
une équipe de scientifiques des données, travaillant de manière autonome, ne peut pas espérer
changer les processus métier en exploitant une seule source de données sur une nouvelle plateforme
technique. L'intégration des données de plusieurs sources traditionnelles ou nouvelles, à l'aide de
multiples outils, est la première condition. La deuxième est un processus bien intégré, prenant en
compte toutes les données pour pouvoir les valoriser pleinement.
Autre idée reçue : la technologie du Big Data peut ou doit supplanter les bases de données
relationnelles ou les entrepôts de données d'entreprise (EDW). Cette conception est excessivement
simpliste. En fait, la technologie du Big Data est une extension et une intégration des techniques et
outils existants, depuis le traitement séquentiel jusqu'aux systèmes de gestion de base de données.
L'écosystème Hadoop, par exemple, traite en parallèle des fichiers volumineux l'un après l'autre. Les
bases de données relationnelles et leurs outils se focalisent, entre autres, sur la gestion systématique
des informations et la cohérence des données. À l'inverse, la technologie du Big Data met l'accent sur
d'autres caractéristiques très prisées, comme la rapidité d'accès, la variabilité des schémas et, bien
entendu, des volumes massifs de données.
La vérité aujourd'hui, c'est que de nombreux processus métier très performants ont
besoin d'allier ces deux caractéristiques. Certaines tâches nécessitent de la souplesse,
des frontières mouvantes et des approches innovantes. D'autres requièrent de la
certitude, un champ d'application délimité et un respect des règles. Les processus
Les processus métier évolutifs requièrent
des approches et des outils traditionnels,
ainsi que des approches et des
outils de Big Data.
Copyright © 2012, 9sight Consulting. Tous droits réservés. 6
métier franchissent un seuil de complexité qui dépasse les capacités de traitement des systèmes
traditionnels, mais qu'un système de Big Data caractérisé par le volume, la variété et la vitesse est
incapable de prendre en charge. Nous avons besoin d'une plateforme et d'outils professionnels qui
combinent les deux.
Pour définir une telle plateforme, il faut admettre que nous assistons à une transition rapide entre un
monde dominé par un type de données et un autre monde où trois types d'information ont une
importance équivalente.
Copyright © 2012, 9sight Consulting. Tous droits réservés. 7
Big Data et petits volumes vus du ciel
« L'éther entier est le domaine de l'aigle : La terre entière est la patrie d'un brave. »
7
n adoptant le point de vue d'un aigle planant au-dessus de toutes les
divisions et de tous les silos des organisations et systèmes existants,
l'équipe informatique peut voir comment les informations et les
processus interagissent. Fondamentalement, nous avons besoin d'une
nouvelle représentation mentale des informations et de leurs
trois composantes étroitement imbriquées :
1. Informations d'origine humaine* : toutes les informations sont créées par des individus. Elles
constituent une vision éminemment subjective de nos expériences personnelles. Auparavant
conservées dans des livres et des œuvres d'art, puis dans des photographies, des
enregistrements sonores et des vidéos, les informations d'origine humaine sont aujourd'hui en
grande partie numérisées et stockées électroniquement sous des formes aussi différentes que
les tweets et les films. Elles ont une structure variable, ne sont pas contrôlées et peuvent même
fausser la perception de la réalité, notamment pour les entreprises. La structuration et la
standardisation – notamment par la modélisation – sont nécessaires pour définir une version
commune de la vérité. Nous convertissons les informations d'origine humaine en données
traitées par des processus, de plusieurs manières dont la plus simple est la saisie dans des
systèmes d'enregistrement.
2. Données traitées par processus : chaque entreprise ou organisation met en œuvre des processus
qui, entre autres, mémorisent et contrôlent des événements, comme l'enregistrement d'un client,
la fabrication d'un produit ou la passation d'une commande. Ces données incluent des
transactions, des tables de référence et des relations, ainsi que des métadonnées qui définissent
le contexte, le tout dans un format très structuré. Traditionnellement, les données traitées par
processus formaient l'essentiel de ce que l'informatique gérait et traitait, qu'il s'agisse de
données opérationnelles ou de BI. Leur format très structuré et réglementé en fait un support
idéal pour des tâches telles que la gestion des informations, la préservation de la qualité des
données, etc.
3. Données générées par des machines : nous déléguons de plus en plus aux
machines la mesurer et l'enregistrement des événements et des situations dont
nous faisons l'expérience physique. Les données générées par des machines –
simples enregistrements de capteur ou journaux informatiques complexes – sont
bien structurées et considérées comme un reflet fiable de la réalité. Elles
représentent une part croissante des informations stockées et traitées par de
nombreuses entreprises. Leur volume est en constante augmentation car les
capteurs prolifèrent. Bien que leur structure se prête bien aux opérations
informatiques, leur taille et leur vitesse de circulation dépassent les capacités des
systèmes traditionnels, comme l'EDW, pour les données traitées par processus.
Les tailles relatives et l'importance subjective de ces trois composantes ont évolué
* Dans le contexte de ces trois composantes, les « données » sont bien structurées et/ou modélisées, et les « informations » sont peu structurées et centrées sur l'humain.
E
Les données métier traditionnelles sont le
résultat d'expériences personnelles et de
mesures effectuées par des machines ;
le Big Data remet les processus métier en
contact direct avec la réalité du monde.
Copyright © 2012, 9sight Consulting. Tous droits réservés. 8
ces dix dernières années et devraient encore changer dans la décennie qui vient. Jusqu'à la fin du
dernier millénaire, les données traitées par processus prédominaient. Les informations d'origine
humaine et les données générées par des machines qui existaient sous forme numérique
représentaient un volume relativement faible et étaient considérées comme négligeables par rapport
aux données bien gérées des systèmes opérationnels et informationnels. La dernière décennie a été
marquée par l'explosion du Big Data constitué d'informations d'origine humaine et de données
générées par des machines. La dernière composante, sous la forme de données de médias sociaux, a
cristallisé toute l'attention. Ces prochaines années, la croissance rapide de l'Internet des objets va
renforcer l'importance et le volume des données générées par des machines.
Cependant, comme vous pouvez le voir
dans la figure 1, les informations
d'origine humaine et les données
générées par des machines sont à
l'origine des données traitées par
processus qui sont au centre de nos
préoccupations depuis longtemps, bien
que seule une petite partie bien définie
soit traitée par les processus métier
traditionnels. Ces sources sont à la fois
plus souples et plus rapides que les
données traitées par processus
traditionnelles. En fait, les processus
métier qui créent des données traitées
par processus sont conçus pour réduire
la souplesse et la rapidité de circulation,
afin de préserver la qualité et la
cohérence des données obtenues. Ceci
transparaît clairement dans les
processus à l'œuvre dans l'EDW, mais également dans les systèmes opérationnels où la validation et
le nettoyage des données garantissent la véracité et la viabilité des données enregistrées.
XAujourd'hui, le volume d'informations d'origine humaine et de données générées par des machines
est beaucoup plus important. Leur rythme de changement et leur variabilité sont plus importants que
ceux des données traitées par processus. Leur copie et leur transformation par les processus
traditionnels sont de moins en moins commodes. De fait, une technologie spécialisée,
baptisée Business Analytics, est souvent nécessaire pour traiter et exploiter les
informations d'origine humaine et les données générées par des machines, aussi près de
leurs sources et aussi rapidement que possible. Ceci dit, le flux de données traitées par
processus et les métadonnées qui leur sont associées dans l'environnement de Business
Analytics sont tout aussi importants pour créer du sens, du contexte et de la cohérence
dans le processus d'analyse. Le Big Data et le Business Analytics complètent le processus
d'information en boucle, qui a toujours été implicite dans les technologies de l'information.
Les implications concrètes de ce modèle à trois composantes d'information sont
significatives et multiples :
Le traitement de Big Data, quelle que soit la technologie employée, s'appuie sur les données traitées par processus et les métadonnées traditionnelles pour créer le contexte et la cohérence indispensables à une utilisation pleinement pertinente.
Figure 1 : Les
trois composantes de
l'information
La technologie de Business Analytics
traite le Big Data aussi près que possible de sa
source pour une vitesse et une
efficacité optimales.
Copyright © 2012, 9sight Consulting. Tous droits réservés. 9
Les résultats du traitement de Big Data doivent être retransmis aux processus métier traditionnels pour permettre à l'entreprise de changer et d'évoluer.
Un environnement totalement cohérent, avec une plateforme intégrée, et une organisation à l'échelle de l'entreprise sont indispensables pour une mise en œuvre réussie.
Face à la prévalence grandissante du Big Data, les commerciaux et les informaticiens
doivent renoncer à l'ancienne dépendance vis-à-vis des données traitées par processus,
et adopter ces composantes plus souples et plus évolutives d'informations sur le monde
réel. La compréhension de la relation entre ces trois composantes d'information est
essentielle pour utiliser le Big Data en toute sécurité et de manière productive au sein de
l'entreprise. Pour définir et gérer cette relation, et rendre ces trois types d'information
disponibles dans toute l'entreprise, il faut une plateforme d'informations intégrée. C'est
ce que nous allons voir dans la section suivante.
Les données traitées par processus et les
métadonnées traditionnelles sont
primordiales pour comprendre le contexte
et gérer l'utilisation du Big Data.
Copyright © 2012, 9sight Consulting. Tous droits réservés. 10
Une plateforme intégrée pour tous les types d'information
« L'aigle peut planer ; les castors construisent des barrages. »8
i les développeurs d'entrepôt de données étaient des
animaux, ils seraient certainement des castors,
travaillant sans relâche à réguler les flux de données et
créant un référentiel complet d'informations métier
cohérentes. Les entrepôts de données et les environnements
de gestion de données d'entreprise associés, comme les
systèmes de gestion de données de référence (MDM), sont
des référentiels fiables de données traitées par processus qui sont bien gérées et bien contrôlées. En
revanche, l'origine du mouvement du Big Data dans la science et les entreprises spécialistes du Web,
comme Google et Yahoo!, très compétentes en ingénierie, a conduit à une approche fondée sur une
technologie « Open Source » et une programmation personnalisée. Une telle approche met
davantage l'accent sur l'adaptabilité, le volume et la vitesse que sur la qualité des données.
Aujourd'hui, les entreprises ont besoin de ces deux volets, l'un ne pouvant remplacer l'autre.
Une plateforme intégrée pour tous les types d'information (voir la figure 2) doit donc mobiliser
plusieurs technologies d'analyse et de base de données. Optimisée pour un type particulier de
traitement et d'accès, chacune constitue un pilier et est nommée en fonction de son rôle métier.
1. Au centre, le premier pilier Données métier essentielles correspond à des données cohérentes et
fiables, stockées dans les systèmes EDW et MDM. Les bases de données relationnelles
traditionnelles, comme IBM DB2, constituent la technologie de base. Souvent stockées dans les
EDW aujourd'hui, les données de chaque application, servant à prendre des décisions et à créer
des rapports, sont exclues.
2. Le deuxième pilier, Données
d'analyse et de création de
rapports essentielles, contient les
données exclues du pilier
précédent. Idéalement, ce pilier
est, lui aussi, une base de données
relationnelle. Les plateformes
d'entrepôt de données, comme
IBM InfoSphere Warehouse, IBM
Smart Analytics System et le
nouvel IBM PureData System for
Operational Analytics, ont toute
leur place ici. Les entreprises qui
ont besoin de performances de
haut niveau pour les requêtes
peuvent choisir un système
d'analyse intégrant le traitement
massivement parallèle (MPP), des
bases de données en colonnes ou
d'autres technologies de pointe
comme le nouvel IBM PureData
System for Analytics (mis en
S
Figure 2 : La plate-
forme d'informatio
ns intégrée
Copyright © 2012, 9sight Consulting. Tous droits réservés. 11
œuvre par la technologie Netezza).
3. Le pilier Informations d'analyse détaillées requiert des capacités de traitement importantes et
très souples, comme l'analyse statistique et l'exploration de textes, souvent mises en œuvre
dans l'environnement Hadoop.
4. Le pilier Données d'analyse rapides requiert une technologie permettant d'analyser les données
très rapidement, comme avec IBM InfoSphere Streams. Souvent générées par plusieurs sources,
ces données doivent être analysées en continu et agrégées avec une latence quasi nulle pour
générer des alertes et prendre des décisions en temps réel.
5. À l'intersection de la rapidité et de la flexibilité, le pilier Données d'analyse spécialisées effectue
un traitement spécialisé (NoSQL, XML, graphique et autres bases/magasins de données). Il
apparaît en double dans la plateforme, car il s'applique aux données générées par des machines
et aux informations d'origine humaine.
La figure 2 montre comment ces piliers sont répartis entre les trois composantes
de l'information et place les systèmes d'enregistrement opérationnels
traditionnels au cœur de la plateforme. Le pilier central de la plateforme ressemble
beaucoup à l'architecture d'un entrepôt de données traditionnel, à cette
différence près que dans les entrepôts utilisés pour l'analyse et la création de
rapports, les données peuvent – et souvent doivent – provenir directement des
systèmes opérationnels.
Les métadonnées sont essentielles à cette nouvelle architecture pour contextualiser les informations
et permettre une gouvernance appropriée. Dans les composantes traitées par processus et générées
par des machines, les métadonnées sont explicites et, en général, stockées séparément. Dans la
composante d'origine humaine, elles ont tendance à être implicites dans les informations elles-
mêmes. Il est donc impératif d'élaborer de nouvelles approches pour modéliser, identifier et
visualiser les sources internes et externes de données, ainsi que leurs relations – comme dans les
outils IBM Vivisimo d'optimisation des informations – au sein de la plateforme.
Parmi les fonctionnalités requises, l'intégration des données qui déplace, copie, nettoie et
conditionne les données dans la plateforme (flèches noires), et la virtualisation des données (liens
orange) jouent un rôle central. Bien entendu, les métadonnées sont incontournables dans ces
deux fonctionnalités. L'intégration des données, également appelée ETL (pour
Extract/Tranform/Load, littéralement extraction/transformation/chargement), existait déjà dans les
entrepôts de données et remplit la même fonction dans la plateforme d'informations intégrée.
Quant à la virtualisation des données, certains puristes des entrepôts de données la proscrivent. Ceci
dit, contrairement à l'architecture EDW classique dans laquelle tous les flux de données traversent un
même entrepôt instancié physiquement, la plateforme d'informations intégrée regroupe plusieurs
entrepôts unifiés logiquement par les données métier et les métadonnées essentielles. La
virtualisation des données permet aux utilisateurs et aux applications d'accéder aux données
stockées dans des technologies hétérogènes et sur plusieurs sites via une couche sémantique. Elle
offre une vue métier des informations, masque la complexité technique de l'accès et autorise une
jonction en temps réel des résultats provenant de plusieurs sources.
Les outils d'administration et de Business Analytics incluent toutes les fonctions que vous attendez :
exploration, visualisation, identification, développement d'applications, gestion des systèmes, etc. Le
Business Analytics couvre à la fois l'utilisation du Big Data et les fonctionnalités de BI traditionnelles.
La plateforme d'informations intégrée
contient toutes les informations générées et utilisées par l'entreprise.
Copyright © 2012, 9sight Consulting. Tous droits réservés. 12
Dans sa forme la plus aboutie, la plateforme intégrée contient toutes les informations
générées et utilisées par l'entreprise. Ces informations proviennent des interactions
de l'entreprise avec des machines et des personnes, tant en interne qu'en externe,
ainsi qu'avec d'autres organisations. C'est ce que montre la partie inférieure de la
figure 2. En général, les événements sont enregistrés par des capteurs et des
machines. Les communications correspondent aux interactions entre les personnes.
Et les transactions désignent les interactions qui ont une importance financière pour
l'entreprise. Ces transactions sont primordiales pour une entreprise, c'est pourquoi
elles ont compté parmi les premiers à être informatisés, et les systèmes opérationnels effectuent un
travail complet de contrôle qualité avant de les accepter. Elles constituent également la principale
source de données métier essentielles. Les événements et les communications nécessitent un
contrôle qualité moindre et peuvent donc être chargés directement dans les systèmes qui les utilisent
et les analysent.
Mise en œuvre d'une plateforme d'informations intégrée
Comment mangez-vous un éléphant ? Par petits morceaux…
omme le Big Data, si les informations sous
toutes leurs formes étaient un animal,
elles seraient aussi un éléphant… ou plus
précisément un troupeau d'éléphants. Comme
nous l'avons vu, pour régner sur ce troupeau, il
faut une plateforme intégrée prenant en charge
tous les types d'information. Bien que sa vision
et sa portée soient complètes, cette plateforme
existe déjà partiellement ou, plus souvent, en plusieurs morceaux. En fait, il s'agit d'un travail en
cours qui a débuté dans de nombreuses organisations avec leur premier entrepôt, probablement
dans les années 1990, lorsqu'elles ont commencé à créer des informations utilisables dans toute
l'entreprise. L'un des principaux objectifs de l'architecture des premiers entrepôts de données9 était
la cohérence, première condition pour une utilisation globale des informations, quels que soient les
volumes concernés. La plupart des méthodes et techniques utilisées dans la création d'un entrepôt
s'appliquent au Big Data, comme bon nombre de technologies. L'important, c'est de ne pas croire
que les nouvelles technologies sont si différentes qu'elles changent tout. Ce
n'est pas le cas.
À partir de vos systèmes actuels et, en particulier, de vos entrepôts complets,
vous pouvez commencer par créer la plateforme d'informations intégrée
nécessaire pour extraire une valeur métier concrète des Big Data. Et vous
pouvez dès maintenant profiter de certains avantages de cette plateforme :
Réutilisation des données et environnements existants dans la mesure du possible
Possibilité d'ajouter de nouvelles technologies en cas de besoin
Signification et utilisation cohérentes des informations entre les environnements
Réduction du délai de rentabilisation et du retour sur investissement pour la technologie existante
C
Pour mettre en place une plateforme intégrée de
Big Data, appuyez-vous sur l'infrastructure existante et les
outils de la gestion des données, notamment l'entrepôt de données
d'entreprise.
La plateforme d'informations intégrée est l'unification virtuelle
du Big Data et des informations métier
traditionnelles.
Copyright © 2012, 9sight Consulting. Tous droits réservés. 13
Si vous cherchez à valoriser les informations d'origine humaine provenant du Web (comme les
médias sociaux) ou de sources internes (comme les journaux de centres d'appels ou des archives de
textes), créer un environnement de type « Sandbox » (littéralement « bac à sable ») dans Hadoop est
recommandé. Du point de vue technologique, il est primordial que ce nouvel environnement soit lié
aussi étroitement que possible à votre système de BI pour permettre un transfert bidirectionnel
d'informations : par exemple, envoi de données métier certifiées sur des clients ou des produits vers
l'environnement Hadoop à des fins d'analyse, et envoi de données synthétiques issues des tâches
d'analyse vers le système de BI pour créer des rapports et prendre des décisions.
Du point de vue organisationnel, ce sont les scientifiques des données et leur rareté sur le marché qui
ont fait l'objet de toutes les attentions. Véritables experts, ces scientifiques résolvent des problèmes
de données complexes grâce à leurs compétences en collecte et nettoyage de données, en analyse
statistique, en visualisation et à une connaissance approfondie du domaine. On oublie fréquemment
que les utilisateurs expérimentés de systèmes de BI et de tableurs dans les services commerciaux qui
utilisent des données à grande échelle, peuvent faire des scientifiques des données très compétents.
Au sein du service de marketing, les utilisateurs qui ont le bon état d'esprit et sont habitués à analyser
beaucoup de données et à en extraire du sens, constituent souvent d'excellents candidats. Ils
peuvent avoir besoin d'une formation plus avancée en statistiques ou en programmation, mais ils
connaissent le domaine et ont la bonne tournure d'esprit. Si vous recrutez des scientifiques des
données, assurez-vous de l'implication de l'équipe de BI dans le nouvel environnement pour que ces
nouvelles compétences s'intègrent bien au sein des équipes existantes. Par exemple, vous pouvez
créer une équipe de deux ou trois personnes, avec un commercial qui comprend l'analyse et aime
jouer au détective, et un informaticien de l'équipe de BI, capable d'accéder aux données de l'entrepôt
et de les intégrer dans les nouvelles technologies de Big Data.
Si votre entreprise cherche de nouvelles perspectives ou de nouveaux processus concernant les
données collectées par des machines ou des capteurs, les possibilités qui s'offrent à vous sont
multiples. Vous pouvez commencer par une base de données d'analyse, comme la nouvelle base IBM
PureData System for Analytics, pour stocker et explorer ces données. Si vos besoins en analyse sont
plus opérationnels, optez pour la nouvelle base de données IBM PureData System for Operational
Analytics. Vous pouvez également utiliser Hadoop et IBM InfoSphere BigInsights si les volumes sont
particulièrement massifs ou si les structures sont très variables. Dans l'éventualité où la vitesse de
traitement est la priorité, une solution de flux, comme IBM InfoSphere Streams, est à envisager. Dans
tous les cas, les impératifs technologiques et organisationnels sont les mêmes que ceux mentionnés
ci-dessus : une intégration étroite dans l'environnement et l'équipe de BI.
Au fur et à mesure que vous répondrez à d'autres besoins métier et que vous ajouterez des
fonctionnalités, l'un des principaux avantages d'une plateforme transparaîtra rapidement : la
réutilisation des ressources de l'infrastructure et des données. La même intégration des données et
les mêmes métadonnées seront utilisées dans les différentes parties de la plateforme. Le travail de
contrôle qualité effectué dans un composant se répercutera sur la qualité globale. Les commerciaux
auront un accès élargi à différents types de données – si leurs tâches l'exigent – grâce à un jeu
commun d'outils utilisés de manière cohérente et une meilleure contextualisation.
À certains égards, le Big Data pose les mêmes types de problèmes de gestion des données
que les tableurs. La plupart des équipes en charge de la BI ou de la gouvernance de
données refusent obstinément d'utiliser des tableurs. Comme le dit Wayne Eckerson :
« Les tableurs sont hors de contrôle dans la plupart des organisations. Ils prolifèrent comme
du poison, étranglant lentement [les entreprises]... »10. Le Big Data, tel qu'il est mis en
œuvre aujourd'hui, est conforme à cette image : non contrôlé, non géré et centré autour
Dans le cas de la BI, l'adhésion des
commerciaux et le soutien de la direction
sont les principaux critères de réussite
pour la mise en œuvre du Big Data.
Copyright © 2012, 9sight Consulting. Tous droits réservés. 14
de quelques scientifiques des données, de leurs outils et de leurs jeux de données. La mise en place
d'une plateforme intégrée constitue une étape importante pour endiguer cette prolifération.
Combinée à une intégration étroite dans l'organisation de BI existante, cette approche peut
transformer le Big Data en un puissant outil d'innovation et d'amélioration des processus, et non en
une arme de destruction massive de valeur.
Mais, l'étape la plus importante de la mise en œuvre consiste peut-être à emporter l'adhésion des
commerciaux et le soutien de la direction. Ceci n'est pas nouveau pour les développeurs de BI. Mais
attention ! Certains fournisseurs de solutions de Big Data sont issus de communautés de
programmation, Open Source et de développement Web, où le soutien de la direction est rare.
Associer vos initiatives de Big Data à des initiatives d'entrepôt de données et de BI déjà couronnées de
succès est certainement la meilleure solution pour emporter la confiance. Compte tenu des avantages
métier considérables et très visibles du Big Data, le soutien de la direction au plus haut niveau peut
être plus facile et plus rapide à obtenir que pour les initiatives d'entrepôt de données. Un tel
enthousiasme peut et doit servir à faciliter la mise en place d'une plateforme d'informations intégrée.
Et à tirer les leçons des expériences précédentes, grâce à une approche graduelle qui apporte des
avantages métier à chaque étape.
Copyright © 2012, 9sight Consulting. Tous droits réservés. 15
Conclusion
e Big Data offre probablement les opportunités commerciales les
plus importantes et les plus novatrices depuis l'apparition du
commerce électronique à la fin des années 1990. Bien
évidemment, le Big Data a fait l'objet d'une surmédiatisation, tout
comme le commerce électronique. Mais, nous sommes aujourd'hui à un
tournant. On assiste maintenant à un retour à la normale avec des
fournisseurs de systèmes de gestion d'informations traditionnels qui
s'impliquent davantage dans le marché et un centre de l'attention qui
s'est déplacé des start-up Internet vers les entreprises bien établies. La
mise en œuvre du Big Data est beaucoup plus efficace si elle s'inscrit dans des processus globaux de
gestion des informations globaux, en place depuis longtemps, et si sa finalité reste d'améliorer les
résultats de l'entreprise. Pourquoi ? Parce que le Big Data, quel que soit son volume, sa vitesse ou sa
variété, est composé de données métier qui requièrent une gestion appropriée et une intégration aux
sources existantes. Seul, le Big Data peut générer des connaissances métier précieuses, mais pour
que l'entreprise en retire un bénéfice durable, il doit être pleinement intégré aux processus
traditionnels de gouvernance et de gestion des données.
D'un statut de technique expérimentale, le Big Data est en passe de devenir une technologie de
pointe. De plus en plus d'entreprises tirent parti des opportunités du Big Data pour repenser leurs
principaux processus opérationnels et décisionnels. Le moteur de cette évolution, c'est la création
d'une plateforme de Big Data prenant en charge de nombreux types de données dans un
environnement professionnel intégré, avec une solution d'analyse métier qui exploite les données
dans leur format natif, aussi proche que possible de leurs sources. Les avantages métier d'une telle
plateforme intégrée sont les suivants :
1. Fournir des analyses prédictives pour l'avenir en analysant les médias sociaux et le comportement
des clients à partir des données réelles et fiables que l'entreprise collecte depuis longtemps pour
une utilisation quotidienne
2. Prendre des décisions opérationnelles en temps réel grâce aux informations fournies plus
rapidement par des machines et des capteurs situés dans l'environnement externe, et utilisées
conjointement avec les données transactionnelles traditionnelles
3. Réinventer les processus métier pour des modèles économiques plus rapides, plus innovants et
plus efficaces en unifiant les activités informationnelles et opérationnelles
Avec de tels avantages en vue, l'informatique doit – et peut – créer un système de Big Data
rapidement et progressivement à partir de l'infrastructure de gestion des données existante. La
plupart du temps, le point de départ est l'entrepôt de données ou l'environnement de BI. Voici
quelques exemples, parmi d'autres : mise en œuvre de Hadoop pour prétraiter et analyser le contenu
existant, comme des enregistrements de centres d'appels ; ajout d'une technologie de flux pour
acheminer les données en temps réel dans l'entrepôt de données ; et modernisation de l'entrepôt de
données existant pour que les sources de données des capteurs alimentent directement les bases de
données servant à l'analyse. Les stratégies de mise en place de cette nouvelle plateforme ne
manquent pas. Moyennant un investissement relativement limité en temps, en travail et en coût, elles
permettent d'obtenir rapidement des avantages tangibles et de fournir à l'équipe informatique une
base de travail.
L
Copyright © 2012, 9sight Consulting. Tous droits réservés. 16
Pour tirer parti de ces véritables opportunités, la collaboration entre le service commercial et l'équipe
informatique est essentielle. Elle permet de commencer immédiatement à planifier et déployer une
stratégie de Big Data complète et incrémentielle. Débuter modestement avec des méthodes de
projet agiles permet de valoriser rapidement les données de l'entreprise et d'intégrer l'analyse et les
scientifiques des données dans l'entreprise. Aujourd'hui, la technologie du Big Data a atteint une
certaine maturité et s'intègre de plus en plus étroitement dans les plateformes de gestion de
données actuelles. Le moment est donc idéal pour les entreprises innovantes de sortir du lot pour
distancer rapidement et durablement la concurrence.
Une plateforme d'informations intégrée constitue la première étape vers une mise en œuvre efficace
du Big Data et l'obtention d'avantages métier réels et durables.
Le Dr Barry Devlin est l'un des experts les plus reconnus en matière de Business Analytics et l'un des créateurs des entrepôts de données, dont il a décrit l'architecture dans un article publié en 1988. Il compte plus de 30 ans d'expérience en informatique, dont 20 chez IBM en tant qu'ingénieur émérite. Brillant analyste, consultant et conférencier, il est aussi l'auteur de l'ouvrage « Data Warehouse – from Architecture to Implementation » et de nombreux livres blancs.
Barry a créé et dirige 9sight Consulting. Il est spécialiste des implications humaines, organisationnelles et informatiques des solutions de Business Analytics qui combinent des environnements opérationnels, informationnels et collaboratifs. Il contribue régulièrement à BeyeNETWORK, Focus, SmartDataCollective et TDWI. Il vit à Cape Town, en Afrique du Sud, et travaille dans le monde entier.
Les appellations et noms de produit mentionnés dans cet article sont des marques commerciales ou déposées d'IBM. Crédits des images : Éléphant africain : Barry Devlin Aveugles : C. M. Stebbins & M. H. Coolidge, « Golden Treasury Readers: Primer », American Book Co. (New York), 1909 [Wikipedia.com] Aigle : www.123rf.com/photo_5236964_american-bald-eagle-in-flight-blue-sky-on-background.html [LoonChild / 123RF.com] Castors : Willem Janszoon Blaeu : « Nova Belgica et Anglia Nova » (détail), 1635 [Wikipedia.com] Éléphants origami : Katherine Devlin Peintures de la grotte Chauvet : HTO [Wikipedia.com]
1 « Data, data everywhere – A special report on managing information », The Economist, février 2010 2 « Outperforming in a data-rich, hyper-connected world », IBM Center for Applied Insights, mars 2012, http://bit.ly/MKxHhe 3 « Big data: The next frontier of innovation, competition and productivity », McKinsey Global Institute, mai 2011 4 « Gartner Reveals Top Predictions for IT Organizations and Users for 2012 and Beyond », Gartner, décembre 2011, http://bit.ly/S2mvgW 5 Extrait du poème « Les aveugles et l'éléphant » de John Godfrey Saxe (1816-1887) 6 « Expanding Digital Universe », International Data Corporation (IDC), 2007-2011, http://bit.ly/IDC_Digital_Universe 7 Euripide, dramaturge grec (env. 480-406 av. J.-C.) 8 Joseph S. Nye, Jr. (1937-) 9 Devlin, B. A. et Murphy, P. T., « An architecture for a business and information system », IBM Systems Journal,
Volume 27, Numéro 1, Page 60 (1988) http://bit.ly/EBIS1988
10 Eckerson, W., « The Rise and Fall of Spreadmarts », DM Review, 2003