Le zoo du Big Data - Comment apprivoiser les animaux

Le zoo du Big Data – Comment apprivoiser les animaux

La nécessité d'une plateforme intégrée pour les informations de l'entreprise

Octobre 2012

Un livre blanc de

Dr Barry Devlin, 9sight Consulting

[email protected]

Le Big data est probablement l'évolution la plus importante dans

l'utilisation des informations par les commerciaux et les informaticiens,

cette dernière décennie. Elle révolutionne la manière dont les entreprises

décident, fonctionnent, réussissent ou échouent. En exploitant les

informations intelligemment, elle permet d'anticiper le changement et

d'en tirer parti. Pour ce faire, l'équipe informatique doit regarder au-delà

des technologies traditionnelles et faire appel à de nouveaux outils pour

traiter des volumes plus importants de données hétérogènes, et ce, plus

rapidement que jamais.

L'analyse du zoo du Big Data a omis un point essentiel : que le volume soit

petit ou gros, ce sont toujours des données. Il convient les gérer et les

intégrer dans toute l'entreprise pour les valoriser pleinement et garantir

leur utilisation cohérente. Apprivoiser le Big Data est une condition

essentielle pour obtenir cette valeur. Ce livre blanc propose trois solutions :

1. La base pour extraire la valeur métier maximale des volumes massifs

de données à leur source est une plateforme technologiquement

diversifiée et étroitement intégrée pour toutes les informations

(Big Data et transactions traditionnelles).

2. Une approche d'entreprise – réunissant plateforme, produits et

processus – est indispensable pour préserver la qualité et l'utilisation à

long terme du Big Data, conjointement avec les données provenant de

systèmes de Business Intelligence et autres.

3. Le déploiement rapide des projets de Big Data est nécessaire pour tirer

parti au plus tôt des nouvelles opportunités commerciales. Pour ce

faire, il contient d'intégrer progressivement des fonctionnalités de

Big Data dans l'infrastructure de gestion des données au sein de

l'entrepôt de données.

Sommaire

3 La parabole des aveugles et

de l'éléphant – Le contexte du Big Data

5 Big Data et petits volumes

vus du ciel

7 Une plateforme intégrée

pour tous les types d'information

9 Mise en œuvre d'une

plateforme d'informations intégrée

11 Conclusion

mailto:[email protected]

Copyright © 2012, 9sight Consulting. Tous droits réservés. 2

Apprivoiser les animaux du Big Data est la prochaine étape dans la gestion

des données.

Parrainé par :

International Business Machines

www.ibm.com

http://www.ibm.com/


i le Big Data était un mammifère, ce serait un éléphant. Peut-être imaginez-

vous un petit éléphant jaune. Moi pas. J'imagine un grand éléphant gris,

membre d'un troupeau. Je parle de quelque de plus grand que Hadoop. Je

parle de tous les types de données que les entreprises collectent dans des

quantités de plus en plus importantes. À cet égard et malgré sa nouveauté

technique, le Big Data ressemble aux autres données : il faut le gérer et l'utiliser

correctement à l'échelle de l'entreprise pour en extraire une valeur métier

significative et obtenir l'impact durable annoncé.

Si le Big Data était un reptile, ce serait un caméléon. Avant 2005, le Big Data était une expression

utilisée par des scientifiques incapables de stocker ou d'analyser toutes les données produites par

leurs expériences. C'est toujours le cas. Ensuite, le Big Data est devenu un terrain de jeu pour les

chercheurs qui, au sein d'entreprises comme Google et Netflix, exploitaient des volumes massifs de

données Web à leur disposition. C'est toujours le cas. En 2008, Hadoop est devenu un projet « Open

Source » prioritaire d'Apache, synonyme de Big Data. C'est toujours le cas. Avant 2010, même le

magazine The Economist a publié un numéro spécial1 sur le Big Data et les spécialistes du marketing

ont commencé à tout renommer. Le Big Data englobe tout ceci… et bien plus encore. Mais

aujourd'hui, il est temps d'arrêter de triturer la forme. Désormais, le Big Data est au cœur d'une

technologie de pointe, qui bouleverse la donne en profondeur : l'analyse métier ou Business Analytics.

La vitesse d'exécution de cette technologie et les volumes qu'elle prend en charge sont tels que

l'ancien paradigme consistant à tout copier et tout nettoyer dans un entrepôt de données est

complètement obsolète. La majeure partie de cette analyse doit être effectuée sur des volumes

massifs de données dans leur format natif, aussi proche que possible de leur source. Et nul besoin

d'être un grand penseur pour savoir qu'une approche fédérée ou virtualisée – réunissant l'entrepôt

de données et le Big Data – est indispensable.

Le Big Data ouvre de nouvelles opportunités d'analyse et d'anticipation permettant aux entreprises

de surclasser significativement leurs concurrents2. En 2011, McKinsey estimait que le Big Data pourrait

générer 300 milliards de dollars dans le secteur de la santé et 250 milliards de dollars

dans le secteur public aux États-Unis3. Clairement, les opportunités commerciales ne

manquent pas et les premiers positionnés en tirent déjà parti. Ceci dit, tout n'est pas

aussi simple. Parmi les prévisions de Gartner pour 2012 et au-delà4, on pouvait lire : « En

2015, plus de 85 % des entreprises du classement Fortune 500 ne seront pas en mesure

d'exploiter efficacement le Big Data à leur avantage » en raison de leur incapacité à relever

les défis techniques et en matière de gestion.

Ces défis concernent essentiellement l'informatique. Le Big Data n'est pas le seul élément de

l'infrastructure. Pour un déploiement et une utilisation efficaces, il doit être intégré dans les

processus métier existants. Il doit être et sera associé à tous les outils informationnels actuellement

en place dans une plateforme d'entreprise complète. Idéalement, la mise en place du Big Data doit

être progressive et, la plupart du temps, précoce pour être véritablement efficace.

Pourtant, trois idées reçues perdurent sur le Big Data. Tout d'abord, il peut résoudre le problème de

la faim dans le monde ou, du moins, garantir la réussite de chaque entreprise. Ensuite, il semble

supplanter toutes les technologies traditionnelles de Business Intelligence et d'entrepôt de données.

Enfin, tout le monde semble l'utiliser. Malheureusement, aucune de ces affirmations n'est vraie !

Au final, le Big Data ressemble davantage à un virus qui apparaît et se propage comme une pandémie.

La vérité est à la fois plus révolutionnaire et plus terre à terre. Le Big Data peut et va ouvrir des

opportunités commerciales gigantesques… mais uniquement si nous conservons nos racines : des

processus de gestion des données efficaces et des technologies d'entreprise bien intégrées.

S

Le Big Data ouvre de grandes opportunités,

mais peu d'entreprises en

tireront parti efficacement.


La parabole des aveugles et de l'éléphant – Le contexte du Big Data

« Six hommes d’Hindoustan / très enclins à parfaire leurs connaissances, Allèrent voir un éléphant / (bien que tous fussent aveugles),

Afin que chacun en l'observant / puisse satisfaire sa curiosité.5

a parabole des aveugles qui touchent différentes

parties d'un éléphant et en tirent des conclusions

fausses – découvrant que toute vérité est relative –

illustre assez bien la situation actuelle du marché par

rapport au Big Data. Chaque consultant et chaque fournisseur voient et décrivent le Big Data en

fonction des parties qu'ils touchent… sans parler des outils qu'ils possèdent ni des marchés qu'ils

aspirent à conquérir. L'impression globale est celle d'une confusion… que nous allons dissiper tout

de suite.

Chaque année, la quantité d'informations stockée et traitée augmente de plus de 50 %,

selon IDC6. Cette caractéristique appelée à juste titre volume est à l'origine de l'expression

« Big Data ». La plupart des définitions du Big Data y ajoutent deux autres mots : la vitesse

(le rythme de plus en plus rapide d'arrivée et de traitement des données) et la variété (la

diversité croissante des structures de données à prendre en charge). IBM a récemment

introduit un quatrième aspect : la véracité, c'est-à-dire la nécessité de considérer comme

fiables les données utilisées pour prendre des décisions stratégiques et opérationnelles. Certains

analystes tiennent à ajouter la variabilité ; d'autres, la valeur, la viralité, la validité et la viscosité. Ces

définitions ne sont ni satisfaisantes, ni cohérentes. En fait, le terme vague est probablement celui qui

convient le mieux. Aucun de ces termes ne se prête à une mesure précise. Donc, comment de simples

mortels peuvent-ils répondre à cette simple question : le Big Data est-il pour moi ?

L'approche la plus simple, suivie de manière pragmatique par les tout premiers sur le marché,

consiste à examiner les utilisations commerciales du Big Data et à voir comment les mettre en œuvre.

Bien sûr, cette approche ne peut pas être complète, car de nouvelles utilisations sont susceptibles

d'être découvertes. Mais, le Big Data peut avoir son importance si votre entreprise travaille dans un

ou plusieurs des secteurs suivants :

1. Le marketing utilise le contenu des médias sociaux, les informations sur les relations

et les données collectées en interne sur les interactions avec les clients (comme les

journaux des centres d'appels), pour mieux connaître les motivations des clients.

Dans des secteurs tels que la vente au détail, les biens de consommation et les

télécommunications, où l'interaction avec un grand nombre de clients peut être

directe ou indirecte, le Big Data permet une transition entre l'échantillonnage et

l'analyse d'un jeu complet de données, entre des segments démographiques et des

marchés très ciblés, et entre un suivi à long terme de données historiques et une

réaction en temps réel à des nouveaux événements. Le but ultime étant la prévision du

comportement des clients et la suggestion d'actions, comme une deuxième meilleure offre.

2. L'identification des fraudes et d'autres irrégularités dans les données des transactions financières

porte sur des volumes croissants de transactions de petite valeur, sur des intervalles de temps de

L

Le Big Data se développe

rapidement, mais le définir précisément

n'est pas chose facile.

Le volume, la vitesse et la variété ont

beaucoup moins d'importance que ce

que vous faites avec le Big Data.


plus en plus courts. Les techniques d'analyse de Big Data sur les flux de données – avant ou sans

stockage sur disque – sont devenues la norme.

3. La prévision en temps réel devient possible car les services de distribution – eau, électricité,

télécommunications – peuvent désormais suivre la consommation des clients individuellement,

grâce à une technologie de capteurs omniprésents et à des processus de Big Data capables de

traiter ces données. La valeur réside dans la capacité à prédire les pics et les creux de

consommation, et dans une certaine mesure, à les lisser en influençant le comportement des

clients.

4. Le suivi d'articles physiques (aliments, appareils électroménagers, colis ou conteneurs) par les

fabricants, les producteurs et les distributeurs, depuis la distribution jusqu'à la mise au rebut,

permet d'optimiser les processus métier et d'améliorer le taux de satisfaction des clients. Les

personnes, en tant qu'entités physiques, peuvent aussi faire l'objet d'un suivi pour des motifs liés

au commerce ou à la surveillance.

5. Le renouvellement des processus métier par une utilisation innovante des données générées par

les capteurs permet de modifier des secteurs d'activité entiers. Par exemple, une compagnie

d'assurance peut fixer le montant des primes en fonction du comportement réel des

automobilistes et non d'un risque moyen calculé de manière statistique. Au-delà des questions

éthiques, les données génomiques individuelles et les dossiers médicaux électroniques

constituent des opportunités intéressantes pour les compagnies d'assurance santé.

Il convient également de faire barrage à certaines idées fausses propagées par des soi-disant experts

qui se focalisent trop sur chaque partie de l'éléphant.

Le Big Data est bien plus que des flux de médias sociaux comme Twitter et Facebook. Ce type de

données est important mais essentiellement pour des clients réels et des transactions économiques

que nous enregistrons habituellement dans des systèmes opérationnels et que nous analysons avec

des outils de BI (Business Intelligence). De même, une vision axée uniquement sur les données de

capteurs, provenant de l'« Internet des objets », omet que l'utilisation ou l'analyse de ces données

doit, d'une façon ou d'une autre, s'intégrer dans les processus métier actuels ou repensés. De même,

une équipe de scientifiques des données, travaillant de manière autonome, ne peut pas espérer

changer les processus métier en exploitant une seule source de données sur une nouvelle plateforme

technique. L'intégration des données de plusieurs sources traditionnelles ou nouvelles, à l'aide de

multiples outils, est la première condition. La deuxième est un processus bien intégré, prenant en

compte toutes les données pour pouvoir les valoriser pleinement.

Autre idée reçue : la technologie du Big Data peut ou doit supplanter les bases de données

relationnelles ou les entrepôts de données d'entreprise (EDW). Cette conception est excessivement

simpliste. En fait, la technologie du Big Data est une extension et une intégration des techniques et

outils existants, depuis le traitement séquentiel jusqu'aux systèmes de gestion de base de données.

L'écosystème Hadoop, par exemple, traite en parallèle des fichiers volumineux l'un après l'autre. Les

bases de données relationnelles et leurs outils se focalisent, entre autres, sur la gestion systématique

des informations et la cohérence des données. À l'inverse, la technologie du Big Data met l'accent sur

d'autres caractéristiques très prisées, comme la rapidité d'accès, la variabilité des schémas et, bien

entendu, des volumes massifs de données.

La vérité aujourd'hui, c'est que de nombreux processus métier très performants ont

besoin d'allier ces deux caractéristiques. Certaines tâches nécessitent de la souplesse,

des frontières mouvantes et des approches innovantes. D'autres requièrent de la

certitude, un champ d'application délimité et un respect des règles. Les processus

Les processus métier évolutifs requièrent

des approches et des outils traditionnels,

ainsi que des approches et des

outils de Big Data.


métier franchissent un seuil de complexité qui dépasse les capacités de traitement des systèmes

traditionnels, mais qu'un système de Big Data caractérisé par le volume, la variété et la vitesse est

incapable de prendre en charge. Nous avons besoin d'une plateforme et d'outils professionnels qui

combinent les deux.

Pour définir une telle plateforme, il faut admettre que nous assistons à une transition rapide entre un

monde dominé par un type de données et un autre monde où trois types d'information ont une

importance équivalente.


Big Data et petits volumes vus du ciel

« L'éther entier est le domaine de l'aigle : La terre entière est la patrie d'un brave. »

7

n adoptant le point de vue d'un aigle planant au-dessus de toutes les

divisions et de tous les silos des organisations et systèmes existants,

l'équipe informatique peut voir comment les informations et les

processus interagissent. Fondamentalement, nous avons besoin d'une

nouvelle représentation mentale des informations et de leurs

trois composantes étroitement imbriquées :

1. Informations d'origine humaine* : toutes les informations sont créées par des individus. Elles

constituent une vision éminemment subjective de nos expériences personnelles. Auparavant

conservées dans des livres et des œuvres d'art, puis dans des photographies, des

enregistrements sonores et des vidéos, les informations d'origine humaine sont aujourd'hui en

grande partie numérisées et stockées électroniquement sous des formes aussi différentes que

les tweets et les films. Elles ont une structure variable, ne sont pas contrôlées et peuvent même

fausser la perception de la réalité, notamment pour les entreprises. La structuration et la

standardisation – notamment par la modélisation – sont nécessaires pour définir une version

commune de la vérité. Nous convertissons les informations d'origine humaine en données

traitées par des processus, de plusieurs manières dont la plus simple est la saisie dans des

systèmes d'enregistrement.

2. Données traitées par processus : chaque entreprise ou organisation met en œuvre des processus

qui, entre autres, mémorisent et contrôlent des événements, comme l'enregistrement d'un client,

la fabrication d'un produit ou la passation d'une commande. Ces données incluent des

transactions, des tables de référence et des relations, ainsi que des métadonnées qui définissent

le contexte, le tout dans un format très structuré. Traditionnellement, les données traitées par

processus formaient l'essentiel de ce que l'informatique gérait et traitait, qu'il s'agisse de

données opérationnelles ou de BI. Leur format très structuré et réglementé en fait un support

idéal pour des tâches telles que la gestion des informations, la préservation de la qualité des

données, etc.

3. Données générées par des machines : nous déléguons de plus en plus aux

machines la mesurer et l'enregistrement des événements et des situations dont

nous faisons l'expérience physique. Les données générées par des machines –

simples enregistrements de capteur ou journaux informatiques complexes – sont

bien structurées et considérées comme un reflet fiable de la réalité. Elles

représentent une part croissante des informations stockées et traitées par de

nombreuses entreprises. Leur volume est en constante augmentation car les

capteurs prolifèrent. Bien que leur structure se prête bien aux opérations

informatiques, leur taille et leur vitesse de circulation dépassent les capacités des

systèmes traditionnels, comme l'EDW, pour les données traitées par processus.

Les tailles relatives et l'importance subjective de ces trois composantes ont évolué

* Dans le contexte de ces trois composantes, les « données » sont bien structurées et/ou modélisées, et les « informations » sont peu structurées et centrées sur l'humain.

E

Les données métier traditionnelles sont le

résultat d'expériences personnelles et de

mesures effectuées par des machines ;

le Big Data remet les processus métier en

contact direct avec la réalité du monde.


ces dix dernières années et devraient encore changer dans la décennie qui vient. Jusqu'à la fin du

dernier millénaire, les données traitées par processus prédominaient. Les informations d'origine

humaine et les données générées par des machines qui existaient sous forme numérique

représentaient un volume relativement faible et étaient considérées comme négligeables par rapport

aux données bien gérées des systèmes opérationnels et informationnels. La dernière décennie a été

marquée par l'explosion du Big Data constitué d'informations d'origine humaine et de données

générées par des machines. La dernière composante, sous la forme de données de médias sociaux, a

cristallisé toute l'attention. Ces prochaines années, la croissance rapide de l'Internet des objets va

renforcer l'importance et le volume des données générées par des machines.

Cependant, comme vous pouvez le voir

dans la figure 1, les informations

d'origine humaine et les données

générées par des machines sont à

l'origine des données traitées par

processus qui sont au centre de nos

préoccupations depuis longtemps, bien

que seule une petite partie bien définie

soit traitée par les processus métier

traditionnels. Ces sources sont à la fois

plus souples et plus rapides que les

données traitées par processus

traditionnelles. En fait, les processus

métier qui créent des données traitées

par processus sont conçus pour réduire

la souplesse et la rapidité de circulation,

afin de préserver la qualité et la

cohérence des données obtenues. Ceci

transparaît clairement dans les

processus à l'œuvre dans l'EDW, mais également dans les systèmes opérationnels où la validation et

le nettoyage des données garantissent la véracité et la viabilité des données enregistrées.

XAujourd'hui, le volume d'informations d'origine humaine et de données générées par des machines

est beaucoup plus important. Leur rythme de changement et leur variabilité sont plus importants que

ceux des données traitées par processus. Leur copie et leur transformation par les processus

traditionnels sont de moins en moins commodes. De fait, une technologie spécialisée,

baptisée Business Analytics, est souvent nécessaire pour traiter et exploiter les

informations d'origine humaine et les données générées par des machines, aussi près de

leurs sources et aussi rapidement que possible. Ceci dit, le flux de données traitées par

processus et les métadonnées qui leur sont associées dans l'environnement de Business

Analytics sont tout aussi importants pour créer du sens, du contexte et de la cohérence

dans le processus d'analyse. Le Big Data et le Business Analytics complètent le processus

d'information en boucle, qui a toujours été implicite dans les technologies de l'information.

Les implications concrètes de ce modèle à trois composantes d'information sont

significatives et multiples :

Le traitement de Big Data, quelle que soit la technologie employée, s'appuie sur les données traitées par processus et les métadonnées traditionnelles pour créer le contexte et la cohérence indispensables à une utilisation pleinement pertinente.

Figure 1 : Les

trois composantes de

l'information

La technologie de Business Analytics

traite le Big Data aussi près que possible de sa

source pour une vitesse et une

efficacité optimales.


Les résultats du traitement de Big Data doivent être retransmis aux processus métier traditionnels pour permettre à l'entreprise de changer et d'évoluer.

Un environnement totalement cohérent, avec une plateforme intégrée, et une organisation à l'échelle de l'entreprise sont indispensables pour une mise en œuvre réussie.

Face à la prévalence grandissante du Big Data, les commerciaux et les informaticiens

doivent renoncer à l'ancienne dépendance vis-à-vis des données traitées par processus,

et adopter ces composantes plus souples et plus évolutives d'informations sur le monde

réel. La compréhension de la relation entre ces trois composantes d'information est

essentielle pour utiliser le Big Data en toute sécurité et de manière productive au sein de

l'entreprise. Pour définir et gérer cette relation, et rendre ces trois types d'information

disponibles dans toute l'entreprise, il faut une plateforme d'informations intégrée. C'est

ce que nous allons voir dans la section suivante.

Les données traitées par processus et les

métadonnées traditionnelles sont

primordiales pour comprendre le contexte

et gérer l'utilisation du Big Data.


Une plateforme intégrée pour tous les types d'information

« L'aigle peut planer ; les castors construisent des barrages. »8

i les développeurs d'entrepôt de données étaient des

animaux, ils seraient certainement des castors,

travaillant sans relâche à réguler les flux de données et

créant un référentiel complet d'informations métier

cohérentes. Les entrepôts de données et les environnements

de gestion de données d'entreprise associés, comme les

systèmes de gestion de données de référence (MDM), sont

des référentiels fiables de données traitées par processus qui sont bien gérées et bien contrôlées. En

revanche, l'origine du mouvement du Big Data dans la science et les entreprises spécialistes du Web,

comme Google et Yahoo!, très compétentes en ingénierie, a conduit à une approche fondée sur une

technologie « Open Source » et une programmation personnalisée. Une telle approche met

davantage l'accent sur l'adaptabilité, le volume et la vitesse que sur la qualité des données.

Aujourd'hui, les entreprises ont besoin de ces deux volets, l'un ne pouvant remplacer l'autre.

Une plateforme intégrée pour tous les types d'information (voir la figure 2) doit donc mobiliser

plusieurs technologies d'analyse et de base de données. Optimisée pour un type particulier de

traitement et d'accès, chacune constitue un pilier et est nommée en fonction de son rôle métier.

1. Au centre, le premier pilier Données métier essentielles correspond à des données cohérentes et

fiables, stockées dans les systèmes EDW et MDM. Les bases de données relationnelles

traditionnelles, comme IBM DB2, constituent la technologie de base. Souvent stockées dans les

EDW aujourd'hui, les données de chaque application, servant à prendre des décisions et à créer

des rapports, sont exclues.

2. Le deuxième pilier, Données

d'analyse et de création de

rapports essentielles, contient les

données exclues du pilier

précédent. Idéalement, ce pilier

est, lui aussi, une base de données

relationnelle. Les plateformes

d'entrepôt de données, comme

IBM InfoSphere Warehouse, IBM

Smart Analytics System et le

nouvel IBM PureData System for

Operational Analytics, ont toute

leur place ici. Les entreprises qui

ont besoin de performances de

haut niveau pour les requêtes

peuvent choisir un système

d'analyse intégrant le traitement

massivement parallèle (MPP), des

bases de données en colonnes ou

d'autres technologies de pointe

comme le nouvel IBM PureData

System for Analytics (mis en

S

Figure 2 : La plate-

forme d'informatio

ns intégrée


œuvre par la technologie Netezza).

3. Le pilier Informations d'analyse détaillées requiert des capacités de traitement importantes et

très souples, comme l'analyse statistique et l'exploration de textes, souvent mises en œuvre

dans l'environnement Hadoop.

4. Le pilier Données d'analyse rapides requiert une technologie permettant d'analyser les données

très rapidement, comme avec IBM InfoSphere Streams. Souvent générées par plusieurs sources,

ces données doivent être analysées en continu et agrégées avec une latence quasi nulle pour

générer des alertes et prendre des décisions en temps réel.

5. À l'intersection de la rapidité et de la flexibilité, le pilier Données d'analyse spécialisées effectue

un traitement spécialisé (NoSQL, XML, graphique et autres bases/magasins de données). Il

apparaît en double dans la plateforme, car il s'applique aux données générées par des machines

et aux informations d'origine humaine.

La figure 2 montre comment ces piliers sont répartis entre les trois composantes

de l'information et place les systèmes d'enregistrement opérationnels

traditionnels au cœur de la plateforme. Le pilier central de la plateforme ressemble

beaucoup à l'architecture d'un entrepôt de données traditionnel, à cette

différence près que dans les entrepôts utilisés pour l'analyse et la création de

rapports, les données peuvent – et souvent doivent – provenir directement des

systèmes opérationnels.

Les métadonnées sont essentielles à cette nouvelle architecture pour contextualiser les informations

et permettre une gouvernance appropriée. Dans les composantes traitées par processus et générées

par des machines, les métadonnées sont explicites et, en général, stockées séparément. Dans la

composante d'origine humaine, elles ont tendance à être implicites dans les informations elles-

mêmes. Il est donc impératif d'élaborer de nouvelles approches pour modéliser, identifier et

visualiser les sources internes et externes de données, ainsi que leurs relations – comme dans les

outils IBM Vivisimo d'optimisation des informations – au sein de la plateforme.

Parmi les fonctionnalités requises, l'intégration des données qui déplace, copie, nettoie et

conditionne les données dans la plateforme (flèches noires), et la virtualisation des données (liens

orange) jouent un rôle central. Bien entendu, les métadonnées sont incontournables dans ces

deux fonctionnalités. L'intégration des données, également appelée ETL (pour

Extract/Tranform/Load, littéralement extraction/transformation/chargement), existait déjà dans les

entrepôts de données et remplit la même fonction dans la plateforme d'informations intégrée.

Quant à la virtualisation des données, certains puristes des entrepôts de données la proscrivent. Ceci

dit, contrairement à l'architecture EDW classique dans laquelle tous les flux de données traversent un

même entrepôt instancié physiquement, la plateforme d'informations intégrée regroupe plusieurs

entrepôts unifiés logiquement par les données métier et les métadonnées essentielles. La

virtualisation des données permet aux utilisateurs et aux applications d'accéder aux données

stockées dans des technologies hétérogènes et sur plusieurs sites via une couche sémantique. Elle

offre une vue métier des informations, masque la complexité technique de l'accès et autorise une

jonction en temps réel des résultats provenant de plusieurs sources.

Les outils d'administration et de Business Analytics incluent toutes les fonctions que vous attendez :

exploration, visualisation, identification, développement d'applications, gestion des systèmes, etc. Le

Business Analytics couvre à la fois l'utilisation du Big Data et les fonctionnalités de BI traditionnelles.

La plateforme d'informations intégrée

contient toutes les informations générées et utilisées par l'entreprise.


Dans sa forme la plus aboutie, la plateforme intégrée contient toutes les informations

générées et utilisées par l'entreprise. Ces informations proviennent des interactions

de l'entreprise avec des machines et des personnes, tant en interne qu'en externe,

ainsi qu'avec d'autres organisations. C'est ce que montre la partie inférieure de la

figure 2. En général, les événements sont enregistrés par des capteurs et des

machines. Les communications correspondent aux interactions entre les personnes.

Et les transactions désignent les interactions qui ont une importance financière pour

l'entreprise. Ces transactions sont primordiales pour une entreprise, c'est pourquoi

elles ont compté parmi les premiers à être informatisés, et les systèmes opérationnels effectuent un

travail complet de contrôle qualité avant de les accepter. Elles constituent également la principale

source de données métier essentielles. Les événements et les communications nécessitent un

contrôle qualité moindre et peuvent donc être chargés directement dans les systèmes qui les utilisent

et les analysent.

Mise en œuvre d'une plateforme d'informations intégrée

Comment mangez-vous un éléphant ? Par petits morceaux…

omme le Big Data, si les informations sous

toutes leurs formes étaient un animal,

elles seraient aussi un éléphant… ou plus

précisément un troupeau d'éléphants. Comme

nous l'avons vu, pour régner sur ce troupeau, il

faut une plateforme intégrée prenant en charge

tous les types d'information. Bien que sa vision

et sa portée soient complètes, cette plateforme

existe déjà partiellement ou, plus souvent, en plusieurs morceaux. En fait, il s'agit d'un travail en

cours qui a débuté dans de nombreuses organisations avec leur premier entrepôt, probablement

dans les années 1990, lorsqu'elles ont commencé à créer des informations utilisables dans toute

l'entreprise. L'un des principaux objectifs de l'architecture des premiers entrepôts de données9 était

la cohérence, première condition pour une utilisation globale des informations, quels que soient les

volumes concernés. La plupart des méthodes et techniques utilisées dans la création d'un entrepôt

s'appliquent au Big Data, comme bon nombre de technologies. L'important, c'est de ne pas croire

que les nouvelles technologies sont si différentes qu'elles changent tout. Ce

n'est pas le cas.

À partir de vos systèmes actuels et, en particulier, de vos entrepôts complets,

vous pouvez commencer par créer la plateforme d'informations intégrée

nécessaire pour extraire une valeur métier concrète des Big Data. Et vous

pouvez dès maintenant profiter de certains avantages de cette plateforme :

Réutilisation des données et environnements existants dans la mesure du possible

Possibilité d'ajouter de nouvelles technologies en cas de besoin

Signification et utilisation cohérentes des informations entre les environnements

Réduction du délai de rentabilisation et du retour sur investissement pour la technologie existante

C

Pour mettre en place une plateforme intégrée de

Big Data, appuyez-vous sur l'infrastructure existante et les

outils de la gestion des données, notamment l'entrepôt de données

d'entreprise.

La plateforme d'informations intégrée est l'unification virtuelle

du Big Data et des informations métier

traditionnelles.


Si vous cherchez à valoriser les informations d'origine humaine provenant du Web (comme les

médias sociaux) ou de sources internes (comme les journaux de centres d'appels ou des archives de

textes), créer un environnement de type « Sandbox » (littéralement « bac à sable ») dans Hadoop est

recommandé. Du point de vue technologique, il est primordial que ce nouvel environnement soit lié

aussi étroitement que possible à votre système de BI pour permettre un transfert bidirectionnel

d'informations : par exemple, envoi de données métier certifiées sur des clients ou des produits vers

l'environnement Hadoop à des fins d'analyse, et envoi de données synthétiques issues des tâches

d'analyse vers le système de BI pour créer des rapports et prendre des décisions.

Du point de vue organisationnel, ce sont les scientifiques des données et leur rareté sur le marché qui

ont fait l'objet de toutes les attentions. Véritables experts, ces scientifiques résolvent des problèmes

de données complexes grâce à leurs compétences en collecte et nettoyage de données, en analyse

statistique, en visualisation et à une connaissance approfondie du domaine. On oublie fréquemment

que les utilisateurs expérimentés de systèmes de BI et de tableurs dans les services commerciaux qui

utilisent des données à grande échelle, peuvent faire des scientifiques des données très compétents.

Au sein du service de marketing, les utilisateurs qui ont le bon état d'esprit et sont habitués à analyser

beaucoup de données et à en extraire du sens, constituent souvent d'excellents candidats. Ils

peuvent avoir besoin d'une formation plus avancée en statistiques ou en programmation, mais ils

connaissent le domaine et ont la bonne tournure d'esprit. Si vous recrutez des scientifiques des

données, assurez-vous de l'implication de l'équipe de BI dans le nouvel environnement pour que ces

nouvelles compétences s'intègrent bien au sein des équipes existantes. Par exemple, vous pouvez

créer une équipe de deux ou trois personnes, avec un commercial qui comprend l'analyse et aime

jouer au détective, et un informaticien de l'équipe de BI, capable d'accéder aux données de l'entrepôt

et de les intégrer dans les nouvelles technologies de Big Data.

Si votre entreprise cherche de nouvelles perspectives ou de nouveaux processus concernant les

données collectées par des machines ou des capteurs, les possibilités qui s'offrent à vous sont

multiples. Vous pouvez commencer par une base de données d'analyse, comme la nouvelle base IBM

PureData System for Analytics, pour stocker et explorer ces données. Si vos besoins en analyse sont

plus opérationnels, optez pour la nouvelle base de données IBM PureData System for Operational

Analytics. Vous pouvez également utiliser Hadoop et IBM InfoSphere BigInsights si les volumes sont

particulièrement massifs ou si les structures sont très variables. Dans l'éventualité où la vitesse de

traitement est la priorité, une solution de flux, comme IBM InfoSphere Streams, est à envisager. Dans

tous les cas, les impératifs technologiques et organisationnels sont les mêmes que ceux mentionnés

ci-dessus : une intégration étroite dans l'environnement et l'équipe de BI.

Au fur et à mesure que vous répondrez à d'autres besoins métier et que vous ajouterez des

fonctionnalités, l'un des principaux avantages d'une plateforme transparaîtra rapidement : la

réutilisation des ressources de l'infrastructure et des données. La même intégration des données et

les mêmes métadonnées seront utilisées dans les différentes parties de la plateforme. Le travail de

contrôle qualité effectué dans un composant se répercutera sur la qualité globale. Les commerciaux

auront un accès élargi à différents types de données – si leurs tâches l'exigent – grâce à un jeu

commun d'outils utilisés de manière cohérente et une meilleure contextualisation.

À certains égards, le Big Data pose les mêmes types de problèmes de gestion des données

que les tableurs. La plupart des équipes en charge de la BI ou de la gouvernance de

données refusent obstinément d'utiliser des tableurs. Comme le dit Wayne Eckerson :

« Les tableurs sont hors de contrôle dans la plupart des organisations. Ils prolifèrent comme

du poison, étranglant lentement [les entreprises]... »10. Le Big Data, tel qu'il est mis en

œuvre aujourd'hui, est conforme à cette image : non contrôlé, non géré et centré autour

Dans le cas de la BI, l'adhésion des

commerciaux et le soutien de la direction

sont les principaux critères de réussite

pour la mise en œuvre du Big Data.


de quelques scientifiques des données, de leurs outils et de leurs jeux de données. La mise en place

d'une plateforme intégrée constitue une étape importante pour endiguer cette prolifération.

Combinée à une intégration étroite dans l'organisation de BI existante, cette approche peut

transformer le Big Data en un puissant outil d'innovation et d'amélioration des processus, et non en

une arme de destruction massive de valeur.

Mais, l'étape la plus importante de la mise en œuvre consiste peut-être à emporter l'adhésion des

commerciaux et le soutien de la direction. Ceci n'est pas nouveau pour les développeurs de BI. Mais

attention ! Certains fournisseurs de solutions de Big Data sont issus de communautés de

programmation, Open Source et de développement Web, où le soutien de la direction est rare.

Associer vos initiatives de Big Data à des initiatives d'entrepôt de données et de BI déjà couronnées de

succès est certainement la meilleure solution pour emporter la confiance. Compte tenu des avantages

métier considérables et très visibles du Big Data, le soutien de la direction au plus haut niveau peut

être plus facile et plus rapide à obtenir que pour les initiatives d'entrepôt de données. Un tel

enthousiasme peut et doit servir à faciliter la mise en place d'une plateforme d'informations intégrée.

Et à tirer les leçons des expériences précédentes, grâce à une approche graduelle qui apporte des

avantages métier à chaque étape.


Conclusion

e Big Data offre probablement les opportunités commerciales les

plus importantes et les plus novatrices depuis l'apparition du

commerce électronique à la fin des années 1990. Bien

évidemment, le Big Data a fait l'objet d'une surmédiatisation, tout

comme le commerce électronique. Mais, nous sommes aujourd'hui à un

tournant. On assiste maintenant à un retour à la normale avec des

fournisseurs de systèmes de gestion d'informations traditionnels qui

s'impliquent davantage dans le marché et un centre de l'attention qui

s'est déplacé des start-up Internet vers les entreprises bien établies. La

mise en œuvre du Big Data est beaucoup plus efficace si elle s'inscrit dans des processus globaux de

gestion des informations globaux, en place depuis longtemps, et si sa finalité reste d'améliorer les

résultats de l'entreprise. Pourquoi ? Parce que le Big Data, quel que soit son volume, sa vitesse ou sa

variété, est composé de données métier qui requièrent une gestion appropriée et une intégration aux

sources existantes. Seul, le Big Data peut générer des connaissances métier précieuses, mais pour

que l'entreprise en retire un bénéfice durable, il doit être pleinement intégré aux processus

traditionnels de gouvernance et de gestion des données.

D'un statut de technique expérimentale, le Big Data est en passe de devenir une technologie de

pointe. De plus en plus d'entreprises tirent parti des opportunités du Big Data pour repenser leurs

principaux processus opérationnels et décisionnels. Le moteur de cette évolution, c'est la création

d'une plateforme de Big Data prenant en charge de nombreux types de données dans un

environnement professionnel intégré, avec une solution d'analyse métier qui exploite les données

dans leur format natif, aussi proche que possible de leurs sources. Les avantages métier d'une telle

plateforme intégrée sont les suivants :

1. Fournir des analyses prédictives pour l'avenir en analysant les médias sociaux et le comportement

des clients à partir des données réelles et fiables que l'entreprise collecte depuis longtemps pour

une utilisation quotidienne

2. Prendre des décisions opérationnelles en temps réel grâce aux informations fournies plus

rapidement par des machines et des capteurs situés dans l'environnement externe, et utilisées

conjointement avec les données transactionnelles traditionnelles

3. Réinventer les processus métier pour des modèles économiques plus rapides, plus innovants et

plus efficaces en unifiant les activités informationnelles et opérationnelles

Avec de tels avantages en vue, l'informatique doit – et peut – créer un système de Big Data

rapidement et progressivement à partir de l'infrastructure de gestion des données existante. La

plupart du temps, le point de départ est l'entrepôt de données ou l'environnement de BI. Voici

quelques exemples, parmi d'autres : mise en œuvre de Hadoop pour prétraiter et analyser le contenu

existant, comme des enregistrements de centres d'appels ; ajout d'une technologie de flux pour

acheminer les données en temps réel dans l'entrepôt de données ; et modernisation de l'entrepôt de

données existant pour que les sources de données des capteurs alimentent directement les bases de

données servant à l'analyse. Les stratégies de mise en place de cette nouvelle plateforme ne

manquent pas. Moyennant un investissement relativement limité en temps, en travail et en coût, elles

permettent d'obtenir rapidement des avantages tangibles et de fournir à l'équipe informatique une

base de travail.

L


Pour tirer parti de ces véritables opportunités, la collaboration entre le service commercial et l'équipe

informatique est essentielle. Elle permet de commencer immédiatement à planifier et déployer une

stratégie de Big Data complète et incrémentielle. Débuter modestement avec des méthodes de

projet agiles permet de valoriser rapidement les données de l'entreprise et d'intégrer l'analyse et les

scientifiques des données dans l'entreprise. Aujourd'hui, la technologie du Big Data a atteint une

certaine maturité et s'intègre de plus en plus étroitement dans les plateformes de gestion de

données actuelles. Le moment est donc idéal pour les entreprises innovantes de sortir du lot pour

distancer rapidement et durablement la concurrence.

Une plateforme d'informations intégrée constitue la première étape vers une mise en œuvre efficace

du Big Data et l'obtention d'avantages métier réels et durables.

Le Dr Barry Devlin est l'un des experts les plus reconnus en matière de Business Analytics et l'un des créateurs des entrepôts de données, dont il a décrit l'architecture dans un article publié en 1988. Il compte plus de 30 ans d'expérience en informatique, dont 20 chez IBM en tant qu'ingénieur émérite. Brillant analyste, consultant et conférencier, il est aussi l'auteur de l'ouvrage « Data Warehouse – from Architecture to Implementation » et de nombreux livres blancs.

Barry a créé et dirige 9sight Consulting. Il est spécialiste des implications humaines, organisationnelles et informatiques des solutions de Business Analytics qui combinent des environnements opérationnels, informationnels et collaboratifs. Il contribue régulièrement à BeyeNETWORK, Focus, SmartDataCollective et TDWI. Il vit à Cape Town, en Afrique du Sud, et travaille dans le monde entier.

Les appellations et noms de produit mentionnés dans cet article sont des marques commerciales ou déposées d'IBM. Crédits des images : Éléphant africain : Barry Devlin Aveugles : C. M. Stebbins & M. H. Coolidge, « Golden Treasury Readers: Primer », American Book Co. (New York), 1909 [Wikipedia.com] Aigle : www.123rf.com/photo_5236964_american-bald-eagle-in-flight-blue-sky-on-background.html [LoonChild / 123RF.com] Castors : Willem Janszoon Blaeu : « Nova Belgica et Anglia Nova » (détail), 1635 [Wikipedia.com] Éléphants origami : Katherine Devlin Peintures de la grotte Chauvet : HTO [Wikipedia.com]

1 « Data, data everywhere – A special report on managing information », The Economist, février 2010 2 « Outperforming in a data-rich, hyper-connected world », IBM Center for Applied Insights, mars 2012, http://bit.ly/MKxHhe 3 « Big data: The next frontier of innovation, competition and productivity », McKinsey Global Institute, mai 2011 4 « Gartner Reveals Top Predictions for IT Organizations and Users for 2012 and Beyond », Gartner, décembre 2011, http://bit.ly/S2mvgW 5 Extrait du poème « Les aveugles et l'éléphant » de John Godfrey Saxe (1816-1887) 6 « Expanding Digital Universe », International Data Corporation (IDC), 2007-2011, http://bit.ly/IDC_Digital_Universe 7 Euripide, dramaturge grec (env. 480-406 av. J.-C.) 8 Joseph S. Nye, Jr. (1937-) 9 Devlin, B. A. et Murphy, P. T., « An architecture for a business and information system », IBM Systems Journal,

Volume 27, Numéro 1, Page 60 (1988) http://bit.ly/EBIS1988

10 Eckerson, W., « The Rise and Fall of Spreadmarts », DM Review, 2003

http://www.b-eye-network.com/blogs/devlin

http://www.focus.com/

http://smartdatacollective.com/

http://tdwi.org/

http://www.123rf.com/photo_5236964_american-bald-eagle-in-flight-blue-sky-on-background.html

http://bit.ly/MKxHhe

http://bit.ly/S2mvgW

http://bit.ly/IDC_Digital_Universe

http://bit.ly/EBIS1988

Le zoo du Big Data - Comment apprivoiser les animaux

Technology

Transcript of Le zoo du Big Data - Comment apprivoiser les animaux