Dossier Deduplication LeMagIT
Transcript of Dossier Deduplication LeMagIT
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 1/16
SearchDataCenter.fr SearchStorage.frSearchServerVirtualization.fr
Dossier
Déduplication :
faites faire une cured’amaigrissement
à vos données
La déduplication des données a fait couler beaucoup d’encre au cours des dernières
années. Alors que les volumes de données primaires des entreprises continuent à
progresser à un rythme rapide et alors que les exigence de continuité et la
réglementation se traduisent par un accroissement des volumes de données
sauvegardés, la déduplication apparait comme la seule technologie à même de
limiter la course à la capacité à laquelle se livre fournisseurs et entreprises depuis
plusieurs années. LeMagIT fait un point sur la technologie et ses usages ainsi que
sur les principaux fournisseurs du marché.
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 2/16
Déduplication :
faites faire une cure
d’amaigrissement à vos données
Sommaire :
Déduplication : aujourd’hui pour la sauvegarde, demain pour les données primaires ?
Déduplication : une appellation, plusieurs technologies
La déduplication de données permet de réduire l’impact de la prolifération des machines virtuelles
NetApp va revendre les appliances de déduplication et de VTL de Fujitsu
Déduplication : les forces en présence
Déduplication : faites faire une cure dʼamaigrissement à vos données
Sommaire
Page 2/16
Dossier
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 3/16
Déduplication : aujourd’hui pour la sauvegarde, demain pourles données primaires ?
Par Christophe Bardy
Confrontées à la croissance exponentielle de leurs données, de plus en plus d'entreprises s'intéressent de près à la
déduplication une technologie qui dans ses différentes incarnations permet de supprimer les doublons dans les
données stockées et résulte dans d'important gains d'espace. Aujourd'hui la déduplication tend à se généraliser
dans les applications de sauvegarde mais elle ambitionne aussi d'étendre son champ d'action aux données
primaires.
Même si la technologie n'est pas nouvelle, elle n'est devenue populaire que récemment du fait de la conjonction de
plusieurs facteurs et notamment la crise économique, qui a amené les entreprises à tenter de réduire le coût de leur
stockage, la croissance continue et exponentielle des volumes de données à stocker et l'arrivée d'une nouvelle
généraiton de processeurs offrant les capacités nécessaires pour rendre les performances de la déduplication
acceptables par les utilisateurs. Subitement tous les grands du stockage se sont mis à s'intéresser à la technologie à
commencer par EMC, avec le rachat d'Avamar en 2006 - avant celui de DataDomain en 2009 -, puis Netapp, avec
l'introduction de la déduplication à des fins d'archivage dans ses baies en mars 2007, puis IBM avec son rachat de
Diligent en 2008, HP avec le lancement de StoreOnce en juin 2010 et enfin Dell avec le rachat d'Ocarina en 2010. et
c'est sans compter sur Hitachi qui après avoir revendu la technologie de Diligent a récemment signé avec
Falconstor, ou avec Fujitsu qui revend en OEM la technologie de Quantum dans ses appliance de sauvegarde
Eternus CS.
Principale cible de ces constructeurs : le marché de la sauvegarde et de l'archivage. Du fait de la nature de ces
processus qui visent à créer de multiples copie des données primaires pour se prémunir d'éventuelles pannes ou
pertes de données, la déduplication se révèle particulièrement efficace sur les flux de backup (et ce d'autant plus s'il
Page 3/16
0
0,125
0,25
0,375
0,5
de 1 à 10% par an de 21 à 30% par an Plus de 40% par an
100 serveurs et moins Plus de 100 serveurs
Figure 1. Rythme de croissance des données, par nombre de serveurs gérés
A quel rythme pensez-vous que votre volume de données progresse ?(493 répondants)
Source: Enterprise Strategy Group, 2010.
Déduplication : faites faire une cure dʼamaigrissement à vos données
Déduplication : aujourdʼhui pour la sauvegarde, demain pour les données primaires ?
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 4/16
s'agit de Full backup). Mais d'autres scénarios d'utilisation de la déduplication émergent, notamment appliqués aux
environnements serveurs virtualisés et aux déploiements à grande échelle de poste de travail virtualisés. Ces
scénarios, qui touchent des données primaires actives et non plus des données dormantes
Déduplication à la source vs déduplication à la cible
On distingue aujourd’hui deux types de déduplications. Celle qui s’exécute à la source et celle qui s’exécute à la
cible. La première s’opère sur le serveur à sauvegarder. Lors d’une opération de backup, l’agent installé sur le
serveur déduplique les données au fil de l’eau et ne transmet au serveur de sauvegarde que des données déjà
dédupliquées. L’avantage principal est que le flux de données sur le réseau s’en trouve considérablement réduit (de
95% pour un ratio de 10:1), ce qui rend la technologie particulièrement utile dans les environnements très
consolidés (notamment dans les environnements virtualisés), dans le cas de serveurs en agence qui sauvegardent
en central ou du backup de postes clients. C'est ce qu'explique Miguel Dos Santos Lopes, en charge de la ligne de
produits Avamar d'EMC.
A l’inverse, dans le cas de la déduplication à la cible, le processus de sauvegarde reste très traditionnel. Le serveur à
sauvegarder envoie ses données au serveur de sauvegarde, qui les transmet à l’appliance de déduplication, qui se
charge de les réduire. L’avantage principal de cette approche est que les machines à sauvegarder ne sont pas
sollicitées au niveau processeur, toutes les opérations s’exécutant sur l’appliance. En revanche, les capacités de
déduplication de l’appliance sont limitées à la puissance de traitement de ses processeurs. Il est à noter que la
plupart des appliances de déduplication à la cible offrent à la fois un mode de stockage (ou de sauvegarde) en mode
NAS via des protocoles ouverts tels que CIFS ou NFS, ainsi qu’un mode VTL. Dans ce dernier, l’appliance apparait
comme une librairie de bande virtuelle pour les logiciels de sauvegarde et s’insère donc de façon transparente dans
des processus de sauvegarde existant, à ceci près que la capacité utilisable est considérablement accrue par l’usage
de la déduplication.
Il est à noter que pour la déduplication à la cible, un débat oppose les tenants de la déduplication en ligne - «inline»,
qui s’opère au fil de l’arrivée des données - à ceux de la déduplication en mode post-processing, qui s’opère «en
batch» une fois la sauvegarde terminée. Le choix de l’une ou de l’autre des méthodes dépend essentiellement des
Page 4/16
Figure 2. Comment est-mise en oeuvre la déduplication dans votre entreprise
Les deux26 %
Dans une appliance à la cible
34 %
Dans le logiciel de backup40 %
Source: Enterprise Strategy Group, 2010.
Déduplication : faites faire une cure dʼamaigrissement à vos données
Déduplication : aujourdʼhui pour la sauvegarde, demain pour les données primaires ?
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 5/16
usages et des préférences des utilisateurs. Reste qu’avec l’avénement de processeurs toujours plus puissants, il y a
fort à parier que nombre d’acteurs du post-processing évolueront progressivement vers le traitement en ligne.
La déduplication du stockage primaire, futur eldorado ?
Pour l’instant, la plupart des constructeurs n’ont appliqué la technologie de déduplication qu’à leurs solutions de
sauvegarde. Chez EMC, Data Domain et Avamar sont pour l’instant cantonnés à des appliances dédiées, conçues
pour le backup ou l'archivage à court terme; il en va de même chez IBM avec les appliances ProtecTier, chez HP
avec ses appliances D2D et VLS, chez Quantum, Sepaton ou FalconStor.
NetApp se distingue toutefois de la masse, puisqu’il n’hésite plus à recommander l’usage de la déduplication sur le
stockage primaire - même si à l’origine sa technologie de déduplication A-SIS n’était préconisée que pour les
données archivées. Le constructeur n’a jamais clamé qu’il disposait de la meilleure technologie de déduplication du
marché pour la sauvegarde - d’ailleurs sa tentative de rachat de DataDomain avait sans doute pour but de mettre la
main sur une technologie de déduplication plus avancée que A-SIS. Mais sa présence importante sur le marché NAS
l’a amené très tôt à considérer l’usage de la déduplication sur des données primaires et sur des données «nearline».
A tel point que le constructeur n’hésite plus à recommander l’usage de sa technologie de déduplication embarquée
(en mode post-processing) sur le stockage primaire, dans certains scénarios comme le déploiement de postes de
travail virtualisés. Il est fort probable que NetApp ne restera pas durablement le seul sur ce créneau (et qu'il devra
aussi revoir sa technologie pour proposer un mode de traitement inline).
Déjà, la plupart des systèmes de stockage à base du système de fichiers ZFS (comme ceux de Nexenta ou de
GreenBytes) sont capables d’appliquer la déduplication sur des données primaires - à condition toutefois de
disposer de suffisamment de puissance processeur et de mémoire. Et ce n’est sans doute qu’une question de temps
avant qu’Oracle ne commence lui aussi à jouer de la technologie dans ses baies de stockage OpenStorage. Chez HP,
le mot d’ordre du moment est à l’intégration de la nouvelle technologie de déduplication maison, StoreOnce, dans
les systèmes de stockage de la marque. Déjà, le constructeur a indiqué que StoreOnce a vocation à être intégré
dans ses baies NAS en cluster X9000 et dans ses baies SAN LeftHand P4000. Les futures baies EVA et, qui sait, les
baies 3Par pourraient aussi à terme bénéficier de la technologie. Chez EMC, on ne cache pas non plus qu’un deseldorado futurs est l’usage de la déduplication dans les systèmes de stockage primaires. Le numéro un mondial du
stockage reste toutefois prudent pour l’instant et s’est jusqu’alors borné à la seule intégration de la compression
dans ses baies Clariion et Celerra.
Loi de Moore aidant, il va de toute façon bien falloir trouver quelque chose à faire pour occuper les nouveaux
processeurs multicoeur AMD et Intel qui motorisent les baies de stockage et pour tirer profit de façon optimale de la
capacité des nouveaux disques SSD. Et dans bien des têtes, la déduplication des données primaires est l’une des
fonctions qui pourrait au mieux exploiter les deux technologies, surtout si elle venait à être couplée à des fonctions
de classification automatique de données. Cela tombe bien, ces dernières se banalisent aussi dans les baies de
stockage...
Page 5/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
Déduplication : aujourdʼhui pour la sauvegarde, demain pour les données primaires ?
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 6/16
Déduplication : une appellation, plusieurs technologies
Par Christophe Bardy
La déduplication de données est actuellement l'une des technologies de stockage les plus prometteuses
du fait de son aptitude à réduire considérablement le besoin de capacité de stockage des entreprises.
D'ici à 2015, 3/4 des entreprises devraient ainsi y avoir recours pour la sauvegarde de leurs données,
quand elle ne l'utiliseront tout simplement pas pour leurs données primaires. Enquête sur une
technologie en vogue, mais qui suscite encore beaucoup de questions.
Réduire les besoins en capacité disque et en bande passante réseau, économiser plus d’électricité, réduire le temps de
sauvegarde des serveurs comme des postes clients... Ces bénéfices de la déduplication de données ne sont que les
principaux avantages mis en avant par les utilisateurs de la technologie même si pour ceux qui ne se sont pas encore
laissé tentés, il reste encore beaucoup de scepticisme sur les déclarations des fournisseurs. Il est vrai que dans la
bataille qui s’est engagée entre les spécialistes du secteur, tels qu’EMC, IBM, Symantec, Commvault, HP, Falconstor ou
Quantum, chaque acteur joue de la surenchère pour séduire le chaland.
Comment «réduire» le volume des données
Selon les fournisseurs, l'appellation déduplication recouvre plusieurs réalités. La version la plus basique de la
technologie est maitrisée depuis des années, puisqu’il ne s’agit ni plus ni moins que de la compression, qui permet
d’éliminer certaine redondances de données afin de réduire l’empreinte de stockage d’un fichier. Au delà de cette
implémentation «historique», on a vu apparaitre plus récemment deux autres formes de réduction de données, tout
d’abord la déduplication au niveau fichier. Avec cette dernière, tout fichier détecté comme étant un double parfait d’un
autre fichier est tout simplement supprimé et remplacé par un «lien». Cette technologie est notamment mise en
oeuvre dans les messageries électroniques sous le nom de Single Instance Storage (un élément dupliqué à une ou
plusieurs reprises n’est stocké qu’une fois).
Mais la version de la technologie de déduplication qui intéresse aujourd’hui le plus les entreprises est la déduplication
au niveau du bloc (ou tout du moins au niveau d’un segment de fichiers). Comme avec le SIS, l’idée est de localiser
des «doublons» mais cette fois-ci à l’échelle de petits segments de fichiers, dans le but de maximiser les chances de
trouver des doublons. Selon les constructeurs, l’analyse des blocs se fait sur la base de segments de données de taille
fixe ou de taille variable. Dans ce dernier cas, le déplacement de la fenêtre d’analyse de l’algorithme de déduplication
maximise les chances de trouver des doublons et donc de réduire la taille des données.
Pour identifier les données dupliquées, l’approche utilisée est très similaire celle mise en oeuvre pour le calcul de
«hash» de données. En fait, la plupart des technologies découpent les fichiers en segments et opèrent un calcul de
«hash» sur ces segments grâce à un algorithme cryptographique. Ce calcul produit une valeur numérique réputée
unique, qui est ensuite comparée à la valeur numérique des autres morceaux déjà analysés. En cas de redondance, le
bloc est éliminé et un lien créé de tel sorte que lors de la restauration ou de la relecture, le système saura recréer le
fichier original, à partir des blocs uniques et des blocs dédupliqués.
S’assurer de l’intégrité des données
Même si les promesses de la déduplication sont séduisantes, un administrateur de stockage doit toujours faire sien ce
précepte enseigné aux étudiants en médecine : primum non nocere, ou «d'abord, ne pas nuire." La règle n°1 à garder
à l'esprit lors de l'introduction d'un changement dans votre système de stockage ou de sauvegarde de données est
d’assurer que la pérennité des données ne sera pas compromise.
Si certains ont émis des doutes sur la fiabilité de la déduplication, le moins que l'on puisse dire est qu'il n'y a pas à ce
jour d'exemple documenté de catastrophe de grande ampleur avec la technologie, alors que les histoires d'horreurs en
matière de sauvegarde et de restauration traditionnelle depuis des systèmes sur bande sont légion - ne pas en tirer
Page 6/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
Déduplication : une appellation, plusieurs technologies
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 7/16
pour autant la conclusion que la bande est morte, elle conserve toute son utilité dans certains scénarios, pour peu
qu'elle soit exploitée correctement.
Cette question de la fiabilité de la technologie est un point sur lequel EMC insistait tout particulièrement lors d’un
récent séminaire sur la déduplication à l’Hôtel de Crillon à Paris. Il est vrai que le constructeur a commencé à
s’intéresser très tôt à la question de la déduplication de données notamment avec son rachat d’Avamar en 2006.
Selon le constructeur, la technologie de déduplication maison a fait ses preuves avec près de 8 ans d’existence dans le
cas d’Avamar. Et plusieurs clients de confirmer la chose en rappelant que par rapport à leurs systèmes de sauvegarde
sur bande antérieurs, le couple déduplication/disque a en fait permis d’augmenter le taux de réussite des sauvegardes
pour s’approcher de 100% et a aussi permis de garantir le succès des restaurations des données, ce qui était loin
d’être le cas jusqu’alors. Et l’un des participants de rappeler qu’avant l’usage de la déduplication couplée à une baie de
disque, il lui avait été nécessaire, dans un cas bien particulier, de retrouver le lecteur avec lequel avait été écrit une
bande pour finalement parvenir à la relire, tous les autres lecteurs ayant échoué...
En fait, à moins d’une panne catastrophique sur un système de déduplication (genre inondation ou incendie) et dans le
cas absurde où il n’existe aucune version répliquée du système, les experts et analystes s'accorde à juger très
improbable la perte de données avec la déduplication. Certes il y a toujours l’éventuelle possibilité mathématique
qu’un calcul de hash sur deux segments d’information différents produise le même résultat (dans ce cas, cela voudrait
dire que deux données différentes seraient considérées comme identiques par le système). Mais la probabilité d’un tel
événement est à peu près aussi élevée que celle de voir débarquer un alien en surf sur la plage d’Hossegor. De plus il
existe des moyens de ce protéger d’un tel problème, notamment par vérification post calcul. En fait, la vraie question
n’est en fait pas dans la fiabilité des l’algorithmes de déduplication mais, pour les plus paranoïaques, dans l’appliance
qui l’exécute. Il faut ainsi évaluer avec soin les dispositifs de redondance mécanique des appliances de déduplication
(comme les mécanismes RAID ou de distribution des données sur des disques, la présence ou non de disques de
spare, la redondance des contrôleurs et alimentations...), le support du clustering, mais aussi les fonctions de
réplication de données entre appliances...
S'assurer de la pérennité de la technologie
Une autre question est celle de la pérennité des acteurs. Ainsi dans un scénario où l’on déduplique des données sur
disque avant finalement de les externaliser sur des cartouches, il faut s’assurer que l’on disposera bien d’une appliance
de déduplicaiton fonctionnelle lorsqu’il s’agira de «réhydrater les données» afin de les relire. Et pour des données à
contraintes de rétentions moyenne, de type 5 à 10 ans, cela parait tout de suite moins évident que pour des données
de sauvegarde à cycle de rétention court (1 semaine à un an). Il est donc prudent de requérir de son fournisseur un
engagement dans le temps ou de prévoir lors de la mise en oeuvre de la technologie les mécanismes de réversibilité
qui permettront de relire les données le moment venu. Les professionnels de la sauvegarde sont de toute façon
habitués à traiter de ce genre de contingences, nombre d'entre eux ayant déjà fait face à l'extinction de plusieurs
logiciels de sauvegarde...
Page 7/16
Coefficient Taux de réduction de données2:1 50 %3:1 66 %5:1 80 %10:1 90 %20:1 95 %100:1 99 %200:1 99,5 %500:1 99,8 %1000:1 99,9 %
Figure 3. Quel gain d’espace correspond à quel coefficient de déduplication
Déduplication : faites faire une cure dʼamaigrissement à vos données
Déduplication : une appellation, plusieurs technologies
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 8/16
Dans tous les cas, la déduplication produit des résultats surprenants en matière de réduction des données. Si la
plupart des utilisateurs n’atteignent jamais les ratios invoqués par certains fournisseurs (de type 200 ou 300:1) - qui
ne sont possibles que dans certains scénarios très particuliers -, il est commun d’obtenir des ratios de type 10:1 à
20:1. Ce qui signifie une réduction de 90 à 95% du volume des données. Dans la pratique cela veut dire qu’une
appliance de déduplication avec 40 To de capacité disque utile pourra en fait sauvegarder 400 à 800 To de données.
Mais la déduplication présente d’autres bénéfices. A la source, par exemple, elle permet une réduction massive des
fenêtres de sauvegarde et un allégement considérable du trafic réseau. Ces caractéristiques permettent d’envisager
des scénarios de protection des agences distantes jusqu’alors impossibles, le tout en assurant une bien meilleure
sécurité des données.
Un autre bénéfice corollaire de la déduplication est que la réplication de données de sauvegarde entre sites distant est
elle aussi accélérée lorsqu’elle s’effectue entre deux appliances de déduplication identiques.
Page 8/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
Déduplication : une appellation, plusieurs technologies
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 9/16
La déduplication de données permet de réduire l’impact dela prolifération des machines virtuelles
Par Christine Cignoli, SearchStorage.com
La virtualisation de serveurs et la déduplication des données sont deux des technologies qui ont fait couler beaucoup
d’encre au cours des dernières années. Mais la combinaison des bénéfices de la virtualisation avec ceux de la
déduplication est un point sur lesquels les fournisseurs et les utilisateurs sont encore en phase de réglage. «Nous
avons franchi une étape clé l’an passé, lorsque le nombre de serveurs virtuels a dépassé le nombre de serveurs
physiques", explique Steve Scully, directeur de recherche, en charge des questions de continuité, de reprise après
sinistre et d'orchestration du stockage chez IDC. "Le plus grand défi porte sur la sauvegarde des machines
virtuelles."
«La virtualisation a provoqué une prolifération des serveurs", explique Eric Pitcher, le vice-président de la stratégie
chez CA. "Les utilisateurs disent que les machines virtuelles sont jetables après usage, mais la réalité est touteautre. En général, les utilisateurs passent leur temps à instancier de nouvelles VM". Et d’indiquer que la
déduplication de données est, au final, l’un des moyens de combattre la prolifération des serveurs virtuels.
Dans une situation traditionnelle où la sauvegarde porte sur des environnements physiques, une entreprise achète
une licence pour chaque serveur, exécute l’agent de sauvegarde sur chaque serveur, sauvegarde tous les fichiers et
les envoie sur le disque ou sur bande, explique Scully. Mais quand il s'agit de serveurs virtuels, "si vous multipliez ce
modèle par 50 ou 100 fois, vous payez beaucoup pour ces licences et ne tirez pas forcément profit des technologies
de déduplication». «En fait vous multipliez le nombre de processus identiques tournant en parallèle sans aucune
connaissance de ce que font les autres processus en cours d'exécution." Les machines virtuelles sont souvent
sauvegardées comme des images complètes par opposition à un ensemble de fichiers individuels. Certaines
applications de sauvegarde peuvent appliquer leurs algorithmes de déduplication à des images multiples, indique
Scully. Mais «vous ne bénéficiez pas de la granularité des sauvegardes au niveau fichier," dit-il.
Il est plus compliqué de sauvegarder des serveurs virtuels que de sauvegarder et de récupérer des
serveurs traditionnels
Un défi commun des serveurs virtualisés, est que toutes les machines partagent les capacités CPU, la bande
passante et l’espace disque du serveur physique, explique Rob Emsley, directeur senior du marketing produit, de la
division systèmes de sauvegarde et de protection de données d’EMC division systèmes. «Il faut faire un usage plus
efficace des ressources physiques, ce qui rend difficile l’usage de technologies de de sauvegarde et de récupération
traditionnelles, dit-il.
La sauvegarde de serveurs virtuels est plus complexe que d'autres sauvegardes, explique Pitcher. "Vous prenez uninstantané du serveur, déplacez ce snapshot vers un emplacement temporaire et réalisez les sauvegardes à partir
de cet endroit, explique-t-il. La stratégie de CA pour améliorer et dédupliquer les sauvegardes virtuelles consiste à
supprimer cet emplacement de stockage intermédiaire pour sauvegarder l'espace virtuel directement depuis la
machine virtuelle.
«La virtualisation des serveurs et la déduplication relèvent du même concept» explique Mike Dimeglio, le directeur
du marketing produit chez Falconstor: "il s’agit de consolider, d'optimiser le stockage, de réduire la consommation
électrique tout en assurant la conservation des données pendant de longues périodes de temps". Falconstor a inclus
des technologies de déduplication dans ses produits DiskSafe et FileSafe, qui utilisent un serveur proxy pour
dédupliquer à la source les données des machines virtuelles, tout en proposant de multiples options de sauvegarde.
Mais Dimeglio ajoute que les snapshots ont un rôle très important dans l’approche de sauvegarde et de
Page 9/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
La déduplication de données permet de réduire l ʼimpact de la prolifération des VM
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 10/16
déduplication des machines virtuelles. "Vous pourrez sauvegarder depuis un instantané et appliquer la Deduplication
à ce processus," ajoute-t-il.
"La technologie de déduplication d’Avamar permet de dédupliquer les données à la source directement depuis
l’environnement virtualisé et est étroitement intégrée à VMware vSphere," explique Emsley. "En dédupliquant les
machines virtuelles au moyen d’une appliance de déduplication à la cible, telle que celle de Data Domain, les
serveurs virtuels sont traités comme tout autre charge de travail," explique Shane Jackson, le directeur du
marketing produits en charge de Data Domain et des librairies de bandes chez EMC. "Les taux de déduplication peut
être très élevé pour les machines virtuelles, car le niveau de redondance de données est très élevé," indique
Jackson.
Déduplication à la cible contre déduplication à la source
"La déduplication à la source et la déduplication à la cible ont chacune des avantages dans le cas de la sauvegarde
de machines virtuelles," explique Scully, d’IDC. Un point important à considérer est de savoir si l'application de
sauvegarde réalise des sauvegardes incrémentielles à partir des images complètes des machines virtuelles
individuelles. "Vous pouvez être sûr que l'image sera modifiée à chaque nouvelle sauvegarde", indique Scully. "Il
suffit en effet qu’un fichier sur cette image entière ait changé, pour que le fichier qui stocke la machine virtuelle soit
différent. Dans ce cas, il est judicieux de dédupliquer l'image entière à la source. Mais certains utilisateurs
pourraient vouloir extraire des données de l'environnement de production sans faire supporter une charge de
traitement supplémentaire sur les serveurs (ce qui est la cas avec la déduplication à la source). Dans une situation
de reprise après sinistre vrai, une image complète de la machine virtuelle peut être un moyen "très puissant" pour
restaurer les systèmes dans leur état initial d’avant panne,» explique Scully.
"Dédupliquer les données de sauvegarde à la source permet de transférer des données rapidement hors des VM,"
explique quant à lui Matthew Lodge, directeur senior du marketing produit chez Symantec. L’éditeur a récemmentpublié de nouvelles versions de NetBackup et Backup Exec capables d’effectuer des restaurations très granulaires
des machines virtuelles, et permettant la déduplication à plusieurs étapes du processus de sauvegarde, y compris à
la source. Symantec recommande l’usage de la déduplication au sein de chaque machine virtuelle si l’entreprise a
des contraintes de bande passante ou si son datacenter utilise Microsoft Hyper-V. Dans les autres cas, l’éditeur
recommande à ses utilisateurs d’utiliser l’API VMware vStorage pour envoyer l'ensemble des images VMware à un
serveur de médias NetBackup qui se chargera de la déduplication.
De nouvelles options de déduplication pour les serveurs virtuels
D’autres options plus originales pour dédupliquer des serveurs virtuels sont aussi disponibles sur le marché.
"Bluelock LLC, un fournisseur de cloud computing, a abordé la question de la déduplication des données des
serveurs virtuels sous un angle différent," indique Pat O'Day, le directeur de la technologie de la société. BlueLock
utilise des clones VMware liées pour réduire les données dupliquées. Les administrateurs de la société on créé un
modèle de serveur VMware l’on stocké dans le nuage de serveurs et mettent ce modèle à disposition des
utilisateurs. Lorsque les utilisateurs renomme ce serveur, seul un bloc change.
"Le clone lié suit à la trace les changement de blocs qui interviennent entre le modèle d’origine et la machine de
l'utilisateur» explique O'Day. «Il s'agit essentiellement déduplication." L'inconvénient à long terme est que la
technologie «ne réconcilie pas les changements comme le ferait une solution de déduplication». Si O’Day déclare
étudier d’autres options de déduplication, il espère en fait les combiner avec l’usage des clones liés. «Je ne pense
pas que les clones liés vont disparaître en faveur de la déduplication» conclut-il.
Page 10/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
La déduplication de données permet de réduire l ʼimpact de la prolifération des VM
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 11/16
Comme l'utilisation des serveurs virtuels a dépassé le stade des études et du développement, les technologies de
sauvegarde et de récupération de données associées continuent de mûrir. "Il y a beaucoup à faire», indique Jackson
d’EMC. "En ce moment même, nous poussons à usage plus élevé de la virtualisation des serveurs dans le centre de
données, afin d’atteindre le stade de près de 80% des serveurs virtualisés». La déduplication de données est une
technologie clé pour atteindre ce stade et s’insère dans le cadre d’une refonte plus large des processus de
sauvegarde.
Au moment de choisir la façon de dédupliquer les données des serveurs virtuels, «il convient vraiment de
comprendre quels sont vos besoins, ce que vous voulez récupérer au niveau du fichier et ce que vous voulez
récupérer au niveau de l'image», explique Scully d’IDC. "Il y a différents niveaux de réglages que vous pouvez
affiner afin de récupérer ce dont vous avez besoin et avec le niveau de granularité désiré».
Page 11/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
La déduplication de données permet de réduire l ʼimpact de la prolifération des VM
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 12/16
NetApp va revendre les appliances de déduplication et deVTL de Fujitsu
Par Christophe Bardy
A l'occasion du salon Storage Networking World Europe qui se tenait à Francfort fin octobre, NetApp et
Fujitsu ont annoncé le renforcement de leur alliance. NetApp, qui est devenu le partenaire privilégié du
Japonais après l'abandon du partenariat avec EMC, va notamment revendre l'appliance de sauvegarde
et de déduplication Eternus CS800 que Fujitsu a développé sur base Quantum. Une première pour le
constructeur californien.
A l’occasion du salon Storage Networking World (SNW) qui se tient actuellement à Francfort, l’ex-plus grand
partenaire d’EMC en Europe, Fujitsu a définitivement enfoncé un clou dans le cercueil de son alliance avec le leader
mondial du stockage en confirmant son alliance stratégique avec NetApp.
Pour marquer un peu plus la solidité de la relation, les deux sociétés ont encore renforcé leurs liens à Francfort en
annonçant que NetApp va mettre à son catalogue l’appliance de sauvegarde sur disque et de librairie virtuelle
Eternus CS800 de Fujitsu (ex CentricStor). Il s’agit d’une première pour le constructeur californien qui jusqu’à ce
jour n’avait jamais mis à son catalogue d’autre produit tiers que les commutateurs Fibre channel de Brocade et
Cisco. Dans la pratique, l’accord parait logique : l’Eternus CS800 vient en effet remplacer les anciennes appliances
VTL de NetApp, les nearstore, développées sur la base de la technologie acquise avec le rachat d’Alacritus et dont
NetApp a finalement annoncé l’arrêt des développements l’an passé.
Fujitsu fournira à NetApp ses appliances de déduplication et de VTL
L’Eternus CS800 est un produit tout en un qui inclut des fonctions de sauvegarde sur disque de VTL et de
déduplication (Fujitsu embarque en fait le code développé par Quantum sur le CS800, alors qu’il développe son
propre code pour les Eternus CS haut de gamme). L’objectif pour NetApp avec l’intégration du CS800 dans son
catalogue est notamment d’offrir aux PME une appliance de sauvegarde complémentaire de ses systèmes de
stockage. Indirectement, l’accord avec Fujitsu permet à NetApp de mettre à son catalogue la technologie de
Quantum sans accord bilatéral avec le constructeur californien.
L’alliance entre NetApp et Fujitsu sur l’Eternus CS800 est pour l’instant limitée à la zone EMEA (Europe, Moyen-
Orient, Afrique) mais pourrait s’étendre à d’autres zones géographiques si le partenariat s’avère concluant. C’est en
tout cas ce qu’a expliqué Rick Scurfield le patron mondial des alliances chez NetApp. Le même Scurfield a aussi
laissé entendre que Fujitsu et NetApp pourraient renforcer leurs liens aux Etats-Unis, un pays ou Fujitsu est pour
l’instant peu puissant et où les deux partenaires pourraient avancer de concert sur les problématiques de datacenterface à l’alliance VCE et aux offres intégrées de constructeurs comme HP, IBM ou Dell.
Page 12/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
NetApp va revendre les appliances de déduplication et de VTL de Fujitsu
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 13/16
Déduplication : les forces en présence
Par Christophe Bardy
Le moins que l’on puisse dire est que le marché de la déduplication ne manque pas d’acteurs. Dans ce
chapitre, nous avons tenté d’inventorier les principaux fournisseurs d’appliances de déduplication ou de
technologies destinées à l’élaboration de tels appliances. Ce panorama ignore donc les grands du
logiciel de sauvegarde tels que Commvault, Symantec ou Arkeia, qui disposent désormais tous d’une
offre en matière de déduplication intégrée à leurs solutions.
Les constructeur généralistes :
Dell : au mois de juillet 2010, Dell a fait l’acquisition d’Ocarina Networks, un spécialiste des outils de compression et
de déduplication de données. Ocarina s’est notamment fait connaitre pour sa technologie de compression capablede réduire le volume occupé par certains fichiers multimédias réputés incompressibles tels que fichiers Jpeg ou
videos MPEG. Plus généralement, les technologies d’Ocarina s’appliquent aux données non structurées qu’elles
résident sur des support primaires ou des support de sauvegarde. Dell devrait vraisemblablement intégrer les
technologies d’Ocarina Networks à ses baies de stockage Equallogic et appliances de sauvegarde Powervault. Le
constructeur texan pourrait aussi appliquer la déduplication à ses solutions d’archivage et notamment à l’offre de
stockage objet conçue en partenariat avec Caringo.
Fujitsu : De sa fusion avec Fujitsu-Siemens, Fujitsu a conservé la gamme de VTL hybride Centricstor désormais
rebaptisée Eternus CS et qui couple des fonctions de sauvegarde sur disque, d’archivage, de VTL et d’appliance de
déduplication. Positionnée comme une solution de haut de gamme l’Eternus CS a récemment été mis à jour en
version 5, une mouture qui marque l’arrivée d’une interface en mode fichier (CIFS et NFS) pour les fonctions
d’archivage ainsi que l’ajout de fonctions re réplication asynchrone entre EternusCS.
En parallèle de cette offre «maison», Fujitsu a aussi développé une offre de milieu de gamme, l’Eternus CS800 qui
s’appuie sur la technologie de déduplication et de VTL de Quantum. Pour la conception du CS800, Fujitsu s’est
chargé du design de l’appliance et de l’optimisation des sous-systèmes matériels mais a repris l’intégralité du code
de Quantum. Le résultat est une appliance dont les prix vont de 10000 à 60 000 € selon la version et la
configuration.
HP : Hewlett-Packard a récemment annoncé la disponibilité d’un nouveau module de déduplication de données qu’il
va progressivement déployer sur ses baies de stockage et de sauvegarde sur disques au cours de l’année 2010 et
au début 2011. Baptisée HP StoreOnce, la technologie de déduplication inline développée par les HP Labs a été
intégrée sur les nouvelles appliances de backup D2D et devrait l’être prochainement sur les systèmes NAS en
cluster X9000 de la marque, avant de faire son apparition sur de futures baies de stockage EVA. Comme il l’avait
aussi laissé entendre lors de sa conférence Tech@Work de Francfort, HP entend également intégrer StoreOnce dans
son logiciel de sauvegarde HP Data Protector.
L’usage de cette architecture est destiné à s’étendre a expliqué Dave Roberson, le vice-président senior en charge
de la division HP StorageWorks. « Nous commençons par la sauvegarde et l'année prochaine nous serons en
mesure d'introduire la déduplication de bout en bout. Personne d'autre ne fait cela ». Malgré l’annonce de
StoreOnce, HP continuera à vendre la solution de déduplication en post-traitement de Sepaton, qu’il intègre
actuellement dans ses bibliothèques virtuelles haut de gamme (gamme VLS), même si le constructeur pourrait
progressivement remplacer cette ligne de produit avec la montée en puissance et en capacité de la gamme D2D. Le
Page 13/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
Déduplication : les forces en présence
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 14/16
premier D2D équipé de la technologie StoreOnce, le D2D4312, débute ainsi à 18 To et peut atteindre 48 To de
capacité brute. L’appliance a un prix d’entrée de 94 999$.
IBM : avec le rachat de l’israélien Diligent en 2008, IBM a acquis celui qui est aujourd’hui considéré comme l’un des
principaux concurrents d’EMC. Comme dans le cas des appliances DataDomain, la technologie des appliances
Protectier s’appuie sur un algorithme de déduplication en ligne capable de dédupliquer les données à la volée. Selon
Big Blue, un cluster d’appliances Protectier peut ingérer jusqu’à 500 Mo de données par seconde. Depuis 2009, Big
Blue a enrichi les appliances ProtecTier de fonctions de réplication asynchrone.
Microsoft : Microsoft propose des fonctions basiques de déduplication dans son système d’exploitation orienté
stockage, Windows Storage Server 2008. Cet OS incorpore en effet un système de «Single Instance Storage» qui
assure qu’un même fichier n’est pas stocké deux fois sur un même serveur de stockage. Cette fonction est par
exemple utilisée par HP pour ses systèmes de stockage d’entrée de gamme Windows de la série StorageWorks X.
NEC : Même si la solution n’est pas (encore ?) disponible en France, NEC propose aux Etats-Unis une solution de
déduplication de données intégrée à sa solution de stockage en grille HydraStor. HydraStor, dont les prix débutent à
environ 40 000 $ pour 4 To de capacité, s’appuie sur un algorithme de déduplication en ligne baptisé DataRedux,
qui vient renforcer l’arsenal technologique des baies de stockage en cluster NEC. Selon NEC, sa solution d’entrée de
gamme HydraStor HS-3 est une concurrente directe des systèmes EMC Data Domain DD630 tandis que la solution
en grille HS-8 est une alternative au haut de gamme EMC.
Les spécialistes du stockage
EMC : EMC a fait ses premiers pas dans la déduplication avec le rachat d’Avamar, l’un des pionniers de la
déduplication à la source en 2006. Depuis, le constructeur a mis la main sur DataDomain dans une bataille épique
avec NetApp. La firme est aujourd’hui le principal acteur du secteur avec des technologies qui sont considéréescomme comptant parmi les meilleures du moment. Avamar est notamment considéré par les spécialistes comme la
meilleure technologie de déduplication à la source. Alors qu’à ces débuts, la technologie était vendue sous la forme
d’un logiciel (à installer sur un serveur approuvé), EMC la commercialise aujourd’hui sous la forme d’une appliance
intégrée combinant le contrôleur Avamar (un serveur à base de puces Xeon) et une baie de disques.
DataDomain, de son côté est la technologies de déduplication à la cible la plus déployée du marché. Par rapport à
certains concurrents comme les passerelles Protectier d’IBM, la solution d’EMC manque encore d’un mode cluster
failover entre deux noeuds DataDomain, qui permettrait d’assurer la continuité des opérations de sauvegarde même
en cas de chute d’un noeud. Pour l’instant, la firme propose une solution de cluster de performance, qui améliore les
taux de transferts, mais ne règle pas le problème de chute d’un noeud. Reste que cette carence doit être considérée
à sa juste mesure : dans le cas (rare) de chute d’un noeud, les processus de sauvegarde en cours sur ce noeud
devront être relancés (à aucun moment le catalogue ou les données déjà sauvegardées lors de job précédents ne
sont mis en péril par la chute d’un contrôleur). Il est à noter que si les technologies de déduplication à la source et à
la cible d’EMC sont aujourd’hui disjointes, elles pourraient au final finir par converger, un point que le constructeur a
laissé entendre (sans toutefois en faire la promesse ferme) lors du dernier EMC World.
GreenBytes : nouveau venu sur le marché, GreenBytes a développé une série d’appliances supportant la
déduplication inline pour le stockage primaire et la sauvegarde. Les appliances GB-X de GreenBytes s’appuient sur
le système d’exploitation OpenSolaris et le système de fichiers ZFS de Sun. Leur algorithme de déduplication
s’appuie sur le système de calcul de hash Tiger (192 bit) plutôt que sur SHA-1. Pour assurer un impact minimal en
matière de performance, notamment lorsque la déduplication est utilisée sur des données primaires, les appliances
Page 14/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
Déduplication : les forces en présence
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 15/16
de GreenBytes font un usage intensif de disques SSD qui agissent comme un cache devant les disque SATA. Selon
GreenBytes, ses systèmes peuvent gérer, dans leur version actuelle, entre 4 et 216 To de données non
dédupliquées en ligne.
NetApp : NetApp a été le premier constructeur a proposer l’usage de la déduplication pour les données primaires.
Ce mécanisme de déduplication, à l’origine développé sous le nom «A-SIS», s’appuie sur une fonction du système
de fichiers WAFL qui calcule une somme de contrôle CRC pour chaque bloc de données qu'il stocke. Dans la
pratique, la technologie de déduplication de NetApp est un processus optionnel qui fonctionne pendant les périodes
de faible activité de la baie et examine toutes les sommes de contrôle; si les deux sommes de contrôle
correspondent, l'un des blocs est remplacé par un pointeur WAFL. Le résultat est une nette réduction de l’espace
utilisé sans impact significatif sur les performances. Le système de déduplication NetApp a été mis en oeuvre par de
nombreux utilisateurs sur des types de données multiples, y compris les répertoires, bases de données et des
images virtuelles, et la plupart ont rapporté des résultats positifs en matière de réduction de données et de
performance. Il est à noter que la déduplication est aussi mise en oeuvre par NetApp pour tous ses systèmes
d'archivage ("Vault")
Nexenta Systems : La start-up californienne Nexenta, qui s’est récemment illustré en soutenant la création
d’Illumos après l’arrêt par Oracle du projet Open Solaris, s’est taillée une solide réputation dans le monde du
stockage en développant NexentaStor, un système d’exploitation orienté stockage dérivé d’OpenSolaris et
s’appuyant sur le système de fichiers Solaris ZFS. NexentaStor offre des capacités de stockage unifié (NAS, iSCSI et
Fibre Channel) et incorpore de multiple fonctions telles que les snapshots, la réplication synchrone, la compression
de données et, depuis la version 3.0, la déduplication inline. Cet ajout permet à NexentaStor de dédupliquer les
données sur des volumes d’archives aussi bien que des données primaires, à condition toutefois que l’appliance
NexentaStor soit dotée de la puissance CPU et de la mémoire vive nécessaire.
Quantum : Quantum est l’un des pionniers de la déduplication. La firme a hérité sa technologie de déduplicationBlocklets lors du rachat d’ADIC en août 2006. Ce même ADIC avait lui même préalablement avalé Rocksoft,
l’inventeur de la technologie, en mars 2006. Quantum s’est rapidement employé à intégrer la technologie Blocklets
dans ses librairies de bandes virtuelles et a commencé à livrer ses premiers systèmes en décembre 2006 (les VTL
DXi3500 et DXi5500). Depuis, la déduplication est devenue un élément standard des équipements de sauvegarde
de la marque.
Récemment, Quantum a démocratisé l’usage de la technologie en lançant les gamme DXi4500 et DXi2500, deux
familles d’appliances de déduplication à des tarifs très abordables et qui sont proposées avec des capacités de
stockage à partir de 2 To. Ces équipements incluent en standard deux puces quadri-coeurs Intel Nehalem, ce qui
leur permet d’offrir des performances étonnantes pour leur niveau de prix. En octobre 2010, la firme a aussi dopé
son haut de gamme avec le DXi8500, une appliance capable de traiter jusqu’à 6,4 To par heure, y compris en mode
VTL.
Il est à noter que Quantum a été pendant plusieurs années le partenaire de déduplication d’EMC pour ses baies VTL
mais que l’accord a connu une fin funeste avec le rachat de Data Domain par le numéro un mondial du stockage.
depuis Quantum a toutefois signé un accord OEM avec Fujitsu pour ses appliances Eternus CS800, également
revendues par NetApp.
Notons enfin que Quantum a étendu l’usage de la déduplication au stockage primaire en intégrant sa technologie
dans son système de fichier SAN StorNext 4.0. L’objectif est comme, dans le cas de NetApp, d’activer la
déduplication pour les usages nearline ou pour les applications ne nécessitant pas des performances optimales.
Page 15/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
Déduplication : les forces en présence
5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com
http://slidepdf.com/reader/full/dossier-deduplication-lemagit 16/16
Les fournisseurs de technologie
Falconstor : Notamment connu pour son offre logicielle VTL IPStor, Falconstor propose depuis déjà plusieurs
années des fonctions de déduplication en mode post-processing dans sa solution VTL. Selon l’éditeur, la solution
IPStor peut ingérer des données à un rythme pouvant atteindre 500 Mo/s par noeud avec une limite de 4 noeuds en
cluster failover (n+1).
En parallèle de sa solution de déduplication VTL, l’éditeur a développé une solution de déduplication de données
baptisée File-interface Deduplication System (FDS), qui permet de dédupliquer des données en mode post-
processing sur des volumes NFS et CIFS (la solution est alors adaptée à des scénarios de sauvegarde sur disque).
Selon FalconStor, FDS supporte l’API OST de Symantec (intégrée à NetBackup et à BackupExec) et serait capable
de supporter des débits de l’ordre de 5.5 To/h sur un noeud équipé de deux liens 10 Gigabit Ethernet.
IPStor est notamment utilisé par Oracle pour ses librairies VTL. Hitachi Data Systems a aussi récemment noué un
accord OEM avec FalconStor pour l’utilisation d’IPStor et de FDS en complément de ses systèmes de stockage AMS
2000.
Permabit: Cette jeune start-up a développé une technologie de déduplication de données baptisée Albireo, qu’elle
propose en OEM aux constructeurs de baies de stockage. La promesse de Permabit avec Albireo est l’application de
la déduplication tant aux données d’archives qu’aux données primaires. Albireo combine selon l’éditeur des fonctions
de compression de données traditionnelles avec un algorithme de déduplication optimisé en fonction des contenus à
traiter. Le constructeur de passerelles NAS en cluster BlueArc est l’un des premiers à avoir annoncé son intention
d’intégrer Albireo à ses équipements. Et Xiotech a également annoncé l’intégration à venir d’Albireo à ses systèmes
Sepaton : Sepaton a fait son entrée sur le marché de la déduplication avec sa librairie de bande virtuelle
départementale DS2. Le constructeur a développé sa propre technologie de déduplication, baptisée DeltaStor
(actuellement en version 5.3). Cette dernière est une technologie de déduplication en mode post-process qui
s’appuie sur un système d’analyse différentielle des données. Selon Sepaton, il ne s’agit pas d’une technologie àbase de hash. La technologie DeltaStore a l’avantage de fournir un système de déduplication global (tous les noeuds
partagent un catalogue de déduplication unique, ce qui permet d’optimiser la déduplication à travers l’ensemble des
noeuds). Elle optimise également les algorithmes utilisés en fonction de la nature des données ingérées. La
technologie est utilisée dans les baies VTL Sepaton S2100-ES2, qui s’appuient sur des baies Hitachi AMS 2100 OEM
mais aussi par plusieurs OEM dont HP pour ses librairies VLS.
Page 16/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
Déduplication : les forces en présence