Dossier Deduplication LeMagIT

5/10/2018 Dossier Deduplication LeMagIT - slidepdf.com

http://slidepdf.com/reader/full/dossier-deduplication-lemagit 1/16

SearchDataCenter.fr SearchStorage.frSearchServerVirtualization.fr

Dossier

Déduplication :

faites faire une cured’amaigrissement

à vos données

La déduplication des données a fait couler beaucoup d’encre au cours des dernières

années. Alors que les volumes de données primaires des entreprises continuent à

progresser à un rythme rapide et alors que les exigence de continuité et la

réglementation se traduisent par un accroissement des volumes de données

sauvegardés, la déduplication apparait comme la seule technologie à même de

limiter la course à la capacité à laquelle se livre fournisseurs et entreprises depuis

plusieurs années. LeMagIT fait un point sur la technologie et ses usages ainsi que

sur les principaux fournisseurs du marché.



Déduplication :

faites faire une cure

d’amaigrissement à vos données

Sommaire :

Déduplication : aujourd’hui pour la sauvegarde, demain pour les données primaires ?

Déduplication : une appellation, plusieurs technologies

La déduplication de données permet de réduire l’impact de la prolifération des machines virtuelles

NetApp va revendre les appliances de déduplication et de VTL de Fujitsu

Déduplication : les forces en présence

Déduplication : faites faire une cure dʼamaigrissement à vos données

Sommaire

/16

Dossier



Déduplication : aujourd’hui pour la sauvegarde, demain pourles données primaires ?

Par Christophe Bardy

Confrontées à la croissance exponentielle de leurs données, de plus en plus d'entreprises s'intéressent de près à la

déduplication une technologie qui dans ses différentes incarnations permet de supprimer les doublons dans les

données stockées et résulte dans d'important gains d'espace. Aujourd'hui la déduplication tend à se généraliser

dans les applications de sauvegarde mais elle ambitionne aussi d'étendre son champ d'action aux données

primaires.

Même si la technologie n'est pas nouvelle, elle n'est devenue populaire que récemment du fait de la conjonction de

plusieurs facteurs et notamment la crise économique, qui a amené les entreprises à tenter de réduire le coût de leur

stockage, la croissance continue et exponentielle des volumes de données à stocker et l'arrivée d'une nouvelle

généraiton de processeurs offrant les capacités nécessaires pour rendre les performances de la déduplication

acceptables par les utilisateurs. Subitement tous les grands du stockage se sont mis à s'intéresser à la technologie à

commencer par EMC, avec le rachat d'Avamar en 2006 - avant celui de DataDomain en 2009 -, puis Netapp, avec

l'introduction de la déduplication à des fins d'archivage dans ses baies en mars 2007, puis IBM avec son rachat de

Diligent en 2008, HP avec le lancement de StoreOnce en juin 2010 et enfin Dell avec le rachat d'Ocarina en 2010. et

c'est sans compter sur Hitachi qui après avoir revendu la technologie de Diligent a récemment signé avec

Falconstor, ou avec Fujitsu qui revend en OEM la technologie de Quantum dans ses appliance de sauvegarde

Eternus CS.

Principale cible de ces constructeurs : le marché de la sauvegarde et de l'archivage. Du fait de la nature de ces

processus qui visent à créer de multiples copie des données primaires pour se prémunir d'éventuelles pannes ou

pertes de données, la déduplication se révèle particulièrement efficace sur les flux de backup (et ce d'autant plus s'il

/16

0

0,125

0,25

0,375

0,5

de 1 à 10% par an de 21 à 30% par an Plus de 40% par an

100 serveurs et moins Plus de 100 serveurs

Figure 1. Rythme de croissance des données, par nombre de serveurs gérés

A quel rythme pensez-vous que votre volume de données progresse ?(493 répondants)

Source: Enterprise Strategy Group, 2010.


Déduplication : aujourdʼhui pour la sauvegarde, demain pour les données primaires ?



s'agit de Full backup). Mais d'autres scénarios d'utilisation de la déduplication émergent, notamment appliqués aux

environnements serveurs virtualisés et aux déploiements à grande échelle de poste de travail virtualisés. Ces

scénarios, qui touchent des données primaires actives et non plus des données dormantes

Déduplication à la source vs déduplication à la cible

On distingue aujourd’hui deux types de déduplications. Celle qui s’exécute à la source et celle qui s’exécute à la

cible. La première s’opère sur le serveur à sauvegarder. Lors d’une opération de backup, l’agent installé sur le

serveur déduplique les données au fil de l’eau et ne transmet au serveur de sauvegarde que des données déjà

dédupliquées. L’avantage principal est que le flux de données sur le réseau s’en trouve considérablement réduit (de

95% pour un ratio de 10:1), ce qui rend la technologie particulièrement utile dans les environnements très

consolidés (notamment dans les environnements virtualisés), dans le cas de serveurs en agence qui sauvegardent

en central ou du backup de postes clients. C'est ce qu'explique Miguel Dos Santos Lopes, en charge de la ligne de

produits Avamar d'EMC.

A l’inverse, dans le cas de la déduplication à la cible, le processus de sauvegarde reste très traditionnel. Le serveur à

sauvegarder envoie ses données au serveur de sauvegarde, qui les transmet à l’appliance de déduplication, qui se

charge de les réduire. L’avantage principal de cette approche est que les machines à sauvegarder ne sont pas

sollicitées au niveau processeur, toutes les opérations s’exécutant sur l’appliance. En revanche, les capacités de

déduplication de l’appliance sont limitées à la puissance de traitement de ses processeurs. Il est à noter que la

plupart des appliances de déduplication à la cible offrent à la fois un mode de stockage (ou de sauvegarde) en mode

NAS via des protocoles ouverts tels que CIFS ou NFS, ainsi qu’un mode VTL. Dans ce dernier, l’appliance apparait

comme une librairie de bande virtuelle pour les logiciels de sauvegarde et s’insère donc de façon transparente dans

des processus de sauvegarde existant, à ceci près que la capacité utilisable est considérablement accrue par l’usage

de la déduplication.

Il est à noter que pour la déduplication à la cible, un débat oppose les tenants de la déduplication en ligne - «inline»,

qui s’opère au fil de l’arrivée des données - à ceux de la déduplication en mode post-processing, qui s’opère «en

batch» une fois la sauvegarde terminée. Le choix de l’une ou de l’autre des méthodes dépend essentiellement des

/16

Figure 2. Comment est-mise en oeuvre la déduplication dans votre entreprise

Les deux26 %

Dans une appliance à la cible

34 %

Dans le logiciel de backup40 %

Source: Enterprise Strategy Group, 2010.





usages et des préférences des utilisateurs. Reste qu’avec l’avénement de processeurs toujours plus puissants, il y a

fort à parier que nombre d’acteurs du post-processing évolueront progressivement vers le traitement en ligne.

La déduplication du stockage primaire, futur eldorado ?

Pour l’instant, la plupart des constructeurs n’ont appliqué la technologie de déduplication qu’à leurs solutions de

sauvegarde. Chez EMC, Data Domain et Avamar sont pour l’instant cantonnés à des appliances dédiées, conçues

pour le backup ou l'archivage à court terme; il en va de même chez IBM avec les appliances ProtecTier, chez HP

avec ses appliances D2D et VLS, chez Quantum, Sepaton ou FalconStor.

NetApp se distingue toutefois de la masse, puisqu’il n’hésite plus à recommander l’usage de la déduplication sur le

stockage primaire - même si à l’origine sa technologie de déduplication A-SIS n’était préconisée que pour les

données archivées. Le constructeur n’a jamais clamé qu’il disposait de la meilleure technologie de déduplication du

marché pour la sauvegarde - d’ailleurs sa tentative de rachat de DataDomain avait sans doute pour but de mettre la

main sur une technologie de déduplication plus avancée que A-SIS. Mais sa présence importante sur le marché NAS

l’a amené très tôt à considérer l’usage de la déduplication sur des données primaires et sur des données «nearline».

A tel point que le constructeur n’hésite plus à recommander l’usage de sa technologie de déduplication embarquée

(en mode post-processing) sur le stockage primaire, dans certains scénarios comme le déploiement de postes de

travail virtualisés. Il est fort probable que NetApp ne restera pas durablement le seul sur ce créneau (et qu'il devra

aussi revoir sa technologie pour proposer un mode de traitement inline).

Déjà, la plupart des systèmes de stockage à base du système de fichiers ZFS (comme ceux de Nexenta ou de

GreenBytes) sont capables d’appliquer la déduplication sur des données primaires - à condition toutefois de

disposer de suffisamment de puissance processeur et de mémoire. Et ce n’est sans doute qu’une question de temps

avant qu’Oracle ne commence lui aussi à jouer de la technologie dans ses baies de stockage OpenStorage. Chez HP,

le mot d’ordre du moment est à l’intégration de la nouvelle technologie de déduplication maison, StoreOnce, dans

les systèmes de stockage de la marque. Déjà, le constructeur a indiqué que StoreOnce a vocation à être intégré

dans ses baies NAS en cluster X9000 et dans ses baies SAN LeftHand P4000. Les futures baies EVA et, qui sait, les

baies 3Par pourraient aussi à terme bénéficier de la technologie. Chez EMC, on ne cache pas non plus qu’un deseldorado futurs est l’usage de la déduplication dans les systèmes de stockage primaires. Le numéro un mondial du

stockage reste toutefois prudent pour l’instant et s’est jusqu’alors borné à la seule intégration de la compression

dans ses baies Clariion et Celerra.

Loi de Moore aidant, il va de toute façon bien falloir trouver quelque chose à faire pour occuper les nouveaux

processeurs multicoeur AMD et Intel qui motorisent les baies de stockage et pour tirer profit de façon optimale de la

capacité des nouveaux disques SSD. Et dans bien des têtes, la déduplication des données primaires est l’une des

fonctions qui pourrait au mieux exploiter les deux technologies, surtout si elle venait à être couplée à des fonctions

de classification automatique de données. Cela tombe bien, ces dernières se banalisent aussi dans les baies de

stockage...

/16







La déduplication de données est actuellement l'une des technologies de stockage les plus prometteuses

du fait de son aptitude à réduire considérablement le besoin de capacité de stockage des entreprises.

D'ici à 2015, 3/4 des entreprises devraient ainsi y avoir recours pour la sauvegarde de leurs données,

quand elle ne l'utiliseront tout simplement pas pour leurs données primaires. Enquête sur une

technologie en vogue, mais qui suscite encore beaucoup de questions.

Réduire les besoins en capacité disque et en bande passante réseau, économiser plus d’électricité, réduire le temps de

sauvegarde des serveurs comme des postes clients... Ces bénéfices de la déduplication de données ne sont que les

principaux avantages mis en avant par les utilisateurs de la technologie même si pour ceux qui ne se sont pas encore

laissé tentés, il reste encore beaucoup de scepticisme sur les déclarations des fournisseurs. Il est vrai que dans la

bataille qui s’est engagée entre les spécialistes du secteur, tels qu’EMC, IBM, Symantec, Commvault, HP, Falconstor ou

Quantum, chaque acteur joue de la surenchère pour séduire le chaland.

Comment «réduire» le volume des données

Selon les fournisseurs, l'appellation déduplication recouvre plusieurs réalités. La version la plus basique de la

technologie est maitrisée depuis des années, puisqu’il ne s’agit ni plus ni moins que de la compression, qui permet

d’éliminer certaine redondances de données afin de réduire l’empreinte de stockage d’un fichier. Au delà de cette

implémentation «historique», on a vu apparaitre plus récemment deux autres formes de réduction de données, tout

d’abord la déduplication au niveau fichier. Avec cette dernière, tout fichier détecté comme étant un double parfait d’un

autre fichier est tout simplement supprimé et remplacé par un «lien». Cette technologie est notamment mise en

oeuvre dans les messageries électroniques sous le nom de Single Instance Storage (un élément dupliqué à une ou

plusieurs reprises n’est stocké qu’une fois).

Mais la version de la technologie de déduplication qui intéresse aujourd’hui le plus les entreprises est la déduplication

au niveau du bloc (ou tout du moins au niveau d’un segment de fichiers). Comme avec le SIS, l’idée est de localiser

des «doublons» mais cette fois-ci à l’échelle de petits segments de fichiers, dans le but de maximiser les chances de

trouver des doublons. Selon les constructeurs, l’analyse des blocs se fait sur la base de segments de données de taille

fixe ou de taille variable. Dans ce dernier cas, le déplacement de la fenêtre d’analyse de l’algorithme de déduplication

maximise les chances de trouver des doublons et donc de réduire la taille des données.

Pour identifier les données dupliquées, l’approche utilisée est très similaire celle mise en oeuvre pour le calcul de

«hash» de données. En fait, la plupart des technologies découpent les fichiers en segments et opèrent un calcul de

«hash» sur ces segments grâce à un algorithme cryptographique. Ce calcul produit une valeur numérique réputée

unique, qui est ensuite comparée à la valeur numérique des autres morceaux déjà analysés. En cas de redondance, le

bloc est éliminé et un lien créé de tel sorte que lors de la restauration ou de la relecture, le système saura recréer le

fichier original, à partir des blocs uniques et des blocs dédupliqués.

S’assurer de l’intégrité des données

Même si les promesses de la déduplication sont séduisantes, un administrateur de stockage doit toujours faire sien ce

précepte enseigné aux étudiants en médecine : primum non nocere, ou «d'abord, ne pas nuire." La règle n°1 à garder

à l'esprit lors de l'introduction d'un changement dans votre système de stockage ou de sauvegarde de données est

d’assurer que la pérennité des données ne sera pas compromise.

Si certains ont émis des doutes sur la fiabilité de la déduplication, le moins que l'on puisse dire est qu'il n'y a pas à ce

jour d'exemple documenté de catastrophe de grande ampleur avec la technologie, alors que les histoires d'horreurs en

matière de sauvegarde et de restauration traditionnelle depuis des systèmes sur bande sont légion - ne pas en tirer

/16





pour autant la conclusion que la bande est morte, elle conserve toute son utilité dans certains scénarios, pour peu

qu'elle soit exploitée correctement.

Cette question de la fiabilité de la technologie est un point sur lequel EMC insistait tout particulièrement lors d’un

récent séminaire sur la déduplication à l’Hôtel de Crillon à Paris. Il est vrai que le constructeur a commencé à

s’intéresser très tôt à la question de la déduplication de données notamment avec son rachat d’Avamar en 2006.

Selon le constructeur, la technologie de déduplication maison a fait ses preuves avec près de 8 ans d’existence dans le

cas d’Avamar. Et plusieurs clients de confirmer la chose en rappelant que par rapport à leurs systèmes de sauvegarde

sur bande antérieurs, le couple déduplication/disque a en fait permis d’augmenter le taux de réussite des sauvegardes

pour s’approcher de 100% et a aussi permis de garantir le succès des restaurations des données, ce qui était loin

d’être le cas jusqu’alors. Et l’un des participants de rappeler qu’avant l’usage de la déduplication couplée à une baie de

disque, il lui avait été nécessaire, dans un cas bien particulier, de retrouver le lecteur avec lequel avait été écrit une

bande pour finalement parvenir à la relire, tous les autres lecteurs ayant échoué...

En fait, à moins d’une panne catastrophique sur un système de déduplication (genre inondation ou incendie) et dans le

cas absurde où il n’existe aucune version répliquée du système, les experts et analystes s'accorde à juger très

improbable la perte de données avec la déduplication. Certes il y a toujours l’éventuelle possibilité mathématique

qu’un calcul de hash sur deux segments d’information différents produise le même résultat (dans ce cas, cela voudrait

dire que deux données différentes seraient considérées comme identiques par le système). Mais la probabilité d’un tel

événement est à peu près aussi élevée que celle de voir débarquer un alien en surf sur la plage d’Hossegor. De plus il

existe des moyens de ce protéger d’un tel problème, notamment par vérification post calcul. En fait, la vraie question

n’est en fait pas dans la fiabilité des l’algorithmes de déduplication mais, pour les plus paranoïaques, dans l’appliance

qui l’exécute. Il faut ainsi évaluer avec soin les dispositifs de redondance mécanique des appliances de déduplication

(comme les mécanismes RAID ou de distribution des données sur des disques, la présence ou non de disques de

spare, la redondance des contrôleurs et alimentations...), le support du clustering, mais aussi les fonctions de

réplication de données entre appliances...

S'assurer de la pérennité de la technologie

Une autre question est celle de la pérennité des acteurs. Ainsi dans un scénario où l’on déduplique des données sur

disque avant finalement de les externaliser sur des cartouches, il faut s’assurer que l’on disposera bien d’une appliance

de déduplicaiton fonctionnelle lorsqu’il s’agira de «réhydrater les données» afin de les relire. Et pour des données à

contraintes de rétentions moyenne, de type 5 à 10 ans, cela parait tout de suite moins évident que pour des données

de sauvegarde à cycle de rétention court (1 semaine à un an). Il est donc prudent de requérir de son fournisseur un

engagement dans le temps ou de prévoir lors de la mise en oeuvre de la technologie les mécanismes de réversibilité

qui permettront de relire les données le moment venu. Les professionnels de la sauvegarde sont de toute façon

habitués à traiter de ce genre de contingences, nombre d'entre eux ayant déjà fait face à l'extinction de plusieurs

logiciels de sauvegarde...

/16

Coefficient Taux de réduction de données2:1 50 %3:1 66 %5:1 80 %10:1 90 %20:1 95 %100:1 99 %200:1 99,5 %500:1 99,8 %1000:1 99,9 %

Figure 3. Quel gain d’espace correspond à quel coefficient de déduplication





Dans tous les cas, la déduplication produit des résultats surprenants en matière de réduction des données. Si la

plupart des utilisateurs n’atteignent jamais les ratios invoqués par certains fournisseurs (de type 200 ou 300:1) - qui

ne sont possibles que dans certains scénarios très particuliers -, il est commun d’obtenir des ratios de type 10:1 à

20:1. Ce qui signifie une réduction de 90 à 95% du volume des données. Dans la pratique cela veut dire qu’une

appliance de déduplication avec 40 To de capacité disque utile pourra en fait sauvegarder 400 à 800 To de données.

Mais la déduplication présente d’autres bénéfices. A la source, par exemple, elle permet une réduction massive des

fenêtres de sauvegarde et un allégement considérable du trafic réseau. Ces caractéristiques permettent d’envisager

des scénarios de protection des agences distantes jusqu’alors impossibles, le tout en assurant une bien meilleure

sécurité des données.

Un autre bénéfice corollaire de la déduplication est que la réplication de données de sauvegarde entre sites distant est

elle aussi accélérée lorsqu’elle s’effectue entre deux appliances de déduplication identiques.

/16





La déduplication de données permet de réduire l’impact dela prolifération des machines virtuelles

Par Christine Cignoli, SearchStorage.com

La virtualisation de serveurs et la déduplication des données sont deux des technologies qui ont fait couler beaucoup

d’encre au cours des dernières années. Mais la combinaison des bénéfices de la virtualisation avec ceux de la

déduplication est un point sur lesquels les fournisseurs et les utilisateurs sont encore en phase de réglage. «Nous

avons franchi une étape clé l’an passé, lorsque le nombre de serveurs virtuels a dépassé le nombre de serveurs

physiques", explique Steve Scully, directeur de recherche, en charge des questions de continuité, de reprise après

sinistre et d'orchestration du stockage chez IDC. "Le plus grand défi porte sur la sauvegarde des machines

virtuelles."

«La virtualisation a provoqué une prolifération des serveurs", explique Eric Pitcher, le vice-président de la stratégie

chez CA. "Les utilisateurs disent que les machines virtuelles sont jetables après usage, mais la réalité est touteautre. En général, les utilisateurs passent leur temps à instancier de nouvelles VM". Et d’indiquer que la

déduplication de données est, au final, l’un des moyens de combattre la prolifération des serveurs virtuels.

Dans une situation traditionnelle où la sauvegarde porte sur des environnements physiques, une entreprise achète

une licence pour chaque serveur, exécute l’agent de sauvegarde sur chaque serveur, sauvegarde tous les fichiers et

les envoie sur le disque ou sur bande, explique Scully. Mais quand il s'agit de serveurs virtuels, "si vous multipliez ce

modèle par 50 ou 100 fois, vous payez beaucoup pour ces licences et ne tirez pas forcément profit des technologies

de déduplication». «En fait vous multipliez le nombre de processus identiques tournant en parallèle sans aucune

connaissance de ce que font les autres processus en cours d'exécution." Les machines virtuelles sont souvent

sauvegardées comme des images complètes par opposition à un ensemble de fichiers individuels. Certaines

applications de sauvegarde peuvent appliquer leurs algorithmes de déduplication à des images multiples, indique

Scully. Mais «vous ne bénéficiez pas de la granularité des sauvegardes au niveau fichier," dit-il.

Il est plus compliqué de sauvegarder des serveurs virtuels que de sauvegarder et de récupérer des

serveurs traditionnels

Un défi commun des serveurs virtualisés, est que toutes les machines partagent les capacités CPU, la bande

passante et l’espace disque du serveur physique, explique Rob Emsley, directeur senior du marketing produit, de la

division systèmes de sauvegarde et de protection de données d’EMC division systèmes. «Il faut faire un usage plus

efficace des ressources physiques, ce qui rend difficile l’usage de technologies de de sauvegarde et de récupération

traditionnelles, dit-il.

La sauvegarde de serveurs virtuels est plus complexe que d'autres sauvegardes, explique Pitcher. "Vous prenez uninstantané du serveur, déplacez ce snapshot vers un emplacement temporaire et réalisez les sauvegardes à partir

de cet endroit, explique-t-il. La stratégie de CA pour améliorer et dédupliquer les sauvegardes virtuelles consiste à

supprimer cet emplacement de stockage intermédiaire pour sauvegarder l'espace virtuel directement depuis la

machine virtuelle.

«La virtualisation des serveurs et la déduplication relèvent du même concept» explique Mike Dimeglio, le directeur

du marketing produit chez Falconstor: "il s’agit de consolider, d'optimiser le stockage, de réduire la consommation

électrique tout en assurant la conservation des données pendant de longues périodes de temps". Falconstor a inclus

des technologies de déduplication dans ses produits DiskSafe et FileSafe, qui utilisent un serveur proxy pour

dédupliquer à la source les données des machines virtuelles, tout en proposant de multiples options de sauvegarde.

Mais Dimeglio ajoute que les snapshots ont un rôle très important dans l’approche de sauvegarde et de

/16


La déduplication de données permet de réduire l ʼimpact de la prolifération des VM



déduplication des machines virtuelles. "Vous pourrez sauvegarder depuis un instantané et appliquer la Deduplication

à ce processus," ajoute-t-il.

"La technologie de déduplication d’Avamar permet de dédupliquer les données à la source directement depuis

l’environnement virtualisé et est étroitement intégrée à VMware vSphere," explique Emsley. "En dédupliquant les

machines virtuelles au moyen d’une appliance de déduplication à la cible, telle que celle de Data Domain, les

serveurs virtuels sont traités comme tout autre charge de travail," explique Shane Jackson, le directeur du

marketing produits en charge de Data Domain et des librairies de bandes chez EMC. "Les taux de déduplication peut

être très élevé pour les machines virtuelles, car le niveau de redondance de données est très élevé," indique

Jackson.

Déduplication à la cible contre déduplication à la source

"La déduplication à la source et la déduplication à la cible ont chacune des avantages dans le cas de la sauvegarde

de machines virtuelles," explique Scully, d’IDC. Un point important à considérer est de savoir si l'application de

sauvegarde réalise des sauvegardes incrémentielles à partir des images complètes des machines virtuelles

individuelles. "Vous pouvez être sûr que l'image sera modifiée à chaque nouvelle sauvegarde", indique Scully. "Il

suffit en effet qu’un fichier sur cette image entière ait changé, pour que le fichier qui stocke la machine virtuelle soit

différent. Dans ce cas, il est judicieux de dédupliquer l'image entière à la source. Mais certains utilisateurs

pourraient vouloir extraire des données de l'environnement de production sans faire supporter une charge de

traitement supplémentaire sur les serveurs (ce qui est la cas avec la déduplication à la source). Dans une situation

de reprise après sinistre vrai, une image complète de la machine virtuelle peut être un moyen "très puissant" pour

restaurer les systèmes dans leur état initial d’avant panne,» explique Scully.

"Dédupliquer les données de sauvegarde à la source permet de transférer des données rapidement hors des VM,"

explique quant à lui Matthew Lodge, directeur senior du marketing produit chez Symantec. L’éditeur a récemmentpublié de nouvelles versions de NetBackup et Backup Exec capables d’effectuer des restaurations très granulaires

des machines virtuelles, et permettant la déduplication à plusieurs étapes du processus de sauvegarde, y compris à

la source. Symantec recommande l’usage de la déduplication au sein de chaque machine virtuelle si l’entreprise a

des contraintes de bande passante ou si son datacenter utilise Microsoft Hyper-V. Dans les autres cas, l’éditeur

recommande à ses utilisateurs d’utiliser l’API VMware vStorage pour envoyer l'ensemble des images VMware à un

serveur de médias NetBackup qui se chargera de la déduplication.

De nouvelles options de déduplication pour les serveurs virtuels

D’autres options plus originales pour dédupliquer des serveurs virtuels sont aussi disponibles sur le marché.

"Bluelock LLC, un fournisseur de cloud computing, a abordé la question de la déduplication des données des

serveurs virtuels sous un angle différent," indique Pat O'Day, le directeur de la technologie de la société. BlueLock

utilise des clones VMware liées pour réduire les données dupliquées. Les administrateurs de la société on créé un

modèle de serveur VMware l’on stocké dans le nuage de serveurs et mettent ce modèle à disposition des

utilisateurs. Lorsque les utilisateurs renomme ce serveur, seul un bloc change.

"Le clone lié suit à la trace les changement de blocs qui interviennent entre le modèle d’origine et la machine de

l'utilisateur» explique O'Day. «Il s'agit essentiellement déduplication." L'inconvénient à long terme est que la

technologie «ne réconcilie pas les changements comme le ferait une solution de déduplication». Si O’Day déclare

étudier d’autres options de déduplication, il espère en fait les combiner avec l’usage des clones liés. «Je ne pense

pas que les clones liés vont disparaître en faveur de la déduplication» conclut-il.

/16





Comme l'utilisation des serveurs virtuels a dépassé le stade des études et du développement, les technologies de

sauvegarde et de récupération de données associées continuent de mûrir. "Il y a beaucoup à faire», indique Jackson

d’EMC. "En ce moment même, nous poussons à usage plus élevé de la virtualisation des serveurs dans le centre de

données, afin d’atteindre le stade de près de 80% des serveurs virtualisés». La déduplication de données est une

technologie clé pour atteindre ce stade et s’insère dans le cadre d’une refonte plus large des processus de

sauvegarde.

Au moment de choisir la façon de dédupliquer les données des serveurs virtuels, «il convient vraiment de

comprendre quels sont vos besoins, ce que vous voulez récupérer au niveau du fichier et ce que vous voulez

récupérer au niveau de l'image», explique Scully d’IDC. "Il y a différents niveaux de réglages que vous pouvez

affiner afin de récupérer ce dont vous avez besoin et avec le niveau de granularité désiré».

/16





NetApp va revendre les appliances de déduplication et deVTL de Fujitsu


A l'occasion du salon Storage Networking World Europe qui se tenait à Francfort fin octobre, NetApp et

Fujitsu ont annoncé le renforcement de leur alliance. NetApp, qui est devenu le partenaire privilégié du

Japonais après l'abandon du partenariat avec EMC, va notamment revendre l'appliance de sauvegarde

et de déduplication Eternus CS800 que Fujitsu a développé sur base Quantum. Une première pour le

constructeur californien.

A l’occasion du salon Storage Networking World (SNW) qui se tient actuellement à Francfort, l’ex-plus grand

partenaire d’EMC en Europe, Fujitsu a définitivement enfoncé un clou dans le cercueil de son alliance avec le leader

mondial du stockage en confirmant son alliance stratégique avec NetApp.

Pour marquer un peu plus la solidité de la relation, les deux sociétés ont encore renforcé leurs liens à Francfort en

annonçant que NetApp va mettre à son catalogue l’appliance de sauvegarde sur disque et de librairie virtuelle

Eternus CS800 de Fujitsu (ex CentricStor). Il s’agit d’une première pour le constructeur californien qui jusqu’à ce

jour n’avait jamais mis à son catalogue d’autre produit tiers que les commutateurs Fibre channel de Brocade et

Cisco. Dans la pratique, l’accord parait logique : l’Eternus CS800 vient en effet remplacer les anciennes appliances

VTL de NetApp, les nearstore, développées sur la base de la technologie acquise avec le rachat d’Alacritus et dont

NetApp a finalement annoncé l’arrêt des développements l’an passé.

Fujitsu fournira à NetApp ses appliances de déduplication et de VTL

L’Eternus CS800 est un produit tout en un qui inclut des fonctions de sauvegarde sur disque de VTL et de

déduplication (Fujitsu embarque en fait le code développé par Quantum sur le CS800, alors qu’il développe son

propre code pour les Eternus CS haut de gamme). L’objectif pour NetApp avec l’intégration du CS800 dans son

catalogue est notamment d’offrir aux PME une appliance de sauvegarde complémentaire de ses systèmes de

stockage. Indirectement, l’accord avec Fujitsu permet à NetApp de mettre à son catalogue la technologie de

Quantum sans accord bilatéral avec le constructeur californien.

L’alliance entre NetApp et Fujitsu sur l’Eternus CS800 est pour l’instant limitée à la zone EMEA (Europe, Moyen-

Orient, Afrique) mais pourrait s’étendre à d’autres zones géographiques si le partenariat s’avère concluant. C’est en

tout cas ce qu’a expliqué Rick Scurfield le patron mondial des alliances chez NetApp. Le même Scurfield a aussi

laissé entendre que Fujitsu et NetApp pourraient renforcer leurs liens aux Etats-Unis, un pays ou Fujitsu est pour

l’instant peu puissant et où les deux partenaires pourraient avancer de concert sur les problématiques de datacenterface à l’alliance VCE et aux offres intégrées de constructeurs comme HP, IBM ou Dell.

/16


NetApp va revendre les appliances de déduplication et de VTL de Fujitsu





Le moins que l’on puisse dire est que le marché de la déduplication ne manque pas d’acteurs. Dans ce

chapitre, nous avons tenté d’inventorier les principaux fournisseurs d’appliances de déduplication ou de

technologies destinées à l’élaboration de tels appliances. Ce panorama ignore donc les grands du

logiciel de sauvegarde tels que Commvault, Symantec ou Arkeia, qui disposent désormais tous d’une

offre en matière de déduplication intégrée à leurs solutions.

Les constructeur généralistes :

Dell : au mois de juillet 2010, Dell a fait l’acquisition d’Ocarina Networks, un spécialiste des outils de compression et

de déduplication de données. Ocarina s’est notamment fait connaitre pour sa technologie de compression capablede réduire le volume occupé par certains fichiers multimédias réputés incompressibles tels que fichiers Jpeg ou

videos MPEG. Plus généralement, les technologies d’Ocarina s’appliquent aux données non structurées qu’elles

résident sur des support primaires ou des support de sauvegarde. Dell devrait vraisemblablement intégrer les

technologies d’Ocarina Networks à ses baies de stockage Equallogic et appliances de sauvegarde Powervault. Le

constructeur texan pourrait aussi appliquer la déduplication à ses solutions d’archivage et notamment à l’offre de

stockage objet conçue en partenariat avec Caringo.

Fujitsu : De sa fusion avec Fujitsu-Siemens, Fujitsu a conservé la gamme de VTL hybride Centricstor désormais

rebaptisée Eternus CS et qui couple des fonctions de sauvegarde sur disque, d’archivage, de VTL et d’appliance de

déduplication. Positionnée comme une solution de haut de gamme l’Eternus CS a récemment été mis à jour en

version 5, une mouture qui marque l’arrivée d’une interface en mode fichier (CIFS et NFS) pour les fonctions

d’archivage ainsi que l’ajout de fonctions re réplication asynchrone entre EternusCS.

En parallèle de cette offre «maison», Fujitsu a aussi développé une offre de milieu de gamme, l’Eternus CS800 qui

s’appuie sur la technologie de déduplication et de VTL de Quantum. Pour la conception du CS800, Fujitsu s’est

chargé du design de l’appliance et de l’optimisation des sous-systèmes matériels mais a repris l’intégralité du code

de Quantum. Le résultat est une appliance dont les prix vont de 10000 à 60 000 € selon la version et la

configuration.

HP : Hewlett-Packard a récemment annoncé la disponibilité d’un nouveau module de déduplication de données qu’il

va progressivement déployer sur ses baies de stockage et de sauvegarde sur disques au cours de l’année 2010 et

au début 2011. Baptisée HP StoreOnce, la technologie de déduplication inline développée par les HP Labs a été

intégrée sur les nouvelles appliances de backup D2D et devrait l’être prochainement sur les systèmes NAS en

cluster X9000 de la marque, avant de faire son apparition sur de futures baies de stockage EVA. Comme il l’avait

aussi laissé entendre lors de sa conférence Tech@Work de Francfort, HP entend également intégrer StoreOnce dans

son logiciel de sauvegarde HP Data Protector.

L’usage de cette architecture est destiné à s’étendre a expliqué Dave Roberson, le vice-président senior en charge

de la division HP StorageWorks. « Nous commençons par la sauvegarde et l'année prochaine nous serons en

mesure d'introduire la déduplication de bout en bout. Personne d'autre ne fait cela ». Malgré l’annonce de

StoreOnce, HP continuera à vendre la solution de déduplication en post-traitement de Sepaton, qu’il intègre

actuellement dans ses bibliothèques virtuelles haut de gamme (gamme VLS), même si le constructeur pourrait

progressivement remplacer cette ligne de produit avec la montée en puissance et en capacité de la gamme D2D. Le

/16



http://www.lemagit.fr/article/stockage-sauvegarde-deduplication-cluster-san-eva/6618/1/hp-techforum-unifie-ses-technologies-deduplication-devoile-une-solution-cluster-eva/

http://www.lemagit.fr/article/stockage-sauvegarde-deduplication-cluster-san-eva/6618/1/hp-techforum-unifie-ses-technologies-deduplication-devoile-une-solution-cluster-eva/



premier D2D équipé de la technologie StoreOnce, le D2D4312, débute ainsi à 18 To et peut atteindre 48 To de

capacité brute. L’appliance a un prix d’entrée de 94 999$.

IBM : avec le rachat de l’israélien Diligent en 2008, IBM a acquis celui qui est aujourd’hui considéré comme l’un des

principaux concurrents d’EMC. Comme dans le cas des appliances DataDomain, la technologie des appliances

Protectier s’appuie sur un algorithme de déduplication en ligne capable de dédupliquer les données à la volée. Selon

Big Blue, un cluster d’appliances Protectier peut ingérer jusqu’à 500 Mo de données par seconde. Depuis 2009, Big

Blue a enrichi les appliances ProtecTier de fonctions de réplication asynchrone.

Microsoft : Microsoft propose des fonctions basiques de déduplication dans son système d’exploitation orienté

stockage, Windows Storage Server 2008. Cet OS incorpore en effet un système de «Single Instance Storage» qui

assure qu’un même fichier n’est pas stocké deux fois sur un même serveur de stockage. Cette fonction est par

exemple utilisée par HP pour ses systèmes de stockage d’entrée de gamme Windows de la série StorageWorks X.

NEC : Même si la solution n’est pas (encore ?) disponible en France, NEC propose aux Etats-Unis une solution de

déduplication de données intégrée à sa solution de stockage en grille HydraStor. HydraStor, dont les prix débutent à

environ 40 000 $ pour 4 To de capacité, s’appuie sur un algorithme de déduplication en ligne baptisé DataRedux,

qui vient renforcer l’arsenal technologique des baies de stockage en cluster NEC. Selon NEC, sa solution d’entrée de

gamme HydraStor HS-3 est une concurrente directe des systèmes EMC Data Domain DD630 tandis que la solution

en grille HS-8 est une alternative au haut de gamme EMC.

Les spécialistes du stockage

EMC : EMC a fait ses premiers pas dans la déduplication avec le rachat d’Avamar, l’un des pionniers de la

déduplication à la source en 2006. Depuis, le constructeur a mis la main sur DataDomain dans une bataille épique

avec NetApp. La firme est aujourd’hui le principal acteur du secteur avec des technologies qui sont considéréescomme comptant parmi les meilleures du moment. Avamar est notamment considéré par les spécialistes comme la

meilleure technologie de déduplication à la source. Alors qu’à ces débuts, la technologie était vendue sous la forme

d’un logiciel (à installer sur un serveur approuvé), EMC la commercialise aujourd’hui sous la forme d’une appliance

intégrée combinant le contrôleur Avamar (un serveur à base de puces Xeon) et une baie de disques.

DataDomain, de son côté est la technologies de déduplication à la cible la plus déployée du marché. Par rapport à

certains concurrents comme les passerelles Protectier d’IBM, la solution d’EMC manque encore d’un mode cluster

failover entre deux noeuds DataDomain, qui permettrait d’assurer la continuité des opérations de sauvegarde même

en cas de chute d’un noeud. Pour l’instant, la firme propose une solution de cluster de performance, qui améliore les

taux de transferts, mais ne règle pas le problème de chute d’un noeud. Reste que cette carence doit être considérée

à sa juste mesure : dans le cas (rare) de chute d’un noeud, les processus de sauvegarde en cours sur ce noeud

devront être relancés (à aucun moment le catalogue ou les données déjà sauvegardées lors de job précédents ne

sont mis en péril par la chute d’un contrôleur). Il est à noter que si les technologies de déduplication à la source et à

la cible d’EMC sont aujourd’hui disjointes, elles pourraient au final finir par converger, un point que le constructeur a

laissé entendre (sans toutefois en faire la promesse ferme) lors du dernier EMC World.

GreenBytes : nouveau venu sur le marché, GreenBytes a développé une série d’appliances supportant la

déduplication inline pour le stockage primaire et la sauvegarde. Les appliances GB-X de GreenBytes s’appuient sur

le système d’exploitation OpenSolaris et le système de fichiers ZFS de Sun. Leur algorithme de déduplication

s’appuie sur le système de calcul de hash Tiger (192 bit) plutôt que sur SHA-1. Pour assurer un impact minimal en

matière de performance, notamment lorsque la déduplication est utilisée sur des données primaires, les appliances

/16



http://www.lemagit.fr/article/ibm-emc-deduplication-data-domain/3880/1/stockage-data-domain-double-debit-ses-appliances-deduplication/

http://www.lemagit.fr/article/archivage-stockage-emc-sauvegarde-deduplication-netapp-data-domain-quantum/3783/1/apres-rachat-data-domain-emc-devoir-rationaliser-son-offre-deduplication/

http://www.lemagit.fr/article/ibm-stockage-deduplication-replication/3911/1/ibm-ajoute-replication-ses-appliances-deduplication-protectier/

http://www.lemagit.fr/article/sun-ibm-archivage-stockage-emc-sauvegarde-deduplication-hds/271/1/ibm-lance-dans-deduplication-donnees-avec-rachat-diligent/











de GreenBytes font un usage intensif de disques SSD qui agissent comme un cache devant les disque SATA. Selon

GreenBytes, ses systèmes peuvent gérer, dans leur version actuelle, entre 4 et 216 To de données non

dédupliquées en ligne.

NetApp : NetApp a été le premier constructeur a proposer l’usage de la déduplication pour les données primaires.

Ce mécanisme de déduplication, à l’origine développé sous le nom «A-SIS», s’appuie sur une fonction du système

de fichiers WAFL qui calcule une somme de contrôle CRC pour chaque bloc de données qu'il stocke. Dans la

pratique, la technologie de déduplication de NetApp est un processus optionnel qui fonctionne pendant les périodes

de faible activité de la baie et examine toutes les sommes de contrôle; si les deux sommes de contrôle

correspondent, l'un des blocs est remplacé par un pointeur WAFL. Le résultat est une nette réduction de l’espace

utilisé sans impact significatif sur les performances. Le système de déduplication NetApp a été mis en oeuvre par de

nombreux utilisateurs sur des types de données multiples, y compris les répertoires, bases de données et des

images virtuelles, et la plupart ont rapporté des résultats positifs en matière de réduction de données et de

performance. Il est à noter que la déduplication est aussi mise en oeuvre par NetApp pour tous ses systèmes

d'archivage ("Vault")

Nexenta Systems : La start-up californienne Nexenta, qui s’est récemment illustré en soutenant la création

d’Illumos après l’arrêt par Oracle du projet Open Solaris, s’est taillée une solide réputation dans le monde du

stockage en développant NexentaStor, un système d’exploitation orienté stockage dérivé d’OpenSolaris et

s’appuyant sur le système de fichiers Solaris ZFS. NexentaStor offre des capacités de stockage unifié (NAS, iSCSI et

Fibre Channel) et incorpore de multiple fonctions telles que les snapshots, la réplication synchrone, la compression

de données et, depuis la version 3.0, la déduplication inline. Cet ajout permet à NexentaStor de dédupliquer les

données sur des volumes d’archives aussi bien que des données primaires, à condition toutefois que l’appliance

NexentaStor soit dotée de la puissance CPU et de la mémoire vive nécessaire.

Quantum : Quantum est l’un des pionniers de la déduplication. La firme a hérité sa technologie de déduplicationBlocklets lors du rachat d’ADIC en août 2006. Ce même ADIC avait lui même préalablement avalé Rocksoft,

l’inventeur de la technologie, en mars 2006. Quantum s’est rapidement employé à intégrer la technologie Blocklets

dans ses librairies de bandes virtuelles et a commencé à livrer ses premiers systèmes en décembre 2006 (les VTL

DXi3500 et DXi5500). Depuis, la déduplication est devenue un élément standard des équipements de sauvegarde

de la marque.

Récemment, Quantum a démocratisé l’usage de la technologie en lançant les gamme DXi4500 et DXi2500, deux

familles d’appliances de déduplication à des tarifs très abordables et qui sont proposées avec des capacités de

stockage à partir de 2 To. Ces équipements incluent en standard deux puces quadri-coeurs Intel Nehalem, ce qui

leur permet d’offrir des performances étonnantes pour leur niveau de prix. En octobre 2010, la firme a aussi dopé

son haut de gamme avec le DXi8500, une appliance capable de traiter jusqu’à 6,4 To par heure, y compris en mode

VTL.

Il est à noter que Quantum a été pendant plusieurs années le partenaire de déduplication d’EMC pour ses baies VTL

mais que l’accord a connu une fin funeste avec le rachat de Data Domain par le numéro un mondial du stockage.

depuis Quantum a toutefois signé un accord OEM avec Fujitsu pour ses appliances Eternus CS800, également

revendues par NetApp.

Notons enfin que Quantum a étendu l’usage de la déduplication au stockage primaire en intégrant sa technologie

dans son système de fichier SAN StorNext 4.0. L’objectif est comme, dans le cas de NetApp, d’activer la

déduplication pour les usages nearline ou pour les applications ne nécessitant pas des performances optimales.

/16



http://www.lemagit.fr/article/sauvegarde-deduplication-quantum-backup/6334/1/sauvegarde-quantum-renforce-son-offre-deduplication-donnees-pour-les-pme/

http://www.lemagit.fr/article/stockage-nas-san-iscsi-zfs-nexenta/6485/1/nexenta-appuie-sur-open-source-zfs-pour-tenter-concurrencer-les-grands-stockage/







Les fournisseurs de technologie

Falconstor : Notamment connu pour son offre logicielle VTL IPStor, Falconstor propose depuis déjà plusieurs

années des fonctions de déduplication en mode post-processing dans sa solution VTL. Selon l’éditeur, la solution

IPStor peut ingérer des données à un rythme pouvant atteindre 500 Mo/s par noeud avec une limite de 4 noeuds en

cluster failover (n+1).

En parallèle de sa solution de déduplication VTL, l’éditeur a développé une solution de déduplication de données

baptisée File-interface Deduplication System (FDS), qui permet de dédupliquer des données en mode post-

processing sur des volumes NFS et CIFS (la solution est alors adaptée à des scénarios de sauvegarde sur disque).

Selon FalconStor, FDS supporte l’API OST de Symantec (intégrée à NetBackup et à BackupExec) et serait capable

de supporter des débits de l’ordre de 5.5 To/h sur un noeud équipé de deux liens 10 Gigabit Ethernet.

IPStor est notamment utilisé par Oracle pour ses librairies VTL. Hitachi Data Systems a aussi récemment noué un

accord OEM avec FalconStor pour l’utilisation d’IPStor et de FDS en complément de ses systèmes de stockage AMS

2000.

Permabit: Cette jeune start-up a développé une technologie de déduplication de données baptisée Albireo, qu’elle

propose en OEM aux constructeurs de baies de stockage. La promesse de Permabit avec Albireo est l’application de

la déduplication tant aux données d’archives qu’aux données primaires. Albireo combine selon l’éditeur des fonctions

de compression de données traditionnelles avec un algorithme de déduplication optimisé en fonction des contenus à

traiter. Le constructeur de passerelles NAS en cluster BlueArc est l’un des premiers à avoir annoncé son intention

d’intégrer Albireo à ses équipements. Et Xiotech a également annoncé l’intégration à venir d’Albireo à ses systèmes

Sepaton : Sepaton a fait son entrée sur le marché de la déduplication avec sa librairie de bande virtuelle

départementale DS2. Le constructeur a développé sa propre technologie de déduplication, baptisée DeltaStor

(actuellement en version 5.3). Cette dernière est une technologie de déduplication en mode post-process qui

s’appuie sur un système d’analyse différentielle des données. Selon Sepaton, il ne s’agit pas d’une technologie àbase de hash. La technologie DeltaStore a l’avantage de fournir un système de déduplication global (tous les noeuds

partagent un catalogue de déduplication unique, ce qui permet d’optimiser la déduplication à travers l’ensemble des

noeuds). Elle optimise également les algorithmes utilisés en fonction de la nature des données ingérées. La

technologie est utilisée dans les baies VTL Sepaton S2100-ES2, qui s’appuient sur des baies Hitachi AMS 2100 OEM

mais aussi par plusieurs OEM dont HP pour ses librairies VLS.

/16



http://www.lemagit.fr/article/stockage-emc-nas-deduplication-san-iscsi-lacie/5856/1/stockage-point-sur-les-annonces-semaine-ecoulee/



Dossier Deduplication LeMagIT

Documents

Transcript of Dossier Deduplication LeMagIT