Titre de l’Article - setit.rnu.tn · la personnalisation d'un site e-commerce dont la teneur et...

SETIT 2007 4th International Conference: Sciences of Electronic,

Technologies of Information and Telecommunications March 25-29, 2007 – TUNISIA

Approche data mining pour la gestion de la relation client : application à la personnalisation d'un site de

e-commerce h. NECIR *, h. DRIAS **

* Université des Sciences et de la Technologie Houari Boumediene, Laboratoire de Recherche en Intelligence Artificielle (LRIA), Département d’informatique, Faculté

d’Electronique et d’informatique. USTHB, El Alia BP 32, Bab Ezzouar, Alger, Algérie

[email protected]

** Université des Sciences et de la Technologie Houari Boumediene, Laboratoire de Recherche en Intelligence Artificielle (LRIA), Département d’informatique, Faculté

d’Electronique et d’informatique USTHB, El Alia BP 32, Bab Ezzouar, Alger, Algérie

[email protected] Abstract: Actuellement, avec les nouvelles contraintes liées au développement important d’Internet, des services en lignes et de l’intensification de la concurrence, il est économiquement moins cher pour une entreprise de conserver et de fidéliser sa clientèle que de chercher à élargir ses parts de marché par une politique conquérante. Cependant, établir une démarche CRM efficace, ne peut être envisagée que sous forme d'un ensemble d'actions coordonnées au service d’objectifs précis et concrets à atteindre. Ainsi, face à ce champs de prospection immense, beaucoup de questions restent posées : quelles stratégies doit on adopter dans notre relation avec le e-client et quelles sources de création de valeur peut-on actionner dans une démarche CRM? Dans cet article, on s’intéresse à ces problématiques et en particulier à la personnalisation de la relation client comme principal facteur de la fidélité à un site e-commerce. Pour atteindre ces objectif, on adoptera une démarche e-CRM, utilisant des techniques data mining. Ceci sera appliqué à la personnalisation d'un site e-commerce dont la teneur et la structure sera dynamiquement réorganisée suivant le comportement d'achat et les centres d’intérêt des différents clients. Key words: CRM, Data mining, e-commerce, e-CRM, fidélité client, personnalisation.

INTRODUCTION Actuellement, une bonne gestion d’entreprise ne

peut se faire sans une meilleure compréhension de la relation client par le biais d’une meilleure connaissance des comportements de ce dernier.

Pour atteindre cet objectif, deux atouts existent : le commerce électronique et le Data mining.

Le commerce électronique permet d’utiliser les transactions électroniques afin de collecter une grande masse d’informations. Cette dernière sera exploitée et analysée grâce au data mining afin de y découvrir de l’information implicite et utile.

Cette capacité permettra à l’entreprise une rapidité de prise de décision et un véritable pilotage de la fonction marketing, grâce à une connaissance beaucoup plus étoffée et fine du comportement du client.

Dans ce travail, il s’agit d’intégrer, en plus de la conception du site e-commerce, un module de data mining qui permet d’extraire des informations pertinentes à partir de l’ensemble des transactions effectuées par les clients.

Ces connaissances déduites du gisement de données vont êtres exploités pour personnaliser dynamiquement la teneur et la structure du site de vente qui sera réorganisée suivant le comportement de des différents types de clients.

- 1 -

SETIT2007

Dans cet objectif, notre travail sera organisé comme suit :

Après une introduction générale, nous nous intéresserons à définir le CRM et son importance dans la fidélisation du client.

Nous établirons, par la suite, les préalables au succès d'une démarche CRM. Ceci nous permettra d'aborder des notions importante tel que : le e-commerce, le data warehouse et le data mining.

Nous définirons les différentes étapes d'une démarche CRM et ensuite nous expliciterons la démarche qu'on a adoptée.

Nous présenterons quelques interfaces de notre site et enfin, une conclusion et des perspectives d'études clôturent ce travail.

1. CRM et fidélisation du client La gestion de la relation client connue sous le nom

de CRM (Customer Relationship Management), est définit [NEW 00] comme "un processus de modification du comportement du client, cherchant à apprendre à partir de chaque interaction avec ce dernier. Le CRM vise également à traiter le client de manière individualisée et à renforcer le lien existant entre celui-ci et l'entreprise".

Ce processus interactif a pour objectif de réaliser l’équilibre optimum entre les investissements de l’entreprise et la satisfaction des besoins des clients afin de générer un maximum de profit [ECC 05].

Les revenus de l'entreprise sont améliorés, d’une part, par une réduction des coûts en utilisant des médias plus appropriés et moins chers, et d’autre part par un meilleur ciblage des actions marketing qui induisent un retour sur investissement supérieur où encore grâce à la diminution des plaintes des clients qui sont davantage satisfaits.

Dans cette stratégie, l’entreprise vise à optimiser ces performances commerciales en se concentrant sur le long terme. Elle peut ainsi même sacrifier des avantages de court terme dans l’espoir d’une permanence sécurisante au sein de la relation [ABI 02].

Le CRM met l’accent sur la fidélisation du client afin d’augmenter ces parts en s'attachant à satisfaire ces besoins. Cette fidélité étant conçue comme la plus importante sinon la seule source de performance de l’entreprise à long terme [HES 94], [JON 95].

Cette fidélisation du client passe par sa satisfaction vis-à-vis des attributs des produits ou services et des informations échangées [SPR 96] et se traduira toujours par une stratégie de valeur bâtie sur une confiance mutuelle [REI 00] qui influencera positivement son engagement pour maintenir une relation durable [DWY 87] ; [MOO 93] ; [MOR94] ; [GAR 99].

Par ailleurs, grâce à la communication personnelle et au dialogue permanent avec le client, la

connaissance qu’a l’entreprise de celui-ci est accru et les besoins en études de marché sont réduits.

Au-delà de l’augmentation du montant de leurs achats, les clients fidèles recommandent leur fournisseur à d’autres clients potentiels, ce qui représente une nouvelle source de profit. Ce phénomène est encore amplifié et accéléré sur Internet grâce aux communautés virtuelles [JAL 97]; [REI 00].

On distingue trois grandes catégories d'outils CRM [CIN 02] :

• Les outils d'automatisation des forces de ventes, qui permettent le suivi des clients et prospects.

• Les outils qui définissent les segmentations et typologies des clients et orchestrent les campagnes.

• Les outils pour le suivi client après vente.

Actuellement, on voit l'émergence du e-CRM qui est la gestion de la relation client utilisant le canal Internet.

Par rapport au CRM classique, cette approche peut offrir des opportunités bien plus diversifiées, et surtout à moindre coût, pour améliorer la commercialisation d'un produit et fidéliser la clientèle.

Grâce à Internet, les informations relatives à la clientèle sont désormais accessibles à l'ensemble des structures de l'entreprise avec différents niveaux d'interaction entre l'entreprise et le client.

Dans cette étude, nous emploierons le mot CRM et e-CRM de façon indifférente puisqu'on considère que les deux concepts sont en somme une même démarche avec seulement des différences relatives aux possibilités, spécificités et exigences de l’outil Internet.

2. Les préalables pour un CRM efficace Les projets CRM ont, actuellement, des

obligations de rentabilité et de pérennité de plus en plus importantes. Ils doivent s’intégrer le plus possible au système d’information de l’entreprise.

Un projet CRM ne peut donc s’improviser et doit toujours justifier le budget qui lui est alloué en démontrant sa rentabilité et sa capacité à évoluer tout en gardant sa cohérence.

Face à ces enjeux de taille, la définition d’objectifs quantifiés précis et étalés dans le temps et auxquels sont associés des indicateurs de performance permettra de lever les doutes et les incompréhensions sur la viabilité et l'utilité de chaque étape de construction. Ceci passe par le respect des principes et objectifs financiers de l’entreprise ainsi que par des choix technologiques adéquat.

Actuellement, le commerce électroniques, les entrepôts de donnée et le data mining sont les trois technologies qui ont le rôle le plus fondamental dans une démarche CRM.

- 2 -

SETIT2007

2.1. Le commerce électronique Le commerce électronique [KAL 97], [OCD 98],

[OCD 99] permet l’abondance de l'information concernant les clients, les produits et services. Ceci permet d'entreprendre une démarche CRM efficace en agissant sur les fonctionnalités relatives à la forme de la relation et son contenu [CAD 02] en offrant une flexibilité sans précédent dans la vente.

Ainsi la fidélisation des clients s'accroît pour les sites e-commerce où le coût d’acquisition d’un client est très élevé. « Without the glue of loyalty, even the best-designed e-business model will collapse. » [REI 00].

2.2. L'entrepôt de données (data warehouse) Un entrepôt de données permet de recueillir et de

centraliser les données à analyser sous forme d'une collection orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision [INM 92]. Pour cela, les données qui sont extraites de toutes les sources vont être, au préalable, transformées pour consolider correctement l'entrepôt de données.

Les différences qui distinguent un entrepôt de données d'un système opérationnel sont à la fois d'ordre conceptuel, car l'objectif est différent et d'ordre technique, car la structure et les processus sont différents. Ainsi, le modèle entité/association sur lequel repose la conception des bases de donnée est inadapté à la conception d’un entrepôt de données. [KIM 97]. Ce dernier est typiquement modélisé par des modèles multidimensionnels (appelés aussi cube de données).

Il existe deux approches pour construire ces modèles multidimensionnels. L'approche MOLAP (Multidimensional MOLAP) et l'approche ROLAP Relational OLAP) qui utilise un SGBD relationnel pour stocker le cube de donnée. [BEL 00]

2.3. Le data mining Le data mining est définit comme “un processus

d’aide à la décision où les utilisateurs cherchent des modèles d’interprétation dans les données ” [PAR 96]. Il constitue ainsi le meilleur moyen permettant la mise à jour de nouvelles corrélations, tendances et modèles significatifs formant les connaissances cachées.

Les analyses qui découlent du data mining, nous permettent soit de corroborer une analyse prévisible, par des méthodes d'estimations, classifications ou prédictions. Soit elles mettent en évidence des liens à priori sans aucun rapport, en identifiant les formes de données qui pourraient être significatives (cas des achats simultanés dans une grande surface).

Dans le cadre de ce travail, on a appliqué deux grandes fonctions du data mining.

2.3.1. Les règles d'associations Cette technique appelée aussi panier de la

ménagère, permet d'étudier ce que les clients achètent

de manière à savoir qui ils sont et pourquoi ils font certains achats et quels produits sont le plus souvent achetés ensemble

Elle est l'une des techniques data mining les plus utilisée actuellement, du fait de la généricité de la structure des transactions auxquelles elle s'applique et de la grande utilité des règles d'inférence qu'elle découvre. [CHA 98]

Les règles générées et qui sont de la forme "Si action1 ou condition alors action2", sont claires et explicites et sont assorties de deux critères d'intérêt : Le support et la confiance de l'association.

Le premier critère mesure la représentativité des cas observés en calculant le nombre de fois où l'association est respectée par rapport au pourcentage de la population totale, alors que le second mesure la vérification de la probabilité conditionnelle dans la sous-population concernée par la condition de la règle.

Pour la règle par exemple « si les produits 1 et 2 ont été choisis alors achat du produit 3 », ", le niveau de confiance est le nombre de fois où la règle « les produits 1 et 2 ont été choisis » est respectée. Le support est par exemple « 75% des individus ont choisi les produits 1 et 2 ».

Le but de l'analyse du panier de la ménagère est d'identifier des règles "vraies" dans la population considérée. Une règle est déclarée "vraie" si elle présente à la fois un support et une confiance supérieure à un seuil déterminé.

Dans le cas où la mesure d'intérêt choisie par l'utilisateur est la fréquence, relativement à un seuil fixé à priori, alors les connaissances recherchées dans la base de données s'appellent les motifs fréquents.

2.3.1.1 Extraction des itemsets fermés fréquents

L'approche d'extraction itemsets fermés fréquents [PAS 00], [PAS 99] permet de ne générer qu’un sous ensemble réduit de règles associatives du point de vue de la taille tout en évitant toute perte du point de vue de la connaissance [BAS 00], [STU 01], [BEN 03], [GOD 89]. Elle peut être définie par les hypothèses suivantes :

Etant donné un ensemble I d'articles, ou item, chaque transaction de la base de données est un sous ensemble de I ou itemset. La structure des transactions peut également être perçue comme un tableau de booléens où chaque case correspond à la présence ou non d'un article dans la transaction.

Si la base de données contient des valeurs réelles plutôt que booléennes, il est d'ailleurs possible de se ramener au cas booléen par la détermination automatique d'intervalles de valeurs pour chaque produit [SRI 96]. Chaque valeur de la base de données est associée à un booléen indiquant si la valeur appartient à l'intervalle ou pas.

Ainsi, les algorithmes d'extraction d'itemsets fermés cherchent des relations causales entre itemsets.

- 3 -

SETIT2007

Une règle d'inférence qui s'écrit pour les itemsets I et J, a pour signification que "la plupart des transactions qui contiennent les articles de I contiennent également les articles de J". [CHA 98]

JI ⇒

On associe généralement à une règle de ce type un support, correspondant au nombre de transactions qui vérifient cette règle, (c'est à dire les transactions qui contiennent ), et une confiance, qui évalue la probabilité qu'une transaction qui contient I contienne aussi J. [CHA 98]

JI ∪

{}))(

()(sup)(sup

tJIBDtntransactioCard

JIportJIport

⊆∪∈

=∪=⇒ (1)

)(( )sup

sup)(Iport

JIportJIconfiance ∪=⇒ (2)

Dans cette étude, nous avons utilisé l’algorithme d'extraction des itemsets fermés fréquents close [PAS 99], [PAS 00].

Le fonctionnement de l’algorithme débute par la construction d'un contexte d'extraction qui est un tableau de transaction/produits où nous mettons un 1, la où le produit figure dans la transaction, sinon un 0.

Figure 1. Contexte d'extraction

L'algorithme commence par initialiser l'ensemble des 1-générateurs avec la liste des 1-itemsets du contexte. On calcul le support de chaque 1- générateurs (la fréquence d’apparition de chaque 1-générateurs dans le contexte). On supprime les non fréquents (dont le support est strictement inférieur à minsup). On calcul ensuite leurs fermés en effectuant une intersection des « intensions » de toutes les transactions qui possèdent ce motif.

Si on considère, le contexte d'extraction donné à la fig1 avec un support minimum minsup=2/7, on obtiendra :

Figure 2. Tableau des 1-generateurs et leurs fermés

L’algorithme exécute ensuite un ensemble d'itérations. Durant chaque itération k de l'algorithme, un ensemble de k-générateurs candidats est considéré. Chaque élément de cet ensemble est constitué de trois

éléments : le k-générateur candidat, sa fermeture, qui est un itemset fermé candidat, et leur support.

À la fin de l'itération k, l'algorithme stocke un ensemble contenant les k-générateurs fréquents, leurs fermetures, qui sont des itemsets fermés fréquents, et leurs supports. Durant chaque itération k, la fermeture de tous les k-générateurs ainsi que leur support sont calculés. La détermination des fermetures des générateurs est basée sur la propriété que la fermeture d'un itemset est égale à l'intersection de tous les objets du contexte le contenant et dont le décompte fournit le support du générateur qui est identique au support de sa fermeture.

Tous les k-générateurs fréquents, dont le support est supérieur ou égal à minsup, ainsi que leur fermeture sont sauvegardés, les autres (k-motifs non fréquents et les k-motifs non générateurs) sont supprimés (le produit (Webcam) n’est pas pris car son support est < 2/7). L'itemset fermé (Portable, Souris) est contenue dans la fermeture de portable alors on l’élimine.

Ainsi, l'ensemble des (k+1)-générateurs candidats de l'itération suivante, est construit en joignant les k-générateurs fréquents de l'ensemble des itemsets fermés fréquents identifiés durant l'itération k. Les itérations cessent lorsque aucun nouveau générateur ne peut être créé et l'algorithme s'arrête alors.

Figure 3. Tableau des 2-generateurs et leurs fermés

Tous les 2-itemsets dans la fig 5 sont fréquents, donc nous les conservons tous et nous passons à la génération des 3-itemsets fréquents.

Les deux 3-itemsets Portable, Clavier, souris et Portable, Clavier, Imprimante sont inclues dans un 2-itemsets fermé fréquent Portable, clavier, souris, imprimante trouvé précédemment. Close s’arrête et l’ensemble des 3-générateurs est vide.

3. Les étapes d'une démarche CRM La mise en œuvre d'une politique CRM consiste

avant tout à modifier les processus opératoires au sein de l'entreprise et à mettre le client au premier rang des priorités.

En général, une approche CRM repose, sur un processus en 4 étapes [PEP 99} :

3.1. Identification du client L'identification du client concerne en plus des

informations personnelles (nom, age, adresse,….), les relations du client et ces désirs.

Ceci englobe l’historique du client et ces

- 4 -

SETIT2007

consommations (les produits et les services achetés) ainsi que les caractéristiques des produits achetés.

L'identification du client se fait soit de manière transparente grâce aux données collectées, à l'insu de l'internaute, de par sa simple navigation par l'utilisation des informations relatives à l'adresse IP, le clickstream (séquence de clics), les cookies, l'identifiant de session,…; ou bien l'identification se fait de manière explicite et volontaire, et dans se cas il y a nécessité d'avoir l’apport volontaire de l’utilisateur. Ceci est possible notamment par l'utilisation d'un pseudonyme et d'un mot de passe pour chaque client ainsi que par l'utilisation des différents formulaires que le client remplis sur le site.

L'identification du client permet de déduire les centres d’intérêt de ce dernier et surtout d’éviter de lui proposer des offres inadaptées.

3.2. La différenciation des besoins La différenciation des besoins des clients permet

d'adapter les produits ou les services et de les hiérarchiser par ordre de priorité pour chacun d'eux.

Elle consiste à distinguer à partir de critères objectifs tels que les caractéristiques d'achat, fréquence de visites sur le site, les préférences affichées, ….. , les besoins d'une communauté ou segment de clients qui peuvent être prédéfini ou non.

3.2.1. La segmentation La segmentation est le découpage d’un ensemble

de clients en un nombre assez réduit de sous-ensembles homogènes, que l’on appelle segments; selon un ou plusieurs critères. Chaque critère doit être pertinent dont le sens où il doit être fortement lié aux comportements et attitudes des clients à l’égard des produits auxquels on s’intéresse, facilement mesurable, avec une valeur opératoire pour l’entreprise pour orienter ses efforts en ce qui concerne sa relation avec le client. [LAC 02]

Parmi les critères de segmentation les plus couramment retenus par les entreprises, on peut citer le potentiel d’achat, la part de marché, la fidélité et le comportement et la culture.

Les segments retenus doivent être suffisamment différents les uns des autres pour justifier des politiques CRM distinctes.

Ainsi, on distingue traditionnellement les approches de segmentation suivantes [BRU 02] :

Segmentation a priori. Cette approche consiste à diviser les clients en groupes homogènes selon leurs attributs basiques (familles avec enfants, avec voiture,...).

Segmentation supervisée. Cette approche de segmentation consiste à déterminer d’abord quels sont les groupes auxquels on souhaite aboutir avant de réaliser cette segmentation.

Segmentation non supervisée. Cette segmentation part de la recherche de caractéristiques

communes entre les clients pour aboutir à des classifications qui ne se sont pas connues au départ.

3.3. L’interaction avec le client L'interactivité avec le client est une notion clef

dans une démarche CRM car elle permet au client de savoir que l'entreprise s'intéresse à lui et à ses réactions.

L'interactivité est une occasion d'apprendre à mieux connaître les valeurs, les besoins, les centres d'intérêts et les priorités du client en établissant un dialogue avec lui.

Les centres de contact constituent le meilleur et le plus efficace moyen pour interagir avec le client. Plusieurs formes de communication peuvent être mise en oeuvre : e-mail, téléphone, chat,…. En fonction de l'entreprise, il convient de déterminer lesquelles privilégier avant et après la vente.

Les newsletters constituent aussi un moyen efficace pour tenir au courant le client des dernières nouveautés et possibilités offertes par le site de vente.

Un forum de discussion ouvert à tous ou privé (connexion par identifiant et mot de passe) peut rendre le site plus interactif et permet aux visiteurs du site de communiquer et de débattre en eux directement sur le site sur des sujets qui doivent apporter une réelle valeur ajoutée.

La mise en place sur le site de jeux promotionnels tel que les loteries ou des concours permet aussi d'augmenter le trafic et d'attirer et de fidéliser les clients.

Enfin, un site e-commerce peut proposer des sondages et des enquêtes aux prés de ces visiteurs en leurs posant des questions liées à leurs satisfactions vis-à-vis de l'activité du site et des services offerts. Ceci peut constituer une vraie mine de connaissance supplémentaire.

3.4. La personnalisation R. Kimball et R. Merz1 [KIM 00], définissent la

personnalisation pour un site e-commerce comme "la livraison au visiteur du site d'un contenu façonné spécifiquement pour tenter cet individu. La personnalisation désigne aussi la capacité offerte à un visiteur de site Web de définir explicitement des préférences de consultation''.

Le Gartner Group définit la personnalisation comme "toute interaction avec le client dans laquelle le message, l'offre ou le contenu a été taillé sur mesure pour un client ou groupe de clients spécifiques".

Ainsi, à partir de ces deux définitions, on peut dire que la personnalisation d'un site e-commerce permettra au client d’avoir l'impression qu'il peut presque toujours trouver et sans difficulté ce qu'il recherche.

Cette personnalisation et réorganisation dynamique de la teneur et de la structure du site et de l’offre selon

- 5 -

SETIT2007

les données extraites du comportement des utilisateurs [OSM 01], [TAP 01] constitue le meilleur moyen pour éviter de perdre un client submergé par l'abondance de l'information disponible[ARI 00] .

Selon une étude réalisée par Intelliquest, ‘45% des visiteurs reviennent sur un site Web parce que l'information proposée est adaptée à leurs nécessités’[GAV 02].

4. Approche adoptée Notre approche CRM se base sur les 4 étapes

citées précédemment.

Ces étapes sont précédées par la mise en place d'un data warehouse afin de stocker les donner sous un format approprier pour l'analyse.

4.1. Mise en place du data warehouse Nous avons mis en place un data warehouse afin

de disposer d'un système de gestion centralisé qui serve de réservoir pour cumuler les informations des différentes bases de données opérationnelles et dont la capacité peut aller jusqu'à plusieurs téra-octets.

Nous avons adopté le modèle ROLAP étant donné son efficacité pour stocker les données multidimensionnelles et la facilité de l'intégrer dans les SGBDs relationnels existants

Pour modéliser le système ROLAP, nous avons choisi le schéma en étoile [KIM 96], étant donné qu'il est considéré comme la structure qui offre la meilleure performance et celle qui le plus largement utilisé dans les applications industrielles (les groupes Redbrik et Informix. [BEL 00]

Les mesures de notre schéma en étoile, sont représentées par une table des faits vente et chaque dimension par une table de dimension (ici la table produit, client et temps). La table des faits référence les tables de dimensions en utilisant une clé étrangère pour chacune d'elles et stocke les valeurs des mesures pour chaque combinaison de clés.

Figure 4. Schéma du data warehouse adoptée

4.2. Identification du client Pour notre approche, l'identification du client

concerne en plus des informations personnelles (nom, age, adresse,….), les relations du client et ces désirs.

L'identification du client se fait par un formulaire

en ligne. Cette option, facilite le traitement des données qui auront le même format et la même structure et limitera le candidat à donner que les informations nécessaires.

Le premier formulaire correspond au formulaire d'inscription. Le second formulaire est celui qui est utilisé lors de chaque achat. Les informations du formulaire d'inscription doivent être sujettes à vérification car les internautes n'aiment en général pas fournir des informations sur leur vie privée. Ils sont souvent tentés de fournir des renseignements incorrects pour conserver leur anonymat.

Pour les informations du formulaire d'achat, on s'est limité aux seules données indispensables à la transaction et qui sont pratiquement toujours correctes (l'adresse postale de livraison, le nom et le prénom,…). Ceci permet aussi d'éviter que ce recueil des données, ne lasse le client qui risque d’abandonner sa démarche en cours particulièrement s'il rencontre un formulaire relativement long.

L'identification du client englobe aussi ses actions et qui concerne l’historique de ces transactions ainsi que les caractéristiques des produits achetés.

4.3. La différenciation des besoins Pour différencier les besoins, on a eu recours à une

segmentation supervisée des clients selon le montant et la régularité ou fréquence d’achats du client. On a ainsi établit 3 groupes de clients :

1) Les très bon clients : ils ont la plus grande valeur pour l'entreprise. Notre objectif est de les conserver en les faisant entrer dans une relation plus forte.

2) Les clients moyens : ils représentent la marge de progression de l'entreprise. Ces clients peuvent être encore plus rentables.

3) Les petit clients : Ce sont des clients occasionnels. Notre objectif est de les inciter à augmenter leur fréquence et leur panier d'achat.

4.3.1. Démarche de segmentation adoptée On a adopté une démarche de segmentation

supervisée qui combine les deux approches de segmentation qui sont RFM et par chiffre d'affaire. [BRU 02]

Notre approche, exploite les informations stockées dans la table des fait pour calculer, pour chaque client, sa fréquence d'achat notée freq et le montant accumulé de ces achats notée mont et qui représentent respectivement le nombre de fois où le client a effectué des achats et le montant accumulé de ces achats jusqu'à la date de segmentation.

Par la suite, on calcule la fréquence moyenne des visites

clientnbfreqmoyfreq __ ∑= (3)

Pour chaque client, on calcule le montant moyen d'achat.

- 6 -

SETIT2007

clientnbmontmoymont __ ∑= (4)

On construit une matrice M à deux dimensions où nous mettons dans la première colonne un 1 dans le cas où la fréquence d'achat du client dépasse la freq_moy, sinon on met un 0.

Pour la deuxième colonne, nous mettons un 1 dans le cas où le montant d'achat du client dépasse le mont_moy, sinon on met un 0.

A la fin, chaque client I, sera classé de la façon suivante :

Si =1 et =1 alors [ ]1,iM [ ]2,iM

Client I }{ entTresboncli∈(5)

Si =0 ou (exclusif) =0

alors Client I

[ ]1,iM [ 2,iM ]}{ moyenclient∈

(6)

Si =0 et =0 alors [ ]1,iM [ ]2,iM

Client I }{ clientpetit∈(7)

Cependant, l’administrateur reste libre d'introduire lui-même les moyennes et fréquences d'achats.

4.4. L’interaction avec le client Pour notre approche, l'interactivité avec le client se

fait via les messages reçus ou émis et qui peuvent porter sur plusieurs raisons (intérêt pour un produit, volonté d’achat, suivi de commandes, etc.).

Ces messages peuvent indiquer aussi le degré de satisfaction ou réclamation vis-à-vis d'un produit ou d'un service.

On a préconisé pour l'écriture du message un formulaire de contact qui permet au visiteur ou au client de rédiger directement un message sur l'interface du site.

Tous client qui envoie un message est informé par email sur ces préoccupations et son message est ensuite automatiquement intégré au niveau de l'entrepôt pour être analysé par la suite pour donner des connaissances concernant le nombre de contacts par jour, par semaine et par mois. On a aussi la possibilité de faire une analyse qualitative des messages pour évaluer la satisfaction des visiteurs et des clients qui vont aider dans notre stratégie e-CRM.

Nous avons aussi laissé la possibilité au client de s'inscrire dans un newsletter afin de l'informer de toutes les nouveautés et possibilités offertes par la société.

4.5. la personnalisation Pour notre approche, on a préconisé une

personnalisation de la présentation et du contenu.

4.5.1. Personnalisation de l'interface La personnalisation de la présentation consiste à

rediriger un client vers une interface spécifique à sa

communauté. Pour notre approche, nous avons reparti nos clients selon les trois communautés citées précédemment.

Ainsi, au fur et à mesure de ses achats et visites, on proposera au client une interface d’accueil différente de telle façon qu'il se sente bien accueilli et privilégié en changeant de communauté.

L’administrateur se sert de la démarche de segmentation déjà expliquée pour effectuer le travail de détermination (lui affecter une catégorie).

Figure 5. Personnalisation de la présentation

Etant donné l'importance de l’aspect ergonomie dans toute relation sur Internet. nous avons opté pour des interfaces très épurées avec très peu d’images animées permettant de renforcer la crédibilité de l'organisation avec un temps d'affichage d'une page très court.

On a eu recours à l'usage des couleurs pour personnaliser les divers composants (modification de la couleur du fond de la page, des cadres entourant les éléments, etc.). De plus, on a aussi modifié la localisation, le dimensionnement des différents éléments constitutifs de l'interface du site, comme le catalogue des produits qui n’apparaît pas de la même façon pour les trois interfaces.

Afin de permettre une grande facilité et liberté de navigation, nous avons utilisé pour nos pages un texte suffisamment aéré avec des éléments d'informations hiérarchisé par niveau d'importance avec la possibilité pour l’utilisateur de revenir à la page d'accueil et aux principales rubriques par un simple clic, quelque soit la page sur laquelle il se trouve.

Enfin, et afin de permettre au visiteur de mieux assimiler l'information, on a dans certaines étapes (inscription par exemple) présenté l'information par étapes avec des liens hypertexte pour le chaînage des différentes étapes.

- 7 -

SETIT2007

4.5.2. Personnalisation des prix des produits Suivant le segment du client (très bon, moyen ou

petit client), on a une réduction des prix de vente des produits. Pour cela, on multiplie le prix réel du produit avec le coefficient de réduction qui est préalablement déterminé.

Pour chaque communauté de client, les produits à réduire sont ceux qui sont achetés avec une fréquence d’apparition (Qj) et dont la quantité globale achetée dépasse un certain seuil (Q) défini par l’administrateur.

De plus le rapport entre le montant (Tj) (pour cette quantité Qj) et montant global de cette catégorie dépassent un certain paramètre (T). Cette démarche peut être résumée ainsi :

Figure 6. Algorithme pour réduire les prix.

4.5.3. Personnalisation du contenu La personnalisation du contenu des pages du site

se fait suivant les comportements d’achats des clients de chaque segment.

On a adopté une des méthodes de personnalisation les plus utilisées et qui consiste à déterminer quels produits sont les plus susceptibles d'intéresser le client afin de les lui présenter en premier lieu.

On a utilisé la technique d'extraction des itemsets fermés fréquents déjà présentée, puisque elle est considérée comme la meilleure technique pour extraire des connaissances sur les achats groupés des clients.

Nous avons appliqué l’algorithme Close [PAS 99], [PAS 00] pour sa simplicité et la qualité des résultats qu’il délivre. Close permet la détermination efficace des ensembles fermés, tout en réduisant le nombre d’accès aux données du contexte étudié. [AOU 05].

Figure 7. Personnalisation du contenu

Cette approche de personnalisation permet de simplifier grandement les pages et d'accroître la pertinence des informations présentées à l'écran, sans pour autant réduire la richesse du site.

4.6. Système de classification des clients Afin de mettre à la disposition du service

marketing des outils lui permettant de mieux segmenter la clientèle, nous avons implémenté un arbre de décision qui nous permet de voir la répartition de nos clients sur l’ensemble de nos 3 segments de client suivant certains critères.

L’exploration de l’arbre de sa racine jusqu’aux feuilles nous donne le pourcentage de clients dans chacun des trois segments suivant le chemin parcouru. Les feuilles de notre arbre ne déterminent pas la classe d’un client mais permettent d’évaluer la classe à laquelle il pourrait appartenir avec une certaine probabilité.

On a utilisé les critères suivants :

Age : c’est un attribut important dans toute étude de population. On a divisé ce critère en trois intervalles qui sont :

[0, 16] : les jeunes, [17, 50] : les adultes [51 et plus] : les vieux.

Sexe : ce critère est aussi important, il divise la population en deux catégories homme et femme.

Montant : comme il s’agit d’un site de vente, cette composante est prépondérante pour la classification. Cette valeur fixée par l’administrateur scindera la population en deux parties.

Pays : un site marchant ouvert sur Internet doit permettre à toutes personnes d’y accéder. Ce critère nous permettra de voir l'entendue de la popularité de notre site 'nationale, international,..).

Un noeud représente une classe d'individus de plus en plus fine depuis la racine. Un arc représente un prédicat de partitionnement de la classe source.

A chaque niveau de l’arbre, dans l’ensemble des attributs (exceptés ceux déjà utilisés), l’entropie sélectionne un l’attribut à appliquer sur un nœud.

- 8 -

SETIT2007

Donc pour chaque attribut candidat, on va calculer son entropie et on choisit celui qui a l'entropie la plus basse. On a I(S1,…, Sm) correspond à la quantité d'information nécessaire pour classifier l'ensemble des tuples.

( ) ∑=

=1

1 )(2log,...,i

miim PPssI (8)

Soit A un attribut candidat possédant v valeurs (a1,…, av). A permet de partitionner l'ensemble S en v sous-ensembles (S1,…, Sv). Si comprend les tuples ayant la valeur ai pour A. Soit Sij le nombre de tuples du sous-ensemble Sj appartenant à Ci.

Entropie de (A) =E (A) =- ∑=1j

v

( ) SSS mjj /...1 ++ X ( )mjj SSI ++ ...1

(9)

La figure ci-dessous donne un aperçu sur une classification possible de nos clients

Figure 8. Classification des clients

5. Réalisation Notre plateforme fonctionne selon une architecture

3 tiers. Les utilisateurs humains interagissent avec le système par un simple navigateur Web. De cette manière, aucune installation ou configuration particulière n'est nécessaire du coté de l'utilisateur.

Nous nous sommes contentés de présenter ici que les interfaces qui définissent notre démarche de personnalisation. Les interface habituel pour un site e-commerce ont été réalisées mais ont a jugé qu'il n'était pas utile de les présentées.

5.1. Interface communauté A (petits clients) Interface communauté A Taux de réduction

Familles produits communauté A

Options d'aide Panier Option de recherche

5.2. Interface communauté B (clients moyens) Interface communauté B taux de réduction

communauté B

Option de recherche Produits les plus vendus

5.3. communauté C (bons clients) Interface communauté C taux de réduction

communauté C

Option de recherche Produits les plus vendus

- 9 -

SETIT2007

5.4. Interface consultation d'un produit Détails d'un produit

Produits associé aux achats du client

5.5. Segmentations des clients Segmentation des clients

5.6. Génération des produits qui se vendent ensemble

Introduction du ssupport

Liste des produits générés par l'algorithme close

5.7. Extraction des produits à réduire Nombre de nouveaux produits à afficher

Fréquence seuil du montant

5.8. Système de classification des clients Critères de classification

Liste de clients Graphique de classification

6. Conclusion Dans le cadre de ce travail, il s’agissait de réaliser

une plate forme de E-commerce personnalisée, qui intègre toutes les fonctionnalités pour couvrir un cycle d’achat complet et d’intégrer un système data mining permettant à l’entreprise d’améliorer ces prestations via une connaissance plus fine des comportements des clients.

Cette solution apporte de la nouveauté au niveau ergonomique en utilisant une interface intuitive, tant du point du client que de l’entreprise.

L’option de personnalisation, permet d’améliorer la relation entreprise client et de créer un climat de confiance entre eux. Pour ce faire, nous avons mis en pratique trois interfaces web qui sont destinées aux trois communautés de nos clients obtenues grâce à une segmentation supervisé de la clientèle. On a aussi opéré une réduction du prix de vente sur les produits les plus demandés.

- 10 -

SETIT2007

Cependant, d’autres améliorations restent à réaliser afin d’améliorer les fonctionnalités existantes et d’en rajouter d’autres. La mise en place d’une technique d'internationalisation, permettant l'exploitation du système aux utilisateurs utilisant d'autres langues que le français (en particulier l'arabe et l'anglais).

Une étude sur le comportement du visiteur permettra de voir aussi la popularité de notre site ainsi que les pages les plus visitées. On peut aussi améliorer les fonctionnalités de sécurité des transactions et établir un profil plus étoffer du client et essayer d’utiliser d’autres techniques pour faire la segmentation.

Cette contribution ne prétend pas apporter des réponses exhaustives à toutes les questions posées au départ. D’autres recherches qualitatives et quantitatives seront nécessaires pour pouvoir mieux appréhender ces notions. Pour ce faire, il serait intéressant de voir les perceptions des usagers du web marchand quant aux démarches CRM des entreprises et à leurs perceptions de la personnalisation de la relation, notamment la propension du client à donner des informations privées en échange de produits et services personnalisés.

REFERENCES – [ABI 02] A. Abidi, La quête de la fidélité du

consommateur : marketing relationnel, marketing one-to-one et CRM. Explorations conceptuelles, Actes de la 7ème Journée de Recherche en Marketing de Bourgogne, CRG, IAE, Université Toulouse I, novembre 2002.

– [AGR 96] R. Agrawal, A. Gupta and S. Sarawagi. Modeling multidimensional databases. Research Report : IBM Almaden Research Center, San Jose, CA, 1996

– [ANS 03] S. Ansaf, Recherche de motifs fréquents pour l'extraction de règles d'association et de caractérisation, thèse présentée pour l'obtention du grade de Docteur de l'Université d'Orléans, Discipline Informatique, 2003

– [AOU 05] K. Aouiche, Techniques de fouille de donnée pour l’optimisation automatique des performances des entrepôts de données, Thèse de doctorat, laboratoire ERIC, Université Lumière Lyon2, décembre 2005.

– [ARI 00] Ariely D. (2000), Controlling the information Flow: Effects on consumers Decision Making and Preferences, Journal of Consumer Research, Vol. 27, pp.1-20.

– [BAS 00] Y. Bastide, N. Pasquier, R. Taouil, L. Lakhal, G. Stumme, Mining minimal non-redundant association rules using frequent closed itemsets, Proceedings of the Intl. Conference DOOD’2000, LNCS, Springer-verlag, July 2000, p. 972-986.

– [BAZ 01] M. Bazsalicza, P. Naïm, Data Mining pour le Web, Eyrolles, 2001.

– [BEL 00] L. Bellatreche, utilisation des vues

matérialisées, des index et de la fragmentation dans la Conception logique et physique d’un Entrepôt de données, Thèse de Doctorat, Université de Clermont-ferrant II, France, 2000

– [BEN 03] S. Benyahia, Cherif C. L., Mineau G., Jaoua A.. Découverte des règles associatives non redondantes : application aux corpus textuels. Journées francophones d’Extraction et Gestion des Connaissances (EGC’2003), France 2003.

– [BRU 02] Bruant, J. Les enjeux de la segmentation dans la relation client, thèse de Mastère en Management des Systèmes d’Information et des Technologies, Ecole des Mines de Paris 2002,

– [CHA 98] Boris Charpiot, L'extensibilité par la répartition thématique des accès à un système d'informations distribuées, thèse de doctorat de l'université de rennes. Mention: informatique, décembre 1998

– [CAD 02] Cadiat A-C. et De Moerloose C. L’impact d’Internet sur la gestion de la relation client, étude de cas dans le secteur du transport de colis express, Actes de la 1ère Journée Nantaise de Recherche sur le e-marketing 2002.

– [CIN 02] Cinquin L., Lalande P-A. et Moreau N. Le projet CRM : "relation client et Internet", Editions Eyrolles. 2002.

– [DAV 94] B. A. Davey, H. A. Priestley. Introduction to lattices and order. Cambridge University Press, Fourth edition, 1994

– [DWY 87] Dwyer F.R., Schurr P.H. & Oh S. Developping buyer-seller relationships, Journal of Marketing, 51, 2, 11-27. (1987).

– [ECC 05] Document tiré du site : http://www.eccs.com, ECCS, the European CRM Portal.

– [GAR 99] Garbarino E. & Johnson M.S. the different roles of satisfaction, trust and commitment in customer relationships, Journal of Marketing, 63, 2, 70-87. 1999.

– [GAV 02] G. Gavray, Personnalisation des sites Web : élaboration d'une méthodologie de mise en œuvre et application au cas DGTRE, mémoire d’ingéniorat, Université Catholique de Louvain, 2002.

– [GOD 89] Godin R. Complexité de structures de treillis. Annales des Sciences Mathématiques du Québec, 13(1) :19–38, 1989.

– [HES 94] Heskett J.L., Jones T.O., LovermanG.W., SasserJrw.E. SchlesingerL.A. Putting the Service-Profit Chain to Work, Harvard Business Review, Boston, Vol. 72, pp.164-174. 1994.

– [JAN 01] Janowski, W. Sarner, A. Five Opportunities for Personalization. Gartner Group, 05/2001, pp. 1

– [KAL 97] Kalakota, Ravi., Whinston, Andrew B. 'Electronic Commerce: A Manager's Guide, Addison-Wesley 1997.

– [KIM 97] R. Kimball. A dimensional modeling

- 11 -

http://www.eccs.com/

SETIT2007

manifesto. DBMS Magazine, August 1997

– [KIM 00] Kimball, R. Merz, R. Le Data Webhouse. Eyrolles, 2000

– [LAC 02] H. Lacroix–Sablayrolles. Etes-vous vraiment orienté Client ? .Ed. Dunod, 2002.

– [MER 93] Merkator, théorie et pratique du marketing, Jacques Lendrevue et Denis Lindon. Edition Dalloz, 1993.

– [MOL 00] Möller K. & Halinnen A. Relationship Marketing Theory: Its Roots and Direction, Journal of Marketing Management, 16, 29-54. 2000.

– [MOH 00] M. Mohania, S.Samtania, J. F. Roddick, and Y. Kambayashi. Advances and research directions in data warehousing technology. Australian Journal of Information Systems, 2000

– [NEW 00] Newell, F. loyaty.com. McGraw-Hill, 2000

– [INM 92] Inmon W.H. Building the Data Warehouse. John Wiley, 1992

– [JAL 97] Jallat F., Le Nagard E. & Steyer A. (1997), Vers un marketing relationnel et tribal :la transformation des opérateurs de télécommunication, Décision Marketing, 11, 3, 21-29.

– [JON 95] Jones T.O., Sasser JrW.E. (1995), Why Satisfied Customers Defec, Harvard Business Review, Vol. 73, N°6, pp.88-99.

– [MOO 96] Moon Y. and Nass C. How Real Are Computer Personalities? Psychological Responses to Personality Types in Human-Computer Interaction, Communication Research, Vol. 23, pp.651-674. 1996.

– [MOO 93] Moorman C., Desphandé R. & Zaltman G. Factors Affecting Trust in Market Relationships. Journal of Marketing. 1993,

– [MOR 94] Morgan R.M. & Hunt S.D. The Commitment-trust Theory of Relationship Marketing, Journal of Marketing, 58, 3, 20-38. (1994).

– [OCD 98] Organisation pour la Coopération et le Développement Économique (OCDE), Conférence on Electronic Commerce, octobre 7-9 1998, document disponible électroniquement à http://e-com.ic.gc.ca/english/releases/413.html.

– [OCD 99] ‘Définir et mesurer le commerce électronique’, Atelier de l'OCDE du 21 avril 1999 disponible électroniquement à. http://www.oecd.org/dsti/sti/it/ec/act/agenda_ECworkshop.htm

– [OSM, 01] Osmar R. Zaıane. Web usage mining for a better web-based learning environment. Proceedings of Conference on Advanced Technology for Education, pages 450–455, 2001.

– [PAS 99] N. Pasquier, Y. Bastide, R. Taouil, L. Lakhal. Discovering Frequent Closed Itemsets for

Association Rules. Lecture Notes in Computer Science, Vol. 1540. 1999. p 398-416

– [PAS 00] N. Pasquier, Y. Bastide, R. Taouil, G. Stumme, L. Lakhal, Mining Minimal Non-redundant Association Rules Using Frequent Closed Itemsets. Lecture Notes in Computer Science, Vol. 1861. 2000. p 972-986

– [PAR 96] Parsaye K. Surveying Decision Support: New Realms of Analysis. Information Discovery, Inc. 1996

– [PEC 99] Peck H., Payne A., Christopher M. & Clarck M. Relationship Marketing, Strategy & Implementation, Oxford, Butterworth Heinemann. 1999.

– [REI 00] Reichheld F.F. & Schefter P. E-Loyalty Your Secret Weapon on the Web, Harvard Business Review, July-August, 105-113. 2000

– [REI 90] Reichheld F.F. & Sasser E. Zero Defections: Quality Comes to Services, Harvard Business Review, September-October, 105-111. (1990).

– [SPR 96] Spreng R.A., MacKenzie S.B. & Olshavsky R.W. A Reexamination of the Determinants of Consumer Satisfaction, Journal of Marketing, 60, 3, 15-32. (1996).

– [SRI 96] Srikant Ramakrishnan , Rakesh Agrawal, Mining quantitative Association Rules in Large Relationnal Tables, In ACM SIGMOD. (1996).

– [STU 01] Stumme G., Taouil R., Bastide Y., Pasquier N., Lakhal L., Intelligent structuring and reducing of association rules with formal concept analysis, Proc. KI’2001 conference, LNAI 2174, Springer-verlag, September 2001, p. 335-350

– [TAP, 01] K. Tapan, Creating adaptive web servers using incremental web log mining, Master’s thesis, Computer Science Department, University of Maryland, Baltimore County, 2001

- 12 -

http://e-com.ic.gc.ca/english/releases/413.html

http://e-com.ic.gc.ca/english/releases/413.html

Titre de l’Article - setit.rnu.tn · la personnalisation d'un site e-commerce dont la teneur et...

Documents

Transcript of Titre de l’Article - setit.rnu.tn · la personnalisation d'un site e-commerce dont la teneur et...