Mémoire Réseaux Sociaux

download Mémoire Réseaux Sociaux

of 57

description

Marque entreprise à travers les réseaux sociaux

Transcript of Mémoire Réseaux Sociaux

Rapport de Stage

SommaireRemerciements21Prsentation du sujet51.1Boursorama Banque51.2Boursorama face la concurrence51.3Forces et faiblesses des banques en ligne61.4Le choix du sujet61.5Etat des lieux71.5.1La Data Management Platform (DMP)71.5.3Les rseaux sociaux92Dfinitions102.1BIG DATA102.1.1Contexte102.2Linformatique dcisionnel face au BIGDATA112.2.1Les 3 V du BIG DATA122.2.2Contexte fonctionnel du BIG DATA132.3Focus sur les rseaux sociaux133Les outils existants153.1Radian Six153.2YouSeeMii.fr173.3SAS Social Media Analysis184Notre approche204.1Extraction de donnes204.2Le format JSON204.3Les API214.3.1OAuth 2.0214.3.2Twitter224.3.3Facebook254.4Les avis des internautes284.5Lhistorisation et les influenceurs294.6Les autres indicateurs disponibles294.7Rapprochement avec la base de donnes clients295Aspect technique305.1.1Intgration de donnes305.1.2Slection des donnes pertinentes.315.1.3Analyse de sentiment325.1.4Rapprochement avec la base de donnes365.1.5Reporting415.2Schma gnral de la cible426Comparatif437Conclusion458Annexes468.1Liste des champs rcuprables grce lAPI de Facebook468.2Liste des champs rcuprables grce lAPI de Twitter488.3Maquette du reporting539Bibliographie59

Prsentation du sujet

Boursorama BanqueBoursorama sest dvelopp, en Europe, avec lmergence de le-commerce et llargissement continu de loffre de produits financiers vendue en ligne. Aujourdhui, cette banque se situe comme pionnier et leader sur ces trois mtiers : la banque en ligne, le courtage en ligne et linformation financire sur Internet. Le Groupe Boursorama a fond sa croissance sur linnovation, lengagement et la transparence. Leur ambition est danticiper les attentes de leurs clients et de simplifier leur vie en leur apportant des solutions accessibles en ligne. La priorit stratgique est de dvelopper leur activit de banque en ligne, qui ce jour dispose dun formidable potentiel de croissance.

Si cest actuellement la banque la moins chre avec plus de quinze services bancaires gratuits, Boursorama sont les seuls proposer une offre bancaire aussi complte, innovante et performante, intgralement en ligne, allant du compte courant aux produits dpargne en passant par le crdit immobilier et personnel. Les diffrents secteurs dactivit de Boursorama sont:

Portail Internet, la socit diffuse les informations des entreprises, les dpches des agences, regroupe des forums de discussions, lactualit boursire et les cours de bourse. Le site agrge 77 fournisseurs d'information financire. C'est un des principaux portails financiers en France.

Courtage en ligne, c'est l'activit hrite de Fimatex qui a rachet le portail Boursorama banque.

Banque en ligne : Boursorama banque est lance en 2006 aprs la fusion entre Fimatex (filiale de la Socit gnrale) et le portail d'informations boursires Boursorama.

Boursorama face la concurrencePremire des banques en ligne (selon le palmars des banques en ligne 2013), Boursorama Banque se positionne comme une banque complmentaire pour les urbains actifs qui veulent faonner leur banque et leurs relations avec leur banquier leur main.

L'avantage numro un des banques en ligne est bien videmment le prix. Mais ce nest pas le seul, on peut noter un gain de temps non-ngligeable pour toutes les actions bancaires quotidiennes, en quelques clics lopration est termine.

Depuis quelques annes, la concurrence est de plus en plus froce (ING, Hello Bank,). Mme si Boursorama possde de nombreux avantages par rapport ces E-banques, attirer de nouveaux clients est devenue un rel challenge car une personne souhaitant ouvrir un compte chez une banque en ligne a dsormais un large choix et tudie les avantages et inconvnients de chacune dentre elles.Forces et faiblesses des banques en ligneForcesFaiblesses

Prix attractifsGain de tempsFacilit dutilisationRapiditFiabilitCaractre virtuelConditions dligibilit

Tableau 1 : Forces et faiblesses des banques en ligneLe choix du sujet Nous sommes obligs d'avoir toujours un coup d'avance : voil la stratgie de Boursorama!Avec la monte en puissance du BIG DATA, nous pouvons rester fidles cette stratgie et mme avoir lopportunit de la dvelopper. Une personne souhaitant adhrer une banque en ligne effectuera surement en premier lieu une comparaison des diffrentes offres, consultera les avis laisss par les internautes , chaque banque a le devoir dtre comptitive sur tous les domaines. La rputation de Boursorama Banque est en premier lieu une E-rputation.En ce qui concerne les avis des internautes, ils sont pour la majorit laisss par les clients actuels, un client satisfait ne peut que promouvoir limage de lentreprise. Il existe plusieurs canaux de diffusion qui permettent de faire de la publicit (Radio, TV, ), mais celui qui connait une monte en puissance phnomnale est sans aucun doute les mdias sociaux. Sur ces mdias les gens peuvent sexprimer toute heure et de nimporte quel endroit et surtout dire ce quils pensent en toute sincrit.

Ce mode de diffusion est trs riche en donnes et peut permettre la fois de mieux connaitre sa clientle, mais aussi daugmenter le nombre de client. Plus prcisment, je vais me focaliser sur la partie Rseaux sociaux qui regroupent aujourdhui un trs grand nombre de personnes dans le monde entier.Comment enrichir la connaissance client grce au BIG DATA ? La problmatique a donc t pose dans le contexte expliqu ci-dessus, pouvoir rcuprer toutes les donnes qui concernent une entreprise (pourquoi pas sur sa concurrence galement), analyser ces donnes, les indicateurs qui peuvent en dcouler (sentiments, ) et enfin comment les exploiter, les agrger et dceler des comportements pour mieux connatre les consommateurs, rpondre leurs attentes et pouvoir en attirer de nouveaux. Etat des lieuxLa Data Management Platform (DMP)

lheure actuelle, Boursorama dispose dune grande quantit de donnes sur les visiteurs de son site mais ne les exploite pas dans le cadre du ciblage publicitaire.Les donnes de navigation ne sont pas exploitables finement. Les outils actuellement utiliss (AT internet, Google analytique ) permettent uniquement de sortir des rapports agrgs, mais ne donnent pas accs finement aux parcours de navigation des diffrents types dinternautes visitant les sites du groupe Boursorama. (Visiteurs simples, membres, prospects, clients).Lobjectif du projet est de dployer une DMP (Data Management Platform / Plateforme de gestion daudience) dans lcosystme de Boursorama. Cette plateforme devra permettre damliorer le ciblage marketing de tous les types de visiteurs des sites de Boursorama par leur segmentation en temps rel.Ces plateformes permettent daccder des donnes du profil dinternautes anonymes afin damliorer le ciblage de la publicit en ligne pour lannonceur. Elles permettent galement aux annonceurs de capitaliser sur leur propres donnes clients, leurs propres segmentations et scores marketing directement sur le digitale et plus particulirement sur le Display. Ainsi, les annonceurs sont en mesure de retrouver leur audience sur le web.

Pour Boursorama, les objectifs du projet sont : Amliorer le rendement publicitaire du site Boursorama en maximisant le ciblage des visiteurs du portail financier. Amliorer la transformation des visiteurs en client Rcuprer les segments de la DMP pour enrichir loutil de pression commerciale, Neolane.Les rseaux sociaux

Au sein de Boursorama, le community manager soccupe de grer limage de Boursorama sur le web. Il a accs aux pages Facebook, Twitter et Google + de la banque.Il est charg de rpondre aux personnes sinterrogeant sur les offres, les conditions dligibilit ou bien encore rpondre tout simplement aux clients (crer de lmulation autour de la marque Boursorama). Il accde en temps rel au compte des clients ce qui lui permet une grande efficacit dans les rponses quil offre.Pour Facebook et Google +, il utilise les pages officielles de Boursorama alors que pour tweeter il utilise une page web du nom de TweetDeck. Cette page lui fournit tous les tweets en relation avec Boursorama (#Boursorama, Boursorama, Bourso, ) et lui permet de rpondre aux clients (ou non) en temps rel.

DfinitionsBIG DATAContexte

La rvolution technologique est lune des explications indniables de laccroissement des donnes, en effet le quotidien des personnes est boulevers par lutilisation dune multitude dcrans accessibles tout au long de la journe et partout, de son lieu de travail jusqu' son espace intime.Chaque individu possdant un outil connect (tablettes, smartphones, ) passe un temps considrable sur cet outil quil soit dans les transports, au travail, et mme chez lui. Chaque individu envoie sur une journe, une importante quantit de donne via le support utilis. Ces milliards de donnes, communment appeles Big data, sont considres comme le nouvel or noir du 21me sicle. Les prcurseurs de lanalyse de ce gigantesque volume de donnes ont t, comme souvent, de trs grandes entreprises (Google, Yahoo!, oprateurs tlcom, institutions financires, grande distribution).La technologie permettant cette analyse est ne grce aux deux acteurs majeurs de linternet Google et Yahoo qui ont d faire face plusieurs problmes : Tout dabord celui du volume gigantesque de donnes manipuler pour alimenter leurs moteurs de recherche. Ensuite la diversit et la complexit des types dinformations traiter. En effet les donnes peuvent tre sous forme de textes, de sons ou encore dimages. Le dernier problme tait li la vitesse dexcution des algorithmes de traitement de linformation ncessaire pour satisfaire les internautes.Face ces enjeux, la gestion de bases de donnes relationnelles, linformatique dcisionnelle traditionnelle et lingnierie statistique traditionnelle ntaient plus assez efficaces, et il fallait inventer un nouveau modle capable de grer ces nouveaux problmes.

Linformatique dcisionnel face au BIGDATAPour les orienter dans leur stratgie dcisionnelle, les entreprises veulent dsormais voir apparatre dans leurs tableaux de bord des donnes textuelles comme les avis clients, les commentaires produits ou les remarques laisses par les consommateurs sur les rseaux sociaux. A la diffrence des solutions dcisionnelles traditionnelles, le BIG DATA apporte une donne chaude traiter l'instant T avec un niveau de dtail tel qu'il permet d'isoler et d'analyser, au cas par cas, chaque transaction et vnement.BI TraditionnelleBIG DATA

Data warehoure difficile maintenirEnorme quantit de donnes

Des donnes structuresDonnes htrognes

Vision du passAnalyse en temps rel

La donne au cur de la stratgie

Tableau 2: BI classique VS Big Data

Figure 1 : BI traditionnel VS Big DataDans le graphique ci-dessus, nous comparons le BIG DATA et la Bi classique. Nous remarquons que les donnes dans la BI classique sont des donnes structures contrairement au Big Data qui sont des donnes non structures (texte, images, sons). Dans la BI classique, la premire tape est de passer par lETL (Extract Transform Load) puis le DataWareHouse pour enfin aboutir sur des cubes ou du reporting. En utilisant les algorithmes de MAP REDUCE dans le bloc Big Data, nous pouvons directement faire du reporting sans forcment transformer les donnes.En BI classique, le dveloppeur du rapport est charg de lextraction de la donne et de la mise en forme du rapport, aucune analyse nest faite par ce dernier. Le BIG DATA tente lui deprdire lavenir, une analyse doit donc tre systmatiquement mise en place. Les 3 V du BIG DATALa volumtrie et la complexit des donnes gres par les trois grands : Google, eBay et Amazon, a donn naissance au BIG DATA. De nouvelles technologies ont vu le jour pour faire face ces problmatiques et apportent de nouvelles perspectives la Business Analytics.On prsente souvent le BIG DATA avec les trois V qui sont : Volume : la quantit des donnes stockes se mesure de plus en plus souvent en Pta-oct ce qui pose des problmes de stockage mais surtout danalyse. Comment analyser cela dans des temps raisonnables?

Varit : On doit grer des donnes aussi bien de base de donnes classique, mais surtout des textes, des images, du son ou des vidos. Le problme est donc de comment peut-on analyser cette information ? La reconnaissance vocale permet de transformer des enregistrements audio en texte. Le Text Mining permet dexploiter automatiquement les textes, les catgoriser, en extraire le sentiment. Par exemple quel est le sentiment vis--vis dune marque sur les mdia sociaux.

Vlocit : la donne narrive plus de faon cadence chaque transaction, mais en flux continu. Ce peut tre par exemple les messages posts sur la toile ou bien les donnes de golocalisation quil faut analyser de manire avance, quasiment en temps rel.

Mais le plus important est surement le quatrime V, Valeur . La vraie question est de savoir comment exploiter ces informations. Lessentielle de la rponse se trouve dans la capacit appliquer des mthodes parfois complexes, de Data Mining, de Text Mining, de recherche oprationnelle, sur ces donnes, rapidement.En ce qui concerne ce projet, nous allons nous intresser la partie donnes des rseaux sociaux.Contexte fonctionnel du BIG DATALe BIG DATA est souvent reli au service marketing, car en effet, cest une mine dor pour ce secteur de lentreprise. Elle permet de mieux connaitre le client et par consquent, mieux comprendre et anticiper ses comportements. Cette notion peut tre utilise pour mieux dtecter les fraudes, accrotre sa surveillance du trading ou encore raliser une analyse des diffrentes menaces et mieux modliser les risques encourus. Les donnes exploites peuvent tre utilises dans diffrents domaines: Dans la lutte contre la criminalit : identification de criminels, de rseaux de menaces partir dlments vido, audio et de donnes Dans le mdical : dtection des situations mettant en pril la vie des patients. Dans la grande distribution : optimisation des rayons dun supermarch Dans le transport : optimisation de traficFocus sur les rseaux sociauxLimpact du web communautaire et des rseaux sociaux est vident : aujourdhui, le nombre de personnes inscrites sur un ou plusieurs rseaux sociaux est trs important, au premier rang Facebook, Twitter et LinkedIn.Partage dinformations, dexpriences ou dopinions, dimages ou de vidos, constitution ou dveloppement de rseaux de relations : les traces de ces activits sociales numriques restent graves dans la mmoire du web. Linternaute, qui, au dpart, avait un rle passif de lecteur sur Internet, devient dsormais une source active en crant du contenu, entranant ainsi une hausse des donnes produites sur internet.Malgr une offre toujours plus large, la proportion dinternautes appartenant au moins un rseau social semble atteindre un score plafond. Selon lObservatoire des rseaux sociaux (Ifop 2012), 82 % des internautes franais sont membres dau moins un rseau social. Toujours selon cette tude, un internaute franais est membre de 3.5 rseaux sociaux.

Figure 2 : Pourcentage dappartenance aux rseaux sociaux

Figure 3 : Moyenne d'appartenance d'un membre sur les rseaux sociaux

Les outils existants

Bien videmment, Boursorama nest pas la premire entreprise se soucier de sa rputation sur la toile, cest pour cela que de nombreux diteurs ont commenc travailler sur ce sujet et ont fourni de trs bons rsultats avec des logiciels ou des plateformes rpondant trs bien aux besoins danalyse des donnes. Dans cette partie, nous allons tudier un certain nombre doutils existants.Radian SixCet diteur propose une interface simple dutilisation, elle a lavantage dtre en mode hberg. Elle permet une veille sur les contenus diffuss sur les diffrents rseaux sociaux, mais aussi sur les forums de discussion ou les blogs. Cest un outil trs complet qui permet de rpondre instantanment aux diffrents tweet et publications Facebook.Un tableau de bord nous permet de choisir diffrents mots cls sur lesquels seront bases les recherches, nous pouvons y insrer le nom de lentreprise, le nom de ses concurrents mais aussi tous ce qui est en relation avec le secteur dactivit de lentreprise. Il permet de suivre les publications sur le net, mais aussi nous permets de rcuprer le nombre de visites dun blog, le nombre de personnes qui suivent les publications de la personne publiant linformation (par exemple une personne qui a 5000 followers sur Twitter est susceptible dinfluencer une trs grande partie de ces derniers). Loutil permet galement de crer des indicateurs sur les sentiments (publication positive ou ngative), il analyse les tendances des conversations au fil du temps.

Figure 4 : Nombre de publication concernant lindustrie par semaine Ces pics peuvent tre dus une nouvelle publicit, un nouveau produit lanc ou tout simplement avoir un rapport avec lactualit. Lorsque nous cliquons sur un pic nous obtenons tous les mots cls recherchs sur la priode slectionne.Cet outil propose aussi un tableau de bord rcapitulatif avec: Les profils dmographiques Les personnes influentes Des comparaisons du nombre de posts pour votre entreprise contre celle des concurrents Etc.En conclusion pour cet outil, on peut dire quil est trs complet et ne peut que ravir son utilisateur. Grce sa puissance, une entreprise peut fortement amliorer son image. Linconvnient est le prix qui nest pas abordable pour une petite entreprise (600 $ par mois).

YouSeeMii.fr

Ce site est un moteur de recherche qui va nous permettre de mesurer notre visibilit sur le web, il va dabord aller rcuprer tout ce qui se dit sur le mot-cl qui lui a t donn, les trier, les classer (rubrique adquate: presse, forum, rseaux sociaux) puis va calculer lindice de visibilit par rapport des critres quantitatifs (le nombre de rsultats amliore la note) mais le rsultat est pondr par des critres qualitatifs (followers, nombre de visites..). Cet indice peut tre calcul pour des entreprises, des marques et enfin des individus.

Figure 5 : Tableau de bord du site YouSeeMii

SAS Social Media AnalysisLoutil de lentreprise SAS permet, comme les autres outils dcrient dans cette partie, de collecter, analyser et d'exploiter les communications, les conversations et les publications sur les diffrents sites web, les forums, les blogs ou les mdias sociaux.

Figure 6 : Tableau de bord de l'outil SASLes diffrents composants: La solution SAS Social Media Analytics est compose de diffrents modules, ce qui permet lanalyse des donnes non structures.Le premier est SAS Enterprise Content Categorizationqui fait appel des techniques de traitement du langage naturel et de linguistique avance pour catgoriser automatiquement de gros volumes.

Ensuite, nous avons SAS Sentiment Analysis qui indexe les sources de contenus numriques (sites web, rseaux et mdias sociaux). A l'aide de techniques statistiques et de rgles smantiques, le logiciel analyse les sentiments des individus en temps rel et les restitue sous forme dindicateurs illustrant la tonalit de ces sentiments (positive, neutre ou ngative) et son volution au cours du temps. SAS Text Miner offre des fonctions linguistiques avances intgres dans la solution de data.Il prsente diffrentes fonctionnalits comme:- Collecte, intgration, historisation et indexation de contenus (recueil des publications et des conversations en ligne sur les sites de rseaux sociaux, collecte davis sur les sites d'opinion, identification et intgration des billets publis sur les blogs, historisation)- Fonctions de data mining et text mining (classification, analyse de sentiment)

Notre approcheExtraction de donnesPour effectuer lextraction des donnes partir des rseaux sociaux, nous aurons recours aux diffrentes API offertes par les rseaux sociaux (API Twitter 1.1, Api graph Facebook, API Google).Il existe plusieurs langages de programmation qui nous permettent dextraire les donnes grce au diffrentes API, les plus rpandus sont certainement le C# et le PHP, mais nous pouvons trs bien utiliser du Python ou du JAVA.Le format JSONLe format JavaScript Object Notation plus connu sous JSON est un format de donnes textuelles, gnrique et driv de la notation des objets du langage JavaScript. Il est trs semblable au langage XML, car il permet de reprsenter les informations de manire structure.

Figure 7 : Exemple de code JSONCe format nest pas dpendant dun langage de prsentation particulier. Le JSON est facilement intgrable avec plus de 50 langages de programmations, il permet aussi la communication des applications dans des environnements htrognes.Nous pouvons utiliser les API avec de nombreux langages et retourner les donnes de plusieurs faons. La flexibilit du JSON fait de ce format le parfait candidat pour la restitution de donnes. En effet, le format de donnes est lger, facile lire et crire.

Les API

Les API (Application Programming Interface) sont un moyen daccder aux donnes dun site sans ncessairement avoir un accs direct la base de donnes.OAuth 2.0

OAuth 2.0 est un protocole de scurit qui permet aux utilisateurs dattribuer des droits des tiers pour lutilisation de leurs ressources web sans que lutilisateur communique son mot de passe.Evidemment une version 1.0 exister, mais cette dernire a t non adapte dans certains cas, il a donc fallu une nouvelle version pour remdier ces problmes. La majorit des checs en OAuth 1.0 sont dus la complexit des exigences cryptographiques.Droulement du processus de fonctionnement:Des jetons clients doivent tre crs car le serveur et le client doivent se mettre daccord. Une fois cet accord conclu, les 2 applications vont pouvoir schanger des jetons temporaires qui permettront de demander lautorisation daccs.Aprs validation du jeton temporaire par le client, ce dernier aura la possibilit dtre converti en jeton daccs. Ensuite, le client pourra communiquer avec lAPI du serveur au nom de lutilisateur. Cette communication prendra fin lors de lexpiration du jeton.Il existe 3 types de jetons : Jetons clients (consumer): identification du client auprs du serveur. Jetons temporaires (token request): identifier la demande dautorisation Jetons daccs (access token): identifie lutilisateur.Le droulement pour lutilisateur est simple, le service qui initie la demande daccs aux ressources (client) est redirig vers le serveur tout en spcifiant un callback. A la fin du processus, le client peut agir au nom de lutilisateur.Toutes les API que nous allons tudier utilisent ce protocole, il tait donc intressant de lexpliquer.

Twitter

Les fonctionnalits offertes par lAPI de ce rseau social est surement lune des API les plus compltes pour lextraction de donnes. Elle propose: La rcupration de donnes grce la fonction GET La possibilit de poster avec la fonction POST La suppression avec la fonction DELETECette API a rcemment volu de la version 1 la version 1.1. Cette mise jour a intgr de nombreuses fonctionnalits dont la ncessit de sauthentifier afin de pouvoir accder lAPI. En version 1, il ntait pas ncessaire de crer une application ou mme un compte Twitter afin dextraire les donnes ce qui est devenu totalement impossible depuis la version 1.1. Nous sommes dans lobligation dutiliser le protocole de scurit OAuth 2.0 expliqu prcdemment.Une application doit tre cre et elle va gnrer diffrents codes daccs qui vont permettre la communication entre le serveur et le client.

Figure 8 : Jetons Clients

Figure 9 : Jetons d'accs

Suite la cration de notre application, nous pouvons maintenant utiliser lAPI de Twitter en toute scurit. Cette API peut tre utilise avec diffrents langages tels que le Python, le PHP, le C-Sharp et bien dautre encore.Lors de mes recherches, jai trouv une console permettant dutiliser lAPI librement aprs stre authentifi sans mme crire une ligne de code. Cette console est fournie par APIGEE.

Figure 10 : Requte de recherche de tweets au format JSONCette image indique que nous sommes en mode rcupration de donnes (GET), on remarque aussi que nous sommes en version 1.1 mais aussi nous recherchons un terme prcis (search) avec un paramtre entrer (q).

Figure 11 : Mise en place des paramtres de recherche

Figure 12 : Exemple de tweet sur Twitter.fr

Figure 13 : Le mme Tweet en format JSON extrait grce la console APIGEELes donnes extraites en format JSON contiennent beaucoup dinformations qui peuvent tre exploites de plusieurs manires.Par contre, cette API prsente certaines limites dutilisation. Le nombre dappel est limit 150 fois par heure si nous nutilisons pas le protocole dautorisation OAuth, par contre si nous autorisons lapplication accder notre compte, cette limite est repousse 350.

FacebookEn ce quoi concerne lextraction de donnes de Facebook, nous allons avoir recours lOpen Graph API de Facebook. Cest un protocole, qui permet de manipuler les donnes issues de Facebook, et est bas sur un modle dactions et dobjets. Je rappelle quau niveau de Facebook, nous pouvons seulement rcuprer les donnes prsentes sur notre page. Mais dans notre situation, il est plus simple de procder lextraction des donnes de Facebook en utilisant un outil prsent dans toutes les entreprises: Microsoft Excel.Certes, une version basique dExcel ne permettrait pas deffectuer ce type dextraction mais grce la nouvelle suite POWER BI, la connexion Facebook est dsormais disponible. Ce service permet danalyser les donnes et de prsenter les rsultats de faon originale et sans forcment possder un outil BI au sein de lentreprise.Grce Power BI, l'utilisateur peut facilement interagir avec les donnes sans dpendre de l'IT d'entreprise, a dclar Eron Kelly, vice-prsident de Microsoft et directeur marketing de SQL Server.Power BI est dfinie comme un service capable d'importer un ensemble de donnes quelle soit interne lentreprise ou externe.Les diffrentes fonctionnalits de Power BI: Power Query : permet de se connecter des donnes issues de sources de donnes dentreprise et publiques Power Pivot : cre un modle de donnes labor directement dans Excel Power View : cr des rapports et des vues analytiques avec des visualisations de donnes interactives Power Map : explor des donnes go spatiales sur une exprience de carte 3D dans ExcelNous allons utiliser Power Query pour cette extraction de donnes.

Figure 14 : Connexion Facebook via Excel Nayant pas daccs au compte Facebook de Boursorama, je vais utiliser mon propre compte.

Figure 15 : connexion en tant qu'utilisateur de Facebook

Liste des connexions disponibles et qui nous intressent: Activits Commentaires Flux Liste damis Amis Jaime Liens Membres Publications Tagu Abonns Abonn Pour notre recherche, nous allons nous connecter sur longlet publications, chaque enregistrement possde un ID, nous pouvons rcuprer dans des tables qui sont les personnes ayant aim la publication (likes.name) ainsi que toutes les personnes ayant comment la publication avec le nom de la personne ayant post le commentaire et enfin le commentaire (ccomments.from.name) en lui-mme (comments.message) .

Figure 16 : fichier Excel avec diffrentes donnesCe tableau, une fois enregistr, est facile intgrer dans un ETL puis dans le data warehouse.

Les avis des internautesLa cible de ce projet est dapprofondir la connaissance clients, par consquent, nous chercherons regrouper les sentiments des utilisateurs du web quils soient positifs, ngatifs ou bien neutres.Il faut avant tout pouvoir reprer les termes connotation ngative (nul, mauvais, inconvnients ) ou positive (facilit, srieux, professionnel). Pour cela nous allons crer deux dictionnaires de termes, lun avec des connotations positives et lautre ngative.Aprs avoir procd lextraction des diffrentes publications, nous allons analyser ces derniers mots par mots.Par exemple:Super Banque

Que des avantages

Vraiment mauvais

Non merci la Banque en Ligne

Par contre notre dictionnaire ne pourra pas seulement tre compos de mots, mais il faudra aussi laliment en expression toute faite comme Pas top, Je naime pas, etc Malheureusement notre solution ce niveau-l ne sera pas efficace 100% car mme si nous allons essayer dintgrer aux dictionnaires le plus grand nombre de mots et de phrases possible, il reste toujours les publications ambigus telles que Merci ma banque!. Comment allons-nous juger cette publication? Notre dictionnaire lintgrera directement dans les avis positifs mais a peut ne pas tre le cas en ralit, cette phrase peut trs bien tre ironique.Aprs avoir class les publications selon les sentiments, nous pourrons crer diffrents indicateurs qui nous permettrons dobtenir le nombre davis, le nombre davis positifs, davis ngatifs et crer un graphique qui les comparera au fil du temps.Lhistorisation et les influenceursA chaque extraction de donnes, on pourra ventuellement historiser les donnes. Ce qui nous permettra des crer des courbes sur lamlioration (ou dgradation) de le-rputation. Cela pourra tre fait lchelle globale ou bien individuelle.Un peu limage de Radian Six, nous pourrons rcuprer les personnes influentes. Lavis dune personne qui est suivie par un nombre important de personnes naura pas le mme impact quune personne qui possde un rseau restreint, cest pour cela que nous allons crer un indicateur spcial pour ces influenceurs afin de savoir sils sont satisfaits ou non.Les autres indicateurs disponibles Les lieux des publications Lheure des publicationsRapprochement avec la base de donnes clientsSi ce travail a t effectu, cest pour en premier lieu pouvoir le rapprocher avec la base de donnes. Par soucis de confidentialit, les donnes extraites ne nous permettent pas dobtenir ladresse lectronique des utilisateurs des rseaux sociaux. Le seul rapprochement que lon pourra faire sera avec le nom et prnom de la personne qui a mis la publication.De l nous pourrons avoir les mmes indicateurs quauparavant mais cette fois-ci pour les clients de lentreprise. Nous pourrons galement obtenir: les types de contrats dtenus La date devenu client (date devenue membre, prospect et client) La catgorie Socio Professionnel Le nombre de parrainage Lactivit web du client

Toutes ces informations nous permettrons damliorer notre connaissance client, de savoir si le client est plutt satisfait des services offerts par lentreprise ou au contraire, il attend une amlioration des services dans tel ou tel domaine.

Aspect technique

En ce qui concerne mon travail, jai eu recours aux diffrentes API fourni par les rseaux sociaux. Dans cette rubrique, nous allons seulement tudier lAPI fourni par Twitter et celle fourni par Facebook. Il y a bien videmment une multitude dAPI mais le fonctionnement est assez similaire donc nous en dtaillerons que deux. Aprs avoir extrait toutes ces donnes dans un fichier .txt ou .csv, il ne reste plus qu intgrer ces donnes dans le data warehouse. Pour cela je vais utiliser lETL de Microsoft: SSIS.SSIS est un outil d'extraction, de transformation et de chargement de donnes, cest ce que l'on appelle un ETL. On extrait les donnes depuis une source, puis suit la transformation si besoin, pour ensuite injecter ces donnes vers MS SQL Server ou encore d'autres destinations (fichier plat, etc).Intgration de donnes

La premire tape serait de crer une table o les donnes seront injectes, nous avons donc le choix entre crer une table pour chaque source (Facebook, Twitter et Google), ou bien crer une table qui va regrouper toutes les informations extraites. Dans le premier cas, nous aurons crer plusieurs tables avec en nom de colonnes les diffrentes informations extraites par les diffrentes API. Par contre, si on retient le fait de crer une seule table, alors il faudrait crer les colonnes pour chaque API et indiquer dans une colonne la source de la donne.Pour la premire solution qui consiste crer une table par rseau social, alors il nous suffirait de directement intgrer les donnes grce un composant SOURCE FICHIER PLAT (fichier .txt ou .csv) et le relier avec un composant Destination OLE DB, il peut aussi tre intressant dajouter la date dajout dans la table grce au composant COLONNE DERIVEE. La dmarche est similaire si nous regroupons toutes les donnes dans une seule table, il sera juste ncessaire dajouter le nom de la source avec le composant COLONNE DERIVEE. Pour une meilleure lisibilit, il serait plus judicieux de crer une table par rseaux social car les API sont diffrentes et les donnes en sortie ne possdent pas le mme nom.

Slection des donnes pertinentes.

Aprs avoir intgr notre premier flux de donnes, nous allons dcider pour chaque API quelles sont les donnes avec lesquelles nous pouvons crer de la valeur ajoute pour lentreprise.Certes, nous aurons des informations quivalentes dans chaque API comme le nom et le prnom de la personne, la date et lheure de la publication et bien videmment la publication elle-mme. DONNEES

TWIITTERDate du postTexteNom de la personneLocalisationStatut retweeterNombre de retweet

FACEBOOKDate du postTexteNom et prnom de la personneActivit des amisCentre dintrts des amisMentions Jaime des amisGroupe auquel appartiennent les amis

Tableau 3 : Donnes importantes pour Twitter et Facebook

Analyse de sentiment

La premire tape est de crer sous format .csv un dictionnaire de sentiment qui sera inject dans la base de donnes et mis jour rgulirement grce un package SSIS. Ce package nous permettra deffectuer la mise jour ou lajout de nouveaux mots ou expression dans le dictionnaire. Il devra tre rgulirement mis jour afin dobtenir la meilleure analyse possible. Afin de facilit la mise jour des fichiers .csv, nous allons crer un dictionnaire pour les chaines de caractres positives et un autre pour les chaines de caractres ngatives. Ces fichiers contiendront une colonne contenant le mot ou lexpression, un ID unique. Cet ID nous permettra deffectuer la mise jour des tables. Pour crer ce package SSIS, nous aurons besoin du composant SOURCE FICHIER PLAT qui ira rcuprer le dictionnaire au format .csv, il sera reli un composant recherche qui va dfinir si la ligne existe dans notre table, dans ce cas il nous faudra effectuer la mise jour des champs (grce au composant Commande OLEDB) ou alors si la ligne nexiste pas, nous allons lintgrer avec le composant Destination OLEDB.

Figure 17 : Alimentation de la table contenant le dictionnaire de donnes

La seconde tape est de croiser cette nouvelle table avec les diffrentes tables regroupantles diffrentes informations extraites des rseaux sociaux. Nous allons donc mettre en place trois Tche de flux de donnes qui seront contenues dans un Conteneur de squences, chaque tche reprsentera un rseau social.

Figure 18 : Analyse de sentiments pour chaque rseau social

En chargeant les donnes grce au composant Source OLEDEB, puis en utilisant le composant recherche de terme, nous pourrons dterminer si la publication est positive ou ngative.

Figure 19 : Package d'Analyse de sentiment pour Twitter

Figure 20 : Recherche de terme dans le dictionnaireCe composant va permettre la recherche de la chaine de caractre prsente dans le dictionnaire dans la zone de texte extraite des diffrents rseaux sociaux.

Figure 21 : Colonne drive avis positif

Si nous avons une correspondance avec les termes positifs du dictionnaire, alors il nous suffit dintgrer ces donnes dans notre table finale. Avant cela, une lgre transformation est ncessaire, grce au composant colonne drive nous allons intgrer deux nouvelles colonnes. La premire va permettre de diffrencier les avis positif et ngatifs avec la mention ngatifou positif. La seconde colonne reprsente la source du commentaire, cest--dire de quel rseau social est extrait le commentaire. Ceci va nous permettre de crer des indicateurs par rseau social.Le composant Unir tout nous permet de regrouper les avis ngatifs et positifs afin de les injecter dans la table de destination.

Figure 22 : Colonne de la table de destination

Cette tape termine, nous allons rinjecter toutes ces donnes dans cette table qui va regrouper toutes ces donnes et qui sera la table finale sur laquelle nos rapports se baseront.Rapprochement avec la base de donnes

Nous arrivons donc dans la partie qui, en termes de valeur ajoute, est la plus significative, le rapprochement entre les donnes extraites et la base de donnes. Aprs avoir donn une connotation aux commentaires il est temps de savoir si les personnes sexprimant sur lentreprise font partie de ses clients ou non.Pour ceci, une colonne nomme FLAG_CLIENT est cre dans la table finale avec comme valeur 1 si le nom de la personne ayant post le commentaire est prsent dans la base de donnes et 0 sinon.Dans le but de prserver un minimum de vie prive, certaines personnes font le choix de ne pas mettre leur vrai nomet/ou prnom sur les diffrents rseaux sociaux. Ces utilisateurs prfrent souvent utiliser des surnoms ou encore modifier quelques lettres du nom ou prnom. Selon un sondage trs rcent du site Mingle Trend (courant 2014), 44% des Franais choisissent dindiquer leur vrai nom ou un surnom en fonction du rseau social utilis. Les 30-49 ans sont 21% toujours apparatre sous leur vrai nom lorsquils utilisent les rseaux sociaux contrairement 62,5% des 15-29 ans qui eux choisissent selon le rseau social utilis.

Figure 23 : Sondage mingle Trend sur le taux d'utilisation du vrai nom sur les rseaux sociaux

Il est donc difficile pour nous dutiliser le composant recherche sur le nom et prnom de la personne car il faudrait avoir prcisment le nom et le prnom de la personne. Il en est de mme pour le composant recherche de terme. Le seul composant restant qui peut nous aider est celui de la recherche floue. Ce composant utilise la correspondance floue pour renvoyer un ou plusieurs rsultats dont la correspondance est proche dans la table de rfrence. Dans un premier temps, la transformation de recherche tente de trouver une correspondance exacte. Si cette dernire naboutit pas, alors cette transformation de recherche floue fournit des correspondances proches dans la table de rfrence.Le composant de recherche floue comprend trois fonctionnalits de personnalisation de la recherche qu'elle effectue : le nombre maximum de correspondances a retourn par ligne d'entre, les sparateurs de jetons et les seuils de similarit.

Figure 24 : Connexion la dimension Personne

Figure 25 : Termes de recherche

On effectue la recherche floue entre le nom de la personne ayant post le commentaire et entre le nom du client ou prospect prsent dans la base de donnes. Afin de facilit la recherche du cas par cas, ou aussi afin de crer des rapports avec le nombre de contrats dtenu par personne, la date danciennet et bien dautres indicateurs, lidentifiant web de la personne sera le lien entre le commentaire et la base de donnes. Cet identifiant unique va nous permettre daccder aux diffrentes informations sur les clients.

Figure 26 : Onglet avanc de la recherche floue Correspondances maximales afficher par rechercheIndique le nombre maximal de correspondances que la transformation peut retourner pour chaque ligne d'entre. Nous lavons dfini 100 car une personne peut avoir post plusieurs commentaires Seuil de similaritPlus la valeur se rapproche de 1 et plus la valeur de recherche doit ressembler la valeur source pour faire figure de correspondance. On ne peut pas se permettre de mettre en place un seuil de similarit trop bas car cela peut nous renvoyer des rsultats qui ne correspondent pas aux clients prsents dans la base de donnes interne de lentreprise. Le seuil de 70% de similarit semble tre un bon compromis afin dobtenir les meilleurs rsultats possibles. Le fait de mettre ce seuil 100% impliquerait quon extrait le vrai nom de la personne or cela nest pas toujours le cas. Sparateurs de jetonsIndique les sparateurs utiliss par la transformation pour marquer les valeurs de colonne.

Figure 27 : Colonne drive mettant jour le Flag_ClientAprs la sortie de la recherche floue, nous aurons donc les enregistrements avec une correspondance. Il faut donc mettre jour la colonne Flag_Client, cette mise jour seffectue grce lutilisation de la transformation Colonne Drive en remplaant la valeur NULL par 1.

Figure 28 : Processus globale de vrification client

Reporting

En ce qui concerne la restitution de donnes, un outil de restitution de donnes (Cognos, Web Report Studio,) pouvant se connecter une base de donnes peut parfaitement rpondre au besoin. En se connectant directement la base de donnes, un grand nombre dindicateurs pourront voir le jour.Ce reporting comprendra plusieurs pages avec diffrents indicateurs tels que: Le nombre davis positif Le nombre davis ngatif Le top 10 des influenceurs sur Twitter, sont-ils clients? Un graphique avec le nombre de posts par tranche horaire Le nombre de publications des clients par rapports au nombre total Les avis positifs et ngatifs des clients compars ceux des non clients Nombre davis positifs et ngatifs selon le rseau social Quel rseau social est le plus actif nous concernant Comparaison du nombre de publications entre les rseaux sociaux avec une chelle temps

Schma gnral de la cible

Figure 29 : Schma gnral avec le processus souhaitCe schma rsume toute la procdure explique auparavant. Nous partons de lextraction de donnes sur les diffrents rseaux sociaux, on les intgre ensuite dans un fichier .csv. Ltape suivante et dintgrer ces donnes dans lETL, ce qui va nous permettre deffectuer diffrentes tches telles que la slection de donnes, le ressenti de la publication, si lavis est positif ou non et enfin nous pourrons vrifier combien de ces personnes et lesquelles font partie des clients.Toutes ces informations prsentes vont nous permettre denrichir le datawarehouse et vont-nous offrir la possibilit deffectuer diffrents reportings dont la valeur ajoute sera non ngligeable.Comparatif

Maintenant lextraction et lanalyse termine, nous allons effectuer une petite comparaison entre la solution que nous avons et les solutions prexistantes.Mon approche nest pas en temps rel contrairement aux solutions existantes, les scripts et package SSIS tourneront de manire quotidienne et il faudra une certaine quantit de donnes sur laquelle sappuyer avant de pouvoir mettre en place le reporting et analyser ces donnes.Notre solution est aussi une solution gratuite, elle ne peut donc pas fournir des rsultats similaires celle des solutions payantes qui ont des accords avec les diffrents rseaux sociaux afin de rcuprer une quantit dinformations beaucoup plus importantes mais aussi des donnes confidentielles tels que ladresse lectronique par exemple. Exemple de Radian Six et Twitter :Contrairement ma solution, SalesForce (diteur de Radian Six) nutilise pas lAPI fournit par Twitter mais le Firehose. Ce moyen daccs aux donnes est trs similaire lAPI mais il pousse aux utilisateurs les donnes en temps rel, il permet aussi la livraison de 100 % des tweets correspondant nos critres de recherches. LApi elle fournit seulement des chantillons de tweets ce qui est une limite quand on veut effectuer des analyses approfondies. Cette technologie a bien videmment un cot qui est relativement important si la structure est de petite taille, de plus Twitter semble de plus en plus limit ses partenaires ayant lautorisation dutiliser cette technologie cest pour cette raison que laccs au Firehose est rarement accord.Par contre en ce qui concerne les bnfices apports par rapports par mon approche est sans doute le rapprochement de ces donnes extraites avec celle du datawarehouse qui vont apporter une valeur ajoute non ngligeable lentreprise.Aucun des outils existants ne permettent de faire ce rapprochement qui a lui seul peut apporter autant de bnfices lentreprise que le travail concernant le-rputation. En effet, si les clients sont satisfaits alors eux-mmes peuvent faire en sorte damliorer limage de la marque en postant des rponses aux commentaires ngatifs laisses par les autres personnes (clients ou non), ce qui fera une sorte de publicit gratuite et plus crdible aux yeux de linternaute qui souhaite vrifier la crdibilit des offres

ForcesFaiblesses

Solution gratuiteLimitation de la quantit de donnes extraites

Intgration des donnes dans le datawarehousePas en temps rel

Vrification clientRestriction sur les types de donnes

Maintenance facile

Tableau 4 : Forces et faiblesses de la solution

Conclusion

Selon Chuck Brymer, homme daffaires et expert marketing: ce qui rend les marques influentes n'est pas leur taille mais leurs communauts.Le dveloppement des rseaux sociaux reprsente un phnomne majeur dans le monde entier, et ce phnomne est devenu une source de donne qui peut offrir une valeur ajoute dcisive pour limage et la notorit dune marque. Lanalyse des rseaux sociaux est une opportunit unique pour les entreprises afin dtablir une image de marque ou renforcer limage existante auprs de ses clients ou des personnes pouvant potentiellement le devenir. Il est important daxer sa stratgie sur les besoins et motivations des internautes sur les rseaux sociaux et sur leur engagement auprs de la marque.Avec la nouvelle mode Big Data, il est devenu un peu plus ais de rcuprer, traiter, analyser les donnes afin de mieux analyser son e-reputation.Cette solution va nous permettre de savoir si les personnes utilisant les rseaux sociaux sont globalement satisfaites des offres et services ou demande de lamlioration dans tel ou tel domaine. Cette analyse peut avoir deux issus: Si les clients sont globalement satisfaits alors lentreprise continuera sur la mme politique et toujours essayer de proposer de nouvelles offres et services qui vont permettre de conqurir de nouveaux clients et de fidliser davantage les siens.

Si, par contre, ces avis nous sont dfavorables, alors cela sera surement un coup dur pour lentreprise, mais la priorit sera de satisfaire les clients dans un premier temps avant de penser la conqute de nouveaux clients. Le fait de relever ce dfi dfinira la capacit de lentreprise surmonter des preuves difficiles.Bien videmment notre solution nest pas aussi complte que les solutions payantes en raison des restrictions des API. La solution permettra deffectuer une premire analyse assez complte mais sans des donnes cruciales comme par exemple les adresses lectroniques.Certes aucune des solutions ne permet le rapprochement avec la base de donnes interne de lentreprise mais certaines solutions proposent le service dexportation des rsultats. Cette extraction peut tre faite sous format Excel et donc facilement intgrable dans lETL et le data warehouse.AnnexesListe des champs rcuprables grce lAPI de Facebook

Liste des champs rcuprables grce lAPI de Twitter

Maquette du reporting

Bibliographie

Sites officiels:http://msdn.microsoft.com/https://dev.twitter.com/https://developers.facebook.com/Forums de discussions et de partage:https://github.com/http://stackoverflow.com/http://fr.slideshare.net/al3x/the-twitter-api-a-presentation-to-adobe?qid=9295f934-530f-4558-a3e6-175947d320de&v=default&b=&from_search=15http://fr.slideshare.net/busse/facebook-open-graph-protocol-and-graph-api-no-va-cc-2010-1Revues lectroniques: http://technologies.lesechos.fr/gestion-de-contenus/la-maitrise-du-big-data-un-avantage-competitif-decisif_a-38-500.htmlhttp://www.computerworld.com/article/2486018/business-intelligence/how-to-extract-custom-data-from-the-google-analytics-api.htmlhttp://www.brightplanet.com/2013/06/twitter-firehose-vs-twitter-api-whats-the-difference-and-why-should-you-care/Anciens mmoires en ligne:http://fr.slideshare.net/fifi75/big-data-et-marketing-vers-une-analyse-prdictif-de-dacte-dachathttp://www.simonblum.me/MemoireSimonBlum.pdfMmoire | Shady EL TEWIL1