Soutenance ysance
-
Upload
nelsonverdier -
Category
Documents
-
view
333 -
download
2
Transcript of Soutenance ysance
![Page 1: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/1.jpg)
SOUTENANCE DE FIN D’ÉTUDE STAGE EN BIG DATA
Nelson Verdier -‐ 5 Septembre 2014
![Page 2: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/2.jpg)
• Ysance
• Big data ?
• Proof of concept -‐ Hadoop
• R&D -‐ Spark
• DVP
• Conclusion
Plan
![Page 3: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/3.jpg)
!
Stratégie digitale & Consulting IT!Conception, mise en œuvre et animation
ebusiness, Business Intelligence, Cloud Computing & Big Data
![Page 4: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/4.jpg)
![Page 5: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/5.jpg)
• 3V • volume • vélocité • variété
• Extraire des données valorisées • Architecture distribuée et extensible
Le big data ?
![Page 6: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/6.jpg)
MapReduce et Hadoop
• MapReduce • processus de traitement parallèle sur cluster • originaire de chez Google en 2004
• Hadoop • implémentation en java du mapreduce • par Yahoo en 2005 • hdfs -‐ hadoop distributed file system • namenode, datanode
![Page 7: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/7.jpg)
Map Reduce -‐ word count
![Page 8: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/8.jpg)
Eco-‐système Hadoop
HDFS -‐ stockage
MapReduce -‐ traitement
Hive sql
Mahout machine learning
HBase clé/valeur
Pig scripts
![Page 9: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/9.jpg)
Proof of concept Hadoop• Mission pour un acteur dans la lunetterie • Contexte :
• Ensemble de serveurs qui communiquent entre eux, produisent des logs
• Extraire de ces logs des informations commerciales • clients, commandes, adresses, quantités…
• Stocker ces données propres dans Amazon S3
![Page 10: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/10.jpg)
Proof of concept Hadoop
• Implémentation du job MapReduce en Java • Déploiement du job sur Amazon EMR • script de lancement de job • Première approche big data intéressante
• api java bas niveau avec des classes Mapper et Reducer
![Page 11: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/11.jpg)
R&D -‐ Spark
• Volonté de maitriser les technologies de demain • Apache Spark
• framework de traitement distribué • chargement des données en mémoire • briques semi-‐temps réel, machine learning, sql
• Plusieurs applications développées pour tester Spark
![Page 12: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/12.jpg)
twitter_pictures
Images les plus populaires sur twitter sur une fenêtre de temps
![Page 13: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/13.jpg)
twitter_streaming
Déceler les utilisateurs les plus influents du moment sur un thème donné.
![Page 14: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/14.jpg)
Applications spark
• sentiment: catégorisation de tweets selon qu’ils soient à connotation positive ou négative
• sql: prise en main de la brique Spark • Livrables:
• codes sources • documentation sur le wiki ysance
![Page 15: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/15.jpg)
DVP -‐ data visualisation platform
Data visualisation platform • Permet de suivre les partages d’urls d’un site web spécifique sur twitter, page par page et sur une fenêtre de temps.
![Page 16: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/16.jpg)
DVP -‐ data visualisation platform
• Développement du backend • Spark Streaming • MongoDB • Hive + user defined function • Hbase • Elasticsearch
• Jusqu’a 200 urls par seconde
![Page 17: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/17.jpg)
Conclusion
• Big data, un environnement riche où tout reste à faire. Des challenges techniques comme fonctionnels
• Volonté de gagner en expertise technique avant d’évoluer vers un poste plus haut niveau
• Ysance, un investissement en R&D pour mieux accueillir les futurs besoins clients
![Page 18: Soutenance ysance](https://reader035.fdocuments.net/reader035/viewer/2022081508/557ddf92d8b42abf6c8b470a/html5/thumbnails/18.jpg)
MERCI DE VOTRE ATTENTION DES QUESTIONS?