Modélisation élastoplastique avec endommagement du béton de ...
Introduction à la modélisation prédictive avec la:
description
Transcript of Introduction à la modélisation prédictive avec la:
Introduction à la modélisation prédictive avec la:
Frank Vanden Berghen
http://www.business-insight.com
Partie 1:Contexte
Pour Business-Insight:• Vente de licences logicielles de la « TIMi Suite »• Augmenter la base d’utilisateurs de la « TIMi Suite »• A longue échéance: intégration de TIMi dans Teradata pour éviter de lentes
extractions avant toute modélisation• Nous ne désirons pas intervenir en tant que consultants (notre objectif est le
développement logiciel et non la consultance).
Pour Teradata:• Capacité à intervenir sur des projets analytiques de scoring/modélisation avec
rapidité, efficacité et performance.• Pas de limitations sur le nombre de variables… (Càd pas de « goulot d’étranglement » en
fin de préparation des données qui rend inutile le fait de pouvoir manipuler de le large volume de donnée).• Concentrer les projets sur la création de variables et la génération de large
volumes de données à valeurs ajoutées.• Possibilité de déployer le scoring directement en SQL Teradata
Objectifs d’un partenariat Teradata / Business-Insight
Qui sommes nous?
Fondée en janvier 2007 par Frank Vanden Berghen & Jérome Loncelle HQ localisé à Bruxelles en Belgique Mission
– Implémentation de Solutions Analytiques Prédictives Automatisées– Création d’outils de datamining prédictifs de seconde génération
“To boldly go where no dataminer has gone before!”
6 personnes au HQ (3 développeurs, 1 sales, 1 CEO, 1 admin.)
Actif en Europe (Belgique), Angleterre (Londres), Russie (Moscou), États-Unis (Chicago), Malaysie (Kuala Lumpur)
Quelques Références
Optimisation Marketing à l’aide de techniques prédictives
Les usages typiques de l’« Analyse Prédictive » sont:
• Churn Prevention: Comment retenir mes clients? Comment les empêcher d’aller à la concurrence?
• Cross-Selling: Quel produits proposer à quels clients? (next-to-buy, next-best-offer, etc.)
• Up-Selling: Comment inciter nos clients à consommer plus des produits qu’ils ont déjà?
La offre :
Partie 2:Introduction aux techniques prédictives
Modèles Prédictifs: Performance 1/3
Modèles Prédictifs: Performance 2/3 : Résumé sur les graphique de la Lift
Pourcentage de cibles touchées Probabilité
Probabilité d’achat
Performance de la sélection « parfaite »
Performance de la sélection « TIMi »
Performance de la sélection aléatoire
Aucune Cible touchée
100% des Cibles touchées
0% de la population sélectionnée 100% de la population sélectionnée
Modèles Prédictifs: Performance 3/3 : Quelques exemples typiques de Lift:
Lift curves
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
pourcentage de foyer ciblé
Pour
cent
age
de P
oten
tiel C
ouve
rtSélection Aléatoire Modèle Parfait TIMi Model Ancien modèle
Currentmodel
TIMi model
La banque avait déjà un modèle en production.La lift de ce modèle est représentée en brun dans le graphique ci-dessus.
La lift à 10% pour l’ancien modèle de la « Banque Française » est 15%. Cette sélection est donc 1.5 fois meilleure que la sélection aléatoire.
La lift à 10% du nouveau modèle fait avec TIMi est 62%. Nous avons une sélection qui est 6.2 fois meilleure que la sélection aléatoire.
Story 1 : modèle pour une « banque française » 1/2
Évaluation du ROI supplémentaire généré par TIM
Hypothèses Taille de la campagne marketing (La population qui sera contactée = 10% de la population globale) 180,000
Coût de contact (par contact) € 0.75Cout de démarrage de la campagne (coûts-de-contact) € 135,000 = 180,000*0.75Marge sur le produit par année (pour chaque vente) € 300Taux de conversion pour la sélection aléatoire (qui est estimé grâce aux campagnes passées) 1%
Nombre absolu de “conversion” (càd de ventes) pour une sélection aléatoire pour cette campagne 1,800 =180,000 * 1%
Valeur ajoutée du modèle de cross-selling TIMi Actuel TIMLa Lift à 10% (càd: La lift est combien de fois supérieure à la sélection aléatoire à 10%) (Veuillez vous référer au slide précédent)
1.5 6.2
Nombre absolu de “conversion” attendue 2,700 11,160 =6.2*1800ROI estimé de la campagne € 810,000 € 3,348,000 =11,160*300ROI estimé de la campagne en incluant les (coûts-de-contact) € 675,000 € 3,213,000 =3,348,000-135,000
Différence de ROI en faveur du modèle TIMi: € +2,538,000 =3,213,000-675,000Différence en terme de clients acquis +8,460 =11,160-2,700
Story 1 : modèle pour une « banque française » 2/2
Évaluation du ROI supplémentaire généré par TIM
SAS: 70%
SPSS: 77% TIMi : 99%
Extrait d’un benchmark effectué par pour le compte d’une petite banque belge, dans le but de sélectionner la meilleure solution de datamining:
Story 2: Modèles prédictifs robustes et de haute performance
Ces résultats parlent d’eux-mêmes. La seule différence entre ces 3 résultats est le logiciel et le temps de calcul (en moyenne TIMi est de 10 à
100x plus rapide que tout autre solution).
Partie 3:« Démonstration en Live »
« Démonstration en Live »
• Telco: – Churn: Mobistar (Orange in Belgium)
• Bank: – ABN-AMRO (Hollande)– PAKDD 2010
• Retail: – Delhaize
Partie 4:Préparation des données:
Caractéristiques principales de Possibilité de manipulation de base de données très volumineuses (aucune limitation en nombre de colonnes (unique) et en nombre de lignes).
Environnement intégré de développement de transformation (IDE) convivial basé sur une technologie hybride:
approche graphique à l’aide de « boites »: très intuitive approche à base de script Javascript: très versatile.
99% des transformations d’Anatella fonctionnent sans définir aucun « Meta-Data » (unique). Cela permet la migration très rapide de transformation de données pré-existantes d’un environnement à un autre (par exemple: de
l’environnement d’exploration/création des modèles prédictifs vers l’environnement de production).
100% Unicode Aisément extensible:
Gestion de version des nouveaux scripts, Partage collaboratif des Scripts Javascript, Le Debug des nouvelles transformations est aisé grâce à un debugger similaire au debugger de Visual Studio (unique).
Transformations spéciales pour l’analyse prédictive: Multi-product Assignment Solver (For small assignment problems: Exact Solution using LP; For large assignment problems:
Near-Optimal solution using advanced meta-heuristics) (unique), Text mining, Correcteur d’ortaugrafe automatique (unique), Scoring à partir de modèles réalisés par TIMi ou Stardust, Transformations dédiées pour les "Time Series" (Séries Temporelles), Génération automatique de rapports graphiques (OLAP) en Powerpoint, Excel, MSWord (tous les graphiques de la suite office
sont supportés), …
Anatella est rapide (rapide lors du développement de nouveaux script lors de l’exécution de ces scripts)
Anatella est Multithreadé (pour diviser les temps de calculs par un facteur entre 8 et 12)
n’est pas une Base de DonnéeLes fonctionnalités de Anatella ne couvrent pas les besoins des utilisateurs de base de donnée:
Pas de code SQL.(à la place, on doit utiliser & paramétrer une série de "boites" Anatella)
Pas d’index (et encore moins d’index distribué).(un "full table scan" est nécessaire si on veut trouver une ligne particulière dans une table)
Pas d’accès concurrents aux données gérés par un système de "lock".(il est néanmoins possible d’avoir un accès concurrent en lecture seule à des fichiers plats statiques)
Pas de calculs distribués sur plusieurs PC.(Dans le futur lointain: Gestion "manuelle" de la distribution des données sur plusieurs nœuds).
Pas de gestion automatique du multithreading.
Traitement des données orienté Ligne-Par-Ligne.(et non "columnar", comme les bases de données récentes construites pour la BI)
Exemple 1: data migration
Dataset 1 dans fichier texte
Dataset 2 dans fichier texte
Dataset 3 dans fichier texte
« Union-Merge » des 3 datasets en 1 seul
Sauver le dataset résultant dans un fichier texte
Renommer la colonne « Churn Flag » en « Target »
NTB: L’ordre des colonnes dans les datasets 1,2&3 en entrée est différent.
Logiciel
Temps de calcul pour un fichier de sortie 1 de: 99 MB (200.000 lignes x 43 colonnes)
Temps de calcul pour un fichier de sortie 2** de: 375 MB(187.000 lignes x 414 colonnes)
Temps de calcul pour un fichier de sortie 3*** de: 385 MB(1.044 lignes x 22.285 colonnes)
Anatella 2.7 sec. 16 sec. 35 sec.Talend Open studio 8 sec.* Échec (voir capture d’écran) Échec
Pentaho Kettle/Spoon 17 sec. 48 sec. Arrêt après 1 heure de calcul sans résultat.
CloverETL**** 21 sec. Échec (voir capture d’écran) Échec
*: Temps de développement de la transformation prohibitif. Une modification substantielle des fichiers textes en entrée est nécessaire pour éviter le crash.**: Dataset standard pour la prévention du churn pour un telecom. belge.***: Dataset standard pour la détection (basé sur le code ADN d’une personne) du cancer du sein. Ce type de dataset est aussi courant lors d’études de type « TEXT MINING ».****: CloverETL se positionne en tant que concurrent direct à IBM-DataStage, annonçant des performances similaires.
Exemple 1: data migration Anatella permet la manipulation de base de données très volumineuses :(aucune limitation en nombre de colonnes (unique) et en nombre de lignes).
Exemple 3: LinkAlyticsCréation automatisée de datasets pour l’industrie des telecoms à partir de CDR (Call Data Record) binaires (ou textes).
Ce dataset peut être utilisé pour toute les tâches courantes en analytique prédictive: churn, cross-sell, up-selling, multivariate segmention, etc.
Extraction de métriques SNA (Social Network Analysis) tels que: communautés, leader de Communauté, etc.
Possibilité de traîter de large volume de données (par ex.: Afrique du Sud: 24.000.000 abonnés), 2.1 TB CDR data: temps de calcul: 4 jours).
Ce résultat est une première mondiale.
Aucun autre outil ne peut le faire (au, du moins, il est extrêmement difficile d’arriver à des résultats comparable en utilisant d’autres outils).
Exemple 3: LinkAlytics
Guinee-Bisseau data: « CL1.Churn_Mean » = % of churners in communities in last periodWithout this variable (extracted from SNA): We loose 7,6% of lift.
Partie 5:
Caractéristiques principales de Construire des modèles prédictifs de précision inégalée en quelques clicks de souris et ainsi obtenir
un ROI significativement supérieur aux autres solutions commerciales de datamining.
Les modèles sont à la fois précis et aisément compréhensibles
Génération 100% automatisée des modèles et des rapports (doc, xlsx, …) contenant de nombreux graphiques intuitifs
Temps de calcul proche du temps-réel et scoring « in-database » (pour SQL Server, Teradata, Oracle) (temps de calcul divisé par un facteur entre 100 et 1000 par rapport à d’autres solution de datamining)
Possibilité d’analyse de base de données très volumineuses(Sur du matériel de bureau standard, il est possible d’analyser en quelques minutes des datasets de plusieurs dizaines de gigabytes)
Temps pour la préparation des données réduit au minimum: le « nettoyage » de données est pratiquement inutile et il est possible d’utiliser un seul et unique dataset pour construire tous les modèles
La validation des modèles est facile : génération automatique de nombreux graphiques de la lift, intervalles de confiance visibles sur les lifts,…
Module « Data-Drift » pour détecter les erreurs dans la mise à jour du dataset de scoring
Prix attrayant ( th du prix de SAS/SPSS pour 4 fois plus de licences)110
parmi les équipes gagnantes aux concours mondiaux de datamining prédictifs
KXEN et SPSS n’ont jamais été classés parmi les équipes gagnantes d’aucun concours de datamining à l’aide de leur propre outil.
Exemple 4: Industrialisation de ModèleModel Factory / Automatisation
Colruyt: Un grand retailer en Belgique utilise un ancêtre de TIMi pour créer ses dépliants personnalisés.
Ces dépliants contiennent la sélection de produits qui ont la plus grande probabilité d’achats pour un client donné.
Chaque client reçoit un dépliant différent, contenant une sélection différente de produits. Il y a (potentiellement) autant de dépliants différents que de clients (one-to-one marketing).
Détails Techniques:• Dataset d’apprentissage :70 Gbyte et 22.000 colonnes (càd
22.000 variables).• 450 modèles prédictifs à créer « from scratch » toutes les 2
semaines.• 100% automatisé (pas d’intervention humaine).• En plus d’un mécanisme basé sur des modèles prédictifs,
de simples « règles métiers » sont appliquées pour déterminer l’assignement final. Ces règles sont codées en SAS.
TIMi est le seul outil capable de:• Créer des modèles sur des datasets
d’apprentissage aussi volumineux.• Produire 450 nouveaux modèles en
quelques jours.
« SAS is able to compute purchase probabilities… »
Littéralement traduit:« SAS est capable de calculer des probabilités d’achats… »
C’est vrai.(Sauf qu’ici, c’est fait avec une veille version de TIMi).
Un article de SAS qui est un chef-d’œuvre d’ambiguïté.
Au final, qui fait les dépliants de Colruyt? SAS ou TIMi?
Exemple 5: Model Factory
Un des plus grands retailers en Belgique.5ième plus grand retailer aux USAPrésent aussi en Indonésie
Pour la sélection de son outil de datamining Delhaize a organisé un concours de datamining.
Les participants reçoivent:• Dataset d’apprentissage: profils des clients tels
qu’observés en 2009 et achats effectués en 2010.
Équipe Logiciel technologie utilisée
% de classification
Correcte
Temps de calcul
MachineDurée de
prestation
SAS SAS Predictive modeling 60 ? + de 2 mois à 5
dataminers
Consultants spécialisés dans le retail
SAS + scripts spécialisés développés de longue date
Collaborative Filtering 60 ? 2 mois à 3
dataminers
Frank TIMi Predictive modeling 70 5h 1h pour 1
dataminer
• Dataset de Scoring: profils clients de 2010.
Taille des datasets : 300 colonnes x 150.000 lignes.
Il faut prédire quels sont les 3 produits (parmi un choix de 9 produits) qui vont être acheté en 2011.
Difficulté supplémentaire: Chacun des produit ne peut être « assigné » que 50.000 fois maximum.
Partie 6:
Intégration des techniques de segmentation multivariées & des techniques prédictives
Vous pouvez utiliser Stardust (le moteur de segmentation) avant et/ou après une analyse prédictive.
Stardust et TIMi sont 2 logiciels intégrés.
Le nombre de segments différents dans une analyse en segmentation est pratiquement illimité (nSegments>2000 est ok).
(unique: tous les outils concurrents ont: nSegments<300).
Partie 7:Le futur
Le futur• Module pour la gestion de stocks• Module pour le « up-lift » modeling• Ajouter des « forest of stumps » comme technique
de modélisation• Ajouter des modules SNA supplémentaires• Fonctionnalités ELT dans Anatella• Améliorer les interfaces (en particulier celle de Anatella)
• Opti-Mail-It• Finaliser l’acquisition de nouveaux clients Telco.
Comme le démontre nos excellents résultats lors des différentes compétitions de datamining
de niveau mondial et lors de benchmarks en entreprise, la :
délivre invariablement les modèles prédictifs les plus précis et les plus robustes
a un temps de calcul proche du temps réel peut analyser aisément de larges datasets grâce à son mode « in-database » délivre des modèles facilement compréhensibles grâce, entre autres, aux
nombreux rapports générés automatiquement lors du processus de modélisation
En résumé
Consultez cette page pour plus d’informations sur le lien entre l’exactitude des modèles et le ROI:http://www.business-insight.com/html/solutions/propensity_ROI.html
Plus de Précision= Plus de ROILa précision accrue des modèles générés par TIMi se traduit directement en terme de ROI. Il est courant qu’un modèle prédictif construit avec TIMi permette d’accroître le ROI d’une campagne marketing de 10 à 15% comparé à un autre logiciel de datamining
Merci pour votre Attention
Pour plus d’informations, veuillez consulter notre site internet:http://www.business-insight.com