introduzione al data mining
-
Upload
stefano-de-rossi -
Category
Education
-
view
3.197 -
download
2
description
Transcript of introduzione al data mining
Data Mining e modelli
previsionali
Roma 13 settembre 2011
PARTIAMO
Processo di estrazione di conoscenzada banche dati di grandi dimensioni tramite l’applicazione di algoritmi che individuano le associazioni “nascoste”tra le informazioni e le rendono visibili.
Che cosChe cosChe cosChe cos’è’è’è’è il Data il Data il Data il Data MiningMiningMiningMining
Processo di esplorazione ed analisi, automatico o semi-automatico, di un’ampia mole di dati al fine di scoprire modelli e regole significative
PerchPerchPerchPerchèèèè usare gli strumenti di data usare gli strumenti di data usare gli strumenti di data usare gli strumenti di data miningminingminingmining
Gli algoritmi di Data Mining sono stati sviluppati per far fronte all’esigenza di sfruttare il patrimonio informativo contenuto nelle grandi raccolte di dati che si hanno a disposizione.
Acquisire informazioni non èun problema se si pensa alla ricchezza delle sorgenti di dati accessibili sul web o attraverso Data Warehouseaziendali, il problema èutilizzarle.
volumevolume
valore
dati
informazione
conoscenza
decisione
Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)
Data Mining come parte di un processo più generale definito Knowledge Discovery in Database (KDD)
Essenza del Data Mining è la trasformazione dei dati in risultati applicabili
Data Mining
Database Technology Statistica
Altre disciplineInformationScience
MachineLearning Visualizzazione
Il data Il data Il data Il data miningminingminingmining èèèè la somma di discipline diversela somma di discipline diversela somma di discipline diversela somma di discipline diverse
Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica
1960 1970 1980 1990-2000
Raccolta dati,modelli gerarchici e relazionali
Diffusione DBMS relazionali commerciali
Modello relazionale dei dati, primi DMBS relazionali
Data mining e data warehousing
Modelli predittivi
2000-2011
Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica
1960 1970 1980 1990-2000
Raccoltadati
Quanto ho venduto negli ultimi 3 anni
Accessoai dati
Quanto ho venduto al Nordlo scorso gennaio?
Viste le vendite al nord, quale è il
dettaglio per città?
Query a database
Data Mining
Perché vendiamo di più in alcune
città?
1990-2000
Modellipredittivi
Dove/a chi potrò vendere di più?
Il ciclo virtuoso del data Il ciclo virtuoso del data Il ciclo virtuoso del data Il ciclo virtuoso del data miningminingminingmining
Individuazionedei problemi e dei settori di business
per cui l’analisi può essere utile
Trasformazionein informazioni applicabili (actionable)
con le tecniche del data mining
Azionesulla base delle informazioni
MisurazioneDei risultati ottenuti per avere info utili
su come utilizzare al meglio i dati
Data Data Data Data MiningMiningMiningMining e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence
La business intelligence è un insieme di processi e sistemi che consentono di trasformare i dati generati dalle attività aziendali in informazioni.
Il data mining è una “tecnica” di Business Intelligence
Ambiente dati a supporto
delle decisionimanageriali
IntegratoSubject-orientedNon Volatile
Tante fonti eterogenee
racchiuse in un unico contenitore
Creazionevantaggio competitivo
Pianificazionestrategie di medio-lungoperiodoOttimizzazione
dei processi
KnowledgeDiscovery in Database
Data Data Data Data MiningMiningMiningMining, Data , Data , Data , Data WarehouseWarehouseWarehouseWarehouse e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence
Data Data Data Data MiningMiningMiningMining e OLAPe OLAPe OLAPe OLAP
OLAP
Analisi del contenuto attraverso lo studio di aggregazioni guidate
dall’utente
Data Mining
“estrazione di conoscenza (non banale, implicita, nuova, potenzialmente
utile) da grandi quantità di informazioni”
Cosa sta succedendo
Perché sta succedendo
PREVISIONE
DataMining
RAGGRUPPAMENTO
CLASSIFICAZIONE
DESCRIZIONEVISUALIZZAZIONE
STIMA
CLUSTERING
Data mining“diretto”
i dati disponibili vengono usati per creare un
modello che descriva una variabile
Data mining“indiretto”
si cerca di stabilire una ben precisa relazione tra tutte le variabili in gioco
Cosa Cosa Cosa Cosa puopuopuopuo’’’’ fare il data fare il data fare il data fare il data miningminingminingmining: aree di applicazioni: aree di applicazioni: aree di applicazioni: aree di applicazioni
Contesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecniche
CLASSIFICAZIONE SEGMENTAZIONE PREVISONE ANALISI ASSOCIAZIONI
CLASSIFICAZIONE
FRAUD DETECTION
CLUSTER ANALYSIS
CREDIT SCORING
CROSS SELLING
SCORING PROMOZIONALE
CHURN ANALYSIS
Contesto applicativoContesto applicativoContesto applicativoContesto applicativo
DATA MINING
SUB POINT
EFFICIENTE DISTRIBUZIONE
RISORSE
INDIVIDUAZIONE TARGET
REMUNERATIVI
OPPORTUNITA’DI CRESCITA
AUMENTO PRODUTTIVITA’
UP/ CROSS SELLING
FIDELIZZAZIONE
RIDUZIONE RISCHI FRODE
Contesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempi
Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data miningminingminingmining
MODELLIEFFICACI
I DATI
DATA MINING
TECNICHE
Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi
Le tecniche di data mining non sono altro che un generale approccio alla soluzione dei problemi ed esistono molti modi perrealizzarle.
Ognuno di questi modi rappresenta un diverso algoritmo.
tecnica
algoritmo
La tecnica è l’approccio concettuale che porta all’estrazione delle informazioni dai dati
È il la formula che viene utilizzata per l’implementazione di una tecnica
Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi
Il data mining puo’ essere descrittivo, o prescrittivo in base all’obiettivo dell’analisi che si sta svolgendo
DESCRITTIVO
PRESCRITTIVO
TECNICHE
L’obiettivo è approfondire la conoscenza di cio’ che avviene all’interno dei dati e quindi del mondo che rispecchiano. Le azioni non possono essere automatizzate
L’obiettivo principale è l’automazione del processo decisionale ottenuta creando un modello in grado di dare una previsione o stimare un valore
Tre tecniche di data Tre tecniche di data Tre tecniche di data Tre tecniche di data miningminingminingmining
Con il termine cluster si intende un gruppo di unità simili o vicine tra loro, dal punto di vista della posizione o della composizione
CLUSTERING
K-Means Method
Tre tecniche di data Tre tecniche di data Tre tecniche di data Tre tecniche di data miningminingminingmining
Un albero di decisione viene utilizzato per classificare le istanze di grandi quantità di dati (per questo viene anche chiamato albero di classificazione). In questo ambito un albero di decisione descrive una struttura ad albero dove i nodi foglia rappresentano le classificazioni e le ramificazioni l'insieme delle proprietà che portano a quelle classificazioni.
ALBERI DECISIONALI
Tre tecniche di data Tre tecniche di data Tre tecniche di data Tre tecniche di data miningminingminingmining
Le reti neurali rappresentano la tecnica più nota di data mining, ma forse anche la meno compresa. Ciò è dovuto in gran parte alla terminologia delle scienze cognitive da cui deriva il suo nome.
L’obiettivo dei primi modelli era infatti replicare il comportamento delle cellule nervose umane.
Le reti neurali dal punto di vista del data mining non sono altro che un metodo per applicare un modello a dati storici al fine di poter ricavar classificazioni o previsioni.
RETI NEURALI
Modelli di reti neuraliModelli di reti neuraliModelli di reti neuraliModelli di reti neurali
Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data miningminingminingmining
MODELLIEFFICACI
I DATI
DATA MINING
TECNICHE
I 3 pilastri del data I 3 pilastri del data I 3 pilastri del data I 3 pilastri del data miningminingminingmining: dati: dati: dati: dati
Il secondo pilastro su cui poggia il data mining è rappresentato dai dati utilizzati nel processo: senza di essi, il data mining non sarebbe possibile e potrebbe contare solamente su qualche intuizione.
I dati assumono le forme più disparate, sono di tipo diversi e si trovano in molti sistemi; sono “quasi sempre” sporchi, incompleti e talvolta indecifrabili.
I dati sono la
materia prima del
data mining
Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data miningminingminingmining
MODELLIEFFICACI
I DATI
DATA MINING
TECNICHE
I 3 pilastri del data I 3 pilastri del data I 3 pilastri del data I 3 pilastri del data miningminingminingmining: modellazione: modellazione: modellazione: modellazione
Il terzo pilastro è rappresentato da una serie di competenze di modellistica necessarie per costruire modelli.
Il data mining viene applicato per lo più per costruire modelli previsionali che rilevano pattern significativi sui dati accumulati al fine di fare previsioni relative ad esiti futuri.
Lo scopo dei modelli è l’utilizzo delle previsioni per prendere decisioni più informate.
2 stili di data 2 stili di data 2 stili di data 2 stili di data miningminingminingmining
SUPERVISIONATO
NON SUPERVISIONATO
STILI DI DATA MINING
E’ un approccio top-down applicabile quando sappiamo che cosa stiamo cercando, ed assume spesso la forma di modelli previsionali.
E’ un approccio bottom–up in cui si lascia che i dati stessi indichino un risultato.Spetta all’utente stabilirne l’importanza.
I modelli predittivi realizzabili con gli strumenti di data mining sono essenzialmente di due tipi:
29
The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process:
Decision Optimization
Recommend the mostappropriate actionto take
EnterpriseData Sources
Read new data on customers, events, etc. for continuous improvement
Predictive Analytics
Analyze data toprovide insight andpredict the future
Acquisire
Modelli predittivi
�Improve customer retention
�Grow share of wallet
�Minimize risk
�Increase customer satisfaction
� Enhance market share
Prospects
Customers Constituents
Employees
Students Patients
Agire
DashboardsKiosks / MobileCRM / ERPSterling Apps
I modelli previsionaliI modelli previsionaliI modelli previsionaliI modelli previsionali
Il modello predittivo è rappresentato da una black box: a volte non interessa il meccanismo di funzionamento ma interessa la migliore previsione possibile.
Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali
Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali
Dati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempo
Il passato serve a prevedere il futuro
Per costruire un modello efficace, i dati nel set di costruzione devono imitare il timeframe in cui il modello verrà applicato
Misurazione dellMisurazione dellMisurazione dellMisurazione dell’’’’efficaciaefficaciaefficaciaefficacia
Matrice di Confusione: matrice che permette di individuare quali tra le previsioni fornite dal modello previsionale siano corrette e quali errate
Curva Lift: grafico che raffigura le prestazioni di un modello previsionale come funzione della dimensione del campione.
Il confronto tra modelli predittivi: le curve ROC Il confronto tra modelli predittivi: le curve ROC Il confronto tra modelli predittivi: le curve ROC Il confronto tra modelli predittivi: le curve ROC
Le curve ROC furono utilizzate per la prima volta da alcuni ingegneri elettrici durante la seconda guerra mondiale, che volevano scovare i nemici utilizzando il radar durante le battaglie. Recentemente invece le curve ROC sono utilizzate anche in medicina, radiologia, psicologia, veterinaria e altri ambiti, come machine learning e data mining.
La statistica di sintesi per valutare l’accuratezza di un modello predittivo è l’area sottesa alla curva (AUC)
Data Data Data Data miningminingminingmining e fraud managemente fraud managemente fraud managemente fraud management
Grandi quantità di dati
Associazioni nascoste
Trasformazione dei dati in risultati applicabili
Modelli previsionali
38
Stefano M. de [email protected]
www.admind.it
www.andreadimartino.wordpress.com
www.facebook.com/admind