ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID

63
ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID PRESENTAZIONE A CURA DI : Chiara Cimini Miriam Gotti Alessandro Raspanti Dott.ssa Chiara Cimini e-mail: [email protected] Dott.ssa Miriam Gotti e-mail: [email protected] Dott.re Alessandro Raspanti e-mail: [email protected] Dott.re Marco Stella: [email protected]

description

ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID. PRESENTAZIONE A CURA DI : Chiara Cimini Miriam Gotti Alessandro Raspanti Marco Stella. - PowerPoint PPT Presentation

Transcript of ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID

Page 1: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID

PRESENTAZIONE A CURA DI : Chiara Cimini Miriam Gotti Alessandro Raspanti Marco Stella

Dott.ssa Chiara Cimini e-mail: [email protected] Dott.ssa Miriam Gotti e-mail: [email protected] Dott.re Alessandro Raspanti e-mail: [email protected] Dott.re Marco Stella: [email protected]

Page 2: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

OBIETTIVO

Suddividere un insieme di individui, intervistati presso distributori COOP, in funzione delle loro caratteristiche socio-demografiche, comportamentali e di giudizio

Page 3: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

MODELLO

Segmentazione multipla CHAID (Chi-squared Automatic Interaction Detection);

Applicazione del test chi-quadro con l’obiettivo di massimizzare l’eterogeneità tra i gruppi e l’omogeneità entro i gruppi;

Normalizzazione della significatività del chi-quadro mediante il fattore di Bonferroni, per rendere confrontabili situazioni che derivano da tabelle di contingenza diverse

Page 4: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

ANALISI DEL DATASET

Numero di osservazioni: 7200 Variabili suddivise in: variabili socio-demografiche ed economiche; punteggi di soddisfazione sul servizio di distribuzione; variabili “Coop”

Page 5: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

ANALISI DEL DATASET

Variabili socio-demografiche ed economiche:sesso, età, professione, titolo di studio, stato civile, area di acquisto, numero componenti famiglia, numero minorenni, numero percettori reddito, numero occupati, numero auto possedute

Punteggi di soddisfazione: generale, prezzi, promozioni, assortimento, personale e servizio, pulizia e igiene, qualità prodotti freschi, reparto ortofrutta, reparto carne, reparto pane e pasticceria, reparto salumi, formaggi e gastronomia, reparto pesce fresco, prodotti non food

Variabili Coop:canale di vendita, socio/non socio, insegna, numero soci in famiglia, area di acquisto, preferenza su Coop

Page 6: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

ANALISI DEL DATASET

ETA’: <35, 36-50,51-65,>65 PROFESSIONE: 4 modalità TITOLO DI STUDIO: elementare-

media inferiore, media superiore-università

STATO CIVILE: celibe/nubile, sposato/a, vedovo/a

NUMERO MINORENNI: 1, >1Area di acquisto: Romagna e Marche, Veneto, Bologna

NUMERO PERCETTORI REDDITO: 1, 2, >2

NUMERO OCCUPATI: modalità corrispondenti

NUMERO AUTO POSSEDUTE: 1, >1 PUNTEGGI DI SODDISFAZIONE:

bassa (da 1 a 7), media (8), alta (9,10)

PREFERENZA SU COOP: si, no CANALE DI VENDITA: iper, non iper NUMERO SOCI IN FAMIGLIA: 1, >1

CATEGORIZZAZIONE DELLE VARIABILI

Page 7: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SCHEMA DEL PROGETTO

Page 8: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI TUTTE LE VARIABILI DISPONIBILI VARIABILE TARGET: PRIMO_PV DISTRIBUZIONE ASIMMETRICA DELLA VARIABILE TARGET

(94,6% SI, 5,4% NO)

CAMPIONAMENTO DELLA CAMPIONAMENTO DELLA VARIABILE NELLA PROPORZIONE VARIABILE NELLA PROPORZIONE DI 80% E 20%DI 80% E 20%

NUMERO DI OSSERVAZIONI: 1950 SUDDIVISIONE DEL CAMPIONE IN TRAINING SET

E VALIDATION SET (80% - 20%)

Page 9: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI

Numero di nodi terminali: 4

Tasso di corretta classificazione sul validation set: 89,49%

VARIABILI CONSIDERATE: TUTTE

Page 10: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: TUTTE

Page 11: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI

Numero segmento

Descrizione Frequenza relativa

Coop primo_pv: SI (freq. rel.)

Segmento 3 Frequentanti altre insegne: non soci 8,2% 100,0%

Segmento 4 Dato mancante 21,7% 93,2%

Segmento 1 Frequentanti insegna Coop 62,7% 81,8%

79,7%

Segmento 2 Frequentanti altre insegne soci 7,4% 0,0%

% SI (training set)

In termini relativi predomina chi frequenta insegne Coop

In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne

VARIABILI CONSIDERATE: TUTTE

Page 12: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI

Confusion Matrix Valori previsti Valori osservati SI NO Totale

SI 317 0 317NO 41 32 73

Totale 358 32 390

Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati

PRIMO PV - VARIABILI CONSIDERATE TUTTE

Nessun frequentatore di Coop come “Primo PV” è malclassificato

Page 13: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI

Il tasso di corretta classificazione risulta costante

VARIABILI CONSIDERATE: SODDISFAZIONE

Page 14: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI

NESSUNA SEGMENTAZIONE

VARIABILI CONSIDERATE: SODDISFAZIONE

Page 15: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI

Numero di nodi terminali: 4

Tasso di corretta classificazione sul validation set: 89,49%

VARIABILI CONSIDERATE: “COOP”

Page 16: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: “COOP”

Page 17: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI

Numero segmento

Descrizione Frequenza relativa

Coop primo_pv: SI (freq. rel.)

Segmento 3 Frequentanti altre insegne: non soci 8,2% 100,0%

Segmento 4 Dato mancante 21,7% 93,2%

Segmento 1 Frequentanti insegna Coop 62,7% 81,8%

79,7%

Segmento 2 Frequentanti altre insegne soci 7,4% 0,0%

% SI (training set)

In termini relativi predomina chi frequenta insegne Coop

In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne

VARIABILI CONSIDERATE: “COOP”

Page 18: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI

Confusion Matrix Valori previsti Valori osservati SI NO Totale

SI 317 0 317NO 41 32 73

Totale 358 32 390

Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati

PRIMO PV - VARIABILI CONSIDERATE TUTTE

Nessun frequentatore di Coop come “Primo PV” è malclassificato

Page 19: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE

Il tasso di corretta classificazione risulta costante fino alla foglia 8 e poi decresce

Page 20: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI

NESSUNA SEGMENTAZIONE

VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE

Page 21: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI

RISULTATI UGUALI PER I MODELLI “COOP” E “PPVTUTTE”

LE VARIABILI DEMOGRAFICHE E SODDISFAZIONE NON GENERANO PARTIZIONI SIGNIFICATIVE

CONFRONTO TRA MODELLI

Page 22: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

PRIMO LIVELLO DI ANALISI

FIT STATISTICS TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATIONAVERAGE SQUARED ERROR 0,070 0,065 0,160 0,152 0,070 0,065 0,160 0,152SUM OF SQUARED ERROR 216,100 50,686 505,170 118,872 216,100 50,686 505,170 118,872MISCLASSIFICATION RATE 0,100 0,095 0,200 0,187 0,100 0,095 0,200 0,187

SODDISFAZIONE DEMOGRAFICHECOOPTUTTE

TASSO DI ERRATA CLASSIFICAZIONE MIGLIORE: 9,5% ( VARIABILI “TUTTE” E “COOP” )

CONFRONTO TRA MODELLI

Page 23: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

CONCLUSIONI: primo livello

Le variabili COOP sono quelle che generano la segmentazione migliore;

le variabili socio-demografiche e quelle di soddisfazione non sono utili ai fini della segmentazione per la variabile target primo_pv;

i soci scelgono COOP come primo punto vendita e tendono a frequentare l’insegna COOP;

coloro che frequentano altre insegne sono prevalentemente i non soci anche se scelgono COOP come primo punto vendita;

PRIMO PV

Page 24: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SCHEMA DEL PROGETTO

Page 25: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

VARIABILE TARGET: CANALE CREAZIONE NUOVO DATASET CONTENENTE SOLO

LA MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV DISTRIBUZIONE QUASI SIMMETRICA DELLA

VARIABILE TARGET : IPER 31,28% NON IPER 47,82% MISSING 20,90%

NUMERO DI OSSERVAZIONI: 1560

Page 26: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

Numero di nodi terminali: 5

Tasso di corretta classificazione sul validation set: 72,24%

VARIABILI CONSIDERATE: TUTTE

Page 27: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

VARIABILI CONSIDERATE: TUTTE

Page 28: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

Segmento più numeroso risulta essere quello della zona Romagna-Marche

Prevale il canale non Iper in Veneto ed in Romagna-Marche (intero campione 59%);

Segmentazione della zona di Bologna anche in base alla soddisfazione per l’assortimento

canale Iper in caso di soddisfazione alta o media dell’assortimento

Canale non Iper in caso di soddisfazione bassa dell’assortimento

VARIABILI CONSIDERATE: TUTTE

Numero segmento Descrizione Frequenza

relativa

Non iper (freq. rel.)

Segmento 5 Veneto 15.26% 84,0%

Segmento 4 Romagna - Marche 31,5% 73,0%

Segmento 3 Bologna - soddisf. assortimento bassa 17,6% 70,0%

Segmento 2 Bologna - soddisf. assortimento media 17,8% 43,0%

Segmento 1 Bologna - soddisf. assortimento alta 17,8% 19,0%

Page 29: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

Confusion Matrix Valori previsti Valori osservati IPER NON IPER Totale

IPER 44 41 85NON IPER 27 133 160

Totale 71 174 245

Il 17% dei frequentatori “Non Iper” è malclassificato

CANALE - VARIABILI CONSIDERATE “TUTTE”

SECONDO LIVELLO DI ANALISI: CANALE

Il 48% dei frequentatori “Iper ” è malclassificato

Page 30: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

VARIABILI CONSIDERATE: SODDISFAZIONE

Numero di nodi terminali: 7

Tasso di corretta classificazione sul validation set: 68,98%

Page 31: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

VARIABILI CONSIDERATE: SODDISFAZIONE

Page 32: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

VARIABILI CONSIDERATE: SODDISFAZIONE Nel canale non Iper si

registra una prevalenza di soddisfazione bassa per l’assortimento ma alta per il personale

Al contrario nel canale Iper la soddisfazione per il personale è più bassa e quella per il pesce è più alta

Numero segmento Descrizione Frequenza

relativa

Non iper (freq. rel.)

Segmento 7 Soddisf. pesce - Missing 35,8% 81,0%

Segmento 3S. pesce medio-bassa/ S. ass.

media/ S. pers. alta3,7% 68,0%

Segmento 6Soddisf. pesce medio-

bassa/ Soddisf. assort. bassa

15,3% 65,0%

59,0%

Segmento 4S. pesce medio-bassa/ S. ass.

media/ S. pers. media10,1% 50,0%

Segmento 1 Soddisf. pesce alta 19,4% 40,0%

Segmento 5S. pesce medio-bassa/ S. ass.

media/ S. pers. bassa5,3% 37,0%

Segmento 2Soddisf. pesce medio-

bassa/ Soddisf. assort. alta

10,4% 29,0%

% Non Iper (training set)

Page 33: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

Confusion Matrix Valori previsti Valori osservati IPER NON IPER Totale

IPER 46 39 85NON IPER 37 123 160

Totale 83 162 245

Il 23% dei frequentatori “Non Iper” è malclassificato

CANALE - VARIABILI CONSIDERATE “SODDISFAZIONE”

SECONDO LIVELLO DI ANALISI: CANALE

Il 46% dei frequentatori “Iper ” è malclassificato

Page 34: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

Numero di nodi terminali: 5

Tasso di corretta classificazione sul validation set: 68,98%

VARIABILI CONSIDERATE: “COOP”

Page 35: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

VARIABILI CONSIDERATE: “COOP”

Page 36: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

Il nodo più numeroso risulta quello dei frequentatori dell’insegna Coop dell’area di Bologna (dove prevale Iper)

Numero segmento

Descrizione Frequenza relativa

Non iper (freq. rel.)

Segmento 3 Bologna - insegna missing 3,1% 94,0%

Segmento 5 Veneto 15,3% 84,0%

Segmento 4 Romagna - Marche 31,5% 73,0%

59,0%Segmento 1 Bologna - altre

insegne 6,1% 58,0%

Segmento 2 Bologna - insegna Coop 44,0% 38,0%

% Non Iper (training set)

VARIABILI CONSIDERATE: “COOP”

Tra coloro che frequentano altre insegne nell’area di Bologna prevale il canale non Iper così come in Romagna-Marche e Veneto

Page 37: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

Confusion Matrix Valori previsti Valori osservati IPER NON IPER Totale

IPER 55 30 85NON IPER 46 114 160

Totale 101 144 245

Il 29% dei frequentatori “Non Iper” è malclassificato

CANALE - VARIABILI CONSIDERATE “COOP”

SECONDO LIVELLO DI ANALISI: CANALE

Il 35% dei frequentatori “Iper ” è malclassificato

Page 38: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE

Numero di nodi terminali: 6

Tasso di corretta classificazione sul validation set: 68,98%

Page 39: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE

Page 40: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

Il nodo più numeroso risulta quello della zona Romagna-Marche

In Veneto, Romagna – Marche e a Bologna (tra coloro che sono in possesso di un basso titolo di studio e con un solo componente in famiglia, quindi, presumibilmente, gli anziani) prevale il canale Non Iper

Nell’area di Bologna, in famiglie con 3 componenti e basso titolo di studio così come tra coloro che hanno un titolo più alto, prevale il canale Iper

VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE

Numero segmento Descrizione Frequenza

relativa

Non iper (freq. rel.)

Segmento 6 Veneto 15,3% 84,0%

Segmento 5 Romagna - Marche 31,5% 73,0%

Segmento 4Bologna - ele/ inf - 1

compo. 2,8% 64,0%

59,0%

Segmento 3Bologna - ele/ inf - 2, >3 compo.

18,6% 53,0%

Segmento 1 Bologna - sup/ univ 23,3% 37,0%

Segmento 2Bologna - ele/ inf - 3

compo. 8,5% 35,0%

% Non Iper (training set)

Page 41: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

Confusion Matrix Valori previsti Valori osservati IPER NON IPER Totale

IPER 40 45 85NON IPER 31 129 160

Totale 71 174 245

Il 19% dei frequentatori “Non Iper” è malclassificato

CANALE - VARIABILI CONSIDERATE “SOCIO-DEMO”

SECONDO LIVELLO DI ANALISI: CANALE

Il 53% dei frequentatori “Iper ” è malclassificato

Page 42: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: CANALE

RISULTATI SIMILI PER I MODELLI

TUTTI MODELLI RISULTANO MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE

CONFRONTO TRA MODELLI

Page 43: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI:CANALE

VARIABILE "CANALE"FIT STATISTICS TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATIONAVERAGE SQUARED ERROR 0,4359 0,4390 0,4502 0,4540 0,4499 0,4434 0,4566 0,4484SUM OF SQUARED ERROR 375,91 94,43 400,87 101,02 400,42 96,35 412,46 98,51MISCLASSIFICATION RATE 0,272 0,278 0,309 0,310 0,303 0,310 0,323 0,310

SODDISFAZIONE DEMOGRAFICHECOOPTUTTE

CONFRONTO TRA MODELLI

IL MODELLO MIGLIORE E’ QUELLLO CHE CONSIDERA TUTTE LE VARIABILI (TASSO DI ERRATA CLASSIFICAZIONE 27,8%) ANCHE SE LE DIFFERNZE NON SONO COSI’ EVIDENTI

Page 44: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

CONCLUSIONI: CANALE

La segmentazione migliore è quella che utilizza tutte le variabili;

il campione iniziale è segmentato in base alla variabile zona e soddisfazione per l’assortimento;

in Veneto ed in Romagna-Marche prevale il canale non Iper ;

nella zona di Bologna predomina il canale non Iper in caso di soddisfazione bassa dell’assortimento e il canale Iper in caso di soddisfazione alta o media dell’assortimento

Page 45: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: SOCIO

VARIABILE TARGET: SOCIO SELEZIONE DELLE OSSERVAZIONI CON MODALITA’

“SI’” PER LA VARIABILE PRIMO_PV DISTRIBUZIONE SIMMETRICA DELLA VARIABILE

TARGET: SI’ 50,90% NO 49,10%

NUMERO DI OSSERVAZIONI: 1560

Page 46: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: SOCIO

Numero di nodi terminali: 2

Tasso di corretta classificazione sul validation set: 88,78%

VARIABILI CONSIDERATE: TUTTE

Page 47: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: SOCIO

VARIABILI CONSIDERATE: TUTTE

Page 48: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: SOCIO

Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop

Numero segmento

Descrizione Frequenza relativa

Socio: SI (freq. rel.)

Segmento 1 insegna Coop 62,7% 80,0%

50,0%

Segmento 2 Altre insegne 37,3% 0,0%

% Soci (training set)

VARIABILI CONSIDERATE: TUTTE

Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set

chi frequenta altre insegne non è socio

Page 49: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

Confusion Matrix Valori previsti Valori osservati NO SI Totale

NO 107 35 142SI 0 170 160

Totale 107 205 312

Nessun “Socio” è malclassificato

SOCIO - VARIABILI CONSIDERATE “TUTTE”

SECONDO LIVELLO DI ANALISI: SOCIO

Il 25% dei “Non Soci” è malclassificato

Page 50: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: SOCIO

VARIABILI CONSIDERATE: SODDISFAZIONE

Numero di nodi terminali: 3

Tasso di corretta classificazione sul validation set: 78,21%

Page 51: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: SOCIO

VARIABILI CONSIDERATE: SODDISFAZIONE

Page 52: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: SOCIO

Numero segmento

Descrizione Frequenza relativa

Socio: SI (freq. rel.)

Segmento 1 Soddisf. generale alta-media 56,7% 70,4%

Segmento 2 Soddisf. generale bassa 19,4% 50,0%

50,0%Segmento 3 Valori mancanti 24,0% 1,7%

% Soci (training set)

VARIABILI CONSIDERATE: SODDISFAZIONE Il nodo più numeroso

risulta quello dei clienti con soddisfazione generale medio-alta (56,7%)

Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set cioè i clienti maggiormente soddisfatti sono i soci

Page 53: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

Confusion Matrix Valori previsti Valori osservati NO SI Totale

NO 76 66 142SI 2 168 170

Totale 78 234 312

L’1% dei “Soci” è malclassificato

SOCIO - VARIABILI CONSIDERATE “SODDISFAZIONE”

SECONDO LIVELLO DI ANALISI: SOCIO

Il 21% dei “Non Soci” è malclassificato

Page 54: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: SOCIO

Numero di nodi terminali: 2

Tasso di corretta classificazione sul validation set: 88,78%

VARIABILI CONSIDERATE: “COOP”

Page 55: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: SOCIO

VARIABILI CONSIDERATE: “COOP”

Page 56: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: SOCIO

VARIABILI CONSIDERATE: “COOP”

Numero segmento

Descrizione Frequenza relativa

Socio: SI (freq. rel.)

Segmento 1 insegna Coop 62,7% 80,0%

50,0%

Segmento 2 Altre insegne 37,3% 0,0%

% Soci (training set)

Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop

Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set

chi frequenta altre insegne non è socio

Page 57: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

Confusion Matrix Valori previsti Valori osservati NO SI Totale

NO 107 35 142SI 0 170 170

Totale 107 205 312

Nessun “Socio” è malclassificato

SOCIO - VARIABILI CONSIDERATE “COOP”

SECONDO LIVELLO DI ANALISI: SOCIO

Il 25% dei “Non Soci” è malclassificato

Page 58: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: SOCIO

VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE

Il tasso di corretta classificazione sul validation set è massimo in corrispondenza di un nodo terminale

Page 59: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: SOCIO

NESSUNA SEGMENTAZIONE

VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE

Page 60: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI: SOCIO

I MODELLI MIGLIORI SONO ALL_SOCIO E COOP_SOCIO

TUTTI MODELLI RISULTANO NETTAMENTE MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE

CONFRONTO TRA MODELLI

Page 61: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

SECONDO LIVELLO DI ANALISI:SOCIO

I MODELLI MIGLIORI SONO QUELLI CHE CONSIDERANO TUTTE LE VARIABILI E LE VARIABILI “COOP” CON UN TASSO DI ERRATA CLASSIFICAZIONE DEL 11,2% . TALE TASSO E’ SOSTANZIALMENTE INFERIORE AL 45,5% DEL MODELLO CHE CONSIDERA LE VARIABILI SOCIO-DEMOGRAFICHE

VARIABILE"SOCIO"FIT STATISTICS TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATIONAVERAGE SQUARED ERROR 0,3186 0,3061 0,4128 0,3946 0,3186 0,3061 0,2500 0,2500SUM OF SQUARED ERROR 253,43 58,48 425,27 97,16 253,43 56,48 624,00 156,00MISCLASSIFICATION RATE 0,127 0,112 0,268 0,218 0,127 0,112 0,500 0,455

SODDISFAZIONE DEMOGRAFICHECOOPTUTTE

CONFRONTO TRA MODELLI

Page 62: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

CONCLUSIONI: SOCIO

Si ripetono gli stessi risultati ottenuti nel primo livello di analisi (ovvero le variabili COOP permettono la migliore segmentazione); anche in questo caso le variabili socio-demografiche non sono utili ai fini della segmentazione;

chi frequenta l’insegna COOP, nella stragrande maggioranza dei casi, è socio;

chi frequenta altre insegne non lo è; I soci esprimono una soddisfazione generale medio-alta

Page 63: ANALISI DI SEGMENTAZIONE:  un’applicazione del metodo  CHAID

FINE