Benharratharijtp4 arbre de décision

Data Mining

1 Mohamed Heny SELMI©

data-mining@esprit.tn ESPRIT 2013-2014

TP n°4 : Les Arbres de Décision

Ben harrath arij 4INFINI

Ce TP est à rendre en fin de séance.

Objectifs :

Comprendre l’Apprentissage Supervisé à travers la construction des Arbres de Décisions

I. Construction d'un Arbre de Décision pour un « Jeu de Tennis» avec R Source : http://www.grappa.univ-lille3.fr/~ppreux/ensg/miashs/fouilleDeDonneesI/tp/arbres-de-decision/

Objectif : Construire un Arbre de Décision à partir de données climatiques, afin de

prédire si on pourra jouer au Tennis ou non. 1. Chargement de la bibliothèque :

Pour pouvoir construire des arbres de décision, on va utiliser la bibliothèque « rpart » de l'environnement R. Il faut tout d'abord la rendre accessible. Pour cela, on tape la commande suivante :

2. Importation de données :

On commence par charger le jeu de données « Tennis1.txt ». Pour ce faire, placer cet entrepôt de données

dans un data frame ‘Tennis’ :

library (rpart)

télécharger le package rpart « Partitionnement récursif pour les arbres de classification, régression et

de survie »

téééééééaa

setwd("C:\TP4”)

tennis1<-read.table(file="tennis1.txt", row.names=1, header=T)

Data Mining

La colonne « jouer » est la variable décisionnelle

3. Construction et Visualisation de l’arbre de décision : i. Les commandes suivantes permettent de construire l'arbre de décision. Tout d'abord, on doit spécifier

quelques paramètres qui précisent comment l'arbre de décision doit être construit. On tape la

commande suivante :

La variable ad.tennis.cnt stocke les paramètres de l'algorithme.

minsplit = 1 signifie que le nombre minimal d'exemples nécessaires à la création d'un nœud est 1. La valeur par défaut

est 20. Comme le jeu de données contient moins de 20 exemples, utiliser la valeur par défaut ne produirait pas d'arbre

du tout, juste une racine !

Le nom utilisé pour cette variable, ad.tennis.cnt suit la convention R : il indique qu'il s'agît d'un arbre de décision (préfixe

ad), pour le jeu de tennis (tennis !) et qu'il s'agît des paramètres de contrôle (cnt) ; des points (.) séparent ces différentes

informations.

On va construire l'arbre de décision en indiquant :

l'attribut qui représente la variable cible à prédire : ‘la classe : Jouer’ les attributs qui doivent être utilisés pour effectuer cette prédiction (pour l'instant, ce seront les 4 autres attributs :

Ciel, Température, HumiditéetVent)

l’entrepôt de données avec lequel on construit l'arbre : Tennis le nom de la variable qui contient les paramètres : control = ad.tennis.cnt

ad.tennis.cnt<- rpart.control (minsplit = 1)

ad.tennis<- rpart (Jouer ~ Ciel+ Température +Humidité + Vent, tennis1, control = ad.tennis.cnt)

Data Mining

La représentation graphique des Arbres de Décision avec R a deux formes : Représentation Textuelle et

Représentation Graphique.

Concernant le premier type de visualisation, l’arbre est donné sous forme de lignes imbriquées dont chacune

correspondant à une classe séparatrice. R distingue une variable séparatrice majoritaire (nœud feuille) des

classes non majoritaires par le caractère « * »

ii. Afficher le résultat de la construction sous forme de texte:

iii. Afficher le résultat de la construction sous forme graphique :

NB : on utilisera les deux commandes plot et text

La décision commence en testant sur la température il y a 4 non et 0 oui la probabilité de cas non est 1 donc

c’est une décision

Data Mining

plot(ad.tennis)

text(ad.tennis)

Modalisation des décisions on remarque l’absence de la variable vent car elle n’est pas décisive

plot (ad.tennis, branch=.2, uniform=T, compress=T, margin=.1)

text (ad.tennis, all=T, use.n=T, fancy=T)

Data Mining

printcp(ad.tennis)

plotcp(ad.tennis)

tracer les résultats de validation croisée et Affiche la table de cp pour objet rpart équipée.

Ici, il semble que l'erreur relative est réduite au minimum pour un arbre de 5 nœuds. Nous reviendrons l'arbre élagué aux

pruneaux et le cp associée à la taille de notre arbre désiré

Data Mining

4. La prédiction de la classe d'une donnée par un arbre de décision i. La fonction predict() utilise un arbre de décision pour prédire la classe de nouvelles données. Elle prend en

paramètres l'arbre et un data frame qui contient les données dont il faut prédire la classe. Pour prédire la classe

des données du jeu d'exemples (avec lesquels on a construit l'arbre de décision), on tapera la commande :

ii. Utilisez l'arbre pour donner une prédiction pour l’entrepôt de données « Tennis2.txt »

tennis2<-read.table(file="tennis2.txt", row.names=1, header=T)

tennis2

predict(ad.tennis,tennis2)

Nous constatons que la prédiction utiliser à travers le model d’arbre de l’entrepôt tennis 1 a pu prédire les

conditions de jouabilité dans l’entrepôt tennis 2 avec la même erreur distinguable précédemment c’est-à-dire

lorsque l’humidité est élevé, le vent est fort, la température est basse la jouabilité dans la prédiction est supposé

être valide.

Data Mining

II. Construction d’un modèle de classement à partir d’un arbre de décision

pour les demandes de crédits

Objectif : Construire un Arbre de Décision à partir de données sur des clients d’une

banque afin de prendre une décision concernant l’acceptation ou le refus d’une

demande de crédit.

La décision est décrite par une variable qualitative Decision, ayant trois modalités :

accepted, tolerated, ou refused, ce dernier cas ne sera pas pris en considération lors de

la prise de décision par le modèle construit

1. Chargement de la bibliothèque : Pour pouvoir construire des arbres de décision, on va utiliser la

bibliothèque « rpart » de l'environnement R. Il faut tout d'abord la rendre accessible. Pour cela, on

tape la commande suivante :

2. Importation de données : On commence par charger le jeu de données « ScoreData.xls». Pour ce faire,

placer cet entrepôt de données dans un data frame ‘score’ :

4. Construction de l'arbre de décision : l'attribut qui représente la variable cible à prédire : ‘Decision’ les attributs qui doivent être utilisés pour effectuer cette prédiction (pour l'instant, ce seront tous les autres

attributs : ‘.’)

l’entrepôt de données avec lequel on construit l'arbre : score

#chargement des données : échantillon d’apprentissage

Library(xlsReadWrite)

score.app<-read.xls(file=file.choose(),sheet=1)

ad.score.cnt<- rpart.control (minsplit = 10)

#importation de library

Library(rpart)

Data Mining

le nom de la variable qui contient les paramètres : control = ad.score.cnt

La représentation graphique des Arbres de Décision avec R a deux formes : Représentation Textuelle et

Représentation Graphique.

Concernant le premier type de visualisation, l’arbre est donné sous forme de lignes imbriquées dont chacune

correspondant à une classe séparatrice. R distingue une variable séparatrice majoritaire (nœud feuille) des

classes non majoritaires par le caractère « * »

Afficher le résultat de la construction sous forme de texte:

Afficher le résultat de la construction sous forme graphique :

NB : on utilisera les deux commandes plot et text

ad.score<- rpart (Decision ~., score.app, control = ad.score.cnt)

Résultat

plot(ad.score)

text(ad.score)

Data Mining

La racine de neud d’erreur est 0.4664

Data Mining

tracer les résultats de validation croisée

5. Evaluation de l’arbre de décision

i. Prédiction sur le même échantillon

La fonction predict() utilise un arbre de décision pour prédire la classe de nouvelles données. Elle prend en

paramètres l'arbre et un data frame qui contient les données dont il faut prédire la classe. Pour prédire la classe

des données du jeu d'exemples (avec lesquels on a construit l'arbre de décision), on tapera la commande :

#prédiction sur le même échatillon

pred.classe<- predict(ad.score,score.app,type="class")

print(summary(pred.classe))

plot(pred.classe)

Il s’agit de 44 accepted et82 Refused et 23 Torlerated

Data Mining

Matrice de de Confusion (Table de Contingence)

Cette matrice construit un tableau croisé entre la cible observée (Decision) et la prédiction du modèle (pred.classe)

La table mc se comporte comme une matrice à 2 dimensions, on en déduit le taux d’erreur

En déduire les pourcentages suivants :

Les Classes de Prédiction

Accepted Refused Tolerated

Accepted 40 3 1

Refused 2 72 1

Tolerated 2 7 21

#matrice de confusion

mc <- table(score.app$Decision,pred.classe)

print(mc)

plot(mc)

Data Mining

ii. Calcul du taux de l’erreur :

Calculer le taux d’erreur en appliquant la formule suivante :

erreur = Somme des éléments hors diagonale principale / Nombre total des observations.

iii. Utilisez l'arbre pour donner une prédiction pour l’échantillon du test

6. La prédiction de la classe d'une donnée par un arbre de décision

Prédiction sur un échantillon de test (2ème feuille du fichier ScoreData.xls)

Utilisez l'arbre pour donner une prédiction pour l’échantillon de test

7. Modification des paramètres de construction de l’arbre :

i. Décrire l’utilité de la fonction rpart.control :

#taux d'erreur

TauxErreur<- (mc[2,1]+mc[1,2])/sum(mc)

score<-read.xls(file=file.choose(),sheet=2)

> pred.classe<- predict(ad.score,score,type="class")

Résultat et interprétation

Dans la prédiction de l’échantillon test nous obtenons les différent cas ainsi que la décision prise au niveau de 3

différents résultats : accepté, refusé ou toléré. Ceci décidé à travers l’arbre de décision établi c’est-à-dire :

ad.score.

Il permet donc d’automatiser la prise d’accords, refus ou tolérance de crédit pour les différents clients.

Il permet de contrôler les différents aspects en fonction d’une segmentation de nombre de lignes décrite par le

paramètre minsplit et d’ajuster les modèles.

Data Mining

ii. En fixant les paramètres suivants, donner le nouvel arbre de décision :

Minsplit = taille minimale pour segmenter = 50 Minbucket = effectif d’admissibilité = 20

8. Utilisation du package « tree » :

Paramètres d’apprentissage : nobs = nombre d’obs. dans l’éch. d’apprentissage ; mincut = effectif d’admissibilité, minsize = taille min. pour segmenter Apprentissage : classe vs. toutes les autres variables du data.frame

control<- rpart.control( minsplit = 50 , minbucket = 20 )

Aad.score<- rpart (Decision ~., score.app, control = control)

print(Aad.score)

library (tree )

cnt<- tree.control(nobs=nrow(score.app), mincut=20, minsize=50) Arb<- tree(Decision ~ ., data=score.app,control=cnt) print(Arb)

Data Mining

9. Utilisation du package « party » :

Travail demandé : 1. Construire des modèles de prise décision sur les entrepôts de données :

Faillite_entrep

credit-german

2. Donner un rapport sur chaque modèle

library(party)

party <- ctree_control(minsplit=20,minbucket=10)

arbre<- ctree(Decision ~ ., score.app, controls= party) plot(arbre)

Data Mining

Faillite_entrep

> library (rpart)

> Faillite<-read.table(file="Faillite_entrep.txt", row.names=1, header=T)

Notre variable de décision est ET

ad.Faillite.cnt<- rpart.control (minsplit = 1)

ad.Faillite <- rpart (ET ~., Faillite, control = ad.Faillite.cnt)

On constate que la prise de décision commence si F est 0 donc la probabilité de F est 1

plot (ad.Faillite, branch=.2, uniform=T, compress=T, margin=.1)

text (ad.Faillite, all=T, use.n=T, fancy=T)

Data Mining

L’erreur de nœud de decision est 0.45652

La taille de l'arbre est réalisée avec la validation croisée comme avant, où le taux d'erreur relative de «chute» les échantillons

hors-sac dans l'arborescence existante est tracée avec erreurs types pour chaque groupe

Data Mining

La modalisation de l’arbre de Faillite des entreprises

Data Mining

> summary(ad.Faillite)

rpart(formula = ET ~ ., data = Faillite, control = ad.Faillite.cnt)

CP nsplit rel error xerror xstd

1 0.76190476 0 1.0000000 1.1904762 0.1608724

2 0.09523810 1 0.2380952 0.5714286 0.1418182

3 0.04761905 2 0.1428571 0.4761905 0.1332150

4 0.02380952 3 0.0952381 0.3809524 0.1224161

5 0.01000000 7 0.0000000 0.4285714 0.1281221

Node number 1: 46 observations, complexity param=0.7619048

predicted class=NF expected loss=0.4565217

class counts: 21 25

probabilities: 0.457 0.543

left son=2 (20 obs) right son=3 (26 obs)

Primary splits:

AD < 1.74 to the left, improve=13.918390, (0 missing)

FD < 0.075 to the left, improve=12.403230, (0 missing)

RA < 0.035 to the left, improve= 9.782609, (0 missing)

AV < 0.695 to the right, improve= 1.895854, (0 missing)

Surrogate splits:

FD < 0.075 to the left, agree=0.848, adj=0.65, (0 split)

RA < 0.035 to the left, agree=0.848, adj=0.65, (0 split)

AV < 0.265 to the left, agree=0.674, adj=0.25, (0 split)

predicted class=F expected loss=0.1

class counts: 18 2

Data Mining

Primary splits:

RA < 0.06 to the left, improve=0.7111111, (0 missing)

AD < 0.585 to the right, improve=0.7111111, (0 missing)

AV < 0.27 to the right, improve=0.6000000, (0 missing)

class counts: 3 23

Primary splits:

AV < 0.695 to the right, improve=1.6276920, (0 missing)

Node number 4: 18 observations

predicted class=F expected loss=0

class counts: 18 0

predicted class=NF expected loss=0

class counts: 0 2

class counts: 1 0

Data Mining

class counts: 2 23

Primary splits:

AD < 2 to the left, improve=1.2800000, (0 missing)

AV < 0.39 to the left, improve=0.4800000, (0 missing)

RA < 0.105 to the right, improve=0.1185965, (0 missing)

FD < 0.145 to the right, improve=0.1010526, (0 missing)

class counts: 2 3

Primary splits:

AD < 1.86 to the right, improve=1.066667, (0 missing)

Surrogate splits:

RA < 0.075 to the right, agree=0.8, adj=0.5, (0 split)

AV < 0.34 to the left, agree=0.8, adj=0.5, (0 split)

class counts: 0 20

class counts: 2 1

Data Mining

Primary splits:

class counts: 0 2

class counts: 1 0

class counts: 1 1

Primary splits:

FD < 0.285 to the right, improve=1, (0 missing)

RA < 0.095 to the right, improve=1, (0 missing)

AV < 0.34 to the right, improve=1, (0 missing)

class counts: 1 0

Data Mining

class counts: 0 1

library (tree )

cnt<- tree.control(nobs=nrow(Faillite,), mincut=20, minsize=50) Arb<- tree(ET ~ ., data= Faillite,,control=cnt) print(Arb)

library(party)

party <- ctree_control(minsplit=20,minbucket=10)

arbre<- ctree(ET ~ ., Faillite,,, controls= party) plot(arbre)

Data Mining

credit-german

Data Mining

credit<-read.table(file="credit-german.txt",sep="\t",header=T)

ad. credit. cnt<- rpart.control (minsplit = 1)

ad. credit <- rpart (class ~., credit, control = ad.credit.cnt

plot (ad. credit, branch=.2, uniform=T, compress=T, margin=.1)

text (ad. credit, all=T, use.n=T, fancy=T)

Data Mining

plot (ad. credit)

text (ad. credit)

L’erreur de nœud de décision est 0.3

La taille de l'arbre est réalisée avec la validation croisée comme avant, où le taux d'erreur relative de «chute» les échantillons

hors-sac dans l'arborescence existante est tracée avec erreurs types pour chaque groupe

Data Mining

library (tree )

cnt<- tree.control(nobs=nrow(credit), mincut=20, minsize=50) Arb<- tree(class ~ ., data= credit,control=cnt) print(Arb)

Data Mining

Benharratharijtp4 arbre de décision

Data & Analytics

Transcript of Benharratharijtp4 arbre de décision

ANALYSE SPATIALE DES CONDITIONS … · Figure 29 : exemple de segmentation erronée sur le DJMA avec C4.5 ... Figure 32 : Arbre de décision du modèle prédictif de la présence

Les arbres de décision (decision trees)lomn/Cours/DM/Material/Complement... · LINF2275 Arbre de Décision 1 Les arbres de décision (decision trees) Christine Decaestecker, ULB

Arbre de causes

Algorithmesd'apprentissage - Bienvenue à l'IRIFkesner/enseignement/iup/cours71.pdf · jusqu'à obtenir un arbre de décision Fin 44. ProgrammationLogiqueetIA P.HabermehletD.Kesner

Les Forêts Aléatoires Floues - Depot institutionnel de l ...dspace.univ-tlemcen.dz/bitstream/112/5290/1/Les_Forets_Aleatoires... · orêtF aléatoire, arbre de décision, logique

Pocédue de demande d’autoisation de captue de hioptèes en ... · motalité anomale des hioptèes (SMA ) de l’OF (ex -ONCFS). Un arbre de décision pour présenter les difféentes

Participation de l’IRISA à DEFT · Tâche 1 : arbres de décision et boosting Outline 1 Tâche 1 : arbres de décision et boosting Pré-traitement des données Arbre de décision

Arbre de décision

Arbre de Defaillance

Rapport final arbre de décision - orbi.uliege.be final arbre... · Questionnaire de terrain ... De façon générale, dans de nombreux pays, le taux de plaintes relatives aux odeurs

Statistiques avec R 3/4 - Machine Learning/Data Mining · Avantages des arbres de décision (CART, ID3, C4.5/J48, ... • Chaque arbre (de profondeur maximale) est construit à partir

Algorithmes parallèles pour la classification de grands ...cedric.cnam.fr/~crucianm/src/echelle/FPoulet.pdf · remplace chaque coupe arbre de décision par SVM linéaire, "arbre

Arbre de décision bianire et RF 2013

RdF – Reconnaissance des Formes Semaine 10 : arbres de ...master-ivi.univ-lille1.fr/fichiers/Cours/rdf-semaine-10-arbresDe... · un arbre de décision le plus petit possible (principe

APPRENTISSAGE AVEC ARBRE DE DÉCISION

Rapport dabaMining final - Laboratoire de Recherche …antoine/Courses/Master-ISI/ISI-10/Projets_2012/... · Arbre de décision(C4.5) SVM Apres l’application de l’algorithme j’applique

Data Miningpagesperso.univ-brest.fr/~bounceur/ecole_riir/presentations_pdf/... · - C4.5 - CART - CHAID - ... Arbre de décision obtenu avec ID3 32. École d’Hiver sur les applications

M1 - Management Stratégique & Economie de l ...rabdesse/Documents/UFR-SEG/MASTER/M… · Regression Tree, et C4.5. 2. Segmentation ... Arbre de décision ( Régression ) Description

Classiﬁcation faiblement supervisée : arbre de décision ...

Classification dans des bases de données par des ...cernierg.free.fr/CV/projets/rapportDataMining.pdf · L’élagage d’un arbre de décision consiste à chercher une valeur optimale