Projet de Data Mining - CEREMADE

46
Projet de Data Mining Séverine CASTOR 9 Mai 2006 Pïerre-Antoine PENEL Projet de Data Mining Coupe du monde de football 1998 Master 2 ISF Page 1 sur 46

Transcript of Projet de Data Mining - CEREMADE

Page 1: Projet de Data Mining - CEREMADE

Projet de Data Mining

Séverine CASTOR 9 Mai 2006 Pïerre-Antoine PENEL

Projet de Data Mining Coupe du monde de football 1998

Master 2 ISF Page 1 sur 46

Page 2: Projet de Data Mining - CEREMADE

Projet de Data Mining

Table des matières

INTRODUCTION 4

1. PRESENTATION 5

1.1. LE DATA MINING 5 1.1.1. PRINCIPES ET FONCTIONNALITES 5 1.1.2. UN GRAND SUCCES 5 1.1.3. DOMAINES ET EXEMPLES D’APPLICATION 5 1.2. LE LOGICIEL SODAS 7

2. CREATION DE LA BASE DE DONNEES 8

2.1. SCHEMA RELATIONNEL 8 2.2. DESCRIPTION DES TABLES 9 2.3. REQUETES 10

3. REALISATION DE NOTRE ETUDE AVEC SODAS 11

3.1. IMPORTATION DES DONNEES 11 3.1.1. REQUETE SELECTJOUEUR 11 3.1.2. REQUETE ADDFOOT 11 3.1.3. REQUETE TAXONOMIE 12 3.1.4. REPRESENTATION DES DONNEES 13 3.2. EXECUTION DES METHODES 14 3.2.1. UTILISATION DE METHODE DE SODAS 14 3.2.2. METHODE SOE 16 3.2.2.1. Présentation de la méthode 16 3.2.2.2. Représentation graphique 16 3.2.2.3. Interprétation 19 3.2.3. METHODE STAT 21 3.2.3.1. Présentation de la méthode 21 3.2.3.2. Représentation graphique 21 3.2.3.3. Interprétation 23 3.2.4. METHODE DIV 25 3.2.4.1. Présentation de la méthode 25 3.2.4.2. Représentation graphique 25 3.2.4.3. Interprétation 27 3.2.5. METHODE SCLUST 29 3.2.5.1. Présentation de la méthode 29 3.2.5.2. Représentation graphique 29 3.2.5.3. Interprétation 30 3.2.6. METHODE PYR 31 3.2.6.1. Présentation de la méthode 31 3.2.6.2. Représentation graphique 31 3.2.6.3. Interprétation 34

4. SYNTHESE 36

Master 2 ISF Page 2 sur 46

Page 3: Projet de Data Mining - CEREMADE

Projet de Data Mining

ANNEXE 37

1. LISTING DE LA METHODE DIV 37 1.1. PAYS_CLUB, CONTINENT_CLUB 37 1.2. NOMBRE DE BUT, NOMBRE DE CARTON 39 2. LISTING DE LA METHODE SCLUST 42

Master 2 ISF Page 3 sur 46

Page 4: Projet de Data Mining - CEREMADE

Projet de Data Mining

Introduction Aujourd'hui toutes les entreprises collectent et stockent de grandes quantités de données. Ces mégabases de données, qui ne cessent d'augmenter jour après jour, sont peu exploitées, alors qu'elles cachent de connaissances décisives face au marché et à la concurrence. Pour combler ce besoin, une nouvelle industrie est en train de naître : le Data Mining Ainsi le Data Mining, aussi connu sous le nom de fouille de données, a pour objet l’extraction d’un savoir à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. Le sujet de ce projet porte donc sur le Data Mining, et nous utiliserons le logiciel SODAS (Symbolic Official Data Analysis System). Notre étude porte en particulier sur les équipes qualifiées lors de la phase finale de la coupe du monde de football 1998. Nous pourrons donc étudier ces données à priori : définir un profil type de joueur, d’équipe, définir des liens entre les deux… , et nous pourrons vérifier les résultats de notre étude à posteriori puisque cet événement s’est déjà déroulé. Ainsi dans une première partie nous définirons plus précisément la notion de Data Mining et le logiciel SODAS, la seconde partie portera sur la création de notre base de données, enfin l’intégralité de notre étude sera décrite dans une troisième partie.

Master 2 ISF Page 4 sur 46

Page 5: Projet de Data Mining - CEREMADE

Projet de Data Mining

1. Présentation

1.1. Le Data Mining

1.1.1. Principes et fonctionnalités La définition stricte du Data Mining est la suivante : un processus non trivial d’identification de structures inconnues, valides et potentiellement exploitables dans les bases de données (Fayyad, 1996). Ainsi le Data Mining est un processus de découverte de règle, relations, corrélations, dépendances à travers une grande quantité de données, grâce à des méthodes statistiques, mathématiques et de reconnaissances de formes. Le Data Mining a une approche très différente de la méthode statistique, en effet cette dernière impose que l’on se fixe une hypothèse, que les données vont confirmer ou non. Diamétralement opposée à cette méthode, le Data Mining fera émerger à partir de données brutes des hypothèses que souvent l’expérimentateur ne soupçonne même pas.

1.1.2. Un grand succès Un exemple largement cité est le suivant : en diminuant le prix du Coca-Cola de 5%, les ventes augmenteront de 15% par exemple, ce que l’on savait sans Data Mining. Cependant le Data Mining mettra en évidence le point suivant ( bien qu’évident à posteriori) : les ventes de cacahuètes vont augmenter d’une proportion voisine ( sans doute déduit de l’idée que si je bois du Coca-Cola, je vais manger aussi des cacahuètes). Ainsi si la marge réalisée sur le Coca-Cola est relativement faible, et celle réalisée sur les cacahuètes plus importantes, la conclusion est évidente : baisser le prix du Coca-Cola est un moyen de vendre des cacahuètes. Or les marges sur les cacahuètes sont souvent plus importantes que sur le Coca-Cola. Par le coté quasi-déterministe qu’elle présente du comportement du consommateur, cette approche provoque quelques réticences, cependant elle fonctionne. Une variante serait de baisser le prix des blinis pour augmenter les ventes de tarama.

1.1.3. Domaines et exemples d’application Les applications du Data Mining sont nombreuses :

• L’analyse comportementale des consommateurs : ventes croisées, similarités de comportements, cartes de fidélité,…

• La prédiction de réponse à un mailing ou à une opération de marketing direct

Master 2 ISF Page 5 sur 46

Page 6: Projet de Data Mining - CEREMADE

Projet de Data Mining

• La prédiction de l’attrition des clients : quels sont les indices de comportements permettant de détecter la probabilité qu’un client a de quitter son fournisseur, sa banque, son opérateur de téléphonie mobile…

• La détection de comportements frauduleux (transactions financières, escroquerie aux assurances, distribution d’énergie…)

• La recherche de critères qui permettront d’établir ensuite un scoring pour repérer les bons clients sans facteur de risque et leur proposer une tansaction adaptée (par exemple pour une banque ou une compagnie d’assurance)

Voici quelques exemples d’application :

• E-commerce (Dell) : o Problème : 50% des clients de DELL achètent leurs machines à travers le site

Web, mais seulement 0,5% des visiteurs du sites deviennent clients. o Solution : stocker les séquences de clics des visiteurs, analyser les

caractéristiques des acheteurs et lors de la visite d’un client potentiel, adapter le contenu du site pour maximiser la probabilité d’un achat.

• E-commerce (Amazon) :

o Opportunité : la liste des achats des clients sont stockées en mémoire et par ailleurs, les utilisateurs du site notent les produits. Comment tirer profit des choix d’un utilisateur pour proposer des produits à un autre client ?

o Solution : technique dit de filtrage collaboratif permettant de regrouper des clients ayant les mêmes goûts.

• Détection de fraudes pour les assurances :

o Analyse des déclarations des assurés par un expert afin d’identifier les cas de fraudes.

o Extraction de caractéristiques à partir de ces déclarations (type d’accident, de blessures, …).

o Applications de méthodes statistiques pour identifier les caractéristiques des déclarations fortement corrélées à la fraude.

• Prêt bancaire :

o Objectif des banques : réduire le risque des prêts bancaires o Créer un modèle à partir de caractéristiques des clients pour discriminer les

clients à risques des autres

• Organisation de rayonnage : o Identifier les produits que les gens sont susceptibles d’acheter conjointement

afin d’organiser les rayonnages o Données : Code Barre des produits. o Méthodes : Extraction de règles o Exemples :

Résultats logiques : les boissons alcoolisés et les biscuits apéritifs sont souvent proches

Résultats étranges : dans une étude américaine, la vente de bière est plus importante si le rayon des couches n’est pas trop loin, et de plus si sur le chemin il y a des chips, cela permet d’augmenter la vente des trois produits.

Master 2 ISF Page 6 sur 46

Page 7: Projet de Data Mining - CEREMADE

Projet de Data Mining

1.2. Le logiciel SODAS Il s'agit d'un logiciel prototype public apte a analyser des données symboliques. Il est issu du projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu pour fournir un cadre aux différentes avancées récentes et futures du domaine. Son idée générale est la suivante : à partir d'une base de données, construire un tableau de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques. Les principales étapes d'une analyse des données dans SODAS, sont les suivantes :

• Partir d'une base de données relationnelle (ORACLE, ACCESS, ...) • Définir ensuite un contexte par :

o des unités statistiques de premier niveau (habitants, familles, entreprises, accidents, ...),

o les variables qui les décrivent o des concepts (villes, groupes socio-économiques, scénario d'accident,...)

Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque habitant est associé à sa ville). Ce contexte est défini par une requête de la base. On construit alors un tableau de données symboliques dont les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associés. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) etc., selon le type de variables et le choix de l'utilisateur. On peut ainsi créer un fichier d'objets symboliques sur lequel une douzaine de méthodes d'analyse de données symboliques peuvent déjà s'appliquer dans le logiciel SODAS (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques,...).

Master 2 ISF Page 7 sur 46

Page 8: Projet de Data Mining - CEREMADE

Projet de Data Mining

2. Création de la base de données Notre étude porte sur la coupe du monde 1998 de football, ainsi nous avons créé une base de données contenant les informations des joueurs et des pays qui ont accéder aux huitièmes de final. La base de données a été construite garce aux sites suivants : http://www.fifa.com http://www.rsssf.com Nous allons donc dans cette partie du rapport présenter le schéma relationnel de notre base de données, puis présenter plus en détails les tables et les arguments de notre base, et enfin nous décrirons les requêtes effectuées.

2.1. Schéma relationnel Nous présentons ci-dessous le schéma relationnel :

Notre base est constituée de trois tables :

- La table ‘Joueur’ contient les informations sur les joueurs - La table ‘Pays’ représente les résultats réalisés par le pays - La table ‘Pays_Continents’ stocke les continents des divers pays.

Master 2 ISF Page 8 sur 46

Page 9: Projet de Data Mining - CEREMADE

Projet de Data Mining

2.2. Description des tables Décrivons les trois tables présents :

• Joueurs : Nom Nom du joueur Code_joueurs Identifiant du joueur Age Age du joueur Taille Taille du joueur Poste Poste que le joueur occupe Nombre de but Nombre de buts marqués par le joueur (à

partir des huitième de final) Cartons Cartons jaunes pris par le joueur (à partir des

huitième de final) Pays Pays du joueur Club Nom du club du joueur Continent_club Continent du club du joueur Pays_club Pays du club du joueur

• Pays : Nom Nom du pays Entraîneurs Entraîneurs du pays Nombre de participation Nombre de participation du pays Nombre de buts encaissés Nombre de buts encaissés par le pays Nombre de buts marqués Nombre de buts marqués par le pays Parcours Parcours du pays pendant la coupe Classements fifa avant Classements fifa avant la coupe du monde Classements fifa après Classements fifa après la coupe du monde

• Pays_continents : pays Nom du pays continent Nom du continent

Master 2 ISF Page 9 sur 46

Page 10: Projet de Data Mining - CEREMADE

Projet de Data Mining

2.3. Requêtes Pour importer nos données de notre base dans de bonne condition, il est important de préparer la base. Pour cela, nous avons effectué trois requêtes. Grâce a ces trois requêtes, nous pouvons effectué notre analyse de données sous SODAS. La première requête renvoie les individus de premier ordre et leur description. Nous obtenons une requête avec les individus qui sont les footballeurs, le concept est représenté par les pays et la description des individus. Cette requête est la suivante :

LC C

LdC

SELECT Joueurs1.[Nom & prénom], Joueurs1.Pays, Joueurs1.Continent_Club, Joueurs1.clubs, Joueurs1.poste, Joueurs1.[nbre de buts], Joueurs1.cartons, Joueurs1.age, Joueurs1.taille, Joueurs1.Pays_Club FROM Joueurs1;

a deuxième requête renvoie les concepts (les pays) et les variables de description du concept. ette requête nous permettra de réaliser un ‘add single’

ette requête est la suivante

SELECT Pays.pays, Pays.entraineurs, Pays.[nombre de buts marqués], Pays.[nombre de buts encaissés], Pays.parcours, Pays.[nbre de participation] FROM Pays;

a troisième requête représente le lien qu’il existe entre les pays des clubs et les continents es joueurs. ette requête est la suivante :

SELECT Joueurs1.Pays_Club, Joueurs1.Continent_Club FROM Joueurs1;

Master 2 ISF Page 10 sur 46

Page 11: Projet de Data Mining - CEREMADE

Projet de Data Mining

3. Réalisation de notre étude avec SODAS

3.1. Importation des données Pour importer nos données dans le logiciel SODAS, ces données doivent respecter le schéma suivant :

• La première variable représente les individus • La seconde variable représente le concept • Au moins huit variables qualitatives et quantitatives doivent être importées

Pour importer ces données nous avons exploités les requêtes réalisées précédemment.

3.1.1. Requête SelectJoueur Nous avons donc importer les données de la requête SelectJoueur dans SODAS de la manière suivante :

Nous pouvons observer que les données ont été ajoutées :

3.1.2. Requête AddFoot Nous avons importé cette requête de la manière suivante :

Master 2 ISF Page 11 sur 46

Page 12: Projet de Data Mining - CEREMADE

Projet de Data Mining

Nous pouvons observer que les nouvelles données ont été ajoutées aux autres :

3.1.3. Requête Taxonomie Nous avons créer une taxonomie en important les données de cette requête :

Nous pouvons observer qu’elle a bien été prise en compte :

Master 2 ISF Page 12 sur 46

Page 13: Projet de Data Mining - CEREMADE

Projet de Data Mining

Elle se présente de la manière suivante :

3.1.4. Représentation des données En important nos données de cette manière, nous obtenons :

• Individus : les joueurs de foot • Concepts : les pays • Variables qualitatives : Continent_Club, Clubs, Poste, Pays_Club, Entraineur,

Parcours • Variables quantitatives : Nbre de buts, Cartons, Age, Taille, Nombre de buts marqués,

Nombre de buts encaissés, Nombre de participation

Master 2 ISF Page 13 sur 46

Page 14: Projet de Data Mining - CEREMADE

Projet de Data Mining

3.2. Exécution des méthodes

3.2.1. Utilisation de méthode de SODAS Nous allons montrer de quelle manière on utilise les méthode du logiciel SODAS. Ainsi à titre d’exemple nous allons présenter le fonctionnement de la méthode SOE Dans un premier temps il est nécessaire de terminer d’importer notre base :

Nous sélectionnons le fichier SODAS créé à l’issue de l’importation des données par l’intermédiaire des requêtes. Une fois que cela est fait, nous créons la méthode en sélectionnant le bouton SOE situé sur la gauche puis en le déposant à droite en dessous du bouton représentant notre base de données :

En effectuant un clic droit sur le bouton SOE, nous avons accès au paramétrage de la méthode :

Master 2 ISF Page 14 sur 46

Page 15: Projet de Data Mining - CEREMADE

Projet de Data Mining

Une fois le paramétrage effectué on exécute la méthode de la même manière, et nous obtenons :

Le bouton jaune permet d’accéder aux sorties textes de la méthode, et le bouton rouge permet d’accéder aux sorties graphiques de la méthode. Le fonctionnement des autres méthodes est similaire au fonctionnement de cette méthode.

Master 2 ISF Page 15 sur 46

Page 16: Projet de Data Mining - CEREMADE

Projet de Data Mining

3.2.2. Méthode SOE

3.2.2.1. Présentation de la méthode La méthode SOE (Symbolic Object Editor) permet de visualiser sous forme de graphiques en 2D et en 3D les différentes variables selon les concepts.

3.2.2.2. Représentation graphique Nous représentons ci-dessous la représentation graphique de six pays : France(Vainqueur), Brésil (Finaliste), Croatie (demi-finaliste), Italie (quart finaliste), Roumanie (Huitième), Mexique (huitième). Nous remarquons que la taxonomie est représentée par la variable Continent_Club

Master 2 ISF Page 16 sur 46
Page 17: Projet de Data Mining - CEREMADE

Projet de Data Mining

Master 2 ISF Page 17 sur 46
Page 18: Projet de Data Mining - CEREMADE

Projet de Data Mining

Master 2 ISF Page 18 sur 46

Page 19: Projet de Data Mining - CEREMADE

Projet de Data Mining

3.2.2.3. Interprétation Nous avons choisi de présenter des résultats pour seulement huit équipes, cependant ces huit équipes sont arrivées à différents stades de la compétitions (huitième, quart, demi, finale). Cela nous permettre de mettre en évidence les différences des équipes arrivées à différents stades de la compétition.

• Les pays des clubs des joueurs : Nous remarquons que les équipes arrivées à un stade élevé de la compétition possèdent des joueurs jouant dans les championnats italien, espagnol, allemand et anglais. De même les équipes étant arrivées aux huitièmes de finale ont peu de joueurs jouant dans ces championnats. Cela nous laisse donc penser que les clubs des joueurs est une variable capitale pour avoir une équipe performante. On remarque cependant qu’une équipe comme le brésil a la moitié de ses joueurs qui jouent au brésil, cela confirme que le brésil est un énorme réservoir de joueurs exceptionnels. On remarque également que la Croatie pourtant arrivée en demi-finale, possède de nombreux joueurs jouant en Croatie, cela nous laisse penser que la performance de ce pays est exceptionnelle.

• L’age et la taille des joueurs : Nous pouvons observer que la fourchette d’age et de taille des joueurs est presque la même d’un pays à l’autre. Cela nous laisse penser que ces deux variables ont peu d’influence sur la qualité d’une équipe.

Master 2 ISF Page 19 sur 46

Page 20: Projet de Data Mining - CEREMADE

Projet de Data Mining

• Nombre de cartons : Nous observons que la quasi totalité des équipes ont peu de joueurs ayant eu beaucoup de cartons jaunes. Cependant on remarque que certains joueurs de l’équipe de France ont jusqu’à trois cartons jaunes. Cela peut laisser penser qu’une équipe plus défensives à peut être plus de chance d’arriver à une stade élevé de la compétition.

• Continents des clubs des joueurs : On observe que la quasi totalité des équipes ont des joueurs jouant dans des clubs européens, cela peut nous laisser penser que cette variable est importante et que le continent européen est un gage de qualité. Cependant il faut faire attention, puisque des équipes comme la Roumanie et la Croatie ont des joueurs jouant dans des championnats européens, mais de leurs pays respectifs

Master 2 ISF Page 20 sur 46

Page 21: Projet de Data Mining - CEREMADE

Projet de Data Mining

3.2.3. Méthode STAT

3.2.3.1. Présentation de la méthode

La méthode STAT de SODAS nous permet d’utiliser des statistiques classiques étendues aux variables symboliques. Cette application de statistiques évoluées doit nous permettre de continuer notre apprentissage à partir de la base de données. Cette méthode va nous permettre de préciser et de confirmer les interprétations de la méthode SOE. STAT va bien au-delà en nous permettant de regrouper les valeurs de nos variables symboliques en classes, sous forme d’histogrammes. Ce que nous utiliserons ici pour les variables de type

3.2.3.2. Représentation graphique

• Nombre de but par joueur :

• Nombre de cartons jaunes :

Master 2 ISF Page 21 sur 46

Page 22: Projet de Data Mining - CEREMADE

Projet de Data Mining

• Age :

• Taille :

Master 2 ISF Page 22 sur 46

Page 23: Projet de Data Mining - CEREMADE

Projet de Data Mining

• Biplot (Nombre de but / Nombre de carton) :

3.2.3.3. Interprétation Le premier graphique nous permet d’observer que peu d’équipe possède de très bon buteur, de même il y un peu plus d’équipe qui possède de bon buteur, et enfin on remarque que beaucoup d’équipe possèdent des joueurs ayant marqué un ou zéro but. Cela laisse apparaître une grande disparité entre les différents buteurs des équipes.

Master 2 ISF Page 23 sur 46

Page 24: Projet de Data Mining - CEREMADE

Projet de Data Mining

Le deuxième graphique montre que peu d’équipe possède des joueurs ayant beaucoup de cartons (3 cartons jaunes) , de même il y a de nombreuses équipes qui ont des joueurs ayant un seul carton. Cela peut nous laisser penser que cette phase finale fut propre au niveau des cartons. Le troisième et le quatrième histogramme montre que les équipes possède de nombreux joueurs ayant un age situé dans l’intervalle [24 ans, 28 ans], et de nombreux joueurs ayant une taille comprise dans l’intervalle [180cm, 190cm]. On remarque comme dans l’exploitation de la méthode SOE, que la plupart des équipes ont des tailles et des ages de joueurs quasi identiques ; ce qui nous laisse penser que ces caractéristiques ne rentrent pas en compte dans la qualité des joueurs et des équipes. On remarque dans le biplot que la plupart des équipes ont le même schéma NbBut/NbCarton. Cependant on observe que la France a peu de grand buteur mais une défense agressive, cela peut nous laisser penser que une grosse défense était la clé de la réussite lors de cette coupe du monde.

Master 2 ISF Page 24 sur 46

Page 25: Projet de Data Mining - CEREMADE

Projet de Data Mining

3.2.4. Méthode DIV

3.2.4.1. Présentation de la méthode La méthode DIV est une méthode d’échantillonnage hiérarchique. Dans un premier temps elle regroupe tous les objets en un seul échantillon. Puis à chaque étape, un échantillon est divisé en deux selon une question binaire. Cette question binaire induit la meilleure partition en deux selon l’extension du critère d’inertie : maximiser la variance interclasse et minimiser la variance intra classe. L’algorithme s’arrête après K-1 divisions, où K est le nombre d’échantillon donné par l’utilisateur. Les données en entrée pour DIV sont une matrice de donnée classique ou une matrice de données symboliques.

3.2.4.2. Représentation graphique Nous proposons un premier jeu de données avec les paramètres suivants : THE SELECTED CRITERION-VARIABLES ARE :

-------------------------- ( 1) :Continent_Club ( 8) :Pays_Club

Nous obtenons les résultats suivants :

THE CLUSTERING TREE : --------------------- - the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=11) ! !----2- [Continent_Club = 001] ! ! ! +---- Classe 3 (Nd=4) ! !----1- [Continent_Club = 010] ! +---- Classe 2 (Nd=1)

Et :

Master 2 ISF Page 25 sur 46

Page 26: Projet de Data Mining - CEREMADE

Projet de Data Mining

N N

ous proposons un second jeu de données avec les paramètre suivants :

THE SELECTED SPLIT-VARIABLES ARE : -------------------------- ( 4) :nbre_de_buts ( 5) :cartons

ous obtenons les résultats suivants :

Master 2 ISF Page 26 sur 46

Page 27: Projet de Data Mining - CEREMADE

Projet de Data Mining

--------------------- - the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=7) ! !----3- [cartons <= 0.750000] ! ! ! +---- Classe 4 (Nd=3) ! !----1- [nbre_de_buts <= 1.750000] ! ! +---- Classe 2 (Ng=5) ! ! !----2- [cartons <= 0.750000] ! +---- Classe 3 (Nd=1

Et :

DcLc

3.2.4.3. Interprétation

ans le premier jeu de données, nous observons que notre échantillon a été divisé en trois lasses. a première correspond à l’Europe, la seconde à l’Amérique, enfin la troisième correspond au ontinent des clubs des joueurs yougoslaves.

Master 2 ISF Page 27 sur 46

Page 28: Projet de Data Mining - CEREMADE

Projet de Data Mining

Cette dernière est particulière car les données pour cette équipe sont incomplètes, en effet nous n’avons pas pu trouver les clubs et les continents de ces joueurs (le pays n’existe plus) Ainsi, nous ne devons pas tenir compte de cette classe, et nous devons prendre en compte les deux première classes. On remarque que l’ensemble des joueurs participant à la compétition jouent dans des clubs soit américains soit européens. Ainsi on obtient une classe avec :

• Le Chili • Le Brésil • Le Mexique • Le Paraguay

L’autre classe correspond aux autres pays. On remarquera que l’Argentine s’est glissée dans la classe contenant des clubs Européens. Cela s’explique par le fait que la majorité des joueurs argentins jouent dans des clubs européens. Ainsi on aurait pu penser que le Brésil ferait parti de la classe des clubs européens, cependant de nombreux Brésiliens jouent dans leur pays. Cela confirme que le Brésil est une nation à part dans le cadre du football. Elle est la seule nation qui possède de nombreux joueurs jouant au Brésil et qui peut prétendre au titre international. On observe qu’il y a une corrélation entre le continent des clubs des joueurs qui composent une équipe, et les résultats lors de la compétition. En effet on observe que les équipes dont les joueurs pratiquent le football en Amérique ont des résultats moins bons que les équipes dont les joueurs jouent en Europe. Et cela confirme donc une nouvelle fois que le Brésil est une nation à part. Dans le second jeu de données, nous obtenons quatre classes différentes, la première est composée des équipes : Paraguay, Nigeria, Danemark, Yougoslavie, Roumanie, Angleterre, Norverge. Ces équipes ont peu de cartons et peu de bons buteurs (moins de 0,75 carton et moins de 1,75 buts) La seconde classe est composée des équipes : Brésil, Argentine, Italie, Chili, Mexique. Ces équipes ont peu de cartons et beaucoup de buteurs. La troisième classe est composée de la Croatie. Cette équipe a marqué beaucoup de but et à beaucoup de cartons. Enfin a dernière classe est composé des équipes : France, Allemagne, PaysBas. Ces équipes ont beaucoup de cartons et peu de buts. On peut observer une corrélation avec le résultat obtenu lors de la compétition, en effet l’ensemble des équipes appartenant à la première classe se sont arrêtées en huitième de finale. On observe que la France appartient à la quatrième classe (beaucoup de carton et peu de but), ce qui nous laisse encore penser qu’une stratégie défensive fut peut être plus efficace qu’une stratégie offensive. L’interprétation de ce jeu de données peut être faussé par le fait que plus une équipe fait de match plus elle a l’opportunité de marquer des buts et de prendre des cartons.

Master 2 ISF Page 28 sur 46

Page 29: Projet de Data Mining - CEREMADE

Projet de Data Mining

3.2.5. Méthode SCLUST

3.2.5.1. Présentation de la méthode Cette méthode permet de créer des partitions au niveau des objets symbolique en fonction des différentes variables prises en compte, pour cela on fixe un nombre de partition qui peut être intéressant, ainsi qu’un nombre de run et d’itération afin d’avoir une partition optimale.

3.2.5.2. Représentation graphique Nous avons réalisé cette méthode avec les variables suivantes :

• Continent_Club • Nombre de but • Pays_Club • Cartons

Nous obtenons les résultats suivants :

EDITION OPTIMAL PARTITION ========================= Classe : 1 Cardinal : 3 =============================== ( 5) Chili [0.9] ( 9) Mexique [0.9] ( 11) Yougoslavie [1.2] Classe : 2 Cardinal : 3 =============================== ( 2) Brésil [1.4] ( 3) Argentine [0.8] ( 4) Italie [0.9] Classe : 3 Cardinal : 4 =============================== ( 0) France [1.1] ( 1) Allemagne [0.9] ( 10) PaysBas [0.7] ( 13) Croatie [1.3] Classe : 4 Cardinal : 6 =============================== ( 6) Paraguay [1.2] ( 7) Nigeria [0.8] ( 8) Danemark [1.0] ( 12) Roumanie [0.9] ( 14) Angleterre [1.3] ( 15) Norverge [0.8]

Master 2 ISF Page 29 sur 46

Page 30: Projet de Data Mining - CEREMADE

Projet de Data Mining

3.2.5.3. Interprétation On observe que les classes une (Chili, Mexique, Yougoslavie) et quatre (Paraguay, Nigeria, Danemark, Roumanie, Angleterre, Norverge) regroupent les équipe ayant réalisées une mauvaise performance. De même la seconde classe (Brésil, Argentine, Italie) regroupe les meilleurs équipes sur la scène internationale, mais n’ayant pas forcément performés. Enfin la quatrième classe (France, Allemagne, Pays Bas, Croatie) regroupe de bonnes équipes. Ainsi les variables que nous avons choisies permettent de mettre en évidence les bonnes équipes, mais pas forcément les équipes qui ont performé lors de la compétition. Cela nous laisse donc penser que la coupe du monde est une compétition particulière qui ne laisse place à aucun pronostiques.

Master 2 ISF Page 30 sur 46

Page 31: Projet de Data Mining - CEREMADE

Projet de Data Mining

3.2.6. Méthode PYR

3.2.6.1. Présentation de la méthode La méthode PYR permet la généralisation des hiérarchies en tolérant les classes non disjointes. La pyramide est construite à partir d’un algorithme agglomératif allant de la base vers le sommet. Lors de l’échantillonnage chaque échantillon formé est défini par tous ses éléments, mais également par l’objet symbolique qui décrit ses propriétés. La structure permet d’identifier les concepts qui relient les classes bien identifiées. Les données en entrée pour PYR sont une matrice de données symboliques ou une matrice de distance.

3.2.6.2. Représentation graphique Après avoir étudié les classes de nos variables symboliques avec STAT, nous utilisons la méthode PYR de SODAS qui permet de caractériser les classes en les organisant sous forme de paliers. La pyramide est outil puissant pour représenter les classes empiétantes et situer les équipes les unes par rapport aux autres en fonction de critères définis. Nous avons par exemple regroupé les équipes de notre base en pyramides en fonction de trois variables :

y1.=Continent_Club y4.=nbre_de_buts y8.=Pays_Club y12.=parcours

Nous obtenons la pyramide suivante :

Master 2 ISF Page 31 sur 46

Page 32: Projet de Data Mining - CEREMADE

Projet de Data Mining

Nous proposons une autre pyramide avec l’ensemble des paramètres qui nous semblent significatifs :

y1.=Continent_Club y4.=nbre_de_buts y5.=cartons y8.=Pays_Club y10.=nombre_de_buts_marqués y11.=nombre_de_buts_encaissés y13.=nbre_de_participation

Nous obtenons alors la pyramide suivante :

Master 2 ISF Page 32 sur 46

Page 33: Projet de Data Mining - CEREMADE

Projet de Data Mining

Enfin nous proposons la pyramide suivante avec les paramètres :

y1.=Continent_Club y8.=Pays_Club y13.=nbre_de_participation

Master 2 ISF Page 33 sur 46

Page 34: Projet de Data Mining - CEREMADE

Projet de Data Mining

3.2.6.3. Interprétation Dans la première pyramide, nous observons que les équipes sont regroupées par continent de club, en effet le Chili, le Brésil, le Mexique et l’Argentine sont regroupés, les autres pays ont leurs joueurs qui jouent en Europe. On peut remarquer que la hiérarchisation n’est pas très représentative des résultats de la compétition, cela nous laisse penser que ces quatre paramètres associés ne sont pas très significatifs. La seconde pyramide nous montre que malgré la prise en compte de paramètres important la distribution des équipes ne vérifie pas les résultats de la compétition. Cela nous laisse penser que la coupe du monde de football est une compétition particulière, et qu’il n’existe pas de profil type pour la remporter.

Master 2 ISF Page 34 sur 46

Page 35: Projet de Data Mining - CEREMADE

Projet de Data Mining

Il y a des paramètres non qualitatifs et non quantitatifs qui entrent en compte tels que la motivation, le pays organisateurs, la forme… La troisième pyramide confirme qu’il n’existe pas de profil type pour remporter la coupe du monde. Cependant malgré la disparité de la distribution on peut également conclure que le fait que la France remporte la compétition est une surprise.

Master 2 ISF Page 35 sur 46

Page 36: Projet de Data Mining - CEREMADE

Projet de Data Mining

4. Synthèse D’après l’étude que nous avons réalisée nous pouvons dire qu’il existe des paramètres très importants pour remporter la coupe du monde. On retrouvera donc des paramètres tels que : le pays du club des joueurs, en effet les club européens d’Italie, Angleterre Espagne et Allemagne sont de véritables réservoirs de joueurs de très haut niveau. De même un paramètre primordial est la défense (Nombre de carton). Ce paramètre peut être associé au pays et continents des clubs, en effet les clubs européens se distinguent des club sud américains par une défense plus rigoureuse, et inversement les clubs sud américains se distinguent des clubs européens par une attaque plus flamboyante et un football plus artistique. Cela implique qu’une stratégie basée sur une défense solide pourra être plus efficace qu’une stratégie basée sur une attaque détonante. On observe également que plusieurs paramètres que l’on aurait pensé significatifs ne le sont pas en réalité. Premièrement les paramètres de la taille et l’age des joueurs n’ont aucune influence sur le résultat, en effet on a pu voir dans l’histoire des nations de différentes origines remporter cette compétition. En effet les équipes d’Amérique du Sud ont des joueurs plus petits que les joueurs jouant en Europe. De plus les équipes d’Amérique du Sud possède de nombreux joueurs très jeunes de part le fait que ce continent représente un réservoir inépuisable de nouveaux talents, et inversement en Europe de part l’enjeu financier de ce sport les joueurs sont en général plus expérimentés. Cependant ces deux paramètres n’ont qu’une importance relative dans le résultat, ainsi cela nous laisse penser que l’expérience d’un joueur peut être compensée par la fougue et l’enthousiasme d’un autre joueur plus jeune. De même, des joueurs dotés d’une grande taille peuvent s’opposer à des joueurs plus petit et donc plus vifs. Dans un second temps, nous aurions pu pensé que l’expérience prise par l’intermédiaire de précédente participation à la coupe du monde aurait pu entrer en jeu dans le résultats. Selon l’étude réalisée cette hypothèse n’est pas exacte, cela s’est confirmé par la présence en demi-finale de la Croatie . Cette contre hypothèse s’est confirmée lors de l’édition 2002 de la coupe du monde avec la Corée du Sud qui est également arrivée en demi-finale de la compétition, et lors de l’Euro 2004 qui a vu la Grèce devenir championne d’Europe. Ainsi pour conclure, une compétition aussi exceptionnelle que la Coupe du Monde ne suit aucune règle, il n’existe pas de profil type de joueur et d’équipe pouvant remporter la compétition. En effet il existe trop de paramètre non quantifiable à prendre en compte, tels que le pays organisateur, la motivation des joueurs, la fatigue des joueurs due à une saison régulière trop intense, l’arbitrage, la pression pesant sur les joueurs… Dans un sens cela est préférable, et il serait dommageable pour l’intérêt de ce sport de voir toujours les mêmes équipes au top niveau, et de pouvoir faire un pronostique sur à 100%.

Master 2 ISF Page 36 sur 46

Page 37: Projet de Data Mining - CEREMADE

Projet de Data Mining

Annexe

1. Listing de la méthode DIV

1.1. Pays_Club, Continent_Club ------------------------------------------------------- BASE=C:\Program Files\DECISIA\SODAS version 2.0\Tmp\EISYHT01.CMD nind=16 nvar=13 nvarsel=2 nvarcoup=2 METHOD=DIV ASSO VERSION=02 DATE=02/24/03 ------------------------------------------------------- THE SELECTED SPLIT-VARIABLES ARE : -------------------------- ( 1) :Continent_Club 1- Europe 2- Amerique 3- Continent_Inconnu ( 8) :Pays_Club NOT SELECTED : more than 12 categories THE SELECTED CRITERION-VARIABLES ARE : -------------------------- ( 1) :Continent_Club ( 8) :Pays_Club PARTITION IN 2 CLUSTERS : -------------------------: Cluster 1 (n=15) : France Allemagne Brésil Argentine Italie Chili Paraguay Nigeria Danemark Mexique PaysBas Roumanie Croatie Angleterre Norverge Cluster 2 (n=1) : Yougoslavie Explicated inertia : 23.092013 DESCRIPTION OF THE CLUSTERS : -------------------------- Cluster 1 : IF 1- [Continent_Club = Amerique ] Cluster 2 : IF 1- [Continent_Club = Continent_Inconnu OR Europe ]

Master 2 ISF Page 37 sur 46

Page 38: Projet de Data Mining - CEREMADE

Projet de Data Mining

PARTITION IN 3 CLUSTERS : -------------------------: Cluster 1 (n=11) : France Allemagne Argentine Italie Nigeria Danemark PaysBas Roumanie Croatie Angleterre Norverge Cluster 2 (n=1) : Yougoslavie Cluster 3 (n=4) : Brésil Chili Paraguay Mexique Explicated inertia : 38.899180 DESCRIPTION OF THE CLUSTERS : -------------------------- Cluster 1 : IF 2- [Continent_Club = Europe ] AND 1- [Continent_Club = Amerique ] Cluster 2 : IF 1- [Continent_Club = Continent_Inconnu OR Europe ] Cluster 3 : IF 2- [Continent_Club = Continent_Inconnu OR Amerique ] AND 1- [Continent_Club = Amerique ] ---------------------------------------------------------------------------------- THE DIVISIONS ARE STOPED: 1. It is not possible to divide singletons or objects having the same descriptions i.e. the same median value on each criterion-variable 2. Each split-variable has at least a missing data'' 3. Each split-variable has at leat 12 categories ----------------------------------------------------------------------------------

Master 2 ISF Page 38 sur 46

Page 39: Projet de Data Mining - CEREMADE

Projet de Data Mining

THE CLUSTERING TREE : --------------------- - the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=11) ! !----2- [Continent_Club = 001] ! ! ! +---- Classe 3 (Nd=4) ! !----1- [Continent_Club = 010] ! +---- Classe 2 (Nd=1) NAME OF INTERNAL VT0 FILE : C:\Documents and Settings\sev\Mes documents\datamaning\projet de datamining\SODAS\SODAS_FILE\EISYHT01.vt0 ------- END OF PROGRAM DIV ---------

1.2. Nombre de but, nombre de carton ------------------------------------------------------- BASE=C:\Program Files\DECISIA\SODAS version 2.0\Tmp\EIS03M01.CMD nind=16 nvar=13 nvarsel=2 nvarcoup=2 METHOD=DIV ASSO VERSION=02 DATE=02/24/03 ------------------------------------------------------- THE SELECTED SPLIT-VARIABLES ARE : -------------------------- ( 4) :nbre_de_buts ( 5) :cartons VARIANCE OF THE CRITERTION-VARIABLES : ------------------------------------ nbre_de_buts : 2.808594 cartons : 0.339844 ------------------------------------------------------- PARTITION IN 2 CLUSTERS : -------------------------: Cluster 1 (n=10) : France Allemagne Paraguay Nigeria Danemark PaysBas Yougoslavie Roumanie Angleterre Norverge Cluster 2 (n=6) : Brésil Argentine Italie Chili Mexique Croatie Explicated inertia : 68.899917

Master 2 ISF Page 39 sur 46

Page 40: Projet de Data Mining - CEREMADE

Projet de Data Mining

DESCRIPTION OF THE CLUSTERS : -------------------------- Cluster 1 : IF 1- [nbre_de_buts <= 1.750000] IS TRUE Cluster 2 : IF 1- [nbre_de_buts <= 1.750000] IS FALSE PARTITION IN 3 CLUSTERS : -------------------------: Cluster 1 (n=10) : France Allemagne Paraguay Nigeria Danemark PaysBas Yougoslavie Roumanie Angleterre Norverge Cluster 2 (n=5) : Brésil Argentine Italie Chili Mexique Cluster 3 (n=1) : Croatie Explicated inertia : 81.736973 DESCRIPTION OF THE CLUSTERS : -------------------------- Cluster 1 : IF 1- [nbre_de_buts <= 1.750000] IS TRUE Cluster 2 : IF 2- [cartons <= 0.750000] IS TRUE AND 1- [nbre_de_buts <= 1.750000] IS FALSE Cluster 3 : IF 2- [cartons <= 0.750000] IS FALSE AND 1- [nbre_de_buts <= 1.750000] IS FALSE PARTITION IN 4 CLUSTERS : -------------------------: Cluster 1 (n=7) : Paraguay Nigeria Danemark Yougoslavie Roumanie Angleterre Norverge Cluster 2 (n=5) : Brésil Argentine Italie Chili Mexique Cluster 3 (n=1) : Croatie Cluster 4 (n=3) : France Allemagne PaysBas Explicated inertia : 91.568002

Master 2 ISF Page 40 sur 46

Page 41: Projet de Data Mining - CEREMADE

Projet de Data Mining

DESCRIPTION OF THE CLUSTERS : -------------------------- Cluster 1 : IF 3- [cartons <= 0.750000] IS TRUE AND 1- [nbre_de_buts <= 1.750000] IS TRUE Cluster 2 : IF 2- [cartons <= 0.750000] IS TRUE AND 1- [nbre_de_buts <= 1.750000] IS FALSE Cluster 3 : IF 2- [cartons <= 0.750000] IS FALSE AND 1- [nbre_de_buts <= 1.750000] IS FALSE Cluster 4 : IF 3- [cartons <= 0.750000] IS FALSE AND 1- [nbre_de_buts <= 1.750000] IS TRUE THE CLUSTERING TREE : --------------------- - the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=7) ! !----3- [cartons <= 0.750000] ! ! ! +---- Classe 4 (Nd=3) ! !----1- [nbre_de_buts <= 1.750000] ! ! +---- Classe 2 (Ng=5) ! ! !----2- [cartons <= 0.750000] ! +---- Classe 3 (Nd=1) NAME OF INTERNAL VT0 FILE : C:\Documents and Settings\sev\Mes documents\datamaning\projet de datamining\SODAS\SODAS_FILE\EIS03M01.vt0 ------- END OF PROGRAM DIV ---------

Master 2 ISF Page 41 sur 46

Page 42: Projet de Data Mining - CEREMADE

Projet de Data Mining

2. Listing de la méthode SCLUST ------------------------------------------------------- BASE= C:\Documents and Settings\sev\Mes documents\datamaning\projet de datamining\SODAS\SODAS_FILE\Basesodas.sds Number of OS = 16 Number of variables = 13 METHOD=SCLUST Version 1.4 INRIA 2003 -------------------------------------------------------- SODAS The Statistical Package for Symbolic Data Analysis Version 1.4 - 29/08/2003 MODULE: SCLUST Clustering Algorithm on Symbolic Data Table -------------------------------------------------------- -------------------------------------------------------- -------------------------------------------------------- Sodas File : C:\Documents and Settings\sev\Mes documents\datamaning\projet de datamining\SODAS\SODAS_FILE\Basesodas.sds Log File : C:\Documents and Settings\sev\Mes documents\datamaning\projet de datamining\SODAS\SODAS_FILE\EIS03M02.LOG Listing File : C:\Documents and Settings\sev\Mes documents\datamaning\projet de datamining\SODAS\SODAS_FILE\EIS03M02.LST Sodas Out Cluster : Sodas Out Prototype : -------------------------------------------------------- -------------------------------------------------------- -------------------------------------------------------- Learning Set : 16 Number of variables : 6 Number of iterations : 20 Number of classes : 4 Initialisation : 0 random prototypes Number of runs : 10 Quantitative distance: 1 L1 Norm Boolean distance : 1 L1 Norm Modal distance : 1 L1 Norm Normalize : 0 Yes NBCLUST procedure : 0 Yes

Master 2 ISF Page 42 sur 46

Page 43: Projet de Data Mining - CEREMADE

Projet de Data Mining

STABCLUST procedure : 0 Yes Initial Criterion : 149.436054 GROUP OF SELECTED VARIABLES : ============================= ( Pos ) Tj Tj Weight Name Type initial used ( 1 ) 8.36 16.67 1.280427 Continent_Club MODAL 3 Modalities ( 4 ) 15.31 16.67 0.699454 nbre_de_buts INTERVAL ( 5 ) 5.02 16.67 2.133333 cartons INTERVAL ( 8 ) 15.27 16.67 0.701286 Pays_Club MODAL 21 Modalities ( 12 ) 14.55 16.67 0.735632 parcours NOMINAL 4 Modalities ( 13 ) 41.49 16.67 0.258065 nbre_de_participation NUMERICAL LIST OF SYMBOLIC OBJECTS IN THE SET : ===================================== France Allemagne Brésil Argentine Italie Chili Paraguay Nigeria Danemark Mexique PaysBas Yougoslavie Roumanie Croatie Angleterre Norverge RUN NUMBER : 1 ================= Iteration Permutation Criterion 1 16 51.808718 2 2 59.368371 3 0 57.740591 RUN NUMBER : 2 ================= Iteration Permutation Criterion 1 16 58.970415 2 6 65.964167 3 0 54.013248 RUN NUMBER : 3 ================= Iteration Permutation Criterion 1 16 60.308311 2 0 57.510839 RUN NUMBER : 4 ================= Iteration Permutation Criterion

Master 2 ISF Page 43 sur 46

Page 44: Projet de Data Mining - CEREMADE

Projet de Data Mining

1 16 63.595760 2 1 57.340774 3 1 56.460146 4 0 55.937343 RUN NUMBER : 5 ================= Iteration Permutation Criterion 1 16 61.707956 2 2 57.185147 3 0 55.358626 RUN NUMBER : 6 ================= Iteration Permutation Criterion 1 16 58.355894 2 1 62.305413 3 0 60.332303 RUN NUMBER : 7 ================= Iteration Permutation Criterion 1 16 51.480800 2 1 51.902345 3 0 53.025651 RUN NUMBER : 8 ================= Iteration Permutation Criterion 1 16 60.303931 2 2 62.675959 3 0 59.041083 RUN NUMBER : 9 ================= Iteration Permutation Criterion 1 16 58.792724 2 1 58.895843 3 0 54.988289 RUN NUMBER : 10 ================= Iteration Permutation Criterion 1 16 62.516798 2 1 58.814247 3 0 56.853062 OPTIMAL SOLUTION ================ RUN NUMBER : 7 CRITERION : 53.025651 EDITION OPTIMAL PARTITION

Master 2 ISF Page 44 sur 46

Page 45: Projet de Data Mining - CEREMADE

Projet de Data Mining

========================= Classe : 1 Cardinal : 3 =============================== ( 5) Chili [0.9] ( 9) Mexique [0.9] ( 11) Yougoslavie [1.2] Classe : 2 Cardinal : 3 =============================== ( 2) Brésil [1.4] ( 3) Argentine [0.8] ( 4) Italie [0.9] Classe : 3 Cardinal : 4 =============================== ( 0) France [1.1] ( 1) Allemagne [0.9] ( 10) PaysBas [0.7] ( 13) Croatie [1.3] Classe : 4 Cardinal : 6 =============================== ( 6) Paraguay [1.2] ( 7) Nigeria [0.8] ( 8) Danemark [1.0] ( 12) Roumanie [0.9] ( 14) Angleterre [1.3] ( 15) Norverge [0.8] EDITION PROTOTYPES ================== PARTITION DESCRIPTION ===================== INITIAL CRITERION : 96.000000 FINAL CRITERION : 53.025651 Percentage of the explained criterion : 44.76 VARIABLES DESCRIPTION ===================== Position! Name Bj/Tj Wj/W Tj/T Quality ( 1 ) Continent_Club 48.52 18.06 16.67 1.08 ( 4 ) nbre_de_buts 38.80 14.45 16.67 0.87 ( 5 ) cartons 80.00 29.79 16.67 1.79 ( 8 ) Pays_Club 23.95 8.92 16.67 0.54 ( 12 ) parcours 40.23 14.98 16.67 0.90 ( 13 ) nbre_de_participation 37.10 13.81 16.67 0.83

Master 2 ISF Page 45 sur 46

Page 46: Projet de Data Mining - CEREMADE

Projet de Data Mining

CLUSTER DESCRIPTION =================== Cluster Size(Nk) Bk/Tk Wk/W Tk/T Bk/Nk.B Wk/Nk.W 1 3 48.82 17.27 18.64 5.756 6.212 2 3 62.44 12.95 19.04 4.316 6.346 3 4 32.34 35.10 28.65 8.774 7.163 4 6 43.10 34.69 33.67 5.782 5.612 EDITION PROTOTYPES BY VARIABLES =============================== Variable ( 1 ) Continent-Club Set 1 2 3 4 <= Cluster 0.70 0.02 0.70 1.00 0.85 Europe 0.23 0.65 0.30 0.00 0.15 Amerique 0.06 0.33 0.00 0.00 0.00 Continent_Inconnu Variable ( 4 ) nbre-de-buts Cluster Minimum Maximum Wkj/Tkj Wkj/Wj Set 0.00 2.94 1 0.00 3.33 87.07 19.05 2 0.00 4.67 25.70 9.52 3 0.00 3.50 116.67 50.00 4 0.00 1.50 34.78 21.43 Variable ( 5 ) cartons Cluster Minimum Maximum Wkj/Tkj Wkj/Wj Set 0.00 1.31 1 0.00 1.00 0.00 0.00 2 0.00 1.00 0.00 0.00 3 0.00 2.25 40.00 100.00 4 0.00 1.00 0.00 0.00 Variable ( 8 ) Pays-Club Set 1 2 3 4 <= Cluster 0.16 0.00 0.00 0.10 0.35 Angleterre 0.16 0.02 0.55 0.18 0.03 Italie 0.07 0.00 0.02 0.23 0.04 Allemagne 0.04 0.00 0.02 0.14 0.01 France 0.09 0.00 0.11 0.11 0.11 Espagne 0.04 0.03 0.17 0.00 0.01 Bresil 0.03 0.02 0.12 0.00 0.02 Argentine 0.01 0.00 0.02 0.00 0.01 Portu

Master 2 ISF Page 46 sur 46