Exposé segmentation

Clustering (Segmentation)

Alya LETAIF

Donia HAMMAMI

Plan de la présentation

1. C’est quoi la segmentation ?

2. Qu’est ce qu’un bon regroupement ?

3. Classification des algorithmes de clustering

4. Mesure de similarité

5. Présentation de l’algorithme K-Means

6. Domaine d’application de l’algorithme K-Means

7. Variantes de K-Means

8. Organigramme de l’algorithme K-Means

9. Algorithme K-Means

10.Simulation de l’algorithme K-Means

11.Avantages et Inconvénients de l’algorithme K-means

12.Conclusion 2

C’est quoi la segmentation ?

Regroupement (Clustering): construire une collection d’objets

Similaires au sein d’un même groupe

Dissimilaires quand ils appartiennent à des groupes différents

Pour cette tâche, il n'y a pas de classe à expliquer ou des valeurs à prédire définies

à priori, il s'agit de créer des groupes homogènes dans la population (l'ensemble des

enregistrements).

Le Clustering est de la classification non supervisée: Elle vise à identifier des

ensembles d’éléments qui partagent certaines similarités. Elle ne se base pas sur des

classes prédéfinies.3

4

Qu’est ce qu’un bon regroupement ?

Une bonne méthode de regroupement permet de garantir :

Une grande similarité intra-groupe

Une faible similarité inter-groupe

La qualité d’un regroupement dépend donc de la mesure de similarité utilisée

par la méthode et de son implémentation.

Mesure de similarité (1/3)

Il n’y a pas de définition unique de la similarité entre objets .

Différentes mesures de distances d (x ,y).

La définition de la similarité entre objets dépend de :

Le type des données considérées

Le type de similarité recherchée

5


Données Numériques :

Distance de Minkowski:

Distance euclidienne: q=2

Distance de Manhattan : q=1

6


Données binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1

Donnée énumératives: Distance nulle si les valeurs sont égales et 1

sinon.

Donnée énumératives ordonnées: idem. On peut définir une distance

utilisant la relation d’ordre.

7

Classification des algorithmes de Clustering (1)

Algorithmes Hiérarchiques: Construisent les clusters en divisant de manière

récursive les instances. On a deux catégories :

Segmentation hiérarchique des divisions: chaque objet est initialement

supposé un cluster.

Segmentation hiérarchique ascendante: tous les objets forment un seul

cluster.

Algorithmes basés sur la densité: Fondés sur des notions de connectivité et de

densité. Les points qui appartiennent à chaque groupe sont tirés d'une distribution de

probabilité spécifique.

Algorithmes de grille: Basés sur une structure à multi-niveaux de granularité.8

Classification des algorithmes de Clustering (2)

Algorithmes basés sur le modèle: Un modèle est supposé pour chaque cluster ensuite

on vérifie chaque modèle sur chaque groupe pour choisir le meilleur. Les modèles les

plus utilisés sont:

Les arbres de décision.

Les réseaux de neurone.

Algorithmes de Partitionnement: Consistent à relocaliser les instances en les déplaçant

d'un cluster à l'autre en partant d’un partitionnement initial. De tels procédés nécessitent

que le nombre de cluster sera prédéfinit par l'utilisateur. Parmi les algorithmes utilisés:

L’algorithme des K-moyennes (K-Means).

9

Présentation de l’algorithme K-Means

Un algorithme de classification non supervisée.

Encore appelée méthode des centres mobiles.

L’algorithme des K-moyennes permet de trouver des classes dans des données.

Les classes qu’il construit n’entretiennent jamais de relations hiérarchiques: une classe

n’est jamais incluse dans une autre classe .

L’algorithme fonctionne en précisant le nombre de classes attendues.

L’algorithme calcule les distances Intra-Classe et Inter-Classe.

10

Domaines d’application

Marketing : Segmentation du marché afin d’obtenir des groupes de clients

distincts à partir d’une base de données d’achat.

Assurance : Identification des groupes d’assurés distincts associés à un nombre

important de déclarations.

Planification des villes : Identification des groupes d’habitons suivant le type

d’habitation, ville, localisation géographique …

Médecine : Localisation de tumeurs dans le cerveau

11

K-Means : Variantes

Algorithme basé sur la sélection des centres initiaux .

Algorithme basé Calcul des similarités.

Algorithme basé Calcul des centres.

Algorithme GMM : Variante basée sur les probabilités.

Algorithme K-modes : Utilisé pour les données catégorielles.

Algorithme K-prototype: Utilisé pour les données mixtes (numériques et catégorielles).

12

Organigramme de l’algorithme K-Means

13

Algorithme des k-moyennes (K-Means)

Algorithme K-Means

Entrée : k le nombre de groupes cherchés

DEBUT

Choisir aléatoirement les centres des groupes

REPETER

i. Affecter chaque cas au groupe dont il est le plus proche à son centre

ii. Recalculer le centre de chaque groupe

JUSQU‘A (stabilisation des centres)

OU (nombre d'itérations =t)

OU (stabilisation de l’inertie totale de la population)

FIN14

Simulation du k-Means (1/6)

A B

C

D

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

0 1 2 3 4 5 6

EFFICACITÉ

CONCENTRATION

4 types de médicaments ayant

chacun deux modalités : La

concentration et l’efficacité, on

veut créer deux classes => K=2.

Médicaments Concentration Efficacité

A 1 1

B 2 1

C 4 3

D 5 415


Etape 1 : On désigne aléatoirement A et B

comme centre de classes.

• C1 = A

• C2 = B

Etape 2 : On assigne chaque point à une

des classes.

On commence par D :

A B

C

D

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

0 1 2 3 4 5 6

EFFICACITÉ

CONCENTRATION

16


A B

C

D

C2

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

0 1 2 3 4 5 6

EFFICACITÉ

CONCENTRATION

Etape 3 : Calcul les nouveaux centres des

classes compte tenu de la nouvelle

classification.

17


Nous voilà à nouveau à l’étape 1.

On commence la deuxième

itération de l’algorithme.

On réassigne chaque médicament à

une classe en calculant la distance

les séparant des nouveaux centres

de classe .

On repart à l’étape 2.

A B

C

D

C2

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

0 1 2 3 4 5 6

EFFICACITÉ

CONCENTRATION

18


On répète les étapes jusqu’à

convergence.

Connaissant les membres de chaque

classe, on recalcule les centres des

classes pour chacun de leurs nouveaux

membres. A B

C

D

C2

C1

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

0 1 2 3 4 5 6

EFFICACITÉ

CONCENTRATION

19


Le résultat final est donc:

Classe1 = {A , B} avec centre de

classe c1 = (1.5 , 1).

Classe2 = {C , D} avec centre de

classe c2 = (4.5 , 3.5). A B

C

D

C2

C1

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

0 1 2 3 4 5 6

EFFICACITÉ

CONCENTRATION

20

K-moyennes : Avantages

L’algorithme de k-Means est très populaire du fait qu’il est très facile à comprendre

et à mettre en œuvre,

La méthode résolve une tâche non supervisée, donc elle ne nécessite aucune

information sur les données,

Rapidité et faibles exigences en taille mémoire,

La méthode est applicable à tout type de données (mêmes textuelles), en choisissant

une bonne notion de distance.

21

Le nombre de classes est un paramètre de l’algorithme. Un bon choix du nombre k est

nécessaire, car un mauvais choix de k produit de mauvais résultats.

Les points isolés sont mal gérés (doivent-ils appartenir obligatoirement à un cluster ?)

L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale

correspondant à la fonction objective minimale.

Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des

centres.

K-moyennes : Inconvénients

22

Conclusion

Le clustering groupe des objets en se en basant sur leurs similarités.

La mesure de similarité peut être calculée pour différents types de données.

La sélection de la de mesure de de similarité dépend des des données utilisées et le type

de similarité recherchée.

La segmentation est utilisée dans différents domaines de recherche tels que la bio-

informatique, analyse financière, classification des séquences d'ADN, génie logiciel,

locomotion de robots, etc…

23

Merci pour votre

attention

Exposé segmentation

Engineering

Transcript of Exposé segmentation