Etude des comportements des assureurs et prédi ction du ......Introduction Introduction...

89
Mémoire présenté le : pour l’obtention du diplôme de Statisticien Mention Actuariat et l’admission à l’Institut des Actuaires Par : Monsieur Sang-hoon YOON Titre du mémoire : Etude des comportements des assureurs et pré diction du taux de reversement des recours dans le cadre de la convention IRSA Confidentialité : NON OUI (Durée : 1 an 2 ans) Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus Membres présents du jury de l’Institut des Actuaires signature Entreprise : Nom : AXA FRANCE Signature : Membres présents du jury de la filière Directeur de mémoire en entreprise : Nom :Rémi BOUSQUET Signature : Invité : Nom : Signature : Autorisation de publication et de mise en ligne sur un site de diffusion de documents actuariels (après expiration de l’éventuel délai de confidentialité) Signature du responsable entreprise Signature du candidat

Transcript of Etude des comportements des assureurs et prédi ction du ......Introduction Introduction...

Page 1: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Mémoire présenté le :

pour l’obtention du diplôme

de Statisticien Mention Actuariat

et l’admission à l’Institut des Actuaires

Par : Monsieur Sang-hoon YOON

Titre du mémoire :

Etude des comportements des assureurs et pré diction du taux de

reversement des recours dans le cadre de la convention IRSA

Confidentialité : NON OUI (Durée : 1 an 2 ans)

Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus

Membres présents du jury de

l’Institut des Actuaires signature Entreprise :

Nom : AXA FRANCE

Signature :

Membres présents du jury de la

filière

Directeur de mémoire en

entreprise :

Nom :Rémi BOUSQUET

Signature :

Invité :

Nom :

Signature :

Autorisation de publication et de mise

en ligne sur un site de diffusion de

documents actuariels (après expiration

de l’éventuel délai de confidentialité)

Signature du responsable

entreprise

Signature du candidat

Page 2: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations
Page 3: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Résumé

Ce mémoire propose une analyse des stratégies des assureurs dans le cadre desrecours forfaitaires de la convention IRSA. Cette étude s’appuie tout d’abord surla mise en évidence des comportements atypiques qui causent un déséquilibre dela balance finale. Pour cela, on a envisagé la classification des assureurs selon lesdensités des dommages réels des sinistres en utilisant le modèle de mélange gaussienet la méthode de k-moyennes.

D’autre part, pour répondre à l’insuffisance d’une simple catégorisation des as-sureurs, on montre l’existence des états cachés qui décrivent les assureurs d’unemanière plus précise en utilisant un modèle probabiliste: modèle de Markov caché.Cela permet de vérifier l’influence des comportements cachés sur le traitement desrecours de l’assureur.

Enfin, afin de minimiser le risque de perte financière due aux recours forfaitaires,on propose de créer un modèle de scoring de la réussite d’une contestation d’unrecours avec des méthodes d’apprentissage statistique.

Mots clés: recours, modèle de mélange gaussien, k-moyennes, chaîne de Markov,modèle de Markov caché, apprentissage statistique.

1

Page 4: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2

Page 5: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Abstract

This master thesis is an analysis of insurer’s strategy of subrogations under IRSAconvention. First, this study highlights abnormal behaviors that unbalance the fi-nal result of subrogations between insurance companies. To accomplish that, weclassified insurers depending on the density of real damage of claims by using theGaussian mixture model and the k-mean method.

On the other hand, since the classification of insurers by category was too sim-ple, we found hidden state that described better insurance companies’ behaviors byusing a probabilistic model: hidden Markov model. This model enables to explainhow subrogations are treated, depending on the hidden state of the insurer.

Hence, in order to minimize the financial loss risk linked to subrogations, wecreated a scoring model on the success of subrogation’s contestation with statisticallearning methods.

Key words: subrogation, gaussian mixture model, k-means, Markov chain,hidden Markov model, statistical learning.

3

Page 6: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4

Page 7: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Remerciements

Je tiens tout d’abord à remercier Véronique BRIGNOLAS, responsable du ser-vice Claims analytics et Fraude dans la direction AXA Particuliers et IARD En-treprises, et Rémi BOUSQUET, responsable de l’équipe Data innovation et nou-veaux territoires pour m’avoir accueilli et fait bénéficier tout au long de mon alter-nance de leur expérience et de leurs précieux conseils.

Je remercie également ma maître de stage, Stergiani PARDALI pour son accueilet sa disponibilité pendant l’élaboration de cette étude.

Je remercie enfin Maud THOMAS, ma tutrice académique, pour ses suggestionset commentaires.

5

Page 8: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

6

Page 9: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

TABLE DES MATIÈRES

Table des matières

Introduction 9

1 Contexte 111.1 Convention IRSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.1.2 Démarche globale . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.2 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.2.1 Plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.3 Périmètre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Comportements des assureurs adverses 172.1 Dommages réels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 Gaussian Mixture Models . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.2 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3 K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.3.1 Principe et algorithme . . . . . . . . . . . . . . . . . . . . . . 242.3.2 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3 Modèles probabilistes 313.1 Différents états d’un recours subis . . . . . . . . . . . . . . . . . . . . 313.2 Chaîne de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.2.2 Construction et résultats . . . . . . . . . . . . . . . . . . . . . 34

3.3 Modèle de Markov caché . . . . . . . . . . . . . . . . . . . . . . . . . 363.3.1 États cachés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.3.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.3.3 Les trois problèmes de HMM . . . . . . . . . . . . . . . . . . 383.3.4 L’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . 383.3.5 Application et résultats . . . . . . . . . . . . . . . . . . . . . . 42

4 Prédiction du taux de réussite d’une contestation 474.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2 Apprentissage statistique . . . . . . . . . . . . . . . . . . . . . . . . . 474.3 Modèle prédictif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.3.1 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . 494.3.2 Support vector machine . . . . . . . . . . . . . . . . . . . . . 504.3.3 Classification And Regression Trees (CART) . . . . . . . . . . 524.3.4 Random forest . . . . . . . . . . . . . . . . . . . . . . . . . . 534.3.5 Balanced Bagging . . . . . . . . . . . . . . . . . . . . . . . . . 544.3.6 Extreme gradient boosting (XGBoost) . . . . . . . . . . . . . 55

4.4 Métriques de classification binaire . . . . . . . . . . . . . . . . . . . . 564.5 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.5.1 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.5.2 Feature engineering . . . . . . . . . . . . . . . . . . . . . . . . 604.5.3 Machine learning . . . . . . . . . . . . . . . . . . . . . . . . . 61

7

Page 10: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

TABLE DES MATIÈRES

4.5.4 Résultats et interprétation . . . . . . . . . . . . . . . . . . . . 62

Conclusion 71

Bibliographie 74

Annexe : algorithme de forward-backward 75

Note de synthèse 77

Executive summary 83

8

Page 11: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Introduction

IntroductionLe chiffre d’affaires de l’assurance automobile représente 39% de l’ensemble des

cotisations des assurances de dommages aux biens et de responsabilité civile1. Deplus, l’automobile des particuliers représente 56 % des assurances souscrites par lesparticuliers en IARD (incendies, accidents et risques divers) et progresse de + 1,7%avec un chiffre d’affaires de 18,5 milliards d’euros en 2015. Ainsi, on constate bienles enjeux financiers dans ce secteur. Le marché de l’assurance automobile est trèsconcurrentiel avec près de 100 acteurs.

En outre, chaque année, environ 15 millions de sinistres sont traités par desassureurs en France, soit plus de 40 000 sinistres par jour. Afin de gérer efficace-ment ce volume colossal tout en préservant l’intérêt des assurés, les conventionsd’indemnisation et de recours entre assureurs ont été mises en place. Elles ont crééun impact non négligeable sur le métier de l’assureur dans la mesure où les compag-nies d’assurance ont dû s’adapter aux nouvelles règles d’indemnisations. AXA quifait partie des principaux acteurs du marché d’assurance automobile a su répondreaux attentes de ses assurés tout en maîtrisant les conventions. Cependant, avecdes mises à jour des conventions, AXA renforce davantage le périmètre des recours.C’est dans cet intérêt que l’étude a été effectuée dans la direction Particuliers etIARD Entreprises d’AXA France: elle a pour rôle de concevoir et de commercialiserles contrats d’assurance en IARD sur le périmètre des particuliers et des entrepriseset d’en assurer la gestion et le pilotage du résultat. En particulier, cette étude a étédéveloppée au sein de l’équipe Data innovation et nouveaux territoires qui fournitdes études pour répondre aux besoins des autres équipes de la direction en apportantde nouvelles méthodologies et techniques de data science. Ainsi, afin de mieux com-prendre le déséquilibre constaté de la balance finale dans le périmètre des recoursforfaitaires, l’étude de la mise en évidence des stratégies possibles a été effectuée.

Pour cela, on a d’abord considéré une étude sur les montants des dommagesréels des recours auprès de chaque assureur. En effet, on a utilisé un modèle demélange gaussien et la méthode de k-moyennes pour pouvoir repérer les assureursayant des comportements atypiques. Ensuite, on a modélisé la gestion des recoursqu’AXA effectue, à l’aide d’une chaîne de Markov pour observer les conséquencesdes stratégies repérées. De plus, un modèle de Markov caché a été construit pourpouvoir mettre à l’évidence un facteur du déséquilibre de la balance qui n’étaitpas observable. Enfin, pour pouvoir minimiser le risque dû aux comportementsatypique et pour aider les gestions opérationnelles, on a créé un modèle de scoringqui permet de sortir une probabilité de réussite d’un reversement avant l’émissiond’une contestation.

1chiffres données par la Fédération Française de l’Assurance

9

Page 12: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Introduction

10

Page 13: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

1 Contexte1.1 Convention IRSA

1.1.1 Définition

L’étude de ce mémoire se portera sur les sinistres automobiles matériels entrantdans le cadre de la Convention IRSA [1] que l’on va définir. La Convention IRSAsignifie la Convention d’Indemnisation directe de l’assuré et de Recours entre So-ciétés d’Assurance automobile. À l’origine, cette convention a été créée en 1968sous l’appellation Convention d’indemnisation directe des assurés (convention IDA)qui change de nom en 1974 avec de nouvelles prérogatives. Elle a pour objectif defaciliter le règlement des dommages matériels en cas d’accident de la circulation.Aujourd’hui, elle joue un rôle déterminant pour la définition des responsabilités lorsd’un sinistre et pour l’indemnisation des assurés. En effet, pour accélérer le règle-ment des accidents matériels, la plupart des assureurs ont signé la convention IRSAqui prévoit que chaque assureur indemnise son propre assuré. Cependant, un as-sureur peut exercer un recours auprès de l’assureur du responsable afin de récupérerla totalité ou une partie de l’indemnisation réglée. Elle s’applique principalementaux sinistres matériels suivants :

• survenus en France (métropolitaine et DOM) et dans la Principauté de Monaco.

• survenus à l’étranger si les véhicules sont assurés auprès de sociétés adhérentes.

• impliquant au moins deux véhicules terrestres soumis à l’obligation d’assuranceet assurés auprès de sociétés adhérentes (article L. 211-1 du code des assur-ances).

En outre, il existe également une convention destinée aux sinistres corporels : laConvention IRCA, Convention d’Indemnisation et de Recours Corporel Automobile.Cependant, elle ne fait pas l’objet de ce mémoire.

1.1.2 Démarche globale

L’application de la convention se déroule comme suit : lors d’un accident au-tomobile, un constat amiable est rédigé par les parties. Il est ensuite adressé parchaque assuré à sa propre assurance. On le nomme l’assureur direct. Puis, chaquecompagnie d’assurance qui reçoit le constat de son assuré, établit, en fonction d’unbarème, la responsabilité de ce dernier. Selon les garanties de son contrat et saresponsabilité dans l’accident, l’assurance missionne son expert qui expertisera levéhicule endommagé de son assuré. Après une évaluation des dommages réaliséepar un expert, l’assureur établit donc lui-même la responsabilité de son assuré etl’indemnise directement des dommages matériels et préjudices subis : « Quels quesoient la typologie de l’accident de la circulation, la nature et le montant des dom-mages, les sociétés adhérentes s’obligent, préalablement à l’exercice de leurs recours,à indemniser elles-mêmes leurs assurés, dans la mesure de leur droit à réparation,déterminé selon les règles du droit commun ». 2

21.1 Principe fondamental - Indemnisation directe de l’assuré, Convention IRSA

11

Page 14: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

1.1 Convention IRSA

Voici quelques cas du barème dont la convention IRSA dispose, qui permettentde définir les parts de responsabilité :

• Cas 10 : véhicules dans le même sens, sur la même file

• Cas 13 et 15 : véhicules dans le même sens, sur deux files différentes

• Cas 17 : un véhicule double un autre véhicule sur une intersection

• Cas 40 : véhicule en stationnement régulier

• Cas 43 : véhicule en stationnement irrégulier

• Cas 51 : un véhicule fait demi-tour ou recule, un véhicule sort d’un parkingou d’un emplacement de stationnement

• Cas 56 : désaccord sur la couleur des feux

Après l’indemnisation des assurés, l’assureur peut se retourner enfin contre le oules assureur(s) adverse(s) selon les modalités de recours établies par la convention.Si le montant des dommages réels est supérieur à 6500e, le recours entre dans lecadre des droits communs. Si le montant des dommages est inférieur au plafond de6 500e, fixé par la convention, le recours est forfaitaire dans la limite de 1 420e(montant pour 2017). Ce montant forfaitaire a évolué au cours des années commeon peut le constater dans la table 1.

Table 1: Montant des forfaits au cours des années 2014 - 2017

Année 2014 2015 2016 2017Montant 1272e 1308e 1354e 1420e

Le recours exercé est proportionnel au niveau de responsabilité de l’auteur desdommages. Cependant, si le montant des dommages est supérieur à 6500e, onparle d’un recours réel qui correspond au montant réel des dommages. Par exemple,imaginons qu’un individu A et un individu B ont eu un accident de voiture dontA est responsable à 100% de l’accident. Dans le cas où le dommage matériel duvéhicule de B est inférieur à 6500e HT, l’assureur de B peut exercer un recoursforfaitaire auprès de l’assureur de A et ainsi obtenir un montant de 1420e (Figure1).

Figure 1: Exemple d’un recours IRSA

12

Page 15: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

1.1 Convention IRSA

D’autre part, certains postes de préjudices font l’objet d’un abandon de recourstotal (communication d’incendie, dépréciation du véhicule, dommages occasionnéspar le transport des blessés. . . ) ou partiel (préjudice résultant du dépannage et duremorquage, de l’immobilisation du véhicule, dommages aux animaux, marchandiseset objets transportés. . . ).

En plus des règles sur les montants et les parts de responsabilité, il y a un autrefacteur important dans le cadre des recours IRSA : le délai. L’envoi de recours doitrespecter un délai de forclusion. En effet, la forclusion est l’effet que la Loi attacheà une déchéance, à une prescription ou à une péremption et l’IRSA a un temps deforclusion de 2 ans à compter de la date de survenance pour présenter le premierrecours. De plus, lorsqu’un assureur envoie un recours à un autre, ce dernier ne lereçoit qu’un mois plus tard. En effet, les recours se présentent en forme de bordereautous les 25 du mois. Cela permet de réduire considérablement le temps de gestionet ainsi d’automatiser les procédures.

Après la réception ou l’envoi d’un recours, l’assureur qui a payé le montant a lapossibilité de récupérer le montant déjà versé : l’assureur qui a subi un recours, peutcontester s’il est en désaccord. La contestation doit être effectuée dans un délai de 3mois depuis la réception du recours. Il existe des échelons des contestations (service,chef de service, direction, comité d’arbitrage ...) qui permettent de trancher si lacontestation persiste et que les assureurs n’arrivent pas à trouver un accord. Lesraisons d’une contestation peuvent être diverses :

• Cas de non assurance : l’assuré qui a été jugé responsable n’est pas assuré parla compagnie qui a subi le recours.

• Désaccord sur les parts de responsabilité.

• Désaccord sur les cas de barème.

D’autre part, il est également possible de représenter un recours après un re-versement : il faut compter 1 an. Le schéma de la figure 2 résume bien l’ensembledes démarches possibles en considérant les délais importants.

Figure 2: Délais des recours IRSA

13

Page 16: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

1.2 Problématique

L’application de ces principes, au-delà de modifier le métier de l’assureur, asurtout transformé en profondeur le service rendu aux assurés grâce au respect d’unbarème commun et à la prise en charge de l’indemnisation de leurs assurés par lessociétés d’assurance. Elle a réussi également à réduire considérablement le tempsd’indemnisation des assurés.

Cependant, malgré les avantages et les intérêts reconnus aux conventions d’inde-mnisation, il est important de noter que celles-ci présentent des limites. L’un desreproches communément émis à l’encontre des conventions d’indemnisation et derecours est qu’elles s’appuient pour l’essentiel sur une liste de cas conventionnels quine couvrent pas l’exhaustivité des cas fonctionnels possibles. A titre d’illustration,les responsabilités conventionnelles en assurance automobile sont basées sur un con-stat amiable qui ne reflète que 56 cas distincts. La responsabilité est alors appliquéeselon la situation au plus semblable. De plus, contrairement au droit commun et à lajurisprudence en la matière, le calcul des responsabilités en automobile ne prend passuffisamment en compte le code de la route ou l’incidence des facteurs extérieurs (telsqu’un manque de luminosité ou un excès de vitesse d’une tierce partie) qui devraientselon le sens commun faire partie des éléments d’appréciation de l’indemnisation.

Par ailleurs, la tentation est forte pour les compagnies d’assurance d’orienterl’instruction des dossiers en fonction des conventions applicables. Ceci se traduit con-crètement par une minoration de l’indemnité pour les sinistres compris entre le mon-tant du recours forfaitaire et le plafond des dommages rentrant dans la convention.En effet, les assureurs supportent souvent seul dans ces cas l’indemnisation de leursassurés, indépendamment des responsabilités des parties impliquées. L’assureurpeut ainsi avoir une incitation à déclarer les petits sinistres dont le montant desdommages est inférieur au montant du recours forfaitaire : la balance du sinistre estde ce fait positive pour l’assureur en charge de l’indemnisation. Ce dernier pointfait l’objet de l’étude de ce mémoire.

1.2 Problématique

AXA est l’un des leaders du marché d’assurance automobile et gère un nombreconsidérable de sinistres. Elle fait partie des compagnies signataires de la conven-tion IRSA. Les flux des recours émis et subis sont évidemment non négligeables voiretrès importants. Cela résulte des transferts de sommes considérables tous les mois.En particulier, ces transferts comprennent un nombre important de contestationsaboutissant à des reversements de recours forfaitaires.

Si on regarde les montants des recours payés et encaissés nets des reversements,ceux-ci correspondent à la balance finale. Souvent, on s’attend à ce que cette balancefinale des sinistres soit à l’équilibre, car on suppose que les portefeuilles des assureurssont homogènes 3 et également que les distributions de la gravité des accidents sontsimilaires. De plus, on suppose que les taux de paiements ou d’encaissements dusaux recours et les taux de reversements dus aux contestations sont similaires pour

3i.e. autant de bons conducteurs que de mauvais conducteurs qui sont responsables des accidents

14

Page 17: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

1.2 Problématique

la plupart des assureurs.

Cependant, parmi les limites de la convention citées dans la partie précédente, ilpeut y avoir une balance positive, par exemple, due à une incitation à la déclarationdes petits sinistres. Lorsqu’on regarde la balance finale pour AXA, on constate undéséquilibre non négligeable qui cause une perte importante, avec plus de recourssubis que de recours émis comme on peut le voir sur la figure 3. De plus, en termede montants restants dans la balance finale, on voit qu’AXA a connu des pertes nonnégligeables durant ces dernières années (table 2). On peut avancer plusieurs raisonsà cela. On peut notamment penser à la nature même du portefeuille d’AXA avec,par exemple, plus de mauvais conducteurs assurés que dans les autres compagnies.Ou encore, aux circonstances des sinistres que l’on ne peut pas contrôler, comme lesconditions météorologiques. Malheureusement, ces facteurs sont difficilement quan-tifiables dû au manque d’information.

Ainsi, l’objectif de ce mémoire est d’étudier en quoi la balance finale est déséquili-brée. Il s’agira notamment de montrer l’existence de causes quantifiables afin derépondre à la question suivante : comment peut-on procéder pour pouvoir équili-brer la balance finale ou encore la rendre positive. Le but affiché est d’essayer defaire mieux que les concurrents.

Figure 3: Nombre de recours subis et émis chez AXA

15

Page 18: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

1.3 Périmètre

Table 2: Balances finales 2014-2016

Montants 2014 2015 2016Recours présentés nets de reversements (en Me) 124,8 121,2 126,7Recours subis nets de reversements (en Me) -129,7 -132,8 -133,5Balance finale (en M e) -4,9 -11,6 -6,8

1.2.1 Plan

Pour traiter cette problématique, on commencera par émettre la conjecture suiv-ante : les compagnies adverses mettent en place des stratégies de recours. Cette idéesera développée dans la partie 3 et 4. Puis, on regardera comment on peut fairemieux que les autres compagnies d’assurance en considérant les stratégies adversessi elles existent. La dernière partie traitera de ce sujet.

1.3 Périmètre

L’étude de ce mémoire portera uniquement sur le périmètre suivant :

• Sinistres applicables à la convention IRSA

• Recours forfaitaires : dommages matériels inférieurs à 6500e

• Accidents impliquant seulement deux véhicules

• Hors recours AXA vs AXA

On effectue l’étude sur les bases suivantes :

• Base IRSA des recours forfaitaires contenant les informations uniquement surles recours forfaitaires traités

• Base des sinistres contenant les informations sur les sinistres

• Base des opérations comptables permettant de suivre l’historique de toutes lestransactions effectuées

• Base activité permettant de suivre l’historique des actions menées par les ges-tionnaires

Ces bases ont été extraites sous le logiciel SAS et les données s’étendent de janvier2014 à mars 2017. Les bases des recours forfaitaires subis et émis sont séparées.Ainsi, chacune d’elles comporte plus de 400 000 observations.

Les calculs et les représentations graphiques ont été effectués en langage python.

16

Page 19: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2 Comportements des assureursadverses

Dans cette partie, on analyse les différents comportements (ou stratégies) desassureurs adverses pour pouvoir expliquer en quoi la balance finale est déséquilibrée.

2.1 Dommages réels

La première idée pour expliquer le déséquilibre de la balance finale repose surles flux des recours forfaitaires et des reversements. On a vu dans la figure 3 qu’il ya déjà une différence entre les nombres totaux des recours subis et émis. En effet,on suppose que ces flux changent en fonction des assureurs : certains émettent plusde recours à AXA que ce dernier leur émet ou d’autres émettent moins de recoursà AXA que ce dernier leur émet. Puis, on conjecture que ces flux sont les résultatsdes "stratégies" ou des "comportements" adaptés par des compagnies qui ont pourbut de contrôler les proportions des flux de certains types de recours.

Si l’on s’intéresse aux montants des dommages réels, on peut remarquer qu’ilspeuvent être différents pour un même montant de recours forfaitaire. Par exemple,imaginons la situation suivante. A et B ont eu un accident et A est responsable à100% de l’accident. Puis, imaginons deux cas possibles : le sinistre a coûté 500e àl’assureur de B dans le premier cas. Dans le second cas, le sinistre a coûté 5000e.Si on calcule la perte ou le gain de l’assureur de B en considérant le montant durecours forfaitaire, on obtient la table 3 . Les calculs sont effectués d’après l’égalitécomptable :

Gain/perte = Montant recours forfaitaire− Coût sinistre

Comme ici le montant de recours forfaitaire est de 1420e, on obtient facilement lesrésultats de la table 3.

Table 3: Exemple de gain/perte sur les recours forfaitaires (vision assureur de B)

Cas Gain/perte1. coût sinistre 500e 920e2. coût sinistre 5000e -3580e

On constate que dans le cas 2, l’assureur de B a une perte de 3580e. Tandisque dans le cas 1, il a un gain de 920e. On remarque alors qu’il est possible pourun émetteur de recours, de tirer profit lorsque le montant des dommages réels estplus faible que le montant du forfait. Donc, du point de vue d’un assureur, laprésentation des recours provenant des sinistres mineurs peut minimiser la perte oumême permet de faire un profit. Pour cela, un assureur pourrait porter son intérêtsur deux choses :

• Maîtriser les coûts de réparations pour minimiser sa perte ou pour tirer profitd’un recours

17

Page 20: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2.2 Gaussian Mixture Models

• Encourager ses assurés à déclarer les sinistres mineurs même si les dommagesne sont pas remboursées à cause de la franchise

Ces pratiques pourraient augmenter le nombre de présentations des recours des pe-tits sinistres 4 et ainsi maintenir un flux des recours des petits sinistres supérieur àcelui des compagnies adverses. Cela pourrait alors causer un déséquilibre de balanceentre les assureurs.

Pour pouvoir prouver l’existence de tels comportements, on peut envisager d’ana-lyser les différents montants réels des dommages. En effet, l’idée est la suivante :si un assureur suit la stratégie indiquée précédemment, la densité des montants desdommages réels des recours doit être différente de celle d’AXA, qui a lui même sonpropre comportement vis-à-vis des recours. On peut donc effectivement étudier etcomparer les densités des "dommages réels" des recours émis par les compagnies ad-verses (donc subis par AXA) avec la densité des dommages réels des recours émis deAXA. Si les densités diffèrent considérablement au niveau des petits montants (entre0 et1420e), on peut considérer avoir mis en évidence l’existence de comportementsatypiques de certains assureurs du point de vue d’AXA.

Pour réaliser cette étude, on procède en plusieurs étapes :

• Création d’un modèle de mélange gaussien à partir des observations d’AXA(référence).

• Application du modèle obtenu à chacune des compagnies adverses afin deséparer leurs observations des dommages réels en plusieurs classes (les groupessont donnés par le modèle). Cela permet également de calculer les proportionsdans chaque classe pour chacune des compagnies adverses.

• Obtention d’une matrice de distance à partir des proportions de sinistres danschaque classe données par l’application du modèle.

• Clustering des assureurs à partir de la matrice de distance en utilisant laméthode des k-means

2.2 Gaussian Mixture Models

Pour pouvoir comparer les différentes densités, on utilise une méthode statis-tique qui permet d’estimer une loi de mélange gaussien à partir des observations.Notre objectif étant ici de comparer les autres compagnies par rapport à AXA quiest le référentiel, on modélise un modèle de mélange gaussien avec des données de"montants de dommages réels" des recours émis par AXA. Le principe de cettemodélisation est expliqué dans le paragraphe suivant.

4Le sinistre doit cependant comporter des dégâts apparents sinon le recours est interdit par l’Article2.4.5.a de la Convention IRSA

18

Page 21: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2.2 Gaussian Mixture Models

2.2.1 Principe

Tout d’abord, un modèle de mélange gaussien (usuellement abrégé par l’acronymeanglais GMM pour Gaussian Mixture Model) est un modèle statistique qui a pourdensité un mélange de lois gaussiennes de différents paramètres. En effet, il estimeparamétriquement la distribution de variables aléatoires (ici les montants des dom-mages réels) en les modélisant comme une somme de plusieurs gaussiennes (appeléesnoyaux). Donc, il est essentiel de déterminer la moyenne, la variance et l’amplitudede chaque gaussienne. Pour cela, on utilise un critère de maximum de vraisem-blance pour estimer les paramètres les plus optimaux. L’algorithme espérance-maximisation (EM) permet de réaliser cette procédure efficacement.

Soit (x1, x2, . . . , xn) , un échantillon composé de n observations appartenant à Rp,autrement dit, caractérisé par p variables continues. On suppose que ces observa-tions appartiennent chacun à un des groupes G (G étant fixé a priori) G1, G2, . . . , Gg

et qu’elles suivent une loi normale de moyenne µk (k = 1, . . . , g) et de matrice devariance-covariance Σk carrée de taille p. En outre, en notant π1, . . . , πg les propor-tions des différents groupes, et θk = (µk,Σk) le paramètre de chaque loi normale,on peut définir Φ = (π1, . . . , πg, θ1, . . . , θg) qui est le paramètre global du mélange.Alors l’échantillon suit la loi mélange suivante :

h(x,Φ) =

g∑k=1

πkf(x, θk) (1)

avec f(x, θk) la densité de la loi normale paramétrée par θk. La densité h(x,Φ) ci-dessus correspond bien à un mélange de gaussiennes (i.e. un mélanges de plusieurslois normales) car :

h(x,Φ) =

g∑k=1

πkf(x, θk)

=

g∑k=1

P(θk)P(x|θk)

=

g∑k=1

P(x, θk)

= P(

g⋃k=1

(x, θk))

= P(

g⋃k=1

(X = x, θ = θk))

(2)

où X est un vecteur gaussien de dimension p et de paramètre θ.

19

Page 22: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2.2 Gaussian Mixture Models

Pour déterminer le meilleur paramètre Φ, on cherche le paramètre qui maximisela log-vraisemblance donnée par :

L(x; Φ) =n∑i=1

log

(g∑

k=1

πkf(xi, θk)

)

=n∑i=1

log(h(xi,Φ))

(3)

Pour cela, on utilise l’algorithme EM [4]. Ce dernier permet de trouver lesparamètres du maximum de vraisemblance d’un modèle en introduisant des vari-ables latentes. En effet, l’estimation peut être très complexe, mais sous réservede connaître certaines données judicieusement choisies, on peut déterminer Φ sansdifficulté. Pour cela, on s’appuie sur des données complétées par un vecteur z =(z1, . . . , zn) inconnu. En notant, h(zi|xi; Φ) la probabilité de zi sachant xi et leparamètre Φ, on peut définir la log-vraisemblance complétée comme la quantitésuivante :

L((x, z); Φ) =n∑i=1

[log(h(zi|xi,Φ)) + log(h(xi; Φ))]

Ainsi on peut écrire la log-vraisemblance de manière suivante :

L(x; Φ) = L((x, z); Φ)−n∑i=1

log(h(zi|xi,Φ))

L’algorithme EM s’intéresse sur l’espérance des données complétées conditionnelle-ment au paramètre courant. En notant Φ(c) ce paramètre, on obtient :

E[L(x; Φ)|Φ(c)

]= E

[L((x, z); Φ|Φ(c)

]− E

[n∑i=1

log(h(zi|xi,Φ))|Φ(c)

]

Comme L(x,Φ) ne dépend pas de z, on obtient l’équation suivante :

L(x; Φ) = Q(Φ; Φ(c))−H(Φ; Φ(c))

avec Q(Φ; Φ(c)) = E[L((x, z); Φ)|Φ(c)

]et H(θ; θ(c)) = E

[∑ni=1 log(h(zi|xi,Φ))|Φ(c)

]Ainsi pour maximiser la log-vraisemblance, on définit la suite définie par :

Φ(c+1) = argmaxθ

(Q(Φ; Φ(c))

)On admet que (L(x; Φ(c))) tend vers un maximum local. Ainsi, si on résume tout

ce qui précède l’algorithme peut être présenté comme suit :

20

Page 23: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2.2 Gaussian Mixture Models

Algorithm 1 Algorithme EM

Initialization: Φ(0) au hasardc = 0while l’algorithme n’a pas convergé doEvaluation de l’espérance (étape E) : Q(Φ; Φ(c))Maximisation (étape M) : Φ(c+1) = argmax

Φ

(Q(Φ; Φ(c))

)c = c+ 1

end while

Pour notre cas (mélanges gaussiens), en reprenant les mêmes notations et ennotant zik la variable qui vaut 1 si l’individu xi appartient au groupe Gk et 0 sinon,la log-vraisemblance des données complétée s’écrit :

L(x, z,Φ) =n∑i=1

g∑k=1

ziklog(πkf(xi, θk))

De plus, on a :

Q(Φ,Φ(c)) =n∑i=1

g∑k=1

E(zik|x,Φ(c))log(πkf(xi, θk))

En notant tik = E(zik|x,Φ(c)), les étapes Estimation et Maximisation deviennent:

• Etape E : calcul de tik par la règle d’inversion de Bayes:

tik =π

(c)k f(xi, θ

(c)k )∑g

l=1 π(c)l f(xi, θ

(c)l )

• Etape M : détermination de Φ maximisant

n∑i=1

g∑k=1

tiklog(πkf(xi, θk))

Ainsi, les proportions optimales et les estimateurs optimaux sont données par :

πk =1

n

n∑i=1

tik

µk =

∑ni=1 tikxi∑ni=1 tik

Σk =

∑ni=1 tik(xi − µk)(xi − µk)t∑n

i=1 tik

21

Page 24: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2.2 Gaussian Mixture Models

Après l’estimation des paramètres grâce à l’algorithme EM, le modèle peut attribuerà chaque individu la probabilité d’appartenir à une classe. Pour cela, on utilise larègle d’inversion de Bayes. D’après celle-ci, on a :

P(xi ∈ Gk|x) =P(x|x ∈ Gk).P(x ∈ Gk)

P(x)

=πkf(xi, θk)∑gl=1 πlf(xi, θl)

(4)

Il suffit alors d’attribuer chaque individu xi à la classe pour laquelle la probabilitéa posteriori P(xi ∈ Gk) est la plus grande.

2.2.2 Application

On applique la méthode évoquée dans les paragraphes précédents à l’échantillondes dommages réels des recours émis par AXA en 2014-2016. Le package sur python,sklearn.mixture [17] permet de réaliser l’estimation et l’optimisation des paramètresdes lois normales qui constituent la loi à estimer. Par ailleurs, le choix de k a étéeffectué en considérant le Bayesian information criterion (BIC) qui est défini par :

BIC = k ∗ ln(n)− 2 ∗ ln(L)

avec n le nombre d’observations , k le nombre de paramètres et L la log-vraisemblanceà maximiser. Lorsqu’on représente la valeur de BIC en fonction de nombre de com-posantes, on remarque un décrochement suivi d’une décroissance régulière lorsquek = 4 (Figure 4). Alors, d’après la règle du coude, le nombre de composantesoptimal pour note modèle de mélange gaussien est de 4.

Figure 4: Représentation de BIC en fonction de nombre de composantes k

Après avoir estimé les paramètres θk et πk pour k = 1, . . . , 4 grâce à l’algorithmeEM, on a représenté les densités gaussiennes du mélange sur la figure 5. On observe

22

Page 25: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2.2 Gaussian Mixture Models

que les quatre composantes du modèle se partagent le support de manière relative-ment disjointe.

Figure 5: GMM avec les observations des montants des dommages réels des recoursde AXA

Figure 6: Application du modèle GMM obtenu aux sinistres d’un assureur

Une fois le modèle obtenu, on peut attribuer chaque recours à un groupe Gk selonla démarche présentée en figure 6. Donc, si on applique ce modèle aux dommagesréels de chaque compagnie adverse 5, nous obtenons 4 classes de sinistres. En outre,cela permet de calculer pour chaque assureur les proportions dans chaque classe parla formule :

Proportionk =nombre de sinistres dans la classe k

nombre total des sinistres5Ce sont des assureurs qui ont chacun un volume suffisant de recours.

23

Page 26: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2.3 K-means

Ainsi, chaque assureur adverse possède maintenant un vecteur de 4 coordonnéescorrespondant aux proportions globales des sinistres dans les 4 classes (exemple :table 4).

Table 4: Exemple des proportions des sinistres des différentes classes par compagnie

Assureur Proportion de G1 Proportion de G2 Proportion de G3 Proportion de G4

A 61% 26% 10% 3%B 55% 29% 12% 4%

On peut alors s’en servir pour calculer les distances entre les différentes com-pagnies d’assurance. On utilisera la distance euclidienne pour effectuer les calculs:

d2(A;B) =

√√√√ 4∑k=1

(ak − bk)2

avec ak et bk respectivement les coordonnées de A et de B.

Après ces simples calculs, nous obtenons une matrice de distance D qui nousdonne l’information sur les distances entre les compagnies d’assurance. Elle nousservira à effectuer un clustering des assureurs avec la méthode K-means.

2.3 K-means

2.3.1 Principe et algorithme

La classification des assureurs permet de repérer un groupe d’assureurs qui a uncomportement atypique en terme de dommages réels mineurs. Dans cette partie,on utilise la méthode k-means avec la matrice de distance créée avec le modèle demélange gaussien pour pouvoir classer les assureurs et vérifier la conjecture qui aété annoncée.

Le but de k-means est de classer les points en k groupes tout en minimisantles variances inter-classes. Soit (x1, x2, . . . , xn) n points observés, on cherche à par-titionner les n points (ici les assureurs) en k ensembles S = S1, S2, . . . , Sk. Pourcela, on minimise la distance entre les points à l’intérieur de chaque partition, ce quirevient à calculer les Si qui minimisent la quantité suivante :

k∑i=1

∑x∈Si

‖x− µi‖2 (5)

où µi est la moyenne des points dans Si.

Il existe un algorithme classique pour résoudre ce problème : méthode des k-moyennes. Le Figure 7 illustre les étapes de l’algorithme de k-means. Ici, l’algorithmea convergé après deux itérations.

24

Page 27: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2.3 K-means

Algorithm 2 Algorithme de k-meansInitialization: Choisir k centroïdes des partitions qui représentent la positionmoyenne des partitions m(1)

1 , . . . , m(1)k initiales

t = 1while pas de changement dans les nouvelles affectations des points doAffectation : affecter chaque observation à la partition la plus proche :

S(t)i = x :

∥∥∥x−m(t)i

∥∥∥ ≤ ∥∥∥x−m(t)i∗

∥∥∥∀i∗ = 1, . . . , k

Mise à jour : mettre à jour la moyenne de chaque cluster qui permet d’obtenirdes nouveaux centroïdes des partitions :

m(t+1)i =

1

|S(t)i |

∑x∈S(t)

i

x

t = t+1end while

Figure 7: Exemple d’illustration des étapes de l’algorithme k-means

2.3.2 Application

Pour appliquer le partitionnement en k-moyennes, il faut choisir le nombre departitions k. Pour cela, on applique la méthode en faisant varier k = 1, . . . , 9 eton calcule sa fonction objective (équation 5). Puis, on utilise la règle de coudequi permet d’obtenir le nombre de clusters optimal. Elle a pour critère de repérergraphiquement un décrochement suivi d’une décroissance régulière des variances

25

Page 28: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2.3 K-means

inter-classes. Avec le package sklearn.cluster permet de calculer le terme négatif dela fonction objective pour un k donné. Donc ici, comme on considère la fonctionobjective négative, on repère la valeur de k pour laquelle on a une un décrochementsuivi d’une croissance régulière. D’après la représentation graphique (figure 8), onobtient k = 3.

Figure 8: Variance négative en fonction de k le nombre de partitions

Une fois le nombre de clusters choisi, on applique la méthode des k-means avec lamatrice de distance obtenue grâce à notre modèle de mélange gaussien. Les résultatsdu partitionnement sont intéressants car on peut y distinguer des différents typesde distribution des montants de sinistres. En effet, on peut bien cerner la naturedes trois clusters obtenus.

• Groupe d’assureurs avec les comportement similaires à AXA (Figure 9): clus-ter 1

• Groupe d’assureurs avec les comportements différents à AXA : moins de re-cours provenant des petits sinistres (Figure 10): cluster 2

• Groupe d’assureurs avec les comportements différents à AXA : plus de recoursprovenant des petits sinistres (Figure 11): cluster 3

26

Page 29: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2.3 K-means

Le premier cluster est composé de 27 assureurs. On voit bien que la distributionglobale des dommages réels est très proche de celle d’AXA. Il est également le plusgrand cluster en terme du nombre total des recours envoyés à AXA (autour de 50%de la totalité des recours).

Figure 9: Comparaison des densités des montants des dommages réels entre lesassureurs du cluster 1 et AXA

Figure 10: Comparaison des densités des montants des dommages réels entre lesassureurs du cluster 2 et AXA

27

Page 30: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2.3 K-means

Le deuxième cluster est composé de 17 assureurs et le nombre de recours estmoins important que celui des deux autres clusters. Il représente les assureurs quienvoient moins de recours provenant des petits sinistres qu’AXA. Ces assureurssubissent des pertes même après la réception des montants des recours forfaitairescar on voit qu’ils ont beaucoup de recours provenant des sinistres dont le coût estsupérieur à 1420e. Le fait que les recours soient réglés au forfait s’avère désavan-tageux pour eux.

Le dernier cluster correspond à un groupe de 16 assureurs dont le nombre derecours est assez important. Les assureurs de ce cluster envoient plus de recoursprovenant de petits sinistres.

Figure 11: Comparaison des densités des montants des dommages réels entre lesassureurs du cluster 3 et AXA

Ces clusters nous suggèrent l’existence de comportements atypiques. En effet,comme ce que l’on avait conjecturé, dans la zone autour de 0-1400 e, on remarqueque la courbe de densité des compagnies adverses du cluster 3 est plus élevée quecelle d’AXA. Il y a plus de réparations mineures. Pour ces assureurs, le système for-faitaire semble être avantageux. L’écart entre le montant forfaitaire et le montantréel du sinistre est positif dans la zone 0-1400 e: il y a un gain financier.

D’ailleurs, lorsqu’on représente la densité des montants des dommages des com-pagnies appartenant au cluster 3 (figure 12), on remarque qu’il existe des assureursqui sont relativement différents des autres.

28

Page 31: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2.3 K-means

Figure 12: Les grands assureurs du cluster 3

Par exemple, l’assureur F paraît différent des autres car il montre une distributiontrès atypique. On observe un pic sur la zone autour de 650e. Ce phénomène peutêtre expliqué par une règle particulière : l’assureur n’a pas besoin de consulter unexpert lorsque le montant des dommages est inférieur à 650e HT qui correspondà 10% du plafond 6500e HT 6. Cela permet de faire des économies sur le coût deréparation puisque l’assureur n’a pas besoin de payer les experts mais uniquementle garage. Ainsi, on peut noter que même si les assureurs appartiennent au mêmecluster et qu’ils ont un même comportement sur la zone 0-1420e, il existe quelquesdifférences comme ce qu’on a pu voir avec l’assureur F. Ceci peut nous suggérer deregarder de plus près les comportements des compagnies adverses mais également laréaction d’AXA.

6Titre 2.1.1 annexe 2 Convention IRSA

29

Page 32: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

2.3 K-means

30

Page 33: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3 Modèles probabilistes3.1 Différents états d’un recours subis

D’après la partie précédente, on a pu vérifier la présence des comportementsatypiques de certaines compagnies d’assurance. La question que l’on peut se posermaintenant est de savoir comment on gère les recours qui sont envoyés par ces as-sureurs.

Pour cela, on ne considère plus la distribution globale des dommages réels maisl’évolution des états des recours envoyés à AXA par les compagnies adverses (i.e.les recours subis). Cela permet de voir comment AXA a réagi par rapport à unrecours donné ou encore comment les compagnies adverses réagissent par rapportaux contestations d’AXA.

Un recours peut changer d’un état à un autre. Il existe 4 états possibles pour unrecours subi :

• Subi

• En contestation

• Encaissé

• Non encaissé

En effet, un recours est dans l’état subi en premier lieu (état initial). Il peutêtre contesté. Dans ce cas là, soit il y a un reversement (contestation réussie) ousoit il n’y a pas de reversement (contestation refusée). La contestation peut être encours en raison d’attente du comité d’arbitrage pour trancher un désaccord. Aprèsun reversement, une représentation de recours peut être également effectuée.

Finalement, dans cette partie, on s’est concentré sur les deux études suivantes :

• Convergence des états de recours entre les différents clusters : cela permettraitd’observer les probabilités des recours dans les différents états et mettre enévidence en quoi cela influence la balance finale. Pour cela, on utilise unechaîne de Markov)

• Évolution des états de recours entre les assureurs au sein du même cluster enintroduisant la notion d’état caché : cela permettrait de tester si le cluster-ing des assureurs en fonction de la densité des dommages suffit ou non pourexpliquer la cause du déséquilibre. Pour cela, on utilise un modèle de Markovcaché.

31

Page 34: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.2 Chaîne de Markov

3.2 Chaîne de Markov

3.2.1 Principe

Pour étudier l’évolution des états d’un recours, on construit une chaîne de Markov[16]. Une chaîne de Markov est un modèle probabiliste qui permet de représenterl’évolution des états en fonction du temps. Cela nous permet de suivre l’évolutiondes recours et d’estimer les états finaux. La chaîne de Markov est définie comme suit.

Soit (Xn) une suite de variables aléatoires à valeurs dans un ensemble E supposéfini de taille M. E est appelé l’espace d’états. (Xn) est une chaîne de Markovhomogène si pour tout n ≥ 1 et toute suite (i0, i1, . . . , in−1, i, j) de E telle queP(X0 = i0, . . . , Xn−1, Xn = i) > 0, on a l’égalité suivante :

P(Xn+1 = j|X0 = i0, . . . , Xn−1, Xn = i) = P(Xn+1) = j|Xn = i) = P(X1 = j|X0 = i)

Autrement dit, sachant le présent, le futur est indépendant du passé. On appellealors probabilité de transition de l’état i vers l’état j la quantité suivante :

pij = P(X1 = j|X0 = i)

Et on appelle matrice de transition de la chaîne la matrice P = [pij]1≤i,j≤M de tailleM ×M . Cette matrice vérifie les propriétés suivantes :

• Encadrement des coefficients :

∀(i, j) ∈ 1, . . . ,M2, 0 ≤ pij ≤ 1

• Somme par ligne : pour tout i ∈ 1, . . . ,M, on a

M∑j=1

pij = 1

A toute chaîne de Markov peut être associé un graphe de transition de la façonsuivante : les sommets du graphe sont les états 1, . . . ,M de la chaîne et il existe unarc, étiqueté pij, de i vers j si pij > 0. Cette construction est commode lorsque Mn’est pas trop grand ou lorsque la matrice P est creuse, autrement dit lorsque d’unétat on ne peut transiter que vers un petit nombre d’états.

D’autre part, les probabilités de transition en n étapes sont en fait complètementdéterminées par les probabilités de transition en un coup, c’est-à-dire par la matricede transition. Ceci est explicité par les équations de Chapman-Kolmogorov :

∀n ≥ 0, P (n) = P n

Autrement dit, la matrice de transition en n coups est la puissance n-ième dela matrice de transition de la chaîne. Tout comme les transitions de la chaîne, laposition initiale X0 peut être aléatoire. On convient de noter la loi de X0 commeun vecteur ligne de taille M :

µ = [µ1, . . . , µM ] = [P(X0 = 1), . . . ,P(X0 = M)]

32

Page 35: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.2 Chaîne de Markov

Par ailleurs, soit (Xn), une chaîne de Markov de loi initiale µ et de matrice detransition P , alors pour tout entier naturel n, la loi de Xn est :

P(Xn) = µP n

Ainsi, pour une suite de variables aléatoires (Xn), la convergence en loi correspondsimplement à la convergence du vecteur ligne. Par ailleurs, dans un cas spécifique,on peut montrer la convergence de la loi (Xn) indépendamment de la loi initiale µ.Pour cela, on introduit les notions d’irréductibilité et de l’apériodicité et ainsi qu’unthéorème de convergence des chaînes de Markov.

Une chaîne est dite irréductible si tous les états communiquent entre eux, autrementdit : pour tout couple de sommets du graphe de transition, il existe un chemin allantde l’un à l’autre en suivant le sens des flèches.

En outre, une chaîne est dite apériodique si :

∀i ∈ 1, . . . ,M , di = pgcd(n ≥ 1, P n(i, i) > 0) = 1

La quantité di est appelée période de l’état i. Lorsqu’une chaîne est irréductible,tous les états ont même période d. Pour une chaîne irréductible, une condition suff-isante d’apériodicité est qu’il existe un état sur lequel elle puisse boucler, c’est-à-direun indice j tel que pjj > 0.

Théorème 1 (Convegence des chaînes irréductibles et apériodiques)Si (Xn) est une chaîne de Markov irréductible de matrice de transition P sur

E = 1, . . . ,M , il existe une unique mesure de probabilité π = [π1, . . . , πM ] invariantepour cette chaîne, c’est-à-dire telle que πP = π. Cette mesure est telle que πj > 0pour tout j et , pour toute fonction φ : E → R, on a alors :

1

n

n∑k=1

φ(Xk)p.s.−−−→n→∞

E(φ) =M∑j=1

φ(j)πj

√n

(1

n

n∑k=1

φ(Xk)− Eπ(φ)

)L−−−→

n→∞N (0, σ2(φ))

Si, en outre, la chaîne est apériodique, alors il y a convergence à vitesse géométriquede P n vers la matrice Π dont lesM lignes sont égales à π i.e. il existe des constantesC > 0 et α ∈ [0, 1] telles que :

∀n ≥ 0,∀(i, j) ∈ E × E, |P n(i, j)− πj| ≤ Cαn

La constante α est liée au spectre de la matrice de transition P : c’est un majo-rant de la plus grande des valeurs propres de P non unitaire en module. La propriétéde convergence géométrique semble donc être une excellente nouvelle.

On parle indifféremment de loi invariante ou de loi stationnaire ou encore deloi d’équilibre pour π vérifiant πP = π. Donc d’après ce qui précède, si P estune matrice de transition d’une chaîne de Markov irréductible, il suffit de résoudrel’équation πP = π pour déterminer sa loi stationnaire (point fixe). π correspondalors à la fraction du temps passé en chaque état.

33

Page 36: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.2 Chaîne de Markov

3.2.2 Construction et résultats

On construit la chaîne de Markov à partir des données historiques des états desrecours. Le graphe associé à cette chaîne est représenté dans la figure 13.

1

2

3

4

p22

p33

p44

p41 p23p32p12

p24

p13

Figure 13: Graphe de la chaîne de Markov des états des recours

où les numéros correspondent aux états suivants :

1. État subi

2. État en contestation

3. État non reversement

4. État reversement

La matrice de transition correspondante à la chaîne de Markov est de taille 4×4.D’après le graphe de la chaîne de Markov, elle est irréductible (tous les états peuventcommuniquer en passant par plusieurs états) et apériodique (on a des probabilitésde rester dans l’état 2, 3 ou 4 non nulles). Ainsi, d’après le théorème de convergencecité dans la partie précédente, on a la convergence vers une loi stationnaire.

P =

p11 p12 p13 p14

p21 p22 p23 p24

p31 p32 p33 p34

p41 p42 p43 p44

Pour déterminer cette loi, on résout l’équation πP = π en utilisant le packagediscreteMarkovChain de python. On effectue les calculs des lois stationnaires pourchacun des 3 clusters que l’on a obtenus dans la partie précédente.

34

Page 37: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.2 Chaîne de Markov

Table 5: Mesures stationnaires des clusters

Cluster Subis En contestation Non reversé Reversé

1 0,2% 2,5% 93,5% 4,8%2 0,2% 2,6% 92,2% 5,0%3 0,2% 2,2% 93,9% 3,7%

La dernière valeur du vecteur correspond à la proportion moyenne dans l’étatreversé. Les résultats de la table 5 montrent qu’AXA arrive difficilement à obtenirdes reversements lorsque les compagnies adverses appartiennent au cluster 3 où il y aun envoi important des recours provenant des petits sinistres (cf. partie 2). De plus,lorsque le taux de reversement est faible, AXA subit une perte importante due auxrecours car ses contestions n’aboutissent pas. On pourrait penser que cela se produitcar soit AXA a tort au sujet d’une contestation ou soit les compagnies d’assuranceadverses "se défendent" bien. Dans tous les cas, on constate que ce facteur peutinfluencer la balance finale puisqu’il y aura moins de sommes encaissées par rapportaux sommes payées par AXA.

A la fin de la partie 3, on a vu qu’au sein du même cluster, il peut y avoirune différence (exemple de l’assureur F). En effet, même s’il envoyait beaucoup derecours provenant des petits sinistres comme la plupart des compagnies du cluster3, on a pu observer un pic atypique qui se remarque moins chez les autres assureursdu même cluster.

Pour vérifier si cela affecte les lois stationnaires, on calcule les mesures invari-antes par assureur. Les résultats pour le cluster 3 présentés dans la table 6 semblentêtre intéressants :

Table 6: Mesures stationnaires des assureurs A et F

Assureur Subis En contestation Non reversé Reversé

A 0,1% 2,3% 93,7% 3,9%F 0,004% 0,017% 99,9% 0,0037%

On constate des différences significatives dans les mesures invariantes calculées.L’assureur F semble adopter un comportement plutôt différent de l’assureur A, mêmesi le comportement global semble être similaire à A (avec de nombreux recours surles sinistres mineurs). Ainsi, cela nous amène à étudier les comportements d’unautre point de vue, celui d’un modèle de Markov caché.

35

Page 38: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.3 Modèle de Markov caché

3.3 Modèle de Markov caché

3.3.1 États cachés

Dans cette partie, on étudie les comportements des assureurs d’un point de vuedifférent. Jusqu’ici, on avait effectué des études pour labelliser les assureurs, c’est-à-dire repérer des assureurs qui ont un nombre de recours important dans la zone0-1420e. Cependant, l’existence d’assureurs atypiques tels que F et la modélisationprobabiliste markovienne précédente montrent qu’il est difficile de conclure sur unlien de causalité entre appartenance au cluster 3 et balance déséquilibrée due à unestratégie. Ainsi, on suppose maintenant qu’au lieu de définir simplement la naturedes assureurs, on étudie les états des assureurs. En effet, on pense qu’un assureurpeut changer d’états, ce qui influence sur le traitement de leurs recours. Par exemple,l’assureur F n’accepte presque aucune contestation de la part d AXA, avec une partde recours à l’état reversé faible dans la mesure invariante de la table 6. A l’inverse,l’assureur A montre un traitement moins "agressif" que l’assureur F en terme deréponses aux contestations d’AXA. Ainsi, dans cette partie, on cherche les "étatscachés" des assureurs qui influencent les probabilités des états des recours (subi,en contestation, reversé, non reversé etc.) considérés comme des actions prises parAXA pour les traiter. Pour cela, on utilisera un modèle de Markov caché. L’objectifdans cette partie est de trouver les états "cachés" ainsi que les probabilités de sur-venances des états des recours correspondants. On étudiera d’abord le principe dumodèle, puis on expliquera comment on peut l’appliquer à nos observations.

3.3.2 Principe

Dans cette partie, on a repris la structure et quelques parties du cours [10]. Lemodèle de Markov caché (usuellement abrégé par l’acronyme anglais HMM pourHidden Markov Model [18]) est un modèle statistique dans lequel le système mod-élisé est supposé être un processus markovien de paramètres inconnus. Cependant,contrairement à un modèle de Markov, il produit une séquence en utilisant deuxsuites de variables aléatoires, l’une cachée et l’autre observable.

• La suite cachée correspond à la suite des états q1, q2, . . . , qT où les qi prennentleur valeur parmi l’ensemble des n états du modèle s1, s2, . . . , sn.

• La suite observable correspond à la séquence des observations O1, O2, . . . , OT

où lesOi sont des actions définies par M symboles observables V = v1, v2, . . . , vM.

Par conséquent, pour un HMM, un état n’est pas associé exclusivement à une ac-tion donnée qu’il exécuterait à coup sûr : chaque action a désormais une certaineprobabilité d’être exécutée par chaque état. En outre, ce ne sont pas les états quisont observés, mais les actions qu’ils effectuent.

On définit ainsi un HMM par Λ = (A,B, π) défini par :

• Ses états (cachés), en nombre n, qui composent l’ensemble S = s1, s2, . . . , sn.L’état où se trouve le HMM à l’instant t est noté qt ∈ S.

36

Page 39: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.3 Modèle de Markov caché

• M symboles observables (définissant chacun une action) dans chaque état.L’ensemble des actions possibles est noté V = v1, v2, . . . , vM. Ot ∈ V estl’action observée à l’instant t.

• Une matrice A de probabilités de transition entre les états. aij représente laprobabilité que le modèle évolue de l’état i vers l’état j . En effet, ∀i, j ∈[1, . . . , n] et ∀t ∈ [1, . . . , T ]

aij = A(i, j) = P(qt+1 = sj|qt = si)

avec : aij ≥ 0 ∀ i, j et∑n

j=1 aij = 1

• Une matrice B de probabilités d’observation des symboles dans chacun desétats du modèle : bj(k) représente la probabilité que l’on observe une actiondu symbole vk alors que le modèle se trouve dans l’état j :

bj(k) = P(Ot = vk|qt = sj)

avec bj(k) ≥ 0 ∀j, k et∑M

k=1 bj(k) = 1

• Un vecteur π de probabilités initiales : π = πii=1,...,n. Pour tout état i, πiest la probabilité que l’état de départ du HMM soit l’état i :

πi = P(q1 = si)

avec : πi ≥ 0 ∀i et∑n

i=1 πi = 1

Pour illustrer le principe, on peut traiter l’exemple suivant. On suppose qu’unindividu puisse exécuter deux actions : "sortir" et "dormir". Puis, on suppose qu’ilexiste des états cachés qui sont les états de la météo : "Pluie", "Nuage" et "Soleil".Ainsi, pour modéliser la météo, que l’on n’observe pas, à partir des actions prisespar l’individu, on utilise un HMM qui peut être représenté par le graphe de la figure14. De plus, dans la figure 15, les chemins les plus probables des transitions desétats sont représentées à partir des observations en t = 1, . . . , 3 : "Dormir", "Sor-tir", "Sortir". La séquence de la météo la plus probable est donc "Pluie", "Nuage","Soleil".

s1 s2

a12

s3

Sortir v1 Dormir v2

b3(v2)

Figure 14: Un HMM avec 3 états (s1 = Soleil , s2 = Nuage et s3 = Pluie) quipeuvent émettre 2 symboles discrets v1 = ”Sortir” ou y2 = ”Dormir”. aij est laprobabilité de transition de l’état si à l’état sj. bj(vk) est la probabilité d’émissiondu symbole yk en état sj.

37

Page 40: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.3 Modèle de Markov caché

t = 1

s1

s2

s3

v2

t = 2

s1

s2

s3

v1

t = 3

s1

s2

s3

v1

Figure 15: Observation de la séquence v2,v1,v1. Les flèches en gras indiquent leschemins les plus probables de transitions.

Dans cet exemple, on a cherché le chemin le plus probable car on a supposé avoirà disposition les paramètres Λ. Selon les paramètres dont on dispose, on peut êtreconfronté à des problèmes différents lorsque l’on utilise un HMM. Il y en a troisprincipalement, que l’on détaille dans le paragraphe suivant.

3.3.3 Les trois problèmes de HMM

L’exemple du calcul du chemin optimal précédent n’est faisable que si l’on disposed’observations et de tous les paramètres du HMM. Ce dernier peut être utilisé danstrois types de problèmes possibles :

• L’évaluation de la probabilité de l’observation d’une séquence. Étant donnéla séquence d’observations O et un HMM Λ = (A,B, π), comment évaluer laprobabilité d’observation P(O|Λ) ?

• La recherche du chemin le plus probable. Étant donné la suite d’observationsO et un HMM Λ, comment trouver une suite d’états Q = q1, q2, . . . , qT quimaximise la probabilité d’observation de la séquence? (l’exemple précédentrentre dans ce cadre là)

• L’apprentissage : étant donné des séquences observées O = O1, . . . , OT , trou-ver les paramètres du HMM, Λ = (A,B, π) qui correspond au mieux auxséquences observées. Cela revient à maximiser :

P(O|Λ) =∏O∈O

P(O|Λk)

à partir d’un ensemble O de séquence d’apprentissage

On s’intéressera au dernier point puisque les seuls éléments dont on dispose sontles observations et l’historique des états des recours.

3.3.4 L’apprentissage

Supposons un ensemble de séquences O = O1, . . . , Om, dont l’élément courantest noté Ok. Le but de l’apprentissage est de déterminer les paramètres d’un

38

Page 41: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.3 Modèle de Markov caché

HMM Λ = (A,B, π) qui maximisent la probabilité P(O|Λ). On suppose ici queles séquences d’apprentissage sont tirées indépendamment. Alors on peut écrire :

P(O|Λ) =m∏k=1

P(Ok|Λ)

L’idée est d’utiliser une procédure de réestimation qui affine le modèle petit à petitselon les étapes suivantes :

• choisir un ensemble initial Λ0 de paramètres;

• calculer Λ1 à partir de Λ0, puis Λ2 à partir de Λ1, etc.

• répéter ce processus jusqu’à ce qu’un critère de fin soit vérifié.

Pour chaque étape p d’apprentissage , on dispose de Λp et on cherche un Λp+1

qui doit vérifier l’inégalité suivante :

P(O|Λp+1) ≥ P(O|Λp)

ce qui équivaut à :m∏k=1

P(Ok|Λp+1) ≥m∏k=1

P(Ok|Λp)

Λp+1 doit donc améliorer la probabilité de l’émission des observations de l’ensembled’apprentissage. La technique pour calculer Λp+1 à partir de Λp consiste à utiliserl’algorithme EM. En effet, cela revient à effectuer un comptage de l’utilisation destransitions A et des distributions B et π du modèle Λp quand il produit l’ensembleO. Si cet ensemble est assez important, ces fréquences fournissent de bonnes approx-imations a posteriori des distributions de probabilités A,B et π et sont utilisablesalors comme paramètres du modèle Λp+1 pour l’itération suivante. La méthoded’apprentissage EM consiste donc dans ce cas à regarder comment se comporte lemodèle défini par Λp sur O, à réestimer ses paramètres à partir des mesures prisessur O, puis à recommencer cette réestimation jusqu’à obtenir une convergence. Dansles calculs qui suivent, on verra apparaître en indice supérieur la lettre k quand ilfaudra faire référence à la séquence d’apprentissage concernée.

On définit ξkt (i, j) comme la probabilité, étant donnés une séquence de symbolesOk et un HMM Λ, que l’on est à l’état si au rang t et à l’état sj au rang t+ 1 de laséquence. Donc :

ξkt (i, j) = P(qt = si, qt+1 = sj|Ok,Λ)

=P(qt = si, qt+1 = sj, O

k|Λ)

P(Ok|Λ)

(6)

Par définition des fonctions forward-backward7, on en déduit :

ξkt (i, j) =αkt (i)aijbj(O

kt+1)βkt+1(j)

P(Ok|Λ)

7voir annexe

39

Page 42: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.3 Modèle de Markov caché

avec Okt+1 le (t+ 1)-ème symbole de la séquence Ok.

On définit également la quantité γkt (i) comme la probabilité que la lettre de rangt de la séquence Ok soit émise par l’état sj.

γkt (i) = P(qt = si|Ok,Λ)

On peut réécrire ce terme :

γkt (i) =n∑j=1

P(qt = si, qt+1 = sj|Ok,Λ)

=

∑nj=1 P(qt = si, qt+1 = sj, O

k|Λ)

P(Ok|Λ)

=n∑j=1

ξkt (i, j)

(7)

Le terme∑|Ok|−1

t=1 γkt (i) correspond au nombre prévu de transitions d’un état i dansl’observation Ok. Le terme

∑|Ok|−1t=1 ξkt (i, j) correspond au nombre prévu de transi-

tions d’un état i à l’état j dans l’observation Ok.

Le nouveau modèle HMM se calcule alors à partir de l’ancien en réestimant π,A et B par comptage sur la base d’apprentissage. En effet, l’apprentissage se faiten 3 étapes :

1. Choisir aléatoirement un modèle initial

2. Réaliser le calcul des transitions et symboles émis qui sont les plus probablesselon le modèle initial : calcule de ξ(i, j) et γt(i)

3. Réestimation : construire un nouveau modèle dans lequel la probabilité destransitions et des observations déterminée à l’étape précédente augmente. Pourla séquence des observables en question, le modèle aura désormais une proba-bilité plus élevée que le modèle précédent.

L’étape 3 revient en effet à mesurer les fréquences suivantes :

aij =nombre de fois où la transition de si à sj a été utilisée

nombre de transitions effectuées à partir de si

bj(l) =nombre de fois où le HMM s’est trouvé dans l’état sj en observant vl

nombre de fois où le HMM s’est trouvé dans l’état sj

40

Page 43: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.3 Modèle de Markov caché

πi =nb de fois où le HMM s’est trouvé dans si en émettant le 1er symbole d’une seq

nb de fois où le HMM a émis le 1er symbole d’une seq

Autrement dit :

π =1

m

m∑k=1

γk1 (i)

aij =

∑mk=1

∑|Ok|−1t=1 ξkt (i, j)∑N

k=1

∑|Ok|−1

t=1 avec Okt =vl

γkt (i)

bj(l) =

∑mk=1

∑|Ok|−1t=1 γkt (j)∑m

k=1

∑|Ok|−1t=1 γkt (j)

Ces formules ont été établies par Baum [2], comme une application de la procé-dure EM à l’apprentissage des pramètres HMM. La suite des modèles construits parl’algorithme de Baum-Welch [19] vérifie la relation cherché :

P(O|Λp+1) ≥ P(O|Λp)

Algorithm 3 Algorithme de Baum-WelchInitialization Fixer des valeurs initiales (A,B, π)On définit le HMM de départ comme Λ0 = (A,B, π)p← 0while la convergence n’est pas réalisée doOn possède le HMM Λp

On calcule pour ce modèle, sur l’ensemble d’apprentissage, les valeurs :

ξ(i, j), γt(i)

avec 1 ≤ i, j ≤ n et 1 ≤ t ≤ T − 1On en déduit π, A, B en utilisant les formules de réestimation.Le HMM courant est désormais défini par Λp+1 = (π, A, B)p⇐ p+ 1

end while

L’algorithme converge vers des valeurs de paramètres qui assurent un maximumlocal de P(O|Λ).

41

Page 44: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.3 Modèle de Markov caché

3.3.5 Application et résultats

On applique le modèle de Markov caché que l’on a défini précédemment. Pourcela, il ne faut pas confondre les états cachés que l’on cherche et les actions que l’onobserve :

• Les états cachés s1, . . . , sn sont les comportements cachés de l’assureur

• Une séquence d’actions O1, . . . , OT correspond aux actions historiques effec-tuées pour un recours subis.

En effet, ces "actions" décrivent les états historiques du recours. Contrairementà la modélisation de la chaîne de Markov, on détaille les actions effectuées pourdécrire parfaitement l’historique d’un recours. Ainsi, il y plusieurs états historiquespossibles ("actions") qui peuvent se présenter :

• Subi

• En contestation

• Reversement (encaissement)

• Représentation

• Reversement (paiement)

Pour pouvoir estimer les probabilités de transition des états cachés et les prob-abilités d’émission, on utilise le package hmmlearn 8 de python qui estime lesparamètres grâce à l’algorithme de Baum-Welsh cité dans le paragraphe précédent.De plus, il faut fixer la loi d’occurrence des actions qui permet de calculer la log-vraisemblance. On choisit la loi multinomiale puisqu’ici les actions observés sontdes modalités, des variables discrètes 9. D’autre part, le nombre d’états cachés doitêtre choisi avant l’exécution de la méthode. Pour cela, on calcule les valeurs du BICen fonction du nombre d’états cachés comme dans la partie GMM : on calcule leterme BIC = k ∗ ln(n)− 2 ∗ ln(L) avec k le nombre des états cachés et n le nombredes observations et L la log-vraisemblance des observations. On obtient le nombreoptimal des états caché de 3.

Après l’exécution de la méthode, on obtient les éléments suivants :

• A : la matrice des probabilités de transition entre les états cachés

• B : la matrice des probabilités d’observations des actions (ici états des recours)

On peut nommer les 3 états cachés trouvés :

1. État neutre :

2. État défavorable (à AXA)

3. État très défavorable (à AXA)8https://github.com/hmmlearn/hmmlearn9Dans le cas où les observations sont des variables continues, on choisit souvent la loi de mélangegaussiens

42

Page 45: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.3 Modèle de Markov caché

Les probabilités des états des recours en fonction des états cachés sont réca-pitulés dans la table 7. Si on compare l’état 1 aux autres états, la probabilitéd’être "reversé" (encaissement pour AXA) est élevée par rapport aux autres étatscachés. La contestation est très probable dans cet état. La probabilité d’émissionde l’état "représentation de recours" et celle de l’état "reversé" sont élevées. Demême, lorsqu’on regarde l’état 3, on note bien que c’est un état caché où il n’ya quasiment pas d’actions effectuées en terme de contestation, de reversement ouencore de représentation de recours qui permettent à AXA de minimiser les pertes.

Table 7: Récapitulatif états cachés - probabilités des émissions

Probabilités des émissions Etat caché 1 Etat caché 2 Etat caché 3Subis très faible élevée très élevéeContestation élevée faible très faibleReversement (encaissement) élevée faible très faibleReprésentation élevée faible très faibleReversement (paiement) faible très faible très faible

Ainsi, on constate qu’un assureur n’adopte pas un comportement identique toutau long de la gestion d’un recours mais peut changer une ou plusieurs fois d’étatscachés. En effet, lorsqu’il est en état 1 (neutre), AXA a tendance à contester etobtenir des reversements. Sinon, AXA a plus du mal à contester ou à obtenir desreversements.

On peut représenter la matrice de transition sous la forme du graphe 16.

1

23

a11

a22a33

a31a13

a32

a23

a21

a12

Figure 16: Graphe des états cachés

Les probabilités d’émissions permettent de décrire chacun des états cachés : ona ainsi réussi à interpréter ces états et de les labelliser. La matrice de transitiondes états cachés diffère en fonction des assureurs. Si on prend les assureurs A et Fque l’on avait étudié dans la partie de la chaîne de Markov, on remarque des chosesintéressantes.

43

Page 46: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.3 Modèle de Markov caché

D’abord, on représente le graphe des états cachés de l’assureur A dans la figure17 et dont la matrice des transitions des états cachés est définie par :

PA =

0, 89 0, 04 0, 070, 08 0, 69 0, 230, 98 0 0.02

1

23

89%

69%2%

98%7%

23%

8%

4%

Figure 17: Assureur A et ses états cachés

Maintenant, regardons les mêmes informations sur l’assureur F, dont la matricedes transitions est définie par :

PF =

0, 32 0, 68 00, 54 0, 4 0, 040, 6 0 0, 4

1

23

42%

32%40%

60%4%

54%

68%

Figure 18: Assureur F et ses états cachés

On remarque que les deux matrices PA et PF sont irréductibles et apériodiques.Donc on peut appliquer le théorème de convergence et ainsi trouver les mesuresinvariantes qui décrivent les lois stationnaires :

44

Page 47: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.3 Modèle de Markov caché

Table 8: Mesures stationnaires des états cachés des assureurs A et F

Assureur État neutre État défavorable État très défavorable

A 83% 10% 7%F 44% 52% 4%

Ainsi, la probabilité totale des 2 états défavorables pour AXA est plus élevéechez l’assureur F que l’assureur A qui font pourtant partie du même cluster calculépar la méthode k-means. Cela nous incite à affiner la classification de k-means.Pour cela, on calcule les mesures invariantes pour tous les assureurs qui envoient unnombre de recours important. Une fois les mesures invariantes obtenues, on peutclassifier ces compagnies adverses afin de repérer les assureurs qui causent le plus deproblèmes à AXA en terme de traitement des recours. Le nombre de clusters a étédéfini par la méthode du coude : on obtient k = 2(Figure 19).

Figure 19: Variance inter-classe en fonction de nombre de composantes k

Ainsi, après avoir effectué une classification des assureurs selon les mesures vari-antes, on constate qu’il existe un groupe de 3 assureurs dont l’assureur F fait partie,qui ont souvent tendance à être dans l’état caché 3 très défavorable à AXA en termedu traitement des recours. Même s’ils ne concernent qu’une part minoritaire duvolume des recours, cela n’est pas négligeable et influence bien la balance finale.Par exemple, AXA a plus de difficulté d’obtenir des reversements avec ces assureurslà.

Dans cette partie, on a pu montrer les différences entre les assureurs qui seressemblaient en terme de distribution globale des dommages réels (envois nombreuxde recours provenant des petits sinistres par exemple). De plus, on a pu étudier lesdifférents états cachés qui influencent les traitements des recours en fonction desassureurs. Cela pose des problèmes dans la balance finale des recours et ainsi ilexiste une perte non négligeable pour AXA.

45

Page 48: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

3.3 Modèle de Markov caché

46

Page 49: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4 Prédiction du taux de réussited’une contestation

4.1 Objectif

On a pu voir que les états cachés des compagnies adverses avaient une influencesur le traitement des recours. Cela fait partie l’une des causes du déséquilibre dela balance car lorsque les assureurs adverses sont dans un état désavantageux pourAXA, il est difficile de récupérer des sommes potentiellement récupérables grâce àla contestation.

Table 9: Résultats 2016 (en Me)

Montant des recours Montant des reversements Montant totalEmis +147,7 -21,0 +126,7Subis -136,3 +2,8 -133,5

Pour équilibrer la balance, AXA doit aller chercher les reversements puisqu’onn’a aucun contrôle sur les survenances des accidents et leurs natures qui font appelaux recours. De plus, lorsqu’on regarde les résultats de 2016 (table 9), on remarqueque le montant total des recours émis (encaissements) est supérieur à celui des re-cours subis (paiements), ce qui fait d’une balance positive. Cependant, la différencedes reversements des recours émis et subis cause la balance négative. En effet, AXAreverse plus que les compagnies adverses lui reversent. Ainsi, la clé pour ramenerla balance à l’équilibre est d’augmenter le taux de reversements en allant chercherdans les recours subis avec lesquels il y a un problème ou un désaccord.

Pour cela, on peut examiner chacun des recours subis attentivement afin de pou-voir juger s’il y a une contestation à faire en cas de désaccord. Il faut, toutefois, bienprendre en compte que les gestionnaires ont déjà une charge de travail importantepour examiner les dossiers des recours subis et le nombre de dossiers que l’on peuttraiter est limité. Ainsi, pour pouvoir augmenter le taux de reversements de manièreefficace, on propose de créer un modèle qui permet de sortir un score de réussite dereversement lors d’une contestation. Donc, il permet de cibler les dossiers en consid-érant le score. Cela permettrait d’aider les gestionnaires à gérer certains dossiers enpriorité. De plus,on peut cibler les dossiers en considérant la capacité maximale devolume de dossiers à traiter. Pour créer un modèle prédictif, on utilise des méthodesde machine learning.

4.2 Apprentissage statistique

Avant de présenter les différents algorithmes de machine learning, on définitd’abord ce qu’est l’apprentissage statistique.

47

Page 50: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.2 Apprentissage statistique

Notations :

• X = (X1, . . . , Xn) : n observations

• Xi = (X1i , . . . , X

di ) : d variables de l’observation i

• y = (y1, . . . , yn) : variable cible

• (X, y) ∈ (X × Y )

• Dn = (X1, y1), . . . , (Xn, yn) : base d’apprentissage

L’objectif de l’apprentissage statistique est de trouver un lien entre les variablesobservées X et la variable cible y.

Il existe plusieurs types d’apprentissage :

• Apprentissage supervisé : on connaît les valeurs de y

• Apprentissage non supervisé : on ne connaît pas les valeurs de y, on essaie detrouver la structure de la population à l’aide des X

• Apprentissage semi-supervisé : certains cas sont étiquetés, d’autres non

Dans le cadre de l’apprentissage supervisé , en utilisant la base Dn, on construitun estimateur φ(X) qui serait un "bon" estimateur de y. Dans le cas de la classifi-cation, y est une variable discrète. Dans le cas de la régression, y est une variablecontinue. Pour pouvoir trouver un "bon" estimateur, on définit l une fonction deperte :

l : Y × Y → R+

l(φ(X), y) permet de quantifier la pertinence d’approximation de l’estimateur φ(X).De plus, on peut introduire la notion du risque défini par :

R(φ(X)) = E[l(φ(X), y)]

Ainsi, l’estimateur parfait, l’estimateur de Bayes est défini par :

φ∗ ∈ argminφ∈Y X

R(φ)

Cependant, il est très difficile de trouver un tel estimateur. Donc, au lieu dechercher l’estimateur de Bayes, on relaxe le problème en introduisant un espace pluspetit de fonctions linéaires F et on cherche arginf

φ∈FR(φ). Ainsi, on peut introduire

le risque empirique :

Rn(φ) =1

n

n∑i=1

l(φ(Xi), yi)

Le problème de minimisation de ce terme est appelé Empirical Risk Minimization(ERM) et défini comme suit :

φERM ∈ argminφ∈F

Rn(φ)

Pour trouver ce terme, il existe plusieurs algorithmes d’apprentissage.

48

Page 51: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.3 Modèle prédictif

4.3 Modèle prédictif

On construit des modèles d’apprentissages basés sur les algorithmes différentsque l’on présentera dans les paragraphes suivants (pour plus de précisions sur lesalgorithmes on peut également regarder [14]). Puis, on comparera la performancedes modèles en utilisant différentes métriques.

4.3.1 Régression logistique

La régression logistique est une méthode statistique introduite par Cox en 1958.Cette approche permet de modéliser des variables binaires, donc elle est notammenttrès utilisée pour répondre aux problèmes de classification binaire. Elle consiste àprédire/expliquer les valeurs prises par une variable cible à partir des variables ex-plicatives qui sont quantitatives ou qualitatives.

Soit Y la variable à prédire (variable expliquée) et X = (X1, X2, . . . , Xd) lesvariables explicatives La variable Y prend deux modalités possibles 1, 0. L’objectifici est d’estimer la probabilité a posteriori d’obtenir la modalité 1 de Y (resp. 0)sachant la valeur prise par X, notée P(Y = 1|X) (resp. P(Y = 0|X)). Pour cela, onsuppose que :

lnP(Y = 1|X)

1− P(Y = 1|X)= b0 + b1X1 + . . .+ bdXd

La fonction logit10 permet de mettre en relation la variable à expliquer avec lesvariables explicatives en respectant les ensembles de définition des variables. Deplus, en appliquant la fonction logit inverse à l’équation de ci-dessus, on obtient :

P(Y = 1|X) =eb0+b1x1+...+bdxd

1 + eb0+b1x1+...+bdxd

On doit maintenant estimer les coefficients bj. Pour cela, on utilise l’approche dela maximisation de la vraisemblance. La probabilité d’appartenance d’un individuω à un groupe (1 ou 0), que nous pouvons également voir comme une contributionà la vraisemblance, peut être décrite par P(Y (ω) = 1|X(ω))Y (ω) × [1 − P(Y (ω)) =1|X(ω)]1−Y (ω). La vraisemblance d’un échantillon Ω s’écrit alors :

L =∏ω

P(Y (ω) = 1|X(ω))Y (ω) × [1− P(Y (ω) = 1|X(ω))]1−Y (ω)

Les paramètres bj (j = 0, . . . , d) qui maximisent cette quantité sont les estimateursdu maximum de vraisemblance de la régression logistique.

Cependant, on ne se contentera pas de maximiser uniquement cette quantité,on introduit une pénalisation. En effet, une pénalisation permet de réduire la vari-abilité de l’estimation. En outre, la pénalisation de type L1 (lasso) rétrécit certainscoefficients, alors que les autres sont annulés exactement, aboutissant ainsi à desmodèles parcimonieux. Cette méthode de contraction des coefficients appliquée à la

10logit(p) = ln( p1−p )

49

Page 52: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.3 Modèle prédictif

régression logistique consiste à maximiser la fonction L pénalisée par la norme L1

du vecteur de coefficients inconnus :

β(λ) = argmaxβ

(L(β, (X, Y ))− λ||β||1)

où λ est un paramètre de régularisation, ||β||1 =∑p

j=1 |βj| est la norme L1 descoefficients et L la log-vraisemblance conditionnelle.

4.3.2 Support vector machine

Les Support Vector Machines (Séparateurs à Vastes Marges) ont été introduitspar Guyon en 1992 ([12]). Cet algorithme d’apprentissage consiste à construire unou plusieurs hyperplans en dimension très grande (voire infinie) qui peuvent êtreutilisés en classification ou en régression. On s’intéressera, dans notre cas, à l’usageen classification binaire. Un exemple de séparation peut être vu sur la figure 20 :

Figure 20: Exemple de séparation entre deux classes

Soit (x1, y1), . . . , (xn, yn) avec xi ∈ RNet yi ∈ −1, 1 une base d’apprentissage,et ω un vecteur de poids de même dimension que xi. Alors la fonction discriminanteh sera définie par :

h(x) = ωTx+ ω0

On suppose que x est de classe 1 si h(x) ≥ 0 et de classe -1 sinon. On peut noteralors :

y = signe(h(x)) = signe(ωTx+ ω0)

On appelle hyperplan séparateur la frontière de décision h(x) = 0. La marge estla distance entre l’hyperplan et les échantillons les plus proches. Ces derniers sont

50

Page 53: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.3 Modèle prédictif

appelés vecteurs supports. L’objectif est de trouver un hyperplan qui maximise lamarge.

Or la distance d’un échantillon xi à l’hyperplan est donnée par sa projectionorthogonale sur le vecteur de poids :

yi(ωTxi + ω0)

||ω||

Ainsi, l’hyperplan séparateur de marge maximale est donné par :

argmaxω,ω0

1

||ω||mink

[yk(ωTxk + ω0)]

Si le problème est linéairement séparable, on a :

yi(ωTxi + ω0) ≥ 0

De plus, si on normalise ω et ω0 en satisfaisant les conditions :ωTx+

marge + ω0 = 1ωTx−marge + ω0 = −1

Alors on a :yi(ω

Txi + ω0) ≥ 1

Ainsi, la marge vaut désormais 1||ω|| , le problème revient donc à :

maxω,ω0

1||ω||

∀i, yi(ωxi + b) ≥ 1 (s.c.)

qui est équivalent à : minω,ω0

12||ω||2

∀i, yi(ωxi + b) ≥ 1 (s.c.)

Cependant, lorsque le problème n’est plus linéairement séparable, on introduit unevariable non négative et non nulle ξi qui relaxe les contraintes :

yi(ωxi + b) ≥ 1− ξi

Ainsi le problème d’optimisation est modifié :minω,ω0,ξ

12||ω||2 + C

n

∑ni=1 ξi

∀i, yi(ωxi + b) ≥ 1− ξi (s.c.)ξi ≥ 0

(8)

où C > 0 est un paramètre de pénalisation. En résolvant le lagrangien, on trouve leproblème dual :

maxα

∑ni=1 αi −

12

∑i,j yiyjαiαjx

Ti xj∑n

i=1 αiyi = 0 (s.c.)0 ≤ αi ≤ C

n

51

Page 54: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.3 Modèle prédictif

Ainsi, l’algorithme SVM tente de résoudre ce problème d’optimisation. La grandecapacité du SVM est le kernel trick qui consiste à projeter les données non séparablesdans un espace où elles le sont, appelé espace de redescription et note Φ(X). Onutilise donc une fonction noyau K(xi, xj) = Φ(xi)

TΦ(xj). L’exemple le plus simpleest le noyau linéaire défini par K(xi, xj) = xTi xj, on peut également citer le noyauRBF (ou noyau gaussien) , le noyau polynomial etc.

En outre, lorsqu’on examine l’équation 8, on remarque que ξi = 0 si yi(ωTxi +ω0) > 1. D’autre part, ξi = 1 − yi(ω

Txi + ω0) si yi(ωTxi + ω0) < 1. Donc onen déduit que ξi = max(0, 1 − yi(ωTxi + ω0)). Ainsi, on peut réécrire le problèmed’optimisation de la manière suivante :

minω,ω0

1

2||ω||2 +

C

n

n∑i=1

max(0, 1− yi(ωTxi + ω0))

En effet, on remarque que le classifieur de vecteurs supports n’est d’autre qu’unerégularisation du risque empirique. Ici, le risque empirique est donné par le termemax(0, 1 − y(ωTx + ω0) et la régularisation est donnée par le terme 1

2||ω||2. Ainsi,

on peut introduire un support vectors machines pénalisé L1 (Zhu et al. 2003) :

C

n

n∑i=1

max(0, 1− yi(ωTxi + ω0)) +minω,ω0

λ||ω||21

4.3.3 Classification And Regression Trees (CART)

La méthode CART est une méthode qui se réfère à l’arbre de décision utilisépour une classification ou une régression dans un problème de prédiction. Elle aété introduite par Breiman en 1984 [7]. En effet, cet algorithme est l’origine desalgorithmes les plus utilisés comme bagging trees, random forest ou encore boosteddecision trees. Il est également connu pour sa simplicité. Les arbres de décision peu-vent être assimilés à un ensemble de questions qui permettent de diviser l’ensembled’apprentissage en parties de plus en plus petites. Les questions attendent desréponses oui/non, on parle des arbres binaires. Un exemple est représenté dans lafigure 21.

Poids > 2 t.

Véhicule type A Puissance moteur > 200 ch

Véhicule type B Véhicule type A

oui non

oui non

Figure 21: Exemple : arbre de décision classification des véhicules par type A ou B

52

Page 55: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.3 Modèle prédictif

Comme on voit dans cet exemple, un arbre débute à partir d’une racine ou unnœud initial puis se divise en deux branches conduisant à deux nouveaux nœuds quise divisent (ou non) en de nouvelles branches ... Les derniers nœuds sont appelésfeuilles. Ainsi, la construction d’un arbre de décision consiste à déterminer uneséquence de nœuds. Soit X l’ensemble d’apprentissage comportant M variables etN individus, et y le vecteur de N individus ayant K classes. On cherche alors àdéterminer xcj pour j = 1, . . . ,M la valeur optimale à laquelle diviser la variablexj pour créer un nouveau nœud le plus optimal en terme d’homogénéité. Ainsi,pour la classification on utilise la fonction d’impureté de Gini qui correspond à lafréquence avec laquelle un élément de l’ensemble serait mal classé si son étiquetteétait sélectionnée aléatoirement. Il atteint sa valeur minimum (zéro) lorsque tousles éléments de l’ensemble sont dans la même classe de la variable cible. Ainsi,l’algorithme cherche à minimiser cette fonction :

IG(f) =K∑i=1

fi(1− fi) =K∑i=1

(fi − f 2i ) =

K∑i=1

fi −K∑i=1

f 2i = 1−

K∑i=1

f 2i =

K∑i 6=k

fifk

L’arbre est créé de manière récursive jusqu’à soit obtenir une homogénéité optimale,soit un des critère d’arrêt passé en paramètre (profondeur de l’arbre maximale, pop-ulation minimale dans les feuilles, etc.). Cependant, un arbre trop profond peutposer le problème de sur-apprentissage (appelé également overfitting en anglais).

4.3.4 Random forest

Figure 22: Exemple Random forest

Random forest est une méthode ensembliste introduite par Breiman qui dérivedu bagging tel que présenté dans Breiman en 1996 [5]. Le principe de cette approcheest de créer plusieurs estimateurs (arbres de décisions) à partir d’un même jeu dedonnées en effectuant un tirage aléatoire avec remise sur les lignes et les colonnesde la base de données (bootstrap). Puis, il consiste à agréger les prédictions deces différents estimateurs (aggregation), soit en moyenne ou soit par un vote. Le

53

Page 56: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.3 Modèle prédictif

bagging permet de réduire la variance en agrégeant des estimateurs décorrélés carils n’ont pas accès aux même informations à cause du tirage aléatoire des features.Ainsi, on a tendance à augmenter la profondeur des estimateurs pour réduire le biais.

4.3.5 Balanced Bagging

Cette approche consiste à atténuer les effets de déséquilibre de la base d’apprenti-ssage qui a tendance à diminuer fortement la performance d’un modèle. Par exemple,si la base d’apprentissage est composée majoritairement de 0 et de très peu de 1,le modèle a tendance à prédire tout le temps 0. En terme de pertinence ou deprécision, le modèle peut paraître bon puisque le modèle arrive à prédire la plupartde vrais négatifs (qui composent majoritairement la base) en prédisant fréquem-ment comme négatifs. Ainsi, on observe un problème de déséquilibre qui peut nousamener à un modèle mal ajusté à cause de la classe majoritaire (ici les 0). Pouréviter ce phénomène, une approche appelée balanced random forest a été introduitepar Breiman en 2001 [6]. L’idée est d’effectuer un bagging en équilibrant les pro-portions des classes. En effet, on effectue d’abord un bootsrap de la base commedans un bagging normal. Ensuite, on ré-équilibre les échantillons obtenus jusqu’àavoir la même proportion de 1 (classe minoritaire) et de 0 (classe majoritaire) enréduisant le nombre de la classe majoritaire. Enfin, on fait l’apprentissage des ar-bres de décision et on utilise le vote majoritaire pour avoir le résultat final. De lamême manière, il est possible de choisir d’autres estimateurs qu’un arbre de décisionpour pouvoir appliquer ce balanced bagging. Le fait de réduire la proportion de laclasse majoritaire, under-sampling a été justifié par une approche bayésienne dansle papier publié par Wallace en 2001 [21]. Les procédures de balanced bagging sontvisualisés dans la figure 23 :

Figure 23: Illustration du balanced bagging tirée de [11]

54

Page 57: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.3 Modèle prédictif

4.3.6 Extreme gradient boosting (XGBoost)

XGBoost est une méthode d’apprentissage qui se base sur le Gradient Boostingqui a été proposé dans Greedy Function Approximation: A Gradient Boosting Ma-chine, de Friedman[13]. XGBoost a été introduite par Chen en 2014 [9]. Le principede l’algorithme consiste à minimiser la fonction objective qui est composée de lafonction perte et le terme de la régularisation :

L(Θ) = l(θ) + Ω(Θ)

Dans notre cas binaire, on prend souvent une fonction logistique pour la fonction deperte :

L(θ) =∑i

[yiln(1 + e−yi) + (1− yi)ln(1 + eyi)] (9)

D’autre part, le terme de la régularisation Ω permet d’éviter l’overfitting. Ilpermet au modèle d’être plus général afin de s’adapter à plusieurs types de donnéesqui peuvent être différents de la base d’apprentissage sur laquelle le modèle estentraîné. Dans un modèle XGBoost, on peut écrire le modèle sous forme :

yi = φ(xi) =K∑k=1

fk(xi), fk ∈ F

où F est l’espace des fonctions CART et avec ft(x) = wq(x), w ∈ RT , q : RT →1, 2, . . . , T. En effet, w est un vecteur des scores dans les feuilles et q est unefonction qui assigne chaque point à une feuille et T le nombre de feuilles. Parailleurs, on définit le terme de la complexité Ω de façon suivante :

Ω(f) = γT +1

2λ∑j=1

Tw2j

L’algorithme consiste alors à minimiser le terme suivant :

L(φ) =∑i

l(yi, yi) +∑k

Ω(fk)

Pour cela, comme évoqué précédemment, on utilise la méthode du Gradient boost-ing, une méthode d’agrégation d’estimateurs faibles. Ce dernier consiste à améliorerà chaque étape l’estimateur qui a été obtenu auparavant en ajoutant un estimateurfaible. Ainsi en posant y(t)

i le i-ème estimateur au t-ième itération :

y(0)i = 0

y(1)i = f1(xi) = y

(0)i + f1(xi)

y(2)i = f1(xi) + f2(xi) = y

(1)i + f2(xi)

. . .

y(t)i =

t∑k=1

fk(xi) = y(t−1)i + ft(xi)

(10)

55

Page 58: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.4 Métriques de classification binaire

Donc on peut réécrire la fonction objective à l’itération t :

L(t) =n∑i

l(yi, y(t)i ) +

t∑i=1

Ω(fk)

=n∑i

l(yi, y(t−1)i + ft(xi)) + Ω(ft) + constante

'n∑i

[l(yi, y(t−1)i ) + gift(xi) +

1

2hif

2t (xi)] + Ω(ft) + constant

(11)

avec

gi = ∂y(t−1)i

l(yi, y(t−1)i )

hi = ∂2

y(t−1)i

l(yi, y(t−1)i )

(12)

en utilisant le développement de Taylor Young sur la fonction l définie dans l’équation9 : gi et hi sont respectivement les gradients d’ordre 1 et 2. Ainsi, on obtient lafonction objective simplifiée en posant Ij = i|q(xi) = j :

L(t) =n∑i=1

[gift(xi) +1

2hif

2t (xi)] + Ω(ft)

=n∑i

[gift(xi) +1

2hif

2t (xi) + γT +

1

T∑j=1

w2j

=T∑j=1

[(∑i∈Ij

gi)wj +1

2(∑i∈Ij

hi + λ)w2j ] + γT

(13)

On peut calculer le poids optimal w∗j de la feuille j :

w∗j = −∑

i∈Ij gi∑i∈Ij hi + λ

4.4 Métriques de classification binaire

Pour pouvoir comparer la performance de différents modèles que l’on va créer,on utilisera certaines métriques de la classification binaire. La plupart des métriquesd’un classifieur binaire reposent sur les valeurs de matrice de confusion (table 10).

56

Page 59: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.4 Métriques de classification binaire

Réalité

PrédictionVrai Faux

Vrai VraiPositif

FauxNégatif

Faux FauxPositif

VraiNégatif

Table 10: Table de confusion

On notera dans la suite "Vrai Positif" = "VP", "Faux négatif" = "FN", "FauxPositif" = "FP", "Vrai Négatif" = "VN". On peut définir les métriques suivants :

• La précision correspond à la proportion d’individus que l’on a correctementprédit comme positifs, elle se calcule par : V P

V P+FP

• Le rappel ou la sensibilité ou encore le taux de vrais positifs correspond à laproportion d’individus que l’on a réussi à retrouver, il est donné par V P

V P+FN

• Les retombées ou taux de faux positifs qui correspond à la proportion de faussealarme : FP

V N+FP

• La spécificité ou taux vrais négatifs à la proportion d’individus que l’on acorrectement prédit comme négatifs, elle se calcule par : V N

V N+FP

Ces métriques fonctionnent par paire car l’interprétation de l’une dépend de lavaleur de l’autre. L’exemple du couple rappel/précision est connu : atteindre unrappel de 100% est aisé, il suffit de prédire comme positif tous les individus. Cepen-dant, cela entraînerait une précision égale au taux cible (la proportion des vrais 1sur toute la population). De même, une précision de 100% s’atteint en classant tousles individus 0 donnant ainsi un rappel nul.

Afin de pouvoir se passer de cette contrainte imposée par les métriques liées, onpeut les combiner pour former des métriques uniques. L’exemple le plus connu estl’AUC (area under curve) de la courbre ROC (receiver operating characteristic, pour« caractéristique de fonctionnement du récepteur ») qui se définit comme l’aire sousla courbe du taux de vrais positifs/ taux de faux positifs. En effet, plus cette courbese rapproche du coin supérieur gauche, plus le classifieur se comporte de manièreefficace. Proche du coin supérieur gauche, il optimise le taux de vrais positifs etminimise le taux de faux positifs : autrement dit, le classifieur arrive à retrouverbeaucoup de vrais positifs parmi ses prédictions positives (taux VP élevé) tout enminimisant les fausses alarmes (taux FP faible). Cette métrique est comprise entre0 et 1: 1 étant un classifieur parfait et 0,5 un classifieur aléatoire. C’est égalementun outil graphique qui permet de comparer les performances des modèles. Pourpouvoir calculer ce score, on fait varier le seuil qui permet de trancher en 1 ou 0 (sila probabilité sortie du modèle est inférieure au seuil, il est topé 0.) et on calculele taux de vrais positifs et le taux de faux positifs correspondants : on représente le

57

Page 60: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.5 Application

taux de vrais positifs en ordonnées et le taux de faux positifs en abscisse.

De même, on peut citer l’average precision score qui correspond à l’AUC de lacourbe précision/rappel. Il permet également d’examiner la performance globale dumodèle. Plus cette courbe se rapproche du coin supérieur droit, plus le classifieur estperformant dans le sens où il arrive à être précis dans ses prédictions positives (pré-cision élevée) en retrouvant la plupart des vrais positifs (rappel élevé). Le modèleparfait aurait un AUC de courbe précision/rappel de 1. Un bon classifieur devientpertinent aurait un score supérieur à P

P+Navec P le nombre de 1 et N le nombre

de 0. La perfomance d’un classifieur aléatoire correspond à PP+N

. En effet, ce termecorrespond à la précision lorsque le rappel est égal à 1 : autrement dit, lorsqu’onprédit tout comme positifs, le rappel est égal à 1 et la précision est égale à P

P+N.

On peut notamment décrire les allures différentes de la courbe de précision/rappel(fig 24). Cette courbe permet de voir la capacité de récupération des 1 tout enconsidérant la précision en fonction des différents seuils.

Figure 24: Illustration de la courbe précision/rappel par cas tirée de [20]

4.5 Application

Avant d’entamer la partie de la création du modèle, on a divisé la démarche en 3 par-ties. Tout d’abord, on nettoie la base d’apprentissage brute (preprocessing), ensuiteon enrichit la base (feature engineering) et enfin on entraîne le modèle (machinelearning). On est dans le cas d’apprentissage supervisé. La base d’apprentissageou base train est constituée des données de recours qui ont été présentés pour lapremière fois entre Janvier 2014 et Décembre 2016 (3 années). Pour pouvoir testernotre modèle, on introduit une base test qui sera composée des données de recoursqui ont été présentés pour la première fois entre Janvier 2017 et Mars 2017 (3 mois)comme on peut le voir dans la figure 25. Cette période de 3 mois a été choisie carla date d’extraction de la base a eu lieu au mois de Juin 2017. Comme on considèrela date de présentation de recours, il faut compter 3 mois de plus pour avoir toutesles informations concernant les contestations et les reversements car le délai d’unecontestation est de 3 mois. Donc, les dossiers qui ont été présentés par exemple enMars 2017 (sur lesquels on test notre modèle) n’ont des informations complètes surles contestations ou les reversements qu’en Juin 2017 qui sont les informations sur lavariable cible. Ainsi, après la création du modèle, on peut l’appliquer à la base test

58

Page 61: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.5 Application

(qui sera mis exactement aux mêmes formats composés des mêmes variables que labase d’apprentissage) pour pouvoir mesurer la performance.

Figure 25: Démarche globale

4.5.1 Preprocessing

Le but du preprocessing est de rendre les données brutes utilisables pour l’apprentissage.En effet, la plupart des algorithmes de machine learning ne peuvent prendre que desdonnées numériques en entrée. De plus, cette procédure permet également de trans-former ou combiner certaines variables qui peuvent être interprétées différemmentpar les modèles d’apprentissage et ainsi apporter de nouvelles informations. Danscette partie, on a effectué les transformations de la base comme :

• ligne unique par recours : on cherche à créer un modèle qui donne un scorede réussite de la contestation (reversement) alors il est préférable d’avoir uneligne unique par recours.

• création des colonnes historiques : comme il peut exister plusieurs opérations(paiement dû au recours, contestations, reversements) on doit stocker les in-formations sur l’historique.

• transformation des variables qualitatives avec la méthode one hot encoding :il s’agit de transformer une variable catégorielle en plusieurs variables binairesafin de pouvoir être interprétable par les algorithmes. Elle permet égalementde capter les modalités importantes pour la variable cible.

• conversion des dates : conversion des dates au format texte vers un formatcompréhensible par l’algorithme

• normalisation des données : cette procédure permet de normaliser les données.Les variables quantitatives qui prennent des valeurs importantes auront despoids peu différents de ceux des variables binaires (pour régression logistiqueet support vector machine).

En plus de ces procédures, on a également effectué une présélection des vari-ables de la base d’apprentissage: le choix des variables de la base d’apprentissage estprimordial. On ne peut pas intégrer des informations qui viennent après le résultat

59

Page 62: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.5 Application

d’une contestation. Par exemple, la variable "montant reversé" est une variable quiest fortement liée à la variable cible "reversement oui/non". En effet, on ne doitpas disposer de cette variable "montant reversé" avant même l’émission d’une con-testation. Pour repérer ce genre de variables, on a recours à la sélection de variabled’un algorithme d’apprentissage pour pouvoir les éliminer. Pour cela, on a utiliséles support vector machines pénalisés norme L1 (le coefficient de la pénalisation aété optimisé en utilisant grid search). Ainsi, on a pu repérer les données qui sontfortement liées à la variable cible. De plus, la pénalisation permet de bénéficier dela sparcité des données. Autrement dit, on arrive à avoir des coefficients nuls auxvariables qui sont combinaisons des autres variables déjà existantes (corrélation nonnégligeable). Finalement, on obtient une base d’apprentissage avec 84 variables aulieu de plus de 200 variables.

4.5.2 Feature engineering

Feature engineering est la partie qui permet d’enrichir la base d’apprentissage.Elle consiste à créer ou ajouter de nouvelles variables et elle permet d’améliorer laperformance d’un modèle d’apprentissage. Par exemple, on a ajouté des informa-tions suivantes :

• Clusters : ce sont les clusters que l’on a trouvé dans la partie GMM

• Parties endommagées constatées : c’est une variable renseignée dans les rap-ports d’expert. Elle indique au maximum 5 chocs constatés. Chaque partieendommagée est numérotée de 1 à 10 : 01 (Avant gauche), 02 (Avant droit), 03(Latéral gauche), 04 (Latéral droit), 05 (Arrière gauche), 06 (Arrière droit), 07(Arrière), 08 (avant), 09 (Dessus/dessous) et 10 (sans objet). Ainsi la variableprendre comme valeur qui est une liste comportant des numéros (ex: [01, 02,04, 08]).

• Parties endommagées probables en fonction du cas de barème : en utilisant lesmêmes notations et en se référant à chaque cas de barème, on peut attribuerune liste des chocs possibles pour chaque cas de barème.

Figure 26: Cas 10

Par exemple, si on regarde la figure 26, le véhicule de X aura probablement lesparties arrière et arrière droite qui seront endommagées. Ainsi, cette variableaura comme valeur [06, 07].

• Variable indiquant la cohérence entre les parties endommagées constatées et lesparties endommagées probables selon le cas de barème : dans cette variable oncompare les deux variables précédentes afin de savoir si la situation constatéeest cohérente. Pour cela, on regarde l’intersection de deux listes. S’il y a aumoins un élément, on considère qu’il y a une cohérence entre le constat desparties endommagées et le cas de barème.

60

Page 63: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.5 Application

Ainsi, ces nouvelles variables permettent d’enrichir notre base d’apprentissage.

4.5.3 Machine learning

Il faut savoir que les reversements sont assez rares par rapport aux paiements ouencaissements des montants des recours forfaitaires. Lorsqu’on regarde la proportiondes reversements, elle est très faible. Ainsi, notre problème peut être "déséquilibré".Le modèle peut facilement atteindre une précision qui est proche de 100% car ilprédit tout "0". Ce problème peut être traité en insistant sur les "1". Ainsi, ona envisagé 3 méthodes de ré-échantillonnage afin de pouvoir améliorer la précision(= V P

V P+FP) :

• Under-sampling : cette méthode consiste à supprimer les négatifs ("0") jusqu’àavoir autant de positifs ("1") que de négatifs.

• Over-sampling : elle consiste à dupliquer les positifs jusqu’à avoir autant depositifs que de négatifs

• SMOTE (Synthetic Minority Over-sampling) : elle consiste à créer de nou-veaux "1" en prenant le milieu des "1" déjà existants jusqu’à avoir autant de"1" que de "0". [8]

Cependant, il faut savoir que ces méthode de ré-échantillonnage ont quelques dé-fauts. Par exemple, la méthode under-sampling cause une grosse perte de données.De même, over-sampling peut causer le phénomène de sur-apprentissage puisquele modèle apprend sur le même exemple plusieurs fois (lignes dupliquées). Enfin,SMOTE peut également causer l’overfitting, l’espace d’apprentissage restant con-vexe : le modèle ne sort jamais de sa zone de "confort". De plus, à la place de cesméthodes de ré-échantillonnage, on peut simplement utiliser xgboost en modifiantun méta-paramètre qui permet d’insister sur les poids des positifs afin d’équilibrerles poids entre positifs et négatifs. On peut également utiliser le balanced baggingqui permet de répondre également à cette problématique.

Les algorithmes de machine learning possèdent des méta-paramètres qui influen-cent leur performance. Il est possible de les ajuster en utilisant des algorithmes ditsde "méta-optimisation". Ainsi on a utilisé les deux méthodes suivantes :

• Grid Search : une approche qui consiste à tester l’ensemble des valeurs quiont été fixés auparavant. Il parcourt la totalité des combinaisons possibles desméta-paramètres. Elle a un défaut qui est un temps de calcul très long lorsquele nombre de méta-paramètres à optimiser augmente.

• Tree of Parzen Estimateur : une approche introduite par Bergstra et al. (2011)qui consiste à maximiser l’Expected Improvment (amélioration attendue) enmodélisant la probabilité jointe p(x, y) comme p(y)p(x|y) avec y le score et xles méta-paramètres du modèle. [3]

Ainsi, on entraîne les modèles d’apprentissage sur notre base d’apprentissage(Janvier 2014 - Décembre 2016). Ensuite, on prédit grâce aux modèles entraînés surla base test (Janvier 2017 - Mars 2017). Comme on sait s’il y a eu des reversementssur cette période, on peut calculer les métriques et ainsi interpréter les résultats.

61

Page 64: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.5 Application

4.5.4 Résultats et interprétation

Une fois les modèles obtenus, pour pouvoir les comparer, il faut faire un choixde métrique. Pour cela, on a choisi le score d’AUC ROC qui permet de considérer laperformance globale d’un modèle en se concentrant sur la précision des prédictionsdes vrais positifs (rappel) et le taux des fausses alarmes que l’on veut surtout éviter.D’autre part, il faut prendre en considération notre objectif. En effet, les gestion-naires ne peuvent pas gérer tous les recours subis car il y en a trop. Le but de notremodèle est d’aider les gestionnaire à traiter certains dossiers en priorité. Ainsi, ilest intéressant de regarder davantage la précision même si on peut avoir un rappelqui peut être moyen voire faible. Un gestionnaire a un nombre limite de dossiersqu’il peut traiter. Si on est dans le cas où le modèle ne peut pas retrouver tousles positifs (un rappel moyen) et qu’il a une proportion importante de prédictionspositives correctes (bonne précision), alors le modèle répond aux besoins. De même,on peut introduire la notion de lift qui permet de comparer la performance entrele cas où on conteste aléatoirement et le cas où on conteste en utilisant un modèle.Cette notion permet de voir combien de fois on fait mieux avec un modèle.

On calcule le score AUC ROC par modèle. On utilise les méthodes de ré-échantillonnage pour random forest qui ne considère pas le problème de déséquili-bre.11 L’entraînement des modèles sur la base d’apprentissage nous permet de lesappliquer à la base test et ainsi de calculer la métrique. De plus, pour détecter unéventuel problème d’overfitting s’il existe, on utilise la méthode de cross-validation.Cette approche consiste à diviser la base d’apprentissage en k partitions aléatoire-ment. Ensuite, on fait l’apprentissage sur k − 1 partitions et on applique le modèlesur la partition restante. Enfin on répète cela k−1 autres fois. Cela permet d’obtenirk résultats et on peut calculer l’écart type. Si ce dernier est élevé alors il y a unrisque de sur-apprentissage.

Les scores sont récapitulés dans la table 11 en fonction des modèles et types deré-échantillonnage.

Modèle Train TestAUC ROC AUC ROC

blagging 0,93 (+/- 0,04) 0,93lm 0,92 (+/- 0,12) 0,92rf 0,92 (+/- 0,13) 0,93rf u 0,92 (+/- 0,23) 0,90rf o 0,92 (+/- 0,32) 0,91rf s 0,92 (+/- 0,31) 0,91xgb 0,93 (+/- 0,04) 0,94

Table 11: blagging: balanced bagging, lm: logistic model, rf: random forest,xgb: XGBoost. Les lettres "u", "o" et "s" correspondent respectivement à under-sampling, over-sampling et SMOTE.

11Les méthodes de ré-échantillonages ne sont pas appliquées pour la régression logistique. Elle estpeu sensible au problème du déséquilibre dans le cas des prédictions. Cependant, le déséquilibrede la base peut biaiser l’estimation de l’intercept [15].

62

Page 65: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.5 Application

On peut constater que les scores AUC ROC sont plutôt proches entre les dif-férents modèles. Le modèle XGBoost a le meilleur score. On remarque égalementque les modèles provenant des différentes méthodes de ré-échantillonnage sont moinsstables (écart-types élevés). Les autres modèles comme régression logistique, ran-dom forest ou encore balanced bagging sont stables comme XGBoost. Pour pouvoirmieux visualiser la différence de performance en terme de score AUC ROC, on peutreprésenter graphiquement le score test par modèle (figure 27).

Figure 27: Courbe ROC

On peut également comparer les performances en utilisant la métrique l’AUC dela courbe précision/ rappel comme on l’avait annoncé au début. En effet, elle permetde voir la capacité de récupération des 1 en considérant le taux des prédictionspositives correctes en fonction des différents seuils. Elle a des allures atypiquesdues au déséquilibre des classes dans la base d’apprentissage : lorsque le rappelaugmente, la précision décroît assez vite. Cela peut suggérer une capacité médiocrede récupération pour les modèles. Cependant, notre but est de concevoir un modèlepermettant de sélectionner un petit nombre de dossiers qui obtiennent les meilleursscores pour pouvoir les traiter en priorité : le seuil qu’on fixe pourrait être très élevécar la précision nous importe. On remarque que XGBoost semble encore être le plusperformant (figure 28). D’autre part, balanced bagging a une meilleure performance(en terme de précision/rappel) que random forest qui avait pourtant le même scoreAUC ROC que celui-là.

63

Page 66: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.5 Application

Figure 28: Courbe précision/rappel

Ainsi, on a deux modèles à notre disposition qui nous paraissent globalementperformants : XGBoost et balanced bagging. Cependant, même si les métriquesque l’on vient d’étudier nous aident à comparer les modèles, il est toutefois intéres-sant de quantifier leur performance d’une manière plus concrète en considérant notreobjectif qui est de cibler une proportion de recours à contester. Pour cela, on peututiliser une métrique qui s’appelle lift, très utilisée dans le domaine du marketing.En effet, elle permet de donner l’information suivante : combien de fois on fait mieuxavec un modèle qui permet de cibler une sous-population si on compare au cas sansmodèle. Cela répond à nos besoins, car il y a un nombre limité de contestations àcause des contraintes de charge des gestionnaires. Ainsi, on peut étudier le modèleque l’on a obtenu avec XGBoost pour voir sa performance applicative. Pour cela,on représente le graphique de gain cumulatif : tout d’abord, on classe les proba-bilités sorties par le modèle du plus grand au plus petit. Ensuite, on segmente lapopulation en déciles par exemple, on place le seuil de classification (la probabilitéqui sépare oui/non) à la plus petite probabilité du décile. Ainsi, on peut calculerle terme suivant : VP retrouvés avec le modèle

VP total . Elle correspond à la proportion des 1 quel’on arrive à trouver avec le modèle. Ainsi, la courbe de gain cumulatif permet devoir la population des 1 retrouvés avec le modèle. Pour notre cas, on a pris descentiles (ex: 1% meilleur, 2%, etc.) pour calculer le pourcentage target (figure 29).La courbe en pointillée correspond au cas avec un modèle aléatoire.

64

Page 67: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.5 Application

Figure 29: Graphique gain cumulatif

On peut également représenter la courbe lift. La valeur de lift pour un pourcent-age de population donné correspond à :

Pourcentage target avec le modèlePourcentage target avec le modèle aléatoire

Cela permet de savoir combien de fois, on arrive à faire mieux avec notre modèle sion compare à un modèle aléatoire. Ainsi, en faisant varier le seuil (pourcentage depopulation contacté), on peut représenter la courbe lift (fig 30).

On est dans un cas où le nombre de dossiers à contester est limité. Si on regardele pourcentage de dossiers qui ont été réellement contestés, on est à 20%. Donc sion fixe le seuil en considérant 20% de population contactée (c’est la proportion descontestations), on remarque que XGBoost est légèrement meilleur. Son lift corre-spond à 4,8.

Cependant, on ne peut pas se contenter du résultat du lift 4,8. En effet, il nefaut pas oublier que le travail des gestionnaires ne se résume pas simplement à unmodèle aléatoire. Les gestionnaires réalisent déjà une sélection des dossiers pluspertinente qu’un choix aléatoire : c’est à cette pratique actuelle qu’il est pertinentde se comparer.

65

Page 68: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.5 Application

Figure 30: Graphique Lift

Pour pouvoir quantifier l’apport du modèle à ce qui est fait actuellement, onsimule un scénario. En effet, ce dernier consiste à essayer de regarder le résultat quel’on aurait obtenu si les gestionnaires avaient travaillé en utilisant le modèle. Enfin,on peut comparer ce scénario à la réalité pour quantifier la performance augmentéegrâce au modèle prédictif. Pour cela, on procédera comme suit :

• On sélectionne 20% de dossiers qui ont eu les meilleurs scores par le modèle(comme pour les calculs de lift) : 20% correspond à la proportion de dossiersqui ont été réellement contestés (période test : Janvier 2017 - Mars 2017).

• On calcule taux réussiteréel

• On calcule taux réussitemodèle

On peut ainsi comparer les deux taux. Le taux de réussite réel est facile à calculer,il suffit de faire le rapport entre le nombre de reversements obtenus et le nombrede contestations réalisées. Cependant, pour le deuxième taux, on doit utiliser lesprobabilités pour l’estimer. Soit p le nombre de contestations qui ont été réellementréalisées entre Janvier 2017 et Mars 2017. Si on prend les p premiers dossiers enterme de meilleur score donné par le modèle, ils peuvent ne pas faire partie desdossiers qui ont été réellement contestés. Donc pour calculer le nombre de reverse-ments qu’il y aura lieu, on peut calculer les deux termes suivants :

• Nombre de 1 observés : c’est le nombre de reversements qui ont été observésréellement parmi les dossiers choisis par le modèle.

• Nombre de 1 probables : comme on ne sait pas si on aurait été reversé, sion avait contesté selon le modèle, on somme leurs probabilités données par le

66

Page 69: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.5 Application

modèle. Cela donne la nombre moyen des reversements que l’on obtiendrait.On suppose qu’ici, notre modèle est suffisamment robuste en termede précision des prédictions des vrais positifs. Les métriques déjà cal-culées montrent la fiabilité du modèle.

En sommant ces deux nombres, on obtient le nombre de reversements estimé par lemodèle. Ainsi, on peut calculer le taux de réussite avec le modèle.12

Real 20% Model 20%

on sait s’il y a eu des reversements ou non car les contestations ont été effectuées

les probabilités sorties par le modèle

Figure 31: Illustration de la mesure de la performance complémentaire du modèlevis-à-vis des gestionnaires

Finalement, lorsqu’on compare les taux de réussite des contestations, on remar-que que le modèle permet d’obtenir un taux de réussite plus élevé (de 5,4% à 10,6%).En effet, si on considère la sélection des gestionnaires comme un modèle de référence,on peut constater un lift +96%.13 De plus, le modèle retrouve environ 92% des re-versements que les gestionnaires avaient trouvé. Cela montre un modèle fiable etreste compatible avec le travail des opérationnels. Enfin, cette amélioration du tauxproduit un gain potentiel. Ainsi, notre modèle permet de minimiser la perte concer-nant les recours forfaitaires de 5,2%, autrement dit, plus de 3Me sur une année. Lecalcul a été effectué en tenant compte de la proportion des différents montants dereversements et de leurs volumes : on multiplie le volume de reversements augmentéavec le modèle par le montant moyen des reversements encaissés.

En outre, on peut également aider les gestionnaires en donnant des variablesrepères concernant la réussite des contestations. En effet, on peut essayer d’interpréterle meilleur modèle obtenu XGBoost même s’il est difficile à interpréter car les mod-èles de machine learning sont complexes et souvent vus comme des "boîtes noires".Cependant, on peut exploiter les résultats comme feature importance qui nous donnedes features les plus importants en terme du nombre d’apparitions des variables14

qui permettent de segmenter les données. Ainsi, dans la figure 32 on peut observerles variables les plus importantes pour le modèle obtenu. Les variables concernant

12On a également trouvé que le modèle est allé chercher dans les 40% du volume total des contes-tations que les métiers n’avaient pas contesté dans la réalité.

13 10,6%5,4% = 1,96

14On peut également exploiter le gain d’impureté qui mesure l’apport des variables

67

Page 70: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.5 Application

les montants nets ou les montants des dommages réels apportent beaucoup parrapport aux autres variables. Néanmoins, les autres variables comme les taux deresponsabilité, les cas de barème ou encore les fetaures qui ont été créées comme"cohérence" ou "cluster" semblent être des informations pertinentes.

Figure 32: Feature importance

Figure 33: Structure d’un arbre dans le modèle (flouté)

68

Page 71: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.5 Application

On peut même représenter la structure de l’un des arbres du modèle (figure 32).En effet, cela permet de voir concrètement comment le modèle segmente les données.

L’étude des variables importantes donnent une idée sur les variables à examineren priorité lors des traitements des dossiers notamment avant les contestations. Onpeut observer en effet, quelques variables en fonction de la variable target "reverse-ment". Dans la figure 34, on a représenté les cas de barème qui influencent le plusle taux de réussite de reversement.

Figure 34: Cas de bareme - Nombre de reversements

Figure 35: Niveau échelon de contestations - Nombre de contestations

69

Page 72: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

4.5 Application

Dans la figure 35, on voit le nombre de contestations qui ont été déjà présentées,autrement dit, différents niveaux d’échelon. On remarque que AXA a tendance àêtre reversé lorsque le niveau d’échelon grimpe.

De même, on peut effectuer un violin plot de SECART en fonction de re-versement (figure 36). La variable représentée correspond au montant qui resteà l’assureur après l’indemnisation et la réception du montant forfaitaire du recours.Cette représentation violin plot permet de voir la distribution de la variable avec lesquartiles qui correspondent au point blanc (médiane) et aux extrémités du rectanglenoir (1er et 3ème quartiles). On constate que la médiane est plus élevée lorsqu’il n’ya pas de reversement. De même, lorsqu’on observe la forme de la distribution, le picse présente dans la zone plus élevée pour le cas de non reversements. Cela signifieque plus un assureur envoie des recours des petits sinistres (qui implique le montantrestant positif puisque le coût de réparation est minime), moins AXA a une chanced’obtenir des reversements.

Figure 36: Violin plot SECART - reversement

Ces représentations graphiques permettent ainsi de mieux comprendre les liensentre la variable cible et les autres variables. Finalement, le modèle que l’on a obtenusemble pouvoir aider les gestionnaires de deux manières possibles soit en émettantles scores directement ou soit en sélectionnant les variables importantes qui leurseront des variables repères à étudier.

70

Page 73: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Conclusion

ConclusionCette étude a permis de mettre en évidence l’existence des stratégies et des com-

portements atypiques de certaines compagnies d’assurance dans le cadre des recoursforfaitaires de la convention IRSA. En effet, on a pu remarquer que les petits sin-istres jouaient un rôle important dans le déséquilibre des flux qui est l’une des causesde la balance finale négative pour AXA. La classification selon les dommages réelsa permis de repérer les assureurs qui causent plus de pertes que les autres en termedes recours forfaitaires pour AXA. Cependant, on a constaté également qu’on nepouvait pas simplement labelliser les assureurs. Malgré leurs distributions des dom-mages qui restent similaires, les compagnies semblent adopter des stratégies biendifférentes. Notamment, on a remarqué que la plupart des assureurs se concentrentsur la minimisation du coût de réparation pour minimiser leurs pertes. D’autre part,il existe certains assureurs comme l’assureur F que l’on a vu durant cette étude, quiva plus loin en se concentrant sur une certaine zone précise (0-650e) où on ne sontpas tenus de faire réaliser une expertise. Le système des recours forfaitaires lui per-met ainsi de ne pas faire de perte puisque les montants des recours forfaitaires sontsouvent au-dessus ou proches de 650e.

On a également vu que le traitement que l’on effectue pour les recours est influ-encé par la compagnie d’assurance adverse grâce à une modélisation probabiliste del’historique des états des dossiers de recours. On a supposé et vérifié que certainescompagnies peuvent se comporter différemment (états cachés) en fonction des sin-istres et que cela influence les traitements des recours, des contestations ou encoredes reversements. Il existe effectivement 3 assureurs qui peuvent être très souventdans les états défavorables pour AXA : les contestations n’aboutissent pas et il esttrès difficile d’obtenir des reversements avec ces assureurs.

Enfin, pour atténuer les effets du déséquilibre de la balance finale, on a proposéde créer un modèle de prédiction du taux de réussite d’une contestation pour aiderles gestionnaires. Le modèle obtenu XGBoost semble promettre un résultat plutôtstable et adéquat aux besoins des métiers. En considérant le volume que l’on peutcontester, on a vu que le modèle apporte une performance supplémentaire sur letravail des gestionnaires. Il a des résultats assez précis sur les prédictions de "àcontester".

Cependant, il est possible d’améliorer davantage la performance du modèle. Onpeut, par exemple, introduire une méthode d’apprentissage par renforcement quiconsiste à améliorer le modèle en faisant l’apprentissage sur des exemples qu’il n’avaitpas réussi à trouver ou le stacking qui consiste à appliquer un algorithme de machinelearning à des classifieur générés par un autre algorithme. De plus, on peut enrichirdavantage la base d’apprentissage en effectuant un text mining dans les constats oudans les rapports d’experts qui peuvent apporter des informations supplémentaires.Enfin, on peut également élargir le périmètre d’étude. Par exemple, on peut étudierde gros sinistres dont les montants des dommages sont proches du plafonnement desrecours forfaitaires 6500 euros. Le recours passe au droit commun où le montant derecours n’est plus fixé mais égal au montant intégral des dommages.

71

Page 74: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Conclusion

72

Page 75: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

BIBLIOGRAPHIE

Bibliographie[1] Convention d’indemnisation directe de l’assuré et de recours entre sociétés

d’assurance automobile. 2014.

[2] L. E. Baum. An inequality and associated maximization technique instatisticalestimation for probabilistic functions of markov processes. Inequalities, 3:1–8,1972.

[3] J. Bergestra and Y. Bengio. Random searche for hyper parameter optimization.Journal of Machine Learning Research, 13:281–305, feb 2012.

[4] C. Bishop. Pattern recognition and machine learning. Springer, 2006.

[5] L. Breiman. Bagging predictors. Machine learning, 24(2):123–140, feb 1996.

[6] L. Breiman. Random forests. Machine learning, 45(1):5–32, feb 2001.

[7] L. Breiman, J. Firedman, C. J. Stone, and R. Olshen. Classification and Re-gression Trees. Chapman and Hall, 1984.

[8] N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer. Smote:Synthetic minority over-sampling technique. Journal of Artificial IntelligenceResearch, 16:321–357, jun 2002.

[9] T. Chen and G. Carlos. Xgboost: A scalable tree boosting system.arXiv:1603.02754, mar 2016.

[10] A. Cornuéjols. Cours apprentissage et extraction de connaissances.

[11] T. Fawcette. Learning from imbalanced classes, 2016.https://svds.com/learning-imbalanced-classes/.

[12] I. M. Guyon, V. Vapnik, and B. E. Boser. A training algorithm for optimalmargin classifiers. Fifth Annual Workshop on Computational Learning Theory,pages 144–152, 1992.

[13] F. J. H. Greedy function approximation: A gradient boosting machine. Annalsof statistics, pages 1189–1232, apr 2001.

[14] T. Hastie, J. Friedman, and R. Tibshirani. The Elements of Statistical Learning.Springer, 2001.

[15] G. King and L. Zeng. Logistic regression in rare events data. Political Analysis,9:137–163, 2001.

[16] J. R. Norris. Markov Chains. Cambrigde University Press, 1997.

[17] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel,M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos,D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay. Scikit-learn: Ma-chine learning in python. Journal of Machine Learning Research, 12:2825–2830,2011.

73

Page 76: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

BIBLIOGRAPHIE

[18] L. R. Rabiner. A tutorial on hidden markov models and selected applicationsin speech recognition. proceedings of the IEEE, 77:257–286, feb 1989.

[19] L. R. Rabiner and B.-H. Juang. Fundamentals of Speech Recognition. Engle-wood Cliffs, NJ: Prentice Hall, 1993.

[20] T. Saito and M. Rehmsmeier. The precision-recall plot is more informative thanthe roc plot when evaluating binary classifiers on imbalanced datasets. PublicLibrary of Science: PLOS, 10, 2015.

[21] B. C. Wallace, K. Small, C. E. Brodley, and T. Thomas. Class imbalance,redux. Proceedings - 11th IEEE International Conference on Data Mining,pages 754–763, 2011.

74

Page 77: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

AnnexeAlgorithme de forward-backward

L’algorithme de forward et backward dans le modèle de Markov caché permetde calculer le terme P(O|Λ).

Tout d’abord, on remarque qu’une observation peut se faire en deux temps :

• L’émission du début de l’observation O(1 : t) = O1O2 . . . Ot en aboutissant àl’état caché si à l’instant t.

• L’émission de la fin de l’observation O(t + 1 : T ) = Ot+1Ot+2 . . . OT sachantqu’on part de l’état caché si à l’instant t.

On peut alors écrire P(O|Λ) de la manière suivante :

P(O|Λ) =n∑i=1

αt(i)βt(i)

où αt(i) est la probabilité d’émettre le début O(1 : t) et d’aboutir à si à l’instant t,et βt(i) est la probabilité d’émettre la fin O(t+ 1 : T ) sachant que l’on part de qi àl’instant t. Le calcul de α se fait avec t croissant et le calcul de β est réalisé avec tdécroissant, d’où l’appellation de forward-backward.

Pour calculer α, on remarque pour émettre le début de l’observation O(1 : t+ 1)et aboutir dans l’état sj au temps t + 1, on doit nécessairement être dans l’un desétats si à l’instant t. Ainsi, on peut exprimer αt+1(i) en fonction de αt(i) :

αt+1(i) = P(O1, O2, . . . , Ot+1, qt+1 = si)

=∑i

P(O1, O2, . . . , Ot+1, qt = si, qt+1 = sj)

=∑i

P(O1, O2, . . . , Ot+1, qt = si)aijbj(Ok+1)

= [∑i

αk(i)aij]bj(Ok+1)

(14)

avec aij = P(qt+1 = sj|qt = si) ∀i, j ∈ [1, . . . , n] 15, t ∈ [1, . . . , T ] et bj(Ok) =P(Ok|qt = sj).

De la même manière, on peut calculer β. Ainsi, on peut définir les algorithmesforward-backward.

15n le nombre total d’états cachés.

75

Page 78: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

ANNEXE Algorithme de forward-backward

Algorithm 4 Algorithme forwardInitialization : α1(i) = P(O1, q1 = s1) = πibi(O1) avec 1 ≤ i ≤ nt=1while t < T doj=1while j ≤ n doαt+1(j) =

∑ni=1[α(i)aij]bj(Ot+1)

j= j+1end whilet=t+1

end whileP(O|Λ) =

∑ni=1 αT (i)

Algorithm 5 Algorithme backwardInitialization: βT (i) = 1 avec 1 ≤ i ≤ nt=T-1while t ≥ 1 doj=1while j ≤ n doβt(i) =

∑ni=1 ajibi(Ot+1)βt+1(i)

j= j+1end whilet=t-1

end whileP(O|Λ) =

∑ni=1 β1(i)πibi(O1)

On utilise le plus souvent les valeurs obtenues pour deux cas particuliers (t = 0)et (t = T ), on a alors:

P(O|Λ) =n∑i=1

αT (i) =n∑i=1

πiβ0(i)

76

Page 79: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Note de synthèse

La convention d’indemnisation directe de l’assuré et de recours entre sociétésd’assurance a été signée par les assureurs pour faciliter le règlement des dommagesmatériels. En effet, lors d’un accident impliquant au moins deux véhicules, chaqueassureur adhérent indemnise directement son propre assuré et peut exercer un re-cours auprès de l’assureur du responsable. Dans ce mémoire, on s’intéresse partic-ulièrement aux recours forfaitaires qui s’appliquent lorsque le montant des dommagesréels du sinistre est inférieur à 6500e. Le montant du forfait en 2017 est de 1420eet le montant du recours forfaitaire réglé est proportionnel au taux de responsabil-ité en question de l’assuré (50% ou 100%). D’autre part, il est également possibled’effectuer une contestation lors d’un désaccord, par exemple, sur le cas du barèmeou le taux de responsabilité. Si la contestation aboutit, le contestataire obtient lereversement.

Notre objectif est de comprendre les résultats négatifs qu’AXA a connu durantces 3 dernières années dans le périmètre des recours forfaitaires (table 1).

Table 1: Balances finales 2014-2016

Montants 2014 2015 2016Recours présentés nets de reversements (en Me) 124,8 121,2 126,7Recours subis nets de reversements (en Me) -129,7 -132,8 -133,5Balance finale (en M e) -4,9 -11,6 -6,8

Pour cela, on fait l’hypothèse qu’il existe certains assureurs qui ont des straté-gies précises pour minimiser leur risque et que cela crée un déséquilibre. Pourvérifier cette hypothèse, on s’intéresse à la nature des sinistres. En effet, le sys-tème forfaitaire peut être avantageux pour les assureurs qui présentent des recoursprovenant des petits sinistres. Par exemple, si le montant des dommages réels estinférieur au montant forfaitaire, l’assureur est sûr de minimiser son risque de pertefinancière. L’assureur peut ainsi avoir une incitation à déclarer les petits sinistresdont le montant des dommages est inférieur au montant du recours forfaitaire. Doncpour vérifier l’existence des assureurs ayant des comportements atypiques, on com-pare AXA aux autres compagnies en considérant la distribution des dommages réelsdes recours.

Tout d’abord, on crée un modèle mélange de gaussiens de 4 composantes à partirdes dommages réels des recours émis par AXA: c’est le comportement référentiel.Puis, on applique le modèle obtenu aux dommages réels des recours présentés parchaque assureur (i.e. les recours subis d’AXA). Cela permet d’obtenir les observa-tions attribuées dans chaque classe et on peut calculer leurs proportions. Ainsi, onobtient, pour chaque assureur, un vecteur de 4 coordonnées qui correspondent auxproportions calculées. En utilisant la distance de norme L2, on peut alors créer lamatrice de distance des assureurs. Elle permet alors de faire la classification desassureurs avec l’algorithme de k-means. On peut ainsi labelliser les assureurs avec

77

Page 80: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Note de synthèse

3 étiquettes différentes. En effet, on constate qu’il existe en particulier un grouped’assureurs pour qui le système forfaitaire semble être avantageux car ils ont beau-coup de réparations mineures (figure 1). En particulier, on remarque que l’assureurF a une distribution qui se distingue des autres malgré leurs appartenances au mêmegroupe. Dans la distribution des dommages de l’assureur F, on observe un pic autourde 650e. Ce montant correspond au seuil en-dessous duquel il n’est plus obligatoirede consulter un expert. Donc, cela permet de minimiser davantage le coût.

Figure 1: Les grands assureurs du cluster 3

Maintenant que l’on a pu faire le tri des assureurs, il est aussi important devérifier comment ces assureurs peuvent avoir une influence sur le traitement desrecours. Pour cela, on modélise une chaîne de Markov des états des recours subiscomme suit (figure 2).

1

2

3

4

p22

p33

p44

p41 p23p32p12

p24

p13

Figure 2: Graphe de la chaîne de Markov des états des recours

78

Page 81: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Note de synthèse

où les numéros correspondent aux états suivants :

1. État subi

2. État en contestation

3. État non reversement

4. État reversement

Cette chaîne de Markov est irréductible et apériodique. On peut alors utiliser lethéorème de convergence pour montrer l’unicité de la mesure invariante qui corre-spond à la loi stationnaire. Ainsi, en calculant la mesure invariante π qui satisfaitπP = π, on obtient la fraction du temps passée en chaque état. Par exemple, si oncompare l’assureur A et l’assureur F appartenant au même cluster, on constate desdifférences dans les mesures invariantes calculées (table 2). Ainsi, on peut penserqu’une simple labellisation selon la distribution des dommages qui décrivent le com-portement global des assureurs n’est pas suffisant si on veut capter les effets desassureurs atypiques.

Table 2: Mesures stationnaires des assureurs A et F

Assureur Subis En contestation Non reversé Reversé

A 0,1% 2,3% 93,7% 3,9%F 0,004% 0,017% 99,9% 0,0037%

Pour cela, on introduit la notion des états cachés. L’idée est qu’il est préférabled’éviter de catégoriser les assureurs. En effet, on suppose que chaque assureur adopteun comportement caché qui influence le traitement des recours qu’AXA effectue vis-à-vis de leurs recours. Le modèle de Markov caché permet de modéliser ces étatscachés à partir des observations. Une observation correspond à l’historique desactions menées par AXA pour traiter le recours (subi, en contestation, reversementencaissé, représentation, reversement payé). Grâce à l’algorithme de Baum-Welch,on peut estimer la matrice de transition des états cachés et les probabilités d’actionspour un état caché donné. Ainsi, les résultats des probabilités des émissions par étatcaché sont récapitulés dans la table 3.

Table 3: Récapitulatif états cachés - probabilités des émissions

Probabilités des émissions Etat caché 1 Etat caché 2 Etat caché 3Subis très faible élevée très élevéeContestation élevée faible très faibleReversement (encaissement) élevée faible très faibleReprésentation élevée faible très faibleReversement (paiement) faible très faible très faible

On constate bien qu’un assureur n’adopte pas un comportement identique toutau long de la gestion d’un recours mais peut changer une ou plusieurs fois d’états

79

Page 82: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Note de synthèse

cachés. En effet, lorsqu’il est en état 1 (neutre), AXA a tendance à contester etobtenir des reversements. Sinon, AXA a plus du mal à contester ou à obtenir desreversements(état 2: état défavorable, état 3: état très défavorable à AXA).

De plus, si on reprend l’exemple précédent des assureurs A et F, on remarque queleurs matrices de transitions sont irréductibles et apériodiques. Ainsi, en procédantcomme dans la partie de chaîne de Markov, on peut calculer les lois stationnairesqui décrivent les assureurs (table 4).

Table 4: Mesures invariantes des états cachés des assureurs A et F

Assureur État neutre État défavorable État très défavorable

A 83% 10% 7%F 44% 52% 4%

On voit que la probabilité totale des 2 états défavorables pour AXA est plusélevée chez l’assureur F que l’assureur A qui font pourtant partie du même cluster 3(partie GMM). De la même manière, on peut examiner les mesures invariantes pourles autres assureurs et effectuer une classification par k-means pour ainsi repérer lesassureurs comme F. D’après le résultat, on trouve un groupe de 3 assureurs dontl’assureur F fait partie. Même s’ils ne concernent qu’une part minoritaire du vol-ume total des recours, cela n’est pas négligeable et influence bien la balance finalepuisqu’AXA trouve une difficulté en terme de l’obtention des reversements avec cesassureurs.

La classification par les distributions des dommages réels et l’étude des étatscachés nous ont permis de montrer l’existence des comportements atypiques de cer-tains assureurs qui peuvent être la cause du déséquilibre de la balance finale. Onpense que cela provient d’un grand flux des petits sinistres et des assureurs qui peu-vent des fois être dans un état défavorable qui provoque une difficulté d’obtentiondes reversements. En effet, si on regarde les résultats 2016, on remarque que lemanque de reversements encaissés peuvent changer le signe de la balance (table 5) :

Table 5: Résultats 2016 (en Me)

Montant des recours Montant des reversements Montant total

Emis +147,7 -21,0 +126,7Subis -136,3 +2,8 -133,5

On peut constater qu’il y a une grande différence entre les montants des reverse-ments payés et encaissés. Cette différence a rendu la balance négative alors qu’avecles montants bruts des reversements (seulement des recours et sans reversements),la balance était positive.

On a proposé un modèle de scoring de taux de réussite d’une contestation qui per-met d’aider les gestionnaires. En effet, ces derniers ont un nombre limite de dossiersqu’ils peuvent traiter, ainsi il est intéressant d’utiliser le modèle pour classer certains

80

Page 83: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Note de synthèse

dossiers en priorité en fonction des scores sortis par le modèle. Pour cela, on utilisela méthodologie d’apprentissage statistique. Ici, on est dans le cas de la classifica-tion binaire, on essaie de classer des 0 ("non reversé") et 1 ("reversé") à partir desdonnées dont on dispose. Notre base d’apprentissage est constituée des données derecours qui ont été présentés pour la première fois entre Janvier 2016 et Décembre2016 (3 années). La base test est constituée des données de recours présentés entreJanvier 2017 et Mars 2017 (3 mois). En effet, on entraîne le modèle sur la based’apprentissage et on effectue des prédictions sur la base test qui sont sorties sousforme de scores de probabilité. Ensuite, comme on connaît les résultats des contes-tations effectuées par les gestionnaires (obtention des reversements ou non), on peutcalculer les métriques qui permettent de quantifier la performance de mon modèle.on a utilisé utilisé les métriques l’AUC ROC et le lift.

On a créé différents modèles : régression logistique, forêts aléatoires, balancedbagging et XGBoost. Pour capter l’effet du déséquilibre de la base (très peu de "1"par rapport aux "0"), on utilise les méthode de ré-échantillonnage comme under-sampling, over-sampling et SMOTE. Les résultats du score AUC ROC sont récapit-ulés dans la table 6. Le XGBoost donne le meilleur résultat.

Modèle Train TestAUC ROC AUC ROC

blagging 0,93 (+/- 0,04) 0,93lm 0,92 (+/- 0,12) 0,92rf 0,92 (+/- 0,13) 0,93rf u 0,92 (+/- 0,23) 0,90rf o 0,92 (+/- 0,32) 0,91rf s 0,92 (+/- 0,31) 0,91xgb 0,93 (+/- 0,04) 0,94

Table 6: blagging: balanced bagging, lm: logistic model, rf: random forest, xgb: XG-Boost. Les lettres "u", "o" et "s" correspondent respectivement à under-sampling,over-sampling et SMOTE.

D’autre part, lorsqu’on calcule le lift en fixant la population contactée à 20%, onobtient un lift de 4,8, autrement dit, le modèle obtenu a une performance 4,8 foisplus élevée qu’un modèle aléatoire.

Cependant, le travail des gestionnaires ne peut pas être assimilé à un simple mod-èle aléatoire. Ainsi, pour pouvoir mesurer l’apport du modèle, on calcule le tauxde réussite d’une contestation défini par nombre de reversements

nombre de contestations avec le modèle. Pourcalculer ce taux, on considère les 20% (c’est le volume des contestations réalisées)de dossiers qui ont les meilleurs scores. Ces dossiers se divisent en 2 parties: l’unequi correspond aux contestations qui ont été réalisées par les gestionnaires (donc ona l’étiquette 1 ou 0) et l’autre, les contestations qui n’ont pas été réalisées mais lemodèle les a choisi. Ainsi, pour cette deuxième partie, on somme les probabilitéssorties par le modèle afin de pouvoir estimer le nombre moyen des reversements.Ainsi, on peut estimer le taux de réussite avec le modèle. On constate une amélio-

81

Page 84: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Note de synthèse

ration du taux de réussite de contestations, de 5,4% à 10,6%.

Finalement, on peut envisager l’utilisation du modèle de deux manières possibles,soit en sortant les scores directement, soit en sélectionnant les variables importantessorties par le modèle selon le nombre d’apparitions dans les arbres.

82

Page 85: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Executive summaryThe direct indemnity agreement between the insured and insurance companies

(IRSA) has been signed by most of the insurers to facilitate the settlement of prop-erty damage. In the event of an accident involving at least two vehicles, each insurermember directly indemnifies its own insured person and can appeal to the insurerof the person in charge. In this document, we shall focus on flat-rate subrogationthat applies when actual loss amount is under than 6500e. The lump sum in 2017is 1420e and the amount of the lump sum settlement is proportional to the liabilityrate of the insured (50 % or 100 %). Moreover, it is also possible to appeal againsta complain: for example, to object against the scale or the liability rate. If theobjection is accepted, the contestant obtains the return of the amount paid.

The aim is to understand the negative results that AXA has experienced duringthe last 3 years in the perimeter of the the flat-rate subrogations (table 1).

Table 1: Final results 2014-2016

Amounts 2014 2015 2016Presented subbrogations net of returns (en Me) 124,8 121,2 126,7Sudden subbrogations net of returns (en Me) -129,7 -132,8 -133,5Final results (en M e) -4,9 -11,6 -6,8

This can be done by assuming that some insurance companies have specificstrategies to minimize their risks and thus, they create an imbalance. To verify thishypothesis, we analysed the nature of the claims. Indeed, the flat-rate system can beadvantageous for insurers who persue subrogations with small claims. For example,if the amount of actual damages is under than the lump sum, the insurer is sure tominimize its financial loss risk. Thus, the insurer may have an incentive to declaresmall claims which amount of damages is under than the amount of the subrogationlump sum. Therefore, in order to verify the existence of insurers with atypical be-havior, AXA is compared to the other companies by considering the distribution ofthe actual damages of the subrogations.

First, a model of Gaussian mixture of 4 components is built from the real damageof subrogations emitted by AXA: it is the referential behavior. Then, the modelobtained is applied to the actual damage of the subrogations emitted by each in-surer (i.e. the AXA undergone subrogations). This action allows us to obtain theobservations attributed in each class and to calculate their proportions. Hence, foreach insurer, a vector of 4 coordinates, corresponding to the calculated proportions,is obtained. Using the standard distance L2, we can calculate the distance matrix ofthe insurers. Thanks to this, we can classify insurers with the algorithm of k-means.This leads to the labellisation of the insurers into 3 different clusters. Indeed, wenote that there is a group of insurers for whom the flat rate system seems to beadvantageous because they have many minor repairs (figure 1). In particular, wenotice that the insurer F has a distribution that is distinguished from the otherseven though they belong to the same cluster. In the distribution of the damage of

83

Page 86: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Executive summary

insurer F, a peak is observed around 650e. Indeed, this amount corresponds to thethreshold below which it is no longer mandatory to consult an expert. So, it helpsto minimize the cost.

Figure 1: Insurers of cluster 3

Now that we have been able to sort out the insurers, it is also important tostudy how these insurers can influence the treatment of claims. To do this, we builta Markov chain of states of subrogations as follows (Figure 2).

1

2

3

4

p22

p33

p44

p41 p23p32p12

p24

p13

Figure 2: Markov chain graph of states of subrogations

where the numbers correspond to the following states:

1. State "recieved"

2. State "contestation"

84

Page 87: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Executive summary

3. State "no returned"

4. State "returned"

This Markov chain is irreducible and aperiodic. Indeed, we can use the conver-gence theorem to show the unicity of the invariant measure which corresponds to thestationary law. Thus, by calutating the invariant measure π which satisfies πP = π,we obtain the fraction of the time spent in each state. For example, if we comparethe insurer A and the insurer F belonging to the same cluster, we see differencesin the calculated invariant measures (table 2). Thus, we can assume that a simplelabeling according to the distribution of the damages describing the overall behaviorof the insurers is not enough if we want to understand the effects of atypical insurers.

Table 2: Stationary measures of insurers A and F

Insurer Undergone Contesting No repayed Repayed

A 0,1% 2,3% 93,7% 3,9%F 0,004% 0,017% 99,9% 0,0037%

Due to this problem, we introduce hidden states. The idea is to avoid categorizinginsurers and to assume that each insurer adopts a hidden behavior that influenceshow AXA treats their subrogations. The hidden Markov model enables to modelizethese hidden states from observations. Indeed, an observation corresponds to thehistory of actions taken by AXA to deal with the subrogation (undergone, contested,return cashed, representation, return paid). Thanks to the Baum-Welch algorithm,we can estimate the transition matrix of the hidden states and the probabilities ofactions for a given hidden state. The results of the probabilities of emissions byhidden state have been summarized in the table 3.

Table 3: Summary hidden states - probabilities of emissions

Probabilities of emissions Hidden state 1 Hidden state 2 Hidden state 3Undergone very low high very highContestation high low very lowReturn (cashinng) high low very lowReemission high low very lowReturn (paying) low very low very low

It is clear that an insurance company does not keep the same behavior through-out the management of a subrogation: it can change one or several times his hiddenstate. Indeed, when an insurance company is in state 1 (neutral), AXA is morelikely to contest and obtain returns. Otherwise, AXA has more difficulty contestingor obtaining returns (state 2: unfavorable state, state 3: highly unfavorable state toAXA).

Moreover, if we take the previous example of insurance companies A and F,we note that their matrices of transitions are irreducible and aperiodic. Thus, by

85

Page 88: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Executive summary

proceeding as in the Markov chain part, the stationary laws that describe the insurerscan be calculated (table 4).

Table 4: Invariant measurements of the hidden states of insurance companies A andF

Insurer Neutral state Unfavorable state Highly unfavorable state

A 83% 10% 7%F 44% 52% 4%

It can be seen that the total probability for AXA to be in the two unfavorablestates is higher against the insurer F than against the insurer A even though theyare in the same cluster 3 (GMM part). We can examine the invariant measures ofthe other insurers in order to find insurers like F by using a k-means classification.The results show that F is part of a group of 3 insurers. Even if they are linkedonly to a minority share of the total volume of appeals, this is not negligible andinfluences the final result since AXA finds a difficulty in terms of obtaining returnswith these insurers.

The classification by the actual damage distributions and the hidden states stud-ies allowed us to show the existence of the atypical behaviors of some insurance com-panies that may be the cause of the imbalance of the final result. This is thought tobe a result of a large flow of small claims and insurers who may sometimes be in anunfavorable state that causes difficulty in obtaining returns. Indeed, if we look atthe 2016 results, we note that the lack of cashed reversements can change the signof the balance (table 5):

Table 5: Results 2016 (en Me)

Amount of subrogations Amount of returns Total amount

Emitted +147,7 -21,0 +126,7Sudden -136,3 +2,8 -133,5

Those results show a large difference between the amounts paid and received.This difference made the balance negative whereas the balance was positive withthe amounts gross of returns (only subrogations and no returns).

We created a scoring model for the success rate of a contestation in order to helpmanagers. Indeed, the latter have a limited number of cases that they can process,so it is interesting to use the model to prioritize some cases according to the scoresreleased by the model. This has been modeled done using statistical learning meth-ods. Here, in the case of the binary classification, an attempt is made to classify0 ("not returned") and 1 ("reversed") from the available data. Our learning baseare the subrogation data that was first presented between January 2016 and De-cember 2016 (3 years). The test database are subrogation data presented betweenJanuary 2017 and March 2017 (3 months). Indeed, the model is trained on thelearning basis and predictions are made on the test basis. Those predictions are

86

Page 89: Etude des comportements des assureurs et prédi ction du ......Introduction Introduction Lechiffred’affairesdel’assuranceautomobilereprésente39%del’ensembledes cotisations

Executive summary

probability scores output. Then, as we know the results of contestation made bythe managers (obtaining returns or not), we can calculate the metrics that allow toquantify the performance of created model. We used the metrics AUC ROC and lift.

Various models have been created: logistic regression, random forests, balancedbagging and XGBoost. To capture the effect of the imbalance of the base (very few"1" compared to "0"), the resampling methods are used as under-sampling, over-sampling and SMOTE. The results of the AUC ROC score are summarized in the6 table. The XGBoost gives the best result.

Model Train TestAUC ROC AUC ROC

blagging 0,93 (+/- 0,04) 0,93lm 0,92 (+/- 0,12) 0,92rf 0,92 (+/- 0,13) 0,93rf u 0,92 (+/- 0,23) 0,90rf o 0,92 (+/- 0,32) 0,91rf s 0,92 (+/- 0,31) 0,91xgb 0,93 (+/- 0,04) 0,94

Table 6: blagging: balanced bagging, lm: logistic model, rf: random forest, xgb:XGBoost. The letters "u", "o" et "s" correspond respectively to under-sampling,over-sampling and SMOTE.

On the other hand, when we calculate the lift by fixing the contacted populationat 20%, we obtain a lift of 4.8.In other words, the model obtained has a performance4.8 times higher than a random model .

However, the work of managers can not be assimilated to a simple random model.Thus, in order to measure the contribution of the model, we calculate the successrate of a contest defined by number of returns

number of contestations with the model. To calculate thisrate, we consider the 20% (the volume of disputes carried out) of files that havethe best scores. These files are divided into 2 parts: one that corresponds to thecontestations that have been carried out by the managers (thus one has the label 1or 0) and the other, the challenges that have not been realized but the model haschosen them. Thus, for this second part, we summed the probabilities outputted bythe model in order to be able to estimate the average number of the returns. Thus,we can estimate the success rate with the model. There is an improvement in thesuccess rate of contestations from 5.4% to 10.6%.

Finally, the model created can be used in two possible ways, either by taking thescores directly or by selecting the important variables output by the model accordingto the number of appearances in the trees.

87