Nom du Projet - Sujet du Projet - Institut des actuaires

132
Mémoire présenté le : pour l’obtention du Diplôme Universitaire d’actuariat de l’ISFA et l’admission à l’Institut des Actuaires Par : Tatiana LAGOS Titre : Étude de méthodes innovantes de machine learning permettant la tarification de produits Santé en mobilité internationale Confidentialité : NON OUI (Durée : 1 an 2 ans) Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus Membres présents du jury de l’IA Signature Entreprise : Mme Catherine PIGEON Nom : SwissLife M Olivier BOUGAREL Signature : Mlle Emna FOURATI Mme Daphné LE CONTE Directeur de mémoire en entreprise Nom : Philippe GALAS Membres présents du jury de l’ISFA Signature : Pierre RIBEREAU Invité Nom : Signature : Autorisation de publication et de mise en ligne sur un site de diffusion de documents actuariels (après expiration de l’éventuel délai de confidentialité) Signature du responsable entreprise Secrétariat : Mme Christine DRIGUZZI Signature du candidat Bibliothèque : Mme Patricia BARTOLO

Transcript of Nom du Projet - Sujet du Projet - Institut des actuaires

Page 1: Nom du Projet - Sujet du Projet - Institut des actuaires

Mémoire présenté le :pour l’obtention du Diplôme Universitaire d’actuariat de l’ISFA

et l’admission à l’Institut des Actuaires

Par : Tatiana LAGOS

Titre : Étude de méthodes innovantes de machine learning permettant la

tarification de produits Santé en mobilité internationale

Confidentialité : � NON � OUI (Durée : � 1 an � 2 ans)Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus

Membres présents du jury de l’IA Signature Entreprise :Mme Catherine PIGEON Nom : SwissLifeM Olivier BOUGAREL Signature :Mlle Emna FOURATIMme Daphné LE CONTE Directeur de mémoire en entreprise

Nom : Philippe GALASMembres présents du jury de l’ISFA Signature :Pierre RIBEREAU

InvitéNom :Signature :

Autorisation de publication et de miseen ligne sur un site de diffusion dedocuments actuariels (après expiration del’éventuel délai de confidentialité)

Signature du responsable entrepriseSecrétariat :Mme Christine DRIGUZZI

Signature du candidatBibliothèque :Mme Patricia BARTOLO

Page 2: Nom du Projet - Sujet du Projet - Institut des actuaires

Mémoire d’Actuariat

Étude de méthodes innovantes de machine learningpermettant la tarification de produits Santé en

mobilité internationale

Auteur :Tatiana LAGOS

Tuteur Professionnel :Philippe Galas

Tuteur Pédagogique :Aurélien Couloumy

Avril 2018

Page 3: Nom du Projet - Sujet du Projet - Institut des actuaires
Page 4: Nom du Projet - Sujet du Projet - Institut des actuaires

Remerciements

Mes plus sincères remerciements à mon équipe de travail, Unité Souscription Mobilité Inter-nationale au sein de la Direction d’Assurances Collectives de SwissLife France. D’abord à monresponsable Philippe GALAS, non seulement par son encadrement mais aussi pour la confianceportée, la patience et le temps consacré au développement de ce projet.Ensuite, je remercie ma collègue Claire BOULLAY, pour sa relecture, ses conseils et ses cri-tiques qui m’ont guidé vers des meilleures réflexions.

Je tiens à remercier l’ensemble de collaborateurs SwissLife, par leur encouragement et dispo-nibilité. Un énorme merci à Sébastien LAZIC pour son soutien et sa remarquable contributionau déroulement de ce mémoire.

J’adresse également mes remerciements à mon tuteur pédagogique, Aurélien COULOUMY,pour ses conseils et remarques qui m’ont considérablement aidé dans mon travail.

Enfin, je remercie notamment ma famille et mes amis, en particulier Ricardo JURADO, JuanM. BARRAGAN, Victtoria SOLE et Vanessa GONCALVES qui ont contribué par leurs en-couragements et conseils à la réalisation de ce mémoire.

2

Page 5: Nom du Projet - Sujet du Projet - Institut des actuaires

Résumé

Mots-clés : Expatriation, tarification santé, analyse prédictive, régression, machine lear-ning, boosting, GLM, CART, GBM

Ces dernières années, la méthodologie GLM est devenue l’approche le plus couramment utilisélorsque l’on parle de modélisation prédictive et de manière plus précise en assurance non-vie.Toutefois, les compagnies d’assurance développent de plus en plus des plateformes Big Datapermettant de stocker une abondante quantité d’informations qui sera postérieurement uti-lisée, entre autres, pour la mise en place des modèles prédictifs servant à résoudre plusieursproblématiques rencontrées en assurance.

L’objet de ce mémoire est primordialement la mise en application d’algorithmes supervisésMachine Learning en complément de la modélisation GLM. Il s’agit bien évidemment de mé-thodologies plus modernes et spécialisées dans le cadre des problèmes de régression et qui sontaujourd’hui peu utilisées en tarification d’assurance santé à l’international.

Afin d’obtenir des modèles de qualité, le projet est mené dès la structuration d’une basede données propre et homogène jusqu’au calcul de la prime pure d’un produit de couverturebasique en santé, c’est à dire comprenant les garanties : Dentaire, Hospitalisation et SoinsCourants, en associant à chacune d’entre elles une pondération obtenue à travers de l’agréga-tion des modèles.

Ce processus nécessite un traitement préalable des données ainsi qu’une analyse détailléedu portefeuille. Entre temps, une attention particulière est donnée à la création, inclusion etsegmentation des variables tarifaires ainsi qu’à l’utilisation des Systèmes d’Information Géo-graphique dans le domaine géospatial.

Grâce au développement de ces techniques, nous prétendons maximiser l’efficacité des res-sources employées lors du processus de tarification. Pour ce faire, l’utilisation de l’outil statis-tique R nous facilitera l’obtention des résultats de l’étude.

3

Page 6: Nom du Projet - Sujet du Projet - Institut des actuaires

Abstract

Keywords : Expatriation, health insurance pricing, predictive analysis, regression, machinelearning, boosting, GLM, CART, GBM

Over the last years, the GLM methodology has become the most common and precise tech-nique in non-life predictive modeling. At the same time, insurance companies are creatingmore powerful platforms that allow us to stock more and more information each time that willbe used in these predictive models. This will help us to solve many problems that still existin the insurance world.

The purpose of this project is to apply supervised algorithms as a GLM modeling comple-ment. We are talking about the most specialized methodologies today to use in regressionproblems, and that are not frequently applied in health insurance pricing.

In order to obtain quality models, the project is conducted from the structuring of a well-treated database to a basic health care product pure premium estimates. This product includesthe following benefits : Dental care, inpatient and outpatient common treatments. Each onereceives a weighting percentage obtained by using ensemble modeling algorithms.

This process requires a pre-treatment of data, as well as a detailed portfolio analysis. Spe-cial attention is given to the creation, inclusion and categorization of the variables used topredict, as well as geographical information systems uses in a geospatial domain.

The development of these techniques will allow us to maximize the efficiency of resourcesused during the pricing process. To do so, the use of the statistical tool R will facilitate theresults of the study.

4

Page 7: Nom du Projet - Sujet du Projet - Institut des actuaires

Table des matières

I Contexte général 9

1 Présentation du projet 101.1 Le Groupe SwissLife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.1.1 SwissLife France . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.1.2 SwissLife Prévoyance et Santé . . . . . . . . . . . . . . . . . . . . . . . . 111.1.3 La Mobilité Internationale . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.2 Le contrat de Santé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.1 La Caisse des Français de l’Étranger . . . . . . . . . . . . . . . . . . . . 141.2.2 Remboursement au 1er euro . . . . . . . . . . . . . . . . . . . . . . . . . 141.2.3 La couverture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 La Tarification 162.1 Le modèle Individuel et Collectif . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 Lois de modélisation de la Fréquence . . . . . . . . . . . . . . . . . . . . . . . . 172.3 Lois de modélisation des montants de sinistres . . . . . . . . . . . . . . . . . . . 182.4 Systèmes de Tarification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.4.1 Tarification A Priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.4.2 Tarification A Posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Analyse Prédictive 223.1 Modélisation prédictive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.1.1 Modèles Prédictifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.2 Modèles Descriptifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.3 Modèles de Décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.4 Modèles Ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.5 Modèles uplift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.2 Validation des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3 Indicateurs de performance des modèles . . . . . . . . . . . . . . . . . . . . . . 253.4 Les contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.5 Le choix de l’algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.5.1 Algorithmes supervisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.5.2 Algorithmes non supervisés . . . . . . . . . . . . . . . . . . . . . . . . . 27

4 Algorithmes de Régression 284.1 Approches Classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.1.1 Modèle de Régression Linéaire . . . . . . . . . . . . . . . . . . . . . . . 284.1.2 Modèles linéaires généralisés . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.2 Approches Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5

Page 8: Nom du Projet - Sujet du Projet - Institut des actuaires

4.2.1 Arbres de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.2.2 Arbres de classification et de régression CART . . . . . . . . . . . . . . 314.2.3 Réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.2.4 Gradient Boosting Machine . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.3 Méthodes d’agrégation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.3.1 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.3.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.4 Comparatif des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5 Algorithmes de Classification 435.1 Classification Ascendante Hiérarchique . . . . . . . . . . . . . . . . . . . . . . . 43

II Mise en application 45

6 Le portefeuille d’étude 46

7 Les données 487.1 Traitement de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

7.1.1 Homogénéisation de données . . . . . . . . . . . . . . . . . . . . . . . . 497.1.2 Traitement de données aberrantes . . . . . . . . . . . . . . . . . . . . . . 517.1.3 Traitement de données manquantes . . . . . . . . . . . . . . . . . . . . . 53

7.2 Jointure Adhésions - Sinistres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 567.3 Description des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

7.3.1 La démographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 577.3.2 La consommation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

8 Analyse des postes 658.1 Description des postes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

8.1.1 Poste Dentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 668.1.2 Hospitalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 668.1.3 Soins Courants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

8.2 Corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 678.3 Segmentation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 688.4 Analyse de la sinistralité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 698.5 Individu de référence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 708.6 Séparation des sinistres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 718.7 Échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 738.8 Zonage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 748.9 Fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

8.9.1 Distribution de la fréquence . . . . . . . . . . . . . . . . . . . . . . . . . 768.9.2 Analyse de la fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

8.10 Coût Moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 788.10.1 Distribution du coût moyen de sinistres . . . . . . . . . . . . . . . . . . 798.10.2 Analyse des coûts moyens . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6

Page 9: Nom du Projet - Sujet du Projet - Institut des actuaires

III Étude de cas pratique 82

9 Modélisation des postes 839.1 Modélisation de la fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

9.1.1 GLM - Log Binomial Négatif . . . . . . . . . . . . . . . . . . . . . . . . 839.1.2 Arbres de décision CART . . . . . . . . . . . . . . . . . . . . . . . . . . 859.1.3 GBM - Log Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 889.1.4 Résultats des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 909.1.5 Performance des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . 91

9.2 Modélisation des montants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 939.2.1 GLM - Log Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 939.2.2 Arbres de décision CART . . . . . . . . . . . . . . . . . . . . . . . . . . 949.2.3 GBM - Gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 969.2.4 Comparaison des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . 989.2.5 Performance des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . 99

9.3 Agrégation des postes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

ANNEXES 108

Annexe I : Aspects théoriques 109

Annexe II : Traitement des données 112

Annexe III : Modélisation des postes 117

7

Page 10: Nom du Projet - Sujet du Projet - Institut des actuaires

INTRODUCTION

Que ce soit par des motivations liées à la vie personnelle ou professionnelle, de plus en plus degens changent de pays, voire de continent, envisageant des nouvelles opportunités. Toutes cespersonnes se posent des questions essentielles sur leur santé en cas d’incident, par exemple :

— Qui prend en charge mes dépenses de santé ?— Dois-je souscrire un contrat sous un régime local ?— Est-ce que je passe par le biais de mon employeur ?

Dans le cadre de ce mémoire nous allons étudier les cas de personnes en mobilité internatio-nale bénéficiant de couvertures d’assurance souscrites depuis la France. Certaines à traversune couverture sociale mise en place par leur entreprise dans le cadre d’un contrat collectif àadhésion obligatoire ou d’un contrat individuel à adhésion facultative.

Les remboursements de la couverture peuvent s’effectuer au 1er EURO, c’est-à-dire à par-tir du premier euro de dépense ou en complément de la Caisse des Français de l’Etranger,un organisme privé responsable du maintien des couvertures en santé, en prévoyance et enretraite, identiques à celles que nous avons avec la Sécurité Sociale française.

Par conséquent, les assureurs cherchent à répondre aux besoins de l’assuré lorsqu’il décidede s’expatrier. Ces besoins deviennent de plus en plus exigeants en raison de l’augmentationconstante de la population expatriée, ce qui génère en même temps une concurrence accrueentre assureurs.

Une deuxième couverture cruciale en assurance santé internationale est l’assistance. Nousn’allons pas rentrer dans les détails de la garantie mais de façon très générale nous pouvonsdire que dans une logique économique un assureur a intérêt dans certains cas à rapatrier l’as-suré dans son pays d’origine plutôt que de le faire soigner dans son pays d’expatriation. Unexemple clair est le cas d’expatriés aus Etats-Unis où les frais de santé sont assez coûteux.

A ce stade l’actuaire joue un rôle primordial, son objectif est de satisfaire les exigences lé-gales, de l’assuré ainsi que celles de l’assureur. Ce dernier, cherche également à commercialiserses produits tout en souhaitant avoir une bonne performance sur le marché.La commercialisation de ces produits s’effectue, dans la plupart des cas, par le biais des cour-tiers ou des compagnies d’assurance spécialisées dans la gestion des contrats de protectionsociale dans le monde entier.

Ce projet porte plus précisément sur la mise en place d’un modèle de tarification santé pourexpatriés et pour lequel on ne dispose que des données historiques recueillies de la part descourtiers partenaires de Swisslife, précédé notamment d’un travail de récolte de données.

7

Page 11: Nom du Projet - Sujet du Projet - Institut des actuaires

Par la suite, à partir des données recueillies, la tâche la plus fastidieuse consiste à sélectionner,nettoyer et transformer les données. Cette étape constituant 80 % du succès d’un modèle deprédiction, elle demande un travail rigoureux. En effet, le pouvoir prédictif du modèle dépendde la qualité des données.

Cette procédure est complémentée avec une analyse descriptive des données. Elle permet deconnaître en profondeur les principales caractéristiques du portefeuille ainsi que de trouver lesinteractions entre les différentes variables.

D’autres applications actuarielles, telles que la théorie des valeurs extrêmes et la classifica-tion ascendante hiérarchique sont également utilisées lors de la mise en forme des donnéesavant modélisation, d’un côté pour l’identification de sinistres de pointe et d’autre part lorsde la segmentation des zones géographiques. Ces dernières sont accompagnées d’une analysegéospatiale qui peut être mise en pratique à l’aide du logiciel R.

La dernière phase comporte le calcul de la prime pure par une approche fréquence-coût enmodélisant les deux variables (Fréquence et Coût) de façon séparée. Dans un premier temps àpartir d’un algorithme classique, le modèle linéaire généralisé, qui sera dans un second tempsconfronté aux algorithmes d’apprentissage, méthodes innovantes relevant du machine learning.Ces principes techniques sont nécessaires dans la génération d’un modèle prédictif en assurancenon vie.

Ici, le projet se concentre sur la modélisation des trois garanties essentielles sur un contratde santé : Dentaire, Hospitalisation et Soins Courants. L’objet est de quantifier l’influence dechacune des garanties dans un régime complet qui permettra non seulement de dégager unefréquence basée sur l’apprentissage de nos données, mais aussi un coût moyen également sur labase de méthodes mathématiques robustes. Cela permettra in fine de tarifer une prime purepar le biais de méthodes innovantes et très efficaces.

8

Page 12: Nom du Projet - Sujet du Projet - Institut des actuaires

Première partie

Contexte général

9

Page 13: Nom du Projet - Sujet du Projet - Institut des actuaires

Chapitre 1

Présentation du projet

L’objectif de ce chapitre est la contextualisation avec l’entreprise, le périmètre de travail ainsique le portefeuille constitué pour le développement du projet.

1.1 Le Groupe SwissLife

Le groupe SwissLife fondé par Conrad Widmer à Zurich en Suisse en 1857 sous le nom initialde "Caisse de Rentes Suisse (Rentenanstalt)", se positionne aujourd’hui comme un des leaderseuropéens du marché de l’assurance. Il est établi principalement en Suisse, France et Alle-magne. SwissLife offre à ses clients, particuliers et entrepreneurs, une diversité de produits enassurance vie, banque privée, gestion financière, ainsi qu’en santé, prévoyance et dommages,par le biais de son propre réseau de distribution, des partenariats bancaires ou des courtiers.

Le groupe SwissLife emploie aujourd’hui environ 7500 collaborateurs et recense environ 4600conseillers financiers. En 2016, le groupe clôture l’année avec un chiffre d’affaires de 17,4 mil-liards CHF 1 et des actifs sous contrôle à hauteur de 204 milliards CHF.[1]

1.1.1 SwissLife France

En 1898, une première succursale connue en tant que « Société Suisse » et spécialisée dansl’assurance vie a été ouverte à Paris. En France, SwissLife est l’un des acteurs de référence surles marchés de l’assurance patrimoniale en vie et retraite et de l’assurance santé et prévoyance.

Actuellement, SwissLife France compte 2.188 collaborateurs prêts à répondre aux besoins deplus de 1.200.000 clients, assurés à titre privé ou via leur employeur. De plus, en 2016, Swiss-Life France a contribué au développement du groupe avec un chiffre d’affaires qui s’élève à 4134 millions d’euros réparti à 61% en Vie, 31% en Santé et 8% en Dommages.[1]

En France, la compagnie est composée de différentes filiales réparties parmi les 4 métiersprincipaux :

• RETRAITE ET GESTION DU PATRIMOINE :

— SwissLife Assurance et Patrimoine (Vie, épargne et retraite)— SwissLife Banque Privée (Produits et services bancaires)

1. CHF = Francs suisses

10

Page 14: Nom du Projet - Sujet du Projet - Institut des actuaires

— SwissLife Asset Management (Gestion d’actifs)

• PREVOYANCE ET SANTE :— SwissLife Prévoyance et Santé• ASSURANCE DOMMAGES :

— SwissLife Assurance de Biens (Assurance Automobile, habitation et biens)

• ASSISTANCE via des partenaires SwissLife

1.1.2 SwissLife Prévoyance et Santé

La filiale Prévoyance et Santé du Groupe SwissLife s’occupe de mettre en place des contratsindividuels communément adressés aux commerçants ou personnes indépendantes, travailleursnon salariés ou gérants majoritaires. Également des contrats collectifs adressés à des groupesde bénéficiaires de taille minimale de 5 personnes. Ces contrats disposent d’une offre en com-plément des prestations versées par l’employeur ou par les systèmes de sécurité sociale, ainsique des couvertures à l’international adressées aux personnes en mobilité internationale.L’ensemble des réseaux est régulièrement formé sur la technique des produits et sur leur envi-ronnement financier, juridique et fiscal.

1.1.3 La Mobilité Internationale

Au cours des dernières années, la mondialisation de l’économie et la facilité de voyager d’unpays à l’autre ont considérablement augmenté le nombre de résidents à l’étranger.Des recherches menées par PwC révèlent que le nombre d’employés travaillant à l’étranger aaugmenté de 25 % au cours de ces 10 dernières années et une croissance supplémentaire de50 % du nombre d’expatriés est prévue d’ici 2020 2.

En France, les chiffres montrent un taux de croissance et de forte progression ces dernièresannées sur le nombre d’inscrits au registre des Français établis hors de France. Au 31 décembre2017 le chiffre s’élève à 1 821 519, l’équivalent à 2,2 % de progression par rapport à l’année2016. L’estimation du nombre de Français vivant à l’étranger, y compris ceux qui ne sont pasinscrits au registre est entre 2 et 2,5 millions [14].

Une enquête sur l’expatriation des Français [13] constate que la communauté française àl’étranger est répartie géographiquement comme suit :

— Europe (UE et hors UE) : 49 %

— Amériques : 20 %

— Afrique du Nord Moyen-Orient : 14 %

— Asie - Océanie : 8 %

— Afrique et Océan indien : 8 %

2. Source : http ://www.focusrh.com/tribunes/expatriation-la-necessite-d-une-approche-sur-mesure-par-nicolas-redant-30205.html

11

Page 15: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 1.1 – Les destinations préférées par les Français

Cette évolution a conduit le secteur de l’assurance et en particulier SwissLife France au déve-loppement de nouveaux produits qui puissent répondre aux besoins spécifiques des expatriés.SwissLife est reconnu comme le principal fournisseur de prestations aux employés (locaux ouen mobilité) en Suisse, Allemagne, France et Luxembourg. Grâce aux solutions haut de gammeoffertes, la compagnie étend son positionnement au monde entier en couvrant aujourd’hui plusde 70 pays.

L’offre se base sur des couvertures de santé destinées aux expatriés/impatriés/détachés, ressor-tissants des pays tiers, locaux ou fonctionnaires internationaux. SwissLife propose des solutionssur mesure pour les grands comptes (plus de 25 assurés) et standards pour des petits groupes(de minimum 5 assurés) à travers des délégataires externes spécialisés dans la gestion descontrats tels que MSH International, Henner, BDAE, Gapi, Gras Savoye, MAI, April Interna-tional, Marsh, entre autres.

En dehors de la communauté européenne SwissLife se développe à l’aide de coassureurs oupartenaires (Cf. Figure 1.2) présents selon le pays de destination.

12

Page 16: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 1.2 – Réseau des partenaires SwissLife [1]

1.2 Le contrat de Santé

L’assurance des frais de santé est un instrument financier permettant de faire face aux impactséconomiques pouvant déstabiliser le patrimoine familial suite à des problèmes de santé, princi-palement dans le cas d’hospitalisations, d’accidents ou de maladies graves. Les prestations desanté incluent la prévention et l’amélioration de la santé ainsi que le bien-être et la protectionsociale.

— Prestations préventives : S’orientent vers la conservation de la santé, en minimisantles risques de détérioration. Elles sont par exemple : éducation pour la santé, évaluationet contrôle des risques et immunisation.

— Prestations de récupération : Leur objectif est la résolution des problèmes de santéliés aux risques de maladie, soient les soins de santé tels que : médecine ambulatoire,hospitalisation, pharmacie.

— Prestations de bien-être et protection sociale : Comprennent des activités d’aidesociale et de bien-être au travail ou dans la vie quotidienne.

En somme, nous pouvons résumer sur un plan social santé, l’expatriation comme la cessationdu lien entre l’assuré et la Sécurité Sociale Française. Lorsqu’un assuré s’expatrie dans un cer-tain pays, il doit primordialement être couvert sur la santé, soit en bénéficiant d’un systèmede couverture du pays de destination ou soit en gardant une couverture équivalente à celle dela Sécurité Sociale.

Le groupe de protection sociale « Humanis » a crée en 2013 le baromètre sur la protectionsociale des expatriés français qui confirme sur sa version de 2017 une baisse de 5 % du tauxd’expatriés couverts en santé. La tendance à la baisse non seulement en santé, mais aussi enretraite, prévoyance et rapatriement, s’explique par la mise en place des contrats locaux, ce quia comme conséquence que les expatriés retiennent de moins en moins le régime de la C.F.E. 3

3. Caisse des Français de l’Étranger

13

Page 17: Nom du Projet - Sujet du Projet - Institut des actuaires

Il est néanmoins essentiel pour un assureur de proposer à la fois des solutions au 1er euro eten complément de la C.F.E.

Généralement, pour un expatrié est impératif de souscrire un contrat dont l’objet est le rem-boursement des frais de santé engagés, que ce soient des prestations en complément de la C.F.Eou au 1er EURO 4 et dans la zone géographique de garantie. L’assureur peut ainsi jouer unrôle de complémentaire des remboursements C.F.E. dans la limite des conditions souscrites ouassumer le risque à 100 %.

1.2.1 La Caisse des Français de l’Étranger

La Caisse des Français de l’Étranger est un organisme privé chargé d’un service public régiepar le Code de la Sécurité sociale et placée sous tutelle de 2 ministères : le Ministère de l’em-ploi et de la solidarité et le Ministère de l’économie, des finances et de l’industrie. Elle estadministrée par un Conseil d’administration composé de 15 représentants des assurés élus parl’AFE 5, de 3 membres de l’AFE, de deux membres désignés par le MEDEF 6 et d’un membredésigné par la Mutualité. [2]

Le principal intérêt de la C.F.E est de maintenir les couvertures de la Sécurité Sociale françaiselors de l’expatriation. Elle permet donc à tout Français d’être pris en charge pour sa protectionsociale comme s’il n’avait jamais quitté le territoire.En effet, la CFE garantit une continuité parfaite des droits de l’assuré avec les régimes obli-gatoires français, c’est l’un des avantages majeurs de l’adhésion (facultative) à la Caisse.

1.2.2 Remboursement au 1er euro

L’assurance santé internationale au 1er Euro est associée à une assurance privée à 100 % dontles organismes publics, tels que la Sécurité Sociale française, n’interviennent pas. L’assuranceau 1er Euro prend donc fin pour l’assuré au moment de l’adhésion auprès de la C.F.E.Elle est appelée "au premier euro" car le remboursement s’effectue dès le 1er euro dépensé.

1.2.3 La couverture

La couverture de santé s’adresse aux employés adhérents ainsi que leurs ayants droit le caséchéant. Ainsi, la structure de cotisation peut être de type : unique, isolé/famille, adulte/enfantet variant selon la zone géographique. Le plus typiquement observé est une cotisation pour lemonde entier hors USA et une cotisation USA.

La durée de couverture peut varier entre un mois et plusieurs années selon la période demobilité de l’expatrié et c’est généralement l’assuré ou l’employeur qui choisit les niveaux degaranties et le pourcentage de remboursement qui seront accordés au contrat.

Une particularité des contrats de santé est l’apparition du phénomène d’anti-sélection dontles assurés se disent « plus on est couverts, plus on consomme ». En effet, nous avons plusd’intérêt aux contrats collectifs et d’adhésion obligatoire avec des garanties uniformes. De plus,

4. Remboursement dès le 1er euro de dépense5. Assemblée des Français à l’Étranger6. Mouvement des entreprises de France

14

Page 18: Nom du Projet - Sujet du Projet - Institut des actuaires

le contrat compte souvent un déductible et des plafonds en fonctions des soins.De façon générale, les garanties de santé sont réparties en grandes familles de postes médicauxsynthétisés comme suit :

— Médecine courante et Radiologie : Consultations/visites généralistes et spécia-listes, analyses et laboratoire.

— Hospitalisation et Maternité : Frais de séjour, réanimation, chambre particulière,accouchement, etc

— Pharmacie— Dentaire : Soins dentaires, prothèses et implants— Optique : Montures, verres et chirurgie corrective.— Auxiliaires médicaux : Médecine alternative ou douce, kinésithérapie.

Cette répartition d’actes peut être modifiée en fonction de la finalité cherchée ou des préfé-rences de l’assuré. Nous présenterons dans la partie II la répartition appliquée lors du présentmémoire.

15

Page 19: Nom du Projet - Sujet du Projet - Institut des actuaires

Chapitre 2

La Tarification

L’objet de ce chapitre est d’introduire les éléments théoriques indispensables lors de la miseen place d’un modèle de tarification. Nous commençons par un diagramme ( Figure 2.1) quirécapitule les phases de la constitution du portefeuille à la modélisation de la prime pure.

Figure 2.1 – Étapes à suivre lors de la tarification

16

Page 20: Nom du Projet - Sujet du Projet - Institut des actuaires

2.1 Le modèle Individuel et Collectif

En assurance non vie, la tarification consiste en la prédiction du coût espéré des sinistressur une période (généralement d’un an). Les modèles individuels et collectifs permettent demesurer cette charge globale de sinistres soit par police ou sur l’ensemble du portefeuille. Lemodèle individuel identifie le coût des sinistres par police, ces coûts sont agrégés afin d’établirle coût global du portefeuille, qui est donné par :

W ind =n∑i=1

Si (2.1)

Où n représente le nombre de polices dans le portefeuille et Si le montant global de sinistresassociés à la police i. Le modèle collectif considère l’ensemble du portefeuille dont les risquesdoivent être homogènes et indépendants entre eux. Ainsi, la charge globale du sinistre s’obtientcomme la somme des montants de sinistres (par sinistres et non pas par police). Cette chargetotale s’écrit donc comme suit :

W coll = S =N∑i=1

Yi (2.2)

N étant une variable aléatoire représentant le nombre de sinistres survenus pendant la périoded’étude et Yi le coût du sinistre i pour i ≥ 1. Ces coûts des sinistres Yi sont supposés commedes variables aléatoires indépendantes et identiquement distribuées, et indépendantes de N .Remarquons de même que W coll = 0 lorsque N = 0.

Ainsi la tarification de la prime pure (vrai coût du risque) en assurance est donnée par lacharge totale moyenne des sinistres définie comme le produit entre le nombre moyen de si-nistres et leur coût moyen.Dans ces conditions, nous nous retrouvons dans le cadre de modélisation d’une loi composéepar deux variables aléatoires à prédire. Gardant en tête le principe d’indépendance Fréquence-Coût, la prime pure s’exprime de façon suivante :

E[S] = E[N ] · E[Y ] (2.3)

Par la suite, nous étudierons les distributions des probabilités permettant d’ajuster la fréquenceet le coût de manière indépendante.

2.2 Lois de modélisation de la Fréquence

La variable « Nombre de Sinistres » est une variable de comptage qui doit donc être modéliséepar une loi de probabilité de type « discrète ». La loi la plus couramment utilisée est la loide Poisson,avec sa distribution de probabilité (de paramètre λ) et ses moments de premier etdeuxième ordre donnés par :

P(N = n) = e−λλn

n!(2.4)

E(N) = V ar(N) = λ (2.5)

17

Page 21: Nom du Projet - Sujet du Projet - Institut des actuaires

En conséquence, la loi de Poisson se caractérise par une propriété d’équidispersion qui demandeune homogénéité du portefeuille par rapport au risque. Cependant, dans la plupart des cas lavariable « Nombre de sinistres » présente une grande quantité de valeurs nulles ou des valeursextrêmes qui augmentent l’écart entre la variance et la moyenne, c’est ce qu’on connaît comme« sur-dispersion ».Une manière de corriger ces anomalies est l’utilisation d’un modèle zéro inflaté. Ce modèleattribue une probabilité pour les observations « zéro » et une autre pour le reste, étant ainsiune loi de probabilité tronquée. Dans le cas particulier d’une loi de Poisson, ces probabilitéss’expriment comme suit :

P(N = 0) = q + (1− q) · e−λ (2.6)

P(N = n > 0) = (1− q) · e−λλn

n!(2.7)

L’hétérogénéité du portefeuille est un autre phénomène qui peut engendrer la sur-dispersion.Une deuxième loi très utilisée pour la modélisation est la Binomiale négative qui tient éga-lement compte de cette sur-dispersion en intégrant un nouveau paramètre α. Sa fonction dedistribution et ses premiers moments sont donnés par :

P(N = n) =

(n+ λ− 1

n

)(1− α)nαλ (2.8)

E(N) = λ1− αα

(2.9)

V ar(N) = λ1− αα2

(2.10)

En effet, si la variable à expliquer comporte une grande quantité de zéros dans ses observations,il serait approprié d’utiliser la distribution binomiale négative tronquée.

2.3 Lois de modélisation des montants de sinistres

Il s’agit d’une variable aléatoire continue à valeurs réelles positives, principalement modéliséeà partir d’une loi Gamma ou une Log-Normale. Dans le but de choisir correctement la loi, ilest important d’étudier la queue de distribution de la variable.

A l’aide du Q-Q plot, nous pouvons identifier la forme de la queue de distribution. Il s’agit d’ungraphique des quantiles de la loi empirique comparés aux quantiles de la loi théorique. Il traceles pairs ordonnées F−1

(i

n+1 , xi

), où F−1 correspond à la fonction de répartition de la loi

exponentielle de paramètre λ = 1. Autrement dit, les pairs de la forme(− ln

(1− i

n+1

), xi

)pour i = 1, ..., n et xi le i-ème valeur de l’échantillon ordonné de manière ascendante.Trois cas possibles pour examiner l’allure du graphique :

— Une forme linéaire de pente 1λ : les points suivent une loi exponentielle de paramètre

λ, la distribution présente une queue très légère.— Un graphique convexe : la distribution des données suit une loi de queue lourde, soit à

gauche soit à droite.— Un graphique concave : les données suivent une distribution à queue légère.

18

Page 22: Nom du Projet - Sujet du Projet - Institut des actuaires

Ainsi, pour des montant de sinistres à queue légère (non catastrophiques) la distributionadéquate est une Gamma dont sa fonction de densité, espérance et variance sont formuléscomme suit :

P(Y = y) =λnyn−1

Γ(n)e−λy (2.11)

E(Y ) =n

λ(2.12)

V ar(Y ) =n

λ2(2.13)

Inversement, si les sinistres sont à queue épaisse ou lourde la loi de probabilité adaptée pourmodéliser les coûts de sinistres est une Log-Normale, caractérisée de façon suivante :

P(Y = y) =1

yσ 2√

2πe−

(ln(y)−µ)2

2σ2 (2.14)

E(Y ) = eµ+σ2

2 (2.15)

V ar(Y ) = (eσ2 − 1)e2µ+σ

2(2.16)

Toutefois, la survenance des sinistres de pointe ou de montant élevé est peu fréquente maistrès habituelle en assurance, ce qui crée une asymétrie dans la distribution des montants. Ilest donc pratique de modéliser de manière séparée les sinistres classiques des sinistres graves.

Afin d’effectuer cette séparation, on fait appel à la théorie des valeurs extrêmes, permettantde trouver le seuil adapté pour une séparation correcte et que l’on étudiera par la suite.

2.4 Systèmes de Tarification

La tarification est définie comme le processus de détermination des primes à payer par l’assuréde façon à ce que l’assureur ait une suffisance des fonds pour régler les sinistres survenus.Ainsi le système de tarification est constitué de principes techniques sur lesquels se basentl’élaboration d’un tarif.

L’objectif d’un système de tarification est de trouver les tarifs les plus appropriés à chaquerisque tenant compte de la solvabilité et solidarité entre les assurés. En effet, chaque assurépaye selon le risque qu’il comporte. Dans le but de mieux expliquer la sinistralité, il faut tenircompte des facteurs de risque les plus significatifs.

D’un côté, la solvabilité implique que les primes doivent être suffisantes, c’est-à-dire, donnerà l’assureur une bonne rentabilité et stabilité à long terme. Et de l’autre côté, la solidaritéimplique une répartition du risque et de la prime totale, de manière à ce que les assurés ayantplus de risque payent plus que leur consommation afin de compenser une prime plus faiblepayée par ceux qui incorporent moins de risque.

19

Page 23: Nom du Projet - Sujet du Projet - Institut des actuaires

Les systèmes de tarification sont classifiés en deux groupes :

— A priori ou Class Rating : Les primes sont établies par classes. Il est nommé « apriori » étant donné que les risques à tarifer sont inconnus ou sans expérience dans leportefeuille existant. Par ailleurs, la prime se détermine uniquement en connaissancede certaines caractéristiques de la police.

— A posteriori ou Experience Rating : Contrairement à la tarification a priori ce systèmesuppose l’existence d’une prime qui sera modifiée en fonction de la sinistralité observéesur la police. Ceci donne lieu aux systèmes « Bonus-Malus » qui majorent ou réduisentles primes selon le comportement de l’assuré.

2.4.1 Tarification A Priori

Le processus de tarification a priori est composé de 3 étapes, plus une étape précédente ethautement importante :

• Etape 0 – Les données : Homogénéisation et traitement préalable des données.La qualité des données demande une attention spéciale car l’application des méthodesstatistiques peut devenir une perte du temps si les données ne sont pas satisfaisantes.Des facteurs importants à prendre en compte :

— La déclaration des sinistres postérieurement à la date de survenance ainsi que lasurvenance des sinistres non déclarés.

— La date d’adhésion appartenant à la période d’étude ainsi que la résiliation descontrats pour mesurer l’exposition au risque.

• Etape 1 – Sélection des variables tarifaires : Elles correspondent auxcaractéristiques de l’assuré ou du bien à assurer, définies comme facteurs de risqueayant un possible impact sur le nombre ou le coût des sinistres.

• Etape 2 – Groupes de tarif : Il s’agit de groupes homogènes du risqueconstitués à partir des niveaux observés à l’intérieur de chaque variable. Ils doiventavoir une taille significative pour que l’ajustement soit meilleur.

• Etape 3 – Estimation des primes

Finalement, nous soulignerons les principales techniques utilisées dans le processus de tarifi-cation a priori :

— Sélection des variables et constitution des groupes de tarifs : Analyse discri-minante, analyse cluster, techniques de classification ou segmentation.

— Estimation des primes : Analyse prédictive à partir des techniques de régressiontelles que : Modèles Linéaires Généralisés, arbres de régression ou techniques d’appren-tissage comme les réseaux de neurones, Naïve Bayes.

Nous étudierons postérieurement et plus en détail la théorie associée à ces techniques.

20

Page 24: Nom du Projet - Sujet du Projet - Institut des actuaires

2.4.2 Tarification A Posteriori

Le système de tarification a posteriori part du principe d’une connaissance préalable sur lasinistralité d’un individu et pourtant d’une prime qui sera modifiée en fonction du comporte-ment de l’assuré.

Comme nous l’avons déjà étudié, la tarification a priori permet de déterminer certains facteurset niveaux de risque dans le but de regrouper les individus de façon la plus homogène possible.Ainsi la prime est commune selon la typologie du risque. Néanmoins, il reste une certainehétérogénéité à l’intérieur de chaque groupe qui peut avoir comme conséquence une forte anti-sélection. En effet, un ajustement basé sur l’expérience permettra d’associer à chaque assuréune prime correspondante à son risque.

Les techniques actuarielles utilisées dans le cadre de la tarification a posteriori sont :

— Théorie de la crédibilité— Systèmes Bonus-Malus markoviens

Le présent mémoire portera uniquement sur les méthodologies de tarification a priori.

21

Page 25: Nom du Projet - Sujet du Projet - Institut des actuaires

Chapitre 3

Analyse Prédictive

L’analyse prédictive peut être définie comme un domaine du data mining consistant en l’ex-traction de certaines informations présentes sur un jeu de données et qui seront utilisées pourprédire des tendances et modes de comportement. Cette analyse peut s’appliquer sur toutévénement inconnu, que ce soit du passé, présent ou futur.

L’objectif principal est l’identification des liens entre variables, communément observés sur desévénements passés. Ces liens seront ensuite exploités dans le but de prédire certains résultatsassociés à des situations futures.

Toutefois, l’exactitude des résultats prédits dépend de la façon dont l’analyse préalable desdonnées a été effectuée ainsi que les hypothèses établies. Il peut avoir tendance à associerl’analyse prédictive avec un pronostic, mais ce n’est pas tout à fait pareil. Un pronostic faitdes prédictions de façon plus générale. Dans le cadre précis d’assurances, un pronostic nouspermet de prédire combien de personnes vont souscrire un contrat le mois prochain alors quel’analyse prédictive va nous indiquer quels sont les individus (par rapport à son profil) suscep-tibles de souscrire un contrat.

Tout ce processus d’analyse se met en place grâce au « Machine Learning » 7. Aujourd’hui, lesordinateurs permettent le développement de nouvelles connaissances et il suffit juste de leurfournir la plus puissante de ressources : « Les données ».

Tel que mentionné plusieurs fois, plus les données sont de bonne qualité, plus les résultats dela prédiction seront meilleurs et plus on va orienter les objectifs sur une bonne productivité.Ce chapitre sera consacré à la définition des modèles applicables lors d’une analyse prédictiveainsi qu’aux techniques et méthodologies existantes pour la mise en place de ces modèles.

3.1 Modélisation prédictive

Lorsqu’on parle d’analyse prédictive, en réalité, on s’adresse à la modélisation prédictive quiest actuellement connue comme la discipline analytique regroupant tous les types de modéli-sation qui contribuent à la prise de décisions.

7. Apprentissage automatique en français

22

Page 26: Nom du Projet - Sujet du Projet - Institut des actuaires

Il existe différents niveaux d’analyses à mettre en place en fonction de la complexité du pro-blème à résoudre. Voici quelques exemples d’applications ou de périmètres particulièrementadaptés pour l’utilisation de l’analyse prédictive :

— Segmentation— Optimisation des tarifs et normes de souscription existantes— Définition des nouveaux produits compétitifs sur le marché— Analyse de fraude et conformité

Nous présenterons par la suite les types de modèles à utiliser selon la finalité.

3.1.1 Modèles Prédictifs

Un modèle prédictif utilise en général les caractéristiques d’un bien ou d’un individu pour sortirdes notes prédictives sur leur comportement. Ces notes sont calculées à partir des tendanceset des similarités observées parmi l’ensemble d’individus et normalement elles mesurent laprobabilité qu’un individu s’ajuste bien au comportement prédit.

3.1.2 Modèles Descriptifs

Ce type de modèle quantifie les liens entre les données lorsque l’on souhaite étudier, analyserou classifier un groupe d’individus. A la différence des modèles prédictifs nous cherchons àcatégoriser les individus selon leur préférences ou leur âge, par exemple, et non à la prédictionde comportements 8.

Parmi les modèles descriptifs on trouve les modèles de simulation, la théorie des queues et lesmodèles de prévision.

3.1.3 Modèles de Décision

Les modèles de décision, tel que son nom l’indique, permettent d’identifier, de comprendre etde développer la logique cachée derrière la prise d’une décision. Ainsi, selon les circonstancesde l’étude, ce modèle servira à prédire les résultats d’une décision mettant en jeu les différentesrelations entre variables. Ils seront de grande utilité pour l’optimisation des processus.

Dans la famille des modèles de décision, nous retrouvons par exemple les arbres de décision,l’analyse Pareto et l’analyse SWOT.

3.1.4 Modèles Ensemble

Il s’agit d’un système de combinaison ou assemblage des modèles permettant d’améliorer laprécision d’une prédiction. Son principal avantage est la diminution d’effets associés à certaineslimitations telles que le biais, la variance ou l’écart, souvent présents dans le cadre général demodélisation. Ainsi, le modèle final sera plus robuste et stable, garantissant une meilleureperformance et adaptabilité au contexte de destination.

8. JOHN V. PETROF, Comportement du consommateur et marketing, 5ème édition, p. 426

23

Page 27: Nom du Projet - Sujet du Projet - Institut des actuaires

Les prédictions de chaque modèle peuvent être assemblées par une moyenne uniforme, parvote majoritaire ou par une moyenne pondérée. Les techniques le plus communément utiliséespour combiner les prédictions sont : bagging, boosting et stacking.

3.1.5 Modèles uplift

La modélisation uplift 9 également connue comme incremental modelling est une technique quidétermine l’impact incrémental d’une action sur le comportement d’un individu. Cette actionest généralement associée au marketing dans le cadre des campagnes publicitaires mesurant letaux de réponse des clients. En conséquence, les clients sont séparés en 4 groupes différents :

— Influençables : Clients qui répondent positivement à l’action du marketing, c’est-à-dire plus susceptibles d’acheter le bien ou service.

— Cause acquise : Clients sur lesquels l’action du marketing n’a aucun effet car de toutefaçon ils vont acheter le bien ou service.

— Cause perdue : Clients sur lesquels l’action du marketing n’a aucune influence car aucontraire du groupe précèdent, ils n’achèteront pas le bien ou service.

— Réfractaire : Clients qui répondent négativement à l’action du marketing de sortequ’ils perdent l’intérêt d’acheter le bien ou service.

Ainsi, ce type de modélisation permet d’analyser si un assuré sera amené à consommer, siil a un niveau de garantie suffisant, ou peut permettre de mener des actions afin de limiterle nombre de résiliations d’un contrat santé. L’approche principalement employée dans cedomaine est le modèle de classification des forêts aléatoires.

3.2 Validation des modèles

Indépendamment du modèle employé, l’étape clé de la modélisation est bien évidemment lavalidation. Elle permettra de corroborer l’adaptation prédictive du modèle sur des observa-tions non utilisées lors de la construction du modèle.

La technique la plus pratiquée pour valider les modèles est la partition aléatoire de la base desdonnées au minimum en deux groupes permettant de mesurer d’une part l’erreur de modéli-sation et l’erreur d’ajustement d’une autre. Ainsi, le modèle minimisant ces deux erreurs seraconsidéré comme le modèle optimal, en général il décrit bien les données effectuant en mêmetemps les meilleures prévisions possibles.

Les travaux d’application ultérieurs porteront sur un échantillon d’entraînement constitué de70 % des données et qui servira à la construction du modèle. Ensuite, un échantillon de testcomposé de 30 % restant, utilisé pour effectuer les prévisions et tester l’ajustement du modèle.

9. Expression courante provenant du mot lift défini en anglais comme "act of raising".

24

Page 28: Nom du Projet - Sujet du Projet - Institut des actuaires

3.3 Indicateurs de performance des modèles

Après avoir appliqué un modèle d’apprentissage, il est toujours très important d’analyser laperformance de notre modèle.En effet, il est possible que le modèle prédictif ne soit pas efficace, auquel cas cela permet dese tourner vers des modèles plus concluants. Cela permet notamment de comparer plusieursmodèles entre eux afin d’aider à la décision de la meilleure méthode à appliquer.Plusieurs indicateurs de performances sont ici étudiés : le RMSE 10, le MAE 11 et l’AIC 12

d’Akaïke.

Afin de pouvoir utiliser ces indicateurs, nous devons scinder le jeu de données de départ endeux parties : la base d’apprentissage et la base de validation comme expliqué juste dans lasection précédente.

Dans un premier temps, nous appliquons les algorithmes d’apprentissage sur la base d’appren-tissage, qui constitue une part conséquente du jeu de données initial. L’apprentissage effectué,nous testons cet algorithme en comparant les prédictions effectuées par l’algorithme et les"réponses" réelles.Cette comparaison se fait grâce aux indicateurs de performance du modèle. L’objectif va êtred’obtenir le RMSE et le MAE le plus faible possible.

RMSE

Le RMSE est la racine carrée de la somme des erreurs effectuées par le modèle. Ennotant yi la variable réponse pour l’observation i, s(xi) la prédiction de l’algorithmed’apprentissage pour l’observation i, i ∈ {1, . . . , N}, on a :

RMSE =

√√√√ 1

N

N∑i=1

(yi − s(xi))2

MAE

Le MAE est la moyenne de la somme des valeurs absolue des erreurs effectuées par lemodèle. En conservant les notations précédentes, on a :

MAE =1

N

N∑i=1

|yi − s(xi)|

AIC

L’AIC est une mesure de la qualité d’un modèle. Ce critère permet d’aider à la décisionquant à la préférence d’un modèle à un autre.Il se définit comme suit :

AIC = 2k − 2 ln(L)

Où L est le maximum de la fonction du maximum de vraisemblance du modèle, et k lenombre de paramètres à estimer du modèle.Le modèle à retenir est le modèle présentant l’AIC le plus faible.

10. Root Mean Square Error11. Mean Absolute Error12. Critère d’information d’Akaïke

25

Page 29: Nom du Projet - Sujet du Projet - Institut des actuaires

3.4 Les contraintes

Tel que nous l’avons déjà expliqué, la composition globale du modèle s’effectue en deux étapes :modélisation et validation. Le grand but est de construire un modèle parcimonieux, c’est-à-dire, ayant un équilibre entre les deux étapes. C’est la raison pour laquelle elles nécessitentune attention particulière.

La problématique est la suivante, d’une part, si le modèle est complexe, alors il y aura unbon ajustement aux données et donc une réduction du biais. Mais, d’un autre côté, un modèleréduit implique une variance plus faible. C’est ce qu’on appelle le compromis biais-variance,qui permet de trouver l’équilibre entre la complexité du modèle et sa capacité d’ajustement.

De plus, lorsqu’il n’y a pas d’équilibre, deux nouvelles difficultés apparaissent : le sur-apprentissageet le sous-apprentissage. Le sur-apprentissage se définit comme l’instabilité du modèle sur sacapacité d’ajustement, autrement dit, un modèle qui décrit bien les données mais le prédit trèsmal. Il peut être même trompeur car l’ajustement aux données semble correct. Puis, le sous-apprentissage apparaît lorsque le modèle n’extrait pas correctement toutes les informations del’échantillon d’apprentissage.

3.5 Le choix de l’algorithme

Une énorme quantité de méthodologies ou algorithmes sont mis à disposition actuellement poureffectuer l’analyse prédictive. Il est cependant essentiel de bien choisir l’algorithme et pour cefaire, il faut d’abord connaitre les classes d’algorithmes ainsi que leurs spécificités. En fonctiondu mode d’apprentissage, trois grands types d’algorithmes apparaissent : les supervisés et lesnon supervisés. Les supervisés sont à la fois distingués selon la finalité cherchée : Régressionet Classification.Le tableau 3.1 récapitule une taxinomie des algorithmes le plus couramment utilisés. 13

Figure 3.1 – Quelques exemples de types d’algorithmes

13. Source : BIERNAT et LUTZ [2015]

26

Page 30: Nom du Projet - Sujet du Projet - Institut des actuaires

3.5.1 Algorithmes supervisés

Soit Y la variable à expliquer décrite par n objets ou individus sur lesquels nous connaissons pvariables explicatives représentées par X. On définit Dapp = {(X1, Y1), (X2, Y2), . . . , (Xn, Yn)}comme un échantillon d’apprentissage ou entraînement dont le but est de chercher une fonctionφ des p prédicteurs telle que

Y = φ(X) + ε (3.1)

Nous retrouvons ainsi une relation existante entre les variables X et Y et maintenant on s’in-téresse à la nature de la variable à expliquer Y qui peut être de type numérique ou catégoriel.En conséquence, un algorithme supervisé différent doit s’appliquer. Ci-dessous les classes d’al-gorithmes existants selon le type de variable Y :

— Y ∈ R : Lorsque la valeur à prédire est continue, les algorithmes de régression serontles plus adaptés.

— Y ∈ {1, . . . I} : Quand la valeur à prédire est catégorielle, on fait appel aux algorithmesde classification.

3.5.2 Algorithmes non supervisés

Contrairement aux algorithmes supervisés, il n’existe pas la notion de variable à expliquerY . On définit un échantillon d’apprentissage Dapp = {X1, X2, . . . , Xn} ⊂ χ pour n objets ouindividus caractérisés par p variables.L’objectif principal est le partitionnement de χ en différentes classes. La pertinence de lapartition est donnée par la ressemblance des caractéristiques entre les observations.

27

Page 31: Nom du Projet - Sujet du Projet - Institut des actuaires

Chapitre 4

Algorithmes de Régression

Maintenant, nous passons à la description des méthodologies et techniques à mettre en placelorsqu’on parle de régression. Elles sont séparées en deux grandes familles « les approchesclassiques » d’un côté, et « les approches Machine Learning » de l’autre. Dans le cadre duprésent mémoire, l’analyse se focalise sur les techniques de régression qui sont elles-mêmesreconnues aujourd’hui comme un pilier de l’analyse prédictive.

4.1 Approches Classiques

Cette section est consacrée à l’extension du modèle linéaire classique vers une famille plusgénérale qui a été proposée par Nelder et Wedderburn en 1972, elle est dénommé Modèle Li-néaire Généralisé 14. L’ampliation du modèle classique unifie à la fois la modélisation avec desvariables réponse numériques et avec des variables catégoriques, ce qui conduit à considérerdes distributions différentes à la Normale, telles que : Poisson, Binomiale, Gamma, etc.

Du fait que le modèle linéaire classique est le point de départ pour l’étude des modèles li-néaires généralisés, nous allons commencer par les principaux aspects du modèle de régressionlinéaire.

4.1.1 Modèle de Régression Linéaire

Le modèle linéaire provient de la nécessité d’exprimer quantitativement les liaisons existantesentre un ensemble de variables. Nous cherchons donc à expliquer le comportement d’une va-riable appelée "variable réponse ou variable dépendante", à partir d’autres variables dénom-mées "explicatives ou indépendantes". Quelques exemples de variables réponses et explicativesen assurance sont présentées ci-dessous (table 4.1) :La structure du modèle de régression linéaire est la suivante :

Y = β0 + β1x1 + β2x2 + ...+ βkxk + εi

où β0 + β1x1 + β2x2 + ... + βkxk représente le prédicteur linéaire composé de k variablesexplicatives et εi est considéré comme la composante aléatoire, représentant une perturbationou une erreur qui satisfait les hypothèses suivantes :

1. E(εi) = 0

14. Couramment appelée GLM

28

Page 32: Nom du Projet - Sujet du Projet - Institut des actuaires

Variables Réponse Variables Explicatives

Nombre de sinistres en assurance AUTO Age, zone de circulation, type du véhicule, ...

Nombre de décès en assurance VIE Age du décès, nombre total d’assurés, ...

Coût de sinistres en assurance MRI Année de survenance, zone, activité industrielle, ...

Table 4.1 – Exemple de variables

2. V ar(εi) = σ2

3. εi ∼ N(0, σ2)

4. Les erreurs associées aux valeurs de Y sont indépendantes les unes des autres.

4.1.2 Modèles linéaires généralisés

Le modèle de régression linéaire est basé sur l’hypothèse de normalité. Ce modèle devientdépassé puisqu’il n’est pas cohérent avec la réalité du grand nombre de phénomènes aléatoires.

Le modèle linéaire généralisé est basé sur le principe de la régression linéaire. Néanmoins,l’hypothèse de normalité est remplacée par l’hypothèse que la variable à expliquer suit une loide probabilité qui appartient à la famille exponentielle.

Une variable aléatoire Y appartient à la famille exponentielle si sa loi de densité peut s’écriresous la forme :

f(y, θ, φ) = exp

(yθ − b(θ)a(φ)

+ c(y, φ)

)avec :

— θ ∈ R le paramètre canonique (ou paramètre de la moyenne).

— φ ∈ R le paramètre de dispersion.

— a : fonction définie sur les réels et non nulle.

— b : fonction définie sur les réels et deux fois dérivable.

— a : fonction définie sur R∗.

Parmi les lois de densité appartenant à la famille exponentielle on trouve la loi binomiale, laloi géométrique, la loi de poisson, la loi normale, la loi exponentielle et la loi gamma.

Le modèle linéaire généralisé de même que le modèle classique est caractérisé par 3 com-posantes :

∗ Une composante aléatoire qui correspond à une variable réponse ou variable à expliquerY = (Y1, ..., Yn), n− uplet de variables aléatoires indépendantes non identiquement dis-

29

Page 33: Nom du Projet - Sujet du Projet - Institut des actuaires

tribuées et de loi de densité appartenant à la famille des lois exponentielles.

∗ Une composante déterministe définie aussi comme le prédicteur linéaire γ. Elle est unecombinaison linéaire d’une p−uplet de variables explicatives X1, ..., Xp aux quelles nousassocions un p-uplet de paramètres réels à estimer β1, ..., βp.

∗ Une fonction lien g qui décrit la relation entre l’espérance mathématique µ de la variableà expliquer et le prédicteur linéaire. Elle est différentiable et strictement monotone.

γ = g (µ) = β0 + β1X1 + ...+ βpXp

oùµ = E (Y )

La fonction qui associe la moyenne µ au paramètre naturel est appelée fonction lien ca-nonique. En pratique, la plupart des cas de modèles linéaires généralisés sont construitsen utilisant la fonction de lien canonique.Elle est définie telle que g (µi) = θi. Or, µi = b′ (θi) d’où g−1 = b′

Le tableau suivant montre les fonctions liens canoniques correspondantes aux lois deprobabilité usuelles

Loi de probabilité Fonction de lien canonique

Normale g = µ

Poisson g = ln (µ)

Gamma g = 1/µ

Inverse Gaussienne g = 1/µ2

Binomiale g = ln (µ)− ln (1− µ)

4.2 Approches Machine Learning

4.2.1 Arbres de décision

L’utilisation d’arbres de décisions est une méthode d’apprentissage supervisée régulièrementutilisée dans le domaine du Data Mining.

L’objectif est de construire un partitionnement de groupes de données (actes de soins ou indi-vidus par exemple) les plus homogènes possibles en fonction de la variable à prédire.

Cette méthode d’apprentissage récursive est structurée à la manière d’un arbre avec, à chaquenœud (représentant des tests effectués par l’algorithme), un nouvel embranchement jusqu’àarriver à des feuilles, représentant une classe à part entière.

30

Page 34: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 4.1 – Arbre de décision

Nous pouvons observer deux types d’arbres de décision : les arbres de régression et les arbresde classification :

— Les premiers sont utilisés lorsque la variable d’intérêt (variable à prédire) est quan-titative. En effet, l’objectif est de déterminer des sous-groupes selon leurs variablesexplicatives et dont les valeurs de la variable d’intérêt sont aussi proches que possible.

— Les seconds sont utilisés lorsque la variable à prédire est qualitative. En effet, le butest de prédire la modalité à laquelle va appartenir la réponse.

4.2.2 Arbres de classification et de régression CART

Comparaison avec les GLM

A la différence des modèles linéaires généralisés, qui sont des méthodes paramétriques,les arbres CART 15 ne nécessitent aucun a priori sur la distribution des variables. Celapermet de s’affranchir du biais introduit par l’hypothèse (pouvant être approximative)de distribution des données.

Par ailleurs, les GLM impliquent une relation linéaire entre les différentes variables,ce qui n’est pas toujours le cas dans certains modèles. Les arbres de décision sont desalgorithmes non linéaires et n’impliquent donc aucune hypothèse de linéarité entre lesvariables.

De plus, les arbres de décision permettent de modéliser les différentes interactions entreles variables explicatives, qui permettent de générer les nœuds qui composent l’arbrepour créer des classes homogènes. Il est à noter que les GLM ne permettent pas unetelle interaction.

15. Classification And Regression Trees

31

Page 35: Nom du Projet - Sujet du Projet - Institut des actuaires

En outre, lors de la mise en œuvre d’arbres de décisions, la sélection des variables expli-catives est un point qu’il est possible d’éluder du fait que ces variables sont hiérarchiséesselon l’importance de leur effet sur la variable à prédire dans la création des nœuds del’arbre. Ceci n’est pas possible dans la mise en application d’un GLM.

Enfin, la simplicité d’interprétation et d’illustration de cette méthode en fait que cesarbres sont régulièrement utilisés dans des travaux de classification et/ou de régressionsupervisés.

Principe général

Le principe de construction d’un arbre de décision est le suivant :

— Un nœud est défini par le choix conjoint d’une variable parmi les variables expli-catives et d’un critère de division qui induit une partition en deux ou plusieursclasses.

— Le critère de décision est défini par une valeur seuil de la variable quantitative sélec-tionnée ou un partage entre deux groupes des modalités si la variable est qualitative.

— A la racine correspond l’ensemble de l’échantillon, la procédure est ensuite itéréesur chacun des sous-ensembles (nœuds) formés.

Un critère de décision est dit admissible si aucun des nœuds descendants n’est vide.Ce critère repose sur la définition d’une fonction d’hétérogénéité, l’objectif étant departager les individus en groupes les plus homogènes possibles.

Cette fonction d’hétérogénéité, qui mesure l’hétérogénéité d’un nœud, répond à deuxcritères fondamentaux :

— Cette fonction est nulle si, et seulement si, le nœud est homogène i.e. toutes lesdonnées (individus par exemple) appartiennent à la même modalité ou prennent lamême valeur que la variable à expliquer

— Cette fonction est maximale lorsque les valeurs de la variable à prédire sont équi-probables ou très dispersés.

Le critère d’arrêt est un critère permettant d’arrêter la croissance de l’arbre.L’algorithme s’arrête donc lorsqu’il n’existe plus de partition admissible (nœuds vides)ou à partir d’une valeur seuil du nombre de nœuds afin d’éviter un découpage fin maisdifficilement exploitable.

Élagage des arbres

Une fois l’arbre de décision obtenu, l’objectif va être d’optimiser cet arbre afin d’éviterd’avoir un modèle trop instable. Cette instabilité est notamment due à l’échantillond’apprentissage utilisé pour créer l’arbre de décision.

Pour éviter ce phénomène de sur-apprentissage, et donc d’améliorer la robustesse dumodèle, nous procédons à un élagage de notre arbre de décision.L’objectif de l’élagage est donc de trouver l’arbre optimal entre l’arbre à une seule feuille(dit arbre trivial) et l’arbre de décision saturé (arbre maximal obtenu sans élagage).

32

Page 36: Nom du Projet - Sujet du Projet - Institut des actuaires

A noter qu’il n’est pas envisageable d’explorer l’ensemble des arbres possibles (entrel’arbre trivial et l’arbre maximal) dans le but de trouver l’arbre optimal du fait que letemps de calcul serait bien trop conséquent, notamment lorsque la base de donnée estimportante.

De fait, le but est d’étudier une suite emboîtée de sous-arbres de l’arbre maximal, etde retenir le sous-arbre optimal de cette suite. Cette méthode permet donc d’extraireun optimum local de l’arbre de décision.

1. Construction de la séquence d’arbres

Notons A l’arbre de décision, KA le nombre de feuilles (ou nœuds terminaux) del’arbre, notés κ. Ainsi, on peut interpréter KA comme la complexité de l’arbre.La qualité d’ajustement de l’arbre est exprimée comme suit :

DA =

KA∑κ=1

D(κ)

Où D(κ) représente l’hétérogénéité de la feuille (ou classe) κ. Cela permet d’intro-duire le critère d’élagage de l’arbre A :

C(A) = DA + γKA

où γ est considéré comme un coefficient de pénalisation.

L’objectif ici est la minimisation de ce critère.Nous remarquons que pour γ = 0, etpar construction, c’est l’arbre maximal qui minimise le critère d’élagage.

En revanche, en faisant croître γ, l’une des divisions de l’arbre, celle présentantla qualité d’ajustement la plus faible, peut être éludée. Ainsi, cela permet de re-grouper deux classes en une, à savoir regrouper la feuille dans son nœud père, etdonc d’avoir un arbre à KA− 1 feuilles. Cet étape correspond à l’élagage de l’arbre.

De fait, le nouvel arbre obtenu, noté AKA−1 est inclus dans l’arbre maximal AKA .Par itérations successives, on a la séquence d’arbres suivante :

AKA−1 ⊃ AKA−1 ⊃ ... ⊃ A1

2. Recherche de l’arbre optimal

Afin d’obtenir l’arbre optimal, la recherche se fait par validation croisée.L’apprentissage étant effectué sur un échantillon de test (ou d’apprentissage) afind’être appliqué sur l’échantillon de validation. Ainsi, la méthode repose sur les troisétapes suivantes :

• Première étape : La séquence d’arbres est créée (un échantillon de validationest donc observé pour chacun de ces arbres). Cette séquence est associée à laséquence des pénalisations γk.

33

Page 37: Nom du Projet - Sujet du Projet - Institut des actuaires

• Deuxième étape : Pour l’ensemble des échantillons de test, on estime la sé-quence d’arbres associée à la séquence des pénalisations γk. On estime ensuitel’erreur sur chaque échantillon de validation.• Troisième étape : Calcul de la séquence moyenne des erreurs. L’erreur mini-

male désigne la pénalisation optimale γopt. De fait, l’arbre optimal est l’arbreassocié à la pénalisation optimale.

4.2.3 Réseaux de neurones

Principe général

L’application des méthodes d’apprentissage statistique par réseaux de neurones vientdirectement du mécanisme des neurones du cerveau humain.

En effet, ces neurones biologiques forment un réseau de communication où chaque neu-rone est une cellule capable de créer, envoyer et recevoir des signaux.

Le schéma ci-dessous, très simplifié afin d’avoir une bonne compréhension de ces mé-thodes, illustre le fonctionnement d’apprentissage par réseaux de neurones. Les signauxd’entrée, notées ici X1, . . . , Xn envoient des informations permettant d’activer la fonc-tion f , appelée fonction d’activation. Cette fonction prend en argument l’ensemble dessignaux d’entrée avec des poids wi,{i∈1,...,n}, afin d’expliciter le ou les signaux en sortie :

s = f(w1X1 + ...+ wnXn)

Figure 4.2 – Réseaux de neurones

34

Page 38: Nom du Projet - Sujet du Projet - Institut des actuaires

Il existe deux types de réseaux de neurones :

— Les réseaux feed-forward (ou réseaux non-bouclés) : Les informations desréseaux boulés ne circulent que dans un seul sens (de l’entrée vers la sortie). Ainsi,la sortie peut s’exprimer comme combinaison linéaire de ses entrées.

Figure 4.3 – Réseaux feed-forward

— Les réseaux feed-back (ou réseaux bouclés) : Les informations des réseauxnon bouclés peuvent être cycliques. Ainsi, la sortie s’exprime comme combinaisonnon linéaire de ses entrées.

Figure 4.4 – Réseaux feed-back

35

Page 39: Nom du Projet - Sujet du Projet - Institut des actuaires

Neurone formel

Le neurone formel est une application statistique au neurone biologique.Il est constitué des quatre parties suivantes :

• Les entrées du neurone (x0, x1, . . . , xn). Ces signaux d’entrées, qui sont des valeursnumériques, doivent être normalisées afin de standardiser les valeurs d’entrées dumodèle, et de ne pas donner plus d’importance à une donnée qu’à une autre.La valeur x0, que l’on appelle le biais du neurone, est forcée à 1.• Les poids de connexion (w0, w1, . . . , wn). Ce sont des valeurs à estimer dans l’appren-

tissage du modèle, qui consiste à trouver les poids optimaux des signaux d’entrée.

• La fonction d’activation f Cette fonction prend en argument une combinaison affinedes entrées du neurone pondérées par les poids de connexion. La sortie peut doncs’exprimer comme suit :

s = f

(w0 +

n∑k=1

wkxk

)(4.1)

Plusieurs fonctions d’activation sont usuellement utilisées lors de l’apprentissage parréseaux de neurones :

La fonction identité : f(x) = x.

La fonction sigmoïde logistique : f(x) = 11+ex

La fonction tangente hyperbolique : f(x) = ex−e−xex+e−x

La fonction seuil : f(x) = I[0;+∞[

• La sortie s. La sortie est exprimée par la fonction d’activation par la formule 4.1.

Perceptron Multicouches (PMC)

Le Perceptron Multicouches (PMC) est un réseau de neurones constitué des élémentssuivants :

— Une couche d’entrée : Couche permettant de lire les signaux d’entrée.— Une couche de sortie : Couche permettant de renvoyer la réponse après appren-

tissage du réseau.— Les poids de connexion : Ces poids, notés (β0, β1, . . . , βn) par la suite, sont

les poids reliant une couche à la couche suivante. L’objectif de l’algorithme est detrouver les poids de connexion optimaux.

— Une ou plusieurs couches cachées : Couches entre la couche d’entrée et lacouche de sortie permettant, entre chacune de ces couches, d’appliquer la fonctiond’activation à chacune des entrées du réseau. Plus le nombre de couches cachéesest important, plus le modèle prédictif est puissant. Néanmoins, cela complexifie lemodèle et le temps de calcul est bien plus important.

36

Page 40: Nom du Projet - Sujet du Projet - Institut des actuaires

Selon le théorème d’approximation universelle, prouvé par Cybenko et Funahashi, ilapparaît que la mise place d’un perceptron à une seule couche cachée est amplementsuffisant pour résoudre des problèmes de modélisation et d’apprentissage.De fait, ce mémoire se consacre à l’étude d’un PMC à une couche cachée.

⇒ Algorithme d’un PMC à une couche cachée

L’objectif d’un PMC à une couche cachée est, comme présenté ci-dessus, est de trouverles poids optimaux w = (w0, w1, . . . , wn) et β = (β0, β1, . . . , βn).

La première étape est de paramétrer la complexité de l’algorithme.L’objectif est d’obtenir les meilleurs résultats sans que le temps de calcul ne soit unhandicap.

Afin de définir cette complexité, il est dans un premier temps nécessaire de définirle nombre de neurones que constituerons la couche cachée. Supposons que la couched’entrée comporte p neurones et la couche de sortie k neurones, il est usuel que lenombre de neurones de la couche cachée soit situé entre p

2 et 2p.

Il est également possible que ce nombre de neurones soit situé entre√nk2 et 2

√nk.

Ensuite, il est impératif d’introduire dans l’algorithme un taux d’erreur maximum im-posé dans l’algorithme ainsi qu’un nombre maximum d’itérations afin d’y limiter lacomplexité tout en optimisant l’efficacité de ce dernier.

Enfin, il est impératif de paramétrer le paramètre de régularisation, noté γ. Ce termepermet de combiner la fonction de coût (présentée ci-après) et les poids à optimiser. Lafonction à minimiser au cours de l’algorithme est donc :

Q(w, β) + γ∑k

< w; β >2

Où (voir notations ci-après)

Q(w, β) =n∑i=1

Qi =n∑i=1

(yi − s(xi)

)2L’ensemble de ces paramètres étant à la main de l’actuaire, l’optimisation de l’algo-rithme se fait par tests successifs afin de trouver la meilleure combinaison permettantd’obtenir les poids optimaux.

La deuxième étape est de mettre en place l’algorithme.Pour cela, il est nécessaire d’introduire les notations suivantes :

— (xi1, . . . , xip) sont les p signaux d’entrée du réseau associés à l’observation xi

— yi est la réponse observée à l’observation xi

— s(xi) est la sortie du modèle pour l’observation xi

— w et β sont les vecteurs de poids respectivement associés au neurone caché avec lacouche d’entrée et la couche de sortie.

37

Page 41: Nom du Projet - Sujet du Projet - Institut des actuaires

— f est la fonction d’activation des neurones formels dans la couche cachée et la couchede sortie.

L’algorithme du réseau de neurones est le suivant :

1-ère étape : InitialisationTirage aléatoire de l’ensemble des poids selon une loi uniforme sur [0; 1]. Normali-sation des données d’apprentissage.

2-ème étape : RécursivitéTant que nb itérations max < itération actuelle ou Q > erreur maxAlors Ranger la base d’apprentissage dans un ordre aléatoirePour chaque élément i = 1, . . . , n Faire1. Calculer chaque terme d’erreur en propageant les entrées vers l’avant

2. L’erreur est rétro-propagée dans les différentes couches afin d’affecter à chaqueentrée une responsabilité dans l’erreur globale

3. Mise à jour de l’erreur globaleFin pourFin alors

Cet algorithme représente l’algorithme de rétro-propagation élémentaire du gradient.Afin de bien comprendre ce principe, nous pouvons illustrer ce concept par le graphiquesuivant : Supposons que cette courbe représente la fonction de coût. L’objectif est ici

Figure 4.5 – Illustration de la descente du gradient

de minimiser l’erreur et donc de trouver le minimum de cette fonction.Afin de ne pas se contenter des minimas locaux, nous utilisons deux indices différents :— La pente : Cet indice s’interprète comme une vitesse de descente— Le moment : Cet indice peut s’interpréter comme un vecteur/force qui permet de

ne pas s’arrêter uniquement sur un minimum local en ne se contentant que de lapente comme indice de référence.

Ainsi, en procédant par itération successives, plus nous serons proche du minimumglobal de la fonction en évitant les minimas locaux.C’est sur ce principe que fonctionne l’algorithme de rétro-propagation élémentaire dugradient.

38

Page 42: Nom du Projet - Sujet du Projet - Institut des actuaires

4.2.4 Gradient Boosting Machine

Le Gradient Boosting se définit comme l’agrégation entre un boosting et une descente dugradient.Il convient dans un premier temps de définir simplement ces deux méthodes :

— Le boosting : C’est une technique ensembliste qui consiste à agréger des classifieurs(modèles) élaborés séquentiellement sur un échantillon d’apprentissage dont les poidsdes individus sont corrigés au fur et à mesure. Les classifieurs sont pondérés selon leursperformances.

— Descente du gradient : C’est une technique itérative qui permet d’approcher la so-lution d’un problème d’optimisation. En apprentissage supervisé, la construction dumodèle revient souvent à déterminer les paramètres (du modèle) qui permettent d’op-timiser (maximum ou minimum) une fonction objective.

Il s’agit d’une généralisation de l’algorithme AdaBoost 16 introduit par FRIEDMAN en 2001,permettant d’utiliser n’importe quelle fonction de perte, sous condition qu’elle soit convexeet différentiable. La souplesse de cette méthodologie permet d’appliquer du Boosting sur unemultitude de problèmes, soit de régression ou de classification (avec plus deux classes). Demanière simple, le gradient boosting se définie comme : Boosting + Descente du gradient.

L’algorithme est légèrement différent en fonction de la finalité cherchée (problème de régres-sion ou de classification) mais le principe reste le même : la construction d’une séquence desmodèles de sorte qu’à chaque étape la fonction de perte soit minimisée.

Dans le cas de régression, l’algorithme commence par trouver la meilleure approximation dela variable réponse, à savoir la moyenne. Ensuite à partir des résidus obtenus, un nouveaumodèle s’ajuste tout en essayant de minimiser la fonction de perte. Ainsi, ce process s’effectuepar itération successive de façon à ce que chaque modèle minimise les résidus du précédent.C’est la raison pour laquelle la modélisation GBM se caractérise pour réduire significativementl’erreur de prédiction.

En effet, compte tenu du fait que l’objectif principal du GBM est de réduire les résidus àchaque itération, il est très susceptible au phénomène de sur-apprentissage. D’où l’importanced’utiliser un paramètre de régularisation ou de rétrécissement 17, permettant de limiter l’in-fluence de chaque modèle parmi l’ensemble des modèles. De préférence, ce paramètre est depetite taille mais plus il est faible, plus d’itérations se nécessitent pour ajuster le modèle. Lasolution au problème de sur-apprentissage est donc de trouver un équilibre entre le nombred’itérations et le paramètre de régularisation.

4.3 Méthodes d’agrégation

La construction des arbres de décision étant, par nature, aléatoire du fait que la base d’appren-tissage n’est jamais la même dans ce type d’algorithme, il est possible d’obtenir des estimationset prédictions très imprécises.

16. Adaptative Boosting, [FREUND et SCHAPIRE, 1999]17. Appelé Shrikage en anglais

39

Page 43: Nom du Projet - Sujet du Projet - Institut des actuaires

Afin de pallier à ce type d’inconvénient, l’objectif des méthodes d’agrégation est de trouverun moyen d’avoir une estimation la plus précise possible, tout en évitant le sur-apprentissage.Cette méthode consiste à produire un grand nombre d’arbres de décision puis d’étudier lesrésultats obtenus avec ces derniers.

Cette agrégation permet une précision accrue des estimations et prédictions liées aux CART.Nous étudierons dans un premier temps les méthodes de bagging et les forêts aléatoires (ran-dom forest).

Le résultat de l’agrégation est souvent un modèle ayant une capacité prédictive supérieureà celle des modèles utilisés habituellement. La figure 4.6 illustre le chemin à suivre lors del’agrégation des modèles.

Figure 4.6 – Processus d’agrégation des modèles

4.3.1 Bagging

Le bagging 18 est une méthode introduite par Léo Breiman en 1996 consistant à construire Barbres de décisions. En effet, supposons que nous disposons d’un échantillon de n observations.On tire aléatoirement avec remise n observations (il est donc possible d’avoir la même obser-vation dans le nouvel échantillon constitué).

A partir de ces n observations, on construit un arbre de décision dont le but est de répé-ter B fois cette procédure, afin d’obtenir B arbres de décisions distincts.

18. contraction pour bootstrap aggregation

40

Page 44: Nom du Projet - Sujet du Projet - Institut des actuaires

Deux cas sont à distinguer :

— Si la variable à prédire est discrète, l’observation sera classée dans la catégorie danslaquelle elle a été le plus représentée.

— Si la variable à prédire est continue, on calcule la moyenne des B estimations.

Ainsi, en notant φk le ki-ème arbre de décision où k ∈ {1, ..., n}, l’arbre final est donné par :

φ =1

B

B∑k=1

φk

En notant la variance de l’arbre de décision σ2 et la corrélation entre deux arbres construitpar bootstrap ρ, la variance de l’arbre de décision final est donc :

V[φk] = ρσ2 +(1− ρ)σ2

B

On peut constater que plus le nombre d’itérations est élevé, plus la variance est maitrisée.

4.3.2 Random Forest

La méthode d’agrégation par forêt aléatoire ressemble sensiblement au bagging. De la mêmemanière, un bootstrap est effectué sur les n observations de base, de manière à obtenir unnouvel échantillon de n observations.

En revanche, une étape vient s’ajouter entre chaque nœud de l’arbre. En effet, plutôt quede se baser sur l’ensemble des variables explicatives, on tire aléatoirement m de ces variables.On répète ce tirage avant chaque création de nœud de l’arbre.

Généralement, si on note p le nombre total de variables explicatives, on choisira :

m ≈√p pour un arbre de classificationm ≈ p

3 pour un arbre de régression

Cela permet de diminuer la corrélation entre chaque arbre, et donc d’avoir une variancede l’arbre d’autant plus faible.

Par ailleurs, le temps de calcul du random forest est réduit par rapport au bagging du faitqu’entre chaque nœud, le nombre de variables explicatives est inférieur.

De fait, cette méthode permet de réduire la variance du modèle et possède un temps de calculréduit, ce qui pousse à préférer ce type de méthode d’agrégation. A noter, que la méthodologiedu Gradient Boosting est également utile dans le cadre d’agrégation des modèles et c’est celleque nous avons préféré lors de la mise en application.

41

Page 45: Nom du Projet - Sujet du Projet - Institut des actuaires

4.4 Comparatif des modèles

Figure 4.7 – Avantages et limites des algorithmes

42

Page 46: Nom du Projet - Sujet du Projet - Institut des actuaires

Chapitre 5

Algorithmes de Classification

5.1 Classification Ascendante Hiérarchique

L’objectif des méthodes de classification est de trouver dans un espace de travail, des groupeshomogènes d’individus ou de variables. Le principe de l’algorithme consiste à créer, à chaqueétape, une partition obtenue en agrégeant, deux à deux, les éléments les plus proches. Il fautdonc supposer au départ que l’ensemble d’individus ou de variables est muni d’une distance.

L’algorithme de classification ascendante hiérarchique se développe de manière suivante :

• Étape 1 : Nous avons dans l’espace n éléments à classer (soient n individus, soient nvariables).

• Étape 2 : Nous construisons la matrice des distances entre les n éléments et nous cher-chons les deux éléments les plus proches que nous agrégerons sur un nouvel élément.Ainsi, une première partition à n− 1 classes est obtenue.

• Étape 3 : Nous construisons une nouvelle matrice de distances résultant de l’agréga-tion. En calculant la distance entre le nouvel élément et les éléments restants (les autresdistances sont inchangées). Nous sommes une nouvelle fois dans l’étape 1 avec n − 1éléments à classer. Nous cherchons à nouveau les deux éléments les plus proches afinde les agréger.

• Étape m : Nous calculons les nouvelles distances et nous réitérons le processus jusqu’àce qu’on obtienne plus qu’un seul élément contenant tous les éléments de la premièrepartition. [17]

La classification ascendante hiérarchique utilise des mesures de dissemblance ou de distanceentre les objets pour former des classes. La méthode la plus utilisée pour calculer des dis-tances entre les éléments dans un espace multidimensionnel consiste à calculer les distanceseuclidiennes. Toutefois, il existe de nombreuses mesures de distance entre individus. Le choixd’une (ou plusieurs) entre elles, dépend des données étudiées. En général, on appelle distancesur un ensemble S, toute application d définie sur S2 à valeurs dans l’ensemble des réels posi-tifs qui vérifie :

43

Page 47: Nom du Projet - Sujet du Projet - Institut des actuaires

a) Pour toute (x, y) dans S2, d (x, y) = d (y, x)

b) Pour toute (x, y) dans S2, d (x, y) = 0 si et seulement si x = y

c) Pour toute (x, y, z) dans S3, d (x, z) ≤ d (x, y) + d (y, z)

Par exemple, soient (x1, x2, ..., xn) et (y1, y2, ..., yn) deux points dans l’espace Rn on peut consi-dérer les distances suivantes :

— Distance de Manhattan :n∑i=1|xi − yi|

— Distance euclidienne :

√n∑i=1

(xi − yi)2

— Distance de Minkowski p

√n∑i=1|xi − yi|p

— Distance de Tchebychev limp→∞

p

√n∑i=1|xi − yi|p

L’application de la méthode suppose aussi de faire le choix d’une "distance" entre classesappelée indice d’agrégation. Il faut noter que ces solutions permettent toutes de calculerla distance entre deux classes quelconques sans avoir à recalculer celles qui existent entre lesindividus composant chaque classe. Les plus simples à comprendre sont la méthode du sautminimal (il s’agit de la plus petite distance mesurée entre deux observations de partitionsdifférentes) et la méthode du saut maximal.

Parmi toutes les méthodes d’agrégation celle de Ward est la plus courante. Elle consiste àréunir les deux partitions dont le regroupement fera baisser l’inertie interclasse le moins pos-sible. C’est la distance de Ward qui est utilisée : la distance entre deux classes est celle deleurs barycentres au carré, pondérée par les effectifs des deux partitions.

44

Page 48: Nom du Projet - Sujet du Projet - Institut des actuaires

Deuxième partie

Mise en application

45

Page 49: Nom du Projet - Sujet du Projet - Institut des actuaires

Chapitre 6

Le portefeuille d’étude

Tel que mentionné précédemment, le principal réseau de distribution SwissLife à l’internatio-nal est le courtage. Concertant la gestion des sinistres à l’international, SwissLife n’ayant pasde plateforme de gestion spécifique s’appuie exclusivement sur des délégataires qui eux-mêmessont souvent des département des sociétés de courtage.

Le travail s’est basé sur un recueil des données historiques auprès de tous les délégataires/courtierss’occupant de la gestion SwissLife, pas très simple d’ailleurs par des raisons de confidentialitéet surtout d’hétérogénéité de l’information. Parmi les délégataires retenus lors de la constitu-tion du portefeuille se trouvent :

HENNER : Il s’agit d’un groupe français expert en gestion d’assurance liée à la protec-tion sociale (santé, prévoyance et retraite) - depuis 1947 - sur plus de 10 000 entreprises et1,5 millions de professionnels et particuliers. Avec un chiffre d’affaires de 173 Meen 2016, legroupe a bâti le plus important réseau de partenaires de santé (près de 58 000 professionnelsdans 165 pays) pour permettre un accès aux soins à ses clients où qu’ils se trouvent.[6]Henner représente 50 % du portefeuille constitué et dont la plupart d’assurés sont expatriésau Madagascar et Chine.

GGA : Le Groupement de Gestion et d’Assurance est un cabinet de courtage spécialisé(depuis 40 ans) dans la gestion des contrats d’assurance santé proposés aux expatriés résidantprincipalement en Afrique (Sénégal, Congo et Cote d’Ivoire). [3]Il représente 34 % de notre portefeuille final.

GAPI : Courtier gestionnaire des frais de santé à l’international créé en février 2006 etétabli en France. Par l’intermédiaire de 300 courtiers d’assurance partenaires il gère un porte-feuille de 50 000 assurés (dont 20.000 étudiants) en Santé international, Prévoyance, Assistancerapatriement, et RC vie privée. [4]

46

Page 50: Nom du Projet - Sujet du Projet - Institut des actuaires

WELCARE : Société d’assurance du Groupe Humanis avec une expérience de 24 ansproposant diverses offres d’assurance santé et d’assistance à plus de 23 000 expatriés dans lemonde entier. Elle compte sur la confiance de plus de 350 entreprises pour la gestion de leurscontrats d’assurance.[5]

Figure 6.1 – Répartition des délégataires dans le portefeuille

Un premier constat du portefeuille est une population majoritairement expatriée sur le conti-nent africain et bien évidemment lié aux chiffres présentés précédemment sur les destinationspréférées des français (pour rappel l’Afrique en troisième lieu). L’analyse statistique du por-tefeuille s’effectuera dans le chapitre suivant.

Remarque : Nous avons voulu inclure au portefeuille des données recueillies de la part d’autresdélégataires. Cependant, une première contrainte était l’impossibilité d’identifier et d’homogé-néiser les données au niveau des actes médicaux exprimés en langue anglais/français, parfoisdes chiffres et surtout des maladies à la place des actes (exemple : "laryngite" et non "hos-pitalisation" ou "visite médecin généraliste/spécialiste"). De plus, une abondance de donnéesmanquantes sur la composition familiale.

47

Page 51: Nom du Projet - Sujet du Projet - Institut des actuaires

Chapitre 7

Les données

Nous disposons de certaines informations par délégataire concernant les assurés et d’autresconcernant les sinistres. L’objectif principal est la construction d’une base de données homo-gène et assez exploitable pour la mise en place postérieure d’un modèle de tarification.

Tout d’abord, nous avons besoin de définir une période d’étude car les données recueilliesn’ont pas la même périodicité, la première étape d’homogénéisation consiste donc à trouverune période commune à toutes les données. Ainsi notre étude se basera sur une période de 3ans comprise entre le 01 janvier 2013 et le 31 décembre 2015.

D’une part, la base d’adhésions est composée des variables relatives aux informations de l’as-suré et des modalités du contrat choisies. Parmi les informations observées et dans le but degarder une consistance dans la base, nous souhaitons conserver les variables suivantes :

— No. Contrat— No. Assuré— No. Bénéficiaire— Date d’Adhésion— Date de Radiation— Radiation avant le 31/12/2015 (OUI/NON) : Pas utilisée lors de l’étape de modélisation

mais variable très utile pour mesurer le taux de radiation et si nécessaire pour la miseen place d’un modèle de rétention des clients.

— Statut de l’assuré : Assuré Principal – Conjoint – Enfant— Sexe— Age : Calculé à la date d’adhésion— Pays d’expatriation— Type de Client : Individuel – Collectif— Type de Prestation : En complément de la CFE – au 1er EURO— Période d’exposition : Calculée sur les 3 ans et mesurée par mois, soit une variable

prenant des valeurs entre 1 et 36.— Composition Familiale : Isolé – Duo (soit couple, soit adulte/enfant) – Famille— Niveau de Garanties

48

Page 52: Nom du Projet - Sujet du Projet - Institut des actuaires

D’autre part, nous disposons d’une base des sinistres survenus pendant la même périoded’étude. Sur cette base nous retenons les informations communes à tous les délégataires, soient :

— Grand Poste— Famille d’acte— Libellé d’acte— Pays de soins— Montant facturé (frais réels)— Montant remboursé— Nombre de Sinistres— Date de début du sinistre

Une fois la sélection des variables effectuée, nous intégrons les données d’adhésions et desinistres (séparément) par délégataire. Dans ces conditions, le portefeuille global constituécomporte 4 979 assurés et 5 490 dépendants, soit un total de 10 469 adhérents qui serontidentifiés à partir du numéro de bénéficiaire. Nous pouvons enfin passer à l’étape de traitementde données.

7.1 Traitement de données

Cette section est consacrée à la description détaillée du traitement des données manquantes etaberrantes qui a été réalisé sur toutes nos bases des données. Ce travail nous a permis d’homo-généiser et de construire une base solide et exploitable permettant non seulement d’analyserla consommation du portefeuille existant mais aussi d’améliorer la qualité des données, cettedernière étant très importante lors de l’étape de modélisation et tarification.

7.1.1 Homogénéisation de données

Dans un premier temps, un traitement de données doit s’effectuer par délégataire afin que lesdonnées soient toutes homogènes et que l’on puisse les unifier dans une seule base. La plusgrande difficulté se trouve dans le traitement des variables suivantes : « pays d’expatriation »,« pays de soins », « grand poste », « famille d’acte » et « libellé d’acte ». Nous expliqueronspas à pas la façon dont elles ont été traitées :

• Pays d’Expatriation et Pays de Soins : Afin de synthétiser la liste des pays telsqu’ils ont été transmis par les délégataires, nous employons la norme de codage despays à usage statistique ISO 3166-1 alpha-3 (à trois caractères). Les normes ISO 19 sonttrès utiles dans le cadre international quant à la réglementation et conformité entre pays.

• Grand poste, libellé de famille et libellé de l’acte : L’idée principale consiste àcréer un tableau d’actes adapté permettant de sortir des statistiques plus précises surla sinistralité du portefeuille. Celui-ci sera également indispensable pour comprendrela façon dont la population consomme et l’impact que cette consommation peut avoirdans la tarification des produits de santé, tout en gardant la cohérence et la justesselors du regroupement d’actes.

19. Organisation Internationale de Normalisation

49

Page 53: Nom du Projet - Sujet du Projet - Institut des actuaires

Pour commencer, nous étudions en parallèle la composition et codification d’actes ap-pliquée dans le système français de Sécurité Sociale, connu sous le nom de CCAM 20,ainsi que la codification interne de SwissLife, déchiffrée à l’aide d’une experte en rem-boursements des frais de santé . Ensuite, le plus gros défis a été l’homogénéisation desactes vu que chaque délégataire utilise sa propre codification. Une brève description desgrands postes retenus se présente ci-dessous et le tableau des actes médicaux détaillése trouve en annexe.

Classification des actes médicaux SwissLife

� Médecine courante : Comprenant toutes les visites et consultations chez le mé-decin généraliste et spécialiste.

� Analyses et Radiologie : Actes d’imagerie, de biologie, dépistages et prélève-ments.

� Hospitalisation : Remboursements liés aux actes de chirurgie, frais de séjour,frais d’accompagnant, chambre particulière, entre autres.

� Maternité

� Optique : Lentilles, verres, montures et chirurgie de l’œil.

� Dentaire : Soins dentaires, prothèses dentaires, implants et orthodontie.

� Pharmacie

� Auxiliaires médicaux : Kinésithérapie, médecine douce ou alternative et podo-logue.

� Orthopédie : Grand et petit appareillage.

� Autres postes : Cures thermales, transport sanitaire, bilan de santé ou autresprestations.

Compte tenu que les variables pays et postes étaient les plus compliquées à traiter, untravail supplémentaire a été appliqué sur ces deux variables.A l’issue de ce traitement et afin de mieux homogénéiser la base, nous avons décidé defaire un nouveau traitement des autres variables. Ci-dessous la description de la façondont les autres variables ont été traitées, créées et homogénéisées :

• Contrat : Pour chaque délégataire, les numéros de contrats sont différents.Nous nous sommes donc concentrés sur l’uniformisation et l’anonymisation de ces nu-méros afin de pouvoir en extraire le code produit dans le but d’identifier les formules etplafonds associés aux assurés. Les éléments n’ayant pas d’intérêt dans le cadre de cetteanalyse ont été supprimés.

20. Classification commune des actes médicaux. Se trouve sur le site ameli.fr

50

Page 54: Nom du Projet - Sujet du Projet - Institut des actuaires

• Clé : Un assuré peut évidemment déménager d’un pays à un autre. Il est donc toutà fait normal d’observer certains cas pour lesquels l’assuré a été expatrié sur deux outrois pays différents.

C’est pourquoi nous créons la clé "No. Bénéficiaire – Pays d’expatriation" qui per-mettra d’associer correctement les données de sinistralité aux assurés par rapport àleur durée d’adhésion sur une zone géographique spécifique.

• Date d’Adhésion/Radiation : Les données sont fractionnées par période d’adhésiond’un assuré, sans prendre en compte les possibles renouvellements du contrat (les casd’adhésions supérieures à un an). Par exemple, un assuré avec une durée d’adhésiontotale de 3 ans aura 3 lignes différentes sur la base, c’est-à-dire une ligne par annéed’adhésion.

Puisque nous souhaitons garder une seule ligne par clé, nous conserverons la dated’adhésion minimale ainsi que la date maximale pour la variable date de radiation.Lorsque l’assuré n’est pas radié, on associe la date 31/12/9999.Cette information est indispensable lors du calcul de la période d’exposition par assuréou plutôt par clé.

• Niveau de Garantie : Notre base des données est composée d’informations relativesà 14 produits différents de la compagnie. Chaque produit comporte un niveau de cou-verture distinct qui complique le travail d’homogénéisation. Même si la quantité desproduits ne semble pas conséquente, plusieurs possibilités apparaissent : un produitavec une couverture unique mais aussi le cas des produits avec 3, 4 ou même 6 formulesdifférentes à proposer au client et avec des limites ou taux de couvertures complètementhétérogènes entre produits.

La manière la plus simple est de trouver un maximum de similitude entre les niveaux degaranties par produit est la lecture détaillée des pièces contractuelles. Elles contiennentle détail des bénéficiaires, garanties, exclusions, tarifs, en général toutes informationsrelatives aux conditions de souscription lors de la mise en place du contrat.Nous gardons ainsi une variable à 6 niveaux de couverture 1 étant le niveau le moinscouvert et 6 le niveau le mieux couvert.

7.1.2 Traitement de données aberrantes

Nous devons notamment nous inquiéter également sur la qualité de nos données et par consé-quent, la détection d’anomalies devient une étape indispensable avant d’effectuer toute analysedes données ou encore plus, avant de se lancer sur un travail de modélisation, non seulementen raison de sa susceptibilité aux observations atypiques mais encore une très possible faussetédes résultats.

51

Page 55: Nom du Projet - Sujet du Projet - Institut des actuaires

Tout le travail associé au traitement des données se fonde sur la supposition que les donnéesrecueillies sont techniquement "correctes", c’est-à-dire que le gestionnaire a bien fait son tra-vail et nous transmet des informations conformes aux conditions de souscription. Toutefois,certaines anomalies peuvent apparaître à cause de possibles erreurs d’entrée ou de saisie etque l’on doit traiter adéquatement.

C’est pourquoi, la procédure de détection d’anomalies recherche des cas inhabituels qui fontressortir des écarts par rapport aux règles établies dans la construction initiale du jeu desdonnées. Elle fait intervenir le domaine du « machine learning » avec des techniques d’ap-prentissage telles que les réseaux des neurones, par exemple. Cependant, dans le cas actuel,les anomalies détectées ne représentent pas un pourcentage élevé d’informations et pourtanton peut se baser sur un algorithme assez simple qui permettra dans certains cas d’utiliser lalogique pour remodifier les informations. Il est constitué de deux étapes :

1. Le choix d’une variable d’analyse

2. L’exploration des données par rapport à cette variable

Lorsque l’algorithme s’applique sur chacune de nos variables nous remarquons les anomaliessuivantes :

Age - Statut Assuré :

Nous observons 19 cas dont l’information ne semble pas correcte ni cohérente par rap-port à ces deux variables. Le tableau 7.1 récapitule ces observations.

Tranche d’âge Statut Assuré Nombre d’adhérents

0-9 ansAssuré Principal 2

Conjoint 1

10-17 ansAssuré Principal 9

Conjoint 6

50-59 ans Enfant 1

Table 7.1 – Cas atypiques sur l’âge et le statut assuré

Parmi ces cas nous observons un bénéficiaire en statut "Conjoint" et âgé de 13 ansappartenant à une famille dont il existe déjà un conjoint. Nous considérons qu’il s’agitd’une erreur de saisie et son statut assuré est donc remplacé par "Enfant". Tous lesautres cas sont considérés en tant qu’aberrants et non modifiables. Pour ces raisons,ils ne seront pas pris en compte lors des étapes postérieures sachant qu’ils représententune proportion très faible de la totalité de données.

52

Page 56: Nom du Projet - Sujet du Projet - Institut des actuaires

Pays d’Expatriation :

Comme mentionné précédemment un assuré peut avoir plusieurs pays d’expatriation.Cependant, il n’est pas normal qu’un assuré soit expatrié dans deux pays différents àla même période. Nous avons recensé 0, 8 % de cas dans notre base de données. Nousdécidons donc de les supprimer de la base vu que ce sont des éventualités atypiquesque l’on ne peut ni corriger ni faire de suppositions relatives à la pluralité des paysd’expatriation.

Montant Facturé Aberrant :

Il s’agit d’un sinistre dentaire sous le libellé de prothèse dentaire dont la valeur desfrais réels s’élève à 5 618 328 e. Ce montant est vraiment exorbitant et même inco-hérent pour une prothèse dentaire. Il pourrait de même fausser notre estimation desinistres graves. Ainsi, on ne tiendra pas compte de cette ligne de sinistre.

7.1.3 Traitement de données manquantes

Les données manquantes sont traitées premièrement par délégataire et ensuite sur l’ensembledes variables dès que le portefeuille global sera construit.

Sexe :

Le délégataire GGA nous a transmis toutes les informations demandées à l’exceptiondu sexe des ayants droit. L’objectif est donc de compléter ces informations manquantesvu que GGA représente 34 % du portefeuille final. Le sexe est complété à partir d’autresinformations supplémentaires transmises, telles que le numéro de sécurité sociale et lesprénoms des ayants droit. La saisie s’effectue de la manière suivante :

→ Le numéro de sécurité sociale correspond uniquement à celui des assurés principaux,on associe donc aux assurés le sexe « F » lorsque ce numéro commence par 2 et «H » dès qu’il commence par 1. Ensuite, à partir de cette information le sexe desconjoints est estimé en prenant le sexe opposé à celui de l’assuré principal, supposantbien sûr qu’il s’agit de couples de type « Homme-Femme » uniquement.

→ Le genre des enfants est rempli en utilisant les prénoms.

C’est ainsi que nous avons pu remplir toutes les données manquantes de la variablesexe, même si ceci aurait pu s’effectuer avec la méthode des k plus proches voisins.

53

Page 57: Nom du Projet - Sujet du Projet - Institut des actuaires

Pays d’Expatriation :

Sur le portefeuille Henner, nous disposons de toutes les informations souhaitées à l’ex-ception du pays d’expatriation pour lequel 18 % de l’information est manquante. Cepourcentage est obtenu d’après les indications du délégataire qui enregistre le paysd’expatriation sous le libellé de "pays de détachement".

Malgré le taux d’information manquante, nous disposons également des variables "paysd’adresse" et "pays de résidence". Ces deux nouvelles variables nous permettrons deremplir les données manquantes sur le pays d’expatriation. Nous créons un algorithmequi utilise la logique suivante :

→ Si le pays de détachement est non vide alors : Pays d’Expatriation = Pays dedétachement. Sinon :

→ Si le pays de résidence est non vide alors : Pays d’Expatriation = Pays de résidence,sinon :

→ Pays d’Expatriation = Pays d’adresse,

Néanmoins, nous remarquons qu’après l’application de l’algorithme, 30 % des donnéescomportent la France comme pays d’expatriation, ce qui n’est pas cohérent car dansnotre portefeuille les assurés peuvent se soigner en France mais ce ne sont pas des pro-duits adressés à des impatriés. L’algorithme est donc amélioré comme suit :

→ Si le pays de détachement est non vide et 6= "France" alors : Pays d’Expatriation= Pays de détachement. Sinon :

→ Si le pays de résidence est non vide et 6= "France" alors : Pays d’Expatriation =Pays de résidence, sinon :

→ Pays d’Expatriation = Pays d’adresse,

Cet algorithme nous a permis de réduire de 30 % à 5 % les données incohérentes parrapport au pays d’expatriation sur les données Henner.

Du côté du portefeuille GGA nous ne connaissons pas la variable "pays d’expatria-tion". Dans le but de ne pas perdre l’information de ce gestionnaire et en s’appuyantsur le pays de soins qui se trouve dans le fichier sinistres, nous prenons l’hypothèse quele pays d’expatriation est identique au pays de soins. Cette hypothèse nous servira à laconcaténation des données d’adhésion et de sinistres (cf. Section 7.2).

54

Page 58: Nom du Projet - Sujet du Projet - Institut des actuaires

Plafond :

Le pourcentage de données manquantes par rapport à cette variable est de 83 % surl’ensemble du portefeuille. L’extraction du code produit grâce à la variable contratdonne la possibilité de trouver les polices et également le plafond appliqué par garantieou par formule. Afin de remplir l’information manquante, nous choisissons le plafondmaximal parmi les options proposées dans chaque produit (cf. table 7.2).

Code Produit Plafond Max.(en euros)

1234 1.000.000

4567 500.000

7890 3.000.000

0123 150.000

3456 1.500.000

6789 1.500.000

9012 3.600.000

Table 7.2 – Plafonds par Code Produit

Type de Prestation :

De même que pour la variable "plafond", 83% de l’information est inconnue par rap-port au type de prestation. Cette fois-ci, nous utilisons un fichier interne SwissLifefournissant le type de prestation associé à chacun de nos contrats. Nous retrouvonsune classification basée sur 4 catégories différentes. Toutefois nous ne conserverons queles deux types de prestations mentionnés précédemment "1er EURO" et "ComplémentCFE". Nous regroupons donc les classes tel qu’indiqué dans la table 7.3.

Type de Prestation

1er EURO 1er EURO

1er EURO/Complt SS locale 1er EURO

Complt CFE Complt CFE

Complt SS Complt CFE

Table 7.3 – Catégorisation du type de prestation

55

Page 59: Nom du Projet - Sujet du Projet - Institut des actuaires

7.2 Jointure Adhésions - Sinistres

Une fois la base d’adhésions complètement homogène, nous procédons au traitement des don-nées du fichier sinistres. La base de sinistres est également créée à partir des données reçuespar le délégataire. Le traitement effectué concerne la variable "contrat" et "pays de soins" telqu’expliqué dans la section 7.1.

L’objectif est de constituer une seule base à partir de celle des sinistres en ajoutant les infor-mations sur les adhérents. Sachant que le détail des sinistres est distingué par acte médical etqu’un adhérent peut donc présenter une variété de sinistres selon l’acte.

Nous nous assurons d’abord que l’on connaît les informations d’adhésion pour chacun desbénéficiaires ayant eu des sinistres (âge, sexe, statut assuré, etc.), c’est-à-dire qu’ils doiventtous se trouver sur la base d’adhésions. En effet, nous sommes obligés de supprimer tous ceuxqui ne satisfont pas cette condition du fait que l’information sur ces individus est complète-ment inconnue.

En somme et de même que sur les adhésions, nous devons créer la clé "No. Bénéficiaire –Pays d’expatriation" afin de croiser correctement les deux bases. Néanmoins, vu que le paysd’expatriation n’est pas inclus sur les données de sinistralité et qu’un assuré a pu changerde pays d’expatriation, nous avons ajouté les informations en nous appuyant sur les datesde survenance des sinistres et les dates d’adhésion/radiation. En effet, le pays d’expatriations’accorde à un individu en associant la date de survenance à la période et à la zone d’adhésion.Comme indiqué plus tôt (Section 7.1) pour GGA on a supposé que "Pays d’expatriation"="Pays de soins" .

Lors de l’association de ces variables et dans le but de les croiser correctement. Nous ren-controns à nouveau quelques informations aberrantes :

• La date de survenance du sinistre est inférieure à la date d’adhésion de l’assuré.• Sinistres en maternité dont le sexe est masculin.

Ces données représentent 1, 6 % sur la totalité et en raison de leur incohérence, elles serontsupprimées de la base.

Ensuite nous devons ajouter les assurés n’ayant pas eu des sinistres. Cette partie demandeune attention spéciale car on est susceptible de faire des erreurs du fait qu’une personne n’apas forcement consommé sur tous les postes médicaux. Par exemple, un individu est allé chezle dentiste et puis à la pharmacie, il enregistre en effet une ligne de sinistre « Consultationspécialiste » et une ligne « pharmacie ». Par contre, il n’indique pas de sinistre en optique,hospitalisation, orthopédie, etc. Ceci dit, la non-sinistralité doit être analysée poste par posteet non sur la globalité de sinistres. De façon à ce que nous ajoutions pour chaque individu lenombre des lignes équivalent aux postes.

Finalement, nous réintégrons toutes les bases pour ensuite agréger le nombre et les montantsdes sinistres à travers une somme. Vu que nous souhaitons modéliser le coût moyen de sinistresnous créons également les variables "Coût Moyen Facturé" et "Coût Moyen Remboursé".

56

Page 60: Nom du Projet - Sujet du Projet - Institut des actuaires

7.3 Description des données

En actuariat, la tarification doit nécessairement être précédée d’une étude statistique per-mettant de comprendre la constitution du portefeuille et les dépenses effectuées. Il est doncnécessaire d’explorer, décrire et analyser les données avant d’exécuter un modèle prédictif.Cette section vise à étudier les caractéristiques de la population appartenant au portefeuilleconstitué préalablement, ainsi que l’analyse de sa consommation entre Janvier 2013 et Dé-cembre 2015.

7.3.1 La démographie

D’après l’étape du traitement de données, le portefeuille final est constitué de 4 456 assuréset 4 906 dépendants, l’équivalent de 9 362 bénéficiaires. Cependant, lors de la création de lavariable "clé" nous travaillerons par la suite sur un total de 9 428 bénéficiaires (clés). La table7.4 résume la façon dont les bénéficiaires sont répartis par statut d’assuré et par délégataire.Maintenant, nous étudierons les caractéristiques des individus, sa consommation et la façon

Statut

DélégataireGAPI GGA HENNER WELCARE TOTAL

Assurés Principaux 480 1 427 2 363 198 4468 47.39 %

Conjoints 172 567 874 116 1729 18.34 %

Enfants 321 1 221 1 445 244 3 231 34.27 %

973 3 215 4 682 558 9 428 100 %

Table 7.4 – Répartition des adhérents par statut d’assuré et par délégataire

dont ils se comportent en termes de santé :

57

Page 61: Nom du Projet - Sujet du Projet - Institut des actuaires

Sexe

En premier lieu, la composition du portefeuille se caractérise par une population de45 % de femmes contre 55 % d’hommes, répartition qui reste similaire entre les enfants.Les assurés principaux sont majoritairement des hommes et la plupart des conjointssont des femmes (Figure 7.1).

Figure 7.1 – Répartition de bénéficiaires par Statut d’assuré et par Sexe

Age

L’âge moyen des adhérents est de 28 ans. Toutefois, les tranches d’âge les plus repré-sentatives sont 0-9 ans et 30-39 ans. En lien avec le statut des assurés nous constatonsque les enfants ont en moyenne 8 ans, l’âge moyen des conjoints s’élève à 40 ans et celuides assurés principaux est de 38 ans. Notre portefeuille est majoritairement constituéd’une population jeune avec seulement 13 % d’assurés de plus de 50 ans. (Figure 7.2).Dans l’échantillon étudié nous avons une présence non négligeable d’une populationd’étudiants (40 % du portefeuille GAPI), ce qui explique le fait que l’âge moyen des assu-rés principaux (majoritairement des hommes) est inférieur à l’âge moyen des conjoints.

Figure 7.2 – Répartition des bénéficiaires par Statut d’assuré et par tranche d’âge

58

Page 62: Nom du Projet - Sujet du Projet - Institut des actuaires

Pays d’Expatriation

Dans la base de données, on constate que le nombre de pays d’expatriation s’élève autotal à 146. Étant donné que la proportion d’assurés sur certains pays est trop faible,nous nous intéressons (pour l’instant) uniquement aux 5 pays les plus représentatifs duportefeuille (Figure 7.3).

Figure 7.3 – Les 5 pays d’expatriation les plus significatifs

Type de Prestation

De même que nous l’avons expliqué préalablement, il peut y avoir deux type de rem-boursements sur nos contrats d’expatriés : soit en complément de la C.F.E ou soit au1er EURO. Nous observons que la population d’étude a une préférence pour le rem-boursement en complément de la C.F.E, c’est-à-dire qu’ils gardent majoritairement sonlien avec le régime français, même si la différence est de 4 % seulement par rapport au1er EURO (Figure 7.4).

Figure 7.4 – Répartition des bénéficiaires par type de prestation

59

Page 63: Nom du Projet - Sujet du Projet - Institut des actuaires

Composition Familiale

Lorsque nous analysons la composition familiale par rapport au portefeuille global debénéficiaires, nous observons que 62 % des adhérents appartiennent à une famille, 26 %sont isolés et 12 % ont adhéré en duo, c’est-à-dire en couple "assuré principal-conjoint"ou "assuré principal-enfant". Toutefois, nous cherchons à comprendre la façon dontl’assuré principal souscrit un contrat et bien évidement cette proportion change si l’onse base sur le nombre d’assurés principaux du portefeuille par rapport au nombre debénéficiaires totaux (Figure 7.5).

Figure 7.5 – Répartition des assurés principaux par composition familiale

Période d’adhésion (Exposition)

L’analyse de cette variable nous indique que 27 % de nos assurés ont une durée d’ex-position de 3 ans, soit 36 mois, c’est à dire qu’ils ont été présents dans le portefeuillependant toute la période d’étude. En s’intéressant à l’ensemble de la population, ladurée moyenne d’exposition est de 20 mois et seulement 14 % d’assurés ont adhérépour une durée inférieure à 6 mois.

La proportion importante de la population ayant adhérée toute la période d’observationlaisse imaginer une bonne gestion du portefeuille. Les 14 % d’assurés présents sur moinsde 6 mois s’expliquent soit par une sortie du contrat lors de la période d’observationou à l’inverse d’une entrée sur la fin de la période.

7.3.2 La consommation

L’étude de données porte sur un historique de sinistralité nous permettant de connaître lesfrais réels et les remboursements effectués de la part de SwissLife, ainsi que les niveaux degaranties et les taux de couverture de nos assurés. Sur cette partie nous nous intéressonsà la consommation des assurés en termes de santé, c’est à dire aux coûts réels des sinistres.L’analyse des dépenses de santé se base sur les 10 postes médicaux définis et crées lors de l’étaped’homogénéisation des données (Section 7.1.1), cherchant à comprendre si la consommationchange en fonction des caractéristiques de l’assuré.

60

Page 64: Nom du Projet - Sujet du Projet - Institut des actuaires

Tout d’abord, nous regarderons les frais dépensés par poste et ensuite nous analyserons le rôleque peut jouer chacune des autres variables sur les montants facturés. Afin d’éviter le biaisqui peut apparaître lors du regroupement des postes médicaux, nous étudierons par la suitela répartition des dépenses par poste.Les frais réels du portefeuille s’élèvent à 27 millions d’euros avec un taux moyen de rembour-sement de 64 %. Un chiffre non négligeable et qui nous amène à vouloir expliquer quels sontles facteurs impactant le plus les dépenses des frais de santé.

Postes Médicaux

Nous commencerons par définir le taux de couverture comme pourcentage de rem-boursement par rapport aux frais réels.

Taux de couverture =Montant RembourséMontant Facturé

En conséquence, nous remarquons que le taux de remboursement est dans la plupart decas supérieur à 50 %. Les postes les mieux remboursés sont les autres postes (Médecinealternative, etc) à 90 % ainsi que l’hospitalisation à 84 %.L’hospitalisation est caractérisée pour ses coûts très élevés mais peu fréquents. Du côtéde la médecine alternative, logiquement le taux de remboursement est fort étant donnéque les régimes de sécurité sociale ne remboursent pas ce type d’actes.

Inversement, les taux de remboursement les plus faibles se trouvent sur d’une partsur la maternité, qui peut avoir des montants aussi conséquents qu’en hospitalisationet d’autre part ressortent l’orthopédie, le dentaire et l’optique. En effet une faibleproportion de la population consomme sur le poste orthopédie et les remboursementsdentaires et de monture sont souvent très limités alors que ces postes de dépensespeuvent être assimilés à des dépenses de "plaisir" et le reste à charge peut être facilementassumé par une population d’expatriés avec un pouvoir d’achat important. Tous lesautres postes ont un taux de remboursement sensiblement identique (Figure 7.6).

Figure 7.6 – Coûts moyens facturés et remboursés par grand poste

61

Page 65: Nom du Projet - Sujet du Projet - Institut des actuaires

Sexe

Suivant la figure 7.7, nous constatons que la plus forte différence de dépenses s’ob-serve bien évidemment sur la maternité vu qu’il s’agit d’un poste uniquement adresséaux femmes.L’hospitalisation et l’optique apparaissent avec une proportion de consommation plusimportante chez les hommes. Toutefois et de façon générale sur les postes les pluscourants tels que médecine courante, pharmacie et analyse,la consommation reste trèssimilaire entre homme et femme.L’impact de la variable sexe sur le coût de sinistres sera certainement constaté lors del’étape de modélisation.

Figure 7.7 – Coût moyen facturé par sexe et par poste médical

Statut Assuré

En outre, si l’on compare la consommation des assurés par rapport à leur statut nousobservons une très forte consommation de la part des assurés principaux et encore unefois, la maternité domine avec un énorme écart par rapport aux autres catégories debénéficiaires. 55 % des coûts moyens de maternité sont causés par les assurés princi-paux, même si les conjoints (majoritairement des femmes) ont eu plus de sinistres. Ladifférence s’observe donc au niveau des coûts facturés.

Les dépenses de santé chez les enfants sont souvent inférieures mais pas très éloignés desassurés et conjoints. Logiquement, les enfants ont une tendance à attraper plus de virusou de maladies, ce qui implique un important nombre de consultations chez le pédiatreou d’hospitalisations. Les consommations en maternité chez les enfants s’explique dufait d’un sinistre à coût élevé associé à une fille de 18 ans.

62

Page 66: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 7.8 – Coût moyen facturé par statut d’assuré et par poste médical

Age

L’impact de l’âge est très important par rapport aux consommations des frais de santé.En effet et en liaison avec notre conclusion du point précèdent, les enfants (très jeunesmême) entre 0-9 ans consomment beaucoup en termes d’hospitalisation. Sachant quec’est la tranche d’âge où se développe le système immunitaire entraînant beaucoup deconsultations et de vaccinations mais aussi parfois des problèmes à la naissance impli-quant de longs et coûteux séjours à l’hôpital.

D’un autre côté, le dentaire et l’hospitalisation se comportent de façon similaire, nouspourrons même affirmer qu’il y a une forte corrélation entre les deux et que les dépensesaugmentent proportionnellement avec l’âge.

L’optique a également une petite similitude avec le dentaire, à l’exception de la tranchede 30 à 39 ans qui est la plus représentative en terme de consommation en optique. Labaisse en dentaire après la tranche 10-19 ans, s’explique du peu de traitements ortho-dontiques survenant au-delà de 18 ans, en général.

Finalement, en maternité tel qu’on pourrait l’imaginer les dépenses s’effectuent entre20 et 39 ans, la tranche des 30-39 ans étant la plus forte. A savoir, en France, l’âgemoyen de la maternité était de 30,6 ans en 2017.

63

Page 67: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 7.9 – Coût moyen facturé par age et par poste médical

Pays de Soins

L’analyse de la sinistralité par pays de soins sera réalisée directement dans la par-tie de modélisation où l’on étudiera la fréquence et le coût moyen de sinistres par grandposte.

64

Page 68: Nom du Projet - Sujet du Projet - Institut des actuaires

Chapitre 8

Analyse des postes

L’enjeu principal en assurance est de trouver un tarif selon une variété de caractéristiquesdont on dispose. En revanche, il y a de plus en plus intérêt à affiner au maximum les tarifs etpourtant à les segmenter correctement en fonction de l’information disposée.

Premièrement, on ne mélange pas les pommes et les poires. Dans le cas actuel, ce seraitl’équivalent de ne pas combiner des sinistres associés à une certaine famille de sinistres avecune autre de type différent, parce qu’ils ne se comportent pas de la même manière ni en termesde fréquence ni de coût et c’est donc à cause de ce mélange qu’apparaît le fameux biais ouerreur en modélisation qui nous fait souvent sur ou sous-tarifer un risque.

L’objectif est ainsi de segmenter notre tarif par poste médical, soit l’équivalent d’effectuer10 modèles d’après notre classification des postes réalisée précédemment. Cependant, dans lebut de garder la confidentialité de l’information et de simplicité, nous appliquerons les fu-tures méthodologies sur 3 familles de postes que l’on considère les plus significatives lors de laconstitution d’un produit de santé.

Le poste de soins courants contient une agrégation des postes : Médecine courante, analyseset radiologie, auxiliaires médicaux et autres postes. Cette combinaison se base en l’expérienceconstatée sur l’ensemble du portefeuille Santé de SwissLife. En effet, l’hospitalisation, les postescourants et le dentaire ont été les postes choisis pour les modélisations lors du présent travail.Nous considérons qu’ils représentent des soins nécessaires lorsque l’on souhaite s’assurer ensanté.

Par conséquent, le présent chapitre s’occupe de la mise en œuvre des données décomposées enfréquence-coût pour chacun des 3 postes ainsi que toute l’analyse préalable à la modélisation,soit le calcul de corrélation entre variables, la segmentation de variables, l’échantillonnage,la séparation des sinistres de masse et graves, également du comportement statistique de lafréquence et du coût de chacun des postes.

65

Page 69: Nom du Projet - Sujet du Projet - Institut des actuaires

8.1 Description des postes

8.1.1 Poste Dentaire

Les actes médicaux associés au poste dentaire se regroupent en 3 catégories principales :

• Soins dentaires : Les inlays-onlays, les actes de parodontologie, de prophylaxie et deprévention.

• Prothèses dentaires : L’inlay core et l’implantologie.

• Orthodontie

La fréquence et le coût de sinistres sur chacune de ces familles est complétement opposé.D’une part, les prothèses dentaires constituent des actes peu fréquents mais ayant un coûtassez conséquent tandis que les soins dentaires sont beaucoup plus fréquents et leur coût restemoins élevé. D’autre part, l’orthodontie est souvent restreinte à une tranche d’âge inférieur à18 ans où le coût diminue et la fréquence s’incrémente. Contrairement à ce qui se passe aprèsl’âge de 18 ans.

8.1.2 Hospitalisation

L’hospitalisation est définie comme un séjour de plus de 24 heures dans un établissement, soitune clinique ou un hôpital. Les actes pouvant être facturés lors d’une hospitalisation sont :

— Les frais de séjour— Les honoraires des médecins— Les honoraires du chirurgien et de l’anesthésiste— La chambre particulière— Les frais d’un accompagnant— Le forfait journalier

En général, l’hospitalisation se caractérise pour avoir une incidence très faible quant au nombrede sinistres mais qui ont un coût très élevé.

8.1.3 Soins Courants

Les soins courants comportent une intégration de 4 familles de sous postes décrivant les soinsmédicaux les plus couramment pratiqués non seulement parce qu’ils sont liés à un problèmede santé mais aussi à des actes préventifs au niveau de suivi et contrôle de la santé :

— MEDECINE COURANTE : Visites et consultations médicales que ces soient généra-listes ou spécialistes.

— AUXILIAIRES MEDICAUX : Médecine douce, kinésithérapie, podologie et en généraldes actes faiblement remboursés par les régimes obligatoires.

— ANALYSES ET RADIOLOGIE : Analyses de laboratoire, prélèvements, dépistage etradiologie.

— AUTRES POSTES : Cures thermales, transport sanitaire, bilan de santé, entre autres.

66

Page 70: Nom du Projet - Sujet du Projet - Institut des actuaires

8.2 Corrélation

Maintenant nous nous intéressons à l’existence d’une possible corrélation ou dépendance entrevariables selon sa catégorie. En premier lieu rappelons les variables quantitatives de notre jeudes données :

— Nombre de sinistres— Montant facturé et remboursé— Coût moyen facturé et remboursé— Age— Exposition— Taux de couverture

Préalablement, nous connaissons la forte corrélation entre les montants facturé et remboursépar rapport au taux de remboursement car cette dernière variable a été constituée à partir desdeux autres. Nous choisissons donc de baser notre modélisation sur les frais réels de sinistres.

Nous constatons que mathématiquement ces variables ne sont pas corrélées, notre cible pourdéterminer la corrélation est au-dessus de 0, 8, le "corplot" nous permet d’observer de façontrès simple si nos variables quantitatives sont corrélées et à quel niveau, à partir des cerclescolorés, les plus foncés représentant une corrélation très élevée. Dans le cas actuel, ce graphiques’observe sur la figure 8.1 où les liens les plus marqués apparaissent entre le coût moyen fac-turé et le montant facturé (logique). Et bien évidement lorsque l’on souhaite modéliser le coûtmoyen de sinistres, seulement le coût moyen facturé sera utilisé et cette corrélation n’auradonc pas d’impact sur les résultats même si celle-ci ne dépasse pas le 0, 8.

Figure 8.1 – Corrélation entre variables quantitatives

67

Page 71: Nom du Projet - Sujet du Projet - Institut des actuaires

Ensuite, lors du calcul de la corrélation entre variables qualitatives aucune p-value dépasse0, 05. Ainsi toutes les variables qualitatives sont indépendantes entre elles et en effet notre mo-délisation peut initialement toutes les utiliser en tant que variables explicatives. Pour rappel,les variables qualitatives sont :

— Pays d’expatriation— Code produit— Type Client— Tranche d’âge— Sexe— Statut d’assuré— Type de Prestation— Composition Familiale— Classes de taux de couverture (Segmentation de la variable quantitative « taux de

couverture »)

8.3 Segmentation des données

Dans le but de tester de manière plus simple la significativité d’une variable explicative dansle modèle, il est nécessaire de segmenter les variables contenant un grand nombre de catégoriesou de convertir une variable de type quantitative en qualitative.

Nous choisissons de catégoriser la variable âge en regroupant par classes de dix ans jusqu’àl’âge de 50 ans et puis une dernière classe correspondante aux adhérents âgés de plus de 60ans. Ensuite, une procédure identique se réalise sur la variable taux de couverture afin d’avoirdes intervalles de dix par rapport au pourcentage de remboursement. La table 8.1 résume lesclasses créées pour ces deux variables.

Classes d’age Classes du taux de couverture

[0,9] , (9,19] [0,10] , (10,20]

(19,29] , (29,39] (20,30] , (30,40]

(39,49] , (49,59] (40,50] , (50,60]

+60 (60,70] , (70,80]

(80,90] , (90,100]

Table 8.1 – Catégorisation des variables âge et taux de couverture

Un travail de segmentation doit également s’effectuer sur les pays de soins et d’expatriationvu la grande quantité de catégories associées. En revanche, puisque nous souhaitons affiner aumaximum le tarif, la segmentation en zones géographiques s’effectuera par poste médical etde façon séparée pour la fréquence et le coût moyen. La description des zonages se présenteradans la section suivante.

68

Page 72: Nom du Projet - Sujet du Projet - Institut des actuaires

8.4 Analyse de la sinistralité

Tout d’abord, nous divisons notre base en 3 jeux de données permettant de faire l’analyseséparée par poste. Chacune des bases se travaille individuellement et s’agrège jusqu’au niveaude famille d’acte de façon à ce que l’on identifie le nombre de sinistres et leur montants enfonction des catégories principales par grand poste.

Comparons ensuite la proportion entre la population sinistrée et non sinistrée au sein dechaque poste.

— DENTAIRE : La population sinistrée représente 33, 12 % du portefeuille avec unpourcentage de déclaration de 26, 27 %.

— HOSPITALISATION : C’est le poste avec la moindre de population consommatrice,soit une proportion de 27, 83 % avec un pourcentage de déclaration de 21, 58 %.

— SOINS COURANTS : Il s’agit du poste le plus représentatif. Après agrégation despostes, la proportion reste équilibrée entre individus sinistrés et non sinistrés (50, 09 %et 49, 91 % respectivement). Cependant à l’intérieur de sous postes, une haute sinistra-lité s’observe sur les consultations à 94, 32% et les analyses à 84, 54 %, suivis par lesauxiliaires médicaux avec 45, 01 % et la plus faible sinistralité se trouve dans les autrespostes à 17, 38 %. Dans les 50, 09 % d’individus sinistrés, le taux de déclaration s’élèveà 65, 17 %.

Par ailleurs, la table 8.2 résume les principaux attributs statistiques des variables continuesassociés à la fréquence et aux coûts des sinistres par grand poste.

Nous remarquons que concernant la fréquence de sinistres, il n’existe pas beaucoup de diffé-rence entre les 3 postes. Bien évidemment le plus fréquents se placent sur les postes courants,le cas de consultations, analyses, etc

Si on se place maintenant du côté des montants des sinistres, plusieurs variations apparaissentet nous montrent l’importance de décomposer la charge de sinistre. Le plus gros sinistre fac-turé et remboursé se trouve dans l’hospitalisation, ce qui est tout à fait cohérent car il estnormalement lié à des problèmes de santé demandant l’intervention des soins plus complexeset bien plus coûteux.

Les coûts du poste dentaire ne restent pas négligeables mais quant au coût moyen ils re-présentent un tiers des sinistres hospitaliers. Inversement les sinistres du poste courant sontles moins significatifs en termes des montants des sinistres.

69

Page 73: Nom du Projet - Sujet du Projet - Institut des actuaires

DENTAIRE

Variable Min 1st Qu Median Mean 3rd Qu Max

Nb. Sinistres 1,00 1,00 1,00 2,28 3,00 24,00

Montant Facturé 5,01 57,84 161,79 655,02 604,07 66 368,32

Montant Remboursé 0,49 24,58 97,17 318,92 333,69 10 273,00

HOSPITALISATION

Variable Min 1st Qu Median Mean 3rd Qu Max

Nb. Sinistres 1,00 1,00 1,00 2,14 2,00 76,00

Montant Facturé 0,99 137,90 616,23 2 331,64 1 852,68 290 556,33

Montant Remboursé 0,44 112,27 431,19 2 009,05 1 500 ,85 290 556,33

POSTES COURANTS

Variable Min 1st Qu Median Mean 3rd Qu Max

Nb. Sinistres 1,00 1,00 2,00 3,97 4,00 98,00

Montant Facturé 0,07 49,62 116,02 303,63 311,62 182 789,53

Montant Remboursé 0,01 25,00 75,61 213,18 211,75 16 336,96

Table 8.2 – Résumé fréquence-coût de sinistres dentaires

8.5 Individu de référence

L’individu référence correspond à celui qui coïncide avec les modalités les plus représentativessur chacune des variables du jeu de données. Dans le cas actuel, on s’intéresse au profil desindividus ayant eu des soins médicaux dont les caractéristiques peuvent varier en fonction dutype de dépense. Sur nos 3 postes d’étude, les profils des individus sont présentés sur la table8.3.

De façon similaire que sur la médecine courante et le dentaire, les individus ont majoritairementdes séjours hospitaliers en France même si leur pays d’expatriation se trouve sur le continentafricain. Certaines variations constatées sur l’hospitalisation sont l’âge dont la tranche consom-matrice se trouve une dizaine d’années au-dessus de la tranche des autres postes, le type deprestation qui est plutôt au 1er euro et le sexe qui passe de côté des hommes.

Le poste avec un taux de couverture inférieur est le dentaire dans un intervalle compris entre30 et 40 % restant à la charge de l’assureur en comparaison au taux maximal de 90 à 100 %observé sur les autres deux postes. Cette différence peut s’expliquer par les forts coûts facturéslors d’une hospitalisation et peut ne pas s’avérer abordable pour certains assurés. D’où lesrégimes sociaux interviennent généralement avec un remboursement assez avantageux.

70

Page 74: Nom du Projet - Sujet du Projet - Institut des actuaires

VARIABLE DENTAIRE HOSPITALISATION COURANTE

Pays d’expatriation Madagascar Sénégal Sénégal

Tranche d’âge 40-49 ans 30-39 ans 30-39 ans

Sexe Femme Homme Femme

Statut d’assuré Assuré Principal Assuré Principal Assuré Principal

Type de client Individuel Individuel Individuel

Type de prestation Complt CFE 1er EURO Complt CFE

Composition familiale Famille Famille Famille

Taux de couverture (30, 40] (90, 100] (90, 100]

Table 8.3 – Individu de référence par poste

8.6 Séparation des sinistres

Généralement la sinistralité est décomposée en trois types de sinistres :

— Attritionnels ou risques de masse, c’est à dire les plus fréquents.— Graves, à savoir moins fréquents mais plus chers— Catastrophiques, très faible fréquence mais un coût très élevé

Dans le cas actuel, nous effectuons une décomposition des sinistres sur les deux premièrescatégories en cherchant un seuil à partir duquel on considère qu’un sinistre puisse être grave.Cette séparation est faite à l’aide de la théorie des valeurs extrêmes dont les détails théoriquesse trouvent en annexe.

Etant donné que nous avons agrégé le nombre de sinistres ainsi que les montants par familled’acte et par bénéficiaire, nous nous posons quand même la question si le seuil se détermineavant ou après agrégation. Afin de répondre à cette question nous évaluons le résultat obtenudans les deux cas en employant la variable « montant facturé » sur la base brute (sans agréger)et le "coût moyen facturé" sur la base agrégée pour déterminer le seuil.

En effet, les deux options nous ramènent sensiblement à la même conclusion. Néanmoins,nous retenons une séparation par le biais du coût moyen facturé (variable que l’on va mo-déliser), soit un seuil autour de 3 000 e des frais réels pour le dentaire, de 9 000 e pourl’hospitalisation et de 1 200 e sur les postes courants. La modélisation sera effectuée sur lessinistres attritionnels, c’est à dire sur les sinistres inférieurs à ces seuils dont leur choix se basedes "Mean plots" récapitulés par poste sur la figure 8.2 et prenant la valeur dont le graphiquede gauche perd sa linéarité ou dont le deuxième trouve une premiere coupure.

71

Page 75: Nom du Projet - Sujet du Projet - Institut des actuaires

La façon dont les sinistres graves seront pris en compte lors du tarif final consiste à calculerune moyenne pondérée de ces sinistres à l’intérieur de chaque poste, en fonction du taux decouverture associé à chacun d’entre eux. Soit un surplus de 6, 81 e sur le tarif dentaire final,118, 75 e sur le tarif hospitalier et 1, 77 e sur le tarif de médecine courante .

Figure 8.2 – Seuil de séparation entre sinistres attritionnels et graves

72

Page 76: Nom du Projet - Sujet du Projet - Institut des actuaires

8.7 Échantillonnage

Une des dernières étapes avant de construire un modèle prédictif consistera à diviser la basede sinistres attritionnels en trois : un échantillon d’apprentissage, un échantillon de validationet un échantillon de test, indépendants entre eux. La base d’apprentissage est constituée aléa-toirement en prenant 70 % des données, le 30 % restant est réparti entre la base de validationavec 20 % et la base de test avec le 10 % restant. Le premier servira à constituer le modèle, ledeuxième à optimiser les paramètres et le dernier à tester l’adéquation et la performance dumodèle.

Étant donné que les GLM optimisent déjà ses paramètres, ils ne requièrent pas l’utilisationd’une base de validation. Dans ce cas, nous emploierons le même échantillon d’apprentissagemais les deux autres seront intégrés sur un seul servant à mesurer la performance du modèle.

Nous nous assurons que les échantillons sont homogènes en calculant la moyenne, la variancedes montants facturés ainsi que le maintien de la distribution des classes lors de la partition.Cette dernière se valide à partir de la variable tranche d’âge et tel qu’on le constate sur latable 8.4 les valeurs sont presque identiques. Nous pouvons ainsi passer aux étapes suivantessur cette division des donnés.

DENTAIRE

Base 0-9 ans 10-19 ans 20-29 ans 30-39 ans 40-49 ans 50-59 ans +60 ans

Apprentissage 0,2049 0,1212 0,1742 0,2013 0,1605 0,0931 0,0443

Validation 0,2045 0,1215 0,1741 0,2016 0,1606 0,0931 0,0443

Test 0,2052 0,1210 0,1742 0,2013 0,1606 0,0929 0,0445

HOSPITALISATION

Base 0-9 ans 10-19 ans 20-29 ans 30-39 ans 40-49 ans 50-59 ans +60 ans

Apprentissage 0,2044 0,1144 0,1753 0,2031 0,1560 0,0957 0,0508

Validation 0,2045 0,1144 0,1751 0,2030 0,1561 0,0958 0,0508

Test 0,2043 0,1139 0,1758 0,2033 0,1561 0,0952 0,0510

POSTES COURANTS

Base 0-9 ans 10-19 ans 20-29 ans 30-39 ans 40-49 ans 50-59 ans +60 ans

Apprentissage 0,2072 0,1223 0,1721 0,2045 0,1601 0,0952 0,0482

Validation 0,2072 0,1123 0,1721 0,2046 0,1601 0,0951 0,0482

Test 0,2071 0,1123 0,1721 0,2045 0,1602 0,0952 0,0483

Table 8.4 – Distribution des classes lors du partitionnement des sinistres

73

Page 77: Nom du Projet - Sujet du Projet - Institut des actuaires

8.8 Zonage

Étant donné que la fréquence et le coût des sinistres peuvent varier en fonction du poste médi-cal ainsi que du pays d’expatriation et/ou de soins et que de plus nous cherchons à segmenterle tarif au maximum, les zones géographiques à construire vont également être différentes.

A l’aide des méthodes de classification, nous partons du choix de 6 catégories/zones de classifi-cation pour la variable pays de soins étant donné qu’elle contient 147 entrées différentes. Cettecatégorisation s’effectue à l’aide d’une classification ascendante hiérarchique, en testant la mé-thode de quantiles, de hclustering et plus précisément en gardant la méthode des k-means, quinous semble la plus cohérente.

Dès lors que le modèle s’ajuste avec une décomposition fréquence-coût, la création de la va-riable zone doit être réalisée sur chacune des variables à expliquer : Nombre de sinistres etCoût Moyen de sinistres. Nous obtenons ainsi et grâce à la fonction classIntervals de R, lesintervalles de classifications donnés par la table 8.5.

FREQUENCE N

Zones Dentaire Hospitalisation Médecine C.

0 0 0 0

1 (0; 38] (0; 12] (0; 112]

2 (38; 128] (12; 40, 5] (112; 384, 5]

3 (128; 229, 5] (40, 5; 114, 5] (384, 5; 1 113]

4 (229, 5; 388] (114, 5; 299, 5] (1 113; 3 720]

5 (388; 1 209] (299, 5; 891] (3 720; 12 719]

6 (1 209;∞) (891;∞) (12 719;∞)

COUT MOYEN S

0 0 0 0

1 (0; 27, 4] (0; 102, 9] (0; 12, 89]

2 (27, 4; 71, 4] (102, 9; 281, 84] (12, 89; 24, 72]

3 (71, 4; 130] (281, 84; 375, 29] (24, 72; 42, 36]

4 (130; 227, 79] (375, 29; 645, 91] (42, 36; 57, 46]

5 (227, 79; 422, 64] (645, 91; 2 000, 18] (57, 46; 86, 84]

6 (422, 64;∞) (2 000, 18;∞) (86, 84;∞)

Table 8.5 – Création des zones pour la fréquence et le cout moyen des sinistres

74

Page 78: Nom du Projet - Sujet du Projet - Institut des actuaires

A l’aide du logiciel R et des packages tels que mapstools ou cartography, il est possible dereprésenter graphiquement ces intervalles à travers d’une carte du monde nous permettantd’identifier plus facilement les zones avec une sinistralité plus forte ou celles dont le coûtmoyen de sinistres est plus ou moins élevé. A titre d’exemple du type de sortie que l’on peutobtenir à l’usage de ces packages, la figure 8.3 dessine le zonage effectué sur la fréquence desinistres dentaires. Les autres graphiques de zones sont évoqués dans les annexes (Cf. 9.17).

Figure 8.3 – Fréquence de sinistres dentaires par pays de soins

La fréquence de sinistres est proportionnelle à la représentation de la population par pays ausein du portefeuille d’étude. C’est la raison pour laquelle nous observons une fréquence élevéedans les pays africains ainsi que la Chine et Singapour pour tous les postes. La France apparaîtégalement compte tenu qu’un assuré avec des prestations en complément de la C.F.E peut sefaire soigner soit dans le pays d’expatriation, soit en France. Les États-Unis se distinguentaussi quant à l’hospitalisation.

Inversement, les coûts moyens en fonction du poste ne se distribuent pas de la même façonque la fréquence par zone géographique. Les sinistres dentaires sont plus dominants à Chypre,en Corée du Sud, en Turquie, en Italie et au Canada ; tandis que du côté de l’hospitalisationce sont la Réunion et le Costa Rica qui se distinguent. Finalement pour les soins courants laliste des pays à coût élevé est plus étendue, à savoir le Liban, Sainte Lucie, l’Ouzbékistan,l’Uruguay, les Bahamas, le Zimbabwe, Monaco et le Royaume-Uni.

8.9 Fréquence

Commençons par étudier le comportement de la fréquence de sinistres par poste, tout d’aborden examinant les possibles lois de probabilité pouvant s’adapter à cette variable par rapportaux données ainsi que les possibles liens ou impacts que la fréquence pourrait avoir avec lesvariables explicatives.

75

Page 79: Nom du Projet - Sujet du Projet - Institut des actuaires

8.9.1 Distribution de la fréquence

Puisque le nombre de sinistres correspond à une variable de comptage suivant une loi discrète,nous effectuons un test d’ajustement par une loi de Poisson et une Binomiale Négative. Dansles deux cas la p-value est inférieure à 0, 05, on rejette donc l’hypothèse nulle sur le test de laloi Poisson et de la Binomiale Négative. La figure 8.4 montre les résultats du test d’ajustementappliqué sur les sinistres dentaires, les résultats obtenus sur les autres postes seront présentésdans les annexes.

(a) Loi de Poisson (b) Loi Binomiale Négative

Figure 8.4 – Tests d’ajustement pour la fréquence de sinistres dentaires

Malgré le rejet des tests sur les deux lois, nous confronterons une modélisation par une loiBinomiale Négative, vu qu’elle tient compte du problème de sur-dispersion et qu’en fin decomptes nous voulons évaluer plutôt une espérance conditionnée par les variables explicatives.

8.9.2 Analyse de la fréquence

Nous pouvons examiner la façon dont la fréquence se comporte par rapport aux variablesexplicatives. Nous effectuons une analyse de type ANOVA par grand poste dans le but deretrouver les variables ayant le plus fort impact sur la fréquence de sinistres. A noter qu’ils’agit d’une analyse bivariée qui capte uniquement l’effet individuel d’une variable explicativesur la variable à expliquer.

De façon générale toutes nos variables explicatives se présentent comme significatives. Il ap-paraît que le taux de couverture et l’âge sont les variables essentielles sur les 3 grands postes.D’une part, sur le dentaire le sexe, la composition familiale et le type de prestation se dis-tinguent en plus, tandis que sur l’hospitalisation, ce sont le statut d’assuré, le type de prestationet la composition familiale qui apparaissent. D’autre part, du côté des soins courants ce sontle statut d’assuré, le sexe et le type de prestation.

Cette dissemblance nous permet de souligner l’importance de faire une analyse découpée pargrand poste. Elle donne non seulement la possibilité de mieux comprendre la façon dont lesassurés consomment en santé mais aussi d’établir des normes de souscription ou des profilscibles lors de la proposition de nos offres. Graphiquement et suite aux résultats des ANOVA,nous représenterons ci-dessous les variables considérées les plus significatives par grand poste

76

Page 80: Nom du Projet - Sujet du Projet - Institut des actuaires

médical. A noter que les unités des abscisses sur les graphiques présentés dans cette sectionsont exprimées en nombre de sinistres.

(a) Age - Sexe (b) Statut Assuré - Sexe

Figure 8.5 – Fréquence de sinistres dentaires par rapport aux variables explicatives

D’après la figure 8.5, nous constatons que les sinistres dentaires ne sont pas très éloignés entermes d’âge chez les hommes et les femmes, les premiers présentent plus de sinistres entre 40et 49 ans alors que les femmes les ont plutôt entre 30 et 39 ans. Même si pour les deux sexes,la tranche de 30-49 ans reste la plus consommatrice.Quant au statut de l’assuré et gardant la logique de l’âge, les femmes conjointes et les assurésprincipaux hommes ont le plus grand nombre de sinistres. Tandis que du côté des enfants, laproportion fille-garçon reste très équilibrée.

(a) Taux de couverture - Statut Assuré (b) Age - Type Prestation

Figure 8.6 – Fréquence de sinistres hospitaliers par rapport aux variables explicatives

77

Page 81: Nom du Projet - Sujet du Projet - Institut des actuaires

S’intéressant maintenant à la fréquence de sinistres d’hospitalisation, nous observons dans lafigure 8.6 qu’il s’agit d’un poste où le nombre de sinistres est très élevé même si le taux decouverture reste inférieur à 10 %. L’assuré principal étant toujours le plus consommateur.En somme, tel qu’on le supposait, les assurés ayant une souscription au 1er EURO ont presquele double de sinistres que ceux avec une couverture en complément de la C.F.E. L’âge entre30 et 49 ans est toujours la plus distinguée en termes de fréquence.

(a) Sexe - Statut Assuré (b) Age - Type Prestation

Figure 8.7 – Fréquence de soins courants par rapport aux variables explicatives

Finalement, les soins courants sont bien plus fréquents que les autres deux grands postes.Nous observons énormément des sinistres mais qui ont un coût faible (nous allons le constaterlors de l’analyse des montants). Semblablement à la constitution du portefeuille les assurésprincipaux hommes ainsi que les conjoints femmes vont plus souvent chez le médecin.La répartition du type de prestation reste similaire par tranche d’âge et tel qu’expliqué pré-cédemment ce sont les enfants les plus susceptibles de tomber malade, suivis par les adultesayant entre 30 et 39 ans.

8.10 Coût Moyen

Avant toute analyse et modélisation de la charge de sinistre, il est indispensable de travaillersur les montants des sinistres supérieurs à zéro, autrement, les résultats seront certainementamenés à l’erreur.

Le coût moyen facturé est calculé à partir du nombre de sinistres, raison pour laquelle onne tiendra pas compte de cette variable lors de la modélisation. Même cas pour la variable ex-position, étant donné que le coût des sinistres ne dépend pas de la durée d’adhésion d’un assuré.

Il existe néanmoins une évolution des montants au cours du temps, de laquelle on doit éga-lement tenir compte. En actuariat, cette évolution s’étudie à partir des diverses méthodes deprovisionnement ainsi que l’analyse de la dérive médicale qui est généralement identifiée parpays et en fonction du portefeuille.

78

Page 82: Nom du Projet - Sujet du Projet - Institut des actuaires

8.10.1 Distribution du coût moyen de sinistres

S’agisant d’une variable continue, un test de Kolmogorov nous permet de déterminer la loi deprobabilité du coût moyen de sinistres. Nous testons l’ajustement sur une loi de Weibull, unelog-normale et une Gamma, acceptant l’hypothèse nulle dans les trois cas. La figure 8.8 nousmontre que les trois lois s’adaptent correctement aux données.

En revanche, cette étape s’effectue lorsque nous cherchons juste à connaître le comportementde la variable mais on ne la considère pas comme une information indispensable dans l’ajus-tement du modèle, car l’objectif final se base sur une espérance conditionnelle (en fonction deplusieurs variables explicatives) et donc la loi à utiliser reste un choix arbitraire.

Figure 8.8 – Tests d’ajustement pour le coût moyen de sinistres

8.10.2 Analyse des coûts moyens

A la différence de la fréquence de sinistres où nous avons choisi les variables avec le plus fortimpact à travers d’un ANOVA. Ici, nous effectuerons une analyse similaire mais toujours surles mêmes variables par grand poste et s’appuyant du même type de graphique. Cela dansle but de comparer l’impact des mêmes variables d’une part sur la fréquence des sinistres etd’autre part sur leurs coûts moyens.A contrario que sur fréquence, les unités des abscisses des figures analysées au cours de cettesection s’expriment en termes de montants de sinistres en euros.

79

Page 83: Nom du Projet - Sujet du Projet - Institut des actuaires

(a) Age - Sexe (b) Statut Assuré - Sexe

Figure 8.9 – Coût moyen des sinistres dentaires par rapport aux variables explicatives

La répartition des coûts moyens expose un comportement totalement opposé à celle de lafréquence, parlant en termes d’âge et du sexe. Les dépenses de frais dentaires augmententproportionnellement à l’âge des assurés, que ce soit des hommes ou des femmes. Une légèrediminution s’observe pour la tranche d’âge comprise entre 20 et 29 ans. L’âge supérieur à 60ans du coté des femmes est la plus coûteuse en sinistres dentaires.La relation statut d’assuré-sexe ne présente pas de différence en termes du coût moyen en lacomparant avec la fréquence des sinistres.

(a) Taux de couverture - Statut Assuré (b) Age - Type Prestation

Figure 8.10 – Coût moyen des sinistres hospitaliers par rapport aux variables explicatives

Semblablement, nous observons un comportement inverse par classe de couverture en lien avecle statut de l’assuré par rapport à la fréquence. Ici, les taux de couverture élevés rapportentnotamment le maximum de dépenses en sinistres hospitaliers et la répartition du statut d’as-suré se maintien similaire qu’en fréquence.

80

Page 84: Nom du Projet - Sujet du Projet - Institut des actuaires

Les prestations en complément de la C.F.E restent en moyenne constantes en fonction de l’âgedes assurés alors que celles au 1er EURO montrent une croissance lorsque l’âge augmente.La tranche d’âge de plus de 60 ans continue à apporter la majorité de dépenses de frais dehospitalisation.

(a) Sexe - Statut Assuré (b) Age - Type Prestation

Figure 8.11 – Fréquence de soins courants par rapport aux variables explicatives

Pour terminer cette analyse nous concluons que dans le cadre de soins courants la populationrapporte en moyenne les mêmes frais de dépenses indépendamment de leur âge, sexe, statutou type de prestation. Les enfants entre 0-9 ans et les adultes entre 30-39 ans étant les plusconsommatrices en termes du coût moyen des sinistres.

81

Page 85: Nom du Projet - Sujet du Projet - Institut des actuaires

Troisième partie

Étude de cas pratique

82

Page 86: Nom du Projet - Sujet du Projet - Institut des actuaires

Chapitre 9

Modélisation des postes

La modélisation conservée lors du présent chapitre se base sur une décomposition Fréquence-Coût, ce qui veut dire que le nombre de sinistres ainsi que leur coût moyen seront modélisésde façon séparée.

Parmi les approches étudiés lors du chapitre 2, nous appliquerons quelques uns dans le but decomparer les résultats et de choisir un modèle qui s’ajuste bien à nos données et qui permettraà la fois d’obtenir un tarif adapté. La calibration des modèle, comme cela a été mentionné aupréalable, sera effectuée à partir des échantillons d’apprentissage déjà constitués. L’objectifest de s’assurer que toutes les modalités des variables soient significatives et ceci en cherchanttoujours que les résidus du modèle soient centrés et normaux sans structure particulière.

Une fois ces conditions respectées, l’évaluation du modèle est faite à partir de l’échantillonde test. De sorte que lorsque tous les modèles sont calibrés et validés, les critères d’adaptation(Critère d’AIC) et métriques de performance permettront de déterminer quel est le meilleurmodèle.

9.1 Modélisation de la fréquence

La présente section est dédiée à la modélisation de la variable discrète "Nombre de sinistres".La loi de probabilité étant un choix arbitraire, nous effectuerons des régressions de type log-binomiale négatif ainsi que log-poisson et qui seront confrontées à plusieurs méthodologies.Dans le but de tenir compte de la durée d’exposition d’un individu dans le portefeuille, lavariable "Exposition" apparaîtra dans les modèles en tant que variable offset en prenant éga-lement son logarithme.

9.1.1 GLM - Log Binomial Négatif

Nous partirons d’un modèle saturé, c’est à dire, contenant toutes les variables à l’exception bienévidemment du montant de sinistres, car les deux variables à expliquer sont indépendantes.Ensuite, vu que toutes les variables ne sont pas significatives, les modèles doivent être optimisésen regroupant les modalités des variables ou en les supprimant si le regroupement n’est pluspossible. Cette procédure de sélection des variables est appelée stepwise employant la méthoded’élimination backward.

83

Page 87: Nom du Projet - Sujet du Projet - Institut des actuaires

La table suivante récapitule les variables retenues sur chacun des modèles GLM par poste ainsique leur regroupements.

DENTAIRE HOSPITALISATION COURANTS

Statut Assuré Statut Assuré Sexe

Sexe Sexe Type de client

Type de client Type de client Zone.Nb : Zone 0-1

Zone.Nb : Zone 0-1, Zone.Nb : Zone 0-1 Composition Familiale

Zone 2-3, Zone 4-5-6 Composition Familiale Type de Prestation

Taux de couverture Type de Prestation Tranche d’âge : +50

Tranche d’âge : 0-39, +40 Taux de couverture

Taux de couverture

Table 9.1 – Variables significatives lors de la modélisation GLM pour la fréquence

L’analyse de la déviance à l’aide d’un test ANOVA, nous confirme la significativité de ces va-riables, étant plus faible pour la variable "Statut d’Assuré" sur le poste dentaire. Les variablesnon significatives, ne seront pas prises en compte par la suite.

Les résultats des modèles ajustés et optimisés se présentent dans les annexes, la variable"Estimate" associe un coefficient à chaque modalité lors du calcul de l’espérance, ce qui per-met de mesurer l’impact positif ou négatif d’une variable sur la fréquence.

Les résidus des modèles retenus ne montrent pas de structure particulière et sont centrésautour de zéro pour toutes les variables résultant significatives.Cette conclusion se confirme grâce à la figure 9.1 qui correspond à une analyse des résiduspar la méthode de déviance et en relation un à un avec chacune des variables explicatives. Lafigure 9.1 est associée au résidus générés lors de la modélisation GLM du poste dentaire, ceuxobtenus pour l’hospitalisation et les soins courants se trouvent en annexe.

84

Page 88: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 9.1 – Résidus du GLM Log - Binomial Négatif sur le poste dentaire

Finalement, nous effectuons une dernière validation de l’ajustement du modèle en comparantles statistiques de base du modèle retenu contre celles de l’échantillon de test. Les attributsstatistiques associés à ces observations sont résumées sur la table 9.3 en fin de section pourtoutes les méthodologies employées.

Malgré une fréquence maximale plus faible sur le modèle que sur les échantillons d’appren-tissage et de test, nous considérons que les prédictions du modèle sont assez proches pourla moyenne. La sur-estimation de la fréquence peut être expliquée par la masse de popula-tion n’ayant pas de sinistres. L’application d’un modèle zéro-inflaté pourrait corriger cettedisproportion.

9.1.2 Arbres de décision CART

De même que sur la modélisation de type GLM nous commençons par la construction d’unarbre saturé, c’est à dire qui tient compte de toutes les variables explicatives. Cependant,l’arbre obtenu contient une grande quantité de ramifications qui complique l’interprétation.L’utilisation de cet arbre lors de la tarification peut nous ramener encore une fois sur leproblème de sur-apprentissage, car il explique bien les données mais peut les prédire très mal.On fait donc appel à la validation croisée qui permet d’optimiser cet arbre de façon à ce quel’on obtienne des résultats plus lisibles et une prédiction plus adaptée. Dans le cas actuel, nousutilisions la méthode a posteriori ou d’élagage pour améliorer la taille de l’arbre. La figure 9.4synthétise les arbres optimaux obtenus lors de l’application de l’élagage des arbres saturés,eux mêmes se trouvent dans les annexes.

85

Page 89: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 9.2 – Arbres CART optimaux pour le poste dentaire

Figure 9.3 – Arbres CART optimaux pour l’hospitalisation

Notons que sur les postes courants et l’hospitalisation, il existe beaucoup de similitudes dansle choix de variables tarifaires retenues avec une modélisation GLM et de type CART. Sur leposte dentaire le modèle CART garde moins de variables explicatives que sur le GLM. Nouscalculerons postérieurement les erreurs des modèles dans le but de choisir le plus adapté.

86

Page 90: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 9.4 – Arbres CART optimaux pour les soins courants

Les résultats des prédictions CART par poste sont également présentés sur la table 9.3 en finde section.

87

Page 91: Nom du Projet - Sujet du Projet - Institut des actuaires

9.1.3 GBM - Log Poisson

L’application du Gradient Boosting Machine emploie également le principe de régression sa-turée dont le modèle est construit à partir de toutes les variables explicatives et choisit lesmeilleurs prédicteurs en fonction du paramétrage.

La fréquence de sinistres étant une variable discrète, nous choisissons la distribution de Poissonpour la modéliser avec une fonction lien logarithmique. D’ailleurs la variable exposition estintégrée au modèle en tant que variable offset en calculant son logarithme.

Dans le cadre de cette méthodologie plusieurs modèles ont été construits en testant diffé-rents paramètres afin de mesurer leur impact sur la prédiction. Les GBM se caractérisent pouravoir un fort risque de sur-ajustement, d’où une attention cruciale à porter sur le choix desparamètres. La sélection du modèle se base sur la mesure Mean Squared Error en gardantcelui présentant une valeur inférieure ainsi qu’en comparant la proximité de la prédiction avecles échantillons d’apprentissage et de test.

La modélisation GBM s’appuie sur le package gbm de R et les principaux paramètres utiliséslors de la construction des modèles sont :

— Quantité d’arbres = n.trees— Coefficient de rétrécissement = Shinkage— Fractionnement de la base = train.fraction, 1 étant sa valeur par défaut— Profondeur d’arbres = interaction.depth, 1 étant sa valeur par défaut

PARAMETRES DENTAIRE HOSPITALISATION SOINS COURANTS

n.trees 3000 2000 5000

shinkage 0,1 0,1 0,1

train.fraction 0,5 1 1

interaction.depth 2 1 3

Nombre optimal d’arbres 63 45 107

Nombre variables influentes 5 5 8

Table 9.2 – Paramétrage des modèles GBM sur la fréquence des sinistres par poste

Concernant ce paramétrage, nous remarquons que le shrinkage est le paramètre le plus in-fluent sur le modèle, plus il est petit (valeur minimale testée, 0, 01), plus l’erreur quadratiquedu modèle augmente. Ainsi, il est d’usage de forcer cette valeur à 0, 1.

La figure 9.7 illustre d’une part l’ajustement des modèles retenus par poste en fonction dunombre d’itérations utilisé. Et d’autre part l’influence ordonnée des variables explicatives surla valeur à prédire, soit la fréquence de sinistres dans le cas actuel. Les attributs statistiquesde ces modèles sont également présentés sur la table 9.3 en fin de section.

88

Page 92: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 9.5 – Prédictions des modèles GBM pour les sinistres dentaires

Figure 9.6 – Prédictions des modèles GBM pour les sinistres hospitaliers

89

Page 93: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 9.7 – Prédictions des modèles GBM pour les soins courants

9.1.4 Résultats des modèles

De prime abord, nous remarquons que les variables "Zone" et "Taux de couverture" sont trèssignificatives au vue des grands postes : Dentaire et Hospitalisation, indifféremment de l’ap-proche employée pour la modélisation. Inversement, sur les soins courants, la majorité desvariables se distinguent comme étant significatives.

Tout d’abord nous souhaitons comparer les propriétés statistiques de chacune de nos approchesde modélisation ainsi que des deux échantillons employés lors de la constitution des modèles.Ceci dans le but d’avoir une première notion de la qualité d’ajustement des modèles selon latechnique employée. C’est ainsi que la table 9.3 ci-dessous, nous confirme que par rapport àla moyenne, tous les modèles présentent un bon ajustement malgré une sous-estimation desmaximums, qui peut être due à la prise en compte des sinistres de masse en zéro.

90

Page 94: Nom du Projet - Sujet du Projet - Institut des actuaires

DENTAIRE

Min 1st Qu Median Mean 3rd Qu Max

Apprentissage 0,0 0,0 0,0 0,7329 1,0 24,0

Test 0,0 0,0 0,0 0,7347 1,0 18,0

GLM 0,0026 0,0404 0,0966 0,7647 1,299 5,066

CART 0,0662 0,0662 0,0662 0,7497 1,778 8,444

GBM 0,0061 0,0732 0,1832 0,7378 1,1400 5,8680

HOSPITALISATION

Apprentissage 0,0 0,0 0,0 0,5977 1,0 76,0

Test 0,0 0,0 0,0 0,5474 1,0 38,0

GLM 0,0006 0,0140 0,0285 0,6239 0,6244 9,187

CART 0,0249 0,0249 0,0249 0,5927 1,8870 2,9700

GBM 0,0019 0,0241 0,0507 0,5902 0,6642 4,7240

SOINS COURANTS

Apprentissage 0,0 0,0 1,0 1,966 2,0 87,0

Test 0,0 0,0 0,0 1,951 2,0 98,0

GLM 0,0013 0,0429 0,1285 2,076 4,076 10,31

CART 0,0533 0,0533 0,0533 1,969 3,489 20,71

GBM 0,0052 0,0874 0,2121 1,951 3,780 12,74

Table 9.3 – Résultats des modèles pour la fréquence des sinistres

9.1.5 Performance des modèles

L’objectif maintenant est de mesurer la qualité des modélisation effectuées et de choisir lemeilleur modèle parmi l’ensemble de modèles. Compte tenu de la typologie de la variable àexpliquer, soit une variable numérique discrète, nous basons notre comparaison des modèlesà l’aide de deux indicateurs d’écart entre les prédictions et les observations. Il s’agit du MeanAbsolute Error et du Root Mean Squared Error.Le tableau ci-dessous intègre les valeurs obtenues lors de l’évaluation de la performance de nosmodèles.

91

Page 95: Nom du Projet - Sujet du Projet - Institut des actuaires

DENTAIRE

APPROCHE MAE RMSE

GLM 0,5188 1,1795

CART 0,5031 1,1806

GBM 0,5308 1,1785

HOSPITALISATION

GLM 0,4126 1,3803

CART 0,3783 1,3391

GBM 0,4045 1,3706

SOINS COURANTS

GLM 1,6108 3,6737

CART 1,5592 3,6623

GBM 1,5741 3,6519

Table 9.4 – Erreurs de modélisation pour la fréquence des sinistres

Dans le cas du dentaire et des soins courants dont le MAE se place en faveur du modèleCART, tandis que le RMSE pousse à préférer le GBM. Le choix se fait donc arbitrairementconsidérant que le GBM est meilleur en termes de robustesse. Pour l’hospitalisation le meilleurmodèle est le CART.

92

Page 96: Nom du Projet - Sujet du Projet - Institut des actuaires

9.2 Modélisation des montants

Suivant la logique utilisée lors de la modélisation de la fréquence, on se retrouve ici dans lecas de la variable continue "Charge de sinistre" qui est couramment modélisée à partir d’uneloi Gamma ou d’une Log-Normale. L’idéal serait de comparer une modélisation avec ces deuxlois et de choisir celle qui s’ajuste le mieux aux données. Nous effectuerons la modélisation desmontants de sinistres à partir d’une régression GLM de type Gamma avec une fonction lienlogarithmique et d’un GBM de distribution Normale.

9.2.1 GLM - Log Gamma

Ici, en appliquant un raisonnement similaire à celui utilisé pour le nombre de sinistres, unmodèle saturé contenant toutes les variables nous permet d’entamer la modélisation. Les va-riables n’ayant pas d’influence sur le montant de sinistres sont : sexe, type de client, statutd’assuré et composition familiale. En outre, les regroupements des modalités réalisés ainsi queles variables retenues sur chacun des modèles GLM par poste sont résumés sur la table 9.5.

DENTAIRE HOSPITALISATION COURANTE

Type de client Statut Assuré Sexe

Type de Prestation Conjoint-Enfant Type de client

Tranche d’âge : 0-39 Type de client Zone.Cm

Taux de couverture : Type de Prestation Tranche d’âge : +40

(80, 100], [0,20] Composition Familiale Taux de couverture :

Zone.Cm : Zone 1-2 [0, 30], (60,90]

Tranche d’âge : 0-49

Taux de couverture :

(20, 70]

Table 9.5 – Variables significatives lors de la modélisation GLM pour la fréquence

Encore une fois, les résidus du modèle n’ont pas de comportement particulier et sont assezproches de zéro. En somme, l’analyse de la déviance confirme à nouveau la significativité desvariables du modèle log-gamma (Cf. Figure 9.8). Les résultats des modélisations GLM pargrand poste se trouvent en annexe (9.3)

93

Page 97: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 9.8 – Résidus du GLM Log-Gamma pour le coût des sinistres dentaires

En confrontant les résultats du modèle contre l’échantillon test (cf. table 9.7), nous remar-quons que les coûts des sinistres maximaux et minimaux ont une différence très importante(plus de 50%). Cependant, ceci équilibre la moyenne dont l’écart trouvé est relativement faible.

Une manière de réduire ces écarts et d’améliorer l’ajustement du modèle serait de tester unchangement de la fonction lien par une logistique, par exemple, ou d’effectuer une modélisationde type log-normale.

9.2.2 Arbres de décision CART

Sous la même logique d’application que sur la modélisation de la fréquence, dans le cas decoûts moyens des sinistres nous partons également d’arbres saturés (Cf. Annexes). Ensuite,nous effectuons l’élagage de ces arbres grâce à la fonction prune() du package rpart de R, lesarbres optimaux obtenus sont donnés par les figures 9.9, 9.10 et 9.11 :

94

Page 98: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 9.9 – Arbres CART optimaux pour le poste dentaire sur le coût moyen

Figure 9.10 – Arbres CART optimaux pour l’hospitalisation sur le coût moyen

95

Page 99: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 9.11 – Arbres CART optimaux pour les soins courants sur le coût moyen

La modélisation CART retient une quantité inférieure de variables que sur la modélisationGLM. Nous remarquons toutefois le fort impact des variables "Zone" et "Type de prestation"de façon générale sur le coût moyen de sinistres, elles sont significatives sur la modélisationséparée des 3 grands postes. Les arbres retenus sont caractérisés par les attributs statistiquesétablis en fin de section sur la table 9.7.

9.2.3 GBM - Gaussien

Se plaçant maintenant dans le cadre d’une variable continue, nous allons appliquer l’algorithmedu Gradient Boosting à partir d’une loi de probabilité Gaussienne.Quant au paramétrage utilisé lors de la modélisation, il est presque identique à celui employéavec la fréquence de sinistre à l’exception du nombre d’itérations qui est plus élevé ici.Par conséquent, en fonction du nombre optimal d’arbres, l’erreur de modélisation est minimiséet toutes les variables résultantes influent sur le coût moyen des sinistres pour les 3 grandspostes.

La table 9.6 récapitule les paramètres conservés lors de l’optimisation des modèles GBM :

96

Page 100: Nom du Projet - Sujet du Projet - Institut des actuaires

PARAMETRES DENTAIRE HOSPITALISATION SOINS COURANTS

n.trees 3000 1500 5000

shinkage 0,1 0,1 0,01

train.fraction 1 1 1

interaction.depth 5 5 8

Nombre optimal d’arbres 38 19 293

Nombre variables influentes 8 8 8

Table 9.6 – Paramétrage des modèles GBM sur le coût moyen des sinistres par poste

Les graphiques 9.12, 9.13 et 9.14 mettent en évidence l’estimation de l’erreur de test à traversdu OOB 21 error, qui joue le rôle d’estimateur de l’erreur et évite donc l’utilisation d’unevalidation croisée ou d’un échantillon de test lors de la modélisation.A première vue, les modèles conservés présentent un bon ajustement. La table 9.7 valide cetteconclusion sur la modélisation GBM.

Figure 9.12 – Prédictions des modèles GBM sur le coût moyen des sinistres dentaires

21. Out-of-Bag error

97

Page 101: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 9.13 – Prédictions des modèles GBM sur le coût moyen des sinistres hospitaliers

Figure 9.14 – Prédictions des modèles GBM sur le coût moyen des soins courants

9.2.4 Comparaison des résultats

D’après l’application des différentes méthodes de régression sur le coût moyen des sinistres,nous percevons la "Zone" et le "Type de prestation" comme les variables ayant le plus d’impactsur les montants des sinistres. Notamment, le type de prestation détermine moyennement lahauteur du remboursement et peut également conduire au phénomène d’anti-sélection : "Mieuxnous sommes pris en charge, plus nous consommons". La table suivante récapitule le comparatifdes résultats obtenus lors de la modélisation du coût moyen des sinistres en appliquant les troisméthodes sur les observations de la base de test.

98

Page 102: Nom du Projet - Sujet du Projet - Institut des actuaires

DENTAIRE

Min 1st Qu Median Mean 3rd Qu Max

Apprentissage 4,17 43,00 91,42 242,60 228,60 2 844,00

Test 6,10 38,52 84,76 230,30 204,90 3 000,00

GLM 121,60 163,80 206,00 243,50 280,80 840,70

CART 190,30 190,30 190,30 232,80 190,30 758,70

GBM 92,0 166,10 201,70 237,60 264,80 1 164,00

HOSPITALISATION

Apprentissage 0,99 111,60 400,00 862,80 1 118,00 8 644,00

Test 0,99 110,80 400,80 901,30 1 147,00 8 688,00

GLM 309,50 632,00 852,8 901,30 1 127,00 3 325,00

CART 474,60 474,60 935,30 876,70 1 069,00 1 069,00

GBM 466,00 732,00 847,70 877,70 970,70 2 115,00

SOINS COURANTS

Apprentissage 0,090 28,19 48,81 77,88 96,14 1 168,00

Test 0,045 28,00 49,54 78,80 98,97 1 148,00

GLM 22,74 52,88 72,15 78,64 97,89 262,30

CART 32,71 46,02 82,53 78,16 94,38 334,50

GBM 35,03 53,11 76,56 78,15 95,63 347,90

Table 9.7 – Résultats des modèles pour le coût moyen des sinistres

9.2.5 Performance des modèles

L’évaluation de qualité des modèles effectués se base également sur les métriques d’écart entreles données prédites et celles observées, le Mean Absolute Error et le Root Mean Squared Error.

Par conséquent, la table 9.8 résume les mesures de performance obtenues pour chaque ap-proche utilisée. En effet, le meilleur modèle de prédiction pour le coût moyen des sinistresindépendamment du grand poste est le Gradient Boosting.

99

Page 103: Nom du Projet - Sujet du Projet - Institut des actuaires

DENTAIRE

APPROCHE MAE RMSE

GLM 230,84 372,30

CART 221,74 366,77

GBM 216,97 358,92

HOSPITALISATION

GLM 850,83 1 304,34

CART 832,86 1 286,81

GBM 830,62 1 285,73

SOINS COURANTS

GLM 50,15 86,77

CART 49,56 86,67

GBM 49,03 86,18

Table 9.8 – Erreurs de modélisations pour le coût moyen des sinistres

9.3 Agrégation des postes

Maintenant que le choix des meilleurs modèles par grand poste est fait, nous avons intérêt àtrouver la prime pure associée à un contrat de santé composé d’une garantie dentaire, hospi-talière et soins courants.

Les modélisations précédentes nous permettront de calculer une prime pure par grand poste,sauf que nous ne souhaitons pas agréger ces primes en faisant une simple somme. D’où l’idée demettre en application des méthodes d’agrégation permettant d’associer à chaque grand posteune pondération adaptée à son influence sur les variables à prédire.

En effet, à nouveau grâce au Gradient Boosting, nous modélisons la fréquence et le coût desinistres de manière séparée pour finalement calculer la prime pure. Dans le cadre d’agrégationdes modèles, les entrées du modèle sont les sorties des modèles conservés lors de la modélisa-tion par garantie effectuée dans la section précédente.

Commençons ainsi par mesurer l’influence des variables prédictives suite à la mise en pra-tique des modèles d’agrégation de type Gradient Boosting. La figure 9.15 révèle un résultatéloquent, d’une part la garantie des soins courants est celle qui se répercute le plus sur lafréquence de sinistres tandis que d’autre part, c’est l’hospitalisation qui atteint son maximumquant au coût moyen des sinistres.

100

Page 104: Nom du Projet - Sujet du Projet - Institut des actuaires

(a) Fréquence des sinistres (b) Coût moyen des sinistres

Figure 9.15 – Influence des grands postes sur la fréquence et le coût des sinistres

Prédicteur Fréquence Coût Moyen

Dentaire 4, 376 4, 365

Hospitalisation 2, 561 90, 082

Soins Courants 93, 062 5, 551

Table 9.9 – Influence des prédicteurs lors de l’agrégation de modèles

Suivant les étapes de modélisation GBM, il est important de mentionner les paramétrage utilisélors de l’optimisation des modèles.

— n.trees = 2 000 arbres utilisés pour la fréquence et 100 pour le coût moyen.— interaction.depth = La profondeur ou complexité des arbres est de 1 dans les deux

cas.— shrinkage = Le paramètre de régulation prend une valeur de 0, 01 pour la fréquence

et de 0, 1 pour le coût moyen.— n.minobsinnode = Le nombre minimum d’observations dans un nœud pour qu’il

puisse être divisé. Dans les deux nous le forçons à 20.

Ensuite, nous vérifions la capacité prédictive de la modélisation en comparant les attributsstatistiques de l’échantillon de test avec la prédiction effectuée. Finalement, nous évaluons laperformance de nos modèles à partir du MAE et RMSE. Ils sont résumés dans la table 9.10pour le coût moyen et la fréquence des sinistres.

101

Page 105: Nom du Projet - Sujet du Projet - Institut des actuaires

FREQUENCE

Min 1st Qu Median Mean 3rd Qu Max MAE RMSE

Test 0,00 0,00 0,00 1,535 2,00 57,00

Agrégation GBM 0,141 0,141 0,141 1,542 2,864 11,96 1,227 3,001

COUT MOYEN

Test 1 30,49 58,64 163,20 115,00 8 644

Agrégation GBM 83,73 83,73 83,73 166,50 83,73 1 310 139,27 399,68

Table 9.10 – Résultats et indicateurs d’écart obtenus lors de l’agrégation des modèles

Ces indicateurs nous confirment que l’agrégation des modèles non seulement diminuent consi-dérablement l’erreur de prédiction mais permet aussi d’effectuer une tarification plus adaptéeau profil de risque.

La prime pure

La prime pure est calculée à partir des prédictions conservées lors de la première étape demodélisation, c’est à dire par grand poste. Dans un premier temps, rappelons que la primepure pour une garantie i s’exprime mathématiquement comme suit :

πi0 = E(Xi|Zi)= E(Ni|Zi) · E(Yi|Zi)= Fréquence · Coût

Ensuite, à partir des pondérations obtenues lors de l’agrégation des modèles par poste, laprime pure s’écrit comme suit :

Π =3∑i=1

ci · E(Ni|Zi) ·3∑i=1

di · E(Yi|Zi)

Où ci et di correspondent aux influences des prédicteurs de fréquence et de coût moyen pré-sentées sur la table 9.9 A cette prime doit être intégré un surplus associé aux sinistres gravespar poste.

102

Page 106: Nom du Projet - Sujet du Projet - Institut des actuaires

Conclusion

Aujourd’hui les transformations et les innovations en termes de tarification et gestion du busi-ness sont en constante évolution. L’appétence du marché ainsi que la captation des nouveauxclients à risque bas nous entraîne/oblige à développer des nouvelles stratégies de positionne-ment sur le marché.

Face à ce développement constant, les actuaires doivent être en capacité de répondre et demettre place de nouvelles méthodologies aidant dans le processus de tarification. Pour ce faire,le monde du machine learning apparaît aujourd’hui comme la source d’une infinité des tech-niques permettant de faire fructifier toute l’information provenant du big data. Ces techniquesfacilitent le traitement des données et impulsent l’assurance non vie vers une évolution per-manente.

L’objectif principal de ce mémoire a été de démontrer la justesse de l’utilisation d’algorithmesd’apprentissage provenant du machine learning, tels que les arbres de décision CART et legradient boosting machine dans le cadre d’une tarification en santé. Cette dernière est affi-née grâce à la puissance des modèles ensemblistes ou d’agrégation permettant de quantifierl’importance des nouveaux prédicteurs (les garanties) lors de la construction d’un produit per-sonnalisé de santé.

Les résultats obtenus dans le cadre de ce projet sont clairs : les méthodologies modernesde machine learning de même que la méthode classique du GLM sont très utiles lors de latarification d’un produit de santé. Ces approches modernes se caractérisent par les avantagessuivants :

— Robustesse et stabilité— Elles sont capables de sélectionner des prédicteur de façon automatique— Elles diminuent l’erreur de prédiction et fortifient donc l’équilibre biais-variance— Particulièrement la méthode de gradient boosting tient compte du problème de sur-

apprentissage en permettant de le contrôler par un paramétrage correct.

L’utilisation du machine learning est considérée aujourd’hui comme un atout concurrentiel dufait qu’elle offre au secteur de l’assurance la possibilité de segmenter et d’adapter les tarifsau profil de risque. Il est primordial de remarquer que le calcul de la prime pure se constituedes prédictions obtenues lors de la modélisation décomposée en fréquence-coût. Enfin, il estnécessaire d’intégrer des ajustements tarifaires (à la hausse) associés aux sinistres graves ainsique les influences par garantie obtenues lors de l’agrégation des modèles.

103

Page 107: Nom du Projet - Sujet du Projet - Institut des actuaires

Malgré les bonnes caractéristiques des techniques modernes de prédiction, leur succès dépendà 100% des données à disposition pour les mettre en application. D’où la grande importanceaccordée au traitement préalable des données. Nous sommes partis de la construction d’unebase des données, puis nous sommes passés par l’homogénéisation pour finir avec le traitementdes données aberrantes et manquantes. Il est notamment indispensable de faire une analysecomplète du portefeuille.

Tout autant que la mise en pratique d’algorithmes d’apprentissage, toute analyse et traitementdes données doit obligatoirement être accompagnée de la connaissance de logiciels statistiquesà utiliser. Le principal outil exploité lors du présent mémoire est R.

Étant donné que les modèles d’apprentissage ont été mis en œuvre sur la base de donnéesà disposition, il est possible que ces méthodes puissent perdre en efficacité lors de l’étuded’une base différente, notamment sur des populations ayant des habitudes de consommationdifférentes. Cela entraîne donc une limite de ce mémoire.

De fait, une perspective d’évolution serait de réaliser une étude sur plusieurs bases de donnéessignificatives, avec des populations pouvant avoir des habitudes de consommation différentes,afin d’agréger l’ensemble des résultat. Cela pourrait permettre d’obtenir des méthodes de tari-fication d’autant plus représentatives sur un grand nombre d’études tarifaires, avec des profilsde population différents et donc d’avoir un affinement des tarifs d’une grande précision.

Nous soulignons également l’importance de l’analyse géographique lorsque l’on se place dansle cadre de la mobilité internationale. En effet, la fréquence ainsi que le coût des sinistres dif-fèrent en fonction de la zone géographique de l’assuré. Elle est à notre avis la variable exogènela plus importante en tarification santé internationale.

Finalement, au vu de travaux futurs, nous envisageons la mise en pratique des autres mo-dèles étudiés dans la partie théorique afin de pouvoir comparer les résultats et possiblementobtenir un tarif plus fin, par exemple les réseaux de neurones. Il est nécessaire de remarquerque les méthodologies du machine learning deviennent plus puissantes lors de leur applicationsur des bases de données assez volumineuses. Il serait donc intéressant de comparer le résultatobtenu avec l’application des régressions pénalisées du type rigde ou lasso.

104

Page 108: Nom du Projet - Sujet du Projet - Institut des actuaires

Bibliographie

[1] http://www.swisslife.fr/.

[2] https://www.cfe.fr/pages/cfe/organisation.php.

[3] www.ggaexpat.com.

[4] www.gapigestion.com.

[5] www.welcare.fr.

[6] Le groupe henner, l’essentiel conseil - courtage - gestion - services médicaux. https://groupe.henner.com/, 2017.

[7] J. AOUIZERATE. Mémoire : Alternative neuronale en tarification santé, 2010.

[8] R. BELLINA. Mémoire : Méthodes d’apprentissage appliquées à la tarification non-vie,2014.

[9] M. BIERNAT, E. LUTZ. Data science : Fondamentaux et études de cas, machine learningavec python et r, 2015.

[10] T. BUHLMANN P. HOTHORN. Boosting algorithms : regularization, prediction andmodel fitting, 2007.

[11] A. CHARPENTIER. Computational actuarial science with r, 2015.

[12] M. CHARPENTIER, A. DENUIT. Mathématiques de l’assurance non-vie tome 1, 2004.

[13] Ministère des Affaires Étrangers. Enquête sur l’expatriation des français. http://www.diplomatie.gouv.fr/IMG/pdf/Enquete_expatriation_2013_cle049946-2.pdf, 2013.

[14] diplomatie.gouv.fr. Population inscrite au registre des français à l’étran-ger. http://www.diplomatie.gouv.fr/fr/services-aux-citoyens/inscription-consulaire-et-communaute-francaise/article/la-communaute-francaise-inscrite-au-registre-des-francais-etablis-hors-de.

[15] A. JONES. Models for health care, 2010.

[16] M KUHN. Building predictive models in r using the caret package, 2008.

[17] A. PIRON M. LEBART, L. MORINEAU. Statistique exploratoire multidimensionnelle,1997.

[18] E. MARCEAU. Modélisation et évaluation quantitative des risques en actuariat : Modèlessur une période, 2013.

[19] A. MICHELIS. Traditional versus non-traditional boosting algorithms, 2012.

[20] F. PLANCHET. Utilisation de la théorie des valeurs extrêmes dans le cadre de sol-vabilité 2. <http://www.ressources-actuarielles.net/EXT/ISFA/fp-isfa.nsf/0/72EE1310B7EBC2A2C1256FD2002E9C76/$FILE/Seance3-01.pdf?OpenElement>, 2015.

105

Page 109: Nom du Projet - Sujet du Projet - Institut des actuaires

[21] V. POUNA SIEWE. Mémoire - modèles additifs généralisés : Intérêts de ces modèles enassurance automobile., 2014.

[22] RIDGEWAY. Generalized boosted models : A guide to the gbm package, 2007.

[23] J. ROLLET. Mémoire : L’effet modérateur du reste à charge sur les dépenses de santé,2011.

[24] L. ROUVIERE. Introduction aux méthodes d’agrégation : boosting, bagging et forêtsaléatoires., 2010.

[25] Y. SCHAPIRE, R. FREUND. Adaptative computation and machine learning, boosting :Foundations and algorithms, 2011.

[26] R. TIBSHIRANI. Regression shrinkage and selection via the lasso, 1996.

[27] S. TUFFERY. Data mining and statistics for decision making, 2011.

[28] LUO Y. Mémoire : Amélioration de la modélisation de sinistres graves à l’aide d’uneapproche d’apprentissage, 2015.

106

Page 110: Nom du Projet - Sujet du Projet - Institut des actuaires

Annexes

107

Page 111: Nom du Projet - Sujet du Projet - Institut des actuaires

Annexe IAspects théoriques

108

Page 112: Nom du Projet - Sujet du Projet - Institut des actuaires

Théorie des Valeurs Extrêmes

L’étude des sinistres graves est un domaine qui exige une spéciale attention surtout dans lecas des risques de santé, car en fonction du poste, les sinistres peuvent présenter une fréquencetrès faible, mais un coût très élevé. En conséquence, si nous ne sommes pas si rigoureux, nouspouvons être confrontés à la sous ou sur estimation du risque associé aux sinistres graves, entout cas, des risques financiers.

Par ailleurs, il existe une sous classification parmi les sinistres considérés graves : nous pou-vons distinguer, par exemple, les sinistres graves, extrêmes ou catastrophiques. D’habitudenous avons besoin d’établir un seuil adéquat pour séparer les sinistres attritionnels (normaux)des sinistres graves.

La définition du seuil ne peut pas être établie de manière générale, cela dépend de l’exercicede l’assureur qui doit reconnaître l’existence d’un sinistre extrême dans son portefeuille desinistralité.

Dans la théorie des valeurs extrêmes, plusieurs outils aident à estimer ce seuil de sépara-tion entre sinistres attritionnels et graves. Cependant, l’utilisation de ces outils demande uneconnaissance complète des données et qui n’est pas toujours évidente. Ainsi, l’expérience (àl’œil) de l’actuaire détermine souvent le bon seuil. Ceci en vue de la nature graphique descertaines méthodes.

Au présent, nous appliquons ces outils de façon á ce que l’on puisse identifier la différence entreun sinistre de masse ou grave. En effet, nous sommes face à une grande difficulté, la disposi-tion des données. Comme nous l’avons déjà mentionné, les sinistres graves ont la particularitéd’avoir une fréquence faible, pourtant ils représentent une petite proportion de la sinistralitétotale en termes de quantité. L’estimation du seuil pour les sinistres graves, est donc soumise àune base de données de taille réduite qui peut occasionner une forte volatilité de l’estimation.Elle sera ainsi mise en évidence grâce à l’expérience.

Nous présenterons ici les deux méthodes les plus couramment utilisées pour établir le seuil.La Fonction d’Excès Moyen ou fonction d’espérance de vie résiduelle (Mean Excess Function),souvent présente dans les modèles de durée. Ainsi que la méthode donnée par l’estimateur deHill, fortement appliquée en théorie des valeurs extrêmes.

109

Page 113: Nom du Projet - Sujet du Projet - Institut des actuaires

Mean Excess Function

La Mean Excess Function 22 représente la moyenne des excès des valeurs qui se trouvent au-dessus d’une valeur fixe, que l’on appelle "seuil" et qu’on notera u.Soit X une variable aléatoire réelle, telle que E[X] <∞. La fonction d’excès moyen est définiepar :

e(u) = E[X − u|X > u]

De manière empirique nous pouvons calculer la fonction d’excès moyen comme suit :

e(u) =

∑ni=1 (Xi − u)1Xi>u∑n

i=1 1Xi>u

e(u) =1

Nu

n∑i=1

(Xi − u)1Xi>u

Autrement dit, la somme des excès au-dessus du seuil u, divisée par le nombre de sinistres Nu

qui dépassent u.

La méthode consiste à identifier le moment où la fonction n’est plus linéaire. Cette méthodedonne également un indice pour identifier la nature de la queue de distribution. Si pour uncertain seuil u, on se retrouve avec une graphique où la MEF est croissante, les données suiventune distribution de type Pareto généralisée. Si elle ressemble une droite horizontale, les donnéessuivent une loi exponentielle. Enfin, si elle est décroissante, on est face à une distribution àqueue légère. [20]

Estimateur de Hill

Dans la théorie des valeurs extrêmes l’estimateur de Hill est fréquemment utilisé étant donnéqu’il produit une estimation empirique du paramètre d’indice de la queue ξ. Pour les distri-butions de type Fréchet (ξ > 0), l’estimateur est défini par la statistique suivante [20] :

ξHillk,n =1

k − 1

k−1∑j=1

ln

(Xj,n

Xk,n

)Dont Xk,n est la k-ème uplet ordonnée par ordre croissant. La fonction donne une moyennede l’excès des logarithmes des sinistres. On s’intéresse à retrouver le seuil lorsque l’estimateurse stabilise, c’est-à-dire, quand la graphique semble constante.

22. MEF par ses sigles en anglais

110

Page 114: Nom du Projet - Sujet du Projet - Institut des actuaires

Annexe IITraitement des données

111

Page 115: Nom du Projet - Sujet du Projet - Institut des actuaires

Classification d’actes médicaux

GRAND POSTE FAMILLE

ANALYSES ET RADIOLOGIE

Analyses et Laboratoire

Autres examens

Radiologie

AUTRES POSTES

Autres

Cures thermales

Transport sanitaire

AUXILIAIRES MEDICAUXAutres Auxiliaires Medicaux

Kinesitherapie

DENTAIRE

Dentaire-autres

Implants dentaires

Orthodontie

Prevention

Protheses dentaires

Soins dentaires

HOSPITALISATION

Ambulatoire

Chambre Particuliere

Frais Hospitaliers

Honoraires medicaux et chirurgicaux

Hospitalisation

Hospitalisation-autres

MATERNITE Maternite

MEDECINE COURANTE

Actes Specialistes

Autres actes courants

Consultations Generalistes

Consultations Specialistes

OPTIQUE

Chirurgie corrective de l’œil

Lentilles

Optique

Verres et Montures

ORTHOPEDIE Appareillage/Accessoires

PHARMACIE Pharmacie

112

Page 116: Nom du Projet - Sujet du Projet - Institut des actuaires

Zonages par poste médical

Figure 9.16 – Coût Moyen de sinistres dentaires par pays de soins

Figure 9.17 – Fréquence de sinistres hospitaliers par pays de soins

113

Page 117: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 9.18 – Coût Moyen de sinistres hospitaliers par pays de soins

Figure 9.19 – Fréquence de sinistres courants par pays de soins

114

Page 118: Nom du Projet - Sujet du Projet - Institut des actuaires

Figure 9.20 – Coût Moyen de sinistres courants par pays de soins

115

Page 119: Nom du Projet - Sujet du Projet - Institut des actuaires

Annexe IIIModélisation des postes

116

Page 120: Nom du Projet - Sujet du Projet - Institut des actuaires

Modélisation de la fréquence

GLM

Nous présentons ci-dessous les modèles retenus par grand poste médical lors de l’optimisationdes modèles GLM dans le cadre de modélisation de la fréquence des sinistres. Ensuite setrouvent les résidus associés à ces modèles, ils sont centrées autour de zéro.

1. DentairePour rappel, les résidus du modèle dentaire se trouvent dans la figure 9.1 sur la partieIII du contenu.

Figure 9.21 – Résultats GLM log - Binomial Négatifs pour la fréquence des sinistres dentaires

117

Page 121: Nom du Projet - Sujet du Projet - Institut des actuaires

2. Hospitalisation

Figure 9.22 – Résultats GLM log - Binomial Négatifs pour la fréquence des sinistres dentaires

Figure 9.23 – Résidus du GLM retenu pour la fréquence des sinistres hospitaliers

118

Page 122: Nom du Projet - Sujet du Projet - Institut des actuaires

3. Soins Courants

Figure 9.24 – Résultats GLM log - Binomial Négatifs pour la fréquence des sinistres courants

Figure 9.25 – Résidus du GLM retenu pour la fréquence des sinistres courants

119

Page 123: Nom du Projet - Sujet du Projet - Institut des actuaires

Arbres CART

Ci-dessous se trouvent les arbres de décision saturés obtenus lors de l’application de lamodélisation de type CART par grand poste.

1. Dentaire

Figure 9.26 – Arbre CART saturé pour la fréquence des sinistres dentaires

2. Hospitalisation

Figure 9.27 – Arbre CART saturé pour la fréquence des sinistres hospitaliers

120

Page 124: Nom du Projet - Sujet du Projet - Institut des actuaires

3. Soins Courants

Figure 9.28 – Arbre CART saturé pour la fréquence des soins courants

GBM

Les partials dependance plots générés en utilisant la modélisation GBM par grand postesont donnés par :

1. Dentaire

Figure 9.29 – Dépendances partielles pour la fréquence des sinistres dentaires

121

Page 125: Nom du Projet - Sujet du Projet - Institut des actuaires

2. Hospitalisation

Figure 9.30 – Dépendances partielles pour la fréquence des sinistres hospitaliers

3. Soins Courants

Figure 9.31 – Dépendances partielles pour la fréquence des soins courants

122

Page 126: Nom du Projet - Sujet du Projet - Institut des actuaires

Modélisation du coût moyen

GLM

Nous présentons ci-dessous les modèles retenus par grand poste médical lors de l’optimisationdes modèles GLM dans le cadre de modélisation du coût moyen des sinistres. Ces résultatssont suivis des résidus associés à chaque modèle, ils sont centrées autour de zéro pour toutesles variables retenues.

1. Dentaire

Pour rappel, les résidus du modèle dentaire se trouvent dans la figure 9.8 sur la partieIII du contenu principal du mémoire.

Figure 9.32 – Résultats GLM log - Gamma pour le coût moyen des sinistres dentaires

123

Page 127: Nom du Projet - Sujet du Projet - Institut des actuaires

2. Hospitalisation

Figure 9.33 – Résultats GLM log - Gamma pour le coût moyen des sinistres hospitaliers

Figure 9.34 – Résidus du GLM retenu pour le coût moyen des sinistres hospitaliers

124

Page 128: Nom du Projet - Sujet du Projet - Institut des actuaires

3. Soins Courants

Figure 9.35 – Résultats GLM log - Gamma pour le coût moyen des soins courants

Figure 9.36 – Résidus du GLM retenu pour le coût moyen des soins courants

125

Page 129: Nom du Projet - Sujet du Projet - Institut des actuaires

Arbres CART

Les arbres saturés générés lors de l’application d’une modélisation de type CART par grandposte sont les suivants :

1. Dentaire

Figure 9.37 – Arbre CART saturé pour le coût moyen des sinistres dentaires

2. Hospitalisation

Figure 9.38 – Arbre CART saturé pour le coût moyen des sinistres hospitaliers

126

Page 130: Nom du Projet - Sujet du Projet - Institut des actuaires

3. Soins Courants

Figure 9.39 – Arbre CART saturé pour le coût moyen des soins courants

127

Page 131: Nom du Projet - Sujet du Projet - Institut des actuaires

GBM

Les partials dependance plots obtenus dans le cadre des modélisations de type GBM par grandposte sont donnés par :

1. Dentaire

Figure 9.40 – Dépendances partielles pour la fréquence des sinistres dentaires

2. Hospitalisation

Figure 9.41 – Dépendances partielles pour la fréquence des sinistres hospitaliers

128

Page 132: Nom du Projet - Sujet du Projet - Institut des actuaires

3. Soins Courants

Figure 9.42 – Dépendances partielles pour la fréquence des soins courants

129