TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP...

83
TP Scilab Probabilit´ es - Statistiques Michael Baudin (EDF R&D) Jean-Marc Martinez (CEA) 23 f´ evrier 2015 1

Transcript of TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP...

Page 1: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

TP Scilab

Probabilites - Statistiques

Michael Baudin (EDF R&D)Jean-Marc Martinez (CEA)

23 fevrier 2015

1

Page 2: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Copyright c© 2011 - 2015 - Michael BaudinThis file must be used under the terms of the Creative Commons Attribution-ShareAlike 3.0 Unported

License :

http://creativecommons.org/licenses/by-sa/3.0

2

Page 3: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Resume

Ce document est une feuille de route pour le TP Probabilites-Statistiques. Dans la premierepartie, nous faisons quelques manipulations sur le theme des probabilites, avec Scilab et le moduledistfun. Dans la seconde partie, nous faisons quelques manipulations sur le theme des statistiques,avec Scilab et le module Stixbox.

Table des matieres

1 Introduction 51.1 Vue d’ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Contact . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3 Outils et Documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4 Fichiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5 Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Exercices Probabilites 62.1 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.1 Rappel de cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.1.2 Exercice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.3 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.1.4 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.1 Rappel de cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.2 Exercice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.3 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.4 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.3.1 Rappel de cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.3.2 Exercice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.3.3 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 Regle des trois sigmas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.4.1 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.4.2 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.5 Theoreme limite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.5.1 Rappel de cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.5.2 Exercice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.5.3 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 Exercices Probabilites Optionnels 163.1 Loi binomiale (theorie) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2 Loi uniforme (theorie) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.3 Loi normale (theorie) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.4 Produits defaillants sur une ligne de production (*) . . . . . . . . . . . . . . . . . . . . . . 21

3.4.1 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.4.2 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.5 Puissance dissipee par une resistance (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.6 Lien entre la loi de Poisson et la loi normale (*) . . . . . . . . . . . . . . . . . . . . . . . . 233.7 Changement de loi : uniforme vers exponentielle (*) . . . . . . . . . . . . . . . . . . . . . 24

4 Exercices Statistiques 264.1 Estimation de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.1.1 Rappel de cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.1.2 Experience A1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.1.3 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.1.4 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3

Page 4: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

4.1.5 Experience A2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.1.6 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.1.7 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.1.8 Experience B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.1.9 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.2 Intervalle de confiance d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.2.1 Rappel de cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.2.2 Experience A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.2.3 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.2.4 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.2.5 Experience B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2.6 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.2.7 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.3 Estimation de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.1 Rappel de cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.2 Experience A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.3 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.4 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.3.5 Experience B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.4 Estimation d’une probabilite de depassement . . . . . . . . . . . . . . . . . . . . . . . . . 404.4.1 Rappel de cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.4.2 Experience A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.4.3 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.4.4 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.4.5 Experience B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.5 Estimation d’un quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.5.1 Rappel de cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.5.2 Experience A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.5.3 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.5.4 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.5.5 Experience B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

5 Exercices Statistiques Optionnels 455.1 Estimation de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.1.1 Un peu de theorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.1.2 Experience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.1.3 Experience D (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.2 Estimation de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.2.1 Un peu de theorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.2.2 Experience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.3 Estimation d’une probabilite de depassement . . . . . . . . . . . . . . . . . . . . . . . . . 525.3.1 Experience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.3.2 Experience D (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.4 Intervalle de confiance de la moyenne d’une variable normale (theorie) . . . . . . . . . . . 555.5 Distribution de la moyenne d’une variable normale (*) . . . . . . . . . . . . . . . . . . . . 56

5.5.1 Experience A (variance connue) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.5.2 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.5.3 Experience B (variance inconnue) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.5.4 Sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.5.5 Experience C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.5.6 Experience D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.6 Estimation d’un quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605.6.1 Experience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605.6.2 Experience D (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615.6.3 Experience E . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.7 Quantile de Wilks (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4

Page 5: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

5.7.1 Experience A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645.7.2 Experience B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.8 Fonction de repartition empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675.8.1 Experience A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675.8.2 Experience B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.8.3 Experience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.9 QQ-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.9.1 Rappel de cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.9.2 Experience A1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715.9.3 Squelette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715.9.4 Experience A2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.9.5 Experience B (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735.9.6 Experience C (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.9.7 Experience D (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785.9.8 Experience E (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 805.9.9 Experience F (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815.9.10 Experience G (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

Bibliographie 83

1 Introduction

1.1 Vue d’ensemble

Dans ce TP, nous presentons des exercices de probabilites et de statistiques avec Scilab. Ces exercicesutilisent le module distfun, qui fournit les lois de probabilite classiques. Ce module est compatible avecMatlab, dans le sens ou les fonctions sont les memes.

Bien que nous conseillons de faire tous les exercices, il est possible que nous manquions de temps lorsdes travaux pratiques. Les exercices marques d’une etoile (*) sont optionnels, et peuvent etre ignorespendant la seance. Dans tous les cas, a la moitie de la seance, vous passerez a la seconde partie du TP,c’est a dire aux statistiques.

Pour chaque exercice, nous fournissons :– un rappel de cours,– un enonce, avec des fonctions Scilab a utiliser,– un squelette de solution, avec des sections ”TODO” a completer,– une solution commentee.

1.2 Contact

[email protected]

Remplacer ”DONOTSPAM” par ”edf”.

1.3 Outils et Documents

Dans cette partie, nous donnons la liste des outils et documents qui sont utilises dans ce TP.Ce TP utilise la derniere version de Scilab, la v5.4.0, qui est telechargeable a l’adresse :

http://www.scilab.org/

Pour s’initier a Scilab, on peut consulter ”Introduction to Scilab”, Michael Baudin, 2008-2011 :

http://forge.scilab.org/index.php/p/docintrotoscilab/downloads/

Pour programmer avec Scilab, on peut consulter ”Programming in Scilab”, Michael Baudin, 2008-2011 :

http://forge.scilab.org/index.php/p/docprogscilab/downloads/

5

Page 6: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Le module Scilab distfun est open-source. Le code source est developpe sur la Forge Scilab :

http://forge.scilab.org/index.php/p/distfun/

1.4 Fichiers

J’ai a votre disposition un repertoire contenant les fichiers suivants.– roadmap : ce document en LATEX– scripts : les scripts utilises dans ce TP

1.5 Installation

Les exercices dans ce TP necessitent les toolbox suivantes : Scilab 5.4.0, NISP 2.5, distfun 0.6, stixbox2.0. Ces modules (et leurs dependances) necessitent environ 28MB sur un systeme Linux 32 bits (sanscompter l’installation de Scilab).

Si on dispose d’une connexion internet, on peut telecharger et installer ces modules en tapant, dansla console Scilab :

atomsInstall("NISP")

atomsInstall("distfun")

atomsInstall("stixbox")

Puis on redemarre Scilab.Sur Linux, il est courant d’avoir des problemes graphiques avec Scilab 5.4.0. La raison est que certains

drivers graphiques ne peuvent pas etre utilises correctement par Scilab. La situation typique est qu’onvoit apparaıtre le message suivant quand on cree un graphique 3D.

-->plot3d ()

WARNING: Due to your configuration limitations ,

Scilab switched in a mode

where mixing uicontrols and graphics is not available.

Type "help usecanvas" for more information.

Le probleme peut egalement se presenter sous la forme d’une fenetre graphique vide, noire, ou bien encorepar un plantage de Scilab.

La solution peut alors consister a desactiver l’utilisation d’un certain composant graphique interne aScilab, en utilisant la fonction usecanvas.

-->usecanvas(%f);

WARNING: Despite of our previous warning ,

you chose to use Scilab with advanced graphics capabilities.

Type "help usecanvas" for more information.

2 Exercices Probabilites

2.1 Loi binomiale

2.1.1 Rappel de cours

Soit N un entier positif et pr une probabilite dans l’intervalle (0, 1). On realise une experience deBernoulli, dans laquelle on obtient un succes avec une probabilite pr et un echec avec une probabilite1− pr. On repete cette experience N fois. Soit X le nombre de succes. Alors X suit une loi binomiale deparametres pr et N . Sa densite de probabilite est :

f(x,N, pr) =

(Nx

)pxr (1− pr)N−x, (1)

pour x = 0, 1, 2, ..., ou le coefficient binomial est defini par :(Nx

)=

N !

x!(N − x)!(2)

6

Page 7: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 1 – Loi Binomiale.

2.1.2 Exercice

Dans cet exercice, on calcule la probabilite d’obtenir x succes avec differentes fonctions Scilab : lafonction factorial, la fonction specfun nchoosek et la fonction distfun binopdf. Bien sur, vous devezobtenir les memes resultats, mais l’exercice montre que la fonction distfun binopdf est la plus facile autiliser (et aussi la plus robuste).

Exercice 1

Calculer la probabilite d’observer x=1 succes dans une experience de Bernoulli avec N=20 experiences,dans laquelle chaque experience a une probabilite de succes pr=0.5. Pour ce faire, suivez les instructionssuivantes.

– Voir la page d’aide help factorial. Voir les parametres d’entree, de sortie.– Voir la page d’aide help specfun nchoosek. Cette fonction calcule le coefficient binomial. Voir les

parametres d’entree, de sortie.– Voir la page d’aide help distfun binopdf. Cette fonction calcule la densite de probabilite (en

anglais, ”Probability Distribution Function”) de la loi binomiale.– Calculer la probabilite d’observer x=1 succes dans une experience de Bernoulli avec N=20 experi-

ences, dans laquelle chaque experience a une probabilite de succes pr=0.5 :– avec la fonction factorial,– avec la fonction specfun nchoosek,– avec la fonction distfun binopdf.

– Enfin, dessiner la densite de probabilite pour les parametres suivants :– pr=0.5, N=20,– pr=0.7, N=20,– pr=0.5, N=40.Pour cela, utiliser la fonction distfun binopdf ainsi que la fonction plot et reproduire la figure 1.Notez qu’un seul appel a la fonction distfun binopdf est suffisant. En effet, la sequence d’appel :

P=distfun_binopdf (0:N,N,pr)

calcule le vecteur ligne P, qui contient les probabilites pour x = 0, 1, ..., N .– Pour comprendre le sel de l’implementation de distfun binopdf, considerez les parametres N=1030

et pr=0.5 et tentez de calculer P (X = 500) = 0.016063 [6].

7

Page 8: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

2.1.3 Squelette

Pour vous aider dans votre progression, vous pouvez vous inspirer du modele de script suivant.

N=20;

pr=0.5;

x=1;

// Avec factorial:

c=factorial(TODO)/ factorial(TODO)/ factorial(TODO)

P=TODO

mprintf("P(X=1) (factorial )=%f\n",P)

// Avec nchoosek:

P=specfun_nchoosek(TODO)*TODO

mprintf("P(X=1) (nchoosek )=%f\n",P)

// Avec binopdf:

P=distfun_binopdf(TODO)

mprintf("P(X=1) (binopdf )=%f\n",P)

//

scf();

y1 = distfun_binopdf(TODO);

plot(x,y1 ,"bo -")

y2 = distfun_binopdf(TODO);

plot(x,y2 ,"go -")

y3 = distfun_binopdf(TODO);

plot(x,y3 ,"ro -")

legend (["pr=0.5, N=20","pr=0.7, N=20","pr=0.5, N=40"]);

xtitle("Binomial PDF","x","P(x)")

2.1.4 Sortie

Le script precedent produit les sorties suivantes.

P(X=1) (factorial)

0.0000191

P(X=1) (nchoosek)

0.0000191

P(X=1) (binopdf)

0.0000191

Solution de l’exercice 1

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Loi Binomiale

N=20;

pr=0.1;

x=1;

// Avec factorial:

c=factorial(N)/ factorial(x)/ factorial(N-x)

P=c*pr^x*(1-pr)^(N-x);

mprintf("P(X=1) (factorial )=%f\n",P)

// Avec nchoosek:

P=specfun_nchoosek(N,x)*pr^x*(1-pr)^(N-x)

mprintf("P(X=1) (nchoosek )=%f\n",P)

// Avec binopdf:

P=distfun_binopdf(x,N,pr);

mprintf("P(X=1) (binopdf )=%f\n",P)

//

8

Page 9: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

// Graphique de la distribution

scf();

N1 = 20;

x = 0:N1;

y1 = distfun_binopdf(x,N1 ,0.5);

plot(x,y1,"bo-")

N2 = 20;

x = 0:N2;

y2 = distfun_binopdf(x,N2 ,0.7);

plot(x,y2,"go--")

N3 = 40;

x = 0:N3;

y3 = distfun_binopdf(x,N3 ,0.5);

plot(x,y3,"ro:")

legend (["pr=0.5, N=20","pr=0.7, N=20","pr=0.5, N=40"]);

xtitle("Binomial PDF","x","P(x)")

2.2 Loi uniforme

2.2.1 Rappel de cours

Soit a et b deux reels tels que a < b. La variable X suit une loi uniforme de parametres a et b si sadensite est :

f(x, a, b) =1

b− a(3)

si x ∈ [a, b] et zero sinon. L’esperance de X et sa variance sont

E(X) =a+ b

2, (4)

V (X) =(b− a)2

12. (5)

2.2.2 Exercice

Exercice 2

– Voir la page d’aide help distfun unifrnd. Cette fonction genere des realisations pseudo-aleatoires(”Random”) independantes, de loi uniforme.

– Generer N=1000 realisations d’une variable uniforme de parametres a=6 et b=13.– Calculer l’esperance et la variance de la variable aleatoire, avec les equations 4 et 5.– Utiliser la fonction distfun unifstat et comparer.– Voir les pages d’aide des fonctions help mean et help variance. Estimer la moyenne empirique

et la variance empirique de la variable.– Voir les pages d’aide des fonctions help histo et help distfun unifpdf.– Creer un graphique en comparant l’histogramme empirique et la densite de probabilite.

2.2.3 Squelette

Pour vous aider dans votre progression, vous pouvez vous inspirer du modele de script suivant.

N = 1000;

a = 6;

b = 13;

// Esperance:

m = TODO

// Variance:

v = TODO

[M,V]= distfun_unifstat(TODO)

9

Page 10: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

R = distfun_unifrnd(TODO);

mean(R)

variance(R)

// Graphique

a = 6;

b = 13;

data = distfun_unifrnd(TODO);

scf();

histo(TODO)

x = linspace(a-1,b+1 ,1000);

y = distfun_unifpdf(TODO);

plot(TODO)

xtitle("Uniform random numbers","X","Density");

legend (["Empirical","PDF"]);

Solution de l’exercice 2

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Loi Uniforme

N = 1000;

a = 6;

b = 13;

// Esperance:

m = (a+b)/2

// Variance:

v = (b-a)^2/12

[M,V]= distfun_unifstat(a,b)

R = distfun_unifrnd(a,b,N,1);

mean(R)

variance(R)

// Make a plot of the actual distribution of the numbers

a = 6;

b = 13;

data = distfun_unifrnd(a,b,1 ,1000);

scf();

histo(data ,[],%t);

x = linspace(a-1,b+1 ,1000);

y = distfun_unifpdf(x,a,b);

plot(x,y)

xtitle("Uniform random numbers","X","Density");

legend (["Empirical","PDF"]);

2.2.4 Sortie

Le script precedent produit les sorties suivantes.

-->m = (a+b)/2

m =

9.5

-->v = (b-a)^2/12

v =

4.0833333

-->[M,V]= distfun_unifstat(a,b)

V =

4.0833333

10

Page 11: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 2 – Densite de probabilite theorique et histogramme empirique de 1000 realisations d’une variablealeatoire de loi uniforme.

M =

9.5

-->R = distfun_unifrnd(a,b,N,1);

-->mean(R)

ans =

9.4004015

-->variance(R)

ans =

3.9338764

Le script precedent produit, de plus, la figure 2.

2.3 Loi normale

2.3.1 Rappel de cours

Soit µ ∈ R et σ > deux parametres. La variable X suit la loi normale de moyenne µ et d’ecart-typeσ si sa densite de probabilite est

f(x, µ, σ) =1

σ√

2πexp

(− (x− µ)2

2σ2

),

pour x ∈ R.

2.3.2 Exercice

Exercice 3

– Dessiner la densite de probabilite de la loi normale de parametres mu=5 et sigma=7 en utilisant lafonction exp.

– Voir la page d’aide help distfun normpdf. Cette fonction calcule la densite de probabilite (PDF)de la loi normale.

– Dessiner la densite de probabilite de la loi normale de parametres mu=5 et sigma=7 en utilisantdistfun normpdf. Reproduire la partie gauche de la figure 3.

– Voir la page d’aide help distfun normcdf. Cette fonction calcule la fonction de repartition (CDF)de la loi normale.

11

Page 12: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 3 – La loi de distribution normale de parametres µ = 5 et σ = 7. A gauche, la densite deprobabilite. A droite, la fonction de repartition.

– Dessiner la fonction de repartition de la loi normale de parametres mu=5 et sigma=7. Reproduirela partie droite de la figure 3.

2.3.3 Squelette

Pour vous aider dans votre progression, vous pouvez vous inspirer du modele de script suivant.

// Plot the PDF (with distfun_normpdf)

mu = 5;

sigma = 7;

scf();

x = linspace(TODO);

y = distfun_normpdf(TODO);

plot(x,y,"r-")

xtitle("Densite de probabilite Normale - mu=5, sigma =7" ,..

"x","f(x)");

// Plot the CDF

mu = 5;

sigma = 7;

scf();

x = linspace(TODO);

p = distfun_normcdf(TODO);

plot(x,p,"b-")

xtitle("Fonction Repartition Normale - mu=5, sigma =7" ,..

"x","$P(X\leq x)$");

Solution de l’exercice 3

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Loi Normale

// Plot the PDF (with exp)

mu = 5;

sigma = 7;

scf();

x = linspace(mu -3*sigma ,mu+3*sigma ,1000);

y = exp(-(x-mu )^2/(2* sigma ^2))/( sigma*sqrt (2*%pi));

12

Page 13: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

plot(x,y,"r-")

xtitle("Densite de probabilite Normale - mu=5, sigma =7" ,..

"x","f(x)");

// Plot the PDF (with distfun_normpdf)

mu = 5;

sigma = 7;

scf();

x = linspace(mu -3*sigma ,mu+3*sigma ,1000);

y = distfun_normpdf ( x , mu , sigma );

plot(x,y,"r-")

xtitle("Densite de probabilite Normale - mu=5, sigma =7" ,..

"x","f(x)");

// Plot the CDF

mu = 5;

sigma = 7;

scf();

x = linspace(mu -3*sigma ,mu+3*sigma ,1000);

p = distfun_normcdf ( x , mu , sigma );

plot(x,p,"b-")

xtitle("Fonction Repartition Normale - mu=5, sigma =7" ,..

"x","$P(X\leq x)$");

2.4 Regle des trois sigmas

Exercice 4

Supposons que X est une variable aleatoire de loi normale, ou µ est la moyenne et σ l’ecart-type.Alors :

P (µ− σ ≤ X ≤ µ+ σ) ≈ 0.6827

P (µ− 2σ ≤ X ≤ µ+ 2σ) ≈ 0.9545

P (µ− 3σ ≤ X ≤ µ+ 3σ) ≈ 0.9973

Verifier avec Scilab en utilisant la fonction distfun normcdf.

2.4.1 Squelette

Pour vous aider dans votre progression, vous pouvez vous inspirer du modele de script suivant.

p1=distfun_normcdf(TODO)-distfun_normcdf(TODO)

p2=distfun_normcdf(TODO)-distfun_normcdf(TODO)

p3=distfun_normcdf(TODO)-distfun_normcdf(TODO)

Solution de l’exercice 4

Cet exercice est inspire de [4].Supposons que f est la densite de probabilite de la variable X. Supposons que F est sa fonction de

repartition. On a :

P (a ≤ X ≤ b) =

∫ b

a

f(x)dx = F (b)− F (a),

puisque

F (b) =

∫ b

−∞f(x)dx.

Avec a = µ− σ et b = µ+ σ, on obtient

P (µ− σ ≤ X ≤ µ+ σ) = F (µ+ σ)− F (µ− σ)

et les deux autres calculs se derivent de la meme maniere.

13

Page 14: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Regle des 3 sigma

p1=distfun_normcdf (1,0,1)- distfun_normcdf (-1,0,1)

p2=distfun_normcdf (2,0,1)- distfun_normcdf (-2,0,1)

p3=distfun_normcdf (3,0,1)- distfun_normcdf (-3,0,1)

2.4.2 Sortie

Le script precedent produit la sortie suivante.

-->distfun_normcdf (1,0,1)- distfun_normcdf (-1,0,1)

ans =

0.6826895

-->distfun_normcdf (2,0,1)- distfun_normcdf (-2,0,1)

ans =

0.9544997

-->distfun_normcdf (3,0,1)- distfun_normcdf (-3,0,1)

ans =

0.9973002

2.5 Theoreme limite central

2.5.1 Rappel de cours

Soit X une variable aleatoire uniforme dans [−4, 2]. Soit xi des realisations independantes de lavariable X, pour i = 1, 2, ..., n. On considere la variable aleatoire :

Zn =x1 + x2 + ...xn − nµ√

La loi de Zn converge vers la loi normale standard, lorsque n est grand.

2.5.2 Exercice

On veut verifier que la loi de Zn converge vers la loi normale standard.

Exercice 5

– Avec la fonction distfun unifrnd, generer un echantillon R avec N=10000 lignes et k=1 colonne,de loi uniforme de parametres a=-4 et b=2.

– Avec la fonction sum(R,"c"), faire la somme des colonnes et calculer Z.– Avec la fonction histo, tracer l’histogramme empirique de Z.– Repeter avec k=2,4,8 et reproduire la figure 4.– Optionnel. Superposer la densite de probabilite normale standard.

2.5.3 Squelette

Pour vous aider dans votre progression, vous pouvez vous inspirer du modele de script suivant.

a=-4;

b=2;

[M,V]= distfun_unifstat(TODO);

N=10000;

scf();

//

k=1;

14

Page 15: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 4 – Illustration du theoreme central limite. Convergence de la convergence de Zn vers unevariable de loi normale standard, lorsque X est de loi uniforme de parametres a = −4.

subplot (2,2,1);

R=distfun_unifrnd(TODO);

S=(sum(R,"c")-k*M)/( sqrt(k*V));

histo(TODO);

x=linspace(TODO);

y=distfun_normpdf(TODO);

plot(x,y,"b-")

xtitle("k=1","x","Density")

legend (["Data","Normal (0,1)"]);

//

k=2;

subplot (2,2,2);

TODO

//

k=4;

subplot (2,2,3);

TODO

//

k=8;

subplot (2,2,4);

TODO

Solution de l’exercice 5

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Theoreme limite central

a=-4;

b=2;

15

Page 16: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

[M,V]= distfun_unifstat(a,b);

N=10000;

scf();

//

i=0;

for k=[1,2,4,8]

i=i+1;

subplot (2,2,i);

R=distfun_unifrnd(a,b,N,k);

S=(sum(R,"c")-k*M)/( sqrt(k*V));

histo(S,[],%t);

x=linspace (-3,3,100);

y=distfun_normpdf(x,0,1);

plot(x,y,"b-")

xtitle("k="+string(k),"x","Density")

legend (["Data","Normal (0,1)"]);

end

3 Exercices Probabilites Optionnels

3.1 Loi binomiale (theorie)

Soit N un entier positif et pr une probabilite dans l’intervalle (0, 1). On realise une experience deBernoulli, dans laquelle on obtient un succes avec une probabilite pr et un echec avec une probabilite1− pr. On repete cette experience N fois. Soit X le nombre de succes. Alors X suit une loi binomiale deparametres pr et N . Sa densite de probabilite est donnee par l’equation 1, page 6.

Exercice 6

Demontrer l’equation 1.

Solution de l’exercice 6

Nous devons montrer que

P (X = x) =

(Nx

)pxr (1− pr)N−x,

pour x = 0, 1, 2, .... En effet, comme la probabilite d’un succes est pr, et comme les evenements sontindependants la probabilite de x succes est le produit des x probabilites pr, ce qui conduit a pxr . Commele nombre d’essais est N , le nombre d’echecs est N − x. De plus, la probabilite d’un echec est 1− pr, detelle sorte que la probabilite de N − x echecs est (1− pr)N−x. Enfin, la taille de l’ensemble {X = x} est

donne par le coefficient binomial

(Nx

), ce qui conclut la preuve.

Rappel :On rappelle que, pour une variable discrete, l’esperance est definie par

E(X) =∑i

xiP (X = xi).

De plus, la variance est definie par :V (X) = E((X − µ)2),

ou µ = E(X). La variance de X peut se calculer en fonction de µ et E(X2). En effet,

V (X) = E(X2 − 2µX + µ2)

= E(X2)− 2µE(X) + µ2

= E(X2)− 2µ2 + µ2

= E(X2)− µ2.

16

Page 17: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Exercice 7

Soit X une variable aleatoire distribuee selon la loi de Bernoulli de parametre pr. En d’autres termes,

X =

{1 si l’essai i est un succes,0 sinon.

avec P (X = 1) = pr et P (X = 0) = 1− pr.Montrer que

E(X) = pr, V (X) = pr(1− pr). (6)

Solution de l’exercice 7

Par definition de l’esperance,

E(X) = 0× P (X = 0) + 1× P (X = 1)

= pr,

et

V (X) = E(X2)− E(X)2

= E(X2)− p2r.

De plus,

E(X2) = 02 × P (X = 0) + 12 × P (X = 1)

= pr,

ce qui implique

V (X) = pr − p2r= pr(1− pr).

Exercice 8

Soit X une variable aleatoire distribuee selon la loi binomiale de parametres N et pr. Montrer que

E(X) = Npr, V (X) = Npr(1− pr). (7)

Solution de l’exercice 8

Soit Xi la variable aleatoire definie par

Xi =

{1 si l’essai i est un succes,0 sinon.

pour i = 1, . . . , N . Alors Xi est une variable de Bernoulli de parametre pr. Comme nous l’avons montredans l’exercice precedent, cela implique E(Xi) = pr et V (Xi) = pr(1− pr).

On peut en deduire l’esperance et la variance de la variable X, puisque :

X = X1 +X2 + . . .+XN .

La propriete de linearite de l’esperance implique :

E(X) =

N∑i=1

E(Xi)

= Npr.

De plus,

V (X) =

N∑i=1

V (Xi)

= Npr(1− pr),

puisque les variables Xi sont independantes.

17

Page 18: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

3.2 Loi uniforme (theorie)

Soit a et b deux reels tels que a < b. La variable X suit une loi uniforme de parametres a et b si sadensite est donnee par l’equation 3, page 9. L’esperance de X et sa variance sont donnes par les equations4 et 5, page 9.

Exercice 9

Demontrer les equations 4 et 5.

Rappel :Pour une variable aleatoire X continue, l’esperance est definie par

E(X) =

∫x

xf(x)dx,

ou f est la densite de probabilite de X.

Solution de l’exercice 9

Par definition de l’esperance,

E(X) =

∫ b

a

x

b− adx

=1

b− a

∫ b

a

xdx

=b2 − a2

2(b− a).

Or b2 − a2 = (a+ b)(b− a), ce qui mene a l’equation 4. De plus,

E(X2) =

∫ b

a

x2

b− adx

=1

b− a

∫ b

a

x2dx

=b3 − a3

3(b− a)

=a2 + ab+ b2

3,

puisqueb3 − a3 = (a2 + ab+ b2)(b− a).

Par consequent,

V (X) = E(X2)− E(X)2

=a2 + ab+ b2

3− (a+ b)2

4

=4a2 + 4ab+ 4b2 − 3a2 − 6ab− 3b2

12

=a2 − 2ab+ b2

12,

ce qui mene a l’equation 5.

18

Page 19: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

3.3 Loi normale (theorie)

Exercice 10

Soit X une variable aleatoire. On appelle fonction generatrice des moments la fonction M definie par

M(t) = E(etX),

pour tout t ∈ R.

1. Montrer que

M ′(0) = E(X). (8)

2. Montrer que

M ′′(0) = E(X2). (9)

3. Montrer que

M (n)(0) = E(Xn), (10)

pour tout entier n.

Solution de l’exercice 10

Par definition de la fonction M , on a

M ′(t) =d

dtE(etx)

=d

dt

∫etxf(x)dx

=

∫d

dt(etX)f(x)dx

= E

(d

dt(etX)

)= E

(XetX

),

ce qui conduit directement a l’equation 8. De meme,

M ′′(t) =d2

dt2E(etX)

= E

(d2

dt2(etX)

)= E

(X2etX

),

ce qui conduit directement a l’equation 9. De maniere generale,

M (n)(t) =dn

dtnE(etX)

= E

(dn

dtn(etX)

)= E

(XnetX

),

ce qui conduit directement a l’equation 10, et conclut la preuve.

Exercice 11

Soit X une variable aleatoire normale de parametres µ et σ.

19

Page 20: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

1. Montrer que la fonction generatrice des moments de X est

M(t) = exp

(µt+

σ2t2

2

). (11)

2. En deduire que

E(X) = µ, V (X) = σ2. (12)

Indication : on utilisera le changement de variable

z =x− µσ

(13)

et on demontrera l’egalite

tσz − z2

2=t2σ2

2− (z − tσ)2

2, (14)

pour tout t ∈ R.

Solution de l’exercice 11

1. Par definition de la fonction generatrice des moments,

M(t) = E(etX)

=1√2πσ

∫ ∞−∞

etxe−(x−µ)2

2σ2 dx.

Considerons le changement de variable donne par l’equation 13. Il permet de transformer la variablex de loi normale en une variable z de loi normale standard. Cela implique

x = µ+ σz.

Par consequent,

M(t) =1√2π

∫ ∞−∞

et(µ+σz)e−z2

2 dz

=etµ√2π

∫ ∞−∞

etσze−z2

2 dz

=etµ√2π

∫ ∞−∞

etσz−z2

2 dz.

Or

(z − tσ)2 = z2 − 2ztσ + t2σ2,

ce qui implique

− (z − tσ)2

2= −z

2

2+ ztσ − t2σ2

2,

ce qui mene a l’equation 14.

Cela implique

M(t) =etµ√2π

∫ ∞−∞

et2σ2

2 −(z−tσ)2

2 dz

=etµ+

t2σ2

2

√2π

∫ ∞−∞

e−(z−tσ)2

2 dz.

Or1√2π

∫ ∞−∞

e−(z−tσ)2

2 dz = 1,

puisque c’est l’integrale de la densite de probabilite de la variable z− tσ de moyenne tσ et d’ecart-type unite. On obtient alors l’equation 11.

20

Page 21: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

2. La derivee de la fonction generatrice est

M ′(t) =(µ+ tσ2

)etµ+

t2σ2

2

=(µ+ tσ2

)M(t),

ce qui implique

E(X) = M ′(0) = µM(0) = µ,

puisque M(0) = 1, ce qui conclut la preuve pour le calcul de l’esperance de X.

La derivee seconde de la fonction generatrice est

M ′′(t) = σ2M(t) +(µ+ tσ2

)M ′(t)

= σ2M(t) +(µ+ tσ2

)2M(t),

ce qui implique

E(X2) = M ′′(0)

= σ2M(0) + µ2M(0)

= σ2 + µ2.

Par consequent, la variance de X est

V (X) = E(X2)− E(X)2 = σ2 + µ2 − µ2 = σ2,

ce qui conclut la preuve pour le calcul de la variance de X.

3.4 Produits defaillants sur une ligne de production (*)

Exercice 12

Supposons que des objets sont produits par une ligne de production, et classes comme defaillants ounon-defaillants, independamment les uns des autres. La probabilite qu’un objet soit non-defaillant estpr=0.8. A un moment dans la ligne de production, on selectionne un echantillon en prenant trois objetsau hasard. Calculer la probabilite que l’echantillon contienne 0, 1, 2 ou 3 objets non-defaillants.

3.4.1 Squelette

Pour vous aider dans votre progression, vous pouvez vous inspirer du modele de script suivant.

P0 = distfun_binopdf(TODO)

mprintf("P(X=0)=%f\n",P0)

P1 = distfun_binopdf(TODO)

mprintf("P(X=1)=%f\n",P1)

P2 = distfun_binopdf(TODO)

mprintf("P(X=2)=%f\n",P2)

P3 = distfun_binopdf(TODO)

mprintf("P(X=3)=%f\n",P3)

mprintf("Somme=%f\n",P0+P1+P2+P3)

Solution de l’exercice 12

Source : Section 4.3 - Binomial Distribution [1].

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

21

Page 22: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

// Produits defaillants sur une ligne de production

P0 = distfun_binopdf (0 ,3,0.8)

mprintf("P(X=0)=%f\n",P0)

P1 = distfun_binopdf (1 ,3,0.8)

mprintf("P(X=1)=%f\n",P1)

P2 = distfun_binopdf (2 ,3,0.8)

mprintf("P(X=2)=%f\n",P2)

P3 = distfun_binopdf (3 ,3,0.8)

mprintf("P(X=3)=%f\n",P3)

mprintf("Somme=%f\n",P0+P1+P2+P3)

3.4.2 Sortie

Le script precedent produit la sortie suivante.

-->P0 = distfun_binopdf (0 ,3,0.8)

s0 =

0.008

-->P1 = distfun_binopdf (1 ,3,0.8)

s1 =

0.096

-->P2 = distfun_binopdf (2 ,3,0.8)

s2 =

0.384

-->P3 = distfun_binopdf (3 ,3,0.8)

s3 =

0.512

3.5 Puissance dissipee par une resistance (*)

Exercice 13

Considerons la puissance W dissipee par une resistance (en watts). Elle satisfait l’equation

W =U2

R

ou R est la resistance du conducteur (en ohms) et U est la tension (en volts). Supposons que R = 1/3et que U est une variable aleatoire de loi normale de moyenne µ = 6 et d’ecart-type σ = 1.

– Calculer E(W ).– Calculer P (W > 120).– Dessiner P (W > s), pour s > 0 et reproduire la figure 5.

Solution de l’exercice 13

Source : Section 5.5 ”Normal Random Variables”, Example 5.5c [2].On a

E(W ) = E

(U2

R

)=

1

RE(U2),

puisque R est une constante. Par consequent,

E(W ) =1

R(V (U) + E(U)2) =

1

R(σ2 + µ2).

Avec les valeurs numeriques, l’esperance de W est :

E(W ) = 3(12 + 62) = 111

et la probabilite que la puissance depasse 120 est :

P (W > 120) = P

(U2

R> 120

)= P (U2 > 120R) = P (U >

√120R).

22

Page 23: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 5 – Probabilite que la puissance W depasse un seuil.

D’une maniere generale, la probabilite pour que la puissance depasse s est :

P (W > s) = P (U >√sR).

3.6 Lien entre la loi de Poisson et la loi normale (*)

Supposons que des evenements aleatoires se produisent independamment les uns des autres. Soitλ > 0 le nombre moyen d’apparition de ces evenements par unite de temps (ou d’espace). La variable Xsuit une loi de Poisson si sa densite de probabilite est

f(x, λ) =λx exp(−λ)

x!,

pour x = 0, 1, 2, ....

Exercice 14

Quand λ augmente, la distribution de Poisson de parametre λ approche la distribution normale demoyenne λ et d’ecart-type

√λ.

Verifier avec Scilab : avec les valeurs suivantes lambda=[4 16 32 10000]. Indication : utiliser– distfun poisspdf

– distfun normpdf

et reproduire la figure 6.

Solution de l’exercice 14

Reference : [5].

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Lien entre la loi de Poisson et la loi normale

lambda =[4. 16. 32. 10000.];

ny=2;

nx=2;

scf();

for i=1:nx

for j=1:ny

ij=(i-1)*ny + j;

23

Page 24: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 6 – Convergence de la loi de Poisson vers la loi normale lorsque la moyenne λ de la loi de Poissonaugmente.

subplot(ny ,nx ,ij)

mu=lambda(ij);

sigma=sqrt(lambda(ij));

xmin=max(mu -3*sigma ,0);

xmax=mu+3* sigma;

x=linspace(xmin ,xmax ,100);

xpoi=unique(floor(x));

y=distfun_poisspdf(xpoi ,lambda(ij));

plot(xpoi ,y,"ro");

y=distfun_normpdf(x,mu ,sigma);

plot(x,y,"b-");

xtitle("lambda="+string(lambda(ij)));

legend (["Poisson","Normal"]);

end

end

3.7 Changement de loi : uniforme vers exponentielle (*)

Exercice 15

Soit U une variable uniforme dans [0, 1]. Considerons la variable

X = −µ ln(1− U)

– Quelle est la fonction de repartition de X ?– Quelle est la densite de probabilite de X ?– Quelle est la loi de X ?– Generer un echantillon de taille N=10000 de realisations d’une variable aleatoire uniforme de pa-

rametres a=0 et b=1.– Appliquer la transformation R = −µ exp(U), avec mu=5. (U et 1− U sont de meme loi).– Creer l’histogramme empirique des valeurs de R.

24

Page 25: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 7 – Transformation des realisation d’une variable uniforme dans [0, 1] vers une variable expo-nentielle de moyenne µ = 5.

– Superposer la densite de la variable exponentielle, de moyenne mu=5 et reproduire la figure 7.

Solution de l’exercice 15

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Changement de loi Uniforme vers Exponentielle

N=10000;

mu=5;

U=distfun_unifrnd (0,1,N,1);

R=-mu*log(U);

scf();

histo(R,[],%t);

x=linspace (0 ,40 ,100);

y=distfun_exppdf(x,mu);

plot(x,y);

legend (["Random","Density"]);

xtitle("Uniforme vers Exponentielle","R","Densite")

Soit U une variable uniforme dans [0, 1]. Considerons la variable

X = −µ ln(1− U)

P (X ≤ x) = P (−µ ln(1− U) ≤ x)

= P (ln(1− U) ≥ −x/µ)

= P (1− U ≥ exp(−x/µ))

= P (U ≤ 1− exp(−x/µ)).

Or, pour la loi uniforme, on a :P (U ≤ u) = u,

25

Page 26: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

pour tout u ∈ [0, 1]. Cela implique que la fonction de repartition de X est :

FX(x) = P (X ≤ x)

= 1− exp(−x/µ).

Par derivation par rapport a x, on obtient :

fX(x) = FX(x)′

= −xµ

exp(−x/µ),

qui est la densite de probabilite d’une variable exponentielle de moyenne µ.

4 Exercices Statistiques

4.1 Estimation de la moyenne

4.1.1 Rappel de cours

Avant de presenter quelques elements theoriques associes a l’estimation de la moyenne, nous presen-tons un cours rappel sur les proprietes d’une variable aleatoire de loi normale.

Rappel : Supposons que X est une variable aleatoire de loi normale, de moyenne E(X) et de varianceV (X). Soit α un reel. Alors la variable aleatoire X + α est telle que

E(X + α) = E(X) + α, V (X + α) = V (X).

D’autre part, la variable aleatoire αX est telle que

E(αX) = αE(X), V (αX) = α2V (X).

Soit X une variable aleatoire. Soit n un entier positif et xi des realisations independantes de lavariable X, pour i = 1, 2, ..., n. On considere la moyenne empirique

xn =x1 + x2 + ...+ xn

n. (15)

On s’interesse a l’estimation de l’esperance E(X) par son estimateur xn. Soit X1, . . . , Xn des variablesaleatoires independantes et identiquement distribuees. Soit

Xn =X1 +X2 + ...+Xn

n, (16)

la variable aleatoire associee a la moyenne empirique.Dans l’exercice 27, on montre que :

E(Xn) = E(X) (17)

et

V (Xn) =V (X)

n. (18)

Supposons desormais que n est grand. D’apres le theoreme central limite, on a

X1 + . . .+Xn − nE(X)√nV (X)

∼ N (0, 1).

Cela impliqueX1 + . . .+Xn − nE(X) ∼ N (0, nV (X)),

et, par consequent,X1 + . . .+Xn ∼ N (nE(X), nV (X)).

C’est pourquoiXn ∼ N (E(X), V (X)/n).

En d’autres termes, la distribution de la moyenne empirique est normale, de moyenne E(X) et de varianceV (X)/n.

26

Page 27: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

4.1.2 Experience A1

Exercice 16

Supposons que X est de loi exponentielle, de parametre µ = 12 (moyenne). L’objectif de cet exerciceest d’observer que la moyenne empirique Xn est une variable aleatoire. Les proprietes de ses realisationspeuvent etre predites par les resultats presentes precedemment.

1. Calculer l’esperance M et la variance V de X en utilisant les equations :

E(X) = µ, V (X) = µ2.

2. Utiliser la fonction distfun expstat pour calculer E(X) et V (X) et verifier que le resultat estidentique au resultat de la question precedente.

3. Prendre n=1000 et generer le vecteur X, contenant n realisations de la variable X. Pour cela, utiliserla fonction distfun exprnd.

4. Calculer la moyenne empirique Xn en utilisant l’instruction Mn=mean(X). Afficher E(X), V (X),E(Xn), V (Xn), ainsi que la moyenne empirique Mn.

5. Executer le script plusieurs fois, et observer la variabilite de la moyenne empirique. Repeter avecdes valeurs de n plus grandes et verifier que la variabilite est reduite. Repeter avec des valeurs den plus petites et verifier que la variabilite est augmentee.

4.1.3 Squelette

mu=12;

mprintf("mu=%f\n",mu);

// 1. Calculer la moyenne , la variance exactes de X

M=TODO; // Moyenne

V=TODO; // Variance

// 2. Utiliser distfun_expstat

[M,V] = distfun_expstat(mu);

// 3. Generer n realisations

n=1000;

X=distfun_exprnd(TODO);

// 4. Estimer la moyenne empirique

Mn=mean(TODO);

mprintf("E(X)=%f , V(X)=%f\n",TODO);

mprintf("E(Mn)=%f , V(Mn)=%f\n",TODO);

mprintf("Mean(X)=%f\n",TODO);

4.1.4 Sortie

Le script produit la sortie suivante.

mu =12.000000

E(X)=12.000000 , V(X)=144.000000

E(Mn )=12.000000 , V(Mn )=0.144000

Mean(X)=12.618887

Solution de l’exercice 16

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation de la moyenne

// Experience A1

27

Page 28: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

// Estimation de la moyenne empirique

// d’une variable X de loi exponentielle.

//

// mu : moyenne de la variable exponentielle X

// n : nombre de realisations de X

// M : moyenne de la variable exponentielle (exacte)

// V : variance de la variable exponentielle (exacte)

// X : matrice de taille n-par -1,

// realisations de la variable aleatoire

// Mn : moyenne empirique de X

//

mu=12;

mprintf("mu=%f\n",mu);

// 1. Calculer la moyenne , la variance

M=mu; // Moyenne

V=mu^2; // Variance

// 2. Utiliser distfun_expstat

[M,V] = distfun_expstat(mu);

// 3. Generer n realisations

n=10;

X=distfun_exprnd(mu ,[n ,1]);

// 4. Estimer la moyenne empirique

Mn=mean(X);

mprintf("E(X)=%f , V(X)=%f\n",M,V);

mprintf("E(Mn)=%f , V(Mn)=%f\n",M,V/n);

mprintf("Mean(X)=%f\n",Mn);

4.1.5 Experience A2

Exercice 17

Supposons que X est de loi exponentielle, de parametre µ = 12 (moyenne). L’objectif de cet exerciceest d’observer que, lorsque le nombre de realisations n augmente, la variance de la moyenne empiriquediminue. Pour cela, dans l’exercice qui suit, on genere Nsample realisations de Xn.

1. Utiliser la fonction distfun expstat pour calculer E(X) = µ et V (X) = µ2.

2. Prendre n=2 et generer le vecteur Mn, contenant Nsample=10000 realisations de la variable Xn. Pourcela, utiliser la fonction distfun exprnd pour calculer la matrice X contenant Nsample=10000 ligneset n colonnes. Ensuite, calculer la moyenne empiriqueXn en utilisant l’instruction Mn=mean(X,"c").

3. Estimer la moyenne empirique de Mn, sa variance, et comparer avec M et V/n. Indication : voir lafonction variance.

4. Repeter avec n=1,2,4,8.

4.1.6 Squelette

mu=12;

mprintf("mu=%f\n",mu);

// 1. Calculer la moyenne , la variance

M=TODO; // Moyenne

V=TODO; // Variance

// 2. Utiliser distfun_expstat

[M,V] = distfun_expstat(TODO);

// 3. Generer 10000 realisations de la

// moyenne empirique

Nsample =10000;

n=2;

X=distfun_exprnd(TODO);

Mn=mean(TODO);

28

Page 29: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

// 4. Estimer les valeurs empiriques

// Comparer avec les valeurs exactes

mprintf("n=%d\n",n);

mprintf("E(Mn)=%f , V(Mn)=%f\n",TODO ,TODO);

mprintf("Mean(Mn)=%f , Variance(Mn)=%f\n" ,..

mean(TODO),variance(TODO ));

// 5. Repeter avec n=1,2,4,8

mprintf("Variable Exponentielle (mu =12)\n");

for n=[1 2 4 8]

mprintf("n=%d\n",n);

mprintf("E(Mn)=%f , V(Mn)=%f\n",TODO ,TODO);

X=distfun_exprnd(TODO);

Mn=mean(TODO);

mprintf("Mean(Mn)=%f , Variance(Mn)=%f\n" ,..

mean(TODO),variance(TODO ));

end

4.1.7 Sortie

Le script produit la sortie suivante.

mu =12.000000

n=2

E(Mn )=12.000000 , V(Mn )=72.000000

Mean(Mn )=12.073910 , Variance(Mn )=71.219129

Variable Exponentielle (mu=12)

n=1

E(Mn )=12.000000 , V(Mn )=144.000000

Mean(Mn )=11.999513 , Variance(Mn )=143.258739

n=2

E(Mn )=12.000000 , V(Mn )=72.000000

Mean(Mn )=12.020114 , Variance(Mn )=72.727774

n=4

E(Mn )=12.000000 , V(Mn )=36.000000

Mean(Mn )=12.020695 , Variance(Mn )=36.679829

n=8

E(Mn )=12.000000 , V(Mn )=18.000000

Mean(Mn )=12.061005 , Variance(Mn )=18.432936

Solution de l’exercice 17

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation de la moyenne

// Experience A

// Distribution de la moyenne empirique d’une variable exponentielle.

//

// mu : moyenne de la variable exponentielle

// M : moyenne de la variable exponentielle (exacte)

// V : variance de la variable exponentielle (exacte)

// Nsample : nombre de repetitions de l’experience

// n : nombre de realisations de la variable aleatoire

// X : matrice de taille Nsample -par -n,

// realisations de la variable aleatoire

// Mn : matrice de taille Nsample -par -1, moyenne empirique

//

mu=12;

29

Page 30: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

mprintf("mu=%f\n",mu);

// 1. Calculer la moyenne , la variance

M=mu; // Moyenne

V=mu^2; // Variance

// 2. Utiliser distfun_expstat

[M,V] = distfun_expstat(mu);

// 3. Generer 10000 realisations de la

// moyenne empirique

Nsample =10000;

n=2;

X=distfun_exprnd(mu ,Nsample ,n);

Mn=mean(X,"c");

// 4. Estimer les valeurs empiriques

// Comparer avec les valeurs exactes

mprintf("n=%d\n",n);

mprintf("E(Mn)=%f , V(Mn)=%f\n",M,V/n);

mprintf("Mean(Mn)=%f , Variance(Mn)=%f\n" ,..

mean(Mn),variance(Mn));

// 5. Repeter avec n=1,2,4,8

mprintf("Variable Exponentielle (mu =12)\n");

for n=[1 2 4 8]

mprintf("n=%d\n",n);

mprintf("E(Mn)=%f , V(Mn)=%f\n",M,V/n);

X=distfun_exprnd(mu ,Nsample ,n);

Mn=mean(X,"c");

mprintf("Mean(Mn)=%f , Variance(Mn)=%f\n" ,..

mean(Mn),variance(Mn));

end

4.1.8 Experience B

Exercice 18

Supposons que X est de loi exponentielle, de parametre µ = 12 (moyenne). On veut maintenant voirla distribution des realisations de Xn, et observer que, quand n augmente, alors la distribution de Xn

s’approche de la distribution normale, de moyenne E(X) et de variance V (X)/n.

1. Calculer l’esperance M et la variance V de X avec la fonction distfun expstat.

2. Prendre n=2 et generer le vecteur Mn, contenant Nsample=1000 realisations de la variable Xn avecla fonction distfun exprnd.

3. Tracer l’histogramme empirique des realisations de xn en utilisant la fonction histo.

4. Tracer la densite de probabilite de la loi normale de parametres M et V/n en utilisant la fonctiondistfun normpdf.

5. Repeter l’experience pour n=1,2,4,8 et placer les 4 sous-graphiques precedents dans un seul gra-phique : reproduire la figure 8. Indication : voir la fonction subplot.

4.1.9 Squelette

mu=12;

Nsample =1000;

[M,V]= distfun_expstat(TODO);

x=linspace (0 ,100 ,100);

scf();

//

n=1;

X = distfun_exprnd(TODO);

Mn=mean(TODO);

30

Page 31: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 8 – Distribution empirique et theorique de la moyenne empirique de n = 1, 2, 4, 8 realisationsde variables exponentielles de moyenne µ = 12. La distribution theorique est celle de la loi normale demoyenne µ et de variance µ2/n. La distribution empirique utilise 1000 realisations de Xn.

31

Page 32: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

subplot (2,2,1);

histo(TODO)

y=distfun_normpdf(TODO);

plot(x,y,"r-");

xtitle("Sample Mean - n=1","M","Frequency");

legend (["Data","Normal PDF"]);

//

n=2;

subplot (2,2,2);

TODO

//

n=4;

subplot (2,2,3);

TODO

//

n=8;

subplot (2,2,4);

TODO

Solution de l’exercice 18

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation de la moyenne

// Experience B

// Distribution de la moyenne empirique d’une variable exponentielle.

mu=12;

Nsample =1000;

[M,V]= distfun_expstat(mu);

x=linspace (0 ,40 ,100);

scf();

//

k=0;

for n=[1,2,4,8]

k=k+1;

X = distfun_exprnd(mu ,Nsample ,n);

Mn=mean(X,"c");

subplot (2,2,k);

histo(Mn ,[],%t);

y=distfun_normpdf(x,M,sqrt(V/n));

plot(x,y,"r-");

xtitle("Sample Mean - n="+string(k),"M","Frequency");

legend (["Data","Normal PDF"]);

end

La figure 8 montre que, lorsque n augmente, la distribution de Mn est de plus en plus proche dela distribution normale de moyenne E(X) et de variance V (X)/n. C’est une consequence du theoremecentral limite.

On constate aussi que la distribution se resserre autour de la valeur moyenne. C’est parce que lavariance V (X)/n tend vers zero lorsque n augmente.

4.2 Intervalle de confiance d’une moyenne

4.2.1 Rappel de cours

Soit xi des realisations independantes de la variable aleatoire X, pour i = 1, 2, ..., n. Soit α ∈ [1/2, 1].

32

Page 33: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Si X est une variable normale de moyenne µ et de variance σ2, alors l’intervalle

In = [xn − δn, xn + δn] , δn = z1−α/2σ√n

(19)

est un intervalle de confiance a 1− α pour la moyenne. En d’autres termes, on a

P (In 3 µ) = 1− α. (20)

Si X est une variable normale de moyenne µ et de variance inconnue, alors on considere l’intervalle

In = [xn − δn, xn + δn] , δn = tn−1,1−α/2Sn√n− 1

, (21)

ou tn−1,1−α/2 est le quantile d’ordre 1 − α/2 de la loi de Student a n − 1 degres de libertes, et Sn estl’ecart-type empirique biaise. Alors l’intervalle In est un intervalle de confiance a 1−α pour l’esperance.En d’autres termes, on a

P (In 3 E(X)) = 1− α.

On peut egalement utiliser la variance corrigee (non biaisee) S∗2n , ce qui mene a

δn = tn−1,1−α/2S∗n√n.

Lorsque n est grand, la loi de Student est approchee par la loi normale standard, de telle sorte que :

δn = z1−α/2Sn√n− 1

,

ou z1−α/2 est le quantile d’ordre 1− α/2 de la fonction de repartition de la loi normale standard.La notation In 3 E(X) permet de mettre en valeur le fait que les bornes de l’intervalle In sont des

variables aleatoires, tandis que E(X) est l’esperance de la variable.Lorsque n est grand, alors le theoreme central limite implique que la distribution de la moyenne

empirique est normale, de moyenne E(X) et de variance V (X)/n. De plus, en general, la distributionde la variable X est inconnue (elle ne suit pas necessairement la loi normale) et la variance V (X) estinconnue, c’est pourquoi on l’estime par la variance empirique. Dans ce cas, on peut utiliser l’intervallede confiance asymptotique approche

P (In 3 E(X)) ≈ 1− α, δn = z1−α/2Sn√n− 1

.

L’approximation est, dans cette situation, le fruit de trois approximations :

1. la distribution de Xn n’est normale que quand n est grand, de telle sorte que la probabilite n’estqu’approximativement egale a 1− α,

2. la variance V (X) est estimee par la variance empirique S2n, qui ne sont proches que lorsque n est

grand,

3. le quantile de la loi de Student tn−1,1−α/2 est approche par le quantile de la loi normale z1−α/2,qui ne sont proches que si n est grand.

En pratique, si le nombre de realisation n est modere (n < 100) ou faible (n < 10), l’intervalle deconfiance precedent peut etre incorrect.

Plus de details sur ce theme sont donnes, par exemple, dans [2], section 7.3 ”Interval Estimates”, ouencore dans [3], section 13.5.2 ”Esperance d’une variable normale”.

4.2.2 Experience A

Considerons la variable X de loi log-normale de parametres µ = 2 et σ = 1. Cela signifie queY = log(X) est de loi normale de parametres µ et σ. On cherche a estimer un intervalle de confiance a95% pour la moyenne de X. Cela correspond a 1− α = 0.95, c’est a dire α = 0.05.

33

Page 34: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Exercice 19

1. Calculer l’esperance de la variable X avec la fonction distfun lognstat.

2. Generer n=100 realisations de la variable X avec la fonction distfun lognrnd.

3. Calculer la moyenne empirique et la variance (biaisee) de l’echantillon. Indication : utiliser l’ins-truction variance(y,"r",1) pour estimer la variance biaisee de y.

4. Calculer le quantile a 0.025 de la loi de Student a n-1 degres de liberte. Indication : utiliserdistfun tinv.

5. En deduire des realisations des bornes de l’intervalle de confiance.

6. Repeter l’experience en calculant le quantile a 0.025 de la loi Normale standard avec la fonctiondistfun norminv.

7. Estimer les bornes de l’intervalle de confiance.

8. Voir la difference entre l’intervalle utilisant la loi de Student et l’intervalle utilisant la loi normale.

4.2.3 Squelette

n = 100; // taille echantillon

mu = 2;

sigma = 1;

mux=distfun_lognstat(TODO); // esperance de X

X = distfun_lognrnd(TODO); // Echantillon X

Mn = mean(X); // moyenne empirique

Sn2 = variance(X,"r" ,1); // variance empirique (biaisee)

level =0.05; // =1 -0.95

al=level /2;

// Quand n n’est pas tres grand:

q = distfun_tinv(TODO);

// Quand n est grand:

// q = distfun_norminv(TODO);

delta = TODO;

low=Mn -delta;

up=Mn+delta;

mprintf("Moyenne exacte = %f\n",mux);

mprintf("Moyenne empirique = %f\n",Mn);

mprintf("Intervalle a 0.95%%: [%f ,%f]\n",low ,up);

4.2.4 Sortie

Moyenne exacte = 12.182494

Moyenne empirique = 9.194240

Intervalle a 0.95%: [7.309435 ,11.079045]

Solution de l’exercice 19

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation d’un intervalle de confiance sur la moyenne.

// Experience A

// Estimation par intervalle de la moyenne

// d’une loi Log Normale Y = exp(X)

//

n = 100; // taille echantillon

34

Page 35: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 9 – Histogrammes empiriques de 10000 realisations des bornes inferieures et superieures del’intervalle de confiance a 95% de la moyenne empirique de 100 realisations d’une variable log-Normalede parametres µ = 1 et σ = 2.

mu = 2;

sigma = 1;

mux=distfun_lognstat(mu ,sigma); // esperance de X

X = distfun_lognrnd(mu ,sigma ,n,1); // Echantillon X

Mn = mean(X); // moyenne empirique

Sn2 = variance(X,"r",%nan); // variance empirique (biaisee)

level =0.05; // =1 -0.95

al=level /2;

// Quand n n’est pas tres grand:

q = distfun_tinv(al ,n-1,%f); // quantile 0.025 ~ 1.98

// Quand n est grand:

//q = distfun_norminv(al ,0,1,%f); // quantile 0.025 ~ 1.96

delta = q * sqrt(Sn2/(n -1));

low=Mn -delta;

up=Mn+delta;

mprintf("Moyenne exacte = %f\n",mux);

mprintf("Moyenne empirique = %f\n",Mn);

mprintf("Intervalle a 0.95%%: [%f ,%f]\n",low ,up);

4.2.5 Experience B

Considerons la variable X de loi log-normale de parametres µ = 2 et σ = 1. On cherche a estimer unintervalle de confiance a 95% pour la moyenne de X.

Exercice 20

L’objectif de cette experience est de verifier que 95 % environ des intervalles de confiances Incontiennent l’esperance E(X).

1. Generer une matrice de n-par-Nsample realisations de la variable X, ou n=100 et Nsample=10000.

2. Calculer la moyenne empirique sur les lignes et la variance (biaisee) sur les lignes de l’echantillon.

3. En deduire des realisations des bornes de l’intervalle de confiance a 95

4. Creer un graphique presentant un histogramme des realisations de la borne inferieure, un histo-gramme des realisations de la borne superieure et une ligne correspondant a l’esperance de X :reproduire la figure 9.

5. Calculer la proportion de realisations de l’intervalle In qui contiennent l’esperance E(X). Verifierque cette proportion est proche de 95%.

35

Page 36: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

4.2.6 Squelette

mu=2;

sigma =1;

n=100;

Nsample =10000;

X = distfun_lognrnd(TODO);

Mn = mean(X,"r");

Sn2 = variance(X,"r",%nan); // variance empirique (biais~A c©e)

delta = TODO

low=Mn -delta;

up=Mn+delta;

x=linspace (5 ,25 ,50);

scf();

histo(low ,x,%t ,1);

histo(up ,x,%t ,2);

plot([mux ,mux],[0,0.3],"r-");

legend (["Lower Bound","Upper Bound","E(X)"]);

xtitle("Invervalle de confiance a 95% - X~Log -Normale" ,..

"Mean","Frequency")

// Calcul de P(I contains mux)

i=find(mux >low&mux <up);

nInBounds=size(i,"*");

pInBounds=nInBounds/Nsample;

mprintf("P(I contains E(X))=%f\n",pInBounds );

4.2.7 Sortie

Le script produit la sortie suivante.

P(I contains E(X))=0.920900

Solution de l’exercice 20

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation d’un intervalle de confiance sur la moyenne.

// Experience B : Verification.

//

mu=2;

sigma =1;

n=100

Nsample =10000;

X = distfun_lognrnd(mu ,sigma ,n,Nsample ); // Echantillon X

Mn = mean(X,"r");

Sn2 = variance(X,"r",%nan); // variance empirique (biaisee)

delta = q * sqrt(Sn2/(n -1));

low=Mn -delta;

up=Mn+delta;

x=linspace (5 ,25 ,50);

scf();

histo(low ,x,%t ,1);

histo(up ,x,%t ,2);

plot([mux ,mux],[0,0.3],"r-");

legend (["Lower Bound","Upper Bound","E(X)"]);

xtitle("Invervalle de confiance a 95% - X~Log -Normale" ,..

"Mean","Frequency")

36

Page 37: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

//

// Calcul de P(I contains mux)

//

i=find(mux >low&mux <up);

nInBounds=size(i,"*");

pInBounds=nInBounds/Nsample;

mprintf("P(I contains E(X))=%f\n",pInBounds );

4.3 Estimation de la variance

4.3.1 Rappel de cours

Supposons que X1, . . . , Xn sont des variables independantes et identiquement distribuees, de moyenneµ et de variance σ2.

On considere l’estimateur biaise de la variance :

S2n =

1

n

n∑i=1

(xi − xn)2 (22)

et l’estimateur non biaise :

S?2n =1

n− 1

n∑i=1

(xi − xn)2. (23)

On sait que :

E(S2n) =

n− 1

nV (X), (24)

et

E(S?2n ) = V (X). (25)

4.3.2 Experience A

Exercice 21

On considere X une variable de loi exponentielle de moyenne µ = 5. Sa variance est µ2 = 25. Onveut comparer l’esperance de la variable aleatoire S?2n (estimateur non biaise) et sa valeur attendue µ2.

1. Generer une matrice de Nsample=10000 par n=2 realisations de la variable aleatoire X. Indication :utiliser distfun exprnd.

2. Calculer la variable aleatoire S?2n (estimateur non biaise) correspondant a cette matrice (elle aNsample=10000 lignes et une colonne).

3. Calculer la moyenne empirique de S?2n et comparer avec la valeur attendue µ2.

4. Repeter l’experience 5 fois.

5. Repeter l’experience avec n=4,8,16.

4.3.3 Sortie

Le script produit la sortie suivante.

Variable Exponentielle (mu =5.000000)

n=2

E(Sn )=25.000000

#1, Mean(Sn )=24.662395

#2, Mean(Sn )=23.851125

#3, Mean(Sn )=25.149188

#4, Mean(Sn )=24.674425

37

Page 38: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

#5, Mean(Sn )=25.280204

n=4

E(Sn )=25.000000

#1, Mean(Sn )=24.370294

#2, Mean(Sn )=25.297186

#3, Mean(Sn )=24.649946

#4, Mean(Sn )=24.681216

#5, Mean(Sn )=25.144950

n=8

E(Sn )=25.000000

#1, Mean(Sn )=25.334876

#2, Mean(Sn )=25.020715

#3, Mean(Sn )=25.123817

#4, Mean(Sn )=24.668120

#5, Mean(Sn )=24.943173

n=16

E(Sn )=25.000000

#1, Mean(Sn )=24.939115

#2, Mean(Sn )=24.817960

#3, Mean(Sn )=24.991745

#4, Mean(Sn )=25.198029

#5, Mean(Sn )=25.151239

4.3.4 Squelette

mu=5;

Nsample =10;

n=2;

[M,V] = distfun_expstat(TODO);

Nsample =10000;

mprintf("Variable Exponentielle (mu=%f)\n",mu);

for n=[2 4 8 16]

mprintf("n=%d\n",n);

mprintf("E(Sn)=%f\n",V);

for i=1:5

X=distfun_exprnd(TODO);

Sn=variance(TODO);

mprintf("#%d , Mean(Sn)=%f\n" ,..

i, mean(Sn));

end

end

Solution de l’exercice 21

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation de la variance

// Experience A

// Calcul de la variance non biaisee

mu=5;

[M,V] = distfun_expstat(mu);

Nsample =10000;

mprintf("Variable Exponentielle (mu=%f)\n",mu);

for n=[2 4 8 16]

mprintf("n=%d\n",n);

38

Page 39: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

mprintf("E(Sn)=%f\n",V);

for i=1:5

X=distfun_exprnd(mu ,Nsample ,n);

Sn=variance(X,"c");

mprintf("#%d , Mean(Sn)=%f\n",i, mean(Sn));

end

end

4.3.5 Experience B

Exercice 22

On considere X une variable de loi exponentielle de moyenne µ = 5. Sa variance est µ2 = 25. On veutcomparer l’esperance de la variable aleatoire S?2n (estimateur non biaise) et l’esperance de la variablealeatoire S2

n (estimateur biaise). On appelle cette correction la ”correction de Bessel”.

1. Pour n=2, generer Nsample=10000 realisations de la variable aleatoire S?2n (estimateur non biaise).Indication : utiliser la fonction variance(X,"c",0), ou bien, plus simplement, variance(X,"c"),pour obtenir l’estimateur non biaise.

2. Calculer la variance empirique de S?2n et comparer avec la valeur attendue µ2.

3. Pour n=2, generer Nsample=10000 realisations de la variable aleatoire S2n (estimateur biaise). In-

dication : utiliser la fonction variance(X,"c",1) pour obtenir l’estimateur biaise.

4. Calculer la variance empirique de S2n et comparer avec la valeur attendue µ2.

Verifier que la variance biaisee est proche de la valeur attendue pour cet estimateur, mais qu’elle estassez loin de la variance de la variable. Toutefois, le cas n = 2 est un cas extreme : lorsque n augmente,la difference entre la variance empirique biaisee et non biaisee tend vers zero.

Solution de l’exercice 22

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation de la variance

// Experience B

// Variance biaisee / non biaisee

// "Correction de Bessel"

mu=5;

mprintf("Variable Exponentielle (mu=%f)\n",mu);

[M,V] = distfun_expstat(mu);

mprintf("E(X)=%f\n",M);

mprintf("V(X)=%f\n",V);

mprintf("Esperance(Variance non biaisee ):%f\n",V);

n=2;

Nsample =10000;

X=distfun_exprnd(mu ,Nsample ,n);

//

// Non biaisee

S=variance(X,"c" ,0);

mprintf("Moyenne(Variance non biaisee ):%f\n",mean(S));

//

// Biaisee

Vb=V*(n-1)/n;

mprintf("Esperance(Variance biaisee ):%f\n",Vb);

Sb=variance(X,"c" ,1);

mprintf("Moyenne(Variance biaisee ):%f\n",mean(Sb));

Le script produit la sortie suivante.

39

Page 40: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Variable Exponentielle (mu =5.000000)

E(X)=5.000000

V(X)=25.000000

Esperance(Variance non biaisee ):25.000000

Moyenne(Variance non biaisee ):24.816369

Esperance(Variance biaisee ):12.500000

Moyenne(Variance biaisee ):12.408184

4.4 Estimation d’une probabilite de depassement

4.4.1 Rappel de cours

Soit X une variable aleatoire et xi des realisations independantes de la variable X, pour i = 1, 2, ..., n.Soit s ∈ R un seuil. On souhaite estimer la probabilite de depassement :

pf = P (X > s).

Soit Yi la variable dont les realisations sont

yi =

{1 si xi > s0 sinon.

Soit b la variable definie par :bn = y1 + y2 + ...+ yn.

La probabilite de depassement pf est estimee par

pf =bnn.

La variableBn = Y1 + Y2 + . . .+ Yn

est une variable binomiale de parametres pf et n. Par consequent, son esperance est npf et sa varianceest npf (1− pf ). L’esperance de la variable

Pf =Bnn

est donc pf et sa variance est pf (1− pf )/n.Soit pf une estimation Monte-Carlo de la probabilite pf . Soit f le quantile d’ordre α/2 de la loi

normale standard :f = Φ−1(α/2).

Soit l’intervalleIn = [pf −∆n, pf + ∆n] .

avec

∆n = f

√pf (1− pf )

n.

Alors In est un intervalle de confiance approche a 1− α pour la proportion pf , c’est a dire que

P (In 3 pf ) ≈ 1− α.

L’approximation vient du fait qu’on remplace la variance exacte pf (1 − pf )/n qui depend de la valeurinconnue pf par son estimation pf (1− pf )/n.

40

Page 41: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

4.4.2 Experience A

Exercice 23

On considere X une variable de loi log-normale de parametres µ = 2 et σ = 3. On se fixe le seuils = 104 et on souhaite estimer

pf = P (X > s).

1. Calculer la probabilite de depassement exacte pfExacte.

Indication : utiliser la fonction distfun logncdf, ainsi que l’option lowertail=%f (pour obtenirla queue haute de distribution P (X > s), et non pas la queue basse P (X < s)).

2. Generer un vecteur de Nsample=10000 realisations de la variable aleatoire X. Indication : utiliserdistfun lognrnd.

3. Calculer le nombre de realisations au dessus du seuil. Indication : utiliser la fonction find.

4. Calculer la proportion de realisations qui sont au dessus du seuil.

Note : l’utilisation de l’option lowertail est importante pour la precision du resultat :– lorsque la probabilite p est entre 0 et 0.5, on devrait utiliser la queue basse (c’est a dire l’optionlowertail=%t),

– lorsque la probabilite p est entre 0.5 et 1, alors q = 1− p est entre 0 et 0.5 et on devrait utiliser laqueue haute (c’est a dire lowertail=%f).

4.4.3 Sortie

Variable Log -normale

mu =2.000000

sigma :3.000000e+000

seuil :1.000000e+004

Pf (exact ):8.120665e-003

Nombre de simulations :100000

Nombre de depassements :819

Pf (estimation ):8.190000e-003

4.4.4 Squelette

mu=2;

sigma =3;

seuil =1.e4;

// Calcul exact

pfExacte=distfun_logncdf(TODO);

mprintf("Pf (exact):%e\n",pfExacte );

// Estimation Monte -Carlo

Nsample =100000;

X=distfun_lognrnd(TODO);

i=find(X>seuil);

nfail=size(i,"*");

mprintf("Nombre de depassements:%d\n",nfail );

pf=TODO;

mprintf("Pf (estimation ):%e\n",pf);

Solution de l’exercice 23

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation d’une probabilite de depassement

41

Page 42: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

// Experience A

// Probabilite de depassement d’un seuil

// d’une variable log -normale

mu=2;

sigma =3;

seuil =1.e4;

mprintf("Variable Log -normale\n");

mprintf("mu=%f\n",mu);

mprintf("sigma:%e\n",sigma);

mprintf("seuil:%e\n",seuil);

// Calcul exact

pfExacte=distfun_logncdf(seuil ,mu,sigma ,%f);

mprintf("Pf (exact):%e\n",pfExacte );

// Estimation Monte -Carlo

Nsample =100000;

mprintf("Nombre de simulations:%d\n",Nsample );

X=distfun_lognrnd(mu ,sigma ,Nsample ,1);

i=find(X>seuil);

nfail=size(i,"*");

mprintf("Nombre de depassements:%d\n",nfail );

pf=nfail/Nsample;

mprintf("Pf (estimation ):%e\n",pf);

4.4.5 Experience B

Exercice 24

Pour les memes donnees que l’experience A, on souhaite estimer un intervalle de confiance a 1−α =95% pour la probabilite pf .

1. Evaluer la probabilite α/2 et inverser la queue haute de la fonction de repartition de la loi normalestandard.

2. Estimer les bornes de l’intervalle de confiance.

Solution de l’exercice 24

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation d’une probabilite de depassement

// Experience B

// Calcul d’un intervalle de confiance ~A 1-alpha =95% pour Pf

// alpha =0.05

al =0.05;

q = al/2.;

f = distfun_norminv(q,0,1,%f);

low = pf - f * sqrt(pf*(1-pf)/ Nsample );

up = pf + f * sqrt(pf*(1-pf)/ Nsample );

mprintf("95%% Int. de Conf .:[%e ,%e]\n" , low ,up);

95% Int. de Conf .:[7.631396e -003 ,8.748604e-003]

4.5 Estimation d’un quantile

4.5.1 Rappel de cours

Soit X une variable aleatoire de densite de probabilite f et de fonction de repartition F .

42

Page 43: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Soit α ∈ [0, 1] une probabilite. Soit yα le quantile exact d’ordre α, defini par l’equation

yα = F−1(α).

Soit xi des realisations independantes de la variable X, pour i = 1, 2, ..., n. On suppose que lesrealisations sont triees par ordre croissant, i.e.

x1 < x2 < ... < xn.

Le quantile empirique d’ordre 1− α est

yα,n = xi,

ou i = dαne. Asymptotiquement, la distribution du quantile empirique yα,n est celle d’une loi normalede moyenne µ = yα et de variance

σ2 =α(1− α)

nf(yα)2.

4.5.2 Experience A

Exercice 25

On considere X une variable de loi log-normale de parametres µ = 2 et σ = 3. On se fixe le seuilα = 0.1 et on souhaite calculer x tel que

P (X < x) = α.

1. Calculer le quantile exact xExact. Indication : utiliser distfun logninv.

2. Generer un vecteur de Nsample=10000 realisations de la variable aleatoire X. Indication : utiliserdistfun lognrnd.

3. Trier les realisations par ordre croissant. Indication : utiliser gsort.

4. Calculer le rang, puis le quantile.

5. Comparer la valeur exacte et la valeur estimee.

4.5.3 Squelette

mu=2;

sigma =3;

al=0.1;

// Calcul exact

xExact=distfun_logninv(TODO);

mprintf("x (exact):%e\n",xExact );

// Estimation Monte -Carlo

Nsample =100000;

X=distfun_lognrnd(TODO);

X=gsort(X,"g","i");

i=floor(Nsample*al);

x=X(i);

mprintf("x (estimation ):%e\n",x);

4.5.4 Sortie

Variable Log -normale

mu =2.000000

sigma :3.000000e+000

alpha :1.000000e-001

x (exact ):1.580799e-001

Nombre de simulations :100000

x (estimation ):1.576264e-001

43

Page 44: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Solution de l’exercice 25

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation d’un quantile

// Experience A

// Calcul d’un quantile d’une variable log -normale

// quantile en queue basse de fonction de repartition.

// Une probabilite alpha est donnee , et

// on cherche x tel que P(X<x)=alpha.

mu=2;

sigma =3;

al=0.1;

mprintf("Variable Log -normale\n");

mprintf("mu=%f\n",mu);

mprintf("sigma:%e\n",sigma);

mprintf("alpha:%e\n",al);

// Calcul exact

xExact=distfun_logninv(al,mu,sigma );

mprintf("x (exact):%e\n",xExact );

// Estimation Monte -Carlo

Nsample =100000;

mprintf("Nombre de simulations:%d\n",Nsample );

X=distfun_lognrnd(mu ,sigma ,Nsample ,1);

X=gsort(X,"g","i");

i=floor(Nsample*al);

x=X(i);

mprintf("x (estimation ):%e\n",x);

4.5.5 Experience B

Exercice 26

On considere X une variable de loi log-normale de parametres µ = 2 et σ = 3. On se fixe le seuilα = 10−3 et on souhaite calculer x tel que

P (X > x) = α.

Notons que le quantile associe est different de celui calcule dans l’experience A precedente.

1. Calculer le quantile exact xExact. Indication : utiliser la fonction distfun logninv et l’optionlowertail=%f.

2. Generer un vecteur de Nsample=10000 realisations de la variable aleatoire X. Indication : utiliserdistfun lognrnd.

3. Trier les realisations par ordre decroissant. Indication : utiliser gsort.

4. Calculer le rang, puis le quantile.

5. Comparer la valeur exacte et la valeur estimee.

Solution de l’exercice 26

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

44

Page 45: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

// Estimation d’un quantile

// Experience B

// Estimation d’un quantile en queue haute.

// Une probabilite alpha est donnee , et

// on cherche x tel que P(X>x)=alpha.

//

mu=2;

sigma =3;

al=1.e-3;

mprintf("Variable Log -normale\n");

mprintf("mu=%f\n",mu);

mprintf("sigma:%e\n",sigma);

mprintf("alpha:%e\n",al);

// Calcul exact

xExact=distfun_logninv(al,mu,sigma ,%f);

mprintf("x (exact):%e\n",xExact );

// Estimation Monte -Carlo

Nsample =100000;

mprintf("Nombre de simulations:%d\n",Nsample );

X=distfun_lognrnd(mu ,sigma ,Nsample ,1);

X=gsort(X,"g","d");

i=floor(Nsample*al);

x=X(i);

mprintf("x (estimation ):%e\n",x);

Variable Log -normale

mu =2.000000

sigma :3.000000e+000

alpha :1.000000e-003

x (exact ):7.848768e+004

Nombre de simulations :100000

x (estimation ):7.972644e+004

5 Exercices Statistiques Optionnels

5.1 Estimation de la moyenne

5.1.1 Un peu de theorie

Exercice 27

1. Montrer l’equation 17.

2. Montrer l’equation 18.

Solution de l’exercice 27

1. Montrons l’egalite 17. On a

E(Xn) = E

(X1 +X2 + ...+Xn

n

)=

E (X1 +X2 + ...+Xn)

n

Or, pour toutes variables aleatoires X1, . . . , Xn, meme dependantes, on a

E (X1 +X2 + ...+Xn) = E(X1) + E(X2) + ...+ E(Xn).

45

Page 46: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Par consequent,

E(Xn) =E(X1) + E(X2) + ...+ E(Xn)

n

=nE(X)

n= E(X),

ce qui conclut la preuve.

2. Montrons l’egalite 18. On a

V (Xn) = V

(X1 +X2 + ...+Xn

n

)=

V (X1 +X2 + ...+Xn)

n2.

OrV (X1 +X2 + ...+Xn) = V (X1) + V (X2) + ...+ V (Xn),

puisque les variables X1, . . . , Xn sont independantes. Par consequent,

V (Xn) =V (X1) + V (X2) + ...+ V (Xn)

n2

=nV (X)

n2

=V (X)

n,

ce qui conclut la preuve.

5.1.2 Experience C (*)

Exercice 28

On considere X une variable de loi normale standard.

1. Repeter l’experience B.

2. Observer que l’adequation entre l’histogramme empirique des realisations de xn et la densite estvraie pour toute valeur de n : reproduire la figure 10.

3. Commenter le graphique.

Solution de l’exercice 28

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation de la moyenne

// Experience C

// Distribution de la moyenne empirique d’une variable normale.

mu=0;

sigma =1;

Nsample =1000;

x=linspace (-4,4,100);

h=scf();

//

k=0;

46

Page 47: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 10 – Histogramme empirique et distribution de la moyenne empirique de m realisations devariables standard normales.

47

Page 48: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 11 – Distribution de la moyenne empirique de m realisations de variables standard normales.

for n=[1,2,4,8]

k=k+1;

X = distfun_normrnd(mu ,sigma ,Nsample ,n);

Mn=mean(X,"c");

subplot (2,2,k);

histo(Mn ,[],%t)

y=distfun_normpdf(x,mu ,sigma/sqrt(n));

plot(x,y,"r-");

xtitle("n="+string(k),"M","Frequency");

legend (["Data","PDF"]);

end

//

h.children (1). data_bounds (: ,2)=[0;1.2];

h.children (2). data_bounds (: ,2)=[0;1.2];

h.children (3). data_bounds (: ,2)=[0;1.2];

h.children (4). data_bounds (: ,2)=[0;1.2];

La figure 10 montre que la variable aleatoire Mn suit une loi normale de moyenne E(X) et de varianceV (X)/n. C’est une consequence du fait que, si X1, X2, ..., Xn sont deux variables normales de parametresµi et σ2

i , pour i = 1, 2, ..., n alors X1 +X2 + ...+Xn suit une loi normale de parametres µ1 +µ2 + ...+µnet σ2

1 + σ22 + ... + σ2

n. Si les variables ont la meme esperance µ et variance σ, alors X1 + X2 + ... + Xn

suit une loi normale de parametres nµ et nσ2. En consequence, la variable (X1 +X2 + ...+Xn)/n suitune loi normale de parametres µ et σ2/n.

5.1.3 Experience D (*)

Exercice 29

On considere X une variable de loi normale standard.

1. Pour n=2, tracer la densite de probabilite de la moyenne empirique xn, c’est a dire, tracer la densitede probabilite d’une loi normale de moyenne 0 et de variance 1/2.

2. Ajouter, sur le meme graphique, la densite pour n=1,2,4,10 : reproduire la figure 11.

3. Voir que la densite se resserre autour de 0 : pourquoi ?

Solution de l’exercice 29

48

Page 49: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation de la moyenne

// Experience D

// Evolution de la PDF de la moyenne empirique

// de n variables normales standard.

//

mu=0;

sigma =1;

x=linspace (-4,4,100);

y1=distfun_normpdf(x,mu,sigma/sqrt (1));

y2=distfun_normpdf(x,mu,sigma/sqrt (2));

y4=distfun_normpdf(x,mu,sigma/sqrt (4));

y10=distfun_normpdf(x,mu ,sigma/sqrt (10));

scf();

plot(x,y1,"b-");

plot(x,y2,"r--");

plot(x,y4,"g:");

plot(x,y10 ,"k-.");

xtitle("Distribution of the sample mean","M","Density");

legend (["n=1","n=2","n=4","n=10"]);

La figure 11 montre la distribution de la moyenne empirique de m variables aleatoires normale stan-dard, pour differentes valeurs de m. On verifie que la variance de la variable aleatoire diminue lorsquem augment, de telle sorte que l’estimation est plus precise.

5.2 Estimation de la variance

5.2.1 Un peu de theorie

On considere les estimateurs biaise de la variance donne par l’equation 22 et l’estimateur non biaisedonne par l’equation 23, page 37.

Exercice 30

Supposons que X1, . . . , Xn sont des variables independantes et identiquement distribuees, de moyenneµ et de variance σ2.

1. Montrer que

S2n =

1

n

n∑i=1

X2i −X

2

n. (26)

2. Montrer l’equation 24, page 37.

3. Montrer l’equation 25.

Solution de l’exercice 30

1. On note Par definition de la variance empirique,

S2n =

1

n

n∑i=1

(X2i − 2XiXn +X

2

n)

=1

n

n∑i=1

X2i − 2Xn

1

n

n∑i=1

Xi +X2

n

=1

n

n∑i=1

X2i − 2XnXn +X

2

n,

49

Page 50: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

ce qui mene a l’equation 26.

2. L’esperance de S2n est donc :

E(S2n

)= E

(1

n

n∑i=1

X2i −X

2

n

)

=1

n

n∑i=1

E(X2i

)− E

(X

2

n

),

puisque l’esperance d’une somme est la somme des esperances. On sait que, pour toute variablealeatoire Y , on a

V (Y ) = E(Y 2)− E(Y )2,

ce qui impliqueE(Y 2) = V (Y ) + E(Y )2.

Par consequent,

E(X2i

)= V (Xi) + E(Xi)

2

= σ2 + µ2,

pour i = 1, . . . , n. De meme,

E(X

2

n

)= V (Xn) + E(Xn)2

=σ2

n+ µ2.

On utilise les deux egalites precedentes et on obtient,

E(S2n

)=

1

n

n∑i=1

(σ2 + µ2)−(σ2

n+ µ2

),

= σ2 + µ2 − σ2

n− µ2,

=n− 1

nσ2,

ce qui mene a l’equation 24.

3. On calcule maintenant l’esperance de la variance empirique corrigee. Par definition, on a

S?2n =n

n− 1

1

n

n∑i=1

(xi − xn)2

=n

n− 1S2n.

Par consequent,

E(S?2n)

=n

n− 1E(S2n

)=

n

n− 1

n− 1

nσ2,

= σ2,

ce qui mene a l’equation 25 et conclut la preuve.

50

Page 51: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 12 – Comparaison entre la variance empirique biaisee et la variance empirique non biaiseelorsque n, le nombre de realisations, augmente. La ligne noire represente la variance exacte de la variablealeatoire.

5.2.2 Experience C (*)

Exercice 31

On considere X une variable de loi exponentielle de moyenne µ = 1. Avec un echantillon donne, onsouhaite verifier que la difference entre la variance biaisee et la variance non biaisee se reduit lorsque naugmente.

L’objectif est de reproduire la figure 12.

1. Generer Nsample=10000 realisations de la variable aleatoire X.

2. Pour n=1,2,...,Nsample, calculer la variance empirique biaisee et non biaisee des realisations de1 a n.

3. Faire un graphique permettant de comparer les deux variances. Utiliser une echelle logarithmiquepour n. Calculer la variance exacte de la variable aleatoire, et la tracer sur le meme graphique.

Solution de l’exercice 31

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation de la variance

// Experience C

// Difference entre la variance biaisee et la

// variance non biaisee

mu=1;

Nsample =1000;

Sn=[];

Snb =[];

X=distfun_exprnd(mu ,Nsample ,1);

[M,V] = distfun_expstat(mu)

51

Page 52: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

for n=2: Nsample

Sn(n)= variance(X(1:n),"r"); // Non Biaisee

Snb(n)= variance(X(1:n),"r",%nan); // Biaisee

end

h=scf();

plot (1: Nsample ,Sn’,"r--");

plot (1: Nsample ,Snb ’,"b-");

plot([1, Nsample],[V,V],"k-");

h.children.log_flags="lnn";

xtitle("Difference V. biaisee - non -biaisee" ,..

"n","Variance empirique");

legend (["V. non biaisee","V. biaisee","Var(X)"],"in_upper_left");

On observe que la variance empirique biaisee est toujours inferieure a la variance empirique nonbiaisee. On observe que la variance biaisee sous-estime systematiquement la variance de l’echantillon,mais que la difference se reduit quand n augmente et que les deux estimations convergent vers la valeurexacte.

5.3 Estimation d’une probabilite de depassement

5.3.1 Experience C (*)

Exercice 32

On souhaite tester une technique de stabilisation de la variance fondee sur la transformation

g(p) = arcsin (√p)

Soit pf une estimation Monte-Carlo de la proportion pf . Considerons l’intervalle

In =[sin (an − δn)

2, sin (an + δn)

2],

avec

an = arcsin(√

pf

), (27)

δn =F−1(1− α/2)

2√n

, (28)

ou F est la fonction de repartition de la loi normale standard. Alors In est un intervalle de confianceasymptotique (i.e. quand n est grand) a 1− α pour la proportion pf , c’est a dire que :

P (I 3 pf ) ≈ 1− α.

1. Evaluer la probabilite α/2 et inverser la queue haute de la fonction de repartition de la loi normalestandard pour calculer f .

2. Estimer les bornes de l’intervalle de confiance.

3. Faire varier la probabilite de defaillance entre 10−3 et 10−2.

4. Comparer avec l’intervalle de confiance obtenu par le theoreme central (c’est a dire celui del’experience B).

5. Tracer les bornes de l’intervalle issu du theoreme centrale limite en bleu et les bornes de l’intervalleissu de Arcsin en rouge et reproduire la figure 13.

Solution de l’exercice 32

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

52

Page 53: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 13 – Estimation de l’intervalle de confiance pour une probabilite de depassement de seuil. Onconsidere une probabilite entre 10−3 et 10−2 pour n = 1000 realisations.

// Estimation d’une probabilite de depassement

// Experience C

// Comparaison entre Monte -Carlo simple et

// la transformation arcsin(sqrt(p))

Nsample =1000;

al =0.05;

q = al/2.;

f = distfun_norminv(q,0,1,%f);

n=20;

ptab =10.^ linspace(-3,-2,n);

ptab=ptab ’;

lowTCL =[];

upTCL =[];

lowAS =[];

upAS =[];

for i=1:n

p=ptab(i);

// Via le TCL

s=f*sqrt(p*(1-p)/ Nsample );

lowTCL(i)=max(0,p-s);

upTCL(i)=p+s;

// Via la transformation arcsin(p)

t=asin(sqrt(p));

s=f/(2* sqrt(Nsample ));

lowAS(i)=sin(max(0,t-s))^2;

upAS(i)=sin(t+s)^2;

end

scf();

plot(ptab ,lowTCL ,"b--");

plot(ptab ,lowAS ,"r-");

plot(ptab ,ptab ,"k-");

e=gce();

53

Page 54: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 14 – Distribution des probabilites de depassement empiriques du seuil s = 8, pour n = 200realisations d’une variable exponentielle de moyenne µ = 3, avec une experience repetee 500 fois.

e.children.thickness =2;

plot(ptab ,upTCL ,"b--");

plot(ptab ,upAS ,"r-");

xtitle("1000 realisations","p","Intervalle de confiance ~A 95%");

legend (["TCL","Arcsin","pn"],"in_upper_left");

5.3.2 Experience D (*)

Exercice 33

Le but de cette experience est de verifier la distribution de npf lorsqueX est une variable exponentiellede moyenne µ = 3. On considere le seuil s = 8 ainsi que n = 200 realisations. On repete cette experienceNrepeat=500 fois.

1. Calculer la probabilite de depassement exacte pfExacte du seuil s.

2. Generer une matrice avec n=200 lignes et Nrepeat=500 colonnes, contenant des realisations indepen-dantes de la variable X.

3. Calculer la matrice y, qui vaut zero si il n’y a pas de depassement et un sinon.

4. En deduire le vecteur b, de Nrepeat lignes, contenant le nombre de depassements pour chaqueexperience. Indication : utiliser la fonction sum.

5. En deduire le vecteur pf de Nrepeat lignes, contenant la proportion de depassement pour chaqueexperience.

6. Calculer la densite de probabilite de la loi binomiale de parametres pfExacte et n aux pointscorrespondants.

7. Tracer l’histogramme de la variable pf*n.

8. Ajouter sur le graphique la densite de la loi binomiale correspondante.

9. Ajouter sur le graphique la probabilite de depassement exacte pf .

A la fin de l’exercice, vous devriez pouvoir obtenir la figure 14.

54

Page 55: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Solution de l’exercice 33

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation d’une probabilite de depassement

// Experience D

// Distribution d’une probabilite de defaillance empirique

n=200;

Nrepeat =500;

mu=3;

seuil =8;

// Calcul exact

pfExacte=distfun_expcdf(seuil ,mu,%f);

mprintf("Pf (exact):%e\n",pfExacte );

// Estimation Monte -Carlo

X=distfun_exprnd(mu ,n,Nrepeat );

y=zeros(X);

y(X>seuil )=1;

b=sum(y,"r");

pf=b/n;

nbclasses=ceil(log2(Nrepeat )+1);

v=pfExacte *(1- pfExacte )*n;

sigma=sqrt(v);

x=linspace(n*pfExacte -3*sigma ,n*pfExacte +3*sigma ,100);

x=floor(x);

x=max(0,x);

x=unique(x);

y=distfun_binopdf(x,n,pfExacte );

ymax=max(y);

//

scf();

histo(pf*n,unique(pf*n),%t);

plot([ pfExacte*n,pfExacte*n],[0,ymax],"r-");

e=gce();

e.children.thickness =2;

plot(x,y,"b*-")

legend (["Donnees","Exact","Binomial"]);

strtitle=msprintf("%d realisations , %d repetitions",n,Nrepeat );

xtitle(strtitle ,"Pf*n","Frequence");

5.4 Intervalle de confiance de la moyenne d’une variable normale (theorie)

Exercice 34

Soit xi des realisations independantes de la variable aleatoire X, pour i = 1, 2, ..., n. Soit α ∈ [1/2, 1].Si X est une variable normale de moyenne µ et de variance σ2, alors l’intervalle donne par l’equation

19, page 33, est un intervalle de confiance a 1− α pour la moyenne. Demontrer l’equation 20, page 33.

Solution de l’exercice 34

On sait que la moyenne empirique Xn suit une loi normale, dont l’esperance et la variance sont

E(Xn) = µ, V (Xn) = σ2/n.

Par consequent, la variableXn − µσ/√n

55

Page 56: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

suit une loi normale standard. Soit z1−α/2 le quantile de la loi normale standard d’ordre 1 − α/2. Parconsequent,

P

(−z1−α/2 <

Xn − µσ/√n

< z1−α/2

)= 1− α,

ce qui implique :

P

(µ− z1−α/2

σ√n< Xn < µ+ z1−α/2

σ√n

)= 1− α.

L’inegalite

Xn < µ+ z1−α/2σ√n

est equivalente a

Xn − z1−α/2σ√n< µ.

De meme, l’inegalite

µ− z1−α/2σ√n< Xn

est equivalente a

µ < Xn + z1−α/2σ√n.

Par consequent,

P

(Xn − z1−α/2

σ√n< µ < Xn + z1−α/2

σ√n

)= 1− α,

ce qui conclut la preuve.

5.5 Distribution de la moyenne d’une variable normale (*)

5.5.1 Experience A (variance connue)

Exercice 35

Soit X une variable aleatoire de loi normale de parametres µ et σ. Soit xi des realisations independan-tes de la variable X, pour i = 1, 2, ..., n. Soit In l’intervalle

In = [xn − δn, xn + δn], δn = z1−α/2σ√n,

ou z1−α/2 est le quantile d’ordre 1−α/2 de la loi normale standard. Alors In est un intervalle de confianced’ordre 1− α pour l’esperance :

P (In 3 E(X)) = 1− α.

On souhaite verifier cette propriete pour une variable normale de moyenne µ = 2 et σ = 3.

1. Generer Nsample=1000 realisations de la variable X.

2. Calculer la moyenne empirique.

3. Calculer le quantile d’ordre 1− α/2 de la loi normale standard.

4. Estimer les bornes de l’intervalle de confiance.

Solution de l’exercice 35

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Intervalle de confiance de la moyenne d’une variable normale

// Experience A (variance connue)

56

Page 57: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

mu=2;

sigma =3;

mprintf("Variable normale , mu=%f , sigma=%f\n" ,..

mu ,sigma);

Nsample =10000;

level =0.05; // 1 -0.95

mprintf("Number of samples:%d , level=%f" ,..

Nsample ,level);

X=distfun_normrnd(mu ,sigma ,Nsample ,1);

Mn=mean(X);

al=level /2;

z=distfun_norminv(al ,0,1,%f);

delta=z*sigma/sqrt(Nsample );

low=Mn -delta;

up=Mn+delta;

mprintf("Moyenne empirique: %f\n",Mn)

mprintf("Int. Conf .:[%f ,%f]\n",low ,up)

5.5.2 Sortie

Variable normale , mu=2.000000 , sigma =3.000000

Number of samples :10000 , level =0.050000

Moyenne empirique: 2.018341

Int. Conf .:[1.959542 ,2.077140]

5.5.3 Experience B (variance inconnue)

Exercice 36

Soit X une variable aleatoire de loi normale de parametres µ et de variance inconnue. Consideronsl’intervalle

In = [xn − δn, xn + δn], δn = t1−α/2,n−1Sn√n− 1

,

ou t1−α/2,n−1 est le quantile d’ordre 1 − α/2 de la loi de Student a n − 1 degres de liberte et Sn estl’ecart-type empirique (biaise). Alors In est un intervalle de confiance d’ordre 1 − α pour l’esperanceE(X).

1. Pour le meme echantillon que celui calcule dans l’experience A, calculer la variance empirique(biaisee).

2. Calculer le quantile d’ordre 1− α/2 de la loi de Student a n− 1 degres de liberte.

3. Estimer les bornes de l’intervalle de confiance.

4. Comparer avec l’intervalle calcule dans l’experience A.

Solution de l’exercice 36

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Intervalle de confiance de la moyenne d’une variable normale

// Experience B (variance inconnue)

Sn=variance(X,"r" ,1);

z=distfun_tinv(al ,Nsample -1,%f);

delta=z*sqrt(Sn/(Nsample -1));

low=Mn -delta;

up=Mn+delta;

mprintf("Int. Conf .:[%f ,%f]\n",low ,up)

57

Page 58: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 15 – Estimation de la moyenne empirique. Distribution de la variable Q = (nS2n)/σ2 lorsque X

suit une loi normale, dans le cas n = 5. Comparaison avec la loi du chi-deux a n− 1 degres de liberte.

5.5.4 Sortie

Int. Conf .:[1.959713 ,2.076968]

5.5.5 Experience C

Exercice 37

On considere X une variable de loi normale de parametres µ et σ. On souhaite verifier que la variable

Q =nS2

n

σ2

suit une loi du chi-deux de parametre n− 1. Cette loi est notee χ2n−1.

1. Generer une matrice de Nsample=10000 par n=5 realisations de la variable aleatoire X.

2. Calculer Nsample=10000 realisations de la variance empirique biaisee.

3. En deduire Nsample=10000 realisations de la variable Q.

4. Tracer un histogramme avec 50 classes dans l’intervalle [0, 10] de la variable aleatoire Q.

5. Calculer la densite de la loi du chi-deux a n − 1 = 4 degres de liberte, dans l’intervalle [0, 10].Indication : utiliser la fonction distfun chi2pdf.

6. Reproduire la figure 15.

Solution de l’exercice 37

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Intervalle de confiance de la moyenne d’une variable normale

// Experience C

// Distribution de Q=n*S/sigma ^2

// quand X est normal

mu=0;

sigma =1;

n=5;

58

Page 59: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 16 – Estimation de la moyenne empirique. Distribution de la variable T = (xn−µ)/√S2n/(n− 1)

lorsque X suit une loi normale, dans le cas n = 5. Comparaison avec la loi du T de Student a n − 1degres de liberte.

Nsample =10000;

X=distfun_normrnd(mu ,sigma ,Nsample ,n);

S=variance(X,"c",%nan);

Q=n*S/sigma ^2;

//

scf();

histo(Q,[],%t);

x=linspace (0 ,20 ,100);

y = distfun_chi2pdf(x,n-1);

plot(x,y);

xtitle("Distribution de Q","Q","Frequence");

legend (["Data","$\chi^2_{4}$"]);

5.5.6 Experience D

Exercice 38

On considere X une variable de loi normale de parametres µ et σ. On souhaite verifier que la variable

T =xn − µ√S2n/(n− 1)

suit une loi de Student de parametre n− 1. Cette loi est notee Tn−1.

1. Generer une matrice de Nsample=10000 par n=5 realisations de la variable aleatoire X.

2. Calculer Nsample=10000 realisations de T .

3. Tracer un histogramme avec 50 classes dans l’intervalle [−5, 5] de la variable aleatoire T .

4. Calculer la densite de la loi du T de Student a n− 1 = 4 degres de liberte, dans l’intervalle [−5, 5].Indication : utiliser la fonction distfun tpdf.

5. Reproduire la figure 16.

Solution de l’exercice 38

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

59

Page 60: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

// http :// www.gnu.org/copyleft/lesser.html

// Intervalle de confiance de la moyenne d’une variable normale

// Experience D

// Distribution de T=(M-mu)/sqrt(S/(n-1))

// quand X est normal

mu=0;

sigma =1;

n=5;

Nsample =10000;

X=distfun_normrnd(mu ,sigma ,Nsample ,n);

M=mean(X,"c");

S=variance(X,"c",%nan);

T=(M-mu)./( sqrt(S/(n -1)));

//

scf();

x=linspace (-5,5,50);

histo(T,x,%t);

x=linspace (-5,5,100);

y=distfun_tpdf(x,n-1);

plot(x,y,"r-");

xtitle("Distribution de T","T","Frequence");

legend (["Data","Densite de T4"]);

5.6 Estimation d’un quantile

5.6.1 Experience C (*)

Exercice 39

On considere X une variable de loi log-normale de parametres µ = 2 et σ = 3. On se fixe un seuilα = 10−3 et on souhaite calculer x tel que

P (X > x) = α.

1. Calculer le quantile exact, par inversion de la fonction de repartition.

2. Pour Nsample=210, 211, ..., 220 , estimer le quantile correspondant par Monte-Carlo.

3. Tracer un graphique qui montre la convergence de l’estimateur Monte-Carlo vers la valeur exacte :reproduire la figure 17.

Constater qu’il faut un grand nombre de simulations pour que l’estimateur converge, lorsque α estsoit petit, en tete ou en queue de distribution.

Solution de l’exercice 39

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation d’un quantile

// Experience C

// Estimation d’un quantile en queue haute.

// Une probabilite alpha est donnee , et

// on cherche x tel que P(X>x)=alpha.

//

mu=2;

sigma =3;

al=1.e-3;

60

Page 61: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 17 – Convergence du quantile empirique a 10−3 lorsque le nombre de simulations n augmente.

mprintf("Variable Log -normale\n");

mprintf("mu=%f\n",mu);

mprintf("sigma:%e\n",sigma);

// Calcul exact

xExact=distfun_logninv(al,mu,sigma ,%f);

mprintf("x (exact):%e\n",xExact );

x=[];

// Estimation Monte -Carlo

Ntab=2 .^(10:20);

for Nsample=Ntab

X=distfun_lognrnd(mu ,sigma ,Nsample ,1);

X=gsort(X,"g","d");

i=floor(Nsample*al);

if (i>0) then

x($+1)=X(i);

else

x($+1)=0;

end

end

h=scf();

plot(Ntab ,x,"rx");

h.children.log_flags="lnn";

plot ([2^10 ,2^20] ,[ xExact ,xExact],"b-");

xtitle("Convergence d’’un quantile alpha =1.e-3","n","x");

legend (["Empirique","Exact"]);

5.6.2 Experience D (*)

Exercice 40

On considere X une variable uniforme dans [0, 1] et on estime son quantile a 95%. Le quantile exactest x = 0.95. On utilise une simulation de Monte-Carlo comportant Nsample=200 realisations. On repetel’experience nRepeat=10000 fois. On souhaite voir la distribution des quantiles a 95%.

1. Generer une matrice de nombres aleatoires uniformes dans [0, 1] avec nRepeat=10000 lignes etNsample=200 colonnes.

61

Page 62: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 18 – Distribution du quantile empirique a 95% d’une variable uniforme, par une methode deMonte-Carlo simple sur 200 realisations, repetee 10000 fois.

2. Calculer l’indice correspondant au quantile a 95%.

3. Trier la matrice X par colonnes croissantes.

4. Extraire la colonne correspondant au quantile empirique.

5. Tracer son histogramme et superposer le quantile exact : reproduire la figure 18.

Solution de l’exercice 40

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation d’un quantile

// Experience D

// Estimation d’un quantile en queue haute.

// X est uniforme dans [0 ,1].

//

al =0.05; // 1-0.95

mprintf("Variable Uniforme [0,1]\n");

mprintf("Quantile a 1-%f\n",al);

// Calcul exact

xExact=distfun_unifinv(al ,0,1,%f);

mprintf("x (exact):%e\n",xExact );

// Estimation Monte -Carlo

Nsample =200;

nRepeat =10000;

X=distfun_unifrnd (0,1,nRepeat ,Nsample );

X=gsort(X,"c","d");

i=floor(Nsample*al);

x=X(:,i);

//

h=scf();

histo(x,[],%t);

plot([xExact ,xExact ],[0,30],"r-");

xtitle("10000 quantiles a 95% sur 200 realisations" ,..

62

Page 63: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 19 – Distribution du quantile empirique a 95% d’une variable normale, par une methode deMonte-Carlo simple sur 200 realisations, repetee 10000 fois. On compare avec la distribution asympto-tique.

"Quantile","Frequence");

legend (["Data","Exact"]);

5.6.3 Experience E

Exercice 41

On cherche a voir la distribution du quantile empirique yα,n lorsque X est une variable normale demoyenne 4 et d’ecart-type 7. Pour cela on considere le quantile empirique associe a un echantillon detaille Nsample. On repete le calcul nRepeat fois, et on observe la distribution du quantile empirique.

1. Generer une matrice X de nombres aleatoires normales de moyenne 4 et d’ecart-type 7 avecnRepeat=10000 lignes et Nsample=200 colonnes.

2. Trier la matrice X par colonnes croissantes.

3. Calculer l’indice i correspondant au quantile a 95% et extraire la colonne d’indice i correspondantau quantile empirique.

4. Tracer l’histogramme du quantile empirique et dessiner le quantile exact.

5. Calculer la variance de la distribution asymptotique du quantile.

6. Tracer la densite de probabilite de la distribution asymptotique du quantile empirique : reproduirela figure 19.

Solution de l’exercice 41

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Estimation d’un quantile

// Experience E

// Estimation d’un quantile en queue haute.

// X est normale (4,7)

//

al =0.05; // 1-0.95

63

Page 64: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

mprintf("Quantile a 1-%f\n",al);

mu=4;

sigma =7;

// Calcul exact

xExact=distfun_norminv(al,mu,sigma ,%f);

mprintf("x (exact):%e\n",xExact );

// Estimation Monte -Carlo

Nsample =200;

nRepeat =10000;

X=distfun_normrnd(mu ,sigma ,nRepeat ,Nsample );

X=gsort(X,"c","d");

i=floor(Nsample*al);

x=X(:,i);

//

// Distribution of the sample quantile

mprintf("Moyenne Empirique(X)=%f\n",mean(x))

mprintf("E(X)=%f\n",xExact)

mprintf("Variance Empirique(X)=%f\n",variance(x))

y=distfun_normpdf(xExact ,mu ,sigma);

V=al*(1-al)/(y^2)/ Nsample;

mprintf("V(X)=%f\n",V)

//

t=linspace (12 ,19 ,20);

h=scf();

histo(x,[],%t);

plot([xExact ,xExact ] ,[0 ,0.4]);

s=linspace(xExact -3* sqrt(V),xExact +3* sqrt(V) ,100);

y=distfun_normpdf(s,xExact ,sqrt(V));

plot(s,y,"r--")

xtitle("10000 quantiles a 95% sur 200 realisations" ,..

"Quantile","Frequence");

legend (["Data","Exact","Asymp. Normal"]);

Moyenne Empirique(X)=15.651964

E(X)=15.513975

Variance Empirique(X)=1.112914

V(X)=1.094063

5.7 Quantile de Wilks (*)

5.7.1 Experience A

Exercice 42

Calculer les rangs des quantiles de Wilks associes a n = 100 et α = 0.5 (mediane) pour :

1. β = 0.5

2. β = 0.95

Calculer les rangs des quantiles de Wilks associes a α = 0.95 et β = 0.95 pour :

1. n = 53

2. n = 59

3. n = 124

4. n = 153

Solution de l’exercice 42

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

64

Page 65: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Quantile de Wilks

// Experience A

function r = wilks(alpha ,bet ,n)

// Calcule le rang r, tel que :

// P(Y(r)>y(alpha))>bet

// avec y(alpha) le quantile de probabilite alpha , i.e.

// P(Y<y(alpha ))= alpha.

// Si il n’y a pas assez de donnees , renvoit r=0.

// Require: specfun , distfun

if (n < specfun_log1p(-bet)/log(alpha )) then

r=0;

else

r = distfun_binoinv(bet ,n,alpha)

r = r + 1

end

endfunction

// mediane (alpha =0.5)

wilks (0.5 ,0.5 ,100) // => 51 // confiance 0.5

wilks (0.5 ,0.95 ,100) // => 59 // confiance 0.95

// quantile 0.95, confiance 0.95

wilks (0.95 ,0.95 ,53) // => 0 // pas assez de donnees

wilks (0.95 ,0.95 ,59) // => 59 // la valeur extreme

wilks (0.95 ,0.95 ,124) // => 122 // l’avant derniere valeur

wilks (0.95 ,0.95 ,153) // => 150 ...

-->wilks (0.5 ,0.5 ,100)

ans =

51.

-->wilks (0.5 ,0.95 ,100)

ans =

59.

-->wilks (0.95 ,0.95 ,53)

ans =

0.

-->wilks (0.95 ,0.95 ,59)

ans =

59.

-->wilks (0.95 ,0.95 ,124)

ans =

122.

-->wilks (0.95 ,0.95 ,153)

ans =

150.

5.7.2 Experience B

Exercice 43

On considere une variable X uniforme dans [0, 1]. On calcule le quantile empirique sur 200 realisationsindependantes de la variable X.

1. Generer 10000 realisations du quantile empirique et tracer son histogramme.

2. Generer 10000 realisations du quantile de Wilks a 95% de confiance et tracer son histogramme.

3. Reproduire la figure 20.

Solution de l’exercice 43

65

Page 66: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 20 – Distribution du quantile a 95% d’une variable uniforme, par une methode de Monte-Carlosimple sur 200 realisations, repetee 10000 fois. Comparaison avec le quantile de Wilks.

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Quantile de Wilks

// Experience B

// Estimation d’un quantile en queue haute.

// X est uniforme dans [0 ,1].

//

stacksize("max");

al =0.05; // 1-0.95

mprintf("Variable Uniforme [0,1]\n");

mprintf("Quantile a 1-%f\n",al);

// Calcul exact

xExact=distfun_unifinv(al ,0,1,%f);

mprintf("x (exact):%e\n",xExact );

// Estimation Monte -Carlo

Nsample =200;

nRepeat =10000;

X=distfun_unifrnd (0,1,nRepeat ,Nsample );

X=gsort(X,"c","d");

i=floor(Nsample*al);

x=X(:,i);

j=200- wilks(1-al ,0.95 , Nsample );

y=X(:,j);

//

s=linspace (0.9 ,1. ,20);

h=scf();

histplot(s,x,style =1);

histplot(s,y,style =2);

plot([xExact ,xExact ],[0,30],"r-");

xtitle("10000 quantiles a 95% sur 200 realisations" ,..

"Quantile","Frequence");

legend (["Monte -Carlo","Wilks","Exact"],"in_upper_left");

66

Page 67: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 21 – Fonction de repartition de la loi normale standard et fonction de repartition empirique avec100 realisations independantes.

5.8 Fonction de repartition empirique

5.8.1 Experience A

Exercice 44

On considere une variable X de loi normale standard. On souhaite comparer la fonction de repartitionempirique avec n=100 realisations independantes et la fonction de repartition.

1. Generer n=100 realisations de la variable X.

2. Ordonner les realisations par ordre croissant.

3. Evaluer la fonction de repartition pour les realisations.

4. Creer un graphique presentant la fonction de repartition empirique et la fonction de repartition.

5. Reproduire la figure 21.

Solution de l’exercice 44

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Fonction de repartition empirique

// Experience A (loi normale)

n = 100; // taille de l’echantillon

X = distfun_normrnd (0,1,n,1); // echantillon X ~ N(0,1)

X = gsort(X,"g","i"); // on reordonne par valeurs croissantes

// Fonction de repartition aux points echantillon

p = distfun_normcdf(X,0,1);

scf();

plot(X,(1:n)/n,"b-"); // Fonction de repartition empirique

plot(X,p,"r-"); // Fonction de repartition

xtitle("Normale (0,1) - 100 realisations","x","P(X<x)");

legend (["CDF Empirique","CDF"],"in_upper_left");

67

Page 68: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 22 – Fonction de repartition de la loi exponentielle de parametre µ = 5 et fonction de repartitionempirique avec 100 realisations independantes.

5.8.2 Experience B

Exercice 45

1. Repeter l’experience A, avec X une variable exponentielle de moyenne µ = 5.

2. Reproduire la figure 22.

Solution de l’exercice 45

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Fonction de repartition empirique

// Experience B (loi exponentielle)

n = 100; // taille de l’echantillon

mu=5;

X = distfun_exprnd(mu ,n,1); // echantillon X ~ Exp(mu)

X = gsort(X,"g","i");

p = distfun_expcdf(X,mu);

scf();

plot(X,(1:n)/n,"b-");

plot(X,p,"r-");

stitle=msprintf("Exp(%f) - %d realisations",mu,n);

xtitle(stitle ,"x","P(X<x)");

legend (["CDF Empirique","CDF"],"in_lower_right");

5.8.3 Experience C (*)

Exercice 46

On souhaite evaluer la convergence de la fonction de repartition empirique sur n realisations, lorsquen augmente.

1. Repeter l’experience B, avec n=100,200,500,1000.

2. Voir la figure 23.

68

Page 69: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 23 – Convergence de la fonction de repartition empirique de la loi exponentielle de parametreµ = 5 vers la fonction de repartition.

69

Page 70: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Solution de l’exercice 46

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// Fonction de repartition empirique

// Experience C (convergence quand n augmente)

function plotExpEcdf(n,mu)

X = distfun_exprnd(mu ,n,1);

X = gsort(X,"g","i");

p = distfun_expcdf(X,mu);

plot(X,(1:n)/n,"b-");

plot(X,p,"r-");

stitle=msprintf("Exp(%.2f) - %d realisations",mu,n);

xtitle(stitle ,"x","P(X<x)");

legend (["CDF Empirique","CDF"],"in_lower_right");

endfunction

mu=5;

h=scf();

subplot (2,2,1);

plotExpEcdf (100,mu);

subplot (2,2,2);

plotExpEcdf (200,mu);

subplot (2,2,3);

plotExpEcdf (500,mu);

subplot (2,2,4);

plotExpEcdf (1000 ,mu);

h.children (1). data_bounds (2 ,1)=30;

h.children (2). data_bounds (2 ,1)=30;

h.children (3). data_bounds (2 ,1)=30;

h.children (4). data_bounds (2 ,1)=30;

5.9 QQ-Plot

5.9.1 Rappel de cours

Soit X et Y deux variables aleatoires, de fonctions de repartion FX et FY . Soit xi et yi des realisationsindependantes de X et Y , pour i = 1, 2, ..., n. Le QQ-plot (quantile empirique,quantile empirique) per-met de voir si la distribution FX est proche de FY , en calculant les distributions empiriques des deuxechantillons. On ordonne les realisations par ordre croissant, de telle sorte que

x1 < x2 < ... < xn

ety1 < y2 < ... < yn.

Alors x1 est le quantile empirique associe a la probabilite p1 = 0, puisqu’il n’y a pas de realisationstrictement inferieure a x1. De meme, x2 est le quantile empirique associe a la probabilite p2 = 1/n,puisqu’il y a une seule realisation strictement inferieure a x2 (c’est x1).

De maniere generale, xi est le quantile empirique associe a la probabilite pi = (i − 1)/n, pouri = 1, 2, ..., n. En effet, il y a i−1 realisations strictement inferieures a xi, puisqu’il s’agit des realisationsx1, x2, ..., xi−1.

Le QQ-plot est le graphique presentant les couples (xi, yi), pour i = 1, 2, ..., n. Si les distributions deX et Y sont les memes, alors les couples devraient etre places dans le voisinage d’une droite. Pour leverifier, on peut tracer une droite qui relie les premiers et troisiemes quartiles.

70

Page 71: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 24 – QQ-plot pour 50 realisations d’une variable normale de moyenne µ = 1 et d’ecart-typeσ = 3.

Le QQ-plot (quantile empirique,quantile theorique) permet de comparer la distribution empiriqued’un echantillon avec une distribution de test FY . En effet, si on ne dispose que d’un echantillon

x1, . . . , xn,

alors on peut calculer les quantiles theoriques

yi = F−1Y (pi),

ou F−1Y est la fonction de repartition inverse (quantile) que l’on souhaite tester. Si les points (xi, yi) sontproches de la diagonale, alors la distribution de X est proche de FY .

5.9.2 Experience A1

Exercice 47

On souhaite tracer le QQ-plot d’un echantillon de 50 realisations d’une variable normale de moyenneµ = 1 et d’ecart-type σ = 3. L’objectif est de reproduire la figure 24.

1. Generer les realisations x.

2. Ordonner les realisations par ordre croissant.

3. Calculer les probabilites p associees a chaque realisation.

4. Calculer les quantiles de la loi normale de moyenne µ = 1 et d’ecart-type σ = 3, en inversant lafonction de repartition pour les probabilites p.

5. Tracer le QQ-plot des realisations, ainsi que la diagonale.

5.9.3 Squelette

function [y,p] = quantileEmpirique(x)

n = length(x);

y = gsort(x,"g","i");

p = [1:n] / (n+1);

71

Page 72: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

endfunction

n=50; // taille de l’echantillon

mu=1;

sigma= 3;

x=distfun_normrnd(TODO);

[x,p]= quantileEmpirique(x);

y=distfun_norminv(TODO);

scf();

plot(x,y,"bo");

plot([x(n/4),x(3*n/4)],[y(n/4),y(3*n/4)],"r-");

xtitle("QQ Plot","Data Quantile","Normal Quantile");

Solution de l’exercice 47

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// QQ-Plot

// Experience A1

function [y,p] = quantileEmpirique(x)

n = length(x);

y = gsort(x,"g","i");

p = [1:n] / (n+1);

endfunction

n=50; // taille de l’echantillon

mu=1;

sigma= 3;

x=distfun_normrnd(mu ,sigma ,1,n); // echantillon de la loi normale

[x,p]= quantileEmpirique(x); // quantiles et probabilite associes

y=distfun_norminv(p,mu ,sigma); // quantiles de la loi normale

scf();

plot(x,y,"bo");

plot([x(n/4),x(3*n/4)],[y(n/4),y(3*n/4)],"r-");

xtitle("QQ Plot","Data Quantile","Normal Quantile");

On observe que l’adequation est proche au centre du domaine. L’adequation est un peu moins bonnepour les quantiles extremes, mais remarquablement acceptable pour des evenements aussi rares.5.9.4 Experience A2

Exercice 48

On souhaite observer le QQ-plot d’une variable normale standard, lorsqu’on considere des probabilitesp regulierement espacees. L’objectif est de reproduire la figure 25.

1. Calculer les quantiles q d’une variable normale standard, pour 20 valeurs de probabilite p uni-formement reparties entre 0.01 et 0.99.

2. Dessiner ces quantiles sur un QQ-plot, en tracant les couples de points (qi, qi).

3. Tracer les verticales et les horizontales correspondantes.

Solution de l’exercice 48

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

72

Page 73: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 25 – QQ-plot pour 20 quantiles d’une variable normale de moyenne µ = 0 et d’ecart-type σ = 1.

// QQ-Plot

// Experience A2

n=20;

mu=0;

sigma= 1;

p=linspace (0.01 ,0.99 ,n);

y=distfun_norminv(p,mu ,sigma);

scf();

plot(y,y,"bo");

plot(y,y,"r-");

xtitle("QQ Plot","Normal Quantiles","Normal Quantiles");

ymax=max(y);

for i=1:n

plot([y(i),y(i)],[-ymax ,ymax])

plot([-ymax ,ymax],[y(i),y(i)])

end

On observe qu’il y a plus de points lorsque q = 0, ce qui est attendu pour une variable normalestandard. Les points sont plus espaces au fur et a mesure qu’on s’eloigne du centre.

5.9.5 Experience B (*)

Exercice 49

Repeter l’experience A, avec la fonction qqplot du module Stixbox.Reproduire la figure 26.

Solution de l’exercice 49

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// QQ-Plot

73

Page 74: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 26 – QQ-plot pour 10, 50, 100 et 1000 realisations d’une variable normale de moyenne µ = 1 etd’ecart-type σ = 3.

74

Page 75: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

// Experience B (stixbox)

mu=1;

sigma= 3;

//

scf();

k=0;

for n=[10 50 100 1000]

k=k+1;

subplot (2,2,k)

x=distfun_normrnd(mu ,sigma ,1,n);

x=gsort(x,"g","i");

p=(1:n)/(n+1);

y=distfun_norminv(p,mu ,sigma);

qqplot(y,x,"bo");

i1=ceil (0.25*n);

i3=ceil (0.75*n);

plot([y(i1),y(i3)],[x(i1),x(i3)],"r-")

strtitle=msprintf("n=%d",n);

xtitle(strtitle ,"Normal Quantile","Data Quantile");

end

5.9.6 Experience C (*)

Exercice 50

On souhaite observer un QQ-plot sur des donnees reelles, et non des donnees simulees comme dans lesexperiences precedentes. On s’interesse aux donnees de temperature corporelle et de pulsations cardiaquesissues des articles suivants :

1. Mackowiak, P. A., Wasserman, S. S., and Levine, M. M. (1992), ”A Critical Appraisal of 98.6Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl ReinholdAugust Wunderlich”, Journal of the American Medical Association, 268, 1578-1580.

2. ”Datasets and Stories”, ”What’s Normal ? – Temperature, Gender, and Heart Rate” in the Journalof Statistics Education (Shoemaker 1996).

Les donnees sont fournies dans le fichier "normtemp.dat.txt". Il y a trois colonnes :

1. Body temperature (degrees Fahrenheit),

2. Gender (1 = male, 2 = female),

3. Heart rate (beats per minute).

1. Lire les donnees dans la matrice x. Indication : utiliser fscanfMat.

2. Retirer la seconde colonne de la matrice x (c’est le sexe des participants, qui ne nous interesse pasici).

3. Faire l’hypothese que les deux variables (temperature et pulsations) suivent une loi normale, etestimer la moyenne et la variance de chaque variable.

4. Tracer le qq-plot de la temperature et des pulsations, en faisant l’hypothese de normalite.

5. Tracer l’histogramme empirique pour chaque variable.

6. Reproduire la figure 27.

7. Identifier les zones ou l’hypothese de normalite est discutable.

Solution de l’exercice 50

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

75

Page 76: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 27 – Temperature du corps et pulsations cardiaques de 130 individus.

76

Page 77: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

// QQ-Plot

// Experience C (Temperature du corps)

x=fscanfMat("normtemp.dat.txt");

// Retire la seconde colonne (le sexe)

x(: ,2)=[];

n=size(x,"r");

m=size(x,"c");

mu=mean(x,"r");

sigma= sqrt(variance(x,"r"));

p=(1:n)’/(n+1);

strleg =["Temp. Corps (F)","Pulsations Cardiaques (batt/min)"];

nbclasses=ceil(log2(n)+1);

scf();

k=0;

for i=1:m

y=distfun_norminv(p,mu(i),sigma(i));

//

k=k+1;

subplot(m,2,k)

qqplot(y,x(:,i),"b*-");

plot(x(:,i),x(:,i),"r-")

strtitle=msprintf("%s",strleg(i));

xtitle(strtitle ,"Normal Quantile","Data Quantile");

//

k=k+1;

subplot(m,2,k)

histo(x(:,i),[],%t);

xtitle(strtitle ,"X","Frequency");

end

//

// Remarque

// Run Sequence Plot.

// Sur la temperature du corps , les donnees

// sont triees: les hommes , puis les femmes ,

// par ordre croissant.

// D’ou la forme en deux "S".

// La moyenne et la variance des pulsations semblent

// constantes.

scf();

subplot (1,2,1);

plot (1:n,x(:,1)’,"ro-");

xtitle("","Indice","Temp. Corps (F)")

subplot (1,2,2);

plot (1:n,x(:,2)’,"ro-");

xtitle("","Indice","Pulsations Cardiaques (batt/min)")

//

// Lag Plot

// Les temperatures sont triees.

// Les pulsations semblent aleatoires.

scf();

subplot (1,2,1);

plot(x(1:$-1,1),x(2:$,1),"ro");

xtitle("Temp. Corps (F)","X(i-1)","X(i)")

subplot (1,2,2);

plot(x(1:$-1,2),x(2:$,2),"ro");

xtitle("Pulsations Cardiaques (batt/min)","X(i-1)","X(i)")

On constate que l’adequation a la loi normale est assez satisfaisante, sauf, peut-etre, pour destemperatures corporelles elevees. On constate que les temperatures superieures a 99.5 (F) ou inferieures a97 (F) semblent moins correspondre a la loi normale. Cela se voit sur l’histogramme, qui est asymetrique,

77

Page 78: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

avec davantage de realisations inferieures a la moyenne.

5.9.7 Experience D (*)

Exercice 51

On s’interesse aux donnees extraites de ”Les 500 premiers groupes francais et europeens”, Enjeux-LesEchos, hors-serie, novembre 1998 issues de ”La France en faits et chiffres” (2000), INSEE.

On dispose de 45 groupes francais de l’industrie et des services pour l’annee 1997 :

1. chiffre d’affaire en milliards de francs (1ere colonne),

2. nombre de salaries en milliers (2eme colonne),

3. revenu net en milliards de francs (3eme colonne).

Les donnees sont fournies par le 23ieme dataset de la fonction getdata du module Stixbox. On cherchea voir si le nombre de salaries et le revenu net suivent une loi normale.

1. Lire les donnees. Indication : utiliser la fonction getdata.

2. Retirer la colonne numero (Chiffre d’Affaire), qui ne nous interesse pas dans cette etude.

3. Estimer la moyenne empirique et la variance empirique des deux variables.

4. Tracer le qq-plot et l’histogramme pour chacune des deux variables.

5. Reproduire la figure 28.

6. Identifier les zones des donnees ou l’hypothese de normalite est discutable.

Solution de l’exercice 51

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// QQ-Plot

// Experience D (Groupes francais et europeens)

idataset =23;

[x,txt]= getdata(idataset );

// Retire la colonne #1 (CA)

x(: ,1)=[];

n=size(x,"r");

m=size(x,"c");

mu=mean(x,"r");

sigma= sqrt(variance(x,"r"));

p=(1:n)’/(n+1);

nbclasses=ceil(log2(n)+1);

strleg =["Nb. Salaries (*1000)","Revenu Net (MF)"];

scf();

k=0;

for i=1:m

y=distfun_norminv(p,mu(i),sigma(i));

//

k=k+1;

subplot(m,2,k)

qqplot(y,x(:,i),"b*-");

plot(x(:,i),x(:,i),"r-")

strtitle=msprintf("%s",strleg(i));

xtitle(strtitle ,"Normal Quantile","Data Quantile");

//

k=k+1;

subplot(m,2,k)

78

Page 79: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 28 – Nombre de salaries (en milliers) et revenu net (en milliards de Francs) de 45 entreprisesfrancaises et europeennes (1998).

79

Page 80: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 29 – QQ-plot et histogramme de 10 000 realisations d’une variable uniforme dans [0, 1].

histo(x(:,i),[],%t);

xtitle(strtitle ,"X","Frequency");

end

On constate qu’aucune des deux variables ne semble s’ajuster a une distribution normale.Pour la variable ”Nombre de salaries”, les quantiles extremes sont trop frequents, tandis que les

valeurs moyennes sont trop rares. On peut le voir facilement sur l’histogramme, qui est tres asymetrique.Le QQ-plot a une forme de U, tres eloigne de la diagonale.

Pour la variable ”Revenu net”, les quantiles extremes sont trop frequents, tandis que les valeursmoyennes semblent s’ajuster assez bien a une distribution normale. L’histogramme, est asymetrique,avec trop de quantiles eleves. Le QQ-plot a une forme de S, assez eloignee de la diagonale.

5.9.8 Experience E (*)

Exercice 52

Tracer le qq-plot et l’histogramme empirique de 10 000 realisations d’une variable uniforme dans[0, 1], en faisant l’hypothese que les donnees suivent une loi normale.

Reproduire la figure 29.

Solution de l’exercice 52

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// QQ-Plot

// Experience E (Variable uniforme)

n=10000;

x=distfun_unifrnd (0,1,n,1);

mu=mean(x);

sigma= sqrt(variance(x));

p=linspace (0.01 ,0.99 ,100) ’;

q=quantile(x,p);

nbclasses=ceil(log2(n)+1);

y=distfun_norminv(p,mu ,sigma);

//

80

Page 81: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 30 – QQ-plot et histogramme de 10 000 realisations d’une variable exponentielle de moyenneµ = 1.

scf();

subplot (1,2,1)

qqplot(y,q,"bo");

plot([y(25),y(75)] ,[q(25),q(75)],"r-")

xtitle("U(0,1) - n=10 000","Normal Quantile","Data Quantile");

subplot (1,2,2)

histo(x,[],%t);

xtitle("U(0,1) - n=10 000","X","Frequency");

On constate que le QQ-plot a une forme de ”S”.

5.9.9 Experience F (*)

Exercice 53

Tracer le qq-plot et l’histogramme empirique de 10 000 realisations d’une variable exponentielle demoyenne µ = 1, en faisant l’hypothese que les donnees suivent une loi normale.

Reproduire la figure 30.

Solution de l’exercice 53

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// QQ-Plot

// Experience F (Variable exponentielle)

n=10000;

x=distfun_exprnd (1,n,1);

mu=mean(x);

sigma= sqrt(variance(x));

p=linspace (0.1 ,0.9 ,100) ’;

q=quantile(x,p);

nbclasses=ceil(log2(n)+1);

y=distfun_norminv(p,mu ,sigma);

//

scf();

81

Page 82: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

Figure 31 – QQ-plot et histogramme de 10 000 realisations d’une variable normale de moyenne µ = 0et d’ecart-type σ = 1 et d’une variable normale de moyenne µ = 0 et d’ecart-type σ = 2.

subplot (1,2,1)

qqplot(y,q,"bo");

plot([y(25),y(75)] ,[q(25),q(75)],"r-")

xtitle("Exp (1) - n=10 000","Normal Quantile","Data Quantile");

subplot (1,2,2)

histo(x,[],%t);

xtitle("Exp (1) - n=10 000","X","Frequency");

On constate que le QQ-plot a une forme de ”U”.

5.9.10 Experience G (*)

Exercice 54

Tracer le qq-plot et les histogrammes empiriques de 10 000 realisations de deux variables normales :– une variable X de moyenne µ = 0 et d’ecart-type σ = 1,– une variable Y de moyenne µ = 0 et d’ecart-type σ = 2.

Reproduire la figure 31.

Solution de l’exercice 54

// Copyright (C) 2013 -2014 - Michael Baudin

//

// This file must be used under the terms of the

// GNU Lesser General Public License license :

// http :// www.gnu.org/copyleft/lesser.html

// QQ-Plot

// Experience G (Variable Normale s1>s2)

n=10000;

x1=distfun_normrnd (0,1,n,1);

x2=distfun_normrnd (0,2,n,1);

p=linspace (0.1 ,0.9 ,100) ’;

q1=quantile(x1,p);

q2=quantile(x2,p);

//

scf();

82

Page 83: TP Scilab Probabilit es - Statistiques · R esum e Ce document est une feuille de route pour le TP Probabilit es-Statistiques. Dans la premi ere partie, nous faisons quelques manipulations

subplot (1,2,1)

qqplot(q1,q2,"bo");

plot([q1(25),q1(75)] ,[q2(25),q2(75)],"r-")

xtitle("n=10 000","Normal (0,1)","Normal (0,2)");

subplot (1,2,2)

histo(x1 ,[],%t ,1);

histo(x2 ,[],%t ,2);

e=gce();

e.children.line_style =2;

xtitle("n=10 000","X","Frequency");

legend (["Normal (0,1)","Normal (0,2)"]);

On constate que les donnees sont sur une droite qui relie des premiers et troisieme quartiles.

References

[1] Paul L. Meyer. Introductory Probability and Statistical Applications. Addison Wesley, 1970.

[2] Sheldon Ross. Introduction to Probability and Statistics for Engineers and Scientists, 3rd Edition.Elsevier, 2004.

[3] Gilbert Saporta. Probabilites Analyse des Donnees et Statistique, 2eme Edition. Technip, 2006.

[4] Wikipedia. 68-95-99.7 rule — wikipedia, the free encyclopedia, 2015. [Online ; accessed 19-February-2015].

[5] Wikipedia. Poisson distribution — wikipedia, the free encyclopedia, 2015. [Online ; accessed 19-February-2015].

[6] A. T. Yalta. The accuracy of statistical distributions in microsoft R©excel 2007. Comput. Stat. DataAnal., 52(10) :4579–4586, Jun 2008.

83