1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus.

1

Modèle Linéaire Généralisé(Proc Genmod)

Michel Tenenhaus

2

I. Les données

Y = Variable à expliquer

X1,…, Xp = Variables explicatives

Nature de YLoi de Y

(Famille exponentielle) Y binaire Binomiale Y ordinale Multinomiale

( famille exponentielle) Y comptage Poisson Y continue - Normale

- Gamma (cas part. : Exponentielle)- Gauss Inverse ( Log-normale ou Weibull)

3

II. La famille exponentielle

Loi de Y

y b( )f (y; , ) exp{ c(y, )}

a( )

- Les fonctions a, b, c sont fixées.- est un paramètre de dispersion ou « nuisance parameter ».- a() = pour des données individuelles,

= /w pour des données groupées (w = effectif du groupe)

4

Résultats

1. = E(Y) = b´()

2. Dans la pratique b´() est monotone :

3. Var(Y) = a()b()

4. b() = b(gc()) = ()

= gc() gc est la fonction de liencanonique.

Var(Y) = a() ()

() est la fonction-variance.

5

1. Loi de Poisson

yeP(Y y; )

y !

log( ) y = exp Log(y!)

1

De :

on déduit :

= Log(), b() = , a() = 1

D’où : E(Y) = Var(Y) =

6

2. Loi binomiale

my m mymP(Y y; ) (1 )

my

1Log y Log

m1 1 = exp{ Log }

1 mym

avec y = 0, 1/m, 2/m, ..., 1

De :

on déduit :

D’où :

E(Y) = et Var(Y) = (1 - )/m

1 1Log , b( ) Log Log(1 e ), a( ) =

1 1 m

7

3. Loi normale

22

2

22

22 2

1 (y )f (y; , ) exp( )

221

y y 12 = exp{ Log(2 )} 2 2

De :

on déduit :

D’où :

E(Y) = et Var(Y) = 2

2 21, b( ) , a( ) =

2

8

4. Loi gamma

1 y yf (y; , ) exp( )

( )y

1 1y ( ) ( Log( ))

= exp{ Log( ( )y) Log(y )}1

pour y > 0

De :

on déduit :

D’où :

E(Y) = , Var(Y) = 2/, et CV =

1 1 1, b( ) Log( ), a( ) =

1/

9

5. Loi de Gauss inverse

22

2

23 2

2 2

1 (y )f (y; , ) exp( )

2( ) y2

1 1y

2 1 1 = exp{

pour y

Log(2 y )} 2 y 2

> 0

De :

on déduit :

D’où :

E(Y) = , Var(Y) = 32, et CV =

22

1 1, b( ) , a( ) =

2

10

III. Fonction de lien canonique

De E(Y) b '( ) on déduit : cg ( )

L o i g c D i s p e r s i o n G e n m o d S c a l e

B i n o m i a l e L o g1

1

P o i s s o n = L o g ( ) 1

N o r m a l e = 2

G a m m a ( 1 )

c

1 1g

- 1

G a u s s i n v e r s e ( 2 )

c2 2

1 1g

2

2

1 C V = , C( 1 V ) ( 2 ) =

,

11

Autres fonctions de lien usuelles

• Complementary Log Log

• Power

• Probit

g( ) Log Log(1 )

g( )

g( ) fractile d'ordre de la loi

normale réduite

12

IV. Le modèle Linéaire GénéraliséLes données

- Individuelles : (yi, x1i,…, xpi), i = 1,…, n

- Groupées : , i = 1,…, n

Loi de Yi

i i 1i pi( y ,n , x ,..., x )

i i ii i

y b( )f (y ; , ) exp{ c(y , )}

a( )

Le modèlei j ji

j

g( ) x

Généralisation au niveau de la fonction de réponse (g(i) au lieu de i ,et au niveau de la loi de Yi (famille exponentielle au lieu de la loi normale).

13

Estimation des j par maximum de vraisemblance

La loi de Yi

peut s’écrire en fonction de 1,…, p en remplaçant

i par :

puisque .

i i ii i i

y b( )f (y ; , ) exp{ c(y , )}

a( )

1i c i c j ji

j

g ( ) g {g ( x )}

i j jij

g( ) x

14

Résultats de la maximisation de la vraisemblance

De

on déduit :

À maximiser sur et éventuellement sur .

D ’où :

puisque .

1i c i c j hi

j

g ( ) g {g ( x )}

n

i ii 1

n1

i c j hiji 1

L f (y ; , )

= f (y ; g {g ( x )}, )

1 '

i iˆˆ g (x )

n

i c ii 1

ˆ ˆL(y, ) f (y ; g ( ), )

15

« Estimating Equations »

On définit la log-vraisemblance

On obtient en annulant le vecteur Score .

avec .

n1 '

i c ii 1

L Log( )

= Log( f (y ; g {g (x )}, ) Log( (y, ))

ni i i

i 1 i

(y )U 0

Var(Y )

1 'i ig (x )

L

U

( ) :L Log

i

16

Déviance normalisée D* (Scaled deviance)

Modèle étudié :

Modèle saturé :

Déviance normalisée :

si le modèle étudié est exact (approximation médiocre).

puisque .

ˆ ˆL(y, ) Log( (y, ))

*

2n-nombre de paramètres

ˆD 2 L(y, y) L(y, )

L(y, y) Log( (y, y))

17

Déviance D des lois standards

La déviance D est égale à D*

L oi D éviance

N orm ale 2 2i iˆ(y )

P oisson 1 2 ii i i

i

yˆ(y L og (y )

ˆ

B inom iale

(prop ortion y i = r i/m i)1 i i

i ii i

y 1 y2 (y L og (1 y )L og )

ˆ ˆ1

G am m a -1

i

ii

i

i

ˆ

ˆyˆy

log2

G auss inverse 2

i2i

2ii

yˆ)ˆy(

2

Une fois fixé, le maximum de vraisemblance conduità minimiser la déviance D.

18

Étude de

1

2

2ˆ

ˆ ~ ( , )

( ) J -E

N J

Logoù

Loi de

Intervalle de confiance de (Wald)

)ˆ(Var96.1ˆj

19

Intervalle de confiance de j

*

ˆ ˆ

ˆ ˆ( ; ) ( ; ) i

j

j i iles

avec fixé

L y Max L x y

« Profile likelihood function »

Intervalle de confiance de j

0.95

* 2j j

ˆ | 2 L( ,y)-L ( , y) (1)

20

Intervalle de confiance de i

)ˆx(g 'i

1i

x)ˆ(Varx96.1ˆxg i'i

'i

1

De :

on déduit l’intervalle de i à 95% :

21

Test de l ’hypothèse linéaire générale H0 : L´ = 0

ˆL')ˆ(Var'L)'ˆ'L(S-1

WALD

suit un 2(rang L) sous l’hypothèse H0.

0

ˆ ˆ2 ( ( )) ( ( ))HS Log Log

LRT (Likelihood Ratio Test)

suit un 2(rang L) sous l’hypothèse H0.

LRT est meilleur que Wald

22

Analyse des résidus

iii ˆyr Résidu observé

iancevarfonction

i

iiPi

)ˆ(

ˆyr

Résidu-Pearson

iiiDi d)ˆy(signer

Résidu-déviance

déduiton d D Dei

i

23

Les résidus normalisés

Résidu-vraisemblance normalisé

2*Pii

2*Diiii

*Gi rhr)h1()ˆy(signer

Les résidu-Pearson et résidu-déviance sont normalisés

en les divisant par leurs écarts-types.

où rPi* et rDi

* sont les résidu-Pearson et résidu-déviance

normalisés, et hi le levier de l’observation i.

Les résidus normalisés peuvent être comparés à 2.

24

Estimation du paramètre de dispersion pour les lois binomiale et Poisson

théorique = 1

n

1i

2Pi

2P r

déviance D

~ 2(n-p)

E(D) = E(P2) = n - p

PSCALE)(Option pn

DSCALE)(Option p-n

D ˆ

2P

(p = nombre de paramètres)

25

Estimation du paramètre de dispersion pour les lois normales, Gamma et Gauss inverse

Les paramètres 1,…, p et sont estimés par

maximum de vraisemblance.

26

La sur-dispersion dans les modèles Poisson et Binomiale ( )

Réponse Yi Poisson ou Binomiale

ˆ 1.10

Poisson : Var(Yi) = i

Binomiale : Var(Yi) = i(1- i)

Matrice d’information de Fisher :

Loi de : N(,J-1)

n

1i ii

likikl )ˆ('g)Y(Var

xxJJ

27

Prise en compte de la sur-dispersion

Approche WALD

Poisson : Var(Yi) =

Binomiale : Var(Yi) =

J divisé par

J-1 multiplié par

~ N(, J-1)

Var( ) est multipliée par

Résultats moins significatifs

iˆ)1(ˆ ii

28

Prise en compte de la sur-dispersion

Approche LRT

Loi de Yi :

i i ii i i

y b( )f (y ; , ) exp{ c(y , )}

a( )

Poisson et Binomiale : a() = 1

Pour prendre en compte la sur-dispersion on pose a() =

Les tests LRT sont divisés par .

Les résultats sont moins significatifs.

29

Exemple Mélanome

Tranched’âge

Nombre de cas demélanomes, ni

Nombre estimé depersonnes soumises

au risque, Ni

RégionNord, ni

RégionSud, ni

RégionNord, Ni

RégionSud, Ni

< 3535-4445-5455-6465-7475

6176981046380

647568634527

2 880 262564 535592 983450 740270 908161 850

1 074 246220 407198 119134 08470 70834 233

30

Exemple Mélanome

Yi = ni = Nombre de cas observés parmi Ni personnes

soumises au risque

Modèle 1

Yi ~ Poisson (i) avec :

Région

AgeAge*Région

71

82

93 6

i i 0 104

115

3535

35 4435 44

45 5445 54 Nor

0

0

0

N exp( 00

0

0

d55 64

55 64 Sud65 74

65 7475

75Nor Sud

0

d0

)

Log(i) = Log(Ni) + 0 + 1(Age<35) + … + 11(Age(65-74)*Nord)

31

Exemple Mélanome : Code SAS pour le Modèle 1

data melanome;input id $ age $ region $ cas pop;logpop=log(pop);cards;n,<35 <35 n 61 2880262s,<35 <35 s 64 1074246...n,>74 >74 n 80 161850s,>74 >74 s 27 34233;proc genmod data=melanome order=data;class age region;model cas=age region age*region /dist=poisson link=log offset=logpop type3 ;run;

32

Exemple Mélanome : Résultat pour le Modèle 1

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 0 0.0000 .Scaled Deviance 0 0.0000 .Pearson Chi-Square 0 0.0000 .Scaled Pearson X2 0 0.0000 .Log Likelihood 2698.0337

LR Statistics For Type 3 Analysis

Chi-Source DF Square Pr > ChiSq

age 5 715.99 <.0001region 1 108.19 <.0001age*region 5 6.21 0.2859

33

Exemple Mélanome : Modèle 2


Région

Ag

1

2

3 6i i 0

4

5

e

35

35 44

45 54 Nord

55 64 Sud

65

N exp( )0

0

74

75

34

Exemple Mélanome : résultat du Modèle 2



Deviance 5 6.2149 1.2430Scaled Deviance 5 6.2149 1.2430Pearson Chi-Square 5 6.1151 1.2230Scaled Pearson X2 5 6.1151 1.2230Log Likelihood 2694.9262

LR Statistics For Type 3 Analysis

Chi-Source DF Square Pr > ChiSq

age 5 796.74 <.0001region 1 124.22 <.0001

35

Exemple Mélanome : résultat du Modèle 2Analysis Of Parameter Estimates

Standard Wald 95%Parameter DF Estimate Error Confidence Limits

Intercept 1 -6.8941 0.1079 -7.1057 -6.6826age <35 1 -2.9447 0.1320 -3.2035 -2.6859age 35-44 1 -1.1473 0.1268 -1.3958 -0.8988age 45-54 1 -1.0316 0.1242 -1.2750 -0.7881age 55-64 1 -0.7029 0.1240 -0.9458 -0.4599age 65-74 1 -0.5790 0.1364 -0.8464 -0.3115age >74 0 0.0000 0.0000 0.0000 0.0000region n 1 -0.8195 0.0710 -0.9587 -0.6803region s 0 0.0000 0.0000 0.0000 0.0000Scale 0 1.0000 0.0000 1.0000 1.0000

Chi-Parameter Square Pr > ChiSq

Intercept 4080.10 <.0001age <35 497.30 <.0001age 35-44 81.89 <.0001age 45-54 68.98 <.0001age 55-64 32.15 <.0001age 65-74 18.00 <.0001age >74 . .region n 133.11 <.0001region s . .Scale

NOTE: The scale parameter was held fixed.

36

Exemple Mélanome : Contrastes

proc genmod data=melanome order=data;class age region;model cas=age region/dist=poisson link=log offset=logpop type3 ;contrast '35-44 vs 45-54' age 0 -1 1 0 0 0;contrast '55-64 vs 65-74' age 0 0 0 -1 1 0;contrast '35-44 vs 45-54' age 0 -1 1 0 0 0 / wald;contrast '55-64 vs 65-74' age 0 0 0 -1 1 0 / wald;run;

Test « 35-44 vs 45-54 » : H0 : 2 = 3

Test « 55-64 vs 65-74 » : H0 : 4 = 5

37

Exemple Mélanome : Contrastes

Contrast Results

Chi-Contrast DF Square Pr > ChiSq Type

35-44 vs 45-54 1 1.06 0.3033 LR55-64 vs 65-74 1 1.00 0.3179 LR35-44 vs 45-54 1 1.06 0.3036 Wald55-64 vs 65-74 1 1.01 0.3157 Wald

Conclusion : On peut simplifier le modèle.

38



Région

A

1

2 4i i 0

ge

3

35

35 54 Nord

55 7N exp( )

04 Sud

075

39

Exemple Mélanome : Estimation du modèle 3

data b;set melanome;age1=(age = "<35");age2=(age = "35-44") or (age="45-54");age3=(age = "55-64") or (age="65-74");

proc genmod data=b order=data;class region;model cas=age1 age2 age3 region/dist=poisson link=log offset=logpop type3;contrast 'age' age1 1, age2 1, age3 1 /e;contrast 'age' age1 1, age2 1, age3 1 / wald;run;

40





Analysis Of Parameter Estimates

Likelihood Ratio Standard 95% ConfidenceParameter DF Estimate Error Limits

Intercept 1 -6.8962 0.1079 -7.1132 -6.6898age1 1 -2.9443 0.1320 -3.2026 -2.6843age2 1 -1.0880 0.1122 -1.3041 -0.8640age3 1 -0.6558 0.1140 -0.8759 -0.4284region n 1 -0.8165 0.0710 -0.9551 -0.6767region s 0 0.0000 0.0000 0.0000 0.0000

41


Contrast Results


age 3 794.69 <.0001 LRage 3 606.00 <.0001 Wald



Intercept 4081.63 <.0001age1 497.17 <.0001age2 94.09 <.0001age3 33.07 <.0001region n 132.24 <.0001region s . .

42


Yi ~ Binomiale (Ni , pi )

Régio

1

2

A

0

g

i3

n

e

4

35

35 54 Nord

55 74 Sud

7

p exp( )0

5 0

Ni grand et pi petit impliquent :

Yi Poisson (i = Nipi)

D’où le modèle Yi ~ Binomiale (Ni , pi ) avec :

43


proc genmod data=b order=data;class region;model cas/pop=age1 age2 age3 region/dist=bin link=log type3;contrast 'age' age1 1, age2 1, age3 1;run;

44




Deviance 7 8.2745 1.1821Scaled Deviance 7 8.2745 1.1821Pearson Chi-Square 7 8.2368 1.1767Scaled Pearson X2 7 8.2368 1.1767Log Likelihood -7793.1578


Standard Wald 95% ConfidenceParameter DF Estimate Error Limits


45





Contrast Results


age 3 794.81 <.0001 LR

46


Yi ~ Binomiale (Ni , pi )

1

2 4i0

Région

Ag

i 3

e

pLog

1 p 0

0

35

35 54 Nord

55 74 Sud

75

Comme la probabilité pi est petite :

D ’où le modèle Yi ~ Binomiale (Ni , pi ) avec :

ii

i

pp

1 p

Régression de Poisson = régression logistique lorsque pi est petit et Ni est grand.

47


proc genmod data=b order=data;class region;model cas/pop=age1 age2 age3 region/dist=bin link=logit type3;contrast 'age' age1 1, age2 1, age3 1;run;

48






Standard Wald 95% ConfidenceParameter DF Estimate Error Limits


49





Contrast Results


age 3 794.82 <.0001 LR

50

Exemple ColéoptèresYi = ni = Nombre de morts parmi Ni coléoptères soumis

au risque à la dose xi de disulfide de carbone

1.6907 59 6

1.7242 60 13

1.7552 62 18

1.7842 56 28

1.8113 63 52

1.8369 59 53

1.8610 62 61

1.8839 60 60

1

2

3

4

5

6

7

8

DOSE Soumis au risque Nombre de morts

51

Les modèlesLoi de Yi : Binomiale (Ni , pi)

Fonction de lien g(pi) :

- Logit : Log(pi/(1-pi))

- Probit : Fractile d’ordre pi d’une loi normale réduite

- Complementary Log Log :

Log(-Log(1-pi))

Modèle : g(pi) = 0 + 1xi

52

Résultats : Modèle LogitCriteria For Assessing Goodness Of Fit



Algorithm converged.


Standard Wald 95% Chi-Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq

Intercept 1 -60.7175 5.1807 -70.8715 -50.5634 137.36 <.0001dose 1 34.2703 2.9121 28.5626 39.9780 138.49 <.0001Scale 0 1.0000 0.0000 1.0000 1.0000


53

Résultats : Modèle ProbitCriteria For Assessing Goodness Of Fit








54

Résultats : Modèle CloglogCriteria For Assessing Goodness Of Fit








55

Comparaison des modèles

Modèle Deviance DDL Deviance/DDLLOGITPROBITCLOGLOG

11.232210.11983.4464

666

1.87201.68660.5744

Nombre de morts estimé i

ObservationDose, xi

Soumis aurisque, Ni

Nombre demorts, ni

ModèleLogit

ModèleProbit

ModèleCLL

12345678

1.6911.7241.7551.7841.8111.8371.8611.884

5960625663596260

613182852536160

3.4579.84222.45133.89850.09653.29159.22258.743

3.35810.72223.48233.81649.61653.31959.66559.228

5.58911.28120.95430.36947.77654.14361.11359.947

56

Comparaison des modèles

Dose

1.901.851.801.751.701.65

Pro

po

rtio

n d

e m

ort

s

1.0

.8

.6

.4

.2

0.0

prop.est. (cloglog)

prop.estim.(Probit)

prop. estim. (Logit)

Proportion observée

57

Exemple SIDAYi = Nombre de morts du Sida par trimestre de 83 à 86

en Australie

TrimestreNombre de

morts Yi xi = Log i1234567891011121314

012314918233120253745

00.6931.0991.3861.6091.7921.9462.0792.1972.3032.3982.4852.5652.639

58

Les modèles

Loi de Yi : Poisson (i)

Fonction de lien : g(i) = Log(i)

Modèles : Log(i) = 0 + 1xi

avec :

(1) = 1

(2) = Deviance / (n-p)

59

Résultats : = 1Criteria For Assessing Goodness Of Fit






Intercept 1 -1.9442 0.5116 -2.9469 -0.9415 14.44 0.0001lquarter 1 2.1748 0.2151 1.7533 2.5963 102.27 <.0001Scale 0 1.0000


60

Analyse des résidus ( = 1)

Obs lquarter deaths Pred

1 0 0 0.143 2 0.693 1 0.646 3 1.098 2 1.560 4 1.386 3 2.917 5 1.609 1 4.739 6 1.791 4 7.046 7 1.945 9 9.852 8 2.079 18 13.173 9 2.197 23 17.018 10 2.302 31 21.401 11 2.397 20 26.330 12 2.484 25 31.815 13 2.564 37 37.865 14 2.639 45 44.487

61

Analyse des résidus ( = 1)

Obs Stresdev Streschi Reslik

1 -0.545298 -0.385584 -0.540168 2 0.425791 0.460390 0.428869 3 0.359465 0.375283 0.361426 4 0.051868 0.052111 0.051902 5 -2.259547 -1.857236 -2.205949 6 -1.345573 -1.235173 -1.331022 7 -0.294398 -0.290055 -0.293870 8 1.332723 1.407734 1.340985 9 1.448224 1.526636 1.456101 10 2.049098 2.188013 2.063521 11 -1.375673 -1.316788 -1.368616 12 -1.377658 -1.325524 -1.368990 13 -0.162825 -0.162201 -0.162671 14 0.096241 0.096425 0.096309

62

Résultats : = Deviance/(n-p)Criteria For Assessing Goodness Of Fit






Intercept 1 -1.9442 0.6106 -3.1408 -0.7475 10.14 0.0015lquarter 1 2.1748 0.2567 1.6718 2.6778 71.80 <.0001Scale 0 1.1934

NOTE: The scale parameter was estimated by the square root of DEVIANCE/DOF

63

Analyse des résidus ( = Deviance/(n-p))

Obs Stresdev Streschi Reslik

1 -0.456912 -0.323086 -0.452614 2 0.356776 0.385766 0.359354 3 0.301200 0.314454 0.302843 4 0.043461 0.0436647 0.043489 5 -1.893302 -1.556201 -1.848391 6 -1.127472 -1.034967 -1.115279 7 -0.246680 -0.243040 -0.246237 8 1.116705 1.179557 1.123628 9 1.213484 1.279187 1.220085 10 1.716965 1.833363 1.729050 11 -1.152694 -1.103353 -1.146780 12 -1.154357 -1.110673 -1.147094 13 -0.136433 -0.135910 -0.136304 14 0.080642 0.080796 0.080698

64

Prévision du nombre de morts du sidaen Australie

Log(Année)

3.02.52.01.51.0.50.0-.5

50

40

30

20

10

0

-10

Prévision du nombre

de morts

Nombre de morts

observation 10

1.9442 + 2.1748*Log(i)iˆ e

65

Exemple LEUCÉMIE

Yi = Durée de vie entre le diagnostic et le décès en semaines

Xi = Log10(Nombre de globules blanc initial)

Yi Xi Yi Xi

6515610013416108121

439

3.362.883.633.413.784.024.004.233.73

143562622115

65

3.853.974.514.545.005.004.725.00

66

Les modèles

Loi de Yi : (1) Loi gamma(2) Loi exponentielle (= gamma avec = 1)

Fonction de lien : g(i) = Log(i)

Modèle : Log(i) = 0 + 1xi

67

Résultat (Loi gamma)







Intercept 1 8.4775 1.7046 5.1365 11.8185 24.73 <.0001logcount 1 -1.1093 0.4120 -1.9168 -0.3018 7.25 0.0071Scale 1 1.0078 0.3046 0.5573 1.8222

NOTE: The scale parameter was estimated by maximum likelihood.

68

Résultat (Loi exponentielle)







Intercept 1 8.4775 1.7112 5.1235 11.8315 24.54 <.0001logcount 1 -1.1093 0.4136 -1.9199 -0.2987 7.19 0.0073Scale 0 1.0000


69

Modélisation Leucémie

Log10(Nb de globules blancs)

5.55.04.54.03.53.02.5

Du

rée

de

vie

250

200

150

100

50

0

Prévision

Durée de vie

i8.4775 - 1.1093*Xiˆ e

1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus.

Documents

Transcript of 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus.