Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den...
Transcript of Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den...
Basal statistik
21. oktober 2008
Den generelle lineære model
• Repetition af variansanalyse
og multipel regression
• Interaktion
• Parametriseringer
• Kovariansanalyse
Esben Budtz-Jørgensen,
Biostatistisk Afdeling
Institut for Folkesundhedsvidenskab,
Københavns Universitet
Slides af Lene Theil Skovgaard og Esben findes pa,
http://staff.pubhealth.ku.dk/~ebj/basal08_2
Den generelle lineære model, oktober 2008 1
Repetition af multipel regressionsanalyse
Outcome: Y
Forklarende variable, kovariater: X1, · · · , Xk
Model: Y = β0 + β1x1 + · · · + βkxk + ǫ
(Generel) lineær model:
En model, der kan skrives op som ovenfor,
med ’hvad som helst’ som x’er.
SAS Analyst: Statistics/ANOVA/Linear models
SAS programmering: GLM
Den generelle lineære model, oktober 2008 2
Eksempel: Ensidet varians-analyse
Identifikation af k grupper vha ”dummy”variable:
x1 er 1 hvis person er i første gruppe og 0 ellers
x2 er 1 hvis person er i anden gruppe og 0 ellers
.
xk−1 er 1 hvis person er i k-1 gruppe og 0 ellers
Model:
Y = β0 + β1x1 + · · · + βk−1xk−1 + ǫ
Den generelle lineære model, oktober 2008 3
Med denne kodning vil β0 svare til niveauet for k’te gruppe;
β1 er forskel i niveau mellem første og k’te gruppe;
β2 er forskel i niveau mellem anden og k’te gruppe; osv....
Det er netop den kodning der bruges i SAS, nar gruppe-variabel
angives som kategorisk (”Statistics/Anova/Linear Models/Class”).
Bemærk:
Ved omkodning af grupper kan man fa vilkarlige forskelle frem!
Dette skrives som en NOTE i SAS-outputtet.
Den generelle lineære model, oktober 2008 4
SAS output fra øvelsesopgaven ”Alder ved gang”
Standard
Parameter Estimate Error t Value Pr > |t|
Intercept 12.35000000 B 0.67815216 18.21 <.0001
grp 1 -2.22500000 B 0.91822236 -2.42 0.0255
grp 2 -0.97500000 B 0.91822236 -1.06 0.3016
grp 3 -0.64166667 B 0.91822236 -0.70 0.4931
grp 4 0.00000000 B . . .
NOTE: The X’X matrix has been found to be singular, and a generalized
inverse was used to solve the normal equations. Terms whose
estimates are followed by the letter ’B’ are not uniquely estimable.
Denne NOTE er altsa ikke farlig!
Den generelle lineære model, oktober 2008 5
Eksempel: Tosidet varians-analyse (uden interaktion)
k1 × k2 grupper,
identificeret ved to Class-variable med hhv k1 og k2 niveauer.
Default parametrisering:
• Et niveau (intercept) for referencegruppen
(sidste niveau af samtlige indgaende faktorer)
• (k1 − 1) parametre, der beskriver forskelle til sidste niveau af
faktor nr. 1
• (k2 − 1) parametre, der beskriver forskelle til sidste niveau af
faktor nr. 2
Faktorerne indgar additivt
Den generelle lineære model, oktober 2008 6
Tosidet variansanalyse uden interaktion i SAS
SAS output fra øvelsesopgaven ”Sædkvalitet”, efter transformation
med 10-tals logaritmen:
The GLM Procedure
Class Level Information
Class Levels Values
sas_ansat 2 ja nej
abstid 3 1 2 3
Number of Observations Used 188
Source DF Type III SS Mean Square F Value Pr > F
sas_ansat 1 1.32546710 1.32546710 6.47 0.0118
abstid 2 1.25619157 0.62809578 3.07 0.0490
Den generelle lineære model, oktober 2008 7
Standard
Parameter Estimate Error t Value Pr > |t|
Intercept 1.921020681 B 0.07138491 26.91 <.0001
sas_ansat ja -0.186905638 B 0.07348387 -2.54 0.0118
sas_ansat nej 0.000000000 B . . .
abstid 1 -0.187233951 B 0.08873769 -2.11 0.0362
abstid 2 -0.145921066 B 0.07473457 -1.95 0.0524
abstid 3 0.000000000 B . . .
Den generelle lineære model, oktober 2008 8
Fortolkning:
SAS-ansatte har en signifikant lavere sædkoncentration end
økologer med samme abstinenstid.
Forskellen pa logaritmisk-skala er −0.187, svarende til at
de SAS-ansattes sædkoncentration generelt kun udgør
10−0.187= 65% af økologernes koncentrationsniveau.
95% sikkerhedsintervallet for denne forskel er angivet af
SAS til (−0.332,−0.042), og nar dette
tilbagetransformeres, fas:
(10−0.332, 10−0.042) = (47%; 91%)
Den generelle lineære model, oktober 2008 9
Fittede værdier (y)
Bemærk: forskel mellem SAS-ansatte og landmænd er her uafhængig af abstinenstider
Den generelle lineære model, oktober 2008 10
Vekselvirkning (interaktion), tænkt eksempel:
• To inddelingskriterier: køn og rygestatus
• Outcome: FEV1
• Effekten af rygning afhænger af køn
• Forskellen pa kønnene afhænger af rygestatus
Den generelle lineære model, oktober 2008 11
Eksempel: Rygnings effekt pa fødselsvægt
Den generelle lineære model, oktober 2008 12
Interaktion/vekselvirkning mellem mængden og varigheden af
rygningen
• Der er effekt af mængden, men kun hvis man har røget længe.
• Der er effekt af varigheden, og denne effekt øges med mængden.
Effekten af mængden afhænger af varigheden
og effekten af varigheden afhænger af mængden
Den generelle lineære model, oktober 2008 13
Interaktion i eksemplet om sædkvalitet
Her tilføjes to interaktionsparametre, der beskriver:
• hvordan effekten af den ene faktor modificeres, nar vi gar fra
referencegruppen for den anden faktor til et af de andre niveauer
Interaktionen repræsenterer synergi-effekten
mellem variabel 1 og 2, og er et symmetrisk koncept.
I epidemiologiske termer: Variabel 1 modificerer effekten af
variabel 2 og kaldes derfor ogsa en effekt modifikator.
Den generelle lineære model, oktober 2008 14
For eksemplet med sædkoncentration:
Source DF Type III SS Mean Square F Value Pr > F
sas_ansat 1 0.91298917 0.91298917 4.45 0.0363
abstid 2 1.25068088 0.62534044 3.05 0.0499
sas_ansat*abstid 2 0.34579420 0.17289710 0.84 0.4323
Bemærk: Nar der er interaktion, giver det ikke længere mening at
tolke de marginale effekter (dvs. effekten af den ene variable, uden
samtidig at angive hvad niveauet af den anden er)
Den generelle lineære model, oktober 2008 15
Standard
Parameter Estimate Error t Value Pr > |t|
Intercept 1.940623988 B 0.09060587 21.42 <.0001
sas_ansat ja -0.214288035 B 0.10708469 -2.00 0.0469
sas_ansat nej 0.000000000 B . . .
abstid 1 -0.327004862 B 0.15909868 -2.06 0.0413
abstid 2 -0.106028838 B 0.14504016 -0.73 0.4657
abstid 3 0.000000000 B . . .
sas_ansat*abstid ja 1 0.205230452 B 0.19177988 1.07 0.2860
sas_ansat*abstid ja 2 -0.052366937 B 0.16929581 -0.31 0.7574
sas_ansat*abstid ja 3 0.000000000 B . . .
sas_ansat*abstid nej 1 0.000000000 B . . .
sas_ansat*abstid nej 2 0.000000000 B . . .
sas_ansat*abstid nej 3 0.000000000 B . . .
Den generelle lineære model, oktober 2008 16
Modellen tillader at niveauet i hver gruppe varierer frit.
Som I kan se af outputtet bruger SAS en kompliceret
parametrisering ved beskrivelse disse gruppeniveauer. Det
skal forstas som følger:
For lang abstinenstid (niveau 3) er den estimerede forskel
mellem SAS-ansatte og økologiske landmænd: −0.2143
Hvordan er denne forskel ved mellem-lang abstinenstid
(niveau 2)?
Den øges med −0.0524 til i alt −0.2143− 0.0524 = −0.2667
Ved niveau 1?
Den øges med 0.2052 til i alt −0.2143 + 0.2052 = −0.0091
Den generelle lineære model, oktober 2008 17
Udregning af det estimerede niveau i hver celle
abstinenstid
erhverv 1:kort 2:mellem 3:lang
1.9406 1.9406 1.9406
-0.2143 -0.2143 -0.2143
sas-ansatte -0.3270 -0.1060
+0.2052 -0.0524
= 1.6046 = 1.5679 = 1.7263
1.9406 1.9406 1.9406
landmænd -0.3270 -0.1060
= 1.6136 = 1.8346 reference
Den generelle lineære model, oktober 2008 18
Direkte udregning af disse estimater i SAS:
Udelad begge faktorerne sas_ansat og abstid fra modellen
(men bibehold interaktionen). Kryds af i no intercept
Dette ændrer ikke modellen, kun maden, den præsenteres pa:
Source DF Type III SS Mean Square F Value Pr > F
sas_ansat*abstid 6 546.9143780 91.1523963 444.14 <.0001
Standard
Parameter Estimate Error t Value Pr > |t|
sas_ansat*abstid ja 1 1.604561542 0.09060587 17.71 <.0001
sas_ansat*abstid ja 2 1.567940178 0.06608112 23.73 <.0001
sas_ansat*abstid ja 3 1.726335953 0.05707633 30.25 <.0001
sas_ansat*abstid nej 1 1.613619126 0.13077831 12.34 <.0001
sas_ansat*abstid nej 2 1.834595151 0.11325734 16.20 <.0001
sas_ansat*abstid nej 3 1.940623988 0.09060587 21.42 <.0001
Den generelle lineære model, oktober 2008 19
Fortolkning af p-værdien for vekselvirkningsleddet
Udelad begge faktorerne sas_ansat og abstid fra modellen
(men bibehold interaktionen). Kryds af i no intercept
Source DF Type III SS Mean Square F Value Pr > F
sas_ansat*abstid 6 546.9143780 91.1523963 444.14 <.0001
Nu er vekselvirkningen stærkt signifikant?
Fortolkning af p-værdien for vekselvirkningsleddet ændres nar
hovedvirkningerne udelades.
Ovenstaende F-test tester ikke kun vekselvirkningen. Der testes om
niveauet i alle celler er nul - dvs en meget kraftigere reduktion af
modellen.
Den generelle lineære model, oktober 2008 20
Men: Outcome var jo logaritmetransformeret
Vi skal transformere tilbage:
sas_ansat abstid pa log10-skala tilbagetransformeret
1: kort 1.6046 40.2
ja 2: mellem 1.5679 37.0
3: lang 1.7263 53.3
1: kort 1.6136 41.1
nej 2: mellem 1.8346 68.3
3: lang 1.9406 87.2
Den generelle lineære model, oktober 2008 21
Sadan ser de fittede værdier (y) ud grafisk
Den generelle lineære model, oktober 2008 22
Fittede værdier (y) i den reducerede model uden interaktion
Den generelle lineære model, oktober 2008 23
SAS-udregning af forskelle for hver abstinenstid:
Udelad faktoren sas_ansat fra modellen
(men bibehold interaktionen).
Standard
Parameter Estimate Error t Value Pr > |t|
Intercept 1.940623988 B 0.09060587 21.42 <.0001
abstid 1 -0.327004862 B 0.15909868 -2.06 0.0413
abstid 2 -0.106028838 B 0.14504016 -0.73 0.4657
abstid 3 0.000000000 B . . .
sas_ansat*abstid ja 1 -0.009057584 B 0.15909868 -0.06 0.9547
sas_ansat*abstid ja 2 -0.266654973 B 0.13112566 -2.03 0.0434
sas_ansat*abstid ja 3 -0.214288035 B 0.10708469 -2.00 0.0469
sas_ansat*abstid nej 1 0.000000000 B . . .
sas_ansat*abstid nej 2 0.000000000 B . . .
sas_ansat*abstid nej 3 0.000000000 B . . .
Den generelle lineære model, oktober 2008 24
Pa den oprindelige skala kan vi nu udregne effekten af at være
SAS-ansat, for hver abstinenstid for sig, ved at benytte ovenstaende
estimater som potens med grundtal 10
(fordi vi oprindeligt tog 10-tals logaritmer):
Niveau 1: 10−0.0091 = 0.98
Niveau 2: 10−0.2667 = 0.54
Niveau 3: 10−0.2143 = 0.61
altsa svarende til en reduktion pa hhv. 2, 46 og 39% for SAS-ansatte i
forhold til økologiske landmænd.
Den generelle lineære model, oktober 2008 25
Fortolkning af p-værdien for vekselvirkningsleddet
Udelad faktoren sas_ansat fra modellen
(men bibehold interaktionen).
Dette ændrer ikke modellen, kun maden, den præsenteres pa:
Source DF Type III SS Mean Square F Value Pr > F
abstid 2 1.25068088 0.62534044 3.05 0.0499
sas_ansat*abstid 3 1.67126130 0.55708710 2.71 0.0463
test af sas-ansat*abstid: vekselvirkningsmodel mod model der kun
tillader responsen at afhænge af abstid. dvs udover vekselvirkningen
prøver vi at fjerne hovedvirkningen af sas-ansat.
Den generelle lineære model, oktober 2008 26
Forskellige parametriseringer i SAS
Udelad faktor (men bibehold interaktionen)
Modellen ændres ikke
Smart fordi outputtet nu indeholder relevante effekter
MEN testet for interaktion findes kun i det output hvor begge
hovedvirkninger er med
Den generelle lineære model, oktober 2008 27
Modelreduktion - kvadratsummer
For generelle lineære modeller er det ikke altid tilstrækkeligt at lave
t-test pa regressionskoefficienter.
I stedet bruges F test til sammenligning af kvadratsummer.
Modelkvadratsum, SSmodel =∑
i(yi − y)2
Forklaret variation: Hvor meget varierer de predikterede værdier?
(stort er godt, men pas pa fortolkningen af selve størrelsen!)
Residualkvadratsum SSresid =∑
i(yi − yi)2
Tilbageblevet variation: Hvor store er modelafvigelserne?
(smat er godt, og her kan størrelsen fortolkes!)
Den generelle lineære model, oktober 2008 28
Modelreduktion - F test
Vi skal sammenligne to modeller:
Den oprindelige (nr. 1) og den simplere (hypotesen, nr. 2)
Kan vi forsvare at bruge den simpleste af dem?
Beskriver den data tilstrækkeligt godt?
NB: Modellerne skal være “nestede”, dvs. den ene fremkommer af den
anden, typisk ved at sætte parametre til nul (“fjerne effekter”).
Se pa ændring i model-kvadratsum:
Hvor meget mindre forklares af den simplere model?
∆SS = SS(Model1) − SS(Model2)
Den generelle lineære model, oktober 2008 29
Flere parametre kan forklare (lidt) mere variation: ∆SS > 0
Spørgsmalet er: Hvor meget mere?
Hvor stor ma ∆SS blive, inden vi erklærer testet signifikant?
Den generelle lineære model, oktober 2008 30
Størrelsen af ∆SS skal ses i forhold til ændringen i antallet af
parametre:
∆DF = DF2 − DF1
og vurderes i forhold til den allerede eksisterende residualvariation
MS(Residual):
∆MS = ∆SS/∆DF
F =∆MS
MS(Residual)∼ F (∆DF, DF1)
Den generelle lineære model, oktober 2008 31
Tosidet anova
Dependent Variable: lkonc
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 5 2.91775922 0.58355184 2.84 0.0169
Error 182 37.35287772 0.20523559
Corrected Total 187 40.27063694
Model 1: med interaktion
DF1 = 182
Den generelle lineære model, oktober 2008 32
Model 1: med interaktion
Hypotesen, model 2: uden interaktion
∆MS = 0.1729, ∆DF = 2, DF1 = 182
Source DF Type I SS Mean Square F Value Pr > F
sas_ansat 1 1.31577345 1.31577345 6.41 0.0122
abstid 2 1.25619157 0.62809578 3.06 0.0493
sas_ansat*abstid 2 0.34579420 0.17289710 0.84 0.4323
Source DF Type III SS Mean Square F Value Pr > F
sas_ansat 1 0.91298917 0.91298917 4.45 0.0363
abstid 2 1.25068088 0.62534044 3.05 0.0499
sas_ansat*abstid 2 0.34579420 0.17289710 0.84 0.4323
F = 0.1729
0.2052= 0.84 ∼ F (2, 182)
Den generelle lineære model, oktober 2008 33
Bemærk at der er 2 slags kvadratsummer!
De sikre rad:
• Brug altid Type III
med mindre du er helt sikker pa, hvad du gør
• Test kun en relevant virkning af gangen
Hvis reduceret model accepteres,
lav da ny analyse for denne model.
• Se ikke pa hovedvirkninger, der indgar i vekselvirkninger!
Den generelle lineære model, oktober 2008 34
Fittede værdier (y) i den reducerede model uden interaktion
Den generelle lineære model, oktober 2008 35
Fittede værdier (y) i model med interaktion
Den generelle lineære model, oktober 2008 36
Et nyt begreb: Kovariansanalyse
— er blot en (historisk betinget) betegnelse for en generel lineær
model med netop en gruppering (Class-variabel) og netop en
kvantitativ variabel (kovariat, forklarende variabel).
Formalet med at inddrage en ekstra kovariat
• fjerne bias
f.eks at korrigere for en evt. højdeforskel ved sammenligning af
lungefunktion for rygere og ikke-rygere
• øge styrken
ved at nedbringe den uforklarede del af variationen,
f.eks. ved at inddrage alder som kovariat i en randomiseret
undersøgelse
Den generelle lineære model, oktober 2008 37
Bias ved sammenligning af grupper forekommer
• hvis der er i grupperne er forskel pa fordelingen af en
betydningsfuld kovariat
(kaldes ofte en confounder)
Confounder
Gruppe/behandling
Outcome
��
��
@@
@R
Den generelle lineære model, oktober 2008 38
Eksempel om lungekapacitet, TLC
32 patienter skal have foretaget hjerte/lunge transplantation
TLC (Total Lung Capacity)
bestemmes ved hjælp af helkrops plethysmografi
Er der forskel pa mænd og kvinder?
OBS SEX AGE HEIGHT TLC
1 F 35 149 3.40
2 F 11 138 3.41
3 M 12 148 3.80
. . . . .
. . . . .
30 M 25 180 8.10
31 M 22 173 8.70
32 M 25 171 9.45
Den generelle lineære model, oktober 2008 39
• Tydelig kønsforskel for savel TLC som HEIGHT
• Kan højdeforskellen alene forklare forskellen i
lungekapacitet?
Den generelle lineære model, oktober 2008 40
Relation mellem tlc og height:
height
sex
lung capacity
��
��
@@
@R
• Eller er der ogsa en selvstændig kønseffekt?
Den generelle lineære model, oktober 2008 41
Kovariansanalyse: Sammenligning af parallelle regressionslinier
Model:
ygi = αg + βxgi + εgi g = 1, 2; i = 1, · · · , ng
α2 − α1 er den forventede forskel i respons mellem de to grupper for
fastholdt værdi af x. Vi har justret for x.
Den generelle lineære model, oktober 2008 42
Hvad sker der , hvis vi ‘glemmer’ x i modellen?
Den generelle lineære model, oktober 2008 43
Kovariansanalyse:
Model:
ygi = αg + βxgi + ǫgi g = 1, 2; i = 1, . . . , ng
Og hvad er det sa, der sker, hvis vi ‘glemmer’ x i modellen?
1. Bias.
Hvis x1 6= x2, bliver forskellen forkert vurderet.
2. Inefficiens.
Selv om x1 = x2, mister vi styrke (spredning for stor).
Den generelle lineære model, oktober 2008 44
Men skal linierne nødvendigvis være parallelle?
Mere generel model: ygi = αg + βgxgi + εgi
Nar β1 6= β2, siger vi, at der er
vekselvirkning = interaktion. Det betyder:
• Effekten af højde (x) afhænger af kønnet (g)
• Forskellen pa kønnene afhænger af højden
Her kan man ikke udtale sig om en generel effekt af højde eller køn.
Den generelle lineære model, oktober 2008 45
I forsøg pa at skaffe varianshomogenitet, logaritmerer vi tlc
... men det bliver ikke rigtigt godt...
Den generelle lineære model, oktober 2008 46
Specifikation af model
Model med vekselvirkning:
I SAS Analyst: Statistics/ANOVA/Linear models
• indsætte height som kvantitativ variabel
• indsætte sex som kategorisk (Class-variabel)
• Under Model-knap kan man indsætte “cross”-led
Den generelle lineære model, oktober 2008 47
OutputDependent Variable: ltlc
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 3 0.27230446 0.09076815 13.05 <.0001
Error 28 0.19478293 0.00695653
Corrected Total 31 0.46708739
R-Square Coeff Var Root MSE ltlc Mean
0.582984 10.85524 0.083406 0.768346
Source DF Type I SS Mean Square F Value Pr > F
sex 1 0.13626303 0.13626303 19.59 0.0001
height 1 0.13451291 0.13451291 19.34 0.0001
height*sex 1 0.00152852 0.00152852 0.22 0.6429
Den generelle lineære model, oktober 2008 48
Source DF Type III SS Mean Square F Value Pr > F
sex 1 0.00210426 0.00210426 0.30 0.5867
height 1 0.13597107 0.13597107 19.55 0.0001
height*sex 1 0.00152852 0.00152852 0.22 0.6429
Standard
Parameter Estimate Error t Value Pr > |t|
Intercept -.2190181620 B 0.35221658 -0.62 0.5391
sex F -.2810587157 B 0.51102682 -0.55 0.5867
sex M 0.0000000000 B . . .
height 0.0060473650 B 0.00201996 2.99 0.0057
height*sex F 0.0014344422 B 0.00306016 0.47 0.6429
height*sex M 0.0000000000 B . . .
Den generelle lineære model, oktober 2008 49
Omregning til de to linier:
Linie for mænd (reference gruppen):
log10(Lung capacity) = −0.219 + 0.00605 × height
Linie for kvinder:
log10(Lung capacity) = −0.219 + (−0.281) + (0.00605 + 0.00143) × height
= −0.500 + 0.00748 × height
Den generelle lineære model, oktober 2008 50
SAS-udregning af de to linier
• Bibehold interaktionen sex*height
• Udelad den marginale effekt height
• Udelad intercept (under Model)
Source DF Type III SS Mean Square F Value Pr > F
sex 2 0.01537968 0.00768984 1.11 0.3451
height*sex 2 0.13604143 0.06802071 9.78 0.0006
Standard
Parameter Estimate Error t Value Pr > |t|
sex F -.5000768777 0.37025922 -1.35 0.1876
sex M -.2190181620 0.35221658 -0.62 0.5391
height*sex F 0.0074818072 0.00229877 3.25 0.0030
height*sex M 0.0060473650 0.00201996 2.99 0.0057
Den generelle lineære model, oktober 2008 51
Fortolkning af p-værdien for vekselvirkningsleddet
• Bibehold interaktionen sex*height
• Udelad den marginale effekt height
• Udelad intercept
Source DF Type III SS Mean Square F Value Pr > F
sex 2 0.01537968 0.00768984 1.11 0.3451
height*sex 2 0.13604143 0.06802071 9.78 0.0006
Nu er vekselvirkningen stærkt signifikant?
Fortolkning af p-værdien for vekselvirkningsleddet ændres nar en af
hovedvirkningerne udelades.
Ovenstaende F-test tester ikke kun vekselvirkningen. Der testes ned
til en model der kun tillader at responsniveauet at afhænge af sex.
Den generelle lineære model, oktober 2008 52
Forskellige parametriseringer i SAS
Udelad height, men bibehold interaktionen: height*sex
Modellen ændres ikke
Smart fordi outputtet angiver de to regressionslinjer direkte
MEN testet for interaktion findes kun i det output hvor begge
hovedvirkninger er med
Den generelle lineære model, oktober 2008 53
Modelreduktion
Vi kunne ikke se nogen vekselvirkning og udelader den af modellen
Source DF Type III SS Mean Square F Value Pr > F
sex 1 0.00968023 0.00968023 1.43 0.2415
height 1 0.13451291 0.13451291 19.87 0.0001
Standard
Parameter Estimate Error t Value Pr > |t|
Intercept -.3278068826 B 0.26135206 -1.25 0.2198
sex F -.0421012632 B 0.03520676 -1.20 0.2415
sex M 0.0000000000 B . . .
height 0.0066723630 0.00149683 4.46 0.0001
Bemærk: Nu er kønseffekten forsvundet
Den generelle lineære model, oktober 2008 54
Fortolkning
I dette eksempel sa vi
• Den observerede forskel i (log10) lungekapacitet mellem mænd og
kvinder kunne godt tilskrives højdeforskellen mellem kønnene.
Der kan dog stadig være en kønsforskel op til
0.0421 ± 2.045 × 0.0352 = (−0.030, 0.114),
svarende til intervallet (0.933, 1.300) for ratio’en,
dvs. op til en 30% øget lungefunktion hos mænd
Den generelle lineære model, oktober 2008 55
Husk modelkontrol:
Den generelle lineære model, oktober 2008 56
Det kan ogsa forekomme, at
• Tilsyneladende ens grupper (f.eks. blodtryk hos mænd og
kvinder) udviser forskelle, nar der bliver korrigeret for
inhomogeniteter (f.eks. fedmegrad)
Man skal huske “alle” variable med potentiel betydning for
outcome!
... uden at ga for meget pa fisketur!!
Den generelle lineære model, oktober 2008 57
Eksempel: Fedmegrad og blodtryk
obese: vægt/idealvægt
bp: systolisk blodtryk
obs sex obese bp
1 male 1.31 130
2 male 1.31 148
3 male 1.19 146
4 male 1.11 122
. . . .
. . . .
101 female 1.64 136
102 female 1.73 208
Den generelle lineære model, oktober 2008 58
Illustration af blodtryk vs. fedmegrad
Den generelle lineære model, oktober 2008 59
Marginale sammenligninger af kønnene (t-tests):
Først outcome, logaritmeret blodtryk, lbp
Statistics
Lower CL Upper CL Lower CL
Variable sex N Mean Mean Mean Std Dev Std Dev
lbp female 58 2.0806 2.0969 2.1132 0.0524 0.062
lbp male 44 2.0873 2.1037 2.1201 0.0445 0.0539
lbp Diff (1-2) -0.03 -0.007 0.0165 0.0515 0.0587
T-Tests
Variable Method Variances DF t Value Pr > |t|
lbp Pooled Equal 100 -0.58 0.5625
lbp Satterthwaite Unequal 98.1 -0.59 0.5549
Equality of Variances
Variable Method Num DF Den DF F Value Pr > F
lbp Folded F 57 43 1.32 0.3383
Vi ser ikke nogen signifikant forskel pa mænd og kvinder.
Den generelle lineære model, oktober 2008 60
og sa kovariaten, logaritmeret fedmegrad, lobese
Statistics
Lower CL Upper CL Lower CL
Variable sex N Mean Mean Mean Std Dev Std Dev
lobese female 58 0.1184 0.1396 0.1608 0.0683 0.0807
lobese male 44 0.0534 0.0725 0.0917 0.052 0.063
lobese Diff (1-2) 0.0379 0.0671 0.0963 0.0647 0.0736
T-Tests
Variable Method Variances DF t Value Pr > |t|
lobese Pooled Equal 100 4.56 <.0001
lobese Satterthwaite Unequal 99.9 4.71 <.0001
Equality of Variances
Variable Method Num DF Den DF F Value Pr > F
lobese Folded F 57 43 1.64 0.0913
Her ses en signifikant forskel i fedmegrad for mænd og kvinder, sa
hvis fedmegrad ogsa hænger sammen med blodtryk....
Den generelle lineære model, oktober 2008 61
Og der er en sammenhæng mellem fedmegrad og blodtryk:
sex=female
Spearman Correlation Coefficients, N = 58
Prob > |r| under H0: Rho=0
bp obese
bp 1.00000 0.49121
<.0001
obese 0.49121 1.00000
<.0001
sex=male
Spearman Correlation Coefficients, N = 44
Prob > |r| under H0: Rho=0
bp obese
bp 1.00000 0.24828
0.1042
obese 0.24828 1.00000
0.1042
Den generelle lineære model, oktober 2008 62
Nar vi sammenligner blodtryk kønnene imellem, ma vi ma derfor
korrigere for fedmegrad, først med vekselvirkning:
Dependent Variable: lbp
R-Square Coeff Var Root MSE lbp Mean
0.161679 2.588486 0.054354 2.099830
Source DF Type I SS Mean Square F Value Pr > F
lobese 1 0.03809379 0.03809379 12.89 0.0005
sex 1 0.01597238 0.01597238 5.41 0.0221
lobese*sex 1 0.00177193 0.00177193 0.60 0.4405
Source DF Type III SS Mean Square F Value Pr > F
lobese 1 0.03920980 0.03920980 13.27 0.0004
sex 1 0.01252714 0.01252714 4.24 0.0421
lobese*sex 1 0.00177193 0.00177193 0.60 0.4405
Den generelle lineære model, oktober 2008 63
Standard
Parameter Estimate Error t Value Pr > |t|
Intercept 2.087171366 B 0.01257865 165.93 <.0001
lobese 0.227981122 B 0.13158758 1.73 0.0863
sex female -0.039290663 B 0.01908066 -2.06 0.0421
sex male 0.000000000 B . . .
lobese*sex female 0.123097524 B 0.15894836 0.77 0.4405
lobese*sex male 0.000000000 B . . .
Ingen signifikant vekselvirkning, vi udelader den.
Den generelle lineære model, oktober 2008 64
Model uden vekselvirkning (parallelle linier):
Dependent Variable: lbp
Source DF Type I SS Mean Square F Value Pr > F
lobese 1 0.03809379 0.03809379 12.95 0.0005
sex 1 0.01597238 0.01597238 5.43 0.0218
Source DF Type III SS Mean Square F Value Pr > F
lobese 1 0.05290402 0.05290402 17.98 <.0001
sex 1 0.01597238 0.01597238 5.43 0.0218
Standard
Parameter Estimate Error t Value Pr > |t|
Intercept 2.081052655 B 0.00976800 213.05 <.0001
lobese 0.312347032 0.07366198 4.24 <.0001
sex female -0.027765105 B 0.01191694 -2.33 0.0218
sex male 0.000000000 B . . .
Sa kom der pludselig en signifikant kønsforskel
Den generelle lineære model, oktober 2008 65
Illustration af blodtryk vs. fedmegrad
Den generelle lineære model, oktober 2008 66
Metoder til at undga bias
Matchning. Dvs. udvælge individer, saledes at de er nogenlunde ens
med hensyn til de vigtige forstyrrende kovariater.
(Dette kan gøres parvist eller i større grupper)
Randomisering. Dvs. trække lod om behandling (gruppe)
NB: Dette kan naturligvis kun lade sig gøre, hvis grupperne er
noget, man selv bestemmer over.
Korrektion Dvs. at medtage den skævt fordelte variabel som
kovariat, altsa: en kovariansanalyse
Den generelle lineære model, oktober 2008 67
Metoder til at øge styrken
• flere observationer/personer
• øg spredning i ’eksponeringen’
• design-ændring (f.eks fra uparret til parret)
• inddrage vigtige forklarende variable (kovariater)
Men pas pa med at ga for meget pa fisketur!!