SUOMEN JA VENÄJÄN SUHTEIDEN KEHITTÄMINEN KARJALA-KYSYMYKSEN RATKAISUN POHJALTA
Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa...
Transcript of Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa...
![Page 1: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/1.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 127
Perusestimointi 5Analyysiä survey-datallaTee Suomen datalla jokin oma kokeilu käyttäen tätä malliaEsimerkki PISA 2006:sta SAS:lla
proc surveymeans data=pisa.impuoecd;
where cnt='FIN' or cnt='DEU' or cnt='USA' or cnt='CAN' or
cnt='ITA';
var meanscie meanread SCIEFUT WEALTH;
domain cnt ST04Q01;
title 'Yso: Keskiarvot viidelle maalle sukupuolen mukaan';
run;
proc surveymeans data=pisa.impuoecd;
where cnt='FIN' or cnt='DEU' or cnt='USA' or cnt='CAN' or
cnt='ITA';
var meanscie meanread SCIEFUT WEALTH;
domain cnt ST04Q01; strata stratum;
cluster schoolid; weight w_fstuwt;
title 'Ositettu kaksiasteinen ryväsotanta: Keskiarvot
viidelle maalle sukupuolen mukaan'; run;
8.10.2009 127SurveyMetodiikka 2009 Seppo
![Page 2: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/2.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 128
Tehtävänäsi on vertailla tuloksia (seuraavat sivut) ja jos haluat voit laskea myös DEFF-luvut.Muistat että DEFF vertaa varianssiestimaattia kullakin asetelmallayksinkertaisella satunnaisotannalla saatuun varianssiin, mikä nähdään ensimmäisestä tulosteesta. Toisesta tulosteesta taas saadaan PISA:n asetelman keskivirheet. Muistanet että DEFF on varianssien suhde. Tuloksissa on sen sijaan keskivirheet, joiden neliö on varianssi.
Muuttujat:SCIEFUT Future-oriented science motivation PISA 2006 (WLE)
WEALTH Family wealth PISA 2006 (WLE)meanscie Luonnontieteellisen osaamisen keskiarvo oppilastasollameanread luetun tekstin ymmärtämisen keskiarvo oppilastasolla
8.10.2009 128SurveyMetodiikka 2009 Seppo
Perusestimointi 6Analyysiä survey-datalla
![Page 3: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/3.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 129
Yso: Keskiarvot viidelle maalle sukupuolen mukaan 6
Domain Analysis: Country code 3-character
Country code Std Error3-character Variable Mean of Mean 95% CL for MeanƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒCanada meanscie 522.523293 0.613824 521.320195 523.726390
meanread 512.318449 0.632880 511.077998 513.558899SCIEFUT 0.257585 0.007095 0.243678 0.271492WEALTH 0.085487 0.004586 0.076499 0.094475
Germany meanscie 516.206675 1.388157 513.485882 518.927469meanread 496.530138 1.543957 493.503970 499.556306SCIEFUT -0.153333 0.015136 -0.182998 -0.123667WEALTH 0.241345 0.011343 0.219114 0.263577
Finland meanscie 563.379017 1.196954 561.032982 565.725052meanread 547.080464 1.118021 544.889135 549.271793SCIEFUT -0.166362 0.012596 -0.191049 -0.141674WEALTH 0.400162 0.010679 0.379232 0.421092
Italy meanscie 487.153036 0.632060 485.914197 488.391876meanread 477.008107 0.695491 475.644939 478.371275SCIEFUT 0.112834 0.006259 0.100566 0.125103WEALTH -0.162371 0.004848 -0.171873 -0.152869
United States meanscie 488.290911 1.366549 485.612470 490.969353meanread 478.515607 1.257594 476.050717 480.980497 SCIEFUT 0.212386 0.012976 0.186952 0.237820WEALTH 0.150960 0.010691 0.130006 0.171914
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
8.10.2009 129SurveyMetodiikka 2009 Seppo
Perusestimointi 7Analyysiä survey-datalla
![Page 4: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/4.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 130
Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan 8
Data Summary
Number of Strata 135Number of Clusters 2242Number of Observations 59635Sum of Weights 5433873.59
Domain Analysis: Country code 3-character
Country code Std Error3-character Variable Mean of Mean 95% CL for MeanƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒCanada meanscie 534.469777 2.096610 530.358234 538.581321
meanread 527.011295 2.266225 522.567129 531.455462SCIEFUT 0.202674 0.014836 0.173579 0.231768WEALTH 0.155705 0.014736 0.126808 0.184603
Germany meanscie 515.649130 5.082070 505.683073 525.615186meanread 494.944418 5.800636 483.569236 506.319600SCIEFUT -0.150840 0.020130 -0.190315 -0.111364WEALTH 0.241042 0.020835 0.200185 0.281900
Finland meanscie 563.322834 2.012347 559.376564 567.269104meanread 546.868281 2.222051 542.510776 551.225787SCIEFUT -0.170775 0.015194 -0.200570 -0.140979WEALTH 0.396974 0.014315 0.368901 0.425046
Italy meanscie 475.397220 2.309913 470.867341 479.927100meanread 468.523109 2.629278 463.366935 473.679282SCIEFUT 0.196975 0.016020 0.165559 0.228392WEALTH -0.120927 0.012365 -0.145176 -0.096678
United States meanscie 488.906837 4.893079 479.311395 498.502279meanread 478.850105 4.409943 470.202105 487.498104SCIEFUT 0.201740 0.014077 0.174134 0.229347WEALTH 0.150898 0.031162 0.089788 0.212008
8.10.2009 130SurveyMetodiikka 2009 Seppo
Perusestimointi 8Analyysiä survey-datalla
![Page 5: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/5.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 131
Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan 8
Domain Analysis: Gender Q4
Gender Std ErrorQ4 Variable Mean of Mean 95% CL for MeanƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒFemale meanscie 494.890425 3.203572 488.607931 501.172919
meanread 515.892143 2.903679 510.197768 521.586519SCIEFUT 0.069997 0.013949 0.042641 0.097352WEALTH 0.114305 0.022265 0.070641 0.157969
Male meanscie 497.131693 3.956830 489.371990 504.891396meanread 475.987262 3.359295 469.399379 482.575145SCIEFUT 0.211679 0.015411 0.181457 0.241901WEALTH 0.169271 0.023587 0.123015 0.215528
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Yso: Keskiarvot viidelle maalle sukupuolen mukaan Domain Analysis: Gender Q4
Gender Std ErrorQ4 Variable Mean of Mean 95% CL for MeanƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒFemale meanscie 508.021161 0.534470 506.973597 509.068724
meanread 520.685393 0.563625 519.580682 521.790103SCIEFUT 0.093977 0.005756 0.082695 0.105259WEALTH -0.008827 0.004236 -0.017129 -0.000525
Male meanscie 510.189483 0.577763 509.057065 511.321900meanread 478.456622 0.630157 477.221510 479.691733SCIEFUT 0.174581 0.005830 0.163153 0.186008WEALTH 0.085481 0.004362 0.076931 0.094030
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
8.10.2009 131SurveyMetodiikka 2009 Seppo
Perusestimointi 9Analyysiä survey-datalla
![Page 6: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/6.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 132
Kolmiulotteinen pylväs- ym. diagrammi
CAED
![Page 7: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/7.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 133
Analyysiä surveydatalla - Mallittamisesta 1
Tällä kurssilla ei ole käydä mallittamista läpi laajasti, joten kiinnostuneen on tarpeen osallistua muillekin kursseille ja/tai opiskella asioita kirjallisuudesta. Oikean datan kanssa kokeilu auttaa erityisen paljon avartamaan mallittamista. Edellä on jo kuvattu mallityypit. Kun mallittamisen käyttö on selvitetty, on mietittävä, mikä malli sopii ao. tilanteeseen. Vaihtoehtojahan on. Tässä keskustelen lähinnä lineaarisista tai linearisoiduista malleista. Linearisointi viittaa siihen, että jos aineisto ei näytä sellaiselta että lineaarinen malli sopisi (eli selitettävän jakaumafunktio on normaalinen ja yhteydet siitä selittäjiin ovat lineaarisia), niin on tehtävä operaatioita joilla nämä saadaan aikaan. Puhutaan yleistetyistä lineaarisista malleista (Generalized Linear Models). * Ohjelmistoissa on tällaiseen hyviä vaihtoehtoja, osa siten että silläsaa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen. Tämä oli jo esillä vastaamisen mallittamisessa. * Toinen strategia on käyttää yleisempää ohjelmistoa, johon voi valita kuhunkin tilanteeseen sopivat linkit ja jakaumat (SAS:ssa Proc Genmod).
8.10.2009 133SurveyMetodiikka 2009 Seppo
![Page 8: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/8.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 134
Analyysiä surveydatalla - Mallittamisesta 2
Kuten on jo todettu, uusissa ohjelmistoissa on mahdollista sisällyttää malliin myös ryväs jos sellainen on otanta-asetelmassa ja osite jos sellaista on käytetty. Kuten keskiarvoesimerkissä edellä on havaittu, ryväs-vaikutus on usein suurempi kuin osite-vaikutus. SAS:ssa voi nämä mallit tehdä SurveyLogistic:lla ja SPSS:ssä on logistic Complex Samples -ohjelmassa. Siten tämän tyypin malli on varsin helppo surveyaineistolla.
SAS:ssa on myös SurveyREG jolla saa tavallisen lineaarisen mallin estimaatit oikein keskivirheiden osalta. Se toimii ihan samoin kuin perusSAS:in GLM jossa on kuitenkin vain otospainon mahdollisuus. SPSS:ssä GLM:ää vastaa General Linear Model joka on samalla nimellä sekä perusSPSS:n että Complex Samples:n puolella. Kysehän on monimuuttujaisesta regressiomallista, jossa on yksi selitettävä ja voit asettaa selittäjiksi sekä jatkuvia että luokiteltuja (kategorisia) muuttujia. Muuttujan luonne on ilmaistava (SAS:ssa asettamalla luokitellut CLASS-ryhmään, SPSS:ssä asettamalla nämä Factors-laatikkoon).
8.10.2009 134SurveyMetodiikka 2009 Seppo
![Page 9: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/9.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 135
Analyysiä survey-datalla - Mallittamisesta 3
Kuten edeltä ilmenee, ei kaikkiin ohjelmistoihin ole SAS:ssa eikä SPSS:ssä kaikkia monimutkaisen surveyn optioita, mutta painopuuttuja on eli minimi. Voi olla myös niin, ettei aineistossa ole niitä, vaikka otanta olisi perustunut ryppäisiin yms. Miten tällöin menetellä. Piste-estimointi siis tulee oikein. Mieti vielä, MITEN?Entäpä keskivirheet, luottamusvälit ja p-arvot?
En kykene antamaan tyhjentävää vastausta, mutta jotakin:- Ole konservatiivinen eli älä vedä suuria johtopäätöksiä vähäisestätilastollisesta merkitsevyydestä.- Arvioi vaikkapa SurveyMeans:n kautta kuinka suuri voisi DEFF olla. On onneksi usein niin että mallissa DEFF on pienempi (lähempänä ykköstä) kuin keskiarvolaskelmissa, ja erityisesti jos otanta-asetelmamuuttujia on mukana mallin selittäjissä tai muissa osioissa.
8.10.2009 135SurveyMetodiikka 2009 Seppo
![Page 10: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/10.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 136
Analyysiä survey-datalla - Malliesimerkit 1
Kurssin lopun mallitusharjoitukset tehdään yleisellä lineaarisella (regressio)mallilla. Teknisesti muut ohjelmat (vaikkapa logit tai probit tai monitasovaihtoehdot) toimivat samaan tapaan. Yleinen lineaarinen tilanne on ehkä yleisin tilanne eikä välttämättä monimutkainen, joten valinta tehtiin tästä syystä. Muilla kursseilla voit laajentaa tietämystäsi, myös teoreettiselta kannalta.
Regressiotyyppisessä mallissa selitettävän tulee olla jatkuva muuttuja tai sellaisena käsitelty. ESS:ssä on esimerkiksi runsaasti järjestysasteikollisia muuttujia joita voi siten asettaa selitettäviksi malliin ja etsiä selittäjät teorian ja yleisen tietämyksen mukaan. PISA:n osaamismuuttujat näyttävät jatkuvilta vaikka ovat nekin järjestysasteikollisia. Ne ja monet muut sopivat siis selitettäviksi.
Seuraavaksi otan esimerkin kummastakin. Ensin PISA.
8.10.2009 136SurveyMetodiikka 2009 Seppo
![Page 11: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/11.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 137
Analyysiä survey-datalla - Malliesimerkit 2 (PISA)
Otan esimerkkiin melkoisen yksinkertaisen selitettävän eli PISA2006:n päämuuttujan = luonnontieteellisen osaamisen. Koska se on laskettua 5 eri ’uskottavan eli osin imputoidun’ osaamisarvon keskiarvona, se on nimetty pvmeanscie
Aloitan mallittamisen melko nollasta asettamatta malliin selittäjiä ollenkaan. SAS-ohjelma on seuraava:
Näet että otanta-asetelmatekijät on sijoitettu malliin samoin kuin edellä SURVEYMEANS:ssa.
proc surveyreg data=pisa.fi;
model pvmeanscie =
/solution;
cluster schoolid; strata stratum; weight w_fstuwt;
title 'Luonnontieteellisen osaamisen malli 1: vakio';
run;
8.10.2009 137SurveyMetodiikka 2009 Seppo
![Page 12: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/12.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 138
Analyysiä survey-datalla - Malliesimerkit 3 (PISA)
Luonnontieteellisen osaamisen malli 1: vakio
The SURVEYREG ProcedureRegression Analysis for Dependent Variable pvmeanscie
Data Summary
Number of Observations 4714Sum of Weights 61387.0Weighted Mean of pvmeanscie 563.32283Weighted Sum of pvmeanscie 34580690
Design SummaryNumber of Strata 12Number of Clusters 155
Fit StatisticsR-square 0.9791Root MSE 82.2705Denominator DF 143
Tests of Model Effects
Effect Num DF F Value Pr > FModel 0 . .Intercept 1 78362.6 <.0001
NOTE: The denominator degrees of freedom for the F tests is 143.
Estimated Regression CoefficientsStandard
Parameter Estimate Error t Value Pr > |t|
Intercept 563.322834 2.01234725 279.93 <.0001
Tällainen ’pohja-malli’ voi ollahassu mutta näet kuitenkinettä se tuottaaIntercept:n elivakion jokaon tasan samakuin keskiarvo.Lisäksi saatkeskivirheen (noin 2 pistettä)ja tavalliset tunnusluvutjotkaolivat täysinodotetut
8.10.2009 138SurveyMetodiikka 2009 Seppo
![Page 13: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/13.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 139
Analyysiä survey-datalla - Malliesimerkit 4 (PISA)
Tässä on kaksiselittäjää,taustatekijöitä.Nyt selitysasteellaon mieltä, päinvastoinkuin edellisessä.Vanhempienkoulutusvuosienmäärä PAREDon merkittäväselittäjä. Onkosukupuoli?Huom.Tulosteon supistettu.
Fit Statistics
R-square 0.04300Root MSE 80.0972Denominator DF 143
Class Level InformationClassVariable Label Levels ValuesST04Q01 Gender Q4 2 Female Male
Tests of Model Effects
Effect Num DF F Value Pr > FModel 2 88.36 <.0001Intercept 1 3801.67 <.0001ST04Q01 1 1.06 0.3054PARED 1 176.63 <.0001
NOTE: The denominator degrees of freedom for the F tests is 143.
Estimated Regression CoefficientsStandard
Parameter Estimate Error t Value Pr > |t|
Intercept 462.848247 7.73360330 59.85 <.0001ST04Q01 Female 2.587664 2.51562093 1.03 0.3054ST04Q01 Male 0.000000 0.00000000 . .PARED 6.900300 0.51919624 13.29 <.0001
8.10.2009 139SurveyMetodiikka 2009 Seppo
![Page 14: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/14.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 140
Analyysiä survey-datalla - Malliesimerkit 5 (PISA)
Tässä on estimaatteja kun malliin on lisätty joukko koulutason muuttujia eli koulun opetuksen toimintatapoja mutta oppilaiden näkemyksen mukaan. Et ehkä ymmärrä täysin muuttujan merkitystä mutta nimi on annettu kuvaamaan itse asiaa ja selittävän muuttujan skaala on [0, 100].
Luonnontieteellisen osaamisen malli 1: koulumuuttujia myös
R-square 0.1302The SURVEYREG Procedure
Regression Analysis for Dependent Variable pvmeanscieEstimated Regression Coefficients
StandardParameter Estimate Error t Value Pr > |t|
Intercept 457.127120 8.12594084 56.26 <.0001ST04Q01 Female 0.766337 2.35962872 0.32 0.7458ST04Q01 Male 0.000000 0.00000000 . .PARED 6.312026 0.48769981 12.94 <.0001student_discussion -0.093062 0.04806734 -1.94 0.0548student_debate -0.899094 0.05486628 -16.39 <.0001student_ideas 0.045172 0.05902113 0.77 0.4453teacher_explain 0.569431 0.09131187 6.24 <.0001practical_work 0.379530 0.07060081 5.38 <.0001
8.10.2009 140SurveyMetodiikka 2009 Seppo
![Page 15: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/15.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 141
Analyysiä survey-datalla - Malliesimerkit 1 (ESS)Tässä osastossa kokeilen mallittaa ESS-datalla 15+ -ikäisten onnellisuutta, mikä on viime vuosina noussut kiintoisaksi aiheeksi taloustieteilijöiden, psykologien ja sosiaalitieteilijöiden tutkimuksissa. En ratkaise tässä tätä vaan esitän muutamia hahmotuksia mallin rakentamiseksi. Lue lisää vaikkapa Blanchflowerin, Oswaldin, Easterlinin ja Narsin julkaisuista. ESS-datasta tuotin painottamattoman frekvenssijakauman pohjakatselua ja mallin hahmottelua varten. Tein alkuperäiseen skaalaan[0,10] lineaarisenmuunnoksen siten että tässä skaala on [0,100].
Painotettukeskiarvo =71,7ja cv=28,2
8.10.2009 141SurveyMetodiikka 2009 Seppo
![Page 16: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/16.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 142
Analyysiä survey-datalla - Malliesimerkit 2 (ESS)
Onnellisuusjakauma ei ole erityisen normaalinen mutta tässä en kanna siitä huolta, koska tutkimusten valtavirtakaan ei ole niin tehnyt. Mieti kuitenkin voisitko kokeilla jotain muuta mallia?
Jo edellisestä esimerkistä olet oppinut että jos selität onnellisuutta maalla, saat maakohtaiset onnellisuuden keskiarvot (vakioon kun lisäät maan estimaatin). Vastaavasti jos selität onnellisuutta muuttujien maa = CNTRY ja ESS-kierroksen = ESSROUND vuorovaikutusmuuttujalla, saat kunkin maan ESS-kierroksittaiset keskiarvot. Tässä en näin tehnyt vaan käytin ESS-kierrosta 4 jossaon siis mukana 18 maata tässä vaiheessa.
Otin kurssilaisten esille tuomista muuttujista muutaman sekä lisäksi perinteisiä. Näiden tarkempi kuvaus esitetään SAS:n avulla.
8.10.2009 142SurveyMetodiikka 2009 Seppo
![Page 17: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/17.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 143
Analyysiä survey-datalla - Malliesimerkit 3 (ESS)
Tässä on kaikkien selittäjienmerkitsevyyttä ym kuvaava SPSS-tuloste.PoikkeaaSAS:n vastaavasta mutta samat asiat ovat mukana.
Tulkitse
tuloksia
tällä
yleisellä
tasolla
sekä jatka
seuraavan
sivun
tarkemman
kuvauksen
kanssa.
8.10.2009 143SurveyMetodiikka 2009 Seppo
Tests of Between-Subjects Effectsb
Dependent Variable:onnellisuus
Source
Type III Sum of
Squares df Mean Square F Sig.
Partial Eta
Squared
Corrected Model 1,087E6 43 25279,066 81,106 ,000 ,150
Intercept 789928,749 1 789928,749 2534,438 ,000 ,114
siviilisaaty 159396,485 9 17710,721 56,824 ,000 ,025
INWTM 25,112 1 25,112 ,081 ,777 ,000
vas_oik 20542,628 1 20542,628 65,910 ,000 ,003
ika2 59878,955 1 59878,955 192,118 ,000 ,010
ika 78899,475 1 78899,475 253,144 ,000 ,013
rukoilu 12,264 1 12,264 ,039 ,843 ,000
personal20 19611,701 1 19611,701 62,923 ,000 ,003
liika_etu 552,149 1 552,149 1,772 ,183 ,000
CNTRY 482619,826 16 30163,739 96,779 ,000 ,073
GNDR 5837,948 1 5837,948 18,731 ,000 ,001
INWMME 5629,140 10 562,914 1,806 ,054 ,001
Error 6163433,718 19775 311,678
Total 1,321E8 19819
Corrected Total 7250433,539 19818
a. R Squared = ,150 (Adjusted R Squared = ,148)
b. Weighted Least Squares Regression - Weighted by Design weight
![Page 18: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/18.jpg)
Dependent Variable:onnellisuus
Parameter B Std. Error t Sig.
95% Confidence Interval
Partial Eta SquaredLower Bound Upper Bound
Intercept 72,451 1,166 62,154 ,000 70,167 74,736 ,158
INWTM ,001 ,005 ,186 ,853 -,008 ,010 ,000
vas_oik ,055 ,006 9,563 ,000 ,044 ,066 ,004
ika2 ,003 ,000 7,353 ,000 ,002 ,004 ,003
ika -,326 ,035 -9,264 ,000 -,394 -,257 ,004
rukoilu ,004 ,003 1,037 ,300 -,003 ,010 ,000
personal20 ,031 ,004 7,165 ,000 ,022 ,039 ,002
liika_etu ,004 ,005 ,773 ,439 -,006 ,014 ,000
[CNTRY=BE] 7,712 ,795 9,702 ,000 6,154 9,270 ,005
[CNTRY=BG] -10,510 ,783 -13,419 ,000 -12,046 -8,975 ,009
[CNTRY=CH] 10,709 ,724 14,785 ,000 9,289 12,128 ,011
[CNTRY=CY] 9,880 ,841 11,750 ,000 8,232 11,528 ,007
[CNTRY=DE] 5,357 ,721 7,426 ,000 3,943 6,771 ,003
[CNTRY=DK] 14,106 ,853 16,541 ,000 12,434 15,777 ,013
[CNTRY=EE] ,599 ,887 ,675 ,500 -1,141 2,338 ,000
[CNTRY=ES] 9,722 ,748 13,004 ,000 8,257 11,188 ,008
[CNTRY=FI] 11,532 ,740 15,591 ,000 10,082 12,982 ,012
[CNTRY=FR] 4,844 ,739 6,554 ,000 3,395 6,292 ,002
[CNTRY=GB] 6,660 ,705 9,443 ,000 5,277 8,042 ,004
[CNTRY=NO] 11,279 ,813 13,869 ,000 9,685 12,873 ,009
[CNTRY=PL] 4,516 ,828 5,451 ,000 2,892 6,139 ,001
[CNTRY=PT] ,913 ,774 1,180 ,238 -,604 2,431 ,000
[CNTRY=RU] -5,272 ,809 -6,520 ,000 -6,857 -3,687 ,002
[CNTRY=SE] 10,008 ,782 12,791 ,000 8,474 11,541 ,008
[CNTRY=SI] 6,125 ,903 6,782 ,000 4,355 7,895 ,002
[CNTRY=SK] 0a . . . . . .
[GNDR=1] -1,004 ,243 -4,137 ,000 -1,480 -,528 ,001
[GNDR=2] 0a . . . . . .
Tästä estimaattitason
tulosteesta on jätetty kaksi
muuttujaa pois koska oli
vaikeuksia saada tuloste
jonnekin mahtumaan.
Nytkin sulla lienee
vaikeuksia hahmottaa
kaikkea hyvin. Yritä
kuitenkin. Muuttujan nimi
paria poikkeusta
lukuunottamatta asetettu
mahdollisimman hyvin
kuvaamaan sen luonnetta.
Skaalat ovat usein [0,100]
kuten rukoilu jossa iso arvo
merkitsee tiheämpää
rukoilemista ja arvo = 0
ettei koskaan rukoile.
![Page 19: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/19.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 145
Harjoitusosio
Edellä on jo tuotu esille harjoitusmahdollisuuksia. Omakohtaiset mutta mikroluokassa ohjatut harjoitukset sisältävät seuraavaa:-Näytän Nielsenin tiedonkeruussa käytettävän skannerin toimintatavan.-Itsekukin tekee estimointeja Irak-datalla koskien kuolleiden lukumääriä yms. estimaatteja koko maan tasolla; mukana voi olla taustamuuttujia. Nyt panostetaan keskivirheisiin ja luottamusväleihin edellisessä vaiheessa tehdyn pohjalta. -Itsekukin tekee minimissään kolmenlaisten estimointien kokeilun PISAn Suomi-datalla itse valitsemilleen muuttujille ja mahdollisille taustamuuttujille: (i) keskiarvoja, (ii) frekvenssejä, (iii) monimuuttujainen regressiomalli. Keskivirheet eri tavoilla laskettuna (huonommilla ja paremmilla) ovat tärkeitä myös.
SAS-ajojen ohjeet on edellä näytetty. Seuraavilla sivuilla on lähtökohdat SPSS:lle.
![Page 20: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/20.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 146
SPSS-ajon lähtökohdat 1
![Page 21: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/21.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 147
SPSS-ajon lähtökohdat 2
![Page 22: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/22.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 148
SPSS-ajon lähtökohdat 3
![Page 23: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/23.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 149
SPSS-ajon lähtökohdat 4
![Page 24: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/24.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 150
SPSS-ajon lähtökohdat 5
![Page 25: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen.](https://reader033.fdocuments.net/reader033/viewer/2022041511/5e283a66b2b6672cc6021432/html5/thumbnails/25.jpg)
8.10.2009 SurveyMetodiikka 2009 Seppo 151
SPSS-ajon lähtökohdat 6Hieman tuloksiakin tässä, tulkitse