Luento 4: Regressioanalyysi

Post on 14-Jan-2016

52 views 0 download

description

Luento 4: Regressioanalyysi. Petri Nokelainen. petri.nokelainen@uta.fi http://www.uta.fi/~petri.nokelainen. Kasvatustieteiden yksikkö Tampereen yliopisto. Sisältö. 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia - PowerPoint PPT Presentation

Transcript of Luento 4: Regressioanalyysi

Luento 4: Regressioanalyysi

Petri Nokelainen

Kasvatustieteiden yksikköTampereen yliopisto

petri.nokelainen@uta.fihttp://www.uta.fi/~petri.nokelainen

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

1. General Linear Model (GLM)

ezz xy (3.2)

k

ixiy ezzi

1

(3.3)

k

ixim

p

iyjm ezz

imjm11

(3.4)

Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva

X (IV) Y (DV)

Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuvaMonimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuvaErotteluanalyysi (LDA) n, jatkuva n, epäjatkuvaFaktorianalyysi (EFA) n, latentti n, jatkuvaPääkomponenttianalyysi (PCA) n, latentti n, jatkuva

Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuvaVarianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuvaKahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen

(Nokelainen, 2008.)

1 jatkuva

n jatkuvaa

Joitakin Seq. Multiple R

1 jatkuva

DV IV Kovariaatit Analyysi

Ei Multiple R

Bivariate r

Ei yhtään n-way Freq. Anal.n diskr.

n jatkuvaa Canonical Rn jatkuvaa

1 diskr. Multilevel modelingn jatkuvaatai diskr.

Muuttujienvälisten

riippuvuuksienvoimakkuus

Muuttujienvälisten

riippuvuuksienvoimakkuus

1.1 Korrelaatio

IV 1 DV

ezz xy (3.2)

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

2. Regressioanalyysi

ezz xy (3.2)

k

ixiy ezzi

1

(3.3)

k

ixim

p

iyjm ezz

imjm11

(3.4)

Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva

X (IV) Y (DV)

Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuvaMonimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuvaErotteluanalyysi (LDA) n, jatkuva n, epäjatkuvaFaktorianalyysi (EFA) n, latentti n, jatkuvaPääkomponenttianalyysi (PCA) n, latentti n, jatkuva

Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuvaVarianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuvaKahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen

(Nokelainen, 2008.)

1 jatkuva

n jatkuvaa

Joitakin Seq. Multiple R

1 jatkuva

DV IV Kovariaatit Analyysi

Ei Multiple R

Bivariate r

Ei yhtään n-way Freq. Anal.n diskr.

n jatkuvaa Canonical Rn jatkuvaa

1 diskr. Multilevel modelingn jatkuvaatai diskr.

Muuttujienvälisten

riippuvuuksienvoimakkuus

Muuttujienvälisten

riippuvuuksienvoimakkuus

2. Regressioanalyysi

IV 1

IV 2

IV 3

IV 4

DVr

k

ixiy ezzi

1

(3.3)

2. Regressioanalyysi

”…regression analysis is a method of analyzing the variability of a dependent variable by resorting to information available on one or more independent variables.”

(Pedhazur, 1982, 5)

2. Regressioanalyysi

• Tarkastelee muuttujien välistä lineaarista yhteyttä, ts. ilmoittaa korrelaatiokertoimen tavoin kahden muuttujan välisen vaikutussuhteen voimakkuuden (-1, …, 1).

• Mahdollistaa lisäksi DV -muuttujan arvojen ennustamisen IV –muuttujan (tai muuttujien) arvojen perusteella.

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

2.1 Regressioanalyysin historia

• Perustuu Galtonin (1885) havaintoihin: – Pitkien isien pojista ei keskimäärin

tullutkaan yhtä pitkiä kuin isistään, lyhyiden isien pojista tulikin keskimäärin pidempiä kuin isistään.

– Poikien keskipituus lähestyi keskipituutta.

Sir Francis Galton1822-1911

2.1 Regressioanalyysin historia

• Regressioanalyysi on yksi kasvatustieteiden käytetyimmistä menetelmistä, mutta usein unohdetaan että sen tulisi perustua vahvalle teoreettiselle pohjalle.

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

2.2 Regressioanalyysin lajit

• Yhden tai useamman ennustemuuttujan (IV) regressioanalyysi

• Monimuuttujaregressioanalyysi (Multivariate regression analysis)(ks. lisää esim. Nummenmaa et al., 1997, 307-326; Kerlinger, 1986, 527-561).

• Hierarkkinen regressioanalyysi– Hierarchical/sequential multiple regression

(Pedhazur, 1982; Tabachnick & Fidell, 2007)

• Askeltava regressioanalyysi– Stepwise multiple regression (Pedhazur, 1982;

Tabachnick & Fidell, 2007)

• Kanoninen korrelaatio– Canonical correlation (Kerlinger, 1986, 561-568)

• Logistinen regressioanalyysi– Logistic regression analysis– Poistaa lineaarisen regressioanalyysin vaatimuksen

selitettävän muuttujan jatkuvuudesta, ks. esimerkki dokumentista ”6.1 Logistinen regressio” (FSD)

– Multiway frequency analysis (Nummenmaa et al., 1997, 127-147)

2.2 Regressioanalyysin lajit

A

B

C

A Standardi RB Hierarkkinen RC Askeltava R

IV1

IV2

IV3

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

• Käyttötapoja:– Selittävien (IV) muuttujien etsiminen

• Opiskelumenestyksen selittäminen motivaation ja oppimisstrategioiden avulla.

– Selittävien (IV) muuttujien selitysosuuden tutkiminen

• Kuinka suuri vaikutus varhaisessa vaiheessa tapahtuneella erityisluokalle siirrolla on erityisoppilaan koulumenestykseen.

– Selittävien (IV) muuttujien keskinäisen selitysosuuden vertailu eli mitkä muuttujat ovat toisia parempia tietyn Ilmiön selittäjinä.

– Selitettävän (DV) muuttujan ennustaminen.

2.3 Regressioanalyysin käyttötapoja

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

• Yleisiä rajoituksia– Regressioanalyysin avulla löydetyt

vaikutussuhteet eivät välttämättä ole kausaalisia. • Kausaalisuuden määrittely on looginen ja

koeasetelmallinen ongelma (Pearl, 2000).

– Analyysiin mukaan otettujen DV ja IV muuttujien valinnan tulee olla teoreettisesti, loogisesti tms. perusteltavissa.

2.4 Regressioanalyysin rajoituksia

• Teknisiä rajoituksia– Otoskoko (esim. viisi IV muuttujaa)

• Greenin (1991) mukaan – N > 50+8m (useita IV muuttujia), esim. N = 50+8*5 = 90– N > 104 + m (yksi IV), esim. N = 104 + 5 = 109

• Stevensin (1996) mukaan – N = 15m (kaikissa tapauksissa), esim. 15*5 = 75

– IV muuttujien väliset suhteet• Multikollineaarisuutta (korkeita r = +/- .9 korrelaatioita)

ei saa esiintyä.• Singulaarisuutta (muuttuja on toisen/toisten

kombinaatio, esim. kolmen testin yksittäiset pistemäärät ja niiden summamuuttuja) ei saa esiintyä.

2.4 Regressioanalyysin rajoituksia

• Teknisiä rajoituksia– Poikkeavat arvot (outlier) tulisi poistaa, korvata

uudella arvolla (rescore) tai muuntaa (transform).• X Y –muuttujien kuvaajien tarkastelu!

– Regressioanalyysiohjelmissa (SAS, BMDP, SPSS) poikkeavien arvojen vaikutusta tutkitaan seuraavilla mittaluvuilla:

• Leverage (l) arvioi poikkeavia arvoja IV muuttujien joukossa

– Korkeat arvot ovat “kaukana” toisista• Discrepancy (d) arvioi sitä kuinka tapaus on linjassa

muiden kanssa.• Influency (l) = l * d.

2.4 Regressioanalyysin rajoituksia

2.4 Regressioanalyysin rajoituksia

Korkea lMatala dKohtuullinen i

Korkea lKorkea dKorkea i

Matala lKorkea dKohtuullinen i

(Tabachnik & Fidell, 1996, 135.)

• Residuaalien (havaitun ja ennustetun DV arvon välinen erotus, regressioyhtälön virhetermi tai jäännöstermi, ) – Normaalisuus

• Residuaalien (ennustevirheiden) tulisi olla normaalisti jakautuneita

– Lineaarisuus• Residuaalien ja ennustettujen DV arvojen välillä tulisi olla

lineaarinen suhde

– Homoskedastisuus• DV muuttujien residuaalien varianssien tulisi olla yhtä

suuria.

– Riippumattomuus• Residuaalien tulisi olla toisistaan riippumattomia.

2.4 Regressioanalyysin rajoituksia

– A) Normaalisuus ei toteudu

– B) Lineaarisuus ei toteudu

– C) Homoskedastisuus ei toteudu

2.4 Regressioanalyysin rajoituksia

0 0

0 0

A

CB

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

• Regressioanalyysin vaiheet:– Muuttujien valinta (DV, IV)

• Paitsi jos käytetään “Enter” -menetelmää

– Analyysi– Mallille tehtävät diagnostiset tarkastelut

2.5 Regressioanalyysin vaiheet

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

1 jatkuva

n jatkuvaa

Joitakin Seq. Multiple R

1 jatkuva

DV IV Kovariaatit Analyysi

Ei Multiple R

Bivariate r

Ei yhtään n-way Freq. Anal.n diskr.

n jatkuvaa Canonical Rn jatkuvaa

1 diskr. Multilevel modelingn jatkuvaatai diskr.

Muuttujienvälisten

riippuvuuksienvoimakkuus

Muuttujienvälisten

riippuvuuksienvoimakkuus

• Kahden muuttujan regressioanalyysi– Määritellään kahden, riippuvan (DV) ja

riippumattoman (IV) muuttujan välinen yhtälö. • Esim. ennustetaan akateemista tuottavuutta (DV)

kognitiivisten oppimistuotosten, esim. GPA, avulla (IV).

– Jokaiselle yhtälössä olevalle riippumattomalle muuttujalle annetaan painokerroin (), jotka yhdessä muodostavat ns. Beta –vektorin (B).

– Selitettävän muuttujan arvo saadaan kun selittävät muuttujat lasketaan yhteen painokertoimilla painotettuna ja summaan lisätään vakio.

• Mallissa on aina mukana virhettä, jota kuvataan

jäännöstermin, residuaalin, () avulla.

3. Kahden muuttujan regressioanalyysi

• Yksinkertaisessa kahden muuttujan välisessä regressiossa määritetään lineaarinen yhtälö joka kuvaa riippuvan (Y) ja riippumattoman (X) muuttujan välistä suhdetta:y = 0 + x + y = riippuva muuttuja0 = leikkauskohta (intercept, constant)

= regressioparametri (slope), kuvaa Y –muuttujan ennustettua arvon muutosta kun X –muuttujan arvo kasvaa yhden yksikön

x = riippumaton muuttuja = jäännöstermi

3. Kahden muuttujan regressioanalyysi

y

x

yi = 0 + xi + ei

yi

yj,

3. Kahden muuttujan regressioanalyysi

• Mallin (regressioyhtälö) ”hyvyyden” mittana käytetään selitettävän (DV, Y) ja selittävien (IV, X) muuttujien välistä korrelaatiota R.

• H0 = DV ja IV muuttujien välillä ei ole korrelaatiota (yksikin regressiokerroin saa arvon 0).– Suurella otoskoolla nollahypoteesi tulee siis

lähes varmasti hylätyksi.

3. Kahden muuttujan regressioanalyysi

3. Kahden muuttujan regressioanalyysi

• R2 on mallin selitysaste– Kuinka monta prosenttia malli (siis

ennustemuuttuja eli IV) pystyy selittämään riippuvan muuttujan (DV) vaihtelusta.

– SPSS laskee kaksi selitysastetta, joista tieteellisissä raporteissa käytetään konservatiivisempaa (”Adjusted R2”).

– Selitysasteen (R2) perusteella voidaan tehdä päätelmiä efektikoosta:

3. Kahden muuttujan regressioanalyysi

3. Kahden muuttujan regressioanalyysi

3. Kahden muuttujan regressioanalyysi

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

1 jatkuva

n jatkuvaa

Joitakin Seq. Multiple R

1 jatkuva

DV IV Kovariaatit Analyysi

Ei Multiple R

Bivariate r

Ei yhtään n-way Freq. Anal.n diskr.

n jatkuvaa Canonical Rn jatkuvaa

1 diskr. Multilevel modelingn jatkuvaatai diskr.

Muuttujienvälisten

riippuvuuksienvoimakkuus

Muuttujienvälisten

riippuvuuksienvoimakkuus

• Määritellään yhden riippuvan (DV) ja usean riippumattoman (IV) muuttujan välisiä yhtälöitä.– Esim. ennustetaan työssä koettua stressiä (DV)

esimiehen johtamisominaisuuksien (IV1) ja ryhmän toimintakyvyn perusteella (IV2).

• Kaikki riippumattomat muuttujat analysoidaan (“Enter” –menetelmä), niitä ei valita tai aseteta järjestykseen.

4. Useamman muuttujan regressioanalyysi

• Usean muuttujan lineaarisessa regressiossa määritetään lineaarinen yhtälö joka kuvaa yhden riippuvan ja usean riippumattoman muuttujan välistä suhdetta:y = 0 + 1x1 + 2x2 + ... + nxn + y = riippuva muuttuja

0 = vakio (constant)

1…n = regressioparametreja

x1…n = riippumattomia muuttujia

= virhetermi

4. Useamman muuttujan regressioanalyysi

y

x

yi = 0 + 1ix1i + 2ix2i + ... + nixni +

ei

yi

yj,

4. Useamman muuttujan regressioanalyysi

Knowledge

Value

Satisfaction

Performance

(Warren, White, & Fuller, 1974.)

4. Useamman muuttujan regressioanalyysi

WorldSkills kilpailumenestys

WorldSkills kilpailumenestys

4. Useamman muuttujan regressioanalyysi

Yläasteen opintomenestysYläasteen opintomenestys

Ammatillisten opintojen menestys

Ammatillisten opintojen menestys

KontrolliuskomuksetKontrolliuskomukset

Näyttötilanteiden jännittäminen

Näyttötilanteiden jännittäminen

Tekemällä oppiminenTekemällä oppiminen

Ulkoinen tavoiteorientaatioUlkoinen tavoiteorientaatio

N=64

4. Useamman muuttujan regressioanalyysi

• Regressioanalyysin suorittaminen PASW/SPSS -ohjelmassa– Analyze – Regression - Linear

• Dependent: kilpailumenestys (alle 23-vuotiaiden menestyminen WSC –kilpailuissa, luokiteltu 3 luokkaan: 1 = heikko, 2 = keskitasoinen, 3 = paras).

• Independent(s): str_3 (Learning by Doing, asteikko 1 = täysin eri mieltä .. 5 = täysin samaa mieltä), mot_2 (Extrinsic Goal Orientation), mot_4 (Control Beliefs), mot_6 (Test Anxiety), ammatopmenestys (menestyminen ammatillisissa opinnoissa), ya_ka (yläasteen päästötodistuksen keskiarvo).

• Statistics: Estimates, Confidence intervals (95%), Model fit, Collinearity diagnostics, Durbin-Watson.

• Plots: Y: *ZRESID (standardoidut residuaalit) ja X: *ZPRED (standardoidut ennustetut arvot)

4. Useamman muuttujan regressioanalyysi

• Ensin tarkastellaan tulosteen lopusta ”Charts” –osasta täyttävätkö residuaalit niille asetetut vaatimukset normaaliuden ja lineaarisuuden osalta:

Residuaalit ovat jakautuneet normaalisti ja lineaarisesti.

4. Useamman muuttujan regressioanalyysi

• Seuraavaksi tarkastellaan Model Summary –taulukon Durbin-Watson –sarakkeesta täyttävätkö residuaalit niille asetetut vaatimukset myös riippumattomuuden osalta:

Durbin-Watson saa arvoja väliltä 0 – 4, arvon 2 osoittaessa korreloimattomia residuaaleja (D-W < 2 = positiivinen korrelaatio, D-W > 2 = negatiivinen korrelaatio). Hyväksyttävät arvot vaihtelevat 1.0 – 3.0 välillä (2.0 = optimi).

Tässä aineistossa residuaalien voidaan todeta olevan normaaleja, lineaarisia ja riippumattomia, jolloin voidaan edetä varsinaisen regressioanalyysin tulosten tulkintaan.

Kuvaa mallin yleistettävyyttä populaatioon, ts. pitäisi olla lähellä R2 –

arvoa. Jos malli olisi laskettu populaatiosta, eikä tästä 64 nuoren otoksesta, se selittäisi noin 11% vähemmän kilpailumenestyksestä (.442 - .331= .111).

4. Useamman muuttujan regressioanalyysi

Malli selittää tilastollisesti merkitsevästi kilpailumenestystä.

Luottamusväli joko osoittaa (tai sitten ei) otoksesta lasketun painokertoimen (B) kuvaavan populaation mielipidettä. Esim. B=.644 kuvaa ”tekemällä oppimisen” positiivista yhteyttä kilpailumenestykseen (p=.021), ja samaa viestiä tarjoaa luottamusvälikin (B:n arvo vaihtelee populaatiossa 95% todennäköisyydellä välillä .104 - 1.185). Heikon selittäjän, esim. ”ulkoinen tavoiteorientaatio” (B=.242 , p=.368), osalta luottamusväli ilmaisee että populaatiossa on todennäköisesti myös henkilöitä joilla ulkoisen tavoiteorientaation vaikutus kilpailumenestykseen on negatiivinen (-.299).

4. Useamman muuttujan regressioanalyysiMultikollineaarisuus-tarkastelu suoritetaan vertaamalla Tolerance -sarakkeen arvoja lukuun .67 (1-R2=1-.33). Suuret korrelaatiot eivät ole ongelma, koska arvot vaihtelevat välillä .730-.893 eli ovat arvoa .67 suurempia. Huom. Tolerance = 1 / VIF.

Standardoimattomat kertoimet kuvaavat IV –muuttujan (prediktori) yhden yksikön kasvun vaikutusta DV –muuttujassa. Esim. kun ammatillinen opintomenestys kasvaa yhdellä arvosanalla, kilpailumenestyksen odotetaan paranevan .66 sijoituksen verran.

WorldSkills kilpailumenestys

4. Useamman muuttujan regressioanalyysi

Yläasteen opintomenestys

Ammatillisten opintojen menestys

Kontrolliuskomukset

Näyttötilanteiden jännittäminen

Tekemällä oppiminen

Ulkoinen tavoiteorientaatio .644(.341).242(.138)

-.426(-.362)

.247(.166)

.644(.417)

-.141(.139)

R2=33%

4. Useamman muuttujan regressioanalyysi

Ammattitaidon maailmanmestaruuskilpailuissa menestymistä selittäviä tekijöitä tarkasteltiin regressioanalyysilla kuuden ennustemuuttujan avulla. Parhaat ennustajat olivat aiempi ammattiopintomenestys (=.417, p=.001), tekemällä oppiminen (=.361, p=.021) ja näyttötilanteiden jännittäminen (=-.362, p=.018). Malli sopi aineistoon (p=.005) ja tuloksen efektikoko oli Cohenin (1988) mukaan suuri, =.331. 2

aR

1 jatkuva

n jatkuvaa

Joitakin Seq. Multiple R

1 jatkuva

DV IV Kovariaatit Analyysi

Ei Multiple R

Bivariate r

Ei yhtään n-way Freq. Anal.n diskr.

n jatkuvaa Canonical Rn jatkuvaa

1 diskr. Multilevel modelingn jatkuvaatai diskr.

Muuttujienvälisten

riippuvuuksienvoimakkuus

Muuttujienvälisten

riippuvuuksienvoimakkuus

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

4.1 Hierarkkinen regressioanalyysi

• Hierarchical/sequential multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007)

• Rajoitukset ovat samat kuin perinteisessä regressioanalyysissa.

• Analyysin suorittamiseen tarvitaan yksi jatkuva DV ja kaksi tai useampia jatkuva tai ei-jatkuva IV muuttuja.

• Analyysin avulla voi selvittää kunkin IV muuttujan suhteellisen selitysosuuden DV muuttujan varianssista.

4.1 Hierarkkinen regressioanalyysi

• Riippumattomat muuttujat sijoitetaan regressioyhtälöön tutkijan määrittämässä järjestyksessä.

• Yleensä sijoittelun taustalla on teoreettinen, kausaalinen tms. oletus.– Tutkittaessa koettua stressiä (DV) sisäisten

prosessien (IV) ja ulkoisten tapahtumien hallinnan (IV) toimiessa selittävinä muuttujina, on varmasti hyvä ottaa malliin mukaan työkokemus (IV) ja minäkäsitys (IV).

4.1 Hierarkkinen regressioanalyysi

• Pääselittäjien ”voimaa” voi myös tutkia sijoittamalla yhtälöön ensin vähempiarvoisia selittäjiä (=kontrolloimalla niitä).– Henkilön lukunopeutta (DV) voi tutkia

intensiivikurssin sisällön (IV) ja keston (IV) kannalta sijoittamalla yksilölliset erot lukunopeudessa (IV) yhtälöön ensimmäiseksi.

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

4.2 Askeltava regressioanalyysi• Stepwise multiple regression, statistical

regression (Pedhazur, 1982; Tabachnick & Fidell, 2007)

• Menetelmää kutsutaan ”tilastolliseksi” regressioanalyysiksi, koska selittävien muuttujien valinta perustuu puhtaasti tilastollisiin kriteereihin (esim. korrelaation voimakkuus DV muuttujan kanssa).

• Muuttujien valinta tapahtuu yleisimmin kolmen menetelmän avulla: (1) forward selection, (2) backward selection, ja (3) stepwise selection.

4.2 Askeltava regressioanalyysi• Forward selection (lisäävä menettely)

– Tyhjään yhtälöön lisätään tilastollisen kriteerin täyttävä IV yksi kerrallaan. Kukin lisätty IV jää yhtälöön.

• Backward selection (poistava menettely)– Kaikki IV muuttujat ovat alussa yhtälössä.

Tilastollisen kriteerin ulkopuolelle jäävät IV:t poistetaan yhtälöstä yksi kerrallaan.

• Stepwise selection (askeltava menettely)– Yhdistelmä edellisistä. Yhtälö on aluksi tyhjä, ja

siihen lisätään IV muuttujia yksi kerrallaan. Yhtälöstä voidaan myös poistaa IV muuttujia kun uusia, paremmin selittäviä tulee tilalle.

4.2 Askeltava regressioanalyysi

• Perinteisessä regressioanalyysissa (A) voimakkaasti selitettävän muuttujan (DV) kanssa korreloiva selittävä muuttuja (IV1) voi jäädä statistin rooliin.

A

4.2 Askeltava regressioanalyysi

• Askeltavassa mallinnuksessa (C) selitettävät muuttujat saavat ”krediitit” riippuvan muuttujan selittämisestä korrelaation voimakkuuden perusteella.

C

4.2 Askeltava regressioanalyysi

• Ylisovitus (overfitting) on askeltavien menetelmien riski, erityisesti tehtäessä tulkintoja yhden näytteen perusteella.

• Ristiinvalidointi (cross validation) esim. toisen näytteen avulla (tai suuren datatiedoston puolitus) on suositeltavaa käytettäessä tilastollisia regressiomenetelmiä.– Ajetaan sama regressioanalyysi kaksi kertaa

eri aineistoilla, esim. jaetaan yksi riittävän suuri aineisto kahteen satunnaisesti muodostettuun aliotokseen.

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

1 jatkuva

n jatkuvaa

Joitakin Seq. Multiple R

1 jatkuva

DV IV Kovariaatit Analyysi

Ei Multiple R

Bivariate r

Ei yhtään n-way Freq. Anal.n diskr.

n jatkuvaa Canonical Rn jatkuvaa

1 diskr. Multilevel modelingn jatkuvaatai diskr.

Muuttujienvälisten

riippuvuuksienvoimakkuus

Muuttujienvälisten

riippuvuuksienvoimakkuus

5. Kanoninen korrelaatio

• Canonical correlation– (Kerlinger, 1986, 561-568)

• Yleismenetelmä, jonka erikoistapauksia ovat mm. regressioanalyysi, erotteluanalyysi ja MANOVA.

• Käytetään tutkimuskirjallisuudessa enemmän kuvailuun kuin hypoteesintestaukseen.– ”Tulokset ovat usein matemaattisesti

elegantteja, mutta vaikeasti tulkittavissa” (Tabachnik & Fidell, 2007, 570).

5. Kanoninen korrelaatio

• Menetelmän avulla tutkitaan kahden muuttujaryhmän välisiä vaikutussuhteita.– Toinen ryhmä voi koostua DV (esim.

ympäristötietoisuus) ja toinen IV (esim. sukupuoli, koulutustaso, poliittinen kanta) muuttujista.

– Tutkijan kannalta muuttujien valinta ja erityisesti tulosten mielekäs tulkinta on haasteellista.

Lähteet

Berk, R. A. (2004). Regression Analysis: A Constructive Critique. Thousand Oaks: Sage.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale, NJ: Erlbaum.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334.

Galton, F. (1885). Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute, 15, 246-63.

Green, S. B. (1991). How many subjects does it take to do a regression analysis? Multivariate Behavioral Research, 26, 499-510.

Gulliksen, H. (1950). Theory of Mental Tests. New York: John Wiley & Sons.

Lähteet

Howell, D. (1997). Statistical Methods for Psychology. Belmont, CA: Wadsworth Publishing Company.

Kerlinger, F. (1986). Foundations of Behavioral Research. Third Edition. New York: CBS College Publishing.

Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2, 151-160.

Metsämuuronen, J. (2003). Tutkimuksen tekemisen perusteet ihmistieteissä. Helsinki: International Methelp Ky.

Nummenmaa, L. (2009). Käyttäytymistieteiden tilastolliset menetelmät. Ensimmäinen painos, uudistettu laitos. Helsinki: Tammi.

Nummenmaa, T., Konttinen, R., Kuusinen, J., & Leskinen, E. (1997). Tutkimusaineiston analyysi. Porvoo: WSOY.

Lähteet

Pierce, C. A., Block, R., & Aguinis, H. (2004). Cautionary note on reporting Eta-squared values from multifactor ANOVA designs. Educational and Psychological Measurement, 64(6), 916-924.

Pearl, J. (2000). Causality. New York: Cambridge University Press.Pedhazur, E. (1982). Multiple Regression Analysis in Behavioral

Research. New York: Holt, Rinehart and Winston.

Stevens, J. (1996). Applied Multivariate Statistics for the Social Sciences. Third edition. Mahwah, NJ: Lawrence Erlbaum.

Tabachnick, B. G., & Fidell, L. S. (1996). Using Multivariate Statistics. Third Edition. New York: Harper Collins.

Lähteet

Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics. Fifth Edition. Boston: Pearson.

Warren, R. D., White, J. K., & Fuller, W. A. (1974). An errors-in-variables analysis of managerial role performance. Journal of American Statistical Association, 69, 886-893.

Vehkalahti, K. (2007). Kyselytutkimuksen mittarit ja menetelmät. http://www.helsinki.fi/%7ekvehkala/mmm/moniste.pdf