1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm....

30
1 Pertti Vilpas Metropolia 1. KVANTITATIIVINEN TUTKIMUS Tutkimuksen aineiston keräämisessä voidaan käyttää joko laadullista tai määrällistä tutkimusmenetelmää. Tutkimusmenetelmiä voidaan myös yhdistää, ja ne voivat täydentää toisiaan, mutta pääpaino on selkeästi aina toisella näistä menetelmistä. Kvalitatiivista eli laadullista menetelmää käyttävässä tutkimuksessa voidaan selvittää esimerkiksi, kuinka johonkin tapahtumaan tai prosessiin osallistuva henkilö mieltää tehtävän sisäisen rakenteen tai toiminnan. Laadullista analyysiä kannattaakin usein tehdä kohteesta, joka on toistaiseksi niin epäselvä, että siitä ei vielä ole mielekästä tehdä määrällistä analyysiä. Laadullista menetelmää käytettäessä ei tehdä haastattelukysymyksiä, jotka edellyttävät vastaajan valitsevan annetuista vastausvaihtoehdoista, vaan vastaajien annetaan jäsentää vastauksiaan omaehtoisesti. Tutkijan tehtävänä on sitten koota näin saadusta laadullisesta datasta yhtenäinen selitys kohteesta. Kvantitatiivista eli määrällistä menetelmää käyttävä tutkimus kuvaa ja tulkitsee ilmiöitä mittausmenetelmillä, jotka keräävät numeerisia tutkimusaineistoja. Jos aineisto kerätään kyselylomakkeen avulla, lomake sisältää pääasiassa ns. suljettuja eli strukturoituja kysymyksiä. Määrällinen tutkimus perustuu siis mittaamiseen, jonka tuloksena syntyy lukuarvoja sisältävä havaintoaineisto, jota analysoidaan tilastollisin analyysimenetelmin. Tilastotiede pyrkii siis tiivistämään ja selittämään numeroaineistoa käyttäen tilastollisia tunnuslukuja. Samoin muuttujien välisten riippuvuuksien etsiminen, ilmiöiden selittäminen ja kehityksen ennustaminen voivat olla analyysin tavoitteita. Raakatilastot sisältävät liian paljon lukuja, jotta niiden perusteella pystyisi tekemään päätelmiä tutkimuksen kohteena olevan ilmiön piirteistä. Nykyisin aineistot analysoidaan atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on tutkimusaineiston oltava riittävän suuri ja edustava. Esimerkiksi tilaus-toimitusketjussa toimivien ihmisten käsitystä omasta roolistaan voidaan periaatteessa tutkia sekä määrällisesti että laadullisesti. Määrällisellä menetelmässä tutkijalla pitää olla teoria ja näkemys ketjuun osallistuvien ihmisten roolista, esitettynä viitekehyksessä ja konkreettisena mallina. Tämän mallin avulla sitten määritellään, mitä kysymyksiä kysytään, mitä dataa kerätään, jotta voidaan testata, ymmärtävätkö ketjuun osallistuvat ihmiset roolinsa luodun mallin (tai mallien) mukaisella tavalla. Jos vastaava tutkimus tehdään laadullisella menetelmällä, tarvitaan siinäkin tapauksessa teorioita ja malleja ammattikirjallisuudesta. Laadullinen menetelmä kuitenkin mahdollistaa hiukan toisenlaisen kysymyksenasettelun. Siinä voidaan esimerkiksi keskittyä selvittämään sitä, millä tavoin ketjun eri vaiheissa toimivien ihmisten käsitykset roolistaan ketjun osana poikkeavat valmiista mallista.

Transcript of 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm....

Page 1: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

1

Pertti Vilpas Metropolia

1. KVANTITATIIVINEN TUTKIMUS Tutkimuksen aineiston keräämisessä voidaan käyttää joko laadullista tai määrällistä tutkimusmenetelmää. Tutkimusmenetelmiä voidaan myös yhdistää, ja ne voivat täydentää toisiaan, mutta pääpaino on selkeästi aina toisella näistä menetelmistä. Kvalitatiivista eli laadullista menetelmää käyttävässä tutkimuksessa voidaan selvittää esimerkiksi, kuinka johonkin tapahtumaan tai prosessiin osallistuva henkilö mieltää tehtävän sisäisen rakenteen tai toiminnan. Laadullista analyysiä kannattaakin usein tehdä kohteesta, joka on toistaiseksi niin epäselvä, että siitä ei vielä ole mielekästä tehdä määrällistä analyysiä. Laadullista menetelmää käytettäessä ei tehdä haastattelukysymyksiä, jotka edellyttävät vastaajan valitsevan annetuista vastausvaihtoehdoista, vaan vastaajien annetaan jäsentää vastauksiaan omaehtoisesti. Tutkijan tehtävänä on sitten koota näin saadusta laadullisesta datasta yhtenäinen selitys kohteesta. Kvantitatiivista eli määrällistä menetelmää käyttävä tutkimus kuvaa ja tulkitsee ilmiöitä mittausmenetelmillä, jotka keräävät numeerisia tutkimusaineistoja. Jos aineisto kerätään kyselylomakkeen avulla, lomake sisältää pääasiassa ns. suljettuja eli strukturoituja kysymyksiä. Määrällinen tutkimus perustuu siis mittaamiseen, jonka tuloksena syntyy lukuarvoja sisältävä havaintoaineisto, jota analysoidaan tilastollisin analyysimenetelmin. Tilastotiede pyrkii siis tiivistämään ja selittämään numeroaineistoa käyttäen tilastollisia tunnuslukuja. Samoin muuttujien välisten riippuvuuksien etsiminen, ilmiöiden selittäminen ja kehityksen ennustaminen voivat olla analyysin tavoitteita. Raakatilastot sisältävät liian paljon lukuja, jotta niiden perusteella pystyisi tekemään päätelmiä tutkimuksen kohteena olevan ilmiön piirteistä. Nykyisin aineistot analysoidaan atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on tutkimusaineiston oltava riittävän suuri ja edustava. Esimerkiksi tilaus-toimitusketjussa toimivien ihmisten käsitystä omasta roolistaan voidaan periaatteessa tutkia sekä määrällisesti että laadullisesti. Määrällisellä menetelmässä tutkijalla pitää olla teoria ja näkemys ketjuun osallistuvien ihmisten roolista, esitettynä viitekehyksessä ja konkreettisena mallina. Tämän mallin avulla sitten määritellään, mitä kysymyksiä kysytään, mitä dataa kerätään, jotta voidaan testata, ymmärtävätkö ketjuun osallistuvat ihmiset roolinsa luodun mallin (tai mallien) mukaisella tavalla. Jos vastaava tutkimus tehdään laadullisella menetelmällä, tarvitaan siinäkin tapauksessa teorioita ja malleja ammattikirjallisuudesta. Laadullinen menetelmä kuitenkin mahdollistaa hiukan toisenlaisen kysymyksenasettelun. Siinä voidaan esimerkiksi keskittyä selvittämään sitä, millä tavoin ketjun eri vaiheissa toimivien ihmisten käsitykset roolistaan ketjun osana poikkeavat valmiista mallista.

Page 2: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

2

Kvalitatiiviset ja kvantitatiiviset tutkimusmenetelmät voivat myös täydentää toisiaan. Laadullista tutkimusta voidaan lisäksi käyttää määrällisen tutkimuksen esikokeena testaamaan aiottujen mitattavien seikkojen tarkoituksenmukaisuutta ja mielekkyyttä. sillä voidaan testata esimerkiksi kyselylomakkeen keskeisistä käsitteistä. Laadullinen tutkimus laajentaa ja syventää kvantitatiivisen analyysin numeerisia tuloksia esimerkiksi haastatteluaineistojen avulla. Historiaa Tilastotieteen alkujuuria etsiessä tulee vastaan muinaiset valtiot kuten Babylonia, Kiina, Egypti ja Antiikin Rooma, joissa suoritettiin väestölaskentaa. 1600-luvulle saakka tietoja kerättiin hallintoa (verotusta ja sotalaitosta) varten mm. maanomistuksesta, maan käytöstä, vuokratilallisista, palvelijoista ja karjasta. Tietoaineistoja ei siis analysoitu. Poikkeuksen muodostaa Italia, jossa kehittynyt kaupankäynti ja teollisuus 1300- ja 1400-luvuilla antoi aiheen kerätä erilaisia tietoja valtion, kaupan ja teollisuuden tilasta. Tällöin tietoja käytettiin hyväksi tavalla, joka on luonteenomaista modernille tilastotieteelle. Analysoivan tilastotiede ja tilastointi yhdistyivät 1800-luvulla, jolloin todennäköisyyslaskenta tuli kuvaan mukaan. Vasta 1900-luvulla tilastotiede on saanut nykyisen muotonsa ja päähuomio on kohdistunut tilastollisten päättelymenetelmien kehittämiseen. 2000-luvun alussa on käytettävissä useita tilasto-ohjelmia kuten SPSS sekä taulukkolaskentaohjelmat kuten EXCEL tilastollisine funktioineen. Valmiit tilastot Tutkimusta aloittaessa on syytä tarkistaa onko ko. aiheesta olemassa valmiita tilastolähteitä. Suomessa laajimmin tilastoja julkaisee Tilastokeskus. Myös valtiolla, kunnilla, pankeilla ja vakuutusyhtiöillä on omia tilastojulkaisuja. Mm. Suomen Gallup ja Taloustutkimus Oy tekevät toimeksiannosta tilastollisia tutkimuksia. Internet tarjoaa nykyisin paljon valmista tilastotietoa. Ongelmaksi muodostuu usein oikean aineiston löytäminen tästä valtavasta tietovarannosta. Linkkejä: http://www.stat.fi

Page 3: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

3

2. TUTKIMUSPROSESSIN VAIHEET Tutkimusprosessi voidaan määrällisessä tutkimuksessa vaiheistaa seuraavasti:

1. Tutkimusongelman ja siitä johdettujen alaongelmien (tutkimuskysymysten) määrittäminen 2. Tutkimussuunnitelman laadinta 3. Tiedonkeruulomakkeen laadinta ja aineiston keruu 4. Aineiston tilastollinen käsittely 5. Johtopäätösten tekeminen

Karjalainen - Tilastolliset menetelmät, Pii-kirjat, 2010

Page 4: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

4

Tutkimusongelman ja tutkimuskysymyksien muotoilu antaa viitteitä siitä, millaista tietoa tutkimuksessa halutaan saada. Kysymyksistä voidaan helposti päätellä, halutaanko tutkimuksessa saada numeraalista tietoa ja selittää yleisesti asioita vai halutaanko ymmärtää ilmiötä kokonaisvaltaisesti kuvaillen. Määrällisessä tutkimuksessa kysytään tietoa, joka on haettavissa mm. kysymyksillä ”missä määrin” , ”kuinka paljon” ja ”mikä osuus”. Määrällisen aineiston kyselylomakkeessa käytetään lähinnä ns. suljettuja kysymyksiä, joihin vastataan strukturoidun, annetun asteikon mukaisesti. Myös ns. avoimia kysymyksiä sisältyy yleensä aineiston keruuseen, näihin annetaan kyselylomakkeessa vastaustilaa. Määrälliseen tutkimukseen liittyvät asiat eivät aina taivu helposti numeerisesti mitattaviksi. Vaikka mittaaminen näennäisesti sujuisikin, niin mittaamisen luotettavuus ja tarkkuus voidaan asettaa kyseenalaiseksi. Mitattava ominaisuus on operationalisoitava, eli se on saatava mitattavaan muotoon. Operationaalinen määritelmä tuo siis esiin, miten käsite on empiirisesti mitattavissa.

Esimerksi mittaamisen kohteena on työtyytyväisyys. Työtyytyväisyys sisältää monenlaisia aspekteja: tyytyväisyys palkkaan, tyytyväisyys yrityksen johtoon, tyytyväisyys työn sisältöön, tyytyväisyys työympäristöön, tyytyväisyys työtovereihin jne. Työtyytyväisyyden mittaaminen vaatii siis useampien muuttujien käyttöä. Huomattavaa on myös, että kysyttäessä työtyytyväisyyteen liittyviä kysymyksiä työntekijöiltä, vastaukset heijastelevat työntekijän sen hetkisiä tuntemuksia. Työntekijöille esitettyjen kysymysten lisäksi työtyytyväisyyttä voidaan arvioida erilaisia indikaattoreiden avulla. Esim. sairaus poissaolot, varhaiseläkkeelle jäävien määrä jne. voivat ilmaista jotain työtyytyväisyydestä. Tällaisten indikaattorien mittaaminen sinänsä voidaan tehdä tarkasti, mutta kokonaan toinen asia on niiden suhde työtyytyväisyyteen. http://myy.helia.fi/~taaak/t/

Hypoteesilla tarkoitetaan ennakoitua ratkaisua tai selitystä tutkittavaan ongelmaan. Ne muodostuvat teorian ja aikaisempien tutkimusten pohjalta. Kerätyn tutkimusaineiston pohjalta voidaan tutkia, pitävätkö hypoteesit paikkaansa. Teoriasta johdettua hypoteesia voidaan testata empiiristen havaintojen valossa. Hypoteesit voivat olla luonteeltaan mm. suuntaa osoittavia hypoteeseja, tutkittavien ilmiöitten välillä olevia riippuvuuksia osoittavia hypoteeseja tai ns. työhypoteeseja eli tutkijan omia odotuksia tuloksista.

Page 5: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

5

2.2 KVANTITATIIVISEN TUTKIMUKSEN PERUSKÄSITTEITÄ

Seuraavassa taulukossa on lueteltu kvantitatiivisen, tilastollisen tutkimuksen tärkeimpiä peruskäsitteitä. Käsite Esimerkki 1 Perusjoukko => Tutkimuksen kohdejoukko

Yrityksen asiakkaat, Metropolian opiskelijat, Palvelun käyttäjät, nuoret aikuiset, yrityksen työntekijät, kaikki suomalaiset

Tilastoyksikkö => Havaintoyksikkö eli alkio

Yksi asiakas, yksi opiskelija, yksi suomalainen

Tilastollinen muuttuja => Ominaisuudet, joita tutkitaan

Ikä, sukupuoli, ammatti, palkka, mielipide, asenne

Kokonaistutkimus => Tutkitaan kaikki tilastoyksiköt

Yrityksen työntekijöiden ilmapiiritutkimus

Otantatutkimus => Tutkitaan edustava otos perusjoukosta

Yrityksen asiakastutkimus, opiskelijoiden asennetutkimus, puolueiden kannatus

3. KYSELYLOMAKKEEN LAATIMINEN JA

TUTKIMUSAINEISTON KERUU

Tutkimuslomake perustuu tutkimusongelman ja siitä johdettujen alaongelmien määrityksiin ja siten lomakkeen pohjana ovat tutkimuksen keskeiset käsitteet ja avaintermit Taustamuuttujat ovat myös määritettävä (taustatekijät, jotka voivat vaikuttaa tutk. asiohin (esim. sukupuoli, koulutus, ikä). Perusjoukko on usein jaettava ositteisiin eli kiintiöihin taustamuuttujien perusteella ja otoksessa on oltava riittävä edustus jokaisesta ositteesta Tutkijalla pitäsi olla jokin ennakkokäsitys taustamuuttujista, jotka saattavat vaikuttaa vastaajien mielipiteissä (esim. ”ikä saattaa vaikuttaa vastaajan mielipiteeseen”)

3.1 Mittaaminen Toimenpide, jolla tilastoyksikköön liitetään jotain sen ominaisuutta kuvaava luku eli mittaluku (tai symboli) Tilastollinen muuttuja on jatkuva ( pituus, paino, rahamäärä jne.) tai epäjatkuva eli diskreetti (sukupuoli, koulutus jne.).

Page 6: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

6

Asteikkotyypit määrittävät, mitkä tilastolliset toimenpiteet ovat sallittuja kyseisen asteikon muuttujille:

Muuttuja = Palvelun laatu

Palvelu on ystävällistä Epäystävällistä

4 3 2 1 => prosenttijakaumat,keskiarvo, keskihajonta, mediaani, graafit jne.

Muuttuja = Siviilisääty 1 naimisissa 2 naimaton 3 eronnut 4 avoliitossa

=> prosenttijakaumat,moodi, graafit. HUOM ! ko. esimerkissä numerot 1-4 ovat vain syöttökoodeja, eikä niiden avulla voida laskea esim. ”siviilisäädyn keskiarvoa” (vaikka SPSS sen laskeekin) Vastausvaihtoehtojen tulee olla erottelukykyisiä, mikäli kaikki vastaajat vastaavat kysymykseen samalla tavalla (esim. 3=en osaa sanoa) , voidaan kysymystä pitää epäonnistuneena. Määrällinen menetelmä keskittyy tutkimusyksiöiden eri muuttujien saamien arvojen välisten erojen kuvailuun ja selittämiseen. Tutkija pyrkii etsimään tilastollisia säännönmukaisuuksia, jotka selittävät muuttujien arvojen liittymistä toisiinsa. Se mikä on kaikille yksiköille yhteistä, ei anna mitään johtolankaa erojen selittämiseen. 3.2 Käytetyt kysymystyypit * Suljetuissa kysymyksissä valmis rakenne, rajatut vastausvaihtoehdot. Myös avoimia kysymyksiä voi käyttää harkinnan mukaan. Hyvä suljettu kysymys:

1) Vastaajille löytyy sopiva vaihtoehto, mielipide/asennekysymyksissä on harkittava vastausvaihtoehtoa 3= En osaa sanoa 2) Vastausvaihtoehdot ovat toistensa poissulkevia 3) Valittavien vaihtoehtojen lukumäärä on ilmoitettu selvästi => "valitse vain yksi/tärkein jne."

Valmis luokittelu * Käytä harkitusti => esim. ikäluokittelu => ei voida olla etukäteen varmoja vastaajien iästä => saatetaan saada melkein tyhjiä luokkia

Page 7: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

7

Mielipide ja asenneasteikot LIKERT-asteikkoa => "Palvelu on ystävällistä" 1 Täysin eri mieltä 2 Jokseenkin eri mieltä 3 En osaa sanoa 4 Jokseenkin samaa mieltä 5 Täysin samaa mieltä Huom ! Tutkimuslomakkeessa kannattaa käyttää numeroita 1-5 selitteiden lisäksi => analyysissä voidaan käyttää keskiarvoa muuttujan kuvailussa OSGOOD-asteikkoa => Palvelu on

Ystävällistä 5 4 3 2 1 Epäystävällistä Asiantuntevaa 5 4 3 2 1 Asiantuntematonta

3.3 Mitta-asteikot 1) Luokittelu- eli nominaaliasteikko, tällöin yksiköt pelkästään luokitellaan tiettyihin ennalta määrättyihin luokkiin. Luokkien järjestyksellä ei ole merkitystä. Esimerkki => siviilisääty

naimisissa/naimaton/eronnut/ avoliitossa 2) Järjestys-eli ordinaaliasteikko, tällöin luokittelun lisäksi luokat voidaan järjestää mitattavan ominaisuuden mukaan järjestykseen. Peruslaskutoimituksia ei voida suorittaa. Esimerkki => mielipidemittaus asteikolla

Täysin eri mieltä/Jokseenkin eri mieltä/Jokseenkin samaa mieltä/Täysin samaa mieltä

3) Välimatka- intervalliasteikko, tällöin muuttujan arvojen lisäykset voidaan laskea, ts. erotus on siis määritelty. Asteikolla ei ole yksikäsitteisesti määriteltyä nollakohtaa, vaan se voidaan valita. Esimerkkinä asteikko (Palvelu on ystävällistä) 4 3 2 1 (Epäystävällistä) 4) Suhdeasteikko, tällöin asteikko täyttää välimatka-asteikon vaatimukset, mutta lisäksi asteikolla on absoluuttinen, yksikäsitteinen, nollakohta. Esimerkki Kuukausipalkka, Vastaajan ikä…

Page 8: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

8

3.4 Tutkimusaineiston keräysmenetelmä Eri vaihtoehtoja: 1) Lomakekysely, kirjekysely, webbi-kysely, email 2) Puhelinhaastattelu 3) Henkilökohtainen haastattelu 4) Paneelitutkimukset 5) Ryhmäkeskustelut 6) Testit ym. Henk. koht.

Haastattelu

Puhelin haastattelu

Postikysely, verkkokysely

Vastausprosentti

Korkea Korkea Alhainen

Haastattelijan vaikutus

Suuri Melko suuri Ei lainkaan

Vastausten saannin nopeus

Nopea Nopea Hidas

Pitkän kyselylomakkeen käyttö

Sopii Melko hyvin Kato lisääntyy..

Postitse tehtävä lomakekysely sopii suurehkolle ja hajallaan olevalle perusjoukolle. Kun kyseessä on rajattu joukko (esim. yrityksen työtekijät) voidaan kirjallinen lomakekysely toteuttaa paikanpäällä. Myös puhelin- ym. haastattelut sopivat rajatulle perusjoukolle. Katoa voidaan pienentää mm. hyvän saatekirjeen avulla, antamalla riittävän lyhyt vastausaika, valmis vastauskuori on kirjeen mukana, vastaaja saa palkinnon jne.

Aineiston keruussa täytyy taata vastaajan säilyminen anonyymina

Palautusprosentti * Olisi oltava mahdollisimman suuri, tähän vaikuttavat mm. seuraavat tekijät: 1) Kohderyhmä ja tutkimuksen aihe 2) Kysymysten määrä ja lomakkeen ulkoasu 3) Saatekirje ja mahdollinen palkkio 4) Muistutuskirjeiden käyttö (puhelinsoitto?) * Palautusprosentti vaihtelee yleensä 20 - 80 % välillä. Jos palautusprosentti on yli 60 %, sitä voidaan pitää hyvänä ja vastaavasti alle 20% on jo heikko. Tärkeätä on myös huomioida absoluuttisten vastausten määrä (vrt. otoskoko) => ts. aineistoa tulisi olla absoluuttisesti yli 30.

Page 9: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

9

4. OTANTATUTKIMUKSET Jos valmista tilastoaineistoa ei ole käytettävissä, on tilanteen mukaan harkittava, hankintaanko tarvittavat havainnot koko perusjoukosta vai tehdäänkö otantatutkimus. Kokonaistutkimus on usein hidas, hankala ja kallis toteuttaa, mutta tulokset ovat vastaavasti yleensä luotettavia ja tarkkoja. Otos on perusjoukon osa, joka on valittu siten, että jokaisella perusjoukon alkiolla on sama mahdollisuus (todennäköisyys) tulla otokseen. Otoksesta saadut tutkimustulokset yleistetään koskemaan koko perusjoukkoa. Otantatutkimus voidaan tehdä mm. seuraavista syistä:

- perusjoukko on suuri - resurssien puute - perusjoukon tilastoyksiköitä ei tarkkaan tunneta. Otannan suunnittelussa on otettava huomioon tarvittavan tiedon laatu ja tarkkuusvaatimus. Otoksen koon kasvaessa yleensä myös tulokset tarkentuvat. Otantamenetelmiä 1) Yksinkertainen satunnaisotanta Järjestetään aineisto, ts. numeroidaan perujoukon alkiot ja arvotaan satunnaisesti mukaan tulevat alkiot (RND, RAN). 2) Systemaattinen otanta Perusjoukossa N tilastoyksikköä ja otoksen koko on n yksikköä. Menetellään seuraavasti : i) lasketaan suhdeluku N/n, pyöristetään näin saatu luku lähimpään kokonaislukuun, saadaan poimintaväli k. ii) poimitaan satunnaisesti k ensimmäisen alkion joukosta ensimmäinen ja sen jälkeen joka k.s alkio 3) Ositettu otanta Perusjoukko jaetaan jonkin tunnetun ominaisuuden perusteella mahdollisimman homogeenisiin ryhmiin eli ositteisiin ja kuhunkin ositteeseen sovelletaan jotakin otantamenetelmää (esim. satunnaisotantaa). Otoskoon n lisäksi on ratkaistava, kuinka monta alkioita kustakin ositteesta otetaan otokseen,jolloin käytetään kiintiöintiä : 1) tasainen kiintiöinti, jossa jokaisesta ositteesta otetaan yhtä monta alkiota 2) suhteellinen kiintiöinti, jossa ositteista valitaan alkioita otokseen samassa suhteessa kuin niitä on perusjoukossa. 4) Peräkkäisotanta Arvotaan 1.alkio ja poimitaan sen jälkeen otokseen koko tarvittava määrä alkioita peräkkäin (esim. laaduntarkkailu)

Page 10: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

10

Otoksen koon määrittäminen Yleisääntönä pidetään 30 yksikön otosta määrällisessä tutkimuksessa! Koko riippuu oleellisesti tutkimuksen tyypistä. Esimerkiksi mielipidetutkimuksissa, joissa kartoitetaan poliittisten puolueiden kannatusta, otoksen suuruus tulisi olla 1000 suuruusluokkaa, kun taas lääketieteellisessä kokeessa otoksen koko voi olla muutamia kymmeniä Otoksen kokoon vaikuttavat mm. seuraavat tekijät: 1) Perusjoukon heterogeenisyys => hajonta => mitä suurempi hajonta sen suurempi otos vaaditaan 2) Odotettavissa oleva kato eli poistuma => Vastausprosentti on harvoin 100 %, palauttamattomien lomakkeiden lisäksi voidaan osa palautetuista joutua hylkäämään puutteellisten vastausten vuoksi. 3) Tutkittavien tapausten suhteellinen osuus => usein perusjoukko on jaettava ositteisiin tietyn ominaisuuden perusteella (esim. sukupuoli) => otoksessa on oltava riittävä edustus jokaisesta ositteesta. Otoksen optimikoon määrittämiseksi on erilaisia laskukaavoja, mutta seuraavassa viitteellisiä otoskokoja : 1. Yleensä aina vähintään 50 tilastoyksikköä 2. Vähintään 100, jos kohderyhmä on suppea ja tuloksia tarkastellaan kokonaistasolla 3. 150-300, jos perusjoukossa on ryhmiä, joiden väliseen vertailuun tutkimus keskittyy (ryhmissä tulisi olla ainakin 30 henkilöä) 4. vähintään 500-1000 valtakunnallisissa kuluttujatutkimuksissa

Rajoitteet: aika, budjettiJos otoskooksi on tulossa yli puolet perusjoukosta, on syytä harkita kokonaistutkimusta Otantavirhe Tilastollinen päättely tarkoittaa perusjoukkoa koskevien päätelmien tekemistä perusjoukosta poimitun otoksen perusteella. Otoksesta laskettuja tuloksia ei voida suoraan yleistää laajempaa perusjoukkoa koskeviksi, vaan päättelyssä täytyy huomioida otannasta aiheutuva epävarmuus. Otoksesta lasketut taulukot ja tunnusluvut kuvailevat otosta. Otoksen perusteella voidaan tehdä päätelmiä perusjoukosta jos otos on satunnaisesti valittu. Jos otosta ei ole valittu satunnaisesti, niin sitä kutsutaan näytteeksi. Koska otoksen kokoonpano riippuu sattumasta, eri otoksista lasketut tulokset vaihtelevat satunnaisesti. Otantavirhe on sitä pienempi mitä suurempaa otosta käytetään. Otoskokoa voidaan määrittää myös erilaisten laskumenetelmien avulla kun tutkimukselle on määritetty tietty luottamusväli. Luottamusväli tarkoittaa väliä, jolla 95 % varmuudella voidaan otoksesta saadun tutkimustuloksen olla pätevä myös perusjoukossa. http://www.researchinfo.com/docs/calculators/samplesize.cfm

Page 11: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

11

5. VALIDITEETTI JA RELIABILITEETTI

Tutkimuksellisen opinnäytetyön laatua arvioidaan yleensä reliabiliteetin ja validiteetin avulla. Varsinkin määrällisiä tutkimusmenetelmiä käytettäessä reliabiliteetti on keskeinen tutkimuksen arvon mittari. Reliabiliteetti Reliabiliteetti tarkoittaa tutkimuksessa käytetyn menetelmän luotettavuutta. Tutkimuksen reliabiliteetti on sitä parempi, mitä todennäköisimmin samalla tavalla kerätty ja samalla tavalla analysoitu uusi data antaisi nyt saadut tulokset. Menetelmä voi siis olla luotettava, vaikka se antaisi vinoutuneen tuloksen, jos se antaa samalla tavoin vinoutuneen tuloksen jokaisella menetelmän potentiaalisella toistokerralla. Otoskoko ja otantamenetelmä vaikuttavat tulosten luotettavuuteen. Tulokset ovat hyvin sattumanvaraisia, jos otoskoko on hyvin pieni tai kato on suuri. Mikäli otos on vino, se ei anna tietoa koko perusjoukosta vaan jokin tietty ryhmä on yliedustettuna. Peittovirhe syntyy jos perusjoukon rekisteri tai luettelo ei ole ajan tasalla. Tutkimuksessa on sattua virheitä myös tietoja käsiteltäessä ja analysoitaessa. Nykyiset tilasto-ohjelmat antavat sivukaupalla tulosteita. Tutkijan tehtävä onkin käyttää vain omaan tutkimukseen sopivia tilastollisia menetelmiä. Validiteetti Onko onnistuttu mittaamaan juuri sitä mitä oli tarkoitus mitata? Ovatko kysymykset laadittu oikein, antavatko ne tietoa tutkimusongelman ratkaisemiseen? Validiteetilla tarkoitetaan tulosten pätevyyttä. Sen avulla ilmaistaan, mitataanko ja tarkastellaanko sitä ilmiötä, jota sanottiin mitattavan. Esimerkiksi työviihtyvyyttä tutkittaessa voidaan kysyä, olisiko sairauspoissaolojen määrä validi mittari työviihtyvyydelle. Jos on tullut valinneeksi sairauspoissaolot työviihtyvyyden mittariksi, tutkimusaikaan sattunut flunssaepidemia olisi yksi tekijä, joka heikentäisi sairauspoissaolojen määrän validiteettia työviihtyvyyden mittarina. Silloin tutkijan tulisi tuloksia tulkitessaan myös keskustella siitä, olisiko mahdollisesti jokin toinen mittari kuin sairauspoissaolojen määrä sittenkin ollut validimpi mittari työviihtyvyydelle. Validiteettia voidaan tarkastella sisäisenä ja ulkoisena validiteettina. Sisäisen validiteetin voi vielä jaotella esimerkiksi käsitevaliditeettiin ja menetelmän validiteettiin. Tutkimus on sisäisesti pätevä (validi), kun tutkimustulokset osoitetaan olevan perustellusti kyseisen tutkimusprosessin tulos. Tutkimus on siis sisäisesti pätevä silloin, kun tuloksiin ei ole vaikuttanut satunnaiset tai epäolennaiset tekijät. Arviointi kohdistuu tutkimuksessa valittuun teoreettiseen viitekehykseen, määriteltyihin käsitteisiin, aineiston keräämisen tapaan, aineiston keräämisessä käytettyihin kysymyksiin, tutkimiseen, tulkintaan, päättelyyn ja tuloksiin. Sisäisesti validi tutkimus siten vastaa aina tutkimusongelmaan, tutkimuskysymyksiin ja tutkimuksessa on tehty kaikki, mitä on luvattukin tehdä. Edellä esitetyssä esimerkissä mittarin valintaan liittyy sen validiuden arviointia ja tutkijan tulisi pohtia ja perustella menetelmävalintansa menetelmän validiuden avulla. Ulkoinen validiteetti puolestaan mittaa saatujen tulosten yleistettävyyttä. Ulkoinen validiteetti mittaa, missä määrin työssä saatuja tuloksia voitaisiin yleistää koskemaan muita, nyt tutkitun kohteen kaltaisia kohteita. Yleensä minkä tahansa tiedon tai tuotteen tuottamiseen keskittyvää tutkimusta pidetään hyödyllisempänä jos saatuja tuloksia voidaan soveltaa laajemminkin.

Page 12: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

12

6. KVANTITATIIVISEN TUTKIMUSAINEISTON ANALYYSI 1. Frekvenssi- ja prosenttijakaumat SPSS => Analyse => Descriptive Statistics => Frequencies * SPSS- taulukon editointi käyttäen Template:ja.

Tuplaklikkaa taulukon päällä / Valikosta Format / Table looks / valitse sopiva

Opetuksen asiantuntemus

Frequency Percent Valid Percent Cumulative Percent

Valid Melko tyytyväinen 5 6,5 6,8 6,8 Erittäin tyytyväinen 69 89,6 93,2 100,0 Total 74 96,1 100,0

Missing System 3 3,9 Total 77 100,0 Huom! 74 on vastannut tähän kysymykseen (N=77), Valid percent kuvaa jakaumaa vastanneiden kesken Toisinaan tehdään ensin luokittelu jolloin saadaan tieto tiivistetympään ja havainnollisempaan muotoon.

Luokittelun etuina on edellisen lisäksi: => aineiston käsittely helpottuu => aineiston graafinen esittäminen yksinkertaisilla kuvilla mahdollista

Luokittelun haittoina on: => menetetään paljon yksittäistä tarkkaa tietoa => luokkarajojen valinnalla vaikutetaan mielikuvaan, jonka taulukko antaa lukijalle

2. Muuttujan arvojen luokittelu * Tavallisimmin luokkien lukumäärä vaihtelee välillä 4 – 8 luokkaa. Luokkavälin pituus pyöristetään ylöspäin siten, että saadaan mahdollisimman havainnollinen luokitus. Luokkaväli = (max – min)/ luokkien lkm Transform / Visual Binning /

Valitse muuttuja => kirjoita uudelle luokkamuuttujalle nimi ja anna label-teksti Valitse Make Cutpoints ja anna First cutpoint location ja number of cutpoints Valitse Make Labels ja anna luokkarajat

Page 13: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

13

Transform-komento Muunnetaan syntymävuosi iäksi ja tehdään siitä luokiteltu muuttuja TRANSFORM => COMPUTE => Esimerkki Target variable => syntymav Numeric Expression => Anna laskukaavaksi ”2012-syntymav” 3. Ristiintaulukointi Tutkitaan kahden eri muuttujan riippuvuutta taulukoimalla ne samaan frekvenssitaulukkoon

=> sarakemuuttuja = selittävä muuttuja esim. sukupuoli (M/N)

=> rivimuuttuja = selitettävä muuttuja esim. arvosana (K/H/T) Tutkitaan siis onko sukupuolella vaikutusta arvosanaan. Ristiintaulukointi sopii muuttujille, kun ainakin toinen muuttujista on luokittelu tai- järjestysasteikollinen. Toisin sanoen ainakin toinen muuttuja on mitattu vain asteikolla kuten: kyllä/ ei Naimissa/ Naimaton/ … Täysin samaa mieltä/ Samaa mieltä/ Eos/ …. SPSS => Analyse => Descriptive Statistics => Cross tabs

1. Dependent variable = selitettävä muuttuja (y) => Columns 2. Independent variable = selittävä muuttuja (x) => Rows 3. Valitse myös ”Cells” => Percentages => Column

Page 14: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

14

4. Graafinen esittäminen Graafisen esittämisen etuja ovat: - - havainnollinen ja pelkistetty esitystapa - - monipuolistaa ja keventää tilastojen esitystä ja analysointia - - mahdollisuus korostaa joitain asioita - - mahdollisuus valita erilaisia esitystapoja Graafisen esittämisen haittoja ovat: - - esityksen epätarkkuus - - harhauttamisen mahdollisuus - - lukijan on oltava kriittinen ja asiantunteva, ettei tulkitse kuviota väärin SPSS => Graphs => Legacy dialogs => Valitse sopiva graafi=>valitse muuttuja..

1.Murtoviivadiagrammi => käytetään usein esimerkiksi aikasarjojen esittämiseen

2. Pylväsdiagrammi

=> käytetään muuttujille, jolla erillisiä, diskreettejä arvoja

Page 15: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

15

3. Histogrammi (=frekvenssimonikulmio)

SALCLASS

SALCLASS

24000-2999917000-2399910000-169993000-9999

Freq

uenc

y

20

10

0

käytetään muuttujille, jotka ovat jatkuluonteisia, esim. palkka,liikevaihto. Tällöin pylväät ovat yhdessä (vrt. pylväsdiagrammi, jossa pylväiden välillä on väliä)

Page 16: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

16

4. Sektoridiagrammi => sektori kuvaa yhden muuttujan arvon frekvenssiä

5.Tunnusluvut Vaihtoehto 1 SPSS => Analyze => Descriptive statistics => Descriptive… Descriptive Statistics

N Minimum Maximum Mean Std. Deviation

revenue 31 337 4484 2391,74 1002,574

Valid N (listwise) 31

Muuttujan keskiarvo on siis 2391,74 ja keskimääräinen poikkeama keskiarvon ympärillä siis 1002,57 (keskihajonta)

Page 17: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

17

Vaihtoehto 2 SPSS => Analyze => Descriptive statistics => Explore… Huom! Voit ajaa tällä komennolla myös ns. Box-plot graafin =>

Descriptives Statistic Std. Error

revenue Mean 2391,74 180,068

95% Confidence Interval for Mean

Lower Bound 2023,99

Upper Bound 2759,49

Median 2342,00

Std. Deviation 1002,574

Minimum 337

Maximum 4484

Range 4147

Skewness -,148 ,421

Kurtosis -,223 ,821

Huomaa että SPSS laskee mm. keskiarvon, mediaani, keskihajonnan, vaihteluvälin (range) and vinouden (skewness) ja huipukkuuden (kurtosis). BOX-PLOT

Ylempi nuoli osoittaa Q3- arvon, ts. arvon jonka alapuolella on 75 % havainnoista Alempi nuoli osoittaa Q1- arvon, ts. arvon jonka alapuolella on 25 % havainnoista Musta paksu viiva on mediaani. Koko väli on vaihteluväli

Page 18: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

18

6. Fraktiilit Current Salary N Valid 474 Missing 0 Mean (Keskiarvo) $34,419.57 Median (mediaani) $28,875.00 Mode (moodi) $30,750 Percentiles *) 25 $24,000.00 50 $28,875.00 75 $37,162.50

*) 25 % vastaajista ansaitsee alle 24000 50 % vastaajista alle 28875 75 % vastaajista alle 37162 25 % vastaajista ansaitsee yli 37162 7. Tunnuslukujen yhteenveto Keskiarvo Luokittelemattoman aineiston keskiarvo saadaan siten, että lasketaan muuttujan arvot yhteen ja jaetaan havaintojen lukumäärällä. Muuttujan on oltava joko välimatka-asteikon muuttuja tai suhdeasteikon muuttuja, jotta keskiarvo voidaan määrittää. Mikäli alkuperäistä, tarkkaa aineistoa ei ole käytössä, saadaan luokitellun aineiston keskiarvo saadaan käyttämällä luokkakeskuksia korvaamaan yksittäiset havainnot. Mediaani Mediaani on suuruusjärjestykseen järjestetyn aineiston keskimmäinen arvo. Mediaani voidaan määrittää vähintään järjestysasteikon muuttujalle. Moodi Useimmin esiintyvää havaintoa sanotaan moodiksi eli tyyppiarvoksi. Moodeja voi olla useita tai ei yhtään. Moodi voidaan määrittää kaikkien mitta-asteikkojen muuttujista. Fraktiilit Fraktiileilla tarkoitetaan kohtaa, joka rajaa jakaumasta p % havainnoista rajakohdan vasemmalle puolelle. Esim. 25 %:n fraktiili on arvo, jota pienempiä on 25 % havainnoista. Fraktiilit voi määrittää vähintään järjestysasteikon muuttujille. Fraktiilit voi määrittää joko summafrekvenssin kuvaajasta tai laskemalla vastaavalla kaavalla kuin mediaani. Esimerkkejä fraktiileista: Q1 = alakvartiili, 25 % havainnoista on tätä pienempiä Q2 = Md , 50 % havainnoista on sekä tätä pienempiä että suurempia Q3 = yläkvartiili, 75 % havainnoista on tätä pienempiä ja 25 % havainnoista on tätä suurempia

Page 19: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

19

Vaihteluväli Vaihteluvälillä tarkoitetaan väliä havaintoaineiston pienimmästä arvosta havaintoaineiston suurimpaan arvoon. Vaihteluväli voidaan määrittää vähintään järjestysasteikon muuttujalle. Vaihteluvälin pituudella tarkoitetaan em. tunnusluvun arvojen erotusta. Keskihajonta Keskihajontaa sanotaan myös standardipoikkeamaksi. Sitä voidaan käyttää, jos kyseessä on joko välimatka-asteikon tai suhdeasteikon muuttuja. Kirjaintunnukset ovat seuraavat: otoskeskihajonta = s ja perusjoukon keskihajonta on . Keskihajonta ottaa huomioon jokaisen havainnon ja sen erotuksen havaintojen keskiarvosta.

8. Mitta-asteikon vaikutus käytettyyn tunnuslukuun 1) Luokittelu- eli nominaaliasteikko naimisissa/naimaton/eronnut/ avoliitossa => Moodi, prosentit, frekvenssit 2) Järjestys-eli ordinaaliasteikko Täysin eri mieltä/Jokseenkin eri mieltä/Jokseenkin samaa mieltä/Täysin samaa mieltä => Mediaani, Moodi, prosentit, frekvenssit, vaihteluväli Huom ! Jos asteikko muutetaan 1 = Täysin eri mieltä 2 = Jokseenkin eri mieltä 3= Jokseenkin samaa mieltä 4 = Täysin samaa mieltä => Asteikko voidaan nyt tulkita ainakin osittain välimatkalliseksi, joten k.a. voidaan myös määrittää => Keskiarvo, Mediaani, Moodi, prosentit, frekvenssit, vaihteluväli, keskihajonta 3) Välimatka- intervalliasteikko (Palvelu on ystävällistä) 4 3 2 1 (Epäystävällistä) => Keskiarvo, Mediaani, Moodi, prosentit, frekvenssit , vaihteluväli, keskihajonta, korrelaatio 4) Suhdeasteikko Kuukausipalkka => Keskiarvo, Mediaani, Moodi, prosentit, frekvenssit , vaihteluväli, keskihajonta, korrelaatio

Page 20: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

20

9. Vinous Tunnusluvulla voidaan havainnollistaa havaintojen jakautumista keskiarvon eripuolille. Jakauma on vino vasemmalle eli vinous saa negatiivisen arvon, aineiston keskiarvon ollessa mediaania pienemmän. Oheisessa kuvassa keskiarvo on 64,92, mediaani 67,00. Vastaavasti jakauma on vino oikealle eli vinous saa positiivisen arvon, aineiston keskiarvon ollessa mediaania suuremman. Oheisessa kuvassa 2 keskiarvo on 40,67 vuotta ja mediaani 39,00 vuotta.

Vinous<0 Vinous>0 10.Huipukkuus Huipukkuusluku ilmaisee jakauman terävyyttä suhteessa normaalijakaumaan, jonka huipukkuus on 0. Oheisen kuvaajan huipukkuus on 0,662. 11. Riippuvuudet/ Korrelaatiot * Varsin usein tutkittavasta tilastoyksiköstä mitataan useita eri ominaisuuksia. * Monesti halutaan myös tietää, onko eri ominaisuuksilla jokin keskinäinen yhteys. Yhteys voi olla syyseuraussuhde, jokin kolmas seikka voi aiheuttaa riippuvuutta kahdelle eri ominaisuudelle tai ne voivat keskenään vaikuttaa toisiinsa. * Muuttujista toinen voi olla riippuva muuttuja eli selitettävä muuttuja, dependent (y) ja toinen voi olla riippumaton muuttuja eli selittävä muuttuja, independent (x). Toisaalta korrelaation yhteydessä kausaalisuus ei aina ole yksiselitteinen. * Korrelaatiotarkastelu sopii muuttujille, jotka molemmat ovat välimatka- tai suhdeasteikollisia. Toisin sanoen ne on mitattu numeerisella, matemaattisella asteikolla 1-5, 0-100 ym. * Usein korrelaation tutkiminen voidaan aloitetaan hajontakuvio piirtämisestä

50

40

30

20

10

0

henkilön pi tuus

185,0180,0175,0170,0165,0160,0155,0150,0

henkilön pituusfre

kven

ssi

12

10

8

6

4

2

0

Std. Dev = 7,56

Mean = 167,3

N = 27,00

100

80

60

40

20

0

Page 21: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

21

0

1

2

3

4

5

0 1 2 3 4 5 6 7 8 9 10

SPSS => Graphs => Scatter … Korrelaatiokerroin siis tulkitsee kahden muuttujan välistä lineaarista eli suoraviivaista yhteyttä Korrelaatiokerroin (coefficient of correlation) on tunnusluku, jolla voidaan mitata riippuvuuden suuruutta ja suuntaa. Korrelaatiokerroin on laaduton tunnusluku ja siis siten riippumaton muuttujien mittayksiköistä (cm, mk, kg, kpl). Korrelaatiokertoimien saamat arvot ovat aina välillä [-1,1]:

Arvo on +1 silloin kun toisen muuttujan arvon kasvaessa myös toisen muuttujan arvo kasvaa samassa suhteessa (esim. pituus <==> paino). Arvo on -1 silloin kun toisen muuttujan arvon kasvaessa toisen muuttujan arvo pienenee samassa suhteessa. Kun muuttujien arvot vaihtelevat täysin toisistaan riippumatta. ts. muuttujien välillä ei ole

riippuvuutta, on korrelaatiokertoimen arvo 0. SPSS => Analyse => Correlate => Bivariate => Kriittisiä arvoja korrelaation merkitsevyydelle: Havaintoparit 10 kpl on r :n oltava > 0.632 20 kpl ” > 0.444 50 kpl ” > 0.279 100 kpl ” > 0.196 Eli mitä suurempi on havaintoaineisto, sitä pienempi r :n arvo riittää osoittamaan muuttujien välillä vallitsevan lineaarista riippuvuutta. Korrelaatiokertoimen toinen potenssi (r2) on lineaarisen regressiomallin selitysaste eli se kertoo, kuinka suuren osan y:n vaihtelusta voidaan selittää x:n avulla. Luku r2 voidaan kertoa 100:lla, jolloin saadaan selitysaste prosentteina.

Page 22: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

22

12. Regressiosuora Tarkoituksena on löytää matemaattinen malli, joka parhaiten kuvaa muuttujien x ja y välistä riippuvuutta. Tämä matemaattinen malli on kahden muuttujan tapauksessa käyrä, joka optimaalisella tavalla kulkee pistejoukossa. Käyrä voi olla esim. suora (tässä tarkastellaan vain ensimmäisen asteen käyrää eli suoraa), paraabeli (toisen asteen yhtälö), kolmannen asteen yhtälön kuvaaja, hyperbeli tai eksponenttikäyrä.

* Pienimmän neliösumman suora sijaitsee pistejoukossa siten, että havaintopisteiden ja suoran välisen y-akselin suuntaisten poikkeamien neliöiden summa on mahdollisimman pieni.

* Pienimmän neliösumman suoran yhtälö y = a + bx. Suoran yhtälössä x:n kerroin b (kulmakerroin = regressiokerroin) kertoo kuinka paljon y:n arvo muuttuu, jos x:n arvo muuttuu yhdellä yksiköllä. SPSS => Analyse => Regression => Linear

13.Tilastollinen merkitsevyys Tilastollisessa päättelyssä johtopäätösten tekeminen on suhteellisen ongelmatonta, jos kaikki perusjoukon alkiot ovat mukana tutkimuksessa. Tällöinkin virheitä voi syntyä - mittareiden määrityksessä, mittari ei mittaa tarkoitettua ominaisuutta - mittauksessa - koodauksessa - taitamattomassa aineiston käsittelyssä - puuttuvien havaintojen suhteellisen suuressa määrässä. Yksittäisissä havaintoarvoissa esiintyvät karkeat virheet voi useissa tapauksissa havaita määrittelemällä muuttujien pienimmät ja suurimmat arvot. Ongelma on suurempi, kun otoksen perusteella tehdään koko perusjoukkoa koskevia päätelmiä. Otantatutkimuksen tavoitteena on, että otos kuvaa koko perusjoukkoa. Tällöin otoksesta saadut tulokset ovat samat kuin koko perusjoukosta saadut tulokset. Otantatutkimuksen yhteydessä on tarpeen selvittää tulosten luotettavuus ja riskit, joita johtopäätöksen tekemiseen liittyy. Näitä tarkastellaan yleisimmin seuraavilla menetelmillä: estimointi ja hypoteesien testaus. Huom ! hypoteesien testauksella tarkoitetaan ennakko-oletusten paikkansapitävyyden tutkimista. Esimerkiksi voidaan tutkia hypoteesia ”Miehet menestyvät naisia paremmin matematiikan opinnoissa”

Page 23: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

23

Estimointi Estimoinnilla tarkoitetaan otoksesta laskettujen tunnuslukujen avulla tehtäviä arvioita perusjoukon vastaaville suureille. Otoksesta laskettujen tunnuslukujen arvot (keskiarvo, keskihajonta,…) ovat vastaavien perusjoukkoa kuvaavien suureiden eli parametrien estimaatteja eli arvioita.

Luottamusväli Otoksesta laskettujen estimaattien perusteella voidaan määrittää luottamusväli eli väli, jolla perusjoukon vastaava tunnusluku sijaitsee tietyllä todennäköisyydellä. Luottamusvälin pituuteen vaikuttavia tekijöitä ovat otoskeskiarvo, keskihajonta sekä kulloinkin laadittu luottamustaso. Luottamustaso mittaa virhearvioinnin todennäköisyyttä. mitä suurempaa uottamustasoa käytetään, sitä pienempi on virhemahdollisuus. SPSS => Analyse => Descriptive Stat. => Explore Yleisimmin käytetyt luottamustasot ja niihin liittyvät kriittiset arvot ovat:

luottamustaso 95 % 99 % 99,9 % kriittinen arvo 1,96 2,58 3,30

KESKIVIRHE Otoksesta lasketun tunnusluvun keskihajontaa nimitetään keskivirheeksi (standard error). Keskiarvon keskivirhe on siis otoskeskiarvojen keskihajonta. Keskivirhe kuvaa tunnusluvun luotettavuutta: mitä pienempi keskivirhe on sitä luotettavampi.

14. Hypoteesien testaaminen Tilastollista testausta leimaa varovaisuus: Riippuvuutta muuttujien välillä tai eroa keskiarvojen välillä voidaan sanoa olevan vain, jos siitä on tarpeeksi vahvaa näyttöä. Päätös tapahtuu samalla tavoin kuin oikeudessa, jossa todetaan syylliseksi vain, jos syyllisyydestä on tarpeeksi todisteita. Merkitsevyystaso eli riskitaso (Significance) ilmoittaa, kuinka suuri riski on, että saatu ero tai riippuvuus johtuu sattumasta. Merkitsevyystasosta käytetään lyhennettä p (ohjelman tulosteissa myös Sig.) Yleisimmin käytetyt merkitsevyystasot ovat: 0,05 (5 %) => jos saadaan tulos että riippuvuuden riskitaso on 0,05 hypoteesissa ”Miehet menestyvät naisia

paremmin matematiikan opinnoissa” => voidaan sanoa että 95 % varmuudella miehet saavat parempia arvosanoja matematiikassa kuin naiset (riski että tehdään väärä johtopäätös on siis vain 5 %).

Page 24: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

24

0,01 (1 %) => jos saadaan tulos että riippuvuuden riskitaso on 0,01 hypoteesissa ”Miehet menestyvät naisia

paremmin matematiikan opinnoissa” => voidaan sanoa että 99 % varmuudella miehet saavat parempia arvosanoja matematiikassa kuin naiset (riski että tehdään väärä johtopäätös on siis vain 1 %). 0,001 (0,1 %) => jos saadaan tulos että riippuvuuden riskitaso on 0,001 hypoteesissa ”Miehet menestyvät

naisia paremmin matematiikan opinnoissa” => voidaan sanoa että 99,9 % varmuudella miehet saavat parempia arvosanoja matematiikassa kuin naiset (riski että tehdään väärä johtopäätös on siis vain 0,1 %). HUOM ! 5 % riski on yleensä suurin sallittu riskitaso, mikäli riippuvuus olisi tilastollisesti vahvistettu. Tietokoneohjelmat tulostavat testauksen yhteydessä automaattisesti havaitun merkitsevyystason. SPSS-ohjelma ilmoittaa satunnaisriskin joko p- arvona tai arvona Sig. (Significance). Muistisääntö: mitä pienempi riski, sitä merkitsevämpi tulos. 15. Ristiintaulukointi, Chi-testiv ja tilastollinen merkitsevyys

2-testiä käytetään mm. riippumattomuustestinä: tutkitaan riippuvatko kaksi tarkasteltavaa muuttujaa toisistaan vai eivät. Tutkittavista muuttujista muodostetaan testaamista varten ns. kontingenssitaulukko (kaksiulotteinen jakauma). Nollahypoteesi on, että molemmat muuttujat ovat toisistaan riippumattomia, mikä tarkoittaa sitä, että sarakefrekvenssit ovat riippumattomia rivimuuttujasta ja vastaavasti rivifrekvenssit ovat riippumattomia sarakemuuttujasta. Mikäli riippuvuutta tutkitaan ristiintaulukoinnin ja Chi-testin avulla, täytyy seuraavien edellytysten olla voimassa: 1. otos on poimittu satunnaisesti ja riippumattomasti 2. korkeintaan 20% odotetuista frekvensseistä saa olla pienempiä kuin 5 , kaikki odotetut frekvenssit ovat suurempi kuin 1. 3. Ainakin toinen muuttuja on luokitteluasteikollinen

Page 25: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

25

Esimerkki

Hypoteesi => harrastuaika vaikuttaa oman tai hoitohevosen hankintaan Harrastusaika 1 = alle vuoden 2 = 1-3 vuotta 3 = 4-9 vuotta 4 = 10 vuotta tai enemmän

Hevonen * Harrastusaika Crosstabulation

4 16 12 2 3480,0% 64,0% 30,0% 28,6% 44,2%

1 8 22 2 3320,0% 32,0% 55,0% 28,6% 42,9%

0 1 6 3 10,0% 4,0% 15,0% 42,9% 13,0%

5 25 40 7 77100,0% 100,0% 100,0% 100,0% 100,0%

Count% within HarrastusaikaCount% within HarrastusaikaCount% within HarrastusaikaCount% within Harrastusaika

ei kumpaakaan

hoitohevonen

oma hevonen

Hevonen

Total

alle vuoden 1-3 vuotta 4-9 vuotta10 vuotta taienemmän

Harrastusaika

Total

Chi-Square Tests

16,029a 6 ,01415,307 6 ,018

77

Pearson Chi-SquareLikelihood RatioN of Valid Cases

Value dfAsymp. Sig.

(2-sided)

7 cells (58,3%) have expected count less than 5. Theminimum expected count is ,65.

a.

Page 26: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

26

16. Korrelaation tilastollinen merkitsevyys Kahden suhde/välimatka-asteikollisen muuttujan välisen lineaarisen riippuvuuden testaamiseen käytetään Pearsonin korrelaatiokerrointa ja siihen liittyvää t-jakaumaan perustuvaa testausta. Mikäli riippuvuutta tutkitaan korrelaation avulla, täytyy seuraavien edellytysten olla voimassa: . Molemmat muuttujat ovat suhde/välimatka-asteikollisia (ts. muuttujia on mitattu numeerisella asteikolla) 2. Molemmat muuttujat noudattavat likimain normaalijakaumaa Esimerkki

Hypoteesi => harrastuaika vaikuttaa oman suorituksen arviointiin, mitä pitempään on harrastanut sitä tyytyväisempi on omaan suoritukseensa. Harrastusaika 1 = alle vuoden 2 = 1-3 vuotta 3 = 4-9 vuotta 4 = 10 vuotta tai enemmän Oma suoritus 1 = Erittäin tyytymätön 2 = Melko tyytymätön 3 = Melko tyytyväinen 4 = Erittäin tyytyväinen

Correlations

1 -,249*,029

77 77-,249* 1,029

77 77

Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N

Harrastusaika

Oma suoritus

Harrastusaika Oma suoritus

Correlation is significant at the 0.05 level (2-tailed).*.

Page 27: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

27

17. Keskiarvotestit * Keskiarvotesteillä verrataan otoksesta laskettua keskiarvoa hypoteesin mukaiseen vakio-arvoon tai vertaillaan ryhmien keskiarvoja toisiinsa. Keskiarvoissa on yleensä eroja, mutta testattavaksi jää, kuinka todennäköistä on, että erot johtuvat sattumasta. Vertailtavien ryhmien (otosten) on oltava toisistaan riippumattomia.

Report

Current Salary

$41,441.78 258 $19,499.214$26,031.92 216 $7,558.021$34,419.57 474 $17,075.661

Gender 2MaleFemaleTotal

Mean N Std. Deviation

* Keskiarvotesteissä voidaan tehdä johtopäätöksiä kahden eri ryhmän keskiarvojen vertailusta toisiinsa Kuten edellistä taulukosta nähdään niin miehet näyttävät ansaitsevan selvästi naisia paremmin. Mutta kuinka suuri tilastollinen merkitsevyys voidaan ko. erolle määrittää? * Voidaan esimerkiksi tutkia onko naispuolisten opiskelijoiden testipisteiden keskiarvo korkeampi kuin miespuolisten opiskelijoiden

Keskiarvojen välistä tilastollista merkitsevyyttä voidaan testata mm. kahdella eri testillä

Mann.Whitneyn U-testi T- testi

Page 28: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

28

Mann.Whitneyn U-testi * Pienet otoskoot ryhmissä (N<20) * Normaalisuudesta ei varmuutta * Mittaus luokittelu/järjestysasteikoll. Esimerkki

Report

Vastaajan pituus

178,10 10 4,012169,40 10 4,195173,75 20 5,990

Vastaajan sukupuoliMiesNainenTotal

Mean N Std. Deviation

Onko miesten keskipituus naisia suurempi? Testataan U-testillä SPSS = > Analyse => Nonparametric tests => 2 Independent Samples =>

Test Statisticsb

4,50059,500-3,442

,001

,000a

Mann-Whitney UWilcoxon WZAsymp. Sig. (2-tailed)Exact Sig. [2*(1-tailedSig.)]

Vastaajanpituus

Not corrected for ties.a.

Grouping Variable: sp_numeerinenb.

Tulkinta => Asymp. Sig kertoo että riskitaso on 0,1 % ts. 99,9 % tilastollisella varmuudella voidaan sanoa että miesten keskipituus on naisia suurempi.

Page 29: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

29

$140 000$120 000$100 000$80 000$60 000$40 000$20 000$0

Current Salary

100

80

60

40

20

0

Freq

uenc

y

Mean =$41 441,78Std. Dev. =$19 499,214N =258

Histogram

$60 000$50 000$40 000$30 000$20 000$10 000

Current Salary

40

30

20

10

0

Freq

uenc

y

Mean =$26 031,92Std. Dev. =$7 558,021N =216

Histogram

T- testi * Suurehko otoskoko ryhmissä (N>20-30 molemmissa ryhmissä)

Muuttujan arvot jakautuneet normaalisti molemmilla ryhmillä Mittaus vähintään välimatka-asteikolla

Miesten palkkajakauman normaalisuus graafisesti 1. Valitaan osa-joukoksi miehet => Data => Select Cases => if condition is satisfied => if = … 2. Analyse => Frequencies => Valitse muuttuja salary => Chart => Histogram

=> With normal curve

Vastaava naisille

Molemmissa ryhmissä jakaumat ovat suhteellisen normaalisti jakautuneet. Ajetaan testi SPSS => Analyse => Compare Means => Independent Samples => T Test

Page 30: 1. KVANTITATIIVINEN TUTKIMUSpervil/kvantsu/Moniste.pdf · 2013. 2. 28. · atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on

30

TULKINTA => ENSIN KATSOTAAN YLEMPÄÄ RIVIÄ (Equal variances assumed) => MIKÄLI Sig-arvo ON YLI 0,05 => LUETAAN YLEMPÄÄ RIVIÄ => MIKÄLI Sig-arvo ON ALLE 0,05 => LUETAAN ALEMPAA RIVIÄ TÄSSÄ TAPAUKSESSA KATSOTAAN ALEMMALTA RIVILTÄ SIG-ARVO, JOKA ON 0,000

VOIDAAN SANOA ETTÄ RYHMIEN VÄLISET KESKIARVOT POIKKEAVAT TILASTOLLISESTI TOISISTAAN YLI 99,9 % TILASTOLLISELLA VARMUUDELLA.

Tulkinta =>