Alustamine, tööakna tutvustuskodu.ut.ee/~heti/stata/Stata juhend 2017.pdf · 1 Alustamine,...

39
1 Alustamine, tööakna tutvustus Peale Stata avamist on näha menüüriba, tööriistariba ja neli akent. Menüüdes on valikud töökeskkonna kohandamiseks (File, Edit), andmetega manipuleerimiseks (Data), graafikute tegemiseks (Graphics), analüüside tegemiseks (Statistics), abi saamiseks (Help). Kõiki korraldusi on võimalik Statale anda kas menüüdest valides või käske otse käsuaknasse (Commands) trükkides. Menüüdes pakutav valik on kesisem, kui Stata tegelikud võimalused lubavad. Meie eesmärk on jõuda Stata kasutamisel käskude kasutamiseni menüüdes klõpsimise asemel. Tööriistaribal on välja toodud nupud enamkasutatavate käskude jaoks. Aknad: Results (suur must aken) peamine aken, kuhu ilmuvad teated ja tulemused, näidatakse ka sisestatud käske (ka menüüdest tehtud valikud ilmuvad sinna käsu kujul) Commands käsuaken, kuhu saab kirjutada käske. Levinumaid käske on võimalik valida ka menüüdest. Menüüdest tehtud valikud ilmuvad käskudena Results ja Review aknasse. Review varem sisestatud käskude loetelu (ka menüüde kaudu valitud jõuavad sinna), käsul klõpsates ilmub see käsuaknasse Variables kasutuses oleva andmestiku tunnuste loetelu, tunnuse nimel klõpsates kantakse see käsuaknasse Aknaid saab aktiivseks teha klikkides hiirega akna päisel. Avatud akende vahel saab ringelda kasutades klahvikombinatsiooni Ctrl-Tab. Muuda andmetabelit Vaata andmetabelit Sulge Stata Salvesta Ava andmestik Töökataloogi asukoht

Transcript of Alustamine, tööakna tutvustuskodu.ut.ee/~heti/stata/Stata juhend 2017.pdf · 1 Alustamine,...

  • 1

    Alustamine, tööakna tutvustus

    Peale Stata avamist on näha menüüriba, tööriistariba ja neli

    akent.

    Menüüdes on valikud töökeskkonna kohandamiseks (File, Edit), andmetega

    manipuleerimiseks (Data), graafikute tegemiseks (Graphics), analüüside tegemiseks

    (Statistics), abi saamiseks (Help).

    Kõiki korraldusi on võimalik Statale anda kas menüüdest valides või käske otse käsuaknasse

    (Commands) trükkides. Menüüdes pakutav valik on kesisem, kui Stata tegelikud võimalused

    lubavad. Meie eesmärk on jõuda Stata kasutamisel käskude kasutamiseni menüüdes klõpsimise

    asemel.

    Tööriistaribal on välja toodud nupud enamkasutatavate käskude jaoks.

    Aknad:

    Results (suur must aken) – peamine aken, kuhu ilmuvad teated ja tulemused, näidatakse ka

    sisestatud käske (ka menüüdest tehtud valikud ilmuvad sinna käsu kujul)

    Commands – käsuaken, kuhu saab kirjutada käske. Levinumaid käske on võimalik valida

    ka menüüdest. Menüüdest tehtud valikud ilmuvad käskudena Results ja Review aknasse.

    Review – varem sisestatud käskude loetelu (ka menüüde kaudu valitud jõuavad sinna),

    käsul klõpsates ilmub see käsuaknasse

    Variables – kasutuses oleva andmestiku tunnuste loetelu, tunnuse nimel klõpsates kantakse

    see käsuaknasse

    Aknaid saab aktiivseks teha klikkides hiirega akna päisel. Avatud akende vahel saab ringelda

    kasutades klahvikombinatsiooni Ctrl-Tab.

    Muuda

    andmetabelit

    Vaata

    andmetabelit Sulge Stata

    Salvesta

    Ava andmestik

    Töökataloogi asukoht

  • 2

    Näiteks kasutatavad andmestikud

    Asuvad aadressil http://www.ut.ee/~heti/stata

    Tudengite terviseandmestik

    TÜ meditsiinivaldkonna arstiteaduse eriala II kursusel Epidemioloogia ja biostatistika aines

    korraldatakse igal aastal ankeetküsitlus, kus registreeritakse mitmesuguseid andmeid tudengite

    eluviisi ja terviseseisundi kohta. Oma näidetes kasutamegi vastava andmestiku valimit.

    Andmestikus on andmed 2005. ja 2015. aasta kohta, osad küsimused on erinevad. (Ankeet:

    ankeet_2015.pdf, andmestik STATA kujul: andmed_2015.dta)

    Doktorantide andmestik

    TÜ arstiteaduse valdkonna doktorantidele tehti väike küsitlus. Ankeet antud veebiaadressil

    failis doktorantide ankeet.pdf ja andmed Stata kujul doktorantide andmed.dta.

  • 3

    Töökataloog

    Stata akna all ääres on halli värvi olekuriba, kus näeb töökataloogi nime. Töökataloog on

    kataloog, kust avatakse ja kuhu salvestatakse vaikimisi tööfaile (logisid, programme, andmeid).

    Igale failile saab ka asukoha eraldi ära näidata, aga ühe projekti raames on siiski mugavam

    kasutada ühte töökataloogi.

    Kirjutades käsuaknasse

    pwd

    näidatakse käesoleva töökataloogi nimi (vaikimisi tavaliselt c:\data). Näiteks:

    C:\data

    Töökataloogi muutmine menüüdest File => Change Working Directory või käsurealt

    kasutades käsku cd

    cd c:\tmp\

    Juba varem Statasse imporditud andmestiku avamine

    Stata-formaadis andmestikud lõpevad laiendiga .dta. Andmestiku saab kasutusele võtta

    failihalduris, tehes kaks hiireklikki andmestiku nimel või Statas menüü-valikust File => Open

    või trükkides käsureale

    use failinimi, clear

    Kui andmestikud on suured, siis saab Statale ette anda kasutatava mälumahu

    set memory 50m

    A good rule of thumb for large files is to allocate roughly 50% more memory than

    the size of your file. (Allikas: www.stata.com)

    Näited:

    use andmed_2015.dta, clear andmestiku avamine töökataloogist

    use "C:\stata\andmed_2015.dta", clear andmestiku avamine arvuti kettalt

    use http://www.ut.ee/~heti/stata/andmed_2015.dta, clea

    andmestiku avamine veebilehelt

    Uuemates versioonides loodud andmestikud ei pruugi avaneda vanemas Statas, siis on võimalik

    (uuemas Statas) andmestik salvestada vanemasse versiooni tagasi.

    saveold failinimi.dta, version(13)

    Ülesanne: Ava tudengite terviseandmestik:

    use http://www.ut.ee/~heti/stata/andmed_2015.dta, clear

  • 4

    Esimene pilk andmestikule, tingimused

    Andmestiku vaatamiseks tabeli kujul vali tööriistaribal nupp või käsurealt kirjutades

    browse

    Avaneb andmestik uues aknas vaatamiseks (Data Browser, andmeid muuta ei saa)

    Andmestiku ja seal olevate tunnuste kirjeldamiseks valida menüüst

    Data => Describe data => Describe variables in memory => OK

    või kirjutada käsuaknasse

    describe

    Selle peale väljastatakse tulemuste aknasse (Results) andmestiku nimi ja/või asukoht

    kõvakettal, tunnuste ja vaatluste arv, andmestiku suurus, tunnuste nimed, tüübid ja kirjeldused.

    Näidatakse, millise tunnuse järgi andmestik on sorteeritud.

  • 5

    Andmestikust ülevaate saamiseks vali menüüst Statistics => Summaries, tables and tests =>

    Summary statistics. Jäta kõik lahtrid tühjaks ja vajuta OK või kirjuta käsureale:

    summarize

    Väljastatakse kõikide tunnuste miinimumid, maksimumid, keskmised ja standardhälbed

    (milliste tunnuste puhul milline informatsioon on mõtekas, jääb andmetöötleja otsustada).

    Neid käske saab kasutada ka ühe tunnuse kirjeldamiseks

    summarize vanus

    describe vanus

    Ainult osade tunnuste vaatamiseks tuleb kirjutada browse käsu järele meid huvitavate

    tunnuste nimed või näidata millisest tunnusest millise tunnuseni me soovime andmestikku näha.

    browse vanus pikkus sugu

    browse aasta-sport näitab meile järjest tunnuseid alates aastast kuni spordini

    Tunnuste kohta saab küsida ka lisainformatsiooni:

    codebook vanus

    Väljastatakse tunnuse nimi ja tüüp, maksimaalne ja minimaalne väärtus, puuduvate väärtuste

    arv jne. Kui tunnuse väärtustel on küljes sildid (nt mees/naine, mitte ainult numbriline 1/2), siis

    väljastatakse ka väärtused ja nimetused.

    Ülesanne. Proovi nii – kirjuta käsuaknasse browse ja nüüd vali Variables aknast mõni tunnus

    – näiteks viirus ja tee sellel hiirega klikk. Tunnus ilmub käsuaknasse sõna browse järele.

    Nii saad käskudesse lisada tunnuseid ilma trükkimata.

  • 6

    Stata lubab ka tunnuste (ja ka käskude) nimesid lühendada (ära peab kirjutama nii palju tähti,

    et tunnus oleks üheselt identifitseeritav – näiteks kui andmestikus on tunnused sport ja

    suits, siis tuleks tunnuse nimest välja kirjutada sp, et Stata mõistaks, et soovite tunnust

    sport kasutada).

    browse sp tunnuse sport vaatamine andmetabelis

    browse s* kõikide sümboliga s algavate tunnuste vaatamine

    Võime uurida ka ainult osasid vaatlusi:

    browse in 1 ainult esimese rea vaatamine

    browse in 1/5 viie esimese vaatluse vaatamine

    browse in -5/-1 viimase viie vaatluse vaatamine

    Võime esitada tingimusi loogiliste operaatorite abil käsuosa if järel:

    browse if vanus==19 ainult 19-aastaste vastajate andmed

    browse if vanus= suurem või võrdne

    != mittevõrdne

    & ja

    | või

    ! ei

    () sulud, loogiliste operatsioonide kokkusidumiseks

    Kõiki neid võimalusi võime omavahel kombineerida.

    Ülesanne: Mõtle ja proovi, millise alamosa andmetest saame kätte järgmise käsu abil:

    browse kaal pikkus if (sugu==2 & vanus!=20)

  • 7

    Andmete vaatamiseks saab kasutada ka käsku list. Sel juhul näidatakse andmed tulemuste

    aknas (Results).

    list

    Käsule list saab sarnaselt käsuga browse lisada tingimusi.

    Loendamine

    Loendamiseks on käsk count, sellele saab lisada täiendusi eelpool nimetatud viisil.

    count if vanus==19 mitu 19-aastast vastajat on andmestikus

    count if vanus

  • 8

    Üldiseid õpetussõnu

    Stata käsu üldine süntaks on järgmine:

    command [varlist][if exp][in range] [,options]

    command – käsk (näiteks browse, list, summary, table jne), alati esimesel kohal.

    varlist – tunnuste loetelu, millele käsku rakendatakse, kui tunnuse nime pole lisatud, siis

    rakendatakse käsku kõikidele tunnustele. Osade käskude puhul siiski peab tunnusenimi olemas

    olema (nt käsk table).

    if exp – tingimus vaatluste kitsendamiseks (nt rakendatakse käsk ainult naistele; kindlas

    vanusevahemikus olevatele isikutele vms), kirjutatakse enne lisaparameetrite koma

    in range – kui me tahame käsku rakendada kindlatele vaatlustele (näiteks sajale esimesele

    vaatlusele), kirjutatakse enne koma, millele järgnevad lisaparameetrid.

    options – lisaparameetrid, kirjutatakse alati peale koma.

    Abifailid

    Statas saab alati otsida käskude kohta abi. Kui käsu nimetus on teada, siis

    help käsk

    avab käsu abifaili. Kui täpset käsu nime ei tea, siis saab kasutada otsingut märksõna abil

    findit märksõna

    Hea tulemuse annab abi otsimine ka interneti otsingumootoreid kasutades (Nt Google’s

    sisestada otsisõna Stata variable sort descending).

    Lühendamine

    Stata lubab nii käske kui tunnusenimesid lühendada. Kõik järgnevad käsud annavad sama

    tulemuse

    list sugu in 1/10

    li sugu in 1/10

    l sug in 1/10

    Eelmiste käskude kuvamine

    Juba sisestatud käske saab taas kuvada käsuaknas PgUp, PgDn klahve kasutades (näiteks juba

    sisestatud käsu muutmiseks).

    Menüüde kasutamine

    Kui käsk kohe meeles ei ole, siis võib sobiva käsu anda menüüst ja siis on juba Review aknas

    vajalik käsk olemas.

  • 9

    Ühemõõtmelised sagedustabelid

    Menüüsse Statistics on välja toodud palju erinevaid võimalusi andmeanalüüsiks. Kirjeldavad

    statistikud, lihtsamad testid, ühe- ja mitmemõõtmelised tabelid asuvad menüüs Statistics =>

    Summaries, tables & tests.

    Sagedustabeleid rühmitavate tunnuste uurimiseks saab teha valides menüüst: Statistics =>

    Summaries, Tables and tests => Frequency tables => Oneway tables

    Avaneb järgmine aken:

    Lahtrisse Categorical variable valime tunnuse, millele tahame sagedustabelit teha.

    Lisavalikutena on võimalik ära märkida:

    Treat missing values like other values – uuritakse ka puuduvate väärtuste hulka

    Do not display frequencies – mitte väljastada sagedusi

    Display numeric codes rather than value labels – eelistada tunnusel numbrilisi väärtusi

    (kui on koodid asendatud sõnaliste selgitustega)

    Produce a bar chart of the relative frequencies – joonistatakse tulpdiagramm

    (tekstiline, mitte graafik)

    Display the table in decending order – sorteeritakse sagedustabel kahanevas järjekorras

    Kui valida Subpopulaton variable aknasse tunnus, siis sagedustabelit tehes jäetakse välja vaat-

    lused, kus valitud tunnuse väärtus =0.

    Kui me soovime leida kirjeldavaid statistikuid gruppide kaupa, siis by/if/in-lehel saab näidata,

    milliste tunnuste järgi me soovime grupeerida (nt tunnus sugu)

    Teeme linnukese Repeat commands by groups ette. Valime aknakesse Variables that define

    groups tunnuse nime sugu. Sinna saab valida ka mitmeid grupeerivaid tunnuseid korraga.

    Kui me soovime andmehulka piirata – nt vaadata ainult 2005. aastal vastanud tudengite

    andmeid, siis võime If järele kirjutada aasta==2005

    Menüüdest tehtud valikud on pärast OK-nupule vajutamist käsurea kujul näha ka Results ja

    Review aknas. Uuesti menüüst sama tegevust valides on valikuakendes alles viimati tehtud

    valikud.

  • 10

    Kõike sedasama saame teha ka käsuakna abil. Sagedustabeleid kategooriliste tunnuste uuri-

    miseks saab teha käsku tabulate (lühendatult tab) kasutades.

    tabulate sugu

    tab sugu

    Kui soovime mitmele tunnusele järjest ühemõõtmelisi sagedustabeleid teha, siis kasutame

    käsku tab1:

    tab1 sugu aasta

    (menüüst Statistics => Summaries, Tables and tests => Tables => Multiple oneway tables)

    Ülesanne: Ava abifail

    help tab

    ja uuri kuidas on võimalik lisavalikutena ära märkida:

    puuduvate väärtuste hulga lisamine tabelile

    väljastada väärtused numbrilistena (kui on koodid asendatud sõnaliste selgitustega)

    sorteerida sagedustabel kahanevas järjekorras

    Näide:

    Vaata, mis tulemuse annavad järgmised käsud:

    tab alko

    tab alko, miss

    tab alko, nolab

    tab alko, sort

    tab alko, miss sort nolab

  • 11

    Kahemõõtmelised sagedustabelid

    Kahemõõtmelise sagedustabeli tegemiseks kasutatakse käsku tabulate. Käsu üldine

    süntaks:

    tabulate tunnus1 tunnus2 [if] [in] [, options]

    Lisaparameetritena (options) saab tellida protsente:

    column suhtelised sagedused iga veeru kohta

    row suhtelised sagedused iga rea kohta

    cell suhtelised sagedused terve tabeli kohta

    missing väljastada info ka puuduvate väärtuste kohta

    Näiteks: tabulate sugu aasta

    (Sama menüüdest: Statistics => Summaries, Tables and tests => Tables => Twoway

    tables with measures of summary association)

    Soovitavad tunnused valime aknakestesse Row variables ja Column variables. Tulemuseks

    saame kahemõõtmelise sagedustabeli. Võimalik on valida tabeli sisu (suhtelised sagedused,

    veeru- või reaprotsendid), tunnuste vahelist seost hindavaid näitajaid, vormindada tabeli

    välimust (näidata puuduvaid väärtusi, näidata väärtuste märgendeid (labels) või mitte).

  • 12

    Kirjeldavad statistikud

    Kirjeldavad statistikud saab, kui käsuaknasse trükkida:

    summarize tunnuste_loetelu

    Detailse info saamiseks lisame täienduse detail.

    summarize tunnuste_loetelu , detail

    Lisada saame ka tingimusi eelpool kirjeldatud viisi.

    Näiteks:

    summarize pikkus if sugu==2 kirjeldame ainult meestudengite pikkust

    bysort sugu: summar pikkus kirjeldavad statistikud grupeeriva tunnuse järgi

    bysort sugu: summar pikkus kaal vanus kirjeldavad statistikud rohkem kui

    ühe tunnuse jaoks korraga

    grupeeriva tunnuse järgi

    Sama menüüde abil. Arvulisele tunnusele kirjeldavate statistikute arvutamiseks valime:

    Statistics => Summaries, Tables and tests => Summary and descriptive statistics =>

    Summary statistics

    Variables-aknasse valime tunnuse nime (vt tööakna pilte allpool), sinna saab valida ka mitu

    tunnust korraga (järjest klõpsates meid huvitavate tunnuse nimedel); kõikide tunnuste korraga

    analüüsimiseks võib aknakesesse kirjutada sümboli * .

    Options – saab valida:

    Standard display – näidatakse nn standardväljundit, kus on toodud vaatluste arv, keskmine,

    standardhälve, miinimum, maksimum;

    Display additional statistics – kuvatakse lisaks hulk erinevaid näitajaid;

    No display; just calculate mean – arvutatakse lihtsalt keskmine.

    Kui me soovime leida kirjeldavaid statistikuid gruppide kaupa, siis by/if/in-lehel saab näidata,

    millise tunnuse järgi me soovime grupeerida (nt tunnus sugu). Teeme linnukese Repeat

    commands by groups ette. Valime aknakesse Variables that define groups grupeeriva tunnuse

    nime (nt sugu). Valida saab ka mitmeid grupeerivaid tunnuseid korraga.

    Kui me soovime andmehulka piirata – nt vaadata ainult meestudengite andmeid, siis võime If

    järele kirjutada kitsendava tingimuse - nt sugu==2

    Menüüdest tehtud valikud on pärast OK-nupule vajutamist käsurea kujul näha ka Results ja

    Review aknas. Tehtud viimane valik on uuesti menüüst sama tegevust valides akendes alles.

  • 13

    Näide:

    Arvutame mittesuitsetajate pikkuste kirjeldavad statistikud sugude kaupa kasutades menüüsid.

    Tulemus:

    => sugu = naine

    Variable | Obs Mean Std. Dev. Min Max

    -------------+--------------------------------------------------------

    pikkus | 204 167.9926 5.367866 155 181

    ----------------------------------------------------------------------

    => sugu = mees

    Variable | Obs Mean Std. Dev. Min Max

    -------------+--------------------------------------------------------

    pikkus | 70 181.1857 7.016116 163 197

    ----------------------------------------------------- -----------------

    Stata käsk sama analüüsi tegemiseks:

    by sugu, sort : summarize pikkus if suits==1

    Võrdle järgmiste käskude tulemust eelmisega:

    format pikkus %8.1f

    by sugu, sort : summarize pikkus if suits==1, format

  • 14

    Kirjeldavate statistikute tabel

    Käsu table abil.

    Andmete ülevaatlikumaks esitamiseks on hea teha kirjeldavate statistikute tabeleid. Selleks

    kasutame käsku table (sedasama käsku saab kasutada ka lihtsate sagedustabelite

    tegemiseks).

    Järgnev käsk teeb sagedustabeli tunnuse sugu järgi ning paneb tabelisse vääruste esinemise

    sageduse ja arvutab tunnuse kaal keskmise ning standardhälbe.

    table sugu, contents(freq mean kaal sd kaal)

    Sarnaselt saame leida ka tunnuse mediaani ja kvartiilid klassifitseeriva tunnuse järgi

    table sugu, contents(freq median kaal p25 kaal p75 kaal)

    Kasutada saab ka kahte klassifitseerivat tunnust

    table sugu aasta, contents(freq mean kaal mediaan kaal)

    Menüüst valides Statistics => Summaries, Tables and tests => Other tables => Flexible

    table of summary statistics (table) :

    Käsu tabstat abil.

    Sisuliselt sama tulemuse table käsuga, kuid veidi teisel kujul, annab käsk tabstat.

    NB! Käsuga tabstat saab kasutada ainult üht klassifitseerivat tunnust.

    Näide:

    tabstat kaal pikkus, statistics(mean sd)

    Sama meeste ja naiste hulgas:

    tabstat kaal pikkus, statistics(mean sd) by(sugu)

  • 15

    Menüüvalikust: Statistics => Summaries, Tables and tests => Tables => Table of means,

    st.dev., and frequencies (tabstat)

    Komakohtade kaunimaks sättimiseks Option leht:

    Tulemus on selline:

    Summary statistics: mean, sd

    by categories of: sugu (sugu)

    sugu | kaal pikkus

    -------+--------------------

    naine | 58.88 167.90

    | 8.10 5.42

    -------+--------------------

    mees | 77.69 181.24

    | 12.91 6.78

    -------+--------------------

    Total | 64.26 171.66

    | 12.91 8.37

    ----------------------------

  • 16

    Ülesanne: Proovi teha järgmist kirjeldavate statistikute tabelit:

    aasta variable | N mean sd min max

    ----------------------+--------------------------------------------------

    2005 vanus | 177.0 20.5 2.3 18.0 34.0

    systoolne | 96.0 116.6 11.7 90.0 140.0

    diastoolne | 96.0 73.1 9.5 50.0 90.0

    ----------------------+--------------------------------------------------

    2015 vanus | 131.0 21.2 2.6 18.0 38.0

    systoolne | 72.0 114.3 13.0 65.0 140.0

    diastoolne | 72.0 71.4 11.7 20.0 100.0

    -------------------------------------------------------------------------

    Lahendus (kirjuta kõik see samale reale command aknasse):

    tabstat vanus systoolne diastoolne, statistics(count mean sd min

    max) by(aasta) nototal varwidth(12) columns(statistics)

    format(%8.1f)

    Ülesanne:

    Proovi sama info kätte saada table käsu abil! Kas esineb probleeme? Milliseid?

    Graafikud

    Graafikute tegemiseks saab Statas kasutada menüüd Graphics. Karpdiagramme saab teha

    valiku Boxplot alt, tulpdiagramme ja histogramme valiku Histogram alt ja ringdiagramme

    valiku Pie chart alt. Kõike seda saab teha ka järgnevate käskude abil:

    Histogramm pideva tunnuse jaotuse kujutamiseks

    histogram pikkus

    hist pikkus, normal

    hist pikkus, normal bin(8)

    Karpdiagramm

    graph box pikkus

    graph box pikkus, over(sugu) over(aasta)

    graph box pikkus, by(sugu) over(aasta)

    Kvantiil-kvantiil joonis (Q-Q plot)

    qnorm pikkus

    (Menüüst: Graphics => Distributional plots and tests => Normal quantile plot)

    Graafikute kombineerimine. Selleks, et erinevat tüüpi graafikuid ühele paneelilie saada,

    tuleb nad eelnevalt valmis teha ja salvestada ja siis kokku kombineerida.

    hist pikkus, normal saving(histo)

  • 17

    graph hbox pikkus, saving(karp)

    qnorm pikkus, saving(kvant)

    Erinevad käsud graafikute kokku kombineerimiseks. Proovi järle!

    graph combine histo.gph karp.gph kvant.gph

    graph combine histo.gph karp.gph kvant.gph, rows(3)

    graph combine histo.gph karp.gph kvant.gph, cols(1) xsize(8)

    ysize(20)

    0

    .02

    .04

    .06

    .08

    Den

    sity

    150.0 160.0 170.0 180.0 190.0 200.0pikkus

    150 160 170 180 190 200pikkus

    15

    0.0

    16

    0.0

    17

    0.0

    18

    0.0

    19

    0.0

    20

    0.0

    pik

    ku

    s

    150.0 160.0 170.0 180.0 190.0 200.0Inverse Normal

  • 18

    Kalkulaator

    Kalkulaatori kasutamiseks tuleb kirjutada käsuaknasse (Commands) käsk disp (töötab ka

    pikem verisoon display) ja sinna järgi soovitud tehe.

    display 2+5 * 2+5

    disp 3^2 * 32

    disp exp(3) * e3

    disp sqrt(16) * ruutjuut 16st

    Näiteks: Arvutame 165 cm pikkuse ja 62 kg kaaluva isiku kehamassiindeksi.

    disp 62/(165/100)^2

    Näpunäiteid

    Do-fail käsuridade salvestamiseks

    Sageli tekib statistilise analüüsi käigus andmete parandamise vajadus, mille tagajärjel on vaja

    kogu või osa analüüsist uuesti teha. Sellisel juhul on mugav, kui töö käigus kasutatud käske

    saab uuesti välja kutsuda (ilma neid uuesti kirjutamata või menüüdest valimata). Programmide

    salvestamise tarvis on Stata-l olemas eraldi programmiaken, mille saab avada Window => Do-

    file editor => New do-file (sama teeb ka klahvikombinatsioon Ctrl+9).

    Programmiaknasse saab trükkida käske analoogiliselt käsuaknaga.

    Käsu käivitamiseks tuleb see ära märkida ja kasutada klahvikombinatsiooni Ctrl+D. Tulemused

    väljastatakse tulemuste aknasse. Kui soovime käsu käivitada nii, et tulemuste aknasse midagi

    ei ilmuks, siis Ctrl+R.

    Kui rida ära ei märgi, siis Ctrl+D või Ctrl+R vajutamisel käivitatakse terve fail järjest.

    Do-faili editoris on pikki käske võimalik poolitada lisades käsu lõppu tühiku järel ///

    NB! Käskude poolitamine ei tööta programmi aknas (Command)!

    Näiteks:

    list if seltskond==2 & ///

    onnelik>9, clean

    NB! Skriptifail tuleb eraldi salvestada. Stata seda automaatselt ei tee!

  • 19

    Logifail – Results-akna sisu salvestamine

    Salvestada võib ka kogu tööakna sisu – selle jaoks on Statal logifaili võimalus. Uue logifaili

    alustamiseks valida File => Log => Begin…

    Olemasolevat logifaili valides saab:

    olemasolevat logifaili vaadata (view)

    jätkata olemasolevat logifaili (append)

    kirjutada eelmise faili sisu üle (vana sisu kustub) (overwrite)

    Logi salvestamise ajutiselt peatamiseks File => Log => Suspend.

    Taas aktiviseerimiseks File => Log => Resume.

    Tulemuste salvestamise lõpetamiseks File => Log => Close.

    Logifaili vaatamiseks File => Log => View ja tekstifailina salvestamiseks File => Log =>

    Translate…

    Andmete kustutamine, alleshoidmine, sortimine

    drop kustutamine

    drop sugu kustutada tunnus sugu (veeru kustutamine)

    drop if sugu==“Mees“ kustutada andmestikust kõik mehed (ridade kustutamine)

    keep allesjätmine

    keep s* aasta vanus teatud veergude allesjätmine

    keep if sugu==“Mees“ hoida alles mehed (ridade säilitamine)

    keep if sugu!=“Mees“ hoida alles kõik need, kelle sugu ei ole mees

    rename skp surmakp tunnuse nime muutmine

    sort vanus andmestiku sorteerimine tunnuse vanus järgi (kasvavalt)

    gsort üldisem sorteerimine, saab sorteerida ka kahanevalt

    (selleks panna tunnuse nime ette “–“ märk)

    order andmestikus olevate tunnuste järjekorra muutmine (käsu

    järel nimetatud tunnused pannakse esimesele kohale ning

    ülejäänud jäävad vanas järjestuses)

  • 20

    Uute tunnuste moodustamine ja olemasolevate muutmine

    generate uute tunnuste tegemiseks

    egen extended generate

    replace olemasoleva tunnuse väärtuste muutmiseks

    Näiteid:

    gen kmi = kaal/((pikkus/100)^2) kehamassiindeksi arvutamine

    gen iga = „noor“ uus tekstiline tunnus iga, kõik väärtused on “noor”

    Uut tunnust saab teha ainult 1 kord! Edasi tuleb olemasolevas tunnuses väärtusi muuta:

    replace iga = „mitte noor“ if ///

    vanus>21

    Dummy variables ehk indikaatortunnused

    on 0/1 tunnused. Näiteks küsitlusankeetides mitme valikuvariandiga küsimuste puhul on nad

    kohustuslikud, aga mõnikord võib neid vaja minna ka ühe valiku puhul.

    Ei/jah ehk 0/1 tunnuse kiiresti tegemine – kirjutada tingimus kohe võrdusmärgi taha!

    gen vaga_onnelik = (onnelik>7)

    gen viirus2 = inlist(viirus,1,2)

    gen vaga_onnelik2 = inrange(onnelik,8,10)

    tab1 vaga_onnelik vaga_onnelik2 viirus2

    Selgitused:

    inlist(viirus,1,2) sama kui if viirus==1 | viirus ==2 ehk

    tehakse midagi, kui tunnuse viirus väärtused on 1 või 2

    inrange(onnelik, 8, 10) sama kui onnelik>=8 & onnelik

  • 21

    Näide:

    gen pikk = pikkus > 190

    replace pikk = . if pikkus == .

    Või kirjutada if kohe gen-käsku sisse:

    gen pikk2 = pikkus > 190 if pikkus != .

    Näide:

    tab suits

    suitsetamine | Freq. Percent Cum.

    ------------------------------+-----------------------------------

    ei suitseta | 276 87.90 87.90

    suitsetan, aga mitte iga päev | 27 8.60 96.50

    suitsetan iga päev | 11 3.50 100.00

    ------------------------------+-----------------------------------

    Total | 314 100.00

    Teeme nüüd suitsetamisele indikaatortunnused

    gen mittesuitsetaja = suits == 1

    gen juhusuitsetaja = suits == 2

    NB! Igapäevasuitsetajale pole enam indikaatortunnust vaja, sest kui tudeng ei ole antud juhul

    mittesuitsetaja või juhusuitsetaja, siis on ta igapäevasuitsetaja.

    Teine variant indikaatortunnuste tegemiseks:

    tab suits, gen(suitsetaja) tehakse tunnused suitsetaja1, suitsetaja2 jne ehk

    täpselt niipalju, kui on vastusevariante. Antud

    juhul siis teeb Stata automaatselt 3 indikaatorit –

    iga suitsetamise taseme jaoks ühe.

  • 22

    Extended generate

    Näide:

    Tunnused kiirabi, haigla ja (koolist/töölt) puudunud näitavad, erinevaid meditsiiniteenuste

    vajamise viise. Saame kokku lugeda mitu vastust vastaja on ära märkinud:

    egen med_arv = rowtotal(haigla kiirabi puudunud)

    Veel võimalusi:

    rowtotal arvutab summa igas reas (üle loetletud tunnuste, puuduvaid väärtuseid

    käsitletakse nullidena.)

    rowmiss puuduvate väärtuste arv reas (üle loetletud tunnuste)

    rownonmiss mittepuuduvate väärtuste arv reas (üle loetletud tunnuste)

    rowmean arvutab keskmise üle rea ((üle loetletud tunnuste), puuduvaid väärtuseid

    ignoreeritakse)

    rowmin arvutab miinimumi reas (üle loetletud tunnuste)

    rowmax arvutab maksimumi reas (üle loetletud tunnuste)

    sd arvutab standardhälbe reas (üle loetletud tunnuste)

    Rohkemate võimaluste jaoks uuri help egen

    Tunnuse ümberkodeerimine

    Valides menüüst Data => Create or change variables => Other variable transformation

    commands => Recode categorical variables avaneb aken, mille abil on võimalik tunnust

    ümber kodeerida.

    Näide: Seitsmeväärtuselise suitsetamise tunnuse kodeerimine kolmeväärtuseliseks:

  • 23

    Main tab-ilt sisestame kodeerimiseks vajaliku info (kodeeritava tunnuse nime ja

    ümberkodeerimise reeglid):

    Selleks, et vältida originaalandmete ülekirjutamist salvestame ümberkodeeritud tunnuse uue

    nime all, selleks valime Options tab-ilt Generate new variable ja sisestame aknakesse

    loodavale tunnusele uue nime.

    Seejärel tuleb vajutada nupule OK.

    Sama töö oleks ära teinud ka käsuaknasse (Commands) sisestatud rida (kirjuta samale reale):

    recode suits (1/2 = 1 "mittesuitsetaja") (3/4 = 2 "ebaregulaarne

    suitsetaja") (5/7 = 3 "regulaarne suitsetaja"), generate(suits2)

    Tunnuste loetelus (STATA aken Variables) näeme nüüd uut loodud tunnust. Edasi saame uut

    tunnust kasutada nagu andmestikus algselt olevaid tunnuseidki.

    Selle tunnuse nimi,

    mida soovime

    ümber kodeerida Näited

    vanade väärtuste 1 kuni 2 muutmine

    väärtuseks 1, lisame kirjelduse

    „mittesuitsetaja”

  • 24

    Ülesanne:

    Kodeeri kehamassiindeks (tunnus kmi) neljaväärtuseliseks vastavalt WHO kriteeriumitele:

    Kehamassiindeks alla 19 – alakaal

    Kehamassiindeks 19-24,9 – normaalkaal

    Kehamassiindeks 25-29,9 – ülekaal

    Kehamassiindeks üle 30 – rasvumine

    Tulemus peaks olema järgmine:

    KMI rühmad | Freq. Percent Cum.

    ------------+-----------------------------------

    alakaal | 51 16.45 16.45

    normaalkaal | 223 71.94 88.39

    ülekaal | 29 9.35 97.74

    rasvumine | 7 2.26 100.00

    ------------+-----------------------------------

    Total | 310 100.00

  • 25

    Usaldusintervallide arvutamine

    Usaldusintervallide arvutamiseks Statas vali menüüst Statistics => Summaries, tables and

    tests => Summary and descriptive statistics. Edasi on menüüs 4 valikut:

    Confidence intervals usaldusintervallid andmestikult

    Normal CI calculator usaldusintervalli kalkulaator normaaljaotusega tunnusele

    Binomial CI calculator usaldusintervalli kalkulaator binoomjaotusega tunnusele

    Poisson CI calculator usaldusintervalli kalkulaator Poissoni jaotusega tunnusele

    Esimene neist on andmestiku põhjal usaldusintervallide leidmine. Ülejäänud on kiirkäsud –

    sisestame vaid koondandmed (normaaljaotuse puhul keskmise, standardhälbe ja valimi suuruse;

    binoomjaotuse puhul katsete arvu ja sündmuste arvu, Poissoni puhul riskiaeg ja sündmuste arv).

    Andmestikust usaldusintervalli arvutamiseks tuleb sisestada tunnusenimi ja tüüp (vaikimisi

    normaaljaotusega). Binoomjaotusega tunnusele usaldusintervalli leidmiseks peab tunnus olema

    kodeeritud kui 0-1.

    Usaldusintervalli leidmiseks tunnuse keskväärtusele või

    protsendile ava menüü: Statistics => Summaries, tables

    and tests => Summary and descriptive statistics =>

    Confidence intervals. Sisesta tunnuse nimi (Variables),

    tunnuse tüüp (Variable type, vali kas tegemist on

    normaaljaotusega tunnusega või soovite protsendile

    usaldusintervalli) ja usaldusintervalli laius (Confidence

    level, vaikimisi 95% UI).

    Usaldusintervalli leidmiseks käskude abil on käsud

    ci (tunnustele arvutamiseks) ja cii (koondandmetelt

    arvutamiseks).

  • 26

    ci means tunnuste_loetelu normaaljaotusega tunnustele

    ci means tunnuste_loetelu, poisson poissoni jaotusega tunnustele

    ci prop tunnuste_loetelu binoomjaotusega tunnustele (protsendile)

    Kiirkäsud koondandmetelt usaldusintervalli arvutamiseks

    cii means valimi_suurus keskmine standardhälve normaaljaotusega tunnusele

    cii means riskiaeg sündmuste arv poissoni jaotusega tunnusele

    cii prop vaatluste_arv sündmuste_arv binoomjaotusega tunnustele (protsendile)

    Näide:

    ci means pikkus 95% usaldusintervall pikkusele

    ci means pikkus, level(90) 90% usaldusintervall pikkusele

  • 27

    Statistiline testimine

    Erinevate olukordade lahendamiseks kasutame erinevaid teste. Testid, mida selles juhendis

    tutvustatakse, asuvad Statas peamiselt kolmes menüüs:

    Jaotuse eeldusel põhinevad testid (t-test, ANOVA, paariviisiline t-test, protsentide

    võrdlemine)

    Statistics => Summaries, Tables and tests => Classical test of hypothesis

    Mitteparameetrilised e järjestusel põhinevad testid (Wilcoxoni astaktest e Mann-Whitney

    test, Kruskal-Wallise test, Wilcoxoni astakmärgitest)

    Statistics => Summaries, Tables and tests => Nonparametric test of hypothesis

    Sagedustabelitel põhinevad seosetestid – hii-ruut test ja Fisheri test

    Statistics => Summaries, Tables and tests => Tables

    Statistiliste testide koondtabel

    Võrdlusaluse

    tunnuse tüüp

    Tööhüpotees Jaotuse eeldusel

    põhinev test

    Mitteparameetriline test

    Arvuline H1: grupi keskmine

    on muutunud (ajas)

    paaris t-test

    (one Sample t-test,

    paired t-test)

    ttest

    Wilcoxoni märgitest

    (Wilcoxon sign test,

    Wilcoxon signed rank test)

    signrank

    Arvuline H1: kahe grupi

    keskmised tasemed

    on erinevad

    Studenti t-test

    (two-sample t-test,

    unpaired t-test)

    ttest

    Wilcoxoni astaktest (Mann-

    Whitney (U) test )

    (Wilcoxon ranksum test)

    ranksum

    Arvuline H1: kolmest või

    enamast grupist

    vähemalt kahe

    keskmised tasemed

    on erinevad

    ANOVA

    oneway

    Kruskal-Wallise test

    kwallis

    Binaarne H1: sündmuse

    esinemise protsent

    kahes grupis on

    erinevad

    Z-test

    prtest

    Fisheri test

    tab..., exact

    Nominaalne H1: kahest või

    enamast grupist

    vähemalt kahes on

    sündmuse esinemise

    sagedus erinev

    Hii-ruut test

    (Chi-square test)

    tab..., chi2

    Fisheri test

    tab..., exact

  • 28

    Ühe valimi t-test

    Keskmise võrdlemine mingi kindla väärtusega (näiteks vererõhu muutus=0)

    Menüüdest valides: Statistics => Summaries, Tables and tests => Classical test of

    hypothesis => One-sample mean-comparison test

    Main-tab: Variable name: sisestada tunnuse nimi

    Hypothesized mean: võrdlusaluse väärtuse.

    Samade isikute keskmise taseme muutuse võrdlemine (nt vererõhk enne vs vererõhk pärast)

    Menüüdest valides: Statistics => Summaries, Tables and tests => Classical test of

    hypothesis => Mean-comparison test, paired data

    Main-tab: First variable: sisestada esimese tunnuse nimi

    Second variable: sisestada teise tunnuse nimi

    Sama käsurealt:

    ttest tunnuse_nimi == oletatav_keskmine_väärtus

    ttest tunnuse1_nimi == tunnuse2_nimi

    Kiirkäsuna (koondandmetelt):

    ttesti vaatluste_arv keskmine standardhälve oletatav_keskmine_väärtus

    T-test valimite keskmiste võrdlemiseks

    Menüüdest: Statistics => Summaries, Tables and tests => Classical test of hypothesis =>

    Group mean comparison

    Main-tab: Variable name: tunnuse nimi

    Group variable name: grupeeriva tunnuse nimi

    Käsurealt:

    ttest tunnuse_nimi, by(grupeeriva_tunnuse_nimi)

    T-test valimi keskmisele, kui standardhälbed on erinevad:

    ttest tunnuse_nimi, by(grupeeriva_tunnuse_nimi) unequal

    Kahe valimikeskmise võrdlemise kalkulaator (koondandmete jaoks):

    ttesti vaatluste_arv1 keskmine1 sd1 vaatluste_arv2 keskmine2 sd2

  • 29

  • 30

    Wilcoxoni astaktest valimite keskmiste võrdlemiseks

    Menüüdest: Statistics => Summaries, Tables and tests => Nonparametric test of hypothesis

    => Mann-Whitney two-sample ranksum test

    Main-tab: Variable : tunnuse nimi

    Grouping variable: grupeeriva tunnuse nime

    Käsurealt sisestades:

    ranksum tunnuse_nimi, by(grupeeriva_tunnuse_nimi)

    Näide: Kas tarvitatud alkoholikogus on erinev mees- ja naistudengitel

    ranksum alkokogus, by(sugu)

    Kahe grupi protsentide võrdlemine

    NB! Võrdlusalune tunnus peab olema kodeeritud kui 0-1. Näiteks kui tahame viirushaigusesse

    haigestunute hulka meeste ja naiste seas võrrelda, siis peab viirus olema kodeeritud 0-1

    väärtustele.

    Menüüdest valides: Statistics => Summaries, Tables and tests => Classical test of

    hypothesis => Proportion test

    Main-tab: Variable name: tunnuse nimi (näiteks viirus)

    Group variable name: grupeeriva tunnuse nime (näiteks sugu).

    Käsurealt

    prtest tunnuse_nimi, by(grupeeriva_tunnuse_nimi)

    Kiirkäsuna koondandmetelt arvutamiseks:

    prtesti vaatluste_arv1 sündm_tõen1 vaatluste_arv2 sündm_tõen2

    Näide: Kas meeste ja naiste seas on viimase 12 kuu jooksul kiirabi vajanute hulk erinev.

    prtest kiirabi, by(sugu)

  • 31

    Rohkem kui kahe grupi keskmiste võrdlemine

    Normaaljaotusega tunnus - dispersioonanalüüs ehk ANOVA

    Kui meil on vajadus võrrelda omavahel enam kui kahe grupi keskmisi väärtusi, siis selle jaoks

    kasutame dispersioonanalüüsi ehk ANOVA-t. Dispersioonanalüüsi abil testime nullhüpoteesi,

    et kõikide gruppide keskmised on omavahel võrdsed ja alternatiivseks hüpoteesiks on, et

    vähemalt kahe grupi keskmised on omavahel võrdsed.

    Lihtsa dispersioonanalüüsi saame teha:

    oneway tunnuse_nimi grupeeriva_tunnuse_nimi

    Gruppide omavaheliseks paariviisiliseks võrdluseks koos Bonferroni parandusega:

    oneway tunnuse_nimi grupeeriva_tunnuse_nimi, bonferroni

    Menüüdest: Statistics => Linear models and related => ANOVA/MANOVA => One-way

    ANOVA

    Mittenormaaljaotusega pidev tunnus – Kruskal-Wallise test

    Kui võrdlusaluse tunnuse normaaljaotuse eeldus ei kehti, siis kasutame gruppidevahelise

    võrdluse tegemiseks Kruskal-Wallise testi:

    kwallis tunnuse_nimi, by(grupeeriva_tunnuse_nimi)

    Menüüdest: Statistics => Nonparametric analysis => Tests of hypotheses => Kruskal-

    Wallis rank test

    Olulise erinevuse ilmnemisel tuleb edasi teha paariviisilised võrdlused koos Bonferroni

    parandusega.

    Näide:

    oneway kaal oues, bonferroni dispersioonanalüüs koos paariviisiliste

    võrdlusega

    kwallis kaal, by(oues)

  • 32

    Kahe pideva tunnuse vaheline seos – korrelatsioon

    Hajuvusgraafik

    Kahe pideva tunnuse vahelise seose visuaalseks kujutamiseks sobib hästi hajuvusdiagramm

    (scatter plot). Selle tegemiseks kasutatakse Statas käsku

    scatter tunnus1 tunnus2 või twoway scatter tunnus1 tunnus2

    Vaatlust tähistava sümboli muutmiseks

    twoway scatter tunnus1 tunnus2, msymbol(x)

    Erinevate markerite ja nende suuruste uurimiseks kasuta käske

    help symbolstyle

    help markersizestyle

    Et teha erinevad joonised grupeeriva tunnuse järgi (näiteks sugu)

    twoway scatter tunnus1 tunnus2, by(grupeeriv_tunnus)

    Näide:

    twoway scatter kaal pikkus, by(sugu)

    Erinevate punktide eristamiseks samal joonisel tuleb meil teha nn „kihiline“ joonis (näiteks

    pikkuse ja kaalu joonis meestel-naistel – kõigepealt joonistame naistudengite vaatlused ja

    seejärel uuele kihile meestudengite vaatlused). Lisatud on ka legend.

    twoway (scatter kaal pikkus if sugu==1) (scatter kaal pikkus if

    sugu==2), legend(label(1 "naine") label(2 "mees"))

    Täiendame eelmist käsku nii, et mehed oleks joonisel kujutatud rombide ja naised kolmnurkade

    abil (command-aknas kirjuta kogu käsk ühele reale):

    twoway (scatter kaal pikkus if sugu==1, msymbol(T))

    (scatter kaal pikkus if sugu==2, msymbol(D)),

    legend(label(1 "naine") label(2 "mees"))

    Lineaarse sirge joonistamiskes läbi punktipilve tuleb samuti kasutada „kihilist“ joonist

    twoway (scatter kaal pikkus)(lfit kaal pikkus)

    Hajuvusdiagrammide maatriksi joonistamine:

    graph matrix kaal pikkus jalg jalats

  • 33

    Korrelatsioonikordaja

    Korrelatsioonikordajaid saab leida järgmiste käskudega (käsu nime järele tuleb kirjutada ka

    tunnuste nimed, mille hulgas korrelatsioone soovitakse leida):

    correlate Pearsoni korrelatsioonikordaja

    pwcorr Pearsoni korrelatsioonikordaja, puuduvate väärtuste paariviisiline kustu-

    tamine. Korrelatsiooni leidmisel kustutatakse ära puuduvad väärtused

    tunnusepaaride kaupa. Kasutatakse, kui andmestikus on palju puuduvaid

    väärtusi.

    spearman Spearmanni korrelatsioonikordaja, kasutatakse, pidev tunnus pole

    normaaljaotusega.

    ktau Kendalli tau, kasutatakse, kui tunnus pole normaaljatusega,

    Menüüdest saab valida vaid Pearsoni korrelatsioonikordaja:

    Statistics => Summaries, tables and tests => Summary and descriptive statistics =>

    Correlations and covariances

    Statistics => Summaries, tables and tests => Summary and descriptive statistics => Pairwise

    correlations

    Näiteks:

    corr pikkus kaal

    pwcorr pikkus kaal jalg jalats, sig

    spearman pikkus kaal

    ktau pikkus kaal

  • 34

    Ülesanne Kümnele hüpertriglütserideemiaga patsiendile määrati raviks vastav dieet. Enne

    dieedi alustamist mõõdeti patsientidel kolesterooli ja triglütseriidide hulk veres. Tulemused olid

    järgmised: (loeme need Statasse input käsuga. Võid kasutada do-faili input01.do)

    input id Chol TG

    1 5.12 2.30

    2 6.18 2.54

    3 6.77 2.95

    4 6.65 3.77

    5 6.36 4.18

    6 5.90 5.31

    7 5.48 5.53

    8 6.02 8.83

    9 10.34 9.48

    10 8.51 14.2

    end

    a. Joonista hajuvusdiagramm!

    b. Kas hajuvusdiagrammilt paistab enne dieeti kolesterooli ja triglütseriidide vahel olevat

    lineaarne seos? Üldse mingi seos?

    c. Arvuta Pearsoni korrelatsioonikordaja.

    d. Testi nullhüpoteesi H0: Pearsoni korrelatsioonikordaja võrdub nulliga. Mida järeldad?

    e. Arvuta ka Spearmani korrelatsioonikordaja.

    f. Võrdle Pearsoni ja Spearmani korrelatsioonikordajaid – kas on sarnased? Erinevad?

    g. Testi ka nullhüpoteesi H0: Spearmani korrelatsioonikordaja võrdub nulliga. Mida nüüd

    järeldad?

    Vihjed:

    plot Chol TG

    scatter Chol TG

    corr Chol TG

    pwcorr Chol TG, sig

    spearman Chol TG

  • 35

    Seosed sagedustabelis 2-test ja Fisheri test

    Seoste uurimiseks kahemõõtmelises sagedustabelis kasutatakse käsku tabulate (seesama,

    millega saab teha kahemõõtmelisi sagedustabeleid). Käsu üldine süntaks:

    tabulate tunnus1 tunnus2 [if] [in] [, options]

    Lisaparameetritena (options) saab tellida protsente, oodatavaid väärtusi, hii-ruut testi, Fisheri

    testi.

    chi2 Hii-ruut test

    exact Fisheri test

    column suhtelised sagedused iga veeru kohta

    row suhtelised sagedused iga rea kohta

    cell suhtelised sagedused terve tabeli kohta

    expected oodatavad sagedused, kui ridade-veergude jaotus oleks sama

    missing väljastada info ka puuduvate väärtuste kohta

    Sama menüüst: Statistics => Summaries, Tables and tests => Frequency tables =>

    Twoway tables with measures of summary association

    Soovitavad tunnused valime aknakestesse Row variables ja Column variables. Tulemuseks

    saame kahemõõtmelise sagedustabeli. Võimalik on valida tabeli sisu (suhtelised sagedused,

    veeru- või reaprotsendid), tunnuste vahelist seost hindavaid näitajaid, vormindada tabeli

    välimust (näidata puuduvaid väärtusi, näidata väärtuste märgendeid (labels) või mitte).

  • 36

    Kui me soovime korraga teha rohkem kahemõõtmelisi sagedustabeleid, siis võib menüüst

    valida Statistics => Summaries, Tables and tests => Tables => All possible twoway

    tabulations (käsurealt sisestades tab2)

    2-ruut testi saab kasutada ka kiirkäsu või kalkulaatorina, kus tabel sisestatakse reakaupa,

    ridade eraldajatena kasutatakse tagurpidi kaldkriipsu. Lisaparameetrid pannakse sarnaselt.

    Näide: seos soo ja tervisehinnangu vahel

    tabi 83 404 161 \ 35 105 50, row chi2

    Fisheri testi tegemiseks kirjutatakse lisaparameetriks exact.

    tabi 83 404 161 \ 35 105 50, exact

  • 37

    Seosed 2x2-tabelis – šansside suhe, riskide suhe

    Šansisuhte leidmiseks kasutatakse Statas käske cc (case-control) ja riskisuhte leidmiseks cs

    (cohcort study). Käskude süntaks on omavahel sarnane:

    cs väljundtunnus ekspositsioonitunnus

    cc väljundtunnus ekspositsioonitunnus

    Nii väljundtunnus, kui ka ekspositsioonitunnus peavad olema kodeeritud kui 0-1, kus 1 näitab

    vastavalt riskiteguri ja väljundi olemasolu.

    Šansside ja riskide suhet saab arvutada ka koondandmetelt (nn 2x2 tabeli pealt) kasutades käske

    csi a c b d

    cci a c b d

    Kus a c b d on sagedused 2x2 tabelist:

    Väljund + Väljund -

    Ekspositsioon + a b

    Ekspositsioon - c d

    Näide: Aastal 2006 viidi TÜ arstiteaduskonna 2. kursuse tudengite seas läbi randomiseeritud

    uuring, kus pooled osalejad said tassi tavalist kohvi ja pooled kofeiinivaba. Veidi aega pärast

    kohvijoomist paluti tudengitel lahendada üks arvutusülesanne. Järgnevas tabelis on toodud

    andmed kohvijoomise ja arvutusülesande õige lahenduse vahel.

    Arvutusülesande õige

    lahendus

    Kohv

    Jah Ei

    Kofeiiniga 40 28

    Kofeiinivaba 33 28

    Leiame STATA kalkulaatori abil leidke 95% usaldusintervalli šansside suhtele ja suhtelisele

    riskile:

    csi 40 28 33 28, or

  • 38

    Sisukord

    Alustamine, tööakna tutvustus ................................................................................................... 1 Näiteks kasutatavad andmestikud .......................................................................................... 2

    Töökataloog ............................................................................................................................ 3 Juba varem Statasse imporditud andmestiku avamine ........................................................... 3 Esimene pilk andmestikule, tingimused ................................................................................. 4 Üldiseid õpetussõnu ............................................................................................................... 8 Abifailid ................................................................................................................................. 8

    Lühendamine .......................................................................................................................... 8 Eelmiste käskude kuvamine ................................................................................................... 8 Menüüde kasutamine .............................................................................................................. 8

    Ühemõõtmelised sagedustabelid ................................................................................................ 9 Kahemõõtmelised sagedustabelid ............................................................................................ 11

    Kirjeldavad statistikud .............................................................................................................. 12 Kirjeldavate statistikute tabel ................................................................................................... 14

    Graafikud .................................................................................................................................. 16

    Kalkulaator ............................................................................................................................... 18 Näpunäiteid .............................................................................................................................. 18

    Do-fail käsuridade salvestamiseks ....................................................................................... 18

    Logifail – Results-akna sisu salvestamine ........................................................................... 19 Andmete kustutamine, alleshoidmine, sortimine ................................................................. 19 Uute tunnuste moodustamine ja olemasolevate muutmine .................................................. 20

    Dummy variables ehk indikaatortunnused ............................................................................ 20 Extended generate ................................................................................................................ 22

    Tunnuse ümberkodeerimine ................................................................................................. 22 Usaldusintervallide arvutamine ................................................................................................ 25 Statistiline testimine ................................................................................................................. 27

    Statistiliste testide koondtabel .............................................................................................. 27 Ühe valimi t-test ................................................................................................................... 28

    T-test valimite keskmiste võrdlemiseks ............................................................................... 28 Wilcoxoni astaktest valimite keskmiste võrdlemiseks ......................................................... 30 Kahe grupi protsentide võrdlemine ...................................................................................... 30

    Rohkem kui kahe grupi keskmiste võrdlemine ................................................................... 31 Kahe pideva tunnuse vaheline seos – korrelatsioon ................................................................. 32

    Hajuvusgraafik ..................................................................................................................... 32 Korrelatsioonikordaja ........................................................................................................... 33

    Seosed sagedustabelis 2-test ja Fisheri test ............................................................................ 35 Seosed 2x2-tabelis – šansside suhe, riskide suhe ..................................................................... 37

  • 39

    Stata käskude loend

    bonferroni, 31

    browse, 4, 5

    bysort, 12

    cc, 37

    cci, 37

    chi2, 35

    ci, 25

    cii, 25

    codebook, 5

    correlate, 33

    count, 7

    cs, 37

    csi, 37

    describe, 4

    display, 18

    do-fail, 18

    drop, 19

    egen, 20, 22

    exact, 27, 35

    expected, 35

    findit, 8

    format, 13

    generate, 20

    graph box, 16

    graph combine, 17

    graph matrix, 32

    gsort, 19

    help, 8

    if, 7, 8

    in, 8

    inlist, 20

    input, 34

    inrange, 20

    keep, 19

    ktau, 33

    kwallis, 27, 31

    legend, 32

    list, 7

    loendamine, count, 7

    loogilised

    operaatorid, 6

    markersizestyle, 32

    missing, 6

    msymbol, 32

    oneway, 27, 31

    order, 19

    prtest, 27, 30

    prtesti, 30

    pwcorr, 33

    ranksum, 27, 30

    recode, 23

    rename, 19

    replace, 20

    rowmax, 22

    rowmean, 22

    rowmin, 22

    rowmiss, 22

    rownonmiss, 22

    rowtotal, 22

    scatter, 32

    sd, 22

    signrank, 27

    sort, 19

    spearman, 33

    summarize, 5, 12

    symbolstyle, 32

    tab1, 10

    tab2, 36

    tabi, 36

    table, 14

    tabstat, 14

    tabulate, 10, 11, 35

    ttest, 27, 28, 29

    ttesti, 28

    twoway, 32

    use, 3