Alustamine, tööakna tutvustuskodu.ut.ee/~heti/stata/Stata juhend 2017.pdf · 1 Alustamine,...

1

Alustamine, tööakna tutvustus

Peale Stata avamist on näha menüüriba, tööriistariba ja neli

akent.

Menüüdes on valikud töökeskkonna kohandamiseks (File, Edit), andmetega

manipuleerimiseks (Data), graafikute tegemiseks (Graphics), analüüside tegemiseks

(Statistics), abi saamiseks (Help).

Kõiki korraldusi on võimalik Statale anda kas menüüdest valides või käske otse käsuaknasse

(Commands) trükkides. Menüüdes pakutav valik on kesisem, kui Stata tegelikud võimalused

lubavad. Meie eesmärk on jõuda Stata kasutamisel käskude kasutamiseni menüüdes klõpsimise

asemel.

Tööriistaribal on välja toodud nupud enamkasutatavate käskude jaoks.

Aknad:

Results (suur must aken) – peamine aken, kuhu ilmuvad teated ja tulemused, näidatakse ka

sisestatud käske (ka menüüdest tehtud valikud ilmuvad sinna käsu kujul)

Commands – käsuaken, kuhu saab kirjutada käske. Levinumaid käske on võimalik valida

ka menüüdest. Menüüdest tehtud valikud ilmuvad käskudena Results ja Review aknasse.

Review – varem sisestatud käskude loetelu (ka menüüde kaudu valitud jõuavad sinna),

käsul klõpsates ilmub see käsuaknasse

Variables – kasutuses oleva andmestiku tunnuste loetelu, tunnuse nimel klõpsates kantakse

see käsuaknasse

Aknaid saab aktiivseks teha klikkides hiirega akna päisel. Avatud akende vahel saab ringelda

kasutades klahvikombinatsiooni Ctrl-Tab.

Muuda

andmetabelit

Vaata

andmetabelit Sulge Stata

Salvesta

Ava andmestik

Töökataloogi asukoht

2

Näiteks kasutatavad andmestikud

Asuvad aadressil http://www.ut.ee/~heti/stata

Tudengite terviseandmestik

TÜ meditsiinivaldkonna arstiteaduse eriala II kursusel Epidemioloogia ja biostatistika aines

korraldatakse igal aastal ankeetküsitlus, kus registreeritakse mitmesuguseid andmeid tudengite

eluviisi ja terviseseisundi kohta. Oma näidetes kasutamegi vastava andmestiku valimit.

Andmestikus on andmed 2005. ja 2015. aasta kohta, osad küsimused on erinevad. (Ankeet:

ankeet_2015.pdf, andmestik STATA kujul: andmed_2015.dta)

Doktorantide andmestik

TÜ arstiteaduse valdkonna doktorantidele tehti väike küsitlus. Ankeet antud veebiaadressil

failis doktorantide ankeet.pdf ja andmed Stata kujul doktorantide andmed.dta.

3

Töökataloog

Stata akna all ääres on halli värvi olekuriba, kus näeb töökataloogi nime. Töökataloog on

kataloog, kust avatakse ja kuhu salvestatakse vaikimisi tööfaile (logisid, programme, andmeid).

Igale failile saab ka asukoha eraldi ära näidata, aga ühe projekti raames on siiski mugavam

kasutada ühte töökataloogi.

Kirjutades käsuaknasse

pwd

näidatakse käesoleva töökataloogi nimi (vaikimisi tavaliselt c:\data). Näiteks:

C:\data

Töökataloogi muutmine menüüdest File => Change Working Directory või käsurealt

kasutades käsku cd

cd c:\tmp\

Juba varem Statasse imporditud andmestiku avamine

Stata-formaadis andmestikud lõpevad laiendiga .dta. Andmestiku saab kasutusele võtta

failihalduris, tehes kaks hiireklikki andmestiku nimel või Statas menüü-valikust File => Open

või trükkides käsureale

use failinimi, clear

Kui andmestikud on suured, siis saab Statale ette anda kasutatava mälumahu

set memory 50m

A good rule of thumb for large files is to allocate roughly 50% more memory than

the size of your file. (Allikas: www.stata.com)

Näited:

use andmed_2015.dta, clear andmestiku avamine töökataloogist

use "C:\stata\andmed_2015.dta", clear andmestiku avamine arvuti kettalt

use http://www.ut.ee/~heti/stata/andmed_2015.dta, clea

andmestiku avamine veebilehelt

Uuemates versioonides loodud andmestikud ei pruugi avaneda vanemas Statas, siis on võimalik

(uuemas Statas) andmestik salvestada vanemasse versiooni tagasi.

saveold failinimi.dta, version(13)

Ülesanne: Ava tudengite terviseandmestik:

use http://www.ut.ee/~heti/stata/andmed_2015.dta, clear

4

Esimene pilk andmestikule, tingimused

Andmestiku vaatamiseks tabeli kujul vali tööriistaribal nupp või käsurealt kirjutades

browse

Avaneb andmestik uues aknas vaatamiseks (Data Browser, andmeid muuta ei saa)

Andmestiku ja seal olevate tunnuste kirjeldamiseks valida menüüst

Data => Describe data => Describe variables in memory => OK

või kirjutada käsuaknasse

describe

Selle peale väljastatakse tulemuste aknasse (Results) andmestiku nimi ja/või asukoht

kõvakettal, tunnuste ja vaatluste arv, andmestiku suurus, tunnuste nimed, tüübid ja kirjeldused.

Näidatakse, millise tunnuse järgi andmestik on sorteeritud.

5

Andmestikust ülevaate saamiseks vali menüüst Statistics => Summaries, tables and tests =>

Summary statistics. Jäta kõik lahtrid tühjaks ja vajuta OK või kirjuta käsureale:

summarize

Väljastatakse kõikide tunnuste miinimumid, maksimumid, keskmised ja standardhälbed

(milliste tunnuste puhul milline informatsioon on mõtekas, jääb andmetöötleja otsustada).

Neid käske saab kasutada ka ühe tunnuse kirjeldamiseks

summarize vanus

describe vanus

Ainult osade tunnuste vaatamiseks tuleb kirjutada browse käsu järele meid huvitavate

tunnuste nimed või näidata millisest tunnusest millise tunnuseni me soovime andmestikku näha.

browse vanus pikkus sugu

browse aasta-sport näitab meile järjest tunnuseid alates aastast kuni spordini

Tunnuste kohta saab küsida ka lisainformatsiooni:

codebook vanus

Väljastatakse tunnuse nimi ja tüüp, maksimaalne ja minimaalne väärtus, puuduvate väärtuste

arv jne. Kui tunnuse väärtustel on küljes sildid (nt mees/naine, mitte ainult numbriline 1/2), siis

väljastatakse ka väärtused ja nimetused.

Ülesanne. Proovi nii – kirjuta käsuaknasse browse ja nüüd vali Variables aknast mõni tunnus

– näiteks viirus ja tee sellel hiirega klikk. Tunnus ilmub käsuaknasse sõna browse järele.

Nii saad käskudesse lisada tunnuseid ilma trükkimata.

6

Stata lubab ka tunnuste (ja ka käskude) nimesid lühendada (ära peab kirjutama nii palju tähti,

et tunnus oleks üheselt identifitseeritav – näiteks kui andmestikus on tunnused sport ja

suits, siis tuleks tunnuse nimest välja kirjutada sp, et Stata mõistaks, et soovite tunnust

sport kasutada).

browse sp tunnuse sport vaatamine andmetabelis

browse s* kõikide sümboliga s algavate tunnuste vaatamine

Võime uurida ka ainult osasid vaatlusi:

browse in 1 ainult esimese rea vaatamine

browse in 1/5 viie esimese vaatluse vaatamine

browse in -5/-1 viimase viie vaatluse vaatamine

Võime esitada tingimusi loogiliste operaatorite abil käsuosa if järel:

browse if vanus==19 ainult 19-aastaste vastajate andmed

browse if vanus= suurem või võrdne

!= mittevõrdne

& ja

| või

! ei

() sulud, loogiliste operatsioonide kokkusidumiseks

Kõiki neid võimalusi võime omavahel kombineerida.

Ülesanne: Mõtle ja proovi, millise alamosa andmetest saame kätte järgmise käsu abil:

browse kaal pikkus if (sugu==2 & vanus!=20)

7

Andmete vaatamiseks saab kasutada ka käsku list. Sel juhul näidatakse andmed tulemuste

aknas (Results).

list

Käsule list saab sarnaselt käsuga browse lisada tingimusi.

Loendamine

Loendamiseks on käsk count, sellele saab lisada täiendusi eelpool nimetatud viisil.

count if vanus==19 mitu 19-aastast vastajat on andmestikus

count if vanus

8

Üldiseid õpetussõnu

Stata käsu üldine süntaks on järgmine:

command [varlist][if exp][in range] [,options]

command – käsk (näiteks browse, list, summary, table jne), alati esimesel kohal.

varlist – tunnuste loetelu, millele käsku rakendatakse, kui tunnuse nime pole lisatud, siis

rakendatakse käsku kõikidele tunnustele. Osade käskude puhul siiski peab tunnusenimi olemas

olema (nt käsk table).

if exp – tingimus vaatluste kitsendamiseks (nt rakendatakse käsk ainult naistele; kindlas

vanusevahemikus olevatele isikutele vms), kirjutatakse enne lisaparameetrite koma

in range – kui me tahame käsku rakendada kindlatele vaatlustele (näiteks sajale esimesele

vaatlusele), kirjutatakse enne koma, millele järgnevad lisaparameetrid.

options – lisaparameetrid, kirjutatakse alati peale koma.

Abifailid

Statas saab alati otsida käskude kohta abi. Kui käsu nimetus on teada, siis

help käsk

avab käsu abifaili. Kui täpset käsu nime ei tea, siis saab kasutada otsingut märksõna abil

findit märksõna

Hea tulemuse annab abi otsimine ka interneti otsingumootoreid kasutades (Nt Google’s

sisestada otsisõna Stata variable sort descending).

Lühendamine

Stata lubab nii käske kui tunnusenimesid lühendada. Kõik järgnevad käsud annavad sama

tulemuse

list sugu in 1/10

li sugu in 1/10

l sug in 1/10

Eelmiste käskude kuvamine

Juba sisestatud käske saab taas kuvada käsuaknas PgUp, PgDn klahve kasutades (näiteks juba

sisestatud käsu muutmiseks).

Menüüde kasutamine

Kui käsk kohe meeles ei ole, siis võib sobiva käsu anda menüüst ja siis on juba Review aknas

vajalik käsk olemas.

9

Ühemõõtmelised sagedustabelid

Menüüsse Statistics on välja toodud palju erinevaid võimalusi andmeanalüüsiks. Kirjeldavad

statistikud, lihtsamad testid, ühe- ja mitmemõõtmelised tabelid asuvad menüüs Statistics =>

Summaries, tables & tests.

Sagedustabeleid rühmitavate tunnuste uurimiseks saab teha valides menüüst: Statistics =>

Summaries, Tables and tests => Frequency tables => Oneway tables

Avaneb järgmine aken:

Lahtrisse Categorical variable valime tunnuse, millele tahame sagedustabelit teha.

Lisavalikutena on võimalik ära märkida:

Treat missing values like other values – uuritakse ka puuduvate väärtuste hulka

Do not display frequencies – mitte väljastada sagedusi

Display numeric codes rather than value labels – eelistada tunnusel numbrilisi väärtusi

(kui on koodid asendatud sõnaliste selgitustega)

Produce a bar chart of the relative frequencies – joonistatakse tulpdiagramm

(tekstiline, mitte graafik)

Display the table in decending order – sorteeritakse sagedustabel kahanevas järjekorras

Kui valida Subpopulaton variable aknasse tunnus, siis sagedustabelit tehes jäetakse välja vaat-

lused, kus valitud tunnuse väärtus =0.

Kui me soovime leida kirjeldavaid statistikuid gruppide kaupa, siis by/if/in-lehel saab näidata,

milliste tunnuste järgi me soovime grupeerida (nt tunnus sugu)

Teeme linnukese Repeat commands by groups ette. Valime aknakesse Variables that define

groups tunnuse nime sugu. Sinna saab valida ka mitmeid grupeerivaid tunnuseid korraga.

Kui me soovime andmehulka piirata – nt vaadata ainult 2005. aastal vastanud tudengite

andmeid, siis võime If järele kirjutada aasta==2005

Menüüdest tehtud valikud on pärast OK-nupule vajutamist käsurea kujul näha ka Results ja

Review aknas. Uuesti menüüst sama tegevust valides on valikuakendes alles viimati tehtud

valikud.

10

Kõike sedasama saame teha ka käsuakna abil. Sagedustabeleid kategooriliste tunnuste uuri-

miseks saab teha käsku tabulate (lühendatult tab) kasutades.

tabulate sugu

tab sugu

Kui soovime mitmele tunnusele järjest ühemõõtmelisi sagedustabeleid teha, siis kasutame

käsku tab1:

tab1 sugu aasta

(menüüst Statistics => Summaries, Tables and tests => Tables => Multiple oneway tables)

Ülesanne: Ava abifail

help tab

ja uuri kuidas on võimalik lisavalikutena ära märkida:

puuduvate väärtuste hulga lisamine tabelile

väljastada väärtused numbrilistena (kui on koodid asendatud sõnaliste selgitustega)

sorteerida sagedustabel kahanevas järjekorras

Näide:

Vaata, mis tulemuse annavad järgmised käsud:

tab alko

tab alko, miss

tab alko, nolab

tab alko, sort

tab alko, miss sort nolab

11

Kahemõõtmelised sagedustabelid

Kahemõõtmelise sagedustabeli tegemiseks kasutatakse käsku tabulate. Käsu üldine

süntaks:

tabulate tunnus1 tunnus2 [if] [in] [, options]

Lisaparameetritena (options) saab tellida protsente:

column suhtelised sagedused iga veeru kohta

row suhtelised sagedused iga rea kohta

cell suhtelised sagedused terve tabeli kohta

missing väljastada info ka puuduvate väärtuste kohta

Näiteks: tabulate sugu aasta

(Sama menüüdest: Statistics => Summaries, Tables and tests => Tables => Twoway

tables with measures of summary association)

Soovitavad tunnused valime aknakestesse Row variables ja Column variables. Tulemuseks

saame kahemõõtmelise sagedustabeli. Võimalik on valida tabeli sisu (suhtelised sagedused,

veeru- või reaprotsendid), tunnuste vahelist seost hindavaid näitajaid, vormindada tabeli

välimust (näidata puuduvaid väärtusi, näidata väärtuste märgendeid (labels) või mitte).

12

Kirjeldavad statistikud

Kirjeldavad statistikud saab, kui käsuaknasse trükkida:

summarize tunnuste_loetelu

Detailse info saamiseks lisame täienduse detail.

summarize tunnuste_loetelu , detail

Lisada saame ka tingimusi eelpool kirjeldatud viisi.

Näiteks:

summarize pikkus if sugu==2 kirjeldame ainult meestudengite pikkust

bysort sugu: summar pikkus kirjeldavad statistikud grupeeriva tunnuse järgi

bysort sugu: summar pikkus kaal vanus kirjeldavad statistikud rohkem kui

ühe tunnuse jaoks korraga

grupeeriva tunnuse järgi

Sama menüüde abil. Arvulisele tunnusele kirjeldavate statistikute arvutamiseks valime:

Statistics => Summaries, Tables and tests => Summary and descriptive statistics =>

Summary statistics

Variables-aknasse valime tunnuse nime (vt tööakna pilte allpool), sinna saab valida ka mitu

tunnust korraga (järjest klõpsates meid huvitavate tunnuse nimedel); kõikide tunnuste korraga

analüüsimiseks võib aknakesesse kirjutada sümboli * .

Options – saab valida:

Standard display – näidatakse nn standardväljundit, kus on toodud vaatluste arv, keskmine,

standardhälve, miinimum, maksimum;

Display additional statistics – kuvatakse lisaks hulk erinevaid näitajaid;

No display; just calculate mean – arvutatakse lihtsalt keskmine.

Kui me soovime leida kirjeldavaid statistikuid gruppide kaupa, siis by/if/in-lehel saab näidata,

millise tunnuse järgi me soovime grupeerida (nt tunnus sugu). Teeme linnukese Repeat

commands by groups ette. Valime aknakesse Variables that define groups grupeeriva tunnuse

nime (nt sugu). Valida saab ka mitmeid grupeerivaid tunnuseid korraga.

Kui me soovime andmehulka piirata – nt vaadata ainult meestudengite andmeid, siis võime If

järele kirjutada kitsendava tingimuse - nt sugu==2

Menüüdest tehtud valikud on pärast OK-nupule vajutamist käsurea kujul näha ka Results ja

Review aknas. Tehtud viimane valik on uuesti menüüst sama tegevust valides akendes alles.

13

Näide:

Arvutame mittesuitsetajate pikkuste kirjeldavad statistikud sugude kaupa kasutades menüüsid.

Tulemus:

=> sugu = naine

Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------

pikkus | 204 167.9926 5.367866 155 181

----------------------------------------------------------------------

=> sugu = mees

Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------

pikkus | 70 181.1857 7.016116 163 197

----------------------------------------------------- -----------------

Stata käsk sama analüüsi tegemiseks:

by sugu, sort : summarize pikkus if suits==1

Võrdle järgmiste käskude tulemust eelmisega:

format pikkus %8.1f

by sugu, sort : summarize pikkus if suits==1, format

14

Kirjeldavate statistikute tabel

Käsu table abil.

Andmete ülevaatlikumaks esitamiseks on hea teha kirjeldavate statistikute tabeleid. Selleks

kasutame käsku table (sedasama käsku saab kasutada ka lihtsate sagedustabelite

tegemiseks).

Järgnev käsk teeb sagedustabeli tunnuse sugu järgi ning paneb tabelisse vääruste esinemise

sageduse ja arvutab tunnuse kaal keskmise ning standardhälbe.

table sugu, contents(freq mean kaal sd kaal)

Sarnaselt saame leida ka tunnuse mediaani ja kvartiilid klassifitseeriva tunnuse järgi

table sugu, contents(freq median kaal p25 kaal p75 kaal)

Kasutada saab ka kahte klassifitseerivat tunnust

table sugu aasta, contents(freq mean kaal mediaan kaal)

Menüüst valides Statistics => Summaries, Tables and tests => Other tables => Flexible

table of summary statistics (table) :

Käsu tabstat abil.

Sisuliselt sama tulemuse table käsuga, kuid veidi teisel kujul, annab käsk tabstat.

NB! Käsuga tabstat saab kasutada ainult üht klassifitseerivat tunnust.

Näide:

tabstat kaal pikkus, statistics(mean sd)

Sama meeste ja naiste hulgas:

tabstat kaal pikkus, statistics(mean sd) by(sugu)

15

Menüüvalikust: Statistics => Summaries, Tables and tests => Tables => Table of means,

st.dev., and frequencies (tabstat)

Komakohtade kaunimaks sättimiseks Option leht:

Tulemus on selline:

Summary statistics: mean, sd

by categories of: sugu (sugu)

sugu | kaal pikkus

-------+--------------------

naine | 58.88 167.90

| 8.10 5.42

-------+--------------------

mees | 77.69 181.24

| 12.91 6.78

-------+--------------------

Total | 64.26 171.66

| 12.91 8.37

----------------------------

16

Ülesanne: Proovi teha järgmist kirjeldavate statistikute tabelit:

aasta variable | N mean sd min max

----------------------+--------------------------------------------------

2005 vanus | 177.0 20.5 2.3 18.0 34.0

systoolne | 96.0 116.6 11.7 90.0 140.0

diastoolne | 96.0 73.1 9.5 50.0 90.0

----------------------+--------------------------------------------------

2015 vanus | 131.0 21.2 2.6 18.0 38.0

systoolne | 72.0 114.3 13.0 65.0 140.0

diastoolne | 72.0 71.4 11.7 20.0 100.0

-------------------------------------------------------------------------

Lahendus (kirjuta kõik see samale reale command aknasse):

tabstat vanus systoolne diastoolne, statistics(count mean sd min

max) by(aasta) nototal varwidth(12) columns(statistics)

format(%8.1f)

Ülesanne:

Proovi sama info kätte saada table käsu abil! Kas esineb probleeme? Milliseid?

Graafikud

Graafikute tegemiseks saab Statas kasutada menüüd Graphics. Karpdiagramme saab teha

valiku Boxplot alt, tulpdiagramme ja histogramme valiku Histogram alt ja ringdiagramme

valiku Pie chart alt. Kõike seda saab teha ka järgnevate käskude abil:

Histogramm pideva tunnuse jaotuse kujutamiseks

histogram pikkus

hist pikkus, normal

hist pikkus, normal bin(8)

Karpdiagramm

graph box pikkus

graph box pikkus, over(sugu) over(aasta)

graph box pikkus, by(sugu) over(aasta)

Kvantiil-kvantiil joonis (Q-Q plot)

qnorm pikkus

(Menüüst: Graphics => Distributional plots and tests => Normal quantile plot)

Graafikute kombineerimine. Selleks, et erinevat tüüpi graafikuid ühele paneelilie saada,

tuleb nad eelnevalt valmis teha ja salvestada ja siis kokku kombineerida.

hist pikkus, normal saving(histo)

17

graph hbox pikkus, saving(karp)

qnorm pikkus, saving(kvant)

Erinevad käsud graafikute kokku kombineerimiseks. Proovi järle!

graph combine histo.gph karp.gph kvant.gph

graph combine histo.gph karp.gph kvant.gph, rows(3)

graph combine histo.gph karp.gph kvant.gph, cols(1) xsize(8)

ysize(20)

0

.02

.04

.06

.08

Den

sity

150.0 160.0 170.0 180.0 190.0 200.0pikkus

150 160 170 180 190 200pikkus

15

0.0

16

0.0

17

0.0

18

0.0

19

0.0

20

0.0

pik

ku

s

150.0 160.0 170.0 180.0 190.0 200.0Inverse Normal

18

Kalkulaator

Kalkulaatori kasutamiseks tuleb kirjutada käsuaknasse (Commands) käsk disp (töötab ka

pikem verisoon display) ja sinna järgi soovitud tehe.

display 2+5 * 2+5

disp 3^2 * 32

disp exp(3) * e3

disp sqrt(16) * ruutjuut 16st

Näiteks: Arvutame 165 cm pikkuse ja 62 kg kaaluva isiku kehamassiindeksi.

disp 62/(165/100)^2

Näpunäiteid

Do-fail käsuridade salvestamiseks

Sageli tekib statistilise analüüsi käigus andmete parandamise vajadus, mille tagajärjel on vaja

kogu või osa analüüsist uuesti teha. Sellisel juhul on mugav, kui töö käigus kasutatud käske

saab uuesti välja kutsuda (ilma neid uuesti kirjutamata või menüüdest valimata). Programmide

salvestamise tarvis on Stata-l olemas eraldi programmiaken, mille saab avada Window => Do-

file editor => New do-file (sama teeb ka klahvikombinatsioon Ctrl+9).

Programmiaknasse saab trükkida käske analoogiliselt käsuaknaga.

Käsu käivitamiseks tuleb see ära märkida ja kasutada klahvikombinatsiooni Ctrl+D. Tulemused

väljastatakse tulemuste aknasse. Kui soovime käsu käivitada nii, et tulemuste aknasse midagi

ei ilmuks, siis Ctrl+R.

Kui rida ära ei märgi, siis Ctrl+D või Ctrl+R vajutamisel käivitatakse terve fail järjest.

Do-faili editoris on pikki käske võimalik poolitada lisades käsu lõppu tühiku järel ///

NB! Käskude poolitamine ei tööta programmi aknas (Command)!

Näiteks:

list if seltskond==2 & ///

onnelik>9, clean

NB! Skriptifail tuleb eraldi salvestada. Stata seda automaatselt ei tee!

19

Logifail – Results-akna sisu salvestamine

Salvestada võib ka kogu tööakna sisu – selle jaoks on Statal logifaili võimalus. Uue logifaili

alustamiseks valida File => Log => Begin…

Olemasolevat logifaili valides saab:

olemasolevat logifaili vaadata (view)

jätkata olemasolevat logifaili (append)

kirjutada eelmise faili sisu üle (vana sisu kustub) (overwrite)

Logi salvestamise ajutiselt peatamiseks File => Log => Suspend.

Taas aktiviseerimiseks File => Log => Resume.

Tulemuste salvestamise lõpetamiseks File => Log => Close.

Logifaili vaatamiseks File => Log => View ja tekstifailina salvestamiseks File => Log =>

Translate…

Andmete kustutamine, alleshoidmine, sortimine

drop kustutamine

drop sugu kustutada tunnus sugu (veeru kustutamine)

drop if sugu==“Mees“ kustutada andmestikust kõik mehed (ridade kustutamine)

keep allesjätmine

keep s* aasta vanus teatud veergude allesjätmine

keep if sugu==“Mees“ hoida alles mehed (ridade säilitamine)

keep if sugu!=“Mees“ hoida alles kõik need, kelle sugu ei ole mees

rename skp surmakp tunnuse nime muutmine

sort vanus andmestiku sorteerimine tunnuse vanus järgi (kasvavalt)

gsort üldisem sorteerimine, saab sorteerida ka kahanevalt

(selleks panna tunnuse nime ette “–“ märk)

order andmestikus olevate tunnuste järjekorra muutmine (käsu

järel nimetatud tunnused pannakse esimesele kohale ning

ülejäänud jäävad vanas järjestuses)

20

Uute tunnuste moodustamine ja olemasolevate muutmine

generate uute tunnuste tegemiseks

egen extended generate

replace olemasoleva tunnuse väärtuste muutmiseks

Näiteid:

gen kmi = kaal/((pikkus/100)^2) kehamassiindeksi arvutamine

gen iga = „noor“ uus tekstiline tunnus iga, kõik väärtused on “noor”

Uut tunnust saab teha ainult 1 kord! Edasi tuleb olemasolevas tunnuses väärtusi muuta:

replace iga = „mitte noor“ if ///

vanus>21

Dummy variables ehk indikaatortunnused

on 0/1 tunnused. Näiteks küsitlusankeetides mitme valikuvariandiga küsimuste puhul on nad

kohustuslikud, aga mõnikord võib neid vaja minna ka ühe valiku puhul.

Ei/jah ehk 0/1 tunnuse kiiresti tegemine – kirjutada tingimus kohe võrdusmärgi taha!

gen vaga_onnelik = (onnelik>7)

gen viirus2 = inlist(viirus,1,2)

gen vaga_onnelik2 = inrange(onnelik,8,10)

tab1 vaga_onnelik vaga_onnelik2 viirus2

Selgitused:

inlist(viirus,1,2) sama kui if viirus==1 | viirus ==2 ehk

tehakse midagi, kui tunnuse viirus väärtused on 1 või 2

inrange(onnelik, 8, 10) sama kui onnelik>=8 & onnelik

21

Näide:

gen pikk = pikkus > 190

replace pikk = . if pikkus == .

Või kirjutada if kohe gen-käsku sisse:

gen pikk2 = pikkus > 190 if pikkus != .

Näide:

tab suits

suitsetamine | Freq. Percent Cum.

------------------------------+-----------------------------------

ei suitseta | 276 87.90 87.90

suitsetan, aga mitte iga päev | 27 8.60 96.50

suitsetan iga päev | 11 3.50 100.00

------------------------------+-----------------------------------

Total | 314 100.00

Teeme nüüd suitsetamisele indikaatortunnused

gen mittesuitsetaja = suits == 1

gen juhusuitsetaja = suits == 2

NB! Igapäevasuitsetajale pole enam indikaatortunnust vaja, sest kui tudeng ei ole antud juhul

mittesuitsetaja või juhusuitsetaja, siis on ta igapäevasuitsetaja.

Teine variant indikaatortunnuste tegemiseks:

tab suits, gen(suitsetaja) tehakse tunnused suitsetaja1, suitsetaja2 jne ehk

täpselt niipalju, kui on vastusevariante. Antud

juhul siis teeb Stata automaatselt 3 indikaatorit –

iga suitsetamise taseme jaoks ühe.

22

Extended generate

Näide:

Tunnused kiirabi, haigla ja (koolist/töölt) puudunud näitavad, erinevaid meditsiiniteenuste

vajamise viise. Saame kokku lugeda mitu vastust vastaja on ära märkinud:

egen med_arv = rowtotal(haigla kiirabi puudunud)

Veel võimalusi:

rowtotal arvutab summa igas reas (üle loetletud tunnuste, puuduvaid väärtuseid

käsitletakse nullidena.)

rowmiss puuduvate väärtuste arv reas (üle loetletud tunnuste)

rownonmiss mittepuuduvate väärtuste arv reas (üle loetletud tunnuste)

rowmean arvutab keskmise üle rea ((üle loetletud tunnuste), puuduvaid väärtuseid

ignoreeritakse)

rowmin arvutab miinimumi reas (üle loetletud tunnuste)

rowmax arvutab maksimumi reas (üle loetletud tunnuste)

sd arvutab standardhälbe reas (üle loetletud tunnuste)

Rohkemate võimaluste jaoks uuri help egen

Tunnuse ümberkodeerimine

Valides menüüst Data => Create or change variables => Other variable transformation

commands => Recode categorical variables avaneb aken, mille abil on võimalik tunnust

ümber kodeerida.

Näide: Seitsmeväärtuselise suitsetamise tunnuse kodeerimine kolmeväärtuseliseks:

23

Main tab-ilt sisestame kodeerimiseks vajaliku info (kodeeritava tunnuse nime ja

ümberkodeerimise reeglid):

Selleks, et vältida originaalandmete ülekirjutamist salvestame ümberkodeeritud tunnuse uue

nime all, selleks valime Options tab-ilt Generate new variable ja sisestame aknakesse

loodavale tunnusele uue nime.

Seejärel tuleb vajutada nupule OK.

Sama töö oleks ära teinud ka käsuaknasse (Commands) sisestatud rida (kirjuta samale reale):

recode suits (1/2 = 1 "mittesuitsetaja") (3/4 = 2 "ebaregulaarne

suitsetaja") (5/7 = 3 "regulaarne suitsetaja"), generate(suits2)

Tunnuste loetelus (STATA aken Variables) näeme nüüd uut loodud tunnust. Edasi saame uut

tunnust kasutada nagu andmestikus algselt olevaid tunnuseidki.

Selle tunnuse nimi,

mida soovime

ümber kodeerida Näited

vanade väärtuste 1 kuni 2 muutmine

väärtuseks 1, lisame kirjelduse

„mittesuitsetaja”

24

Ülesanne:

Kodeeri kehamassiindeks (tunnus kmi) neljaväärtuseliseks vastavalt WHO kriteeriumitele:

Kehamassiindeks alla 19 – alakaal

Kehamassiindeks 19-24,9 – normaalkaal

Kehamassiindeks 25-29,9 – ülekaal

Kehamassiindeks üle 30 – rasvumine

Tulemus peaks olema järgmine:

KMI rühmad | Freq. Percent Cum.

------------+-----------------------------------

alakaal | 51 16.45 16.45

normaalkaal | 223 71.94 88.39

ülekaal | 29 9.35 97.74

rasvumine | 7 2.26 100.00

------------+-----------------------------------

Total | 310 100.00

25

Usaldusintervallide arvutamine

Usaldusintervallide arvutamiseks Statas vali menüüst Statistics => Summaries, tables and

tests => Summary and descriptive statistics. Edasi on menüüs 4 valikut:

Confidence intervals usaldusintervallid andmestikult

Normal CI calculator usaldusintervalli kalkulaator normaaljaotusega tunnusele

Binomial CI calculator usaldusintervalli kalkulaator binoomjaotusega tunnusele

Poisson CI calculator usaldusintervalli kalkulaator Poissoni jaotusega tunnusele

Esimene neist on andmestiku põhjal usaldusintervallide leidmine. Ülejäänud on kiirkäsud –

sisestame vaid koondandmed (normaaljaotuse puhul keskmise, standardhälbe ja valimi suuruse;

binoomjaotuse puhul katsete arvu ja sündmuste arvu, Poissoni puhul riskiaeg ja sündmuste arv).

Andmestikust usaldusintervalli arvutamiseks tuleb sisestada tunnusenimi ja tüüp (vaikimisi

normaaljaotusega). Binoomjaotusega tunnusele usaldusintervalli leidmiseks peab tunnus olema

kodeeritud kui 0-1.

Usaldusintervalli leidmiseks tunnuse keskväärtusele või

protsendile ava menüü: Statistics => Summaries, tables

and tests => Summary and descriptive statistics =>

Confidence intervals. Sisesta tunnuse nimi (Variables),

tunnuse tüüp (Variable type, vali kas tegemist on

normaaljaotusega tunnusega või soovite protsendile

usaldusintervalli) ja usaldusintervalli laius (Confidence

level, vaikimisi 95% UI).

Usaldusintervalli leidmiseks käskude abil on käsud

ci (tunnustele arvutamiseks) ja cii (koondandmetelt

arvutamiseks).

26

ci means tunnuste_loetelu normaaljaotusega tunnustele

ci means tunnuste_loetelu, poisson poissoni jaotusega tunnustele

ci prop tunnuste_loetelu binoomjaotusega tunnustele (protsendile)

Kiirkäsud koondandmetelt usaldusintervalli arvutamiseks

cii means valimi_suurus keskmine standardhälve normaaljaotusega tunnusele

cii means riskiaeg sündmuste arv poissoni jaotusega tunnusele

cii prop vaatluste_arv sündmuste_arv binoomjaotusega tunnustele (protsendile)

Näide:

ci means pikkus 95% usaldusintervall pikkusele

ci means pikkus, level(90) 90% usaldusintervall pikkusele

27

Statistiline testimine

Erinevate olukordade lahendamiseks kasutame erinevaid teste. Testid, mida selles juhendis

tutvustatakse, asuvad Statas peamiselt kolmes menüüs:

Jaotuse eeldusel põhinevad testid (t-test, ANOVA, paariviisiline t-test, protsentide

võrdlemine)

Statistics => Summaries, Tables and tests => Classical test of hypothesis

Mitteparameetrilised e järjestusel põhinevad testid (Wilcoxoni astaktest e Mann-Whitney

test, Kruskal-Wallise test, Wilcoxoni astakmärgitest)

Statistics => Summaries, Tables and tests => Nonparametric test of hypothesis

Sagedustabelitel põhinevad seosetestid – hii-ruut test ja Fisheri test

Statistics => Summaries, Tables and tests => Tables

Statistiliste testide koondtabel

Võrdlusaluse

tunnuse tüüp

Tööhüpotees Jaotuse eeldusel

põhinev test

Mitteparameetriline test

Arvuline H1: grupi keskmine

on muutunud (ajas)

paaris t-test

(one Sample t-test,

paired t-test)

ttest

Wilcoxoni märgitest

(Wilcoxon sign test,

Wilcoxon signed rank test)

signrank

Arvuline H1: kahe grupi

keskmised tasemed

on erinevad

Studenti t-test

(two-sample t-test,

unpaired t-test)

ttest

Wilcoxoni astaktest (Mann-

Whitney (U) test )

(Wilcoxon ranksum test)

ranksum

Arvuline H1: kolmest või

enamast grupist

vähemalt kahe

keskmised tasemed

on erinevad

ANOVA

oneway

Kruskal-Wallise test

kwallis

Binaarne H1: sündmuse

esinemise protsent

kahes grupis on

erinevad

Z-test

prtest

Fisheri test

tab..., exact

Nominaalne H1: kahest või

enamast grupist

vähemalt kahes on

sündmuse esinemise

sagedus erinev

Hii-ruut test

(Chi-square test)

tab..., chi2

Fisheri test

tab..., exact

28

Ühe valimi t-test

Keskmise võrdlemine mingi kindla väärtusega (näiteks vererõhu muutus=0)

Menüüdest valides: Statistics => Summaries, Tables and tests => Classical test of

hypothesis => One-sample mean-comparison test

Main-tab: Variable name: sisestada tunnuse nimi

Hypothesized mean: võrdlusaluse väärtuse.

Samade isikute keskmise taseme muutuse võrdlemine (nt vererõhk enne vs vererõhk pärast)


hypothesis => Mean-comparison test, paired data

Main-tab: First variable: sisestada esimese tunnuse nimi

Second variable: sisestada teise tunnuse nimi

Sama käsurealt:

ttest tunnuse_nimi == oletatav_keskmine_väärtus

ttest tunnuse1_nimi == tunnuse2_nimi

Kiirkäsuna (koondandmetelt):

ttesti vaatluste_arv keskmine standardhälve oletatav_keskmine_väärtus

T-test valimite keskmiste võrdlemiseks

Menüüdest: Statistics => Summaries, Tables and tests => Classical test of hypothesis =>

Group mean comparison

Main-tab: Variable name: tunnuse nimi

Group variable name: grupeeriva tunnuse nimi

Käsurealt:

ttest tunnuse_nimi, by(grupeeriva_tunnuse_nimi)

T-test valimi keskmisele, kui standardhälbed on erinevad:

ttest tunnuse_nimi, by(grupeeriva_tunnuse_nimi) unequal

Kahe valimikeskmise võrdlemise kalkulaator (koondandmete jaoks):

ttesti vaatluste_arv1 keskmine1 sd1 vaatluste_arv2 keskmine2 sd2

30

Wilcoxoni astaktest valimite keskmiste võrdlemiseks

Menüüdest: Statistics => Summaries, Tables and tests => Nonparametric test of hypothesis

=> Mann-Whitney two-sample ranksum test

Main-tab: Variable : tunnuse nimi

Grouping variable: grupeeriva tunnuse nime

Käsurealt sisestades:

ranksum tunnuse_nimi, by(grupeeriva_tunnuse_nimi)

Näide: Kas tarvitatud alkoholikogus on erinev mees- ja naistudengitel

ranksum alkokogus, by(sugu)

Kahe grupi protsentide võrdlemine

NB! Võrdlusalune tunnus peab olema kodeeritud kui 0-1. Näiteks kui tahame viirushaigusesse

haigestunute hulka meeste ja naiste seas võrrelda, siis peab viirus olema kodeeritud 0-1

väärtustele.


hypothesis => Proportion test

Main-tab: Variable name: tunnuse nimi (näiteks viirus)

Group variable name: grupeeriva tunnuse nime (näiteks sugu).

Käsurealt

prtest tunnuse_nimi, by(grupeeriva_tunnuse_nimi)

Kiirkäsuna koondandmetelt arvutamiseks:

prtesti vaatluste_arv1 sündm_tõen1 vaatluste_arv2 sündm_tõen2

Näide: Kas meeste ja naiste seas on viimase 12 kuu jooksul kiirabi vajanute hulk erinev.

prtest kiirabi, by(sugu)

31

Rohkem kui kahe grupi keskmiste võrdlemine

Normaaljaotusega tunnus - dispersioonanalüüs ehk ANOVA

Kui meil on vajadus võrrelda omavahel enam kui kahe grupi keskmisi väärtusi, siis selle jaoks

kasutame dispersioonanalüüsi ehk ANOVA-t. Dispersioonanalüüsi abil testime nullhüpoteesi,

et kõikide gruppide keskmised on omavahel võrdsed ja alternatiivseks hüpoteesiks on, et

vähemalt kahe grupi keskmised on omavahel võrdsed.

Lihtsa dispersioonanalüüsi saame teha:

oneway tunnuse_nimi grupeeriva_tunnuse_nimi

Gruppide omavaheliseks paariviisiliseks võrdluseks koos Bonferroni parandusega:

oneway tunnuse_nimi grupeeriva_tunnuse_nimi, bonferroni

Menüüdest: Statistics => Linear models and related => ANOVA/MANOVA => One-way

ANOVA

Mittenormaaljaotusega pidev tunnus – Kruskal-Wallise test

Kui võrdlusaluse tunnuse normaaljaotuse eeldus ei kehti, siis kasutame gruppidevahelise

võrdluse tegemiseks Kruskal-Wallise testi:

kwallis tunnuse_nimi, by(grupeeriva_tunnuse_nimi)

Menüüdest: Statistics => Nonparametric analysis => Tests of hypotheses => Kruskal-

Wallis rank test

Olulise erinevuse ilmnemisel tuleb edasi teha paariviisilised võrdlused koos Bonferroni

parandusega.

Näide:

oneway kaal oues, bonferroni dispersioonanalüüs koos paariviisiliste

võrdlusega

kwallis kaal, by(oues)

32

Kahe pideva tunnuse vaheline seos – korrelatsioon

Hajuvusgraafik

Kahe pideva tunnuse vahelise seose visuaalseks kujutamiseks sobib hästi hajuvusdiagramm

(scatter plot). Selle tegemiseks kasutatakse Statas käsku

scatter tunnus1 tunnus2 või twoway scatter tunnus1 tunnus2

Vaatlust tähistava sümboli muutmiseks

twoway scatter tunnus1 tunnus2, msymbol(x)

Erinevate markerite ja nende suuruste uurimiseks kasuta käske

help symbolstyle

help markersizestyle

Et teha erinevad joonised grupeeriva tunnuse järgi (näiteks sugu)

twoway scatter tunnus1 tunnus2, by(grupeeriv_tunnus)

Näide:

twoway scatter kaal pikkus, by(sugu)

Erinevate punktide eristamiseks samal joonisel tuleb meil teha nn „kihiline“ joonis (näiteks

pikkuse ja kaalu joonis meestel-naistel – kõigepealt joonistame naistudengite vaatlused ja

seejärel uuele kihile meestudengite vaatlused). Lisatud on ka legend.

twoway (scatter kaal pikkus if sugu==1) (scatter kaal pikkus if

sugu==2), legend(label(1 "naine") label(2 "mees"))

Täiendame eelmist käsku nii, et mehed oleks joonisel kujutatud rombide ja naised kolmnurkade

abil (command-aknas kirjuta kogu käsk ühele reale):

twoway (scatter kaal pikkus if sugu==1, msymbol(T))

(scatter kaal pikkus if sugu==2, msymbol(D)),

legend(label(1 "naine") label(2 "mees"))

Lineaarse sirge joonistamiskes läbi punktipilve tuleb samuti kasutada „kihilist“ joonist

twoway (scatter kaal pikkus)(lfit kaal pikkus)

Hajuvusdiagrammide maatriksi joonistamine:

graph matrix kaal pikkus jalg jalats

33

Korrelatsioonikordaja

Korrelatsioonikordajaid saab leida järgmiste käskudega (käsu nime järele tuleb kirjutada ka

tunnuste nimed, mille hulgas korrelatsioone soovitakse leida):

correlate Pearsoni korrelatsioonikordaja

pwcorr Pearsoni korrelatsioonikordaja, puuduvate väärtuste paariviisiline kustu-

tamine. Korrelatsiooni leidmisel kustutatakse ära puuduvad väärtused

tunnusepaaride kaupa. Kasutatakse, kui andmestikus on palju puuduvaid

väärtusi.

spearman Spearmanni korrelatsioonikordaja, kasutatakse, pidev tunnus pole

normaaljaotusega.

ktau Kendalli tau, kasutatakse, kui tunnus pole normaaljatusega,

Menüüdest saab valida vaid Pearsoni korrelatsioonikordaja:

Statistics => Summaries, tables and tests => Summary and descriptive statistics =>

Correlations and covariances

Statistics => Summaries, tables and tests => Summary and descriptive statistics => Pairwise

correlations

Näiteks:

corr pikkus kaal

pwcorr pikkus kaal jalg jalats, sig

spearman pikkus kaal

ktau pikkus kaal

34

Ülesanne Kümnele hüpertriglütserideemiaga patsiendile määrati raviks vastav dieet. Enne

dieedi alustamist mõõdeti patsientidel kolesterooli ja triglütseriidide hulk veres. Tulemused olid

järgmised: (loeme need Statasse input käsuga. Võid kasutada do-faili input01.do)

input id Chol TG

1 5.12 2.30

2 6.18 2.54

3 6.77 2.95

4 6.65 3.77

5 6.36 4.18

6 5.90 5.31

7 5.48 5.53

8 6.02 8.83

9 10.34 9.48

10 8.51 14.2

end

a. Joonista hajuvusdiagramm!

b. Kas hajuvusdiagrammilt paistab enne dieeti kolesterooli ja triglütseriidide vahel olevat

lineaarne seos? Üldse mingi seos?

c. Arvuta Pearsoni korrelatsioonikordaja.

d. Testi nullhüpoteesi H0: Pearsoni korrelatsioonikordaja võrdub nulliga. Mida järeldad?

e. Arvuta ka Spearmani korrelatsioonikordaja.

f. Võrdle Pearsoni ja Spearmani korrelatsioonikordajaid – kas on sarnased? Erinevad?

g. Testi ka nullhüpoteesi H0: Spearmani korrelatsioonikordaja võrdub nulliga. Mida nüüd

järeldad?

Vihjed:

plot Chol TG

scatter Chol TG

corr Chol TG

pwcorr Chol TG, sig

spearman Chol TG

35

Seosed sagedustabelis 2-test ja Fisheri test

Seoste uurimiseks kahemõõtmelises sagedustabelis kasutatakse käsku tabulate (seesama,

millega saab teha kahemõõtmelisi sagedustabeleid). Käsu üldine süntaks:

tabulate tunnus1 tunnus2 [if] [in] [, options]

Lisaparameetritena (options) saab tellida protsente, oodatavaid väärtusi, hii-ruut testi, Fisheri

testi.

chi2 Hii-ruut test

exact Fisheri test

column suhtelised sagedused iga veeru kohta

row suhtelised sagedused iga rea kohta

cell suhtelised sagedused terve tabeli kohta

expected oodatavad sagedused, kui ridade-veergude jaotus oleks sama

missing väljastada info ka puuduvate väärtuste kohta

Sama menüüst: Statistics => Summaries, Tables and tests => Frequency tables =>

Twoway tables with measures of summary association

Soovitavad tunnused valime aknakestesse Row variables ja Column variables. Tulemuseks

saame kahemõõtmelise sagedustabeli. Võimalik on valida tabeli sisu (suhtelised sagedused,

veeru- või reaprotsendid), tunnuste vahelist seost hindavaid näitajaid, vormindada tabeli

välimust (näidata puuduvaid väärtusi, näidata väärtuste märgendeid (labels) või mitte).

36

Kui me soovime korraga teha rohkem kahemõõtmelisi sagedustabeleid, siis võib menüüst

valida Statistics => Summaries, Tables and tests => Tables => All possible twoway

tabulations (käsurealt sisestades tab2)

2-ruut testi saab kasutada ka kiirkäsu või kalkulaatorina, kus tabel sisestatakse reakaupa,

ridade eraldajatena kasutatakse tagurpidi kaldkriipsu. Lisaparameetrid pannakse sarnaselt.

Näide: seos soo ja tervisehinnangu vahel

tabi 83 404 161 \ 35 105 50, row chi2

Fisheri testi tegemiseks kirjutatakse lisaparameetriks exact.

tabi 83 404 161 \ 35 105 50, exact

37

Seosed 2x2-tabelis – šansside suhe, riskide suhe

Šansisuhte leidmiseks kasutatakse Statas käske cc (case-control) ja riskisuhte leidmiseks cs

(cohcort study). Käskude süntaks on omavahel sarnane:

cs väljundtunnus ekspositsioonitunnus

cc väljundtunnus ekspositsioonitunnus

Nii väljundtunnus, kui ka ekspositsioonitunnus peavad olema kodeeritud kui 0-1, kus 1 näitab

vastavalt riskiteguri ja väljundi olemasolu.

Šansside ja riskide suhet saab arvutada ka koondandmetelt (nn 2x2 tabeli pealt) kasutades käske

csi a c b d

cci a c b d

Kus a c b d on sagedused 2x2 tabelist:

Väljund + Väljund -

Ekspositsioon + a b

Ekspositsioon - c d

Näide: Aastal 2006 viidi TÜ arstiteaduskonna 2. kursuse tudengite seas läbi randomiseeritud

uuring, kus pooled osalejad said tassi tavalist kohvi ja pooled kofeiinivaba. Veidi aega pärast

kohvijoomist paluti tudengitel lahendada üks arvutusülesanne. Järgnevas tabelis on toodud

andmed kohvijoomise ja arvutusülesande õige lahenduse vahel.

Arvutusülesande õige

lahendus

Kohv

Jah Ei

Kofeiiniga 40 28

Kofeiinivaba 33 28

Leiame STATA kalkulaatori abil leidke 95% usaldusintervalli šansside suhtele ja suhtelisele

riskile:

csi 40 28 33 28, or

38

Sisukord

Alustamine, tööakna tutvustus ................................................................................................... 1 Näiteks kasutatavad andmestikud .......................................................................................... 2

Töökataloog ............................................................................................................................ 3 Juba varem Statasse imporditud andmestiku avamine ........................................................... 3 Esimene pilk andmestikule, tingimused ................................................................................. 4 Üldiseid õpetussõnu ............................................................................................................... 8 Abifailid ................................................................................................................................. 8

Lühendamine .......................................................................................................................... 8 Eelmiste käskude kuvamine ................................................................................................... 8 Menüüde kasutamine .............................................................................................................. 8

Ühemõõtmelised sagedustabelid ................................................................................................ 9 Kahemõõtmelised sagedustabelid ............................................................................................ 11

Kirjeldavad statistikud .............................................................................................................. 12 Kirjeldavate statistikute tabel ................................................................................................... 14

Graafikud .................................................................................................................................. 16

Kalkulaator ............................................................................................................................... 18 Näpunäiteid .............................................................................................................................. 18

Do-fail käsuridade salvestamiseks ....................................................................................... 18

Logifail – Results-akna sisu salvestamine ........................................................................... 19 Andmete kustutamine, alleshoidmine, sortimine ................................................................. 19 Uute tunnuste moodustamine ja olemasolevate muutmine .................................................. 20

Dummy variables ehk indikaatortunnused ............................................................................ 20 Extended generate ................................................................................................................ 22

Tunnuse ümberkodeerimine ................................................................................................. 22 Usaldusintervallide arvutamine ................................................................................................ 25 Statistiline testimine ................................................................................................................. 27

Statistiliste testide koondtabel .............................................................................................. 27 Ühe valimi t-test ................................................................................................................... 28

T-test valimite keskmiste võrdlemiseks ............................................................................... 28 Wilcoxoni astaktest valimite keskmiste võrdlemiseks ......................................................... 30 Kahe grupi protsentide võrdlemine ...................................................................................... 30

Rohkem kui kahe grupi keskmiste võrdlemine ................................................................... 31 Kahe pideva tunnuse vaheline seos – korrelatsioon ................................................................. 32

Hajuvusgraafik ..................................................................................................................... 32 Korrelatsioonikordaja ........................................................................................................... 33

Seosed sagedustabelis 2-test ja Fisheri test ............................................................................ 35 Seosed 2x2-tabelis – šansside suhe, riskide suhe ..................................................................... 37

39

Stata käskude loend

bonferroni, 31

browse, 4, 5

bysort, 12

cc, 37

cci, 37

chi2, 35

ci, 25

cii, 25

codebook, 5

correlate, 33

count, 7

cs, 37

csi, 37

describe, 4

display, 18

do-fail, 18

drop, 19

egen, 20, 22

exact, 27, 35

expected, 35

findit, 8

format, 13

generate, 20

graph box, 16

graph combine, 17

graph matrix, 32

gsort, 19

help, 8

if, 7, 8

in, 8

inlist, 20

input, 34

inrange, 20

keep, 19

ktau, 33

kwallis, 27, 31

legend, 32

list, 7

loendamine, count, 7

loogilised

operaatorid, 6

markersizestyle, 32

missing, 6

msymbol, 32

oneway, 27, 31

order, 19

prtest, 27, 30

prtesti, 30

pwcorr, 33

ranksum, 27, 30

recode, 23

rename, 19

replace, 20

rowmax, 22

rowmean, 22

rowmin, 22

rowmiss, 22

rownonmiss, 22

rowtotal, 22

scatter, 32

sd, 22

signrank, 27

sort, 19

spearman, 33

summarize, 5, 12

symbolstyle, 32

tab1, 10

tab2, 36

tabi, 36

table, 14

tabstat, 14

tabulate, 10, 11, 35

ttest, 27, 28, 29

ttesti, 28

twoway, 32

use, 3

Alustamine, tööakna tutvustuskodu.ut.ee/~heti/stata/Stata juhend 2017.pdf · 1 Alustamine,...

Documents

Transcript of Alustamine, tööakna tutvustuskodu.ut.ee/~heti/stata/Stata juhend 2017.pdf · 1 Alustamine,...