Alustamine, tööakna tutvustuskodu.ut.ee/~heti/stata/Stata juhend 2017.pdf · 1 Alustamine,...
Transcript of Alustamine, tööakna tutvustuskodu.ut.ee/~heti/stata/Stata juhend 2017.pdf · 1 Alustamine,...
-
1
Alustamine, tööakna tutvustus
Peale Stata avamist on näha menüüriba, tööriistariba ja neli
akent.
Menüüdes on valikud töökeskkonna kohandamiseks (File, Edit), andmetega
manipuleerimiseks (Data), graafikute tegemiseks (Graphics), analüüside tegemiseks
(Statistics), abi saamiseks (Help).
Kõiki korraldusi on võimalik Statale anda kas menüüdest valides või käske otse käsuaknasse
(Commands) trükkides. Menüüdes pakutav valik on kesisem, kui Stata tegelikud võimalused
lubavad. Meie eesmärk on jõuda Stata kasutamisel käskude kasutamiseni menüüdes klõpsimise
asemel.
Tööriistaribal on välja toodud nupud enamkasutatavate käskude jaoks.
Aknad:
Results (suur must aken) – peamine aken, kuhu ilmuvad teated ja tulemused, näidatakse ka
sisestatud käske (ka menüüdest tehtud valikud ilmuvad sinna käsu kujul)
Commands – käsuaken, kuhu saab kirjutada käske. Levinumaid käske on võimalik valida
ka menüüdest. Menüüdest tehtud valikud ilmuvad käskudena Results ja Review aknasse.
Review – varem sisestatud käskude loetelu (ka menüüde kaudu valitud jõuavad sinna),
käsul klõpsates ilmub see käsuaknasse
Variables – kasutuses oleva andmestiku tunnuste loetelu, tunnuse nimel klõpsates kantakse
see käsuaknasse
Aknaid saab aktiivseks teha klikkides hiirega akna päisel. Avatud akende vahel saab ringelda
kasutades klahvikombinatsiooni Ctrl-Tab.
Muuda
andmetabelit
Vaata
andmetabelit Sulge Stata
Salvesta
Ava andmestik
Töökataloogi asukoht
-
2
Näiteks kasutatavad andmestikud
Asuvad aadressil http://www.ut.ee/~heti/stata
Tudengite terviseandmestik
TÜ meditsiinivaldkonna arstiteaduse eriala II kursusel Epidemioloogia ja biostatistika aines
korraldatakse igal aastal ankeetküsitlus, kus registreeritakse mitmesuguseid andmeid tudengite
eluviisi ja terviseseisundi kohta. Oma näidetes kasutamegi vastava andmestiku valimit.
Andmestikus on andmed 2005. ja 2015. aasta kohta, osad küsimused on erinevad. (Ankeet:
ankeet_2015.pdf, andmestik STATA kujul: andmed_2015.dta)
Doktorantide andmestik
TÜ arstiteaduse valdkonna doktorantidele tehti väike küsitlus. Ankeet antud veebiaadressil
failis doktorantide ankeet.pdf ja andmed Stata kujul doktorantide andmed.dta.
-
3
Töökataloog
Stata akna all ääres on halli värvi olekuriba, kus näeb töökataloogi nime. Töökataloog on
kataloog, kust avatakse ja kuhu salvestatakse vaikimisi tööfaile (logisid, programme, andmeid).
Igale failile saab ka asukoha eraldi ära näidata, aga ühe projekti raames on siiski mugavam
kasutada ühte töökataloogi.
Kirjutades käsuaknasse
pwd
näidatakse käesoleva töökataloogi nimi (vaikimisi tavaliselt c:\data). Näiteks:
C:\data
Töökataloogi muutmine menüüdest File => Change Working Directory või käsurealt
kasutades käsku cd
cd c:\tmp\
Juba varem Statasse imporditud andmestiku avamine
Stata-formaadis andmestikud lõpevad laiendiga .dta. Andmestiku saab kasutusele võtta
failihalduris, tehes kaks hiireklikki andmestiku nimel või Statas menüü-valikust File => Open
või trükkides käsureale
use failinimi, clear
Kui andmestikud on suured, siis saab Statale ette anda kasutatava mälumahu
set memory 50m
A good rule of thumb for large files is to allocate roughly 50% more memory than
the size of your file. (Allikas: www.stata.com)
Näited:
use andmed_2015.dta, clear andmestiku avamine töökataloogist
use "C:\stata\andmed_2015.dta", clear andmestiku avamine arvuti kettalt
use http://www.ut.ee/~heti/stata/andmed_2015.dta, clea
andmestiku avamine veebilehelt
Uuemates versioonides loodud andmestikud ei pruugi avaneda vanemas Statas, siis on võimalik
(uuemas Statas) andmestik salvestada vanemasse versiooni tagasi.
saveold failinimi.dta, version(13)
Ülesanne: Ava tudengite terviseandmestik:
use http://www.ut.ee/~heti/stata/andmed_2015.dta, clear
-
4
Esimene pilk andmestikule, tingimused
Andmestiku vaatamiseks tabeli kujul vali tööriistaribal nupp või käsurealt kirjutades
browse
Avaneb andmestik uues aknas vaatamiseks (Data Browser, andmeid muuta ei saa)
Andmestiku ja seal olevate tunnuste kirjeldamiseks valida menüüst
Data => Describe data => Describe variables in memory => OK
või kirjutada käsuaknasse
describe
Selle peale väljastatakse tulemuste aknasse (Results) andmestiku nimi ja/või asukoht
kõvakettal, tunnuste ja vaatluste arv, andmestiku suurus, tunnuste nimed, tüübid ja kirjeldused.
Näidatakse, millise tunnuse järgi andmestik on sorteeritud.
-
5
Andmestikust ülevaate saamiseks vali menüüst Statistics => Summaries, tables and tests =>
Summary statistics. Jäta kõik lahtrid tühjaks ja vajuta OK või kirjuta käsureale:
summarize
Väljastatakse kõikide tunnuste miinimumid, maksimumid, keskmised ja standardhälbed
(milliste tunnuste puhul milline informatsioon on mõtekas, jääb andmetöötleja otsustada).
Neid käske saab kasutada ka ühe tunnuse kirjeldamiseks
summarize vanus
describe vanus
Ainult osade tunnuste vaatamiseks tuleb kirjutada browse käsu järele meid huvitavate
tunnuste nimed või näidata millisest tunnusest millise tunnuseni me soovime andmestikku näha.
browse vanus pikkus sugu
browse aasta-sport näitab meile järjest tunnuseid alates aastast kuni spordini
Tunnuste kohta saab küsida ka lisainformatsiooni:
codebook vanus
Väljastatakse tunnuse nimi ja tüüp, maksimaalne ja minimaalne väärtus, puuduvate väärtuste
arv jne. Kui tunnuse väärtustel on küljes sildid (nt mees/naine, mitte ainult numbriline 1/2), siis
väljastatakse ka väärtused ja nimetused.
Ülesanne. Proovi nii – kirjuta käsuaknasse browse ja nüüd vali Variables aknast mõni tunnus
– näiteks viirus ja tee sellel hiirega klikk. Tunnus ilmub käsuaknasse sõna browse järele.
Nii saad käskudesse lisada tunnuseid ilma trükkimata.
-
6
Stata lubab ka tunnuste (ja ka käskude) nimesid lühendada (ära peab kirjutama nii palju tähti,
et tunnus oleks üheselt identifitseeritav – näiteks kui andmestikus on tunnused sport ja
suits, siis tuleks tunnuse nimest välja kirjutada sp, et Stata mõistaks, et soovite tunnust
sport kasutada).
browse sp tunnuse sport vaatamine andmetabelis
browse s* kõikide sümboliga s algavate tunnuste vaatamine
Võime uurida ka ainult osasid vaatlusi:
browse in 1 ainult esimese rea vaatamine
browse in 1/5 viie esimese vaatluse vaatamine
browse in -5/-1 viimase viie vaatluse vaatamine
Võime esitada tingimusi loogiliste operaatorite abil käsuosa if järel:
browse if vanus==19 ainult 19-aastaste vastajate andmed
browse if vanus= suurem või võrdne
!= mittevõrdne
& ja
| või
! ei
() sulud, loogiliste operatsioonide kokkusidumiseks
Kõiki neid võimalusi võime omavahel kombineerida.
Ülesanne: Mõtle ja proovi, millise alamosa andmetest saame kätte järgmise käsu abil:
browse kaal pikkus if (sugu==2 & vanus!=20)
-
7
Andmete vaatamiseks saab kasutada ka käsku list. Sel juhul näidatakse andmed tulemuste
aknas (Results).
list
Käsule list saab sarnaselt käsuga browse lisada tingimusi.
Loendamine
Loendamiseks on käsk count, sellele saab lisada täiendusi eelpool nimetatud viisil.
count if vanus==19 mitu 19-aastast vastajat on andmestikus
count if vanus
-
8
Üldiseid õpetussõnu
Stata käsu üldine süntaks on järgmine:
command [varlist][if exp][in range] [,options]
command – käsk (näiteks browse, list, summary, table jne), alati esimesel kohal.
varlist – tunnuste loetelu, millele käsku rakendatakse, kui tunnuse nime pole lisatud, siis
rakendatakse käsku kõikidele tunnustele. Osade käskude puhul siiski peab tunnusenimi olemas
olema (nt käsk table).
if exp – tingimus vaatluste kitsendamiseks (nt rakendatakse käsk ainult naistele; kindlas
vanusevahemikus olevatele isikutele vms), kirjutatakse enne lisaparameetrite koma
in range – kui me tahame käsku rakendada kindlatele vaatlustele (näiteks sajale esimesele
vaatlusele), kirjutatakse enne koma, millele järgnevad lisaparameetrid.
options – lisaparameetrid, kirjutatakse alati peale koma.
Abifailid
Statas saab alati otsida käskude kohta abi. Kui käsu nimetus on teada, siis
help käsk
avab käsu abifaili. Kui täpset käsu nime ei tea, siis saab kasutada otsingut märksõna abil
findit märksõna
Hea tulemuse annab abi otsimine ka interneti otsingumootoreid kasutades (Nt Google’s
sisestada otsisõna Stata variable sort descending).
Lühendamine
Stata lubab nii käske kui tunnusenimesid lühendada. Kõik järgnevad käsud annavad sama
tulemuse
list sugu in 1/10
li sugu in 1/10
l sug in 1/10
Eelmiste käskude kuvamine
Juba sisestatud käske saab taas kuvada käsuaknas PgUp, PgDn klahve kasutades (näiteks juba
sisestatud käsu muutmiseks).
Menüüde kasutamine
Kui käsk kohe meeles ei ole, siis võib sobiva käsu anda menüüst ja siis on juba Review aknas
vajalik käsk olemas.
-
9
Ühemõõtmelised sagedustabelid
Menüüsse Statistics on välja toodud palju erinevaid võimalusi andmeanalüüsiks. Kirjeldavad
statistikud, lihtsamad testid, ühe- ja mitmemõõtmelised tabelid asuvad menüüs Statistics =>
Summaries, tables & tests.
Sagedustabeleid rühmitavate tunnuste uurimiseks saab teha valides menüüst: Statistics =>
Summaries, Tables and tests => Frequency tables => Oneway tables
Avaneb järgmine aken:
Lahtrisse Categorical variable valime tunnuse, millele tahame sagedustabelit teha.
Lisavalikutena on võimalik ära märkida:
Treat missing values like other values – uuritakse ka puuduvate väärtuste hulka
Do not display frequencies – mitte väljastada sagedusi
Display numeric codes rather than value labels – eelistada tunnusel numbrilisi väärtusi
(kui on koodid asendatud sõnaliste selgitustega)
Produce a bar chart of the relative frequencies – joonistatakse tulpdiagramm
(tekstiline, mitte graafik)
Display the table in decending order – sorteeritakse sagedustabel kahanevas järjekorras
Kui valida Subpopulaton variable aknasse tunnus, siis sagedustabelit tehes jäetakse välja vaat-
lused, kus valitud tunnuse väärtus =0.
Kui me soovime leida kirjeldavaid statistikuid gruppide kaupa, siis by/if/in-lehel saab näidata,
milliste tunnuste järgi me soovime grupeerida (nt tunnus sugu)
Teeme linnukese Repeat commands by groups ette. Valime aknakesse Variables that define
groups tunnuse nime sugu. Sinna saab valida ka mitmeid grupeerivaid tunnuseid korraga.
Kui me soovime andmehulka piirata – nt vaadata ainult 2005. aastal vastanud tudengite
andmeid, siis võime If järele kirjutada aasta==2005
Menüüdest tehtud valikud on pärast OK-nupule vajutamist käsurea kujul näha ka Results ja
Review aknas. Uuesti menüüst sama tegevust valides on valikuakendes alles viimati tehtud
valikud.
-
10
Kõike sedasama saame teha ka käsuakna abil. Sagedustabeleid kategooriliste tunnuste uuri-
miseks saab teha käsku tabulate (lühendatult tab) kasutades.
tabulate sugu
tab sugu
Kui soovime mitmele tunnusele järjest ühemõõtmelisi sagedustabeleid teha, siis kasutame
käsku tab1:
tab1 sugu aasta
(menüüst Statistics => Summaries, Tables and tests => Tables => Multiple oneway tables)
Ülesanne: Ava abifail
help tab
ja uuri kuidas on võimalik lisavalikutena ära märkida:
puuduvate väärtuste hulga lisamine tabelile
väljastada väärtused numbrilistena (kui on koodid asendatud sõnaliste selgitustega)
sorteerida sagedustabel kahanevas järjekorras
Näide:
Vaata, mis tulemuse annavad järgmised käsud:
tab alko
tab alko, miss
tab alko, nolab
tab alko, sort
tab alko, miss sort nolab
-
11
Kahemõõtmelised sagedustabelid
Kahemõõtmelise sagedustabeli tegemiseks kasutatakse käsku tabulate. Käsu üldine
süntaks:
tabulate tunnus1 tunnus2 [if] [in] [, options]
Lisaparameetritena (options) saab tellida protsente:
column suhtelised sagedused iga veeru kohta
row suhtelised sagedused iga rea kohta
cell suhtelised sagedused terve tabeli kohta
missing väljastada info ka puuduvate väärtuste kohta
Näiteks: tabulate sugu aasta
(Sama menüüdest: Statistics => Summaries, Tables and tests => Tables => Twoway
tables with measures of summary association)
Soovitavad tunnused valime aknakestesse Row variables ja Column variables. Tulemuseks
saame kahemõõtmelise sagedustabeli. Võimalik on valida tabeli sisu (suhtelised sagedused,
veeru- või reaprotsendid), tunnuste vahelist seost hindavaid näitajaid, vormindada tabeli
välimust (näidata puuduvaid väärtusi, näidata väärtuste märgendeid (labels) või mitte).
-
12
Kirjeldavad statistikud
Kirjeldavad statistikud saab, kui käsuaknasse trükkida:
summarize tunnuste_loetelu
Detailse info saamiseks lisame täienduse detail.
summarize tunnuste_loetelu , detail
Lisada saame ka tingimusi eelpool kirjeldatud viisi.
Näiteks:
summarize pikkus if sugu==2 kirjeldame ainult meestudengite pikkust
bysort sugu: summar pikkus kirjeldavad statistikud grupeeriva tunnuse järgi
bysort sugu: summar pikkus kaal vanus kirjeldavad statistikud rohkem kui
ühe tunnuse jaoks korraga
grupeeriva tunnuse järgi
Sama menüüde abil. Arvulisele tunnusele kirjeldavate statistikute arvutamiseks valime:
Statistics => Summaries, Tables and tests => Summary and descriptive statistics =>
Summary statistics
Variables-aknasse valime tunnuse nime (vt tööakna pilte allpool), sinna saab valida ka mitu
tunnust korraga (järjest klõpsates meid huvitavate tunnuse nimedel); kõikide tunnuste korraga
analüüsimiseks võib aknakesesse kirjutada sümboli * .
Options – saab valida:
Standard display – näidatakse nn standardväljundit, kus on toodud vaatluste arv, keskmine,
standardhälve, miinimum, maksimum;
Display additional statistics – kuvatakse lisaks hulk erinevaid näitajaid;
No display; just calculate mean – arvutatakse lihtsalt keskmine.
Kui me soovime leida kirjeldavaid statistikuid gruppide kaupa, siis by/if/in-lehel saab näidata,
millise tunnuse järgi me soovime grupeerida (nt tunnus sugu). Teeme linnukese Repeat
commands by groups ette. Valime aknakesse Variables that define groups grupeeriva tunnuse
nime (nt sugu). Valida saab ka mitmeid grupeerivaid tunnuseid korraga.
Kui me soovime andmehulka piirata – nt vaadata ainult meestudengite andmeid, siis võime If
järele kirjutada kitsendava tingimuse - nt sugu==2
Menüüdest tehtud valikud on pärast OK-nupule vajutamist käsurea kujul näha ka Results ja
Review aknas. Tehtud viimane valik on uuesti menüüst sama tegevust valides akendes alles.
-
13
Näide:
Arvutame mittesuitsetajate pikkuste kirjeldavad statistikud sugude kaupa kasutades menüüsid.
Tulemus:
=> sugu = naine
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
pikkus | 204 167.9926 5.367866 155 181
----------------------------------------------------------------------
=> sugu = mees
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
pikkus | 70 181.1857 7.016116 163 197
----------------------------------------------------- -----------------
Stata käsk sama analüüsi tegemiseks:
by sugu, sort : summarize pikkus if suits==1
Võrdle järgmiste käskude tulemust eelmisega:
format pikkus %8.1f
by sugu, sort : summarize pikkus if suits==1, format
-
14
Kirjeldavate statistikute tabel
Käsu table abil.
Andmete ülevaatlikumaks esitamiseks on hea teha kirjeldavate statistikute tabeleid. Selleks
kasutame käsku table (sedasama käsku saab kasutada ka lihtsate sagedustabelite
tegemiseks).
Järgnev käsk teeb sagedustabeli tunnuse sugu järgi ning paneb tabelisse vääruste esinemise
sageduse ja arvutab tunnuse kaal keskmise ning standardhälbe.
table sugu, contents(freq mean kaal sd kaal)
Sarnaselt saame leida ka tunnuse mediaani ja kvartiilid klassifitseeriva tunnuse järgi
table sugu, contents(freq median kaal p25 kaal p75 kaal)
Kasutada saab ka kahte klassifitseerivat tunnust
table sugu aasta, contents(freq mean kaal mediaan kaal)
Menüüst valides Statistics => Summaries, Tables and tests => Other tables => Flexible
table of summary statistics (table) :
Käsu tabstat abil.
Sisuliselt sama tulemuse table käsuga, kuid veidi teisel kujul, annab käsk tabstat.
NB! Käsuga tabstat saab kasutada ainult üht klassifitseerivat tunnust.
Näide:
tabstat kaal pikkus, statistics(mean sd)
Sama meeste ja naiste hulgas:
tabstat kaal pikkus, statistics(mean sd) by(sugu)
-
15
Menüüvalikust: Statistics => Summaries, Tables and tests => Tables => Table of means,
st.dev., and frequencies (tabstat)
Komakohtade kaunimaks sättimiseks Option leht:
Tulemus on selline:
Summary statistics: mean, sd
by categories of: sugu (sugu)
sugu | kaal pikkus
-------+--------------------
naine | 58.88 167.90
| 8.10 5.42
-------+--------------------
mees | 77.69 181.24
| 12.91 6.78
-------+--------------------
Total | 64.26 171.66
| 12.91 8.37
----------------------------
-
16
Ülesanne: Proovi teha järgmist kirjeldavate statistikute tabelit:
aasta variable | N mean sd min max
----------------------+--------------------------------------------------
2005 vanus | 177.0 20.5 2.3 18.0 34.0
systoolne | 96.0 116.6 11.7 90.0 140.0
diastoolne | 96.0 73.1 9.5 50.0 90.0
----------------------+--------------------------------------------------
2015 vanus | 131.0 21.2 2.6 18.0 38.0
systoolne | 72.0 114.3 13.0 65.0 140.0
diastoolne | 72.0 71.4 11.7 20.0 100.0
-------------------------------------------------------------------------
Lahendus (kirjuta kõik see samale reale command aknasse):
tabstat vanus systoolne diastoolne, statistics(count mean sd min
max) by(aasta) nototal varwidth(12) columns(statistics)
format(%8.1f)
Ülesanne:
Proovi sama info kätte saada table käsu abil! Kas esineb probleeme? Milliseid?
Graafikud
Graafikute tegemiseks saab Statas kasutada menüüd Graphics. Karpdiagramme saab teha
valiku Boxplot alt, tulpdiagramme ja histogramme valiku Histogram alt ja ringdiagramme
valiku Pie chart alt. Kõike seda saab teha ka järgnevate käskude abil:
Histogramm pideva tunnuse jaotuse kujutamiseks
histogram pikkus
hist pikkus, normal
hist pikkus, normal bin(8)
Karpdiagramm
graph box pikkus
graph box pikkus, over(sugu) over(aasta)
graph box pikkus, by(sugu) over(aasta)
Kvantiil-kvantiil joonis (Q-Q plot)
qnorm pikkus
(Menüüst: Graphics => Distributional plots and tests => Normal quantile plot)
Graafikute kombineerimine. Selleks, et erinevat tüüpi graafikuid ühele paneelilie saada,
tuleb nad eelnevalt valmis teha ja salvestada ja siis kokku kombineerida.
hist pikkus, normal saving(histo)
-
17
graph hbox pikkus, saving(karp)
qnorm pikkus, saving(kvant)
Erinevad käsud graafikute kokku kombineerimiseks. Proovi järle!
graph combine histo.gph karp.gph kvant.gph
graph combine histo.gph karp.gph kvant.gph, rows(3)
graph combine histo.gph karp.gph kvant.gph, cols(1) xsize(8)
ysize(20)
0
.02
.04
.06
.08
Den
sity
150.0 160.0 170.0 180.0 190.0 200.0pikkus
150 160 170 180 190 200pikkus
15
0.0
16
0.0
17
0.0
18
0.0
19
0.0
20
0.0
pik
ku
s
150.0 160.0 170.0 180.0 190.0 200.0Inverse Normal
-
18
Kalkulaator
Kalkulaatori kasutamiseks tuleb kirjutada käsuaknasse (Commands) käsk disp (töötab ka
pikem verisoon display) ja sinna järgi soovitud tehe.
display 2+5 * 2+5
disp 3^2 * 32
disp exp(3) * e3
disp sqrt(16) * ruutjuut 16st
Näiteks: Arvutame 165 cm pikkuse ja 62 kg kaaluva isiku kehamassiindeksi.
disp 62/(165/100)^2
Näpunäiteid
Do-fail käsuridade salvestamiseks
Sageli tekib statistilise analüüsi käigus andmete parandamise vajadus, mille tagajärjel on vaja
kogu või osa analüüsist uuesti teha. Sellisel juhul on mugav, kui töö käigus kasutatud käske
saab uuesti välja kutsuda (ilma neid uuesti kirjutamata või menüüdest valimata). Programmide
salvestamise tarvis on Stata-l olemas eraldi programmiaken, mille saab avada Window => Do-
file editor => New do-file (sama teeb ka klahvikombinatsioon Ctrl+9).
Programmiaknasse saab trükkida käske analoogiliselt käsuaknaga.
Käsu käivitamiseks tuleb see ära märkida ja kasutada klahvikombinatsiooni Ctrl+D. Tulemused
väljastatakse tulemuste aknasse. Kui soovime käsu käivitada nii, et tulemuste aknasse midagi
ei ilmuks, siis Ctrl+R.
Kui rida ära ei märgi, siis Ctrl+D või Ctrl+R vajutamisel käivitatakse terve fail järjest.
Do-faili editoris on pikki käske võimalik poolitada lisades käsu lõppu tühiku järel ///
NB! Käskude poolitamine ei tööta programmi aknas (Command)!
Näiteks:
list if seltskond==2 & ///
onnelik>9, clean
NB! Skriptifail tuleb eraldi salvestada. Stata seda automaatselt ei tee!
-
19
Logifail – Results-akna sisu salvestamine
Salvestada võib ka kogu tööakna sisu – selle jaoks on Statal logifaili võimalus. Uue logifaili
alustamiseks valida File => Log => Begin…
Olemasolevat logifaili valides saab:
olemasolevat logifaili vaadata (view)
jätkata olemasolevat logifaili (append)
kirjutada eelmise faili sisu üle (vana sisu kustub) (overwrite)
Logi salvestamise ajutiselt peatamiseks File => Log => Suspend.
Taas aktiviseerimiseks File => Log => Resume.
Tulemuste salvestamise lõpetamiseks File => Log => Close.
Logifaili vaatamiseks File => Log => View ja tekstifailina salvestamiseks File => Log =>
Translate…
Andmete kustutamine, alleshoidmine, sortimine
drop kustutamine
drop sugu kustutada tunnus sugu (veeru kustutamine)
drop if sugu==“Mees“ kustutada andmestikust kõik mehed (ridade kustutamine)
keep allesjätmine
keep s* aasta vanus teatud veergude allesjätmine
keep if sugu==“Mees“ hoida alles mehed (ridade säilitamine)
keep if sugu!=“Mees“ hoida alles kõik need, kelle sugu ei ole mees
rename skp surmakp tunnuse nime muutmine
sort vanus andmestiku sorteerimine tunnuse vanus järgi (kasvavalt)
gsort üldisem sorteerimine, saab sorteerida ka kahanevalt
(selleks panna tunnuse nime ette “–“ märk)
order andmestikus olevate tunnuste järjekorra muutmine (käsu
järel nimetatud tunnused pannakse esimesele kohale ning
ülejäänud jäävad vanas järjestuses)
-
20
Uute tunnuste moodustamine ja olemasolevate muutmine
generate uute tunnuste tegemiseks
egen extended generate
replace olemasoleva tunnuse väärtuste muutmiseks
Näiteid:
gen kmi = kaal/((pikkus/100)^2) kehamassiindeksi arvutamine
gen iga = „noor“ uus tekstiline tunnus iga, kõik väärtused on “noor”
Uut tunnust saab teha ainult 1 kord! Edasi tuleb olemasolevas tunnuses väärtusi muuta:
replace iga = „mitte noor“ if ///
vanus>21
Dummy variables ehk indikaatortunnused
on 0/1 tunnused. Näiteks küsitlusankeetides mitme valikuvariandiga küsimuste puhul on nad
kohustuslikud, aga mõnikord võib neid vaja minna ka ühe valiku puhul.
Ei/jah ehk 0/1 tunnuse kiiresti tegemine – kirjutada tingimus kohe võrdusmärgi taha!
gen vaga_onnelik = (onnelik>7)
gen viirus2 = inlist(viirus,1,2)
gen vaga_onnelik2 = inrange(onnelik,8,10)
tab1 vaga_onnelik vaga_onnelik2 viirus2
Selgitused:
inlist(viirus,1,2) sama kui if viirus==1 | viirus ==2 ehk
tehakse midagi, kui tunnuse viirus väärtused on 1 või 2
inrange(onnelik, 8, 10) sama kui onnelik>=8 & onnelik
-
21
Näide:
gen pikk = pikkus > 190
replace pikk = . if pikkus == .
Või kirjutada if kohe gen-käsku sisse:
gen pikk2 = pikkus > 190 if pikkus != .
Näide:
tab suits
suitsetamine | Freq. Percent Cum.
------------------------------+-----------------------------------
ei suitseta | 276 87.90 87.90
suitsetan, aga mitte iga päev | 27 8.60 96.50
suitsetan iga päev | 11 3.50 100.00
------------------------------+-----------------------------------
Total | 314 100.00
Teeme nüüd suitsetamisele indikaatortunnused
gen mittesuitsetaja = suits == 1
gen juhusuitsetaja = suits == 2
NB! Igapäevasuitsetajale pole enam indikaatortunnust vaja, sest kui tudeng ei ole antud juhul
mittesuitsetaja või juhusuitsetaja, siis on ta igapäevasuitsetaja.
Teine variant indikaatortunnuste tegemiseks:
tab suits, gen(suitsetaja) tehakse tunnused suitsetaja1, suitsetaja2 jne ehk
täpselt niipalju, kui on vastusevariante. Antud
juhul siis teeb Stata automaatselt 3 indikaatorit –
iga suitsetamise taseme jaoks ühe.
-
22
Extended generate
Näide:
Tunnused kiirabi, haigla ja (koolist/töölt) puudunud näitavad, erinevaid meditsiiniteenuste
vajamise viise. Saame kokku lugeda mitu vastust vastaja on ära märkinud:
egen med_arv = rowtotal(haigla kiirabi puudunud)
Veel võimalusi:
rowtotal arvutab summa igas reas (üle loetletud tunnuste, puuduvaid väärtuseid
käsitletakse nullidena.)
rowmiss puuduvate väärtuste arv reas (üle loetletud tunnuste)
rownonmiss mittepuuduvate väärtuste arv reas (üle loetletud tunnuste)
rowmean arvutab keskmise üle rea ((üle loetletud tunnuste), puuduvaid väärtuseid
ignoreeritakse)
rowmin arvutab miinimumi reas (üle loetletud tunnuste)
rowmax arvutab maksimumi reas (üle loetletud tunnuste)
sd arvutab standardhälbe reas (üle loetletud tunnuste)
Rohkemate võimaluste jaoks uuri help egen
Tunnuse ümberkodeerimine
Valides menüüst Data => Create or change variables => Other variable transformation
commands => Recode categorical variables avaneb aken, mille abil on võimalik tunnust
ümber kodeerida.
Näide: Seitsmeväärtuselise suitsetamise tunnuse kodeerimine kolmeväärtuseliseks:
-
23
Main tab-ilt sisestame kodeerimiseks vajaliku info (kodeeritava tunnuse nime ja
ümberkodeerimise reeglid):
Selleks, et vältida originaalandmete ülekirjutamist salvestame ümberkodeeritud tunnuse uue
nime all, selleks valime Options tab-ilt Generate new variable ja sisestame aknakesse
loodavale tunnusele uue nime.
Seejärel tuleb vajutada nupule OK.
Sama töö oleks ära teinud ka käsuaknasse (Commands) sisestatud rida (kirjuta samale reale):
recode suits (1/2 = 1 "mittesuitsetaja") (3/4 = 2 "ebaregulaarne
suitsetaja") (5/7 = 3 "regulaarne suitsetaja"), generate(suits2)
Tunnuste loetelus (STATA aken Variables) näeme nüüd uut loodud tunnust. Edasi saame uut
tunnust kasutada nagu andmestikus algselt olevaid tunnuseidki.
Selle tunnuse nimi,
mida soovime
ümber kodeerida Näited
vanade väärtuste 1 kuni 2 muutmine
väärtuseks 1, lisame kirjelduse
„mittesuitsetaja”
-
24
Ülesanne:
Kodeeri kehamassiindeks (tunnus kmi) neljaväärtuseliseks vastavalt WHO kriteeriumitele:
Kehamassiindeks alla 19 – alakaal
Kehamassiindeks 19-24,9 – normaalkaal
Kehamassiindeks 25-29,9 – ülekaal
Kehamassiindeks üle 30 – rasvumine
Tulemus peaks olema järgmine:
KMI rühmad | Freq. Percent Cum.
------------+-----------------------------------
alakaal | 51 16.45 16.45
normaalkaal | 223 71.94 88.39
ülekaal | 29 9.35 97.74
rasvumine | 7 2.26 100.00
------------+-----------------------------------
Total | 310 100.00
-
25
Usaldusintervallide arvutamine
Usaldusintervallide arvutamiseks Statas vali menüüst Statistics => Summaries, tables and
tests => Summary and descriptive statistics. Edasi on menüüs 4 valikut:
Confidence intervals usaldusintervallid andmestikult
Normal CI calculator usaldusintervalli kalkulaator normaaljaotusega tunnusele
Binomial CI calculator usaldusintervalli kalkulaator binoomjaotusega tunnusele
Poisson CI calculator usaldusintervalli kalkulaator Poissoni jaotusega tunnusele
Esimene neist on andmestiku põhjal usaldusintervallide leidmine. Ülejäänud on kiirkäsud –
sisestame vaid koondandmed (normaaljaotuse puhul keskmise, standardhälbe ja valimi suuruse;
binoomjaotuse puhul katsete arvu ja sündmuste arvu, Poissoni puhul riskiaeg ja sündmuste arv).
Andmestikust usaldusintervalli arvutamiseks tuleb sisestada tunnusenimi ja tüüp (vaikimisi
normaaljaotusega). Binoomjaotusega tunnusele usaldusintervalli leidmiseks peab tunnus olema
kodeeritud kui 0-1.
Usaldusintervalli leidmiseks tunnuse keskväärtusele või
protsendile ava menüü: Statistics => Summaries, tables
and tests => Summary and descriptive statistics =>
Confidence intervals. Sisesta tunnuse nimi (Variables),
tunnuse tüüp (Variable type, vali kas tegemist on
normaaljaotusega tunnusega või soovite protsendile
usaldusintervalli) ja usaldusintervalli laius (Confidence
level, vaikimisi 95% UI).
Usaldusintervalli leidmiseks käskude abil on käsud
ci (tunnustele arvutamiseks) ja cii (koondandmetelt
arvutamiseks).
-
26
ci means tunnuste_loetelu normaaljaotusega tunnustele
ci means tunnuste_loetelu, poisson poissoni jaotusega tunnustele
ci prop tunnuste_loetelu binoomjaotusega tunnustele (protsendile)
Kiirkäsud koondandmetelt usaldusintervalli arvutamiseks
cii means valimi_suurus keskmine standardhälve normaaljaotusega tunnusele
cii means riskiaeg sündmuste arv poissoni jaotusega tunnusele
cii prop vaatluste_arv sündmuste_arv binoomjaotusega tunnustele (protsendile)
Näide:
ci means pikkus 95% usaldusintervall pikkusele
ci means pikkus, level(90) 90% usaldusintervall pikkusele
-
27
Statistiline testimine
Erinevate olukordade lahendamiseks kasutame erinevaid teste. Testid, mida selles juhendis
tutvustatakse, asuvad Statas peamiselt kolmes menüüs:
Jaotuse eeldusel põhinevad testid (t-test, ANOVA, paariviisiline t-test, protsentide
võrdlemine)
Statistics => Summaries, Tables and tests => Classical test of hypothesis
Mitteparameetrilised e järjestusel põhinevad testid (Wilcoxoni astaktest e Mann-Whitney
test, Kruskal-Wallise test, Wilcoxoni astakmärgitest)
Statistics => Summaries, Tables and tests => Nonparametric test of hypothesis
Sagedustabelitel põhinevad seosetestid – hii-ruut test ja Fisheri test
Statistics => Summaries, Tables and tests => Tables
Statistiliste testide koondtabel
Võrdlusaluse
tunnuse tüüp
Tööhüpotees Jaotuse eeldusel
põhinev test
Mitteparameetriline test
Arvuline H1: grupi keskmine
on muutunud (ajas)
paaris t-test
(one Sample t-test,
paired t-test)
ttest
Wilcoxoni märgitest
(Wilcoxon sign test,
Wilcoxon signed rank test)
signrank
Arvuline H1: kahe grupi
keskmised tasemed
on erinevad
Studenti t-test
(two-sample t-test,
unpaired t-test)
ttest
Wilcoxoni astaktest (Mann-
Whitney (U) test )
(Wilcoxon ranksum test)
ranksum
Arvuline H1: kolmest või
enamast grupist
vähemalt kahe
keskmised tasemed
on erinevad
ANOVA
oneway
Kruskal-Wallise test
kwallis
Binaarne H1: sündmuse
esinemise protsent
kahes grupis on
erinevad
Z-test
prtest
Fisheri test
tab..., exact
Nominaalne H1: kahest või
enamast grupist
vähemalt kahes on
sündmuse esinemise
sagedus erinev
Hii-ruut test
(Chi-square test)
tab..., chi2
Fisheri test
tab..., exact
-
28
Ühe valimi t-test
Keskmise võrdlemine mingi kindla väärtusega (näiteks vererõhu muutus=0)
Menüüdest valides: Statistics => Summaries, Tables and tests => Classical test of
hypothesis => One-sample mean-comparison test
Main-tab: Variable name: sisestada tunnuse nimi
Hypothesized mean: võrdlusaluse väärtuse.
Samade isikute keskmise taseme muutuse võrdlemine (nt vererõhk enne vs vererõhk pärast)
Menüüdest valides: Statistics => Summaries, Tables and tests => Classical test of
hypothesis => Mean-comparison test, paired data
Main-tab: First variable: sisestada esimese tunnuse nimi
Second variable: sisestada teise tunnuse nimi
Sama käsurealt:
ttest tunnuse_nimi == oletatav_keskmine_väärtus
ttest tunnuse1_nimi == tunnuse2_nimi
Kiirkäsuna (koondandmetelt):
ttesti vaatluste_arv keskmine standardhälve oletatav_keskmine_väärtus
T-test valimite keskmiste võrdlemiseks
Menüüdest: Statistics => Summaries, Tables and tests => Classical test of hypothesis =>
Group mean comparison
Main-tab: Variable name: tunnuse nimi
Group variable name: grupeeriva tunnuse nimi
Käsurealt:
ttest tunnuse_nimi, by(grupeeriva_tunnuse_nimi)
T-test valimi keskmisele, kui standardhälbed on erinevad:
ttest tunnuse_nimi, by(grupeeriva_tunnuse_nimi) unequal
Kahe valimikeskmise võrdlemise kalkulaator (koondandmete jaoks):
ttesti vaatluste_arv1 keskmine1 sd1 vaatluste_arv2 keskmine2 sd2
-
29
-
30
Wilcoxoni astaktest valimite keskmiste võrdlemiseks
Menüüdest: Statistics => Summaries, Tables and tests => Nonparametric test of hypothesis
=> Mann-Whitney two-sample ranksum test
Main-tab: Variable : tunnuse nimi
Grouping variable: grupeeriva tunnuse nime
Käsurealt sisestades:
ranksum tunnuse_nimi, by(grupeeriva_tunnuse_nimi)
Näide: Kas tarvitatud alkoholikogus on erinev mees- ja naistudengitel
ranksum alkokogus, by(sugu)
Kahe grupi protsentide võrdlemine
NB! Võrdlusalune tunnus peab olema kodeeritud kui 0-1. Näiteks kui tahame viirushaigusesse
haigestunute hulka meeste ja naiste seas võrrelda, siis peab viirus olema kodeeritud 0-1
väärtustele.
Menüüdest valides: Statistics => Summaries, Tables and tests => Classical test of
hypothesis => Proportion test
Main-tab: Variable name: tunnuse nimi (näiteks viirus)
Group variable name: grupeeriva tunnuse nime (näiteks sugu).
Käsurealt
prtest tunnuse_nimi, by(grupeeriva_tunnuse_nimi)
Kiirkäsuna koondandmetelt arvutamiseks:
prtesti vaatluste_arv1 sündm_tõen1 vaatluste_arv2 sündm_tõen2
Näide: Kas meeste ja naiste seas on viimase 12 kuu jooksul kiirabi vajanute hulk erinev.
prtest kiirabi, by(sugu)
-
31
Rohkem kui kahe grupi keskmiste võrdlemine
Normaaljaotusega tunnus - dispersioonanalüüs ehk ANOVA
Kui meil on vajadus võrrelda omavahel enam kui kahe grupi keskmisi väärtusi, siis selle jaoks
kasutame dispersioonanalüüsi ehk ANOVA-t. Dispersioonanalüüsi abil testime nullhüpoteesi,
et kõikide gruppide keskmised on omavahel võrdsed ja alternatiivseks hüpoteesiks on, et
vähemalt kahe grupi keskmised on omavahel võrdsed.
Lihtsa dispersioonanalüüsi saame teha:
oneway tunnuse_nimi grupeeriva_tunnuse_nimi
Gruppide omavaheliseks paariviisiliseks võrdluseks koos Bonferroni parandusega:
oneway tunnuse_nimi grupeeriva_tunnuse_nimi, bonferroni
Menüüdest: Statistics => Linear models and related => ANOVA/MANOVA => One-way
ANOVA
Mittenormaaljaotusega pidev tunnus – Kruskal-Wallise test
Kui võrdlusaluse tunnuse normaaljaotuse eeldus ei kehti, siis kasutame gruppidevahelise
võrdluse tegemiseks Kruskal-Wallise testi:
kwallis tunnuse_nimi, by(grupeeriva_tunnuse_nimi)
Menüüdest: Statistics => Nonparametric analysis => Tests of hypotheses => Kruskal-
Wallis rank test
Olulise erinevuse ilmnemisel tuleb edasi teha paariviisilised võrdlused koos Bonferroni
parandusega.
Näide:
oneway kaal oues, bonferroni dispersioonanalüüs koos paariviisiliste
võrdlusega
kwallis kaal, by(oues)
-
32
Kahe pideva tunnuse vaheline seos – korrelatsioon
Hajuvusgraafik
Kahe pideva tunnuse vahelise seose visuaalseks kujutamiseks sobib hästi hajuvusdiagramm
(scatter plot). Selle tegemiseks kasutatakse Statas käsku
scatter tunnus1 tunnus2 või twoway scatter tunnus1 tunnus2
Vaatlust tähistava sümboli muutmiseks
twoway scatter tunnus1 tunnus2, msymbol(x)
Erinevate markerite ja nende suuruste uurimiseks kasuta käske
help symbolstyle
help markersizestyle
Et teha erinevad joonised grupeeriva tunnuse järgi (näiteks sugu)
twoway scatter tunnus1 tunnus2, by(grupeeriv_tunnus)
Näide:
twoway scatter kaal pikkus, by(sugu)
Erinevate punktide eristamiseks samal joonisel tuleb meil teha nn „kihiline“ joonis (näiteks
pikkuse ja kaalu joonis meestel-naistel – kõigepealt joonistame naistudengite vaatlused ja
seejärel uuele kihile meestudengite vaatlused). Lisatud on ka legend.
twoway (scatter kaal pikkus if sugu==1) (scatter kaal pikkus if
sugu==2), legend(label(1 "naine") label(2 "mees"))
Täiendame eelmist käsku nii, et mehed oleks joonisel kujutatud rombide ja naised kolmnurkade
abil (command-aknas kirjuta kogu käsk ühele reale):
twoway (scatter kaal pikkus if sugu==1, msymbol(T))
(scatter kaal pikkus if sugu==2, msymbol(D)),
legend(label(1 "naine") label(2 "mees"))
Lineaarse sirge joonistamiskes läbi punktipilve tuleb samuti kasutada „kihilist“ joonist
twoway (scatter kaal pikkus)(lfit kaal pikkus)
Hajuvusdiagrammide maatriksi joonistamine:
graph matrix kaal pikkus jalg jalats
-
33
Korrelatsioonikordaja
Korrelatsioonikordajaid saab leida järgmiste käskudega (käsu nime järele tuleb kirjutada ka
tunnuste nimed, mille hulgas korrelatsioone soovitakse leida):
correlate Pearsoni korrelatsioonikordaja
pwcorr Pearsoni korrelatsioonikordaja, puuduvate väärtuste paariviisiline kustu-
tamine. Korrelatsiooni leidmisel kustutatakse ära puuduvad väärtused
tunnusepaaride kaupa. Kasutatakse, kui andmestikus on palju puuduvaid
väärtusi.
spearman Spearmanni korrelatsioonikordaja, kasutatakse, pidev tunnus pole
normaaljaotusega.
ktau Kendalli tau, kasutatakse, kui tunnus pole normaaljatusega,
Menüüdest saab valida vaid Pearsoni korrelatsioonikordaja:
Statistics => Summaries, tables and tests => Summary and descriptive statistics =>
Correlations and covariances
Statistics => Summaries, tables and tests => Summary and descriptive statistics => Pairwise
correlations
Näiteks:
corr pikkus kaal
pwcorr pikkus kaal jalg jalats, sig
spearman pikkus kaal
ktau pikkus kaal
-
34
Ülesanne Kümnele hüpertriglütserideemiaga patsiendile määrati raviks vastav dieet. Enne
dieedi alustamist mõõdeti patsientidel kolesterooli ja triglütseriidide hulk veres. Tulemused olid
järgmised: (loeme need Statasse input käsuga. Võid kasutada do-faili input01.do)
input id Chol TG
1 5.12 2.30
2 6.18 2.54
3 6.77 2.95
4 6.65 3.77
5 6.36 4.18
6 5.90 5.31
7 5.48 5.53
8 6.02 8.83
9 10.34 9.48
10 8.51 14.2
end
a. Joonista hajuvusdiagramm!
b. Kas hajuvusdiagrammilt paistab enne dieeti kolesterooli ja triglütseriidide vahel olevat
lineaarne seos? Üldse mingi seos?
c. Arvuta Pearsoni korrelatsioonikordaja.
d. Testi nullhüpoteesi H0: Pearsoni korrelatsioonikordaja võrdub nulliga. Mida järeldad?
e. Arvuta ka Spearmani korrelatsioonikordaja.
f. Võrdle Pearsoni ja Spearmani korrelatsioonikordajaid – kas on sarnased? Erinevad?
g. Testi ka nullhüpoteesi H0: Spearmani korrelatsioonikordaja võrdub nulliga. Mida nüüd
järeldad?
Vihjed:
plot Chol TG
scatter Chol TG
corr Chol TG
pwcorr Chol TG, sig
spearman Chol TG
-
35
Seosed sagedustabelis 2-test ja Fisheri test
Seoste uurimiseks kahemõõtmelises sagedustabelis kasutatakse käsku tabulate (seesama,
millega saab teha kahemõõtmelisi sagedustabeleid). Käsu üldine süntaks:
tabulate tunnus1 tunnus2 [if] [in] [, options]
Lisaparameetritena (options) saab tellida protsente, oodatavaid väärtusi, hii-ruut testi, Fisheri
testi.
chi2 Hii-ruut test
exact Fisheri test
column suhtelised sagedused iga veeru kohta
row suhtelised sagedused iga rea kohta
cell suhtelised sagedused terve tabeli kohta
expected oodatavad sagedused, kui ridade-veergude jaotus oleks sama
missing väljastada info ka puuduvate väärtuste kohta
Sama menüüst: Statistics => Summaries, Tables and tests => Frequency tables =>
Twoway tables with measures of summary association
Soovitavad tunnused valime aknakestesse Row variables ja Column variables. Tulemuseks
saame kahemõõtmelise sagedustabeli. Võimalik on valida tabeli sisu (suhtelised sagedused,
veeru- või reaprotsendid), tunnuste vahelist seost hindavaid näitajaid, vormindada tabeli
välimust (näidata puuduvaid väärtusi, näidata väärtuste märgendeid (labels) või mitte).
-
36
Kui me soovime korraga teha rohkem kahemõõtmelisi sagedustabeleid, siis võib menüüst
valida Statistics => Summaries, Tables and tests => Tables => All possible twoway
tabulations (käsurealt sisestades tab2)
2-ruut testi saab kasutada ka kiirkäsu või kalkulaatorina, kus tabel sisestatakse reakaupa,
ridade eraldajatena kasutatakse tagurpidi kaldkriipsu. Lisaparameetrid pannakse sarnaselt.
Näide: seos soo ja tervisehinnangu vahel
tabi 83 404 161 \ 35 105 50, row chi2
Fisheri testi tegemiseks kirjutatakse lisaparameetriks exact.
tabi 83 404 161 \ 35 105 50, exact
-
37
Seosed 2x2-tabelis – šansside suhe, riskide suhe
Šansisuhte leidmiseks kasutatakse Statas käske cc (case-control) ja riskisuhte leidmiseks cs
(cohcort study). Käskude süntaks on omavahel sarnane:
cs väljundtunnus ekspositsioonitunnus
cc väljundtunnus ekspositsioonitunnus
Nii väljundtunnus, kui ka ekspositsioonitunnus peavad olema kodeeritud kui 0-1, kus 1 näitab
vastavalt riskiteguri ja väljundi olemasolu.
Šansside ja riskide suhet saab arvutada ka koondandmetelt (nn 2x2 tabeli pealt) kasutades käske
csi a c b d
cci a c b d
Kus a c b d on sagedused 2x2 tabelist:
Väljund + Väljund -
Ekspositsioon + a b
Ekspositsioon - c d
Näide: Aastal 2006 viidi TÜ arstiteaduskonna 2. kursuse tudengite seas läbi randomiseeritud
uuring, kus pooled osalejad said tassi tavalist kohvi ja pooled kofeiinivaba. Veidi aega pärast
kohvijoomist paluti tudengitel lahendada üks arvutusülesanne. Järgnevas tabelis on toodud
andmed kohvijoomise ja arvutusülesande õige lahenduse vahel.
Arvutusülesande õige
lahendus
Kohv
Jah Ei
Kofeiiniga 40 28
Kofeiinivaba 33 28
Leiame STATA kalkulaatori abil leidke 95% usaldusintervalli šansside suhtele ja suhtelisele
riskile:
csi 40 28 33 28, or
-
38
Sisukord
Alustamine, tööakna tutvustus ................................................................................................... 1 Näiteks kasutatavad andmestikud .......................................................................................... 2
Töökataloog ............................................................................................................................ 3 Juba varem Statasse imporditud andmestiku avamine ........................................................... 3 Esimene pilk andmestikule, tingimused ................................................................................. 4 Üldiseid õpetussõnu ............................................................................................................... 8 Abifailid ................................................................................................................................. 8
Lühendamine .......................................................................................................................... 8 Eelmiste käskude kuvamine ................................................................................................... 8 Menüüde kasutamine .............................................................................................................. 8
Ühemõõtmelised sagedustabelid ................................................................................................ 9 Kahemõõtmelised sagedustabelid ............................................................................................ 11
Kirjeldavad statistikud .............................................................................................................. 12 Kirjeldavate statistikute tabel ................................................................................................... 14
Graafikud .................................................................................................................................. 16
Kalkulaator ............................................................................................................................... 18 Näpunäiteid .............................................................................................................................. 18
Do-fail käsuridade salvestamiseks ....................................................................................... 18
Logifail – Results-akna sisu salvestamine ........................................................................... 19 Andmete kustutamine, alleshoidmine, sortimine ................................................................. 19 Uute tunnuste moodustamine ja olemasolevate muutmine .................................................. 20
Dummy variables ehk indikaatortunnused ............................................................................ 20 Extended generate ................................................................................................................ 22
Tunnuse ümberkodeerimine ................................................................................................. 22 Usaldusintervallide arvutamine ................................................................................................ 25 Statistiline testimine ................................................................................................................. 27
Statistiliste testide koondtabel .............................................................................................. 27 Ühe valimi t-test ................................................................................................................... 28
T-test valimite keskmiste võrdlemiseks ............................................................................... 28 Wilcoxoni astaktest valimite keskmiste võrdlemiseks ......................................................... 30 Kahe grupi protsentide võrdlemine ...................................................................................... 30
Rohkem kui kahe grupi keskmiste võrdlemine ................................................................... 31 Kahe pideva tunnuse vaheline seos – korrelatsioon ................................................................. 32
Hajuvusgraafik ..................................................................................................................... 32 Korrelatsioonikordaja ........................................................................................................... 33
Seosed sagedustabelis 2-test ja Fisheri test ............................................................................ 35 Seosed 2x2-tabelis – šansside suhe, riskide suhe ..................................................................... 37
-
39
Stata käskude loend
bonferroni, 31
browse, 4, 5
bysort, 12
cc, 37
cci, 37
chi2, 35
ci, 25
cii, 25
codebook, 5
correlate, 33
count, 7
cs, 37
csi, 37
describe, 4
display, 18
do-fail, 18
drop, 19
egen, 20, 22
exact, 27, 35
expected, 35
findit, 8
format, 13
generate, 20
graph box, 16
graph combine, 17
graph matrix, 32
gsort, 19
help, 8
if, 7, 8
in, 8
inlist, 20
input, 34
inrange, 20
keep, 19
ktau, 33
kwallis, 27, 31
legend, 32
list, 7
loendamine, count, 7
loogilised
operaatorid, 6
markersizestyle, 32
missing, 6
msymbol, 32
oneway, 27, 31
order, 19
prtest, 27, 30
prtesti, 30
pwcorr, 33
ranksum, 27, 30
recode, 23
rename, 19
replace, 20
rowmax, 22
rowmean, 22
rowmin, 22
rowmiss, 22
rownonmiss, 22
rowtotal, 22
scatter, 32
sd, 22
signrank, 27
sort, 19
spearman, 33
summarize, 5, 12
symbolstyle, 32
tab1, 10
tab2, 36
tabi, 36
table, 14
tabstat, 14
tabulate, 10, 11, 35
ttest, 27, 28, 29
ttesti, 28
twoway, 32
use, 3