Slides Tutorial Stata
Embed Size (px)
Transcript of Slides Tutorial Stata

05/04/2011
1
Profª Drª Alcione Miranda dos SantosDepartamento de Saúde Pública – UFMA
Programa de Pós-Graduação em Saúde Coletiva-UFMA
INTRODUÇÃO AOINTRODUÇÃO AO
Por que STATA?� Muitos dos pacotes estatísticos são bastante extensos
em termos de opções de análise disponíveis.
� Alguns são mais voltados para áreas específicas.�
� O STATA tem recursos para trabalhar por meio daInternet.
� Site: www.stata.com
� O STATA já está em sua versão 11.0.

05/04/2011
2
Iniciando o STATA
� Command – entrada dos comandos STATA.
� Results – mostra o comando que você digitou e o respectivoresultado. (Se “more” é apresentado, pressione ‘enter’ paracontinuar os resultados ou ‘q’ para sair).
� Review – mostra o histórico dos comandos digitadosrecentemente.
� Variables – lista as variáveis contidas na base de dados.
� Data Editor – mostra a base de dados atual em forma deuma planilha. Esta janela pode ser fechada posteriormente.
� Graph – apresenta os resultados dos gráficos.
Quando iniciamos o STATA, várias janelas aparecem:

05/04/2011
3
Introdução aos comandos do STATA
� Todos os comandos do STATA devem ser digitadosem letras minúsculas.
� O programa é sensível a letras maiúsculas eminúsculas, ou seja
Sexo ≠ sexo
� Muitos comandos podem ser abreviados (porexemplo:
� summary summ
� tabulate tab
� describe desc
� Existem duas maneiras de trabalhar com o STATA:
� Modo interativo: Comandos podem ser digitadosdiretamente na janela Command e executadospressionando Enter.
� Modo em lote: Comandos podem ser escritos em umarquivo separado (chamado arquivo do) e executadoem uma única vez.
� Primeiramente, usaremos o modo interativo para osexercícios, posteriormente veremos como criararquivos do.
Introdução aos comandos do STATA

05/04/2011
4
� Para saber qual diretório está sendo usado,digite pwd
pwd
D:\stata10\Stata10
� Para criar um diretório, use o comandomkdir
mkdir aulas
cd aulas
pwd
D:\stata10\Stata10\aulas
Introdução aos comandos do STATA
EXERCÍCIO 1: Conhecendo o STATA
� Abra o programa Stata 10.0� Identifique as janelas: Results, Command, Review,
Variables.
� Abra o editor de dados ( ) e tente entrar comalguns valores (digite os valores e pressioneEnter).
� Feche o editor de dados e então digite ocomando clear na janela Command.
� Clique no ícone Help (Help � Contents).

05/04/2011
5
Abrindo a base de dados
O STATA pode ler os seguintes tipos de arquivos:
.dta – formato Stata
.txt - formato ASCII (text)
.raw – formato ASCII (text)
.xls – formato Excel
� Base de dados criada no STATA tem a extensão .dta.
� Para acessar o arquivo existente (por exemplo, filename.dta) selecionando File � Open ou digitando:
use filename, clear
� Se o nome do arquivo contém espaços em branco, ele deve ser colocado entre aspas.
Abrindo a base de dados

05/04/2011
6
� O STATA mantém a base de dados na memória.
� Se você estiver trabalhando com uma base de dados, edesejar trabalhar com outra base, é preciso remover abase de dados atual da memória, para isto digite clear
� Para grandes bases de dados, faz-se necessárioaumentar o limite de memória do STATA (o padrãoé 1 megabyte).set memory #
# representa o número de kilobytes (k), megabytes (m) ougigabytes (g).
Abrindo a base de dados
� Por exemplo:set memory 100m
� Por default, STATA assume que todos os arquivosestão emc:\data.
� Para mudar o diretório digite:cd nomedapasta
� Se o nome da pasta contém espaços em branco,ele deve ser colocado entre aspas.
Abrindo a base de dados

05/04/2011
7
� Se uma base de dados já está na memória (e não énecessário salvá-lo), limpe a memória com a opçãoclear
� Para salvar a base de dados, clique em oudigite:save filename, replace
� Use a opção replace se você deseja substituir abase de dados existente no STATA (.dta).
Salvando a base de dados
� Existem várias maneiras de inserir dados noSTATA, a escolha depende da natureza dosdados.� Entrada manual: digitando ou colando os dados
dentro do editor de dados.
� Usando arquivo no formato ASCII (por exemplo,arquivos txt)
�Uso de outros programas que criam base dedados no formato do STATA (ex: SAS, SPSS)
Criando a base de dados no STATA

05/04/2011
8
Usando arquivos ASCII
� A base de dados deve estar no formato ASCII(texto).
� Se você usou o EXCEL para criar a base de dados,salve o arquivo como texto (.txt), e não como .xls.
� Opções:� Dados sem formatação (i.e. as colunas são
separadas por espaço, tabulação ou vírgula): useinfile ou insheet.
�Dados com formatação(i.e. dados com colunasfixas): use infix.
Abrindo dados sem formatação
� Você pode usar insheet quando a base dedados foi criada em um pacote computacionalque utiliza planilhas, por exemplo Excel:insheet using nomedoarquivo
� A primeira linha da base de dados deve conter onome das variáveis.
� Podemos também usar infile para base dedados com outros formatos, mas necessitaespecificar todas as variáveis.

05/04/2011
9
EXERCÍCIO 2� Crie uma pasta para guardar as bases de dados
criadas no STATA (c:\statadados) e mude odiretório usando o comando cd
� Use insheet para ler a base de dados:pediatrics.txt
� Salve o arquivo (no seu diretório de trabalho)como
“pediatrics.dta”
Rotulando as variáveis� Rótulo (label) é uma descrição de uma variável em
até 80 caracteres.
� Útil quando construímos gráficos, etc.
� Para criar rótulos para as variáveis, clique duas vezesna coluna da variável a ser rotulado ou digite:
label variable nomevar “label”
� Rótulos para valores numéricos também podem serdefinidos.

05/04/2011
10
Rotulando as variáveis
� Exemplos:
label variable idade “Idade dos pacientes(anos)”
label variable sexo “Sexo dos pacientes”
� Os rótulos também ajudam a lembrar o significado dos códigos de 0 e 1, definidos para determinada variável categórica.
Definindo os rótulos� Dois passos para criar rótulos para os códigos da variável:
label define nomelabel 0 “label" 1“label"
label values nomevar nomelabel
� Exemplo:
label define sex 1 “feminino” 0 “masculino”
label values sexo sex
Nota: Para modificar um rótulo uselabel define nomelabel 0 “label" 1“label”, modify

05/04/2011
11
Arquivos Log� Todos os comandos do STATA e seus resultados
(exceto gráficos) são guardados em um arquivo log.
� Ao iniciar uma sessão no STATA, é aconselhável abrir um arquivo log, usando o comando:log using nomearquivo
(onde nomearquivo é escolhido pelo usuário)
� Para fechar o log, digite:log close
Criando arquivos Log
log using c:\pasta1\resulta_1.txt,text
Cria o arquivo “resulta_1.txt” e salva os resultados no formato texto.
log using c:\pasta1\resulta_1.txt,text replace
Grava o conteúdo do arquivo “resulta_1.txt” com os novos resultados
log using c:\pasta1\resulta_1.txt,text append
Adiciona novos resultados no final do arquivo “resulta_1.txt”

05/04/2011
12
Formatos das variáveis
� Todas as variáveis são formatadas por valoresnuméricos (real) ou alfanuméricos (string).
� Você identificar o formato da variável pela cor:preto para numérica e vermelho paraalfanumérica.
� Alternativamente, podemos ver o tipo davariável digitando: describe
Examinando os dados
� codebook é útil para verificar erros nos dados.Fornece informação de cada variável comrelação ao tipo, rótulo, valores ausentes, etc.
� Alternativamente, list permite o usuário ver abase de dados para inspeção.
� Os comandos codebook e list podem serrestritos a variáveis específicas ou obervações.

05/04/2011
13
Examinando os dados� Utilizando o comando codebook
Examinando os dados� Usaremos os seguintes comandos
� Informações das variáveis e estatísticas descritivas� describe – propriedades de cada variável� list – mostra os dados� summarize – medidas descritivas� tabulate – constrói tabelas de frequências
� Gráficos� scatter – diagrama de dispersão� line – gráfico de linhas� hist – histograma� graph box – box plot� graph bar – gráfico de barras� graph pie – gráfico de setores

05/04/2011
14
Examinando os dados� Comando describe ou desc
Examinando os dados� Comando list

05/04/2011
15
Analisando os dados
� summarize - mostra o número de casos,média, desvio padrão, mínimo e máximo.
� sum - modo abreviado de summarize.
� sum nomevar, detail - mostra os percentis,coeficiente de curtose, coeficiente de assimetriada variável nomevar
Analisando os dados

05/04/2011
16
Analisando os dados
� Para produzir tabelas de frequências, usamos ocomando
tabulate nomevar
Analisando os dados
� O comando tabulate nomevar1 nomevar2
constrói uma tabela de contingência para duasvariáveis.

05/04/2011
17
Analisando os dados
� Para mostrar o número de casos e porcentagem,devemos usar um dos comandos:
tabulate nomevar1 nomevar2,row
tabulate nomevar1 nomevar2,col
� Caso deseja-se apresentar a frequência de valoresausentes (missings), digite:
tabulate nomevar1 nomevar2,missing
Analisando os dados

05/04/2011
18
Analisando os dados
� Algumas vezes, desejamos representar as frequênciasde uma variável para cada valor de outra variável.
� Por exemplo, queremos analisar a variável idade porsexo. Para isto, usamos o comando
by sexo:summary idade
� Antes de usar o comando by, precisamos ordenar osvalores da variável sexo. Para isto, usa-se o comando
sort sexo
Analisando os dados

05/04/2011
19
Analisando os dados
Operadores matemáticos e lógicos
• + soma• sqrt() raiz quadrada• > maior que• - diferença• exp() exponencial• >= maior ou igual que• / divisão• < menor que• * multiplicação
• ~ negação• <= menor ou igual que• ^ potência• & e• == igual • ln() logaritmo natural• | ou• ~= diferente• != diferente

05/04/2011
20
Transformações de variáveis� Novas variáveis podem ser criadas usando o comando
generate:generate novavar = expressão
� expressão pode conter funções ou combinações de variáveisexistentes, por exemplo:gen imc=peso/altura^2
� replace pode ser usado para mudar o conteúdo da variávelexistente:replace oldvar = expressao1 [if expressao2]
� Qualquer função pode ser usada com generate ou comreplace.
� if é usado para restringir o comando a um subconjunto de observações:replace idade=. if idade==999
� Note que dois sinais de igualdade == são usados para testar a igualdade, enquanto um sinal = é usado para atribuir o valor.
� Operadores lógicos também podem ser usado após if:� & denota “and”� | denota “or”� ~ or ! denota “not” (ex: ~= significa “diferente de”)
Transformações de variáveis

05/04/2011
21
� Por exemplo, para criar uma variável dummy use:
gen sobrepeso=0
replace sobrepeso=1 if imc>=25.0 & imc<29.9
� Uma simples alternativa para o código acima é:
gen sobrepeso=(imc>=25.0 & imc<29.9)
Transformações de variáveis
� rename pode ser usado para renomear a variável.rename oldvarname newvarname
� Para deletar uma variável ou mais, digite:drop nomevar
� Alternativamente, o comando keep nomevar elimina todas as variáveis, menos as variáveis descritas no comando.
� Para deletar certas observações use:drop if exp
� Por exemplo, drop if idade==.
Transformações de variáveis

05/04/2011
22
EXERCÍCIO 3
� Abra a base de dados “pediatric.dta”.
� Use describe para verificar quais variáveis sãoalfanuméricas e quais são as numéricas.
� Renomeie a estatura como comprimento.
� Converta peso em kilogramas para gramas, usandoreplace.
� Rotule peso como “peso do rn (em gramas)”.
� Crie a variável razao usando:
gen razao = (peso * 1000)/estatura
� Faça uma tabela de frequência para a variávelsexo
� Apresenta as variáveis sexo e anomalia em umatabela de contigência.
EXERCÍCIO 3 (cont.)

05/04/2011
23
� Determine as medidas descritivas para as variáveispeso e estatura.
� Guarde somente as observações dos recém-nascidos com anomalia. (use drop ou keep).
� Salve a base de dados modificada. (Lembre-se decolocar outro nome para a base de dados modificada.)
EXERCÍCIO 3 (cont.)
Construindo Gráficos
� Podemos construir diversos gráficos no STATA.
� Vejamos os principais gráficos:
� Gráficos de barras e de setores� Box-plot� Histograma� Gráficos de linhas� Diagrama de dispersão

05/04/2011
24
Gráficos de barrasgraph bar cigs, over(year) title("Cigarette Consumption
Per Person, US") b2(Year) ytitle("number of
Cigarettes") ylabel(0(2000)4000)
02,
000
4,00
0N
umbe
r of
Cig
aret
tes
1900 1910 1920 1930 1940 1950 1960 1970 1980 1990Year
Cigarette Consumption Per Person, US
Gráfico de setores
vaginal cesáreafórceps
Tipo de parto das mães dos recém-nascidos, MA
graph pie, over(parto) title("Tipo de parto das mães dos
recém-nascidos, MA")

05/04/2011
25
Histogramahist idademae, frequency title("Idade (em anos) das mães
dos recém-nascidos, MA") xtitle("idade") ytitle("Número
de mães")
020
040
060
080
0N
úm
ero
de
mãe
s
10 20 30 40 50idade
Idade (em anos) das mães dos recém-nascidos, MA
Histogramahist idademae, bin(10)frequency title("Idade (em anos)
das mães dos recém-nascidos, MA") xtitle("idade")
ytitle("Número de mães")
010
0020
0030
00N
úmer
o de
mãe
s
10 20 30 40 50idade
Idade (em anos) das mães dos recém-nascidos, MA

05/04/2011
26
Box plotgraph box idademae, title(“Idade(em anos) das mães dos recém-nascidos, MA") ytitle(“idade")
1020
3040
50id
ade
Idade (em anos) das mães dos recém-nascidos, MA
Box plot por grupograph box idademae, by(parto) ytitle(“idade da mãe(emanos)")
1020
3040
5010
2030
4050
vaginal cesárea
fórceps
idad
e da
mãe
(em
ano
s)
Graphs by tipo de parto

05/04/2011
27
Gráfico de linhas
6080
100
120
140
Nº
de c
asos
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009ano
dados fictícios
Nº de casos de tuberculose, 1999-2009, São Luís-MA
line casos ano
Diagrama de dispersão
020
0040
0060
00pe
so a
o na
scer
em
gra
mas
30 40 50 60comp ao nascer cm
graph twoway scatter pesonasc compnasc

05/04/2011
28
Links úteis
� http://www.iies.su.se/~masa/stata.htm� Contém links para outros sites
� http://www.princeton.edu/~erp/stata/main.html
� http://www.ats.ucla.edu/stat/stata/webbooks/reg/default.htm
Obtendo mais informações sobre o STATA
� STATA tem arquivos de ajuda para todos oscomandos.
� Comandos do STATA são descritos com detalhes noSTATA User’s Guide and Reference Manual.
� Finalmente, você pode obter vários tutoriais nainternet. Um fácil caminho para encontrar é usar oGoogle e procurar por Stata tutorial.
(Este tutorial foi preparado usando informações do livro “Data analysis using STATA ” Ulrich Kohler e Frauke Kreuter, Stata Press, 2009. )