Mestrado Profissional em Gestão Ambiental
description
Transcript of Mestrado Profissional em Gestão Ambiental
Simulações Gráficas e Numéricas
Interativas Aplicadas ao Meio Ambiente
Marco [email protected]
Mestrado Profissional em Gestão Ambiental
Introdução à estatística
• Definição da estatística.• Classificação de dados.�• Planejamento de experimentos.�
O QUE É ESTATÍSTICA ?
• A estatística envolve técnicas para coletar, organizar, descrever, analisar e interpretar dados, ou provenientes de experimentos, ou vindos de estudos observacionais.
O QUE É ESTATÍSTICA ?
• Estudos observacionais– Ex: acompanhar o desempenho
produtivo com a aplicação de um plano de manejo sustentável para o solo de uma região.
• Experimentos– Ex: alterar as variáveis do processo de
forma proposital para verificar seus efeitos nos resultados.
Processo iterativo das pesquisas empíricas ?
Pesquisa Dados Informações
Novos conhecimentos,
novos problemas
Como vamos estudar estatística neste curso?
• Técnicas de amostragem e planejamento de experimentos– Coleta de observações ou dados
• Análise exploratória dos dados– Extrair informações das observações
• Estudos probabilísticos– Modelar fenômenos aleatórios
verificados nos dados observados e explicá-los
Como vamos estudar estatística neste curso?
• Inferências estatísticas– Realizar generalizações da análise de
amostras para a população de onde elas foram extraídas.
• Modelos de simulação computacional– Criação de modelos de simulação
aplicados a problemas ambientais
Algumas definições importantes?
• Tipos de experimento– Se tomarmos um determinado sólido,
sabemos que a uma certa temperatura haverá a passagem para o estado líquido: Experimento Determinístico.
– Quais as chances das vendas de uma empresa crescerem? Existem dois resultados possíveis: as vendas crescem ou não crescem: Experimento aleatório
Algumas definições importantes?
• Exemplos– O aumento da produção industrial
automotiva eleva a percepção de congestionamento urbano: Experimento Determinístico.
– Estima-se que uma tartaruga marinha bote entre 60 e 120 ovos por ninho. Qual será a quantidade de ovos da próxima ninhada? : Experimento aleatório
Algumas definições importantes?
• População– conjunto de todos os resultados.
• Amostra– subconjunto da população
• Exemplo:– Em um levantamento perguntou-se a
3002 adultos da cidade de Recife se liam as notícias na Internet pelo menos uma vez por semana. 600 adultos responderam sim.
Algumas definições importantes?
• Parâmetro– É uma medida numérica que descreve
alguma característica de uma população.• Estatística
– É uma medida numérica que descreve alguma característica de uma amostra.
Algumas definições importantes?
• Exemplo - Parâmetro– Na cidade de Recife há 534 botões que
os pedestres podem acionar nos cruzamentos de ruas. Descobriu-se em um levantamento que 77% deles não funcionam. O número 77% é um parâmetro pois se baseia na população inteira dos 534 botões de tráfego para pedestre.
Algumas definições importantes?
• Exemplo - Estatística– Com base numa amostra de 877
executivos pesquisados na cidade de São Paulo, descobriu-se que 45% deles não contratariam alguém que cometesse um erro tipográfico em sua solicitação de emprego. Esse número de 45% é uma estatística, pois se baseia em uma amostra, não na população inteira de todos os executivos.
Algumas definições importantes?
• Amostragem– Processo de seleção de amostra.
• Amostra aleatória simples– O processo de seleção de elementos é
feito por sorteio, fazendo com que todos os elementos da população tenham a mesma chance de ser escolhidos.
Algumas definições importantes?
• Exemplo– Considere uma indústria processadora
de sucos de frutas. Ao receber um carregamento de laranjas, os técnicos fazem inspeção da qualidade nas frutas. Examinam uma amostra de 5 caixas, tomadas de forma aleatória dentre toda a população de caixas do carregamento.
Algumas definições importantes?
• Algumas características (ou variáveis) podem ser observadas nas 5 caixas:– Classificação das laranjas como: ótima,
boa, regular, ruim ou péssima (qualitativo ou categórico)
– Número de laranjas não aproveitáveis por caixa (quantitativo)
– Peso de cada caixa de laranja– Etc.
Algumas definições importantes?
• Variável aleatória– Pode ser entendida como uma variável
quantitativa, cujo resultado depende de fatores aleatórios
– No exemplo das laranjas, ao contarmos o nº de laranjas não aproveitáveis em cada uma das caixas amostradas, temos um conjunto de 5 valores, digamos {4,6,2,3,0} que corresponde à amostra efetivamente observada da variável aleatória.
Algumas definições importantes?
• Variável aleatória– X = número de laranjas não
aproveitáveis por caixa
– Estimativa – valor resultante do cálculo de uma estatística, quando usado para se ter uma ideia do parâmetro de interesse.
},...,,{ 21 nxxxX
Algumas definições importantes?
• Média– Sejam n observações de uma variável
aleatória, a média amostral é dada por
n
ii
n xnn
xxxx1
21 1},...,
Algumas definições importantes?
• Média– Caso conheçamos todas as possíveis
observações de X, a média populacional é dada por
N
ii
n xNN
xxx1
21 1},...,
Algumas definições importantes?
• Desvios– Em relação à média (medida de centro)– Dados os valores das observações
xi Xi - 4 3 1
6 3 3
2 3 -1
3 3 0
0 3 -3
x x
Algumas definições importantes?
• Desvios– Em relação à média (medida de centro)
0 1 2 3 4 5 6
xx 1xx 2xx 3
xx 5x
Algumas definições importantes?
• Graus de Liberdade dos desvios– Os valores dos n desvios não são nulos– Os desvios têm soma nula– Os desvios têm (n – 1) graus de
liberdade
Algumas definições importantes?
• Variância (amostral)– Média aritmética dos desvios
quadráticos (para eliminar os desvios negativos)
2
1
2 )(11
n
ii xx
ns
Algumas definições importantes?
• Variância (populacional)– Média aritmética dos desvios
quadráticos (para eliminar os desvios negativos)
N
iixN 1
22 )(1
Algumas definições importantes?
• Desvio padrão – Raíz quadrada da variância e tem a
mesma unidade dos dados
n
ii xx
ns
1
2)(11
Algumas definições importantes?
• Estimador não enviesado ou não viesado– Ex: a média amostral é um estimador
não enviesado da média populacional– Significa que a média da amostra é um
bom representante da média populacional
Algumas definições importantes?
• Sabe-se que o chumbo tem alguns efeitos adversos à saúde. Foram coletadas medidas das qtde de Pb(em microgramas por metro cúbico) no ar. O máximo permitido é de 1,5µg/m3. Foram coletadas amostras da qtde de chumbo logo após a queda do WTC.
5,40; 1,10; 0,42; 0,73; 0,48; 1,10
Algumas definições importantes?
• Utilize o R para calcular a média, mediana, moda e ponto médio
Operações estatísticas
• Média aritmética– mean(<nome do vetor>)
• Mediana– median(<nome do vetor>)
• Desvio padrão– sd(<nome do vetor>)
Exemplos
• Média aritmética– mean(peso) ou– Media = sum (peso) / length (peso)
• Mediana– median(<nome do vetor>) ou– hist (peso)
• Desvio padrão– sd(peso) ou– mediaPeso= sum (peso) / length (peso)– sqrt (sum((peso - mediaPeso) ^ 2)/ (length
(peso) - 1))
Operações estatísticas
• Variância– var (<nome do vetor>)
• Covariância– cov(<nome do vetor 1>, <nome do vetor
2>)• Correlação
– cor(<nome do vetor 1>, <nome do vetor 2>)
• Regressão simples– lm (y~x)
Missing values
• Algumas operações podem retornar resultados “inexistentes”, chamados “missing values”– Inf: infinito positivo– -Inf: infinito negativo– NaN: “Not a Number”– NA: “Not Available”
Missing values
• Existem funções para testar se algum desses valores foi retornado– is.finite(x)– is.infinite(x)– is.nan(x)
• onde x pode ser um vetor
exemplos
• is.finite (peso[5])• is.finite (peso[5]/0)• is.na (peso[10])
Geração de números
• Uniformes– runif(n, min, max)
• Normais– rnorm(n, média, desvio padrão)
• t-Student– rt(n, graus de liberdade)
• Qui-Quadrado– rchisq(n, graus de liberdade)
Geração de gráficos
• x=c(1:9)• y=c(1:9)• plot(x,y)• plot(x,y,xlab="valores de x",
ylab="valores de y")• plot(x,y,type="l")
Geração de gráficos
• x=rnorm(500,0,1)• mean(x)• median(x)• sd(x)• var(x)
Lendo arquivos de dados• O arquivo datafile.dat é composto pelos seguintes dados:
tamanho_lote homens_hora30 7320 5060 12880 17040 8750 10860 13530 6970 14860 132
Lendo arquivos de dados
• Ajustando o diretório de trabalho– setwd("c:/tmp")– Para ler arquivos com nomes de colunas
na primeira linha, use– dataset <- read.table ("datafile.dat",
header=TRUE)• Para obter os vetores
– dataset$tamanho_lote– dataset$homens_hora
Lendo arquivos – parte II
• Ajustando o diretório de trabalho– setwd("c:/tmp")
• Para ler arquivos sem nomes de colunas na primeira linha, use– dataset <- scan ("datafile2.dat", what=list
(x=0,y=0))• Para obter os vetores
– dataset$x– dataset$y
Lendo arquivos de dados• O arquivo datafile3.dat é composto por dados que representam o
nome do aluno e a natureza do ensino de nível médio
joao publicomario privadocristiano privadomaria publicotalita privadomariana privadoadelia publicomonique publicocarlos privadobruno privado
Lendo arquivos – parte III
• Ajustando o diretório de trabalho– setwd(“c:/temp")
• Para ler arquivos com nomes de colunas na primeira linha, use– dataset <- scan ("datafile3.dat", what=list (x="",y=
""))– trabalho = scan("datafile2.dat", what=list
(x=0,y=0))• Para obter os vetores
– dataset$x– dataset$y
Lendo arquivos – parte IV
• Para ler arquivos separados por vírgula ou ponto e vírgula, use– dados <-read.csv("dados.csv", sep=";",
dec=",",header=FALSE)• Para obter os vetores
– dados$x– dados$y
Entrando com dados no R
• Usando a função edit()
– dados <- edit(data.frame())
Usando pacotes
• Carregando um pacote no workspace– library (<nome do pacote>)
• Site com pacotes de colaboradores– http://cran.r-project.org/web/packages/
• Instalando pacotes– options (CRAN="http://cran.r-project.org")– Install.packages (“<nome do pacote>”)
Conselhos úteis• Ler os manuais no site do projeto CRAN • Usar a página wiki do projeto CRAN
– http://wiki.r-project.org/ • Usar http://www.rseek.org/ ao invés do google• Aprender com os errros• ?lm dá uma ajuda sobre a função lm. Ler arquivos
de help pode ajudar bastante• Assine a lista do R
– (https://stat.ethz.ch/mailman/listinfo/r-help)• Crie seu script personalizado de bibliotecas
Simulações Gráficas e Numéricas
Interativas Aplicadas ao Meio Ambiente
Marco [email protected]
Mestrado Profissional em Gestão Ambiental