Testes não paramétricos › 2020 › 05 › ...14 Preferência por tipo de programa Geração Z...
Transcript of Testes não paramétricos › 2020 › 05 › ...14 Preferência por tipo de programa Geração Z...
-
Testes não paramétricos
Prof. Marcos Vinicius Pó
Métodos Quantitativos para Ciências Sociais
-
Recordando...
2 Prof. Marcos Vinicius Pó
-
É uma metodologia que define regras de decisão para julgar se as evidências estatísticas amostrais permitem suportar – ou refutar – uma hipótese quantitativa sobre um parâmetro populacional, com base nas probabilidades de cometer determinados tipos de erro.
Temos dois tipos de hipóteses:
► H0 - Hipótese nula: sempre possui uma afirmação de igualdade. É nula no sentido de negar o fenômeno investigado. Assim, os valores amostrais verificados seriam resultado apenas de um acaso amostral.
► HA - Hipótese alternativa: é o complemento da hipótese nula e significa que os valores encontrados na amostra trazem evidências fortes da existência do fenômeno. Costuma ser a hipótese de trabalho, que só será aceita se a evidência estatística for forte.
3
Teste estatístico de hipótese
-
Regiões críticas do teste de médias e proporções
4 Prof. Marcos Vinicius Pó
H0 HA Tipo de teste Ilustração
μ=100
p=0,50
μ≠100
p≠0,50 Bicaudal
μ≤100
p≤0,50
μ>100
p>0,50 Unicaudal
μ≥100
p≥0,50
μ
-
Roteiro para o teste de hipótese
1. Definir as hipóteses. ► Nula (H0)
► Alternativa (HA)
2. Especificar as evidências estatísticas. ► Estimadores e propriedades da estatística (distribuição,
média, desvio-padrão...)
3. Fixar a probabilidade de cometer o Erro Tipo I (α) e especificar a regra de decisão. ► Referência para aceitar ou rejeitar a hipótese (região
crítica)
4. Apreciar a evidência.
5. Decidir e interpretar o resultado.
5
-
Teste de hipótese
• Queremos saber se a evidência que temos em mãos significa que encontramos algo diferente daquela que suponhamos existir e se essa evidência é forte para podermos fazer afirmações.
• Para isso nos valemos de amostras e tentamos verificar o quando podemos dizer que estamos tratando de um evento estatisticamente raro, incomum.
• Problemas:
► Como saber que a nossa amostra não é um mero acaso?
► Com que critérios faremos o nosso julgamento?
► Que tipo de estatística pode nos ajudar a tomar uma decisão?
6
-
São definidas em termos de ordem, classes ou categorias (masculino/feminino; profissão; escolaridade...).
► Variáveis quantitativas eventualmente podem ser classificadas em categorias (faixas salariais; anos de instrução...).
Podemos verificar a freqüência das nossas observações em cada uma das categorias e comparar com uma referência usando-se tabelas de contingência.
Problema: como quantificar o grau de associação entre duas amostras ou entre uma amostra e uma distribuição esperada?
► Como fazer? Proposta: medir o afastamento em relação a uma “distribuição esperada”.
► De que forma? verificar o desvio (distanciamento) das freqüências observadas em relação às esperadas.
► Como medir? Com a estatística Qui-quadrado (χ2).
7
Variáveis categóricas
-
Tabelas de contingência
Tipo de tabela em forma de matriz que mostra uma distribuição de freqüências multivariada estudada. São muito úteis para verificar a inter-relação entre as variáveis. Exemplo:
8
Assistir séries Origem
Ocasional Frequente Total
Capitais e regiões metropolitanas
43 9 52
Cidades do interior 44 4 48
Total 87 13 100
-
Testes de aderência, homogeneidade e independência
• Comparar dados de populações visando determinar:
► Aderência à uma distribuição específica;
► Homogeneidade dessa distribuição;
► Independência ou associação entre 2 variáveis aleatórias.
• Para isso mede-se a distância entre os valores observados e aqueles que seriam esperados se eles possuíssem determinada distribuição.
• São chamados de testes não-paramétricos.
9
-
Testes Paramétricos
• Referem-se diretamente a uma determinada distribuição de parâmetros da população.
• Pressupostos:
► A estatística de teste deve ter uma distribuição probabilística conhecida.
► Os erros possuem distribuição normal.
► Os resíduos são aleatórios e independentes.
• Mais eficientes e precisos.
Testes Não Paramétricos
• Não se baseiam diretamente em um modelo de distribuição de parâmetros da distribuição.
• Requerem menos pressupostos em relação à população.
► Não exigem normalidade, por exemplo.
• Podem ser aplicados a dados categóricos.
• Aplicação mais simples.
• Menos eficientes que os testes paramétricos.
10
-
Usada para mensurar o afastamento dos resultados amostrais em relação à uma dada distribuição esperada das variáveis estudadas.
Parâmetro necessário para determinar as probabilidades: graus de liberdade na tabela.
11
Estatística Qui-quadrado
-
Onde:
• n*: freqüência esperada
• r: total de categorias da variável X
• s: total de categorias da variável Y
Onde
• fobs = freqüência observada em qualquer célula
• fe = freqüência esperada em qualquer célula
12
Estatística Qui-quadrado (χ2)
r
i
s
jij
ijij
n
nn1 1
2
2
*
)*
(
e
eobs
f
ff 22 )(Ou
-
13
Tabela Qui-quadrado
-
Graus de liberdade na tabela de contingência
São determinados pelo número de células que teriam preenchimento livre em uma tabela de contingência considerando que já sabemos as totalizações de linhas e colunas.
Fórmula básica: gl = (l-1).(c-1)
14
Preferência por tipo de programa
Geração Z Millenials Geração X TOTAL
Séries 14 10 3 27
Noticiário 4 15 11 30
Esporte 7 9 5 21
Total 25 34 19 78
-
Exemplo
Um dado é lançado 1.200 vezes, com os resultados expostos na tabela abaixo. Teste a hipótese de que o dado é honesto ao nível de 5%.
15
Ocorrência 1 2 3 4 5 6
Freqüência 190 179 228 183 226 194
RC = [11,070; +∞[ χ2 = (200-190)2/200 +(200-228)2/200 + (200-179)2/200 + (200-183)2/200 + (200-194)2/200 + (200-226)2/200 = 11,63 ∈ RC p-valor(gl=5)=4,02%
-
Para investigar o envolvimento de filiados a um partido político foi tomada uma amostra de 180 homens e 120 mulheres. Definiram-se duas categorias de classificação e foram considerados como “ativistas” 100 homens e 80 mulheres, sendo os restantes classificados como “ocasionais”. Ao nível de 10% os dados fornecem evidência de possíveis diferenças de grau de fidelidade partidária entre os gêneros?
16
Exemplo
-
Um pesquisador deseja saber se há alguma diferença no perfil dos assaltos ocorridos na área urbana e rural de uma região. Para isso, analisou-se uma amostra de 200 boletins de ocorrência e os classificou quanto à arma utilizada. Podemos dizer, ao nível de 5%, que há diferenças no perfil do crime nas áreas urbanas e rurais?
17
Exemplo: pequenas frequências
Arma Área urbana Área rural Total
De fogo 100 20 120
Cortante 39 21 60
Contundente 9 3 12
Outras 2 6 8
Total 150 50 200
-
Correção de continuidade de Yates
Ao aplicar o teste do χ² supõe-se que o tamanho amostral será relativamente grande, assim como cada classe amostral (célula da tabela . Se isso não ocorrer o qui-quadrado calculado pode ser superestimado. Nestes casos alguns autores recomendam o uso do fator de correção de Yates.
Como regra básica essa correção é usada quando o qui-quadrado observado é maior que o crítico e:
• O tamanho da amostra é menor que 40; ou
• Há pelo menos uma classe com frequência esperada menor que 5.
18 Prof. Marcos Vinicius Pó
χ2 = (𝑓𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 − 𝑓𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 − 0,5)
2
𝑓𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜
Nota: a diferença entre fobservado e fesperado é reduzida em 0,5.
-
Cuidados no uso do teste Qui-quadrado
• É pressuposto que a amostragem seja aleatória.
• Deve-se usar as frequências absolutas, nunca as relativas (porcentagens).
• As frequências medidas e, principalmente, as esperadas não devem ser muito pequenas, pois podem distorcer os resultados do teste.
► Nesse caso deve-se analisar a possibilidade de agrupamento de classes e/ou o uso de correções.
• Sempre analise a tabela de contingência para verificar se não há dados superestimando o resultado.
19