INFERÊNCIA PARA DUAS POPULAÇÕES 2015. 2 População 1População 2 8.1. Populações...
-
Upload
lucinda-lencastre-azevedo -
Category
Documents
-
view
212 -
download
0
Transcript of INFERÊNCIA PARA DUAS POPULAÇÕES 2015. 2 População 1População 2 8.1. Populações...
INFERÊNCIA PARA DUAS POPULAÇÕES
2015
2
nXX ,,1 mYY ,,1
n
NX21
1 ,~
m
NY22
2 ,~
População 1 População 2
mn
NYX22
21
21 ,~
8.1. Populações independentes com distribuição normal
Obs. Se a distribuição de X e/ou Y não for normal, os resultados são válidos aproximadamente.
3
Bilateral
,:H
direita À
:H
esquerda À
:H:H :H :H
021102110211
021002100210
sendo que 0 é uma constante conhecida (valor de teste). 0 = 0 corresponde à igualdade das duas médias.
Testes de hipóteses sobre 1 – 2
X1,,Xn é uma amostra aleatória de tamanho n de uma população com distribuição normal com média 1 e variância 1
2.
Y1,,Ym é uma amostra aleatória de tamanho m de uma população com distribuição normal com média 2 e variância 2
2.
As duas populações são independentes.
(i) Formulação das hipóteses:
4
(ii) Estatística de teste
(a) 22
21 e conhecidas: ).1,0( ~
0Hsob22
21
0 N
mn
YXZ
(b) 22
2
2
1 desconhecida:
,11
22
0 ~0Hsob
mn
p
t
mnS
YXT
2)1()1( que em
22
212
mn
SmSnS p é a variância combinada (pooled variance),
m
ii
n
ii YY
mSXX
nS
1
222
1
221 .)(
11 e )(
11
Testes de hipóteses sobre 1 – 2
(c) 2
2
2
1, ambas desconhecidas: mente,aproximada ,~
0Hsob22
21
0gt
mS
nS
YXT
.
1)/(
1)/(
que em 222
221
222
21
mmS
nnS
mS
nS
g
(distribuição t de Student com n + m – 2 g.l.)
5
(iii) Região crítica para um nível de significância escolhido:
cZR Zc )(
cTR Tc )(
cZR Zc )(
cTR Tc )(
cZR Zc )(
cTR Tc )(
(iv) Se Z RC ou T RC , rejeita-se Ho; caso contrário, não se rejeita H0.
H1: 1 – 2 < 0 H1: 1 – 2 > 0 H1: 1 – 2 0
Testes de hipóteses sobre 1 – 2
Obs. Nas regiões críticas com Z e T o valor de c não é o mesmo.
6
De forma análoga ao Cap. 7, um intervalo de confiança (IC) de 100(1 – )% para 1 – 2 é dado por
],;[];[IC EYXEYXUL
(a) 22
21 e conhecidas: .
22
21
2/ mnzE
(b) 22
2
2
1 desconhecida: .11
2,2/ mnStE pmn
(c) 2
2
2
1, ambas desconhecidas: .
22
21
,2/ mS
nStE g
IC para 1 – 2
.YX Estimador pontual para 1 – 2:
sendo que E é o erro máximo do IC.
Cálculo de g na lâmina 4.
7
IC para 1 – 2 e testes de hipóteses
O teste da hipótese H0: 1 – 2 = 0 contra H1: 1 – 2 0 a um nível de significância pode ser efetuado utilizando um IC com coeficiente de confiança igual a 1 – .
Se 0 IC, rejeitamos H0; caso contrário, não rejeitamos H0.
Construímos o IC de 100(1-)% para 1 – 2 , dado por
],;[];[ EYXEYXUL
sendo que no cálculo do erro máximo (E) utilizamos a lâmina 6.
8
).,(,),,(),,( :Pares 2211 nn YXYXYX
.,~2
n
ND DD
População 1 População 2
8.2. Populações dependentes com distribuição normal
Obs. Se a distribuição de D não for normal, o resultado é válido aproximadamente.
Diferença: D = X – Y com D = E(X – Y) = E(X) – E(Y) = 1 – 2 e var(D) = D
2.
Calculamos D1 = X1 – Y1,..., Dn = Xn – Yn,
.)(1
1 e 1 2
1
2
1
DDn
sYXDn
D i
n
iD
n
ii
Distribuição:
9
Bilateral
,:H
direita À
:H
esquerda À
:H:H :H :H
010101
000000
DDD
DDD
sendo que 0 é uma constante conhecida (valor de teste). 0 = 0 corresponde à igualdade das duas médias (D = 1 – 2).
Testes de hipóteses sobre 1 – 2
D1,,Dn é uma amostra aleatória de tamanho n de uma população com distribuição normal com média D e variância D
2.
(i) Formulação das hipóteses:
(ii) Estatística de teste:
. )(1
0 ~0Hsob
nD
tsDnT (distribuição t de Student com n – 1 g.l.)
10
(iii) Região crítica para um nível de significância escolhido:
cTRc cTRc cTRc
(iv) Se T RC , rejeita-se Ho; caso contrário, não se rejeita H0.
H1: D < 0 H1: D > 0 H1: D 0
Testes de hipóteses sobre 1 – 2
Obs. Conhecido como teste t pareado ou emparelhado (paired t test).
11
De forma análoga ao Cap. 7, um intervalo de confiança (IC) de 100(1 – )% para 1 – 2 é dado por
],;[];[IC EDEDUL
.1,2/ nstE D
n
IC para 1 – 2
.YXD Estimador pontual para D = 1 – 2:
sendo que E é o erro máximo do IC:
12
IC para 1 – 2 e testes de hipóteses
O teste da hipótese H0: D = 0 contra H1: D 0 a um nível de significância pode ser efetuado utilizando um IC com coeficiente de confiança igual a 1 – .
Se 0 IC, rejeitamos H0; caso contrário, não rejeitamos H0.
Construímos o IC de 100(1-)% para D = 1 – 2 , dado por
],;[];[ EDEDUL
sendo que no cálculo do erro máximo (E) utilizamos a lâmina 11.
13
nXX ,,1 mYY ,,1
mente.aproximada ,)1(,~ 1111
npppNp
mente,aproximada ,)1()1(,~ 22112121
mpp
nppppNpp
8.3. Populações independentes com distribuição Bernoulli
mente.aproximada ,)1(,~ 2222
mpppNp
m
ii
n
ii Y
mpX
np
12
11 sucesso. de amostrais proporções as são 1 e 1 que em
14
.:H:H:H:H :H :H
Bilateraldireita Àesquerda À
211211211
210210210
pppppppppppp
(ii) Estatística de teste:
mente,aproximada ),1,0( 11)1( 0Hsob
~21 N
mnpp
ppZ
Testes de hipóteses sobre p1 – p2
X1,,Xn é uma amostra aleatória de tamanho n de uma população com distribuição Bernoulli com probabilidade de sucesso p1.
Y1,,Ym é uma amostra aleatória de tamanho m de uma população com distribuição Bernoulli com probabilidade de sucesso p2.
As duas populações são independentes. (i) Formulação das hipóteses:
. que em 2111
mnpmpn
mn
YXp
m
ii
n
ii
15
Exemplo 1
Calculamos
A região crítica para = 0,05 é obtida consultando a tabela da distribuição t de Student com g = 16 g.l.:
Rc = { |T| > 2,120}.
Como |T| = 2,972 Rc, rejeitamos H0.
.,
mS
nS
YXT 9722
100290,0
120142,0
63,3082,30022
21
Conclusão. De acordo com os dados coletados e com um nível de significância de 5%, verificamos que há diferença entre os volumes médios envasados pelas duas máquinas.
16
(iii) Região crítica para um nível de significância escolhido:
cZRc cZRc cZRc
(iv) Se Z RC, rejeita-se Ho; caso contrário, não se rejeita H0.
H1: p1 < p2 H1: p1 > p2H1: p1 p2
Testes de hipóteses sobre p1 – p2
17
De forma análoga ao Cap. 7, um intervalo de confiança (IC) aproximado de 100(1 – )% para p1 – p2 é dado por
],;[];[IC 2121 EppEppUL
.)1()1( 22112/ m
ppnppzE
IC para p1 – p2
.21 pp Estimador pontual para p1 – p2:
sendo que E é o erro máximo do IC:
18
IC para p1 – p2 e testes de hipóteses
O teste da hipótese H0: p1 = p2 contra H1: p1 p2 a um nível de significância pode ser efetuado utilizando um IC com coeficiente de confiança igual a 1 – .
Se 0 IC, rejeitamos H0; caso contrário, não rejeitamos H0.
Construímos o IC de 100(1-)% para p1 – p2 , dado por
],;[];[ EYXEYXUL
sendo que no cálculo do erro máximo (E) utilizamos a lâmina 16.
19
Duas máquinas são utilizadas para envasar um líquido em frascos de plástico. Com o objetivo de verificar se há diferença entre os volumes médios envasados, duas amostras de 12 e 10 frascos foram selecionadas. Os volumes (em ml) foram medidos resultando nos seguintes valores :
Exemplo 1
Solução. Problema envolve duas médias de variáveis contínuas. Definimos X e Y como sendo os volumes envasados pelas máquinas 1 e 2, tais que E(X) = 1, var(X) = 1
2, E(Y) = 2 e var(Y) = 22.
Hipóteses: H0: 1 = 2 contra H1: 1 2 (ou seja, 0 = 0).
Utilizando os dados coletados, qual o resultado da verificação. Adote = 5%.
Máquina 1:30,9, 30,9, 30,8, 30,7, 30,9, 30,6, 30,8, 30,9, 30,7, 30,9, 30,7 e 31,0;
Máquina 2: 30,8, 30,9, 30,7, 30,5, 30,5, 30,6, 30,7, 30,3, 30,6 e 30,7.
20
Exemplo 1
Análise exploratória:
21
Exemplo 1
Estatística de teste (variâncias diferentes e desconhecidas):
Utilizando os dados coletados calculamos
.022
21
mS
nSYXT
ml, 63,3010
306,310
ml, 82,3012
369,812
10
11
12
11 i im
i ii in
i i YmY
YX
nX
X
m
i iii
n
i iii
YYYm
S
XXXn
S
1
210
1
2222
1
212
1
2221
e ml 0,0290 )63,30(110
1)(1
1
,ml 0,0142 )82,30(112
1 )(1
1
.16
110)10/0290,0(
112)12/0142,0(
100290,0
120142,0
1)/(
1)/( 22
2
222
221
222
21
mmS
nnS
mS
nS
g
22
Dois tipos de solução de polimento estão sendo avaliados para possível uso na fabricação de lentes intra-oculares. Trezentas lentes foram polidas usando a primeira solução de polimento e, desse número 217 não apresentaram defeitos causados pelo polimento. Outras 250 lentes foram polidas usando a segunda solução de polimento, sendo que 162 lentes foram consideradas satisfatórias. Há motivo para acreditar que as duas soluções diferem quanto aos defeitos causados quando usadas em polimentos? Adote = 0,01.
Exemplo 2
Solução. Problema envolve duas proporções. Uma peça não apresentar defeitos causados pelo polimento é o evento sucesso.Definimos Xi = 1 se ocorre sucesso quando a solução 1 é usada; Xi = 0, caso contrário, com P(Xi = 1) = p1, i = 1,..., n (n = 300).
Definimos Yi = 1 se ocorre sucesso quando a solução 2 é usada; Yi = 0, caso contrário, com P(Yi = 1) = p2, i = 1,..., m (m = 250).
Hipóteses: H0: p1 = p2 contra H1: p1 p2.
23
.90,1
2501
3001)689,01(689,0
648,0723,0
Z
Exemplo 2
Estatística de teste:
Pelo enunciado,
,689,0250300162217 e 648,0
250162 ,723,0
300217 111
21
1
mnYX
pmY
pnX
pm
i in
i im
i in
i i
de modo que
. 11)1(
21
mnpp
ppZ
A região crítica para = 0,01 é obtida consultando a tabela da distribuição normal padrão: Rc = {|Z| > 2,58}.
Como |Z| = 1,90 Rc, não rejeitamos H0.
Conclusão. De acordo com os dados coletados e com um nível de significância de 1%, não há motivo para acreditar que as duas soluções diferem quanto aos defeitos causados quando usadas em polimentos.
24
8.4. Probabilidade de significância (valor-p)
No exemplo 1 (lâmina 18) a região crítica é da forma Rc = {|T| > c}, sendo que, se H0 for verdadeira, T tem distribuição t de Student com 16 g.l. Com os dados coletados calculamos
Se adotarmos c = |T| = 2,972 obtemos Rc = {|T| > 2,972} e a probabilidade do erro tipo I é P(|T| > 2,972; H0 verdadeira) = P(|T| > 2,972; 1 = 2) = 0,0090 = 0,9%.
0,0090 é chamado de probabilidade de significância, nível descritivo, valor-p (p-value) ou p.
Em Excel: =DISTT(2,972; 16; 2).
.,
mS
nS
YXT 972222
21
25
8.4. Probabilidade de significância (valor-p)
Como o nível de significância é a probabilidade de um erro tipo I (rejeição de H0 verdadeira), quanto menor for valor-p, mais fortemente rejeitamos H0.Quanto menor for valor-p, mais evidência contra H0 (e vice-versa).
No exemplo 2 (lâmina 22) a região crítica é da forma Rc = {|Z| > c}, sendo que Z tem distribuição N(0,1), se H0 for verdadeira. Com os dados coletados calculamos |Z| = 1,90.Neste caso, valor-p = P(|Z| > 1,90) = 2 P(Z < – 1,90) = 2 0,0287 = 0,0574.
Escolhemos o nível de significância (). Calculamos o valor-p. Se valor-p < , rejeitamos H0; se valor-p , não rejeitamos H0.
No exemplo 2, se = 5% o resultado do teste seria inconclusivo.
26
Exemplo 3
Em um teste de dureza uma esfera de aço é pressionada contra a superfície de um bloco de material a uma carga padrão. Mede-se o diâmetro (em mm) da cavidade produzida, que está relacionado à dureza do material da superfície. Na realização do teste duas esferas (A e B) estão disponíveis. Suspeita-que a esfera A gera cavidades com diâmetro médio com diferença superior a 0,2 mm em relação à esfera B.
As duas esferas foram utilizadas em 10 blocos (n = 10) obtendo-se os dados abaixo:
1 2 3 4 5 6 7 8 9 10A 7,5 4,6 5,7 4,3 5,8 3,2 6,1 5,6 3,4 6,5B 5,2 4,1 4,3 4,7 3,2 4,9 5,2 4,4 5,7 6,0
BlocoEsfera
Diâmetro das cavidades (mm)
Diferença 2,3 0,5 1,4 -0,4 2,6 -1,7 0,9 1,2 -2,3 0,5
O que os dados permitem concluir sobre a suspeita formulada? Adote = 5%.
27
Exemplo 3
Como os dados são pareados, utilizamos D = X – Y com D = E(X – Y) = E(X) – E(Y) = 1 – 2 e var(D) = D
2.
Solução. Problema envolve duas médias de variáveis contínuas. Definimos X e Y como sendo os diâmetros das crateras produzidas pelas esferas A e B, tais que E(X) = 1 e E(Y) = 2.
Hipóteses: H0: D = 0,2 contra H1: D > 0,2 (ou seja, 0 = 0,2).
Estatística de teste: .)( 0
DsDnT
A região crítica para = 0,05 é obtida consultando a tabela da distribuição t de Student com 9 g.l. (= n – 1) e p = 10%:
Rc = { T > 1,833}.
28
Exemplo 3
Calculamos
10
1
22
1
22
10
11 mm 51,2)5,0(110
1)(1
1 mm, 5,0105,0
10 ii
n
iiD
i in
i i DDDn
SD
nD
D
.599,051,2
)2,05,0(10)( e 0
DsDnT Como T = 0,599 Rc, não rejeitamos H0.
Conclusão. De acordo com os dados coletados e com um nível de significância de 5%, não se confirma a suspeita de que a esfera A gera cavidades com diâmetro médio superior a 0,2 mm em relação à esfera B.
Obs. Rc = { T > c}, sendo que, se H0 for verdadeira, T tem distribuição t de Student com 9 g.l..
Neste caso, valor-p = P(T > 0,599) = 0,282. Não rejeitamos H0, pois valor-p .
Em Excel: =DISTT(0,599; 9; 1).
29
Exemplo 4
Estudos anteriores indicam que a vida (em horas) de um termopar produzido em uma indústria é uma variável aleatória com distribuição aproximadamente normal. Um grande comprador suspeita que o tempo de vida médio é inferior a 560 h.
O que os dados permitem concluir sobre a suspeita do comprador? Adote = 5%.
Em uma amostra aleatória de 15 termopares adquiridos foram medidos os tempos de vida (em h) 553, 552, 567, 579, 550, 541, 537, 553, 552, 546, 538, 553, 581, 539 e 529.
Solução. Problema envolve uma população com distribuição normal. Definimos X como sendo o tempo de vida (em h) de um termopar, com E(X) = e var(X) = 2. Pelo enunciado, X ~ N(, 2), 2 desconhecida.
Hipóteses: H0: = 560 contra H1: < 560 (ou seja, 0 = 560).
Estatística de teste: .)( 0
sXnT
30
Exemplo 4
A região crítica para = 0,05 é obtida consultando a tabela da distribuição t de Student com 14 g.l. (= n – 1) e p = 10%:
Rc = { T < –1,761}.
Calculamos
h 8,14)3,551(115
1)(1
1 h, 3,55115
827015
15
1
2
1
2
15
11
ii
n
ii
i in
i i XXXn
SX
nX
X
.266,28,14
)5603,551(15)( e 0
sXnT
Como T = –2,266 Rc, rejeitamos H0.
Conclusão. De acordo com os dados coletados e com um nível de significância de 5%, concluímos que a vida média dos termopares é inferior a 560 h.
31
Exemplo 4
Obs. Rc = { T < –c }, sendo que T tem distribuição t de Student com 14 g.l., se H0 for verdadeira.
Neste caso, valor-p = P(T < –2,266) = 0,0199. Rejeitamos H0, pois valor-p < .
Em Excel: =DISTT(2,266; 14; 1).
32
Exemplo 5
Heim & Peng (2010), The impact of information technology use on plant structure, practices, and performance: An exploratory study, Journal of Operations Management 26, 144 – 162. This study examines the impact of information technology (IT) use on the structure, practices, and performance of manufacturing plants.
O impacto de uma variável sobre outra é quantificado por um coeficiente (b).
É de interesse verificar a significância do coeficiente (H0: b = 0 versus H1: b 0). Em um primeiro momento não é necessário saber que teste foi utilizado.Resultados. SPC has a marginally positive association with the total number of plant employees (b = 0.126, p = 0.080) and with plant sales ... (b = 0.161, p = 0.074). The SPC variable is not significantly related to any of the productivity measures at the 0.10 level.
SPC is negatively related to willingness to introduce new products (b = −0.393, p = 0.000) .Integration intelligence only exhibits a weak positive relationship with developing unique practices (b = 0.012, p = 0.077).
Ou seja, = 10% (estudo exploratório). Se o problema envolvesse a comparação de dois métodos de medição em que se pretende substituir um dos métodos por outro melhor, o nível de significância seria menor.