Post on 01-Jul-2015
Existe, com 95% de Confiança, relação entre o “Ano de
Nascimento” e o “Ano de Confirmação”?
Através dos dados obtidos na seguinte tabela num artigo sobre a BSE em
Portugal, foi possível elaborar um estudo estatístico e comprovar se existe ou não
relação entre as diferentes variáveis.
Tabela 1 Distribuição dos animais positivos (2002-2009) por ano de nascimento e ano de confirmação laboratorial
Verificação da Normalidade da variável contínua “Ano de Nascimento”
Dos 435 casos analisados no estudo desta variável, foram apenas incluídos os
casos cujo ano de nascimento compreende o período entre 1984 e 2002. Destes 435
casos, 435 cumpriram os requisitos, isto é, foram considerados válidos.
Tabela 2 - Análise descritiva da variável "Ano de Nascimento"
Descriptives
Statistic Std. Error
Ano de Nascimento Mean 1995,23 ,113
95% Confidence Interval
for Mean
Lower Bound 1995,00
Upper Bound 1995,45
5% Trimmed Mean 1995,32
Median 1995,00
Variance 5,562
Std. Deviation 2,358
Minimum 1984
Maximum 2002
Range 18
Interquartile Range 3
Skewness -,678 ,117
Kurtosis 1,980 ,234
A partir da tabela acima, podemos concluir que a amostra tem como Ano de
Nascimento médio 1995,23, com um desvio padrão de 2,358 anos e um ano mínimo e
máximo de 1984 e 2002, respectivamente.
Com 95% de confiança, pode-se inferir que a população de gado com BSE em
Portugal nasceu, em média, entre 1995 e 1995,45. Como os dados da variável “Ano de
Nascimento” estão aproximados à unidade (apesar desta ser uma variável contínua), a
mediana irá ter um valor absoluto (1995). A amplitude do intervalo de 95% de
confiança é de 0,45 anos e tem sempre 1995 como valor aproximado, pelo que se
pode considerar que a mediana pertence ao intervalo de 95% de confiança. Conclui-se,
assim, que esta se encontra próxima do valor médio da amostra, minimizando o erro
de viés e aumentando a exactidão do estudo.
Em relação à normalidade da variável “Ano de Nascimento”, esta pode ser
constatada nos seguintes gráficos (Ilustrações 1, 2 e 3, respectivamente):
Ilustração 1 - Histograma relativo à variável "Ano de Nascimento"
Ilustração 2 - P-P Plot da variável "Ano de Nascimento"
Ilustração 3 - P-P Plot da variável "Ano de Nascimento" (1)
A normalidade da variável é, sobretudo, comprovada pelos testes P-P Plot, que
mostram claramente uma tendência em seguir uma distribuição normal, tendo
variações estatisticamente não significativas.
Verificação da Normalidade da variável contínua “Ano de
Confirmação”
Dos 435 casos analisados, foram apenas incluídos no estudo desta variável os
que compreendiam o Ano de Confirmação entre 2002 e 2009. Destes 435 casos, 435
cumpriram os requisitos, sendo, portanto, considerados válidos. Da análise inicial da
variável, obteve-se a tabela 2:
Tabela 3 - Análise descritiva da variável "Ano de Confirmação"
Descriptives
Statistic Std. Error
Ano de Confirmação Mean 2003,92 ,082
95% Confidence Interval
for Mean
Lower Bound 2003,76
Upper Bound 2004,08
5% Trimmed Mean 2003,78
Median 2003,00
Variance 2,929
Std. Deviation 1,711
Minimum 2002
Maximum 2009
Range 7
Interquartile Range 2
Skewness 1,080 ,117
Kurtosis ,670 ,234
A partir da tabela acima, podemos concluir que a amostra tem como Ano de
Confirmação médio 2003,92, com um desvio padrão de 1,711 anos e um ano mínimo e
máximo de 2002 e 2009, respectivamente.
Com 95% de confiança, pode-se inferir que a população de gado com BSE em
Portugal foi confirmada/detectada, em média, entre 2003,76 e 2004,08, com uma
amplitude de 0,32 anos. A mediana (2003) não pertence ao intervalo de 95% de
confiança, logo, encontra-se afastada do valor médio da amostra, podendo, por isso,
aumentar o erro de viés e diminuir a exactidão do estudo.
Podemos admitir que a variável tende a seguir uma distribuição normal, já que a
curva de Gauss que se apresenta na ilustração se encontra relativamente bem
enquadrada no histograma.
Ilustração 4- Histograma relativo à variável "Ano de Confirmação"
Ilustração 5 - P-P Plot da variável "Ano de Confirmação"
Ilustração 6 - P-P Plot da variável "Ano de Confirmação" (1)
Os gráficos P-P Plot corroboram a tendência da variável “Ano de Confirmação”
para seguir uma distribuição normal, já que conseguimos ver um ajuste dos dados à
curva de Gauss, com pequenas variações em alguns pontos que não chegam a afastar-
se 0,1 da normal.
Correlação Linear de Pearson
O coeficiente de correlação de Pearson é um método estatístico e paramétrico1
que permite avaliar a existência de uma relação linear entre variáveis quantitativas
contínuas, isto é, como estas variam conjuntamente. A normalidade das variáveis “Ano
de Nascimento” e “Ano de Confirmação” já foi anteriormente comprovada, daí que
seja, agora, possível utilizar o Coeficiente de Correlação de Pearson como forma de
analisar se existe ou não uma relação entre estas duas variáveis.
A hipótese nula (H0) neste teste será “Não existe correlação entre o Ano de
Nascimento e o de Confirmação” e a hipótese alternativa (H1) “Existe correlação entre
o Ano de Nascimento e o de Confirmação”. Aplicando, então, a correlação de Pearson,
obtemos as tabelas 4 e 5, respectivamente:
Tabela 4 - Estatística descritiva das variáveis "Ano de Nascimento" e "Ano de Confirmação"
Descriptive Statistics
Mean Std. Deviation N
Ano de Nascimento 1995,23 2,358 435
Ano de Confirmação 2003,92 1,711 435
1 Obedecem aos parâmetros da distribuição normal.
Tabela 5 - Correlação de Pearson
Correlations
Ano de
Nascimento
Ano de
Confirmação
Ano de Nascimento Pearson Correlation 1 ,082
Sig. (2-tailed) ,087
N 435 435
Ano de Confirmação Pearson Correlation ,082 1
Sig. (2-tailed) ,087
N 435 435
Após a análise estatística, tem-se:
logo a relação é baixa
, logo, não se rejeita H0.
Assim, com 95% de confiança, não podemos dizer que haja uma relação linear
entre o ano de nascimento e o de confirmação.
Sabemos agora que não temos provas e dados estatísticos suficientes para dizer
que haja uma relação entre o ano de nascimento e o ano de confirmação, mas será
que o mesmo se aplica à idade que o animal tem quando é confirmado como caso de
BSE?
Análise da variável Idade de Confirmação
A variável Idade pode ser obtida subtraindo o Ano de Nascimento ao Ano de
Confirmação. Só os casos em que a Idade variava entre 2 e 20 anos foram incluídos no
estudo, perfazendo um total de 435 casos, como se pode ver na tabela 6:
Tabela 6 - Análise descritiva da variável "Idade de Confirmação"
Descriptives
Statistic Std. Error
Idade de Confirmação Mean 8,69 ,134
95% Confidence Interval for
Mean
Lower Bound 8,43
Upper Bound 8,96
5% Trimmed Mean 8,54
Median 8,00
Variance 7,827
Std. Deviation 2,798
Minimum 2
Maximum 18
Range 16
Interquartile Range 3
Skewness ,799 ,117
Kurtosis ,549 ,234
Podemos concluir a partir da tabela que a amostra da variável “Idade” tem como
média 8,69 anos, com um desvio padrão de 2,798 anos e uma idade mínima e máxima
de 2 e 18 anos, respectivamente.
Com 95% de confiança, pode-se inferir que a população de gado com BSE em
Portugal tem uma idade média entre 8,43 e 8,96 anos, com uma amplitude de 0,53
anos. É impossível que a mediana pertença ao intervalo de confiança, uma vez que
esta tem valores arredondados à unidade e o intervalo de confiança não inclui esses
valores. Assim, a mediana (8 anos) não pertence ao intervalo de 95% de confiança, já
que se encontra afastada do valor médio da amostra.
Podemos admitir que a variável segue uma distribuição normal, já que a curva de
Gauss se encontra bem adaptada ao histograma.
Ilustração 7- Histograma relativo à variável "Idade de Confirmação"
Ilustração 8 - P-P Plot relativo à variável "Idade de Confirmação"
Ilustração 9 - P-P Plot relativo à variável "Idade de Confirmação" (1)
A normalidade da variável é ainda corroborada pelos gráficos P-P Plot, que
mostram um bom ajuste à curva de Gauss, com apenas pequenas variações que não
ultrapassam os 0,75.
Correlação Linear de Pearson
Comprovada a normalidade da variável contínua “Idade”, podemos recorrer,
mais uma vez, ao coeficiente de correlação de Pearson para avaliar se existe uma
relação linear entre a Idade e o Ano de Nascimento.
Mais uma vez, a hipótese nula (H0) é “Não existe correlação entre a Idade e o
Ano de Nascimento” e a hipótese alternativa (H1) é “Existe correlação entre a Idade e o
Ano de Nascimento”.
Tabela 7- Análise descritiva das variáveis "Idade" e "Ano de Nascimento"
Descriptive Statistics
Mean Std. Deviation N
Idade 8,69 2,798 435
Ano de Nascimento 1995,23 2,358 435
Tabela 8 - Correlação de Pearson
Correlations
Idade de
Confirmação
Ano de
Nascimento
Idade Pearson Correlation 1 -,793**
Sig. (2-tailed) ,000
N 435 435
Ano de Nascimento Pearson Correlation -,793** 1
Sig. (2-tailed) ,000
N 435 435
**. Correlation is significant at the 0.01 level (2-tailed).
Após a análise estatística, tem-se:
logo existe uma forte correlação
logo rejeita-se H0
Assim, com 95%, ou até mesmo 99% de confiança, podemos dizer que há uma
relação linear inversa entre o ano de nascimento e a idade, ou seja, aceitamos a
hipótese alternativa (H1).
Assim sendo, estimou-se a recta de regressão linear entre as variáveis
Tabela 9 - Parâmetros da recta de regressão linear das variáveis “Idade de Confirmação” e “Ano de Nascimento”
Model Summary and Parameter Estimates
Dependent Variable:Idade de Confirmação
Equation
Model Summary Parameter Estimates
R Square F df1 df2 Sig. Constant b1
Linear ,628 732,051 1 433 ,000 1884,803 -,940
The independent variable is Ano de Nascimento.
Ilustração 10 - Recta de regressão linear das variáveis "Idade de Confirmação" e "Ano de Nascimento"
A equação da reta de regressão é, então:
Em que = Ano de Nascimento e = Idade de Confirmação.
Este resultado indica que quanto mais cedo o animal nasce, mais velho será
quando for confirmado como caso de BSE. Uma vez que nos princípios da epidemia era
difícil identificar um animal como suspeito, muitos destes animais não eram abatidos,
aumentando a sua idade até serem confirmados sendo essa a principal causa desta
distribuição de idades.
Com 95% de Confiança, existe relação entre a Idade e o Ano
de Confirmação?
Utilizando a Correlação de Pearson…
Hipótese nula (H0) “Não existe correlação entre a Idade e o Ano de Confirmação”
e a hipótese alternativa (H1) “Existe correlação entre a Idade e o Ano de Confirmação”.
Descriptive Statistics
Mean Std. Deviation N
Ano de Confirmação 2003,92 1,711 435
Idade de Confirmação 8,69 2,798 435
Correlations
Ano de
Confirmação
Idade de
Confirmação
Ano de Confirmação Pearson Correlation 1 ,542**
Sig. (2-tailed) ,000
N 435 435
Idade de Confirmação Pearson Correlation ,542** 1
Sig. (2-tailed) ,000
N 435 435
**. Correlation is significant at the 0.01 level (2-tailed).
Após a análise estatística, tem-se:
logo existe uma correlação moderada
logo rejeita-se H0
Assim, com 95% de Confiança (até mesmo com 99% de Confiança), podemos
dizer que há uma relação linear direta entre o ano de confirmação e a idade, ou seja,
aceitamos a hipótese alternativa.
Assim sendo, estimou-se a reta de regressão linear entre as variáveis.
Tabela 10 - Parâmetros da recta de regressão linear das variáveis “Idade de Confirmação” e “Ano de
Confirmação”
Model Summary and Parameter Estimates
Dependent Variable:Idade de Confirmação
Equation
Model Summary Parameter Estimates
R Square F df1 df2 Sig. Constant b1
Linear ,294 180,443 1 433 ,000 -1768,018 ,887
The independent variable is Ano de Confirmação.
A equação da reta de regressão é
em que = Ano de Confirmação e = Idade de Confirmação
Este resultado indica que quanto mais tarde é confirmado o caso de BSE mais
velho tende a ser o animal infetado. Isto pode parecer contraditório, mas pode ser
justificado por uma tendência de uma infeção numa idade mais tardia ou talvez por
um aumento do período de incubação, o que leva a que a deteção de um animal
infetado seja feita quando este estiver numa idade mais avançada do que o esperado.
No entanto, neste caso, seriam necessários mais estudos de forma a perceber quais as
causas que levam a que exista esta relação entre a Idade e o Ano de Confirmação.