2. Introdução a Probabilidade
-
Upload
matheus-celestino -
Category
Documents
-
view
46 -
download
24
description
Transcript of 2. Introdução a Probabilidade
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
1
Introdução à Teoria da Probabilidade
Fascículo 2 - VARIÁVEIS ALEATÓRIAS – distribuição e propriedades básicas
Variáveis aleatórias são funções reais definidas em espaços amostrais; elas associam valores reais aos
resultados de um experimento aleatório:
X : R
É comum em experimentos aleatórios, estarmos mais interessados em algum aspecto quantitativo do
resultado do que no resultado específico. Como no caso de , em que frequentemente o resultado de
interesse é o número total de sucessos, independente da ordem em que os mesmos ocorreram. Em dez
arremessos de uma moeda existem
( ) maneiras diferentes de se obter 4 caras e 6
coroas, contudo, em muitas situações práticas, a ordem específica como as 4 caras foram obtidas é
irrelevante.
Como ilustração, vamos explorar o experimento , correspondente a três arremessos sucessivos de
uma moeda. Temos aqui o espaço amostral = { ccc ccC cCc Ccc cCC CcC CCc CCC}. Para completar um
espaço de probabilidades seja A a álgebra completa de subconjuntos de , com seus 256 elementos, e P
a função natural de probabilidades para o experimento considerado, aquela que associa 2–3
=0,125 a
cada um dos oito eventos unitário.
Definindo a função X : R por X() = [número de caras em ], para todo , transformamos
em
X = { 0 1 2 3 }
Sob esse novo ponto de vista, o conjunto de todos os resultados possíveis de é X. Podemos definir
a álgebra completa de subconjuntos de X, que denominaremos AX e tem apenas 16 elementos. Estando
interessados apenas no número de caras, e não na sequência específica em que elas foram obtidas, esta
estrutura bem mais simples é suficiente. Precisamos agora trazer para esse novo espaço de
probabilidades, (X , AX), uma função de probabilidades – vamos denominá-la PX – que seja coerente
com a função P, em ( , A ).
Para simplicidade de notação vamos representaremos por {X=x} o subconjunto de formado pelos
elementos para os quais a função X associa valor x. Assim:
{X=x} = { ; X()=x}
Nesse exemplo, {X=1} = { ccC cCc Ccc }, {Xx} = { ; X()x }, e assim por diante.
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
2
Seja agora X-1
:R a transformada inversa de X. Usaremos aqui a seguinte notação:
X-1
(x) = { ; X()=x} = {X=x} e X-1
(a, b] = { ; a<X()b} = {X(a, b]}
Desta forma, nesse exemplo, X-1
(2, 4] é o conjunto dos elementos , tais que X() é maior que dois e
menor ou igual a quatro, portanto X-1
(2, 4]={ CCC }. Por outro lado:
X-1
(-, 1] = { ccc ccC cCc Ccc }, X-1
(-, 0]={ ccc }, X-1
(-, -2)=, X-1
(-1, 0)=, etc.
Acho que você já pegou a ideia. Qualquer subconjunto de R tem uma imagem associada em , que
pode ser ora o próprio - como é o caso de X-1
(-2, 10), ou o vazio, como em X-1
(-, 0).
Mas especificamente, a cada elemento de, X-1
associa um subconjunto de . Esses subconjuntos da
forma X-1
(x), para xX, são disjuntos e cobrem todo o , ou seja, X-1
(x1)X-1
(x2)= para todo x1x2 de
X, e ⋃ , ( )- . Assim, a transformada inversa, X-1
:R, define uma partição de . No
exemplo das três moedas esta partição tem quatro elementos:
X-1
(0)={ccc} X-1
(1)={ ccC cCc Ccc } X-1
(2)={ cCC CcC CCc } e X-1
(3)={ CCC }
Dizemos que esta partição de é induzida por X; vamos denominá-la, provisoriamente, PX. Quando ela
é mensurável, isto é, PXA, (como é o caso nesse exemplo), então a função X é mensurável, portanto
uma variável aleatória.
Como nesse exemplo PX é mensurável (isto é, cada um de seus elementos é um evento mensurável, com
valor de P bem definido), podemos associar a cada subconjunto unitário {x}X um valor de
probabilidade igual ao valor da probabilidade do elemento correspondente em PX. A esta nova função
de probabilidades definida em AX, denominaremos PX. Ela é, por construção, coerente com P. Assim,
para cada x,
PX{x} = P{X=x} = P[ X-1
(x) ]= P{ ; X()=x}
Nesse exemplo, dos 3 arremessos de uma moeda, temos, então:
PX{0} = P{X=0} = P{ ccc } = 0,53 = 0,125
PX{1} = P{X=1} = P{ ccC cCc Ccc } = 30,53 = 0,375
PX{2} = P{X=2} = P{ cCC CcCc CCc } = 30,53 = 0,375
PX{3} = P{X=3} = P{ CCC } = 0,53 = 0,125
Vimos assim, como a função X induziu o espaço de probabilidades (X , AX , PX ) em perfeita coerência
com ( , A , P ). Com PX definida para todos os átomos de AX, sua determinação para qualquer outro
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
3
elemento de AX é imediata, decorrendo das propriedades fundamentais das funções de probabilidades.
Por exemplo: PX{1 2} = PX[ {1}{2} ] = PX{1} + PX{2} = 30,53
+ 30,53
= 60,53
= 0,750.
E analogamente para todos os outros eventos em AX. Por razões operacionais diremos que variável
aleatória é qualquer função mensurável de em R. Essa restrição a funções mensuráveis faz sentido
prático, uma vez que só elas permitem um tratamento probabilístico completo. Nos casos discretos,
frequentemente adotamos a álgebra completa. Nesses casos, qualquer função X:R é mensurável.
No caso considerado acima transferimos o foco, da específica sequência de caras e coroas para o
número de caras. Do espaço de probabilidades original ( , A , P ) para (X , AX , PX ), o espaço induzido
por X. Nesse processo foi mantida – por construção – a coerência entre PX e P. Como P havia sido
definida de forma a refletir as propriedades reais do experimento estocástico considerado, o que nos
levou a qualificá-la como a função natural de probabilidades, a garantida coerência entre P e PX confere
a esta a qualidade de função natural de probabilidade para o caso tratado.
O espaço amostral agora é um subconjunto dos reais – XR – o que nos confere versatilidade
operacional. Podemos agora pensar, por exemplo, no resultado médio de n repetições independentes
de um mesmo experimento aleatório E. Voltando ainda ao exemplo anterior, do experimento aleatório
dos três arremessos sucessivos e independentes de uma moeda comum, podemos especular sobre,
por exemplo, o valor médio de X em m repetições independentes do mesmo. Assim:
Seja como definido e X o número resultante de caras. Repetindo
independentemente m
vezes1, sejam X1 X2 X3 … Xm os m resultados parciais, e
∑ , a sua média
aritmética. Em termos probabilísticos, o que se pode dizer de ?
Tenho certeza de que você se surpreenderá com o grau de nitidez das previsões que podemos fazer
sobre para valores grandes de m. Por exemplo, embora a média possa, em princípio, assumir
qualquer um dos 10.001 valores em {0,0000 0,0001 0,0002 … 2,9999 3,0000}, podemos prever que,
com quase certeza, ela acabará mesmo é no subconjunto de apenas 521 elementos {1,4740 … 1,5260).
Dissemos “com quase certeza”, porque a probabilidade dessa previsão falhar é menor que 0,003. Na
figura abaixo, a faixa completa de variação de , destacando no centro, em vermelho, a região na
qual a probabilidade desse resultado médio acabar caindo é igual a 0,997. O resultado médio das 10 mil
repetições é, portanto, muito mais previsível do que poderia parecer ao olhar destreinado.
Logo conquistaremos este novo território. Para isto temos que ampliar nosso arsenal de conceitos
probabilísticos. Vamos começar reassentando nosso campo de trabalho, de um espaço amostral
1 Podemos representar esse experimento duplamente composto por (
)
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
4
qualquer para o conjunto dos reais, e expandindo o espaço de probabilidades de (X , AX , PX ) para (R, B,
PX). Esta expansão é simples: basta definir a probabilidade de qualquer intervalo real do tipo (-, x],
por:
PX(-, x] = P( X-1
(-, b] ) = P{ ; X{) x }.
Ampliando o exemplo anterior, considere , com álgebra completa e
função natural de probabilidades. Temos:
( -
{
Como se vê, com pouco esforço e sem nenhum comprometimento da
perfeita coerência com a função original de probabilidades, P, estendemos
PX para (R, B) , onde B é a -álgebra de Borel. Ao conjunto X
denominaremos suporte de X.
Podemos agora definir F:R[0,1] por
F(x)=P(-, x], denominada função de
distribuição acumulada de
probabilidades da variável aleatória X
(mais sucintamente: f.a.d.p. de X). Esta
função é sempre não decrescente (isto é,
F(x+)F(x), para todo x e qualquer >0)
com ( ) ( ) . Para o experimento anterior, E0,54, com X definida como o
número total de caras, a f.a.d.p é representada no gráfico acima.
0,0
0,2
0,4
0,6
0,8
1,0
-1 0 1 2 3 4 5
F(x)
x
0,0
0,1
0,2
0,3
0,4
0 1 2 3 4
P{X
=x}
x
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
5
Exemplos:
2.1 – Seja o experimento D52, como já definido, e seja o espaço de probabilidades ( , A , P ), onde:
={11 12 13 14 15 21 22 23 24 25 31 32 33 34 35 41 42 43 44 45 51 52 53 54 55}
Sejam ainda a álgebra completa A e a função natural de probabilidades, definida a partir de
*+
Seja X:R e Y:R duas funções definidas por:
X() = soma dos resultados parciais em ; exemplo: X(25) = 2+5 = 7
Y() = diferença entre o segundo e o primeiro resultado parcial em ; exemplo: Y(31) = 1–3 = –2
Podemos então compor: X={2 3 4 5 6 7 8 9 10} e Y={-4 -3 -2 -1 0 1 2 3 4 }, com respectivas álgebras
completas. As funções de probabilidade PX e PY, coerentes com P, são dadas nas tabelas abaixo:
Por enquanto X e Y estão
assentadas em espaços de
probabilidade diferentes. Vamos
corrigir esta inconveniência
substituindo X e Y por
XY=XY. Podemos expandir
as funções Px e PY para o espaço (R, B), simplesmente fazendo: FX(x) = PX(-, x] = P{ ; X{)x} e
FY(y) = PY(-, y] = P{ ; Y{)y}.
z -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10
PX{z} 0 0 0 0 0 0 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04
PY{z} 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04 0 0 0 0 0 0
FX(z) 0 0 0 0 0 0 0,04 0,12 0,24 0,40 0,60 0,76 0,88 0,96 1
FY(z) 0,04 0,12 0,24 0,40 0,60 0,76 0,88 0,96 1,00 1,00 1,00 1,00 1,00 1,00 1,00
Estas funções referem-se a variáveis aleatórias discretas, com suportes finitos, mas se estendem sobre
todo o eixo real (-, ). Elas estão representadas abaixo nas formas tabular e gráfica (responda rápido:
qual das duas curvas corresponde a FX(x)? )
0,00,20,40,60,81,0
-10 -5 0 5 10 15
x 2 3 4 5 6 7 8 9 10
PX{x} 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04
FX(x) 0,04 0,12 0,24 0,40 0,60 0,76 0,88 0,96 1,00
y -4 -3 -2 -1 0 1 2 3 4
PY{y} 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04
FY(y) 0,04 0,12 0,24 0,40 0,60 0,76 0,88 0,96 1,00
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
6
Estando agora as variáveis aleatórias X e Y assentadas num espaço de probabilidades comum, podemos
explorar suas propriedades
conjuntas.
A distribuição conjunta de
probabilidades de X e Y apoia-se
sobre um suporte discreto e finito
(uma grade) no R2. Ela pode,
portanto, ser representada na
forma tabular acima (nesse caso, de
curiosa simetria).
Também podemos falar de função de distribuição acumulada conjunta de duas variáveis, definida em R2 e
tomando valores no intervalo [0, 1], como:
FX,Y(x, y) = P( {Xx}{yY} ) = P{ ; X()x e Y()y}
Por exemplo, F(0, 0)=0, F(2, 0)=0,04, F(6, 0)=0,36, F(10, 4)=1.
2.2 - Uma jovem A, estudante de Engenharia, tendo já aprendido um pouco de Probabilidade, inventa e
propõe a dois amigos, B e C, um novo jogo de mesa, envolvendo duas moedas comuns e um dado (D5,
para maior simplicidade aritmética). Nesse jogo, Ana controla o dado; Bruno e Camila, uma moeda cada.
A cada rodada, primeiro Bruno e Camila arremessam suas moedas, definindo o vencedor: se duas caras, o
vencedor é Camila; se duas coroas, Bruno; se dois resultados diferentes, Ana vence (perceberam a
malícia?). Definido o vencedor, Ana arremessa o dado para definir o valor prêmio: cada um dos outros
dois jogadores pagará ao vencedor o resultado do dado, em R$.
A essa altura já sabemos o suficiente de probabilidade para perceber que este não é um joguinho
inocente qualquer, e que as chances favorecem um dos jogadores: claro, Ana, que inventou o jogo e não é
sonsa.
Mas ainda não temos como decifrar alguns fatos probabilísticos interessantes a respeito do que sucederá,
cumulativamente, em sucessivas rodadas desse jogo. Se você intui que numa sequência prolongada de
rodadas, toda a grana de B e C migrará para a bolsa de Ana, parabéns. Sua intuição está apontando na
direção correta. Por exemplo, que em dez rodadas, o resultado acumulado de A, em R$, será, com
probabilidade 0,95, algum valor no intervalo (-18, +48), enquanto que, para cada um dos outros dois
jogadores, com a mesma probabilidade, eles estarão no intervalo (-35, +20), em R$. Assim, após dez
rodadas, o resultado acumulado poderá ser, por exemplo, -2, 8 e -6, de A, B e C, respectivamente.
Após 100 rodadas, esses intervalos serão, respectivamente, (+45, +255) e (-163, 13), e Ana, com certeza
absoluta, sairá no lucro. No longo prazo Ana, com certeza, arruinará seus “amigos”: se B e C não
perceberem que, nesse jogo, estão em grave desvantagem probabilística, e continuarem jogando, em
1000 rodadas os intervalos serão, respectivamente, (+1.168, +1.832) e (-1.028, -473).
Px,Y(x, y) x
PY(y) 2 3 4 5 6 7 8 9 10
y
4
0,04
0,04
3
0,04
0,04
0,08
2
0,04
0,04
0,04
0,12
1
0,04
0,04
0,04
0,04
0,16
0 0,04
0,04
0,04
0,04
0,04 0,20
-1
0,04
0,04
0,04
0,04
0,16
-2
0,04
0,04
0,04
0,12
-3
0,04
0,04
0,08
-4
0,04
0,04
PX(x) 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04 1,00
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
7
Com amigos dispostos a jogar mil rodadas, Ana sabe que, com quase certeza, não terminará a maratona
com menos que R$1.168 de lucro, embora tenha também quase certeza (probabilidade 0,975), que este
não superará R$1.832. Do outro lado, Bruno e Camila deveriam saber que, com certeza perderão. E
perderão bastante dinheiro.
Os conceitos da Teoria da Probabilidade envolvidos nos cálculos acima são relativamente simples,
conforme veremos adiante. Os resultados acima foram calculados usando um ferramental conceitual que
vocês dominarão antes de completarmos o primeiro bimestre desse curso. Por enquanto você pode testar
sua validade simulando o jogo no computador, usado métodos muito simples, denominados,
genericamente, de Monte Carlo, que pode ser muito facilmente testado no computador (posso montar
um simulador desse no Excel, em poucos minutos) Programando em C você pode fazer melhor e mais
elegantemente. Lançado o desafio.
Mas vamos aproveitar ainda mais o contexto definido por esse jogo para introduzir alguns conceitos
novos. Primeiro vamos construir o espaço amostral:
={ CC1 CC2 CC3 CC4 CC5 cc1 cc2 cc3 cc4 cc5 Cc1 Cc2 Cc3 Cc4 Cc5 cC1 cC2 cC3 cC4 cC5 }
Seja A a álgebra completa (isto é, cujos átomos são os eventos unitários de ) e P a função natural de
probabilidade para o caso, que associa a cada evento unitário a probabilidade 0,500,500,20 = 0,05. O
espaço de probabilidades para o jogo é, assim, (, A , P).
Para analisar o jogo pelo ponto de vista da nossa doce Aninha, o interesse é o quanto ela ganhará ou
perderá a cada rodada. Seja a função X:R que associa a cada o seu ganho correspondente. Numa
representação tabular de X:R, temos:
CC1 CC2 CC3 CC4 CC5 cc1 cc2 cc3 cc4 cc5 Cc1 Cc2 Cc3 Cc4 Cc5 cC1 cC2 cC3 cC4 cC5
X() -1 -2 -3 -4 -5 -1 -2 -3 -4 -5 2 4 6 8 10 2 4 6 8 10
Portanto X assume valores em X={-5, -4, -3, -2, -1, 2, 4, 6, 8, 10}, com XA(CC1)=-1, XA(CC2)=-2, e assim por
diante. Consideramos o espaço de probabilidades induzido, (R, B, PX), com a função PX definida por:
PX{-5} = P{X=-5} = P{, tais que X()=-5} = P{CC5 cc5} = 0,10
PX{-4} = P{X=-4} = P{, tais que X()=-4} = P{CC4 cc4} = 0,10
…
PX{8} = P{X=8} = P{, tais que X()=8} = P{Cc4 cc4} = 0,10
PX{10} = P{X=10} = P{, tais que X()=10} = P{Cc5 cC5} = 0,10
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
8
O espaço de probabilidades (, A, P) é transformado, pela função X, no espaço de probabilidades
conjugado, (X, AX, PX), mais adequado à análise do jogo sob o ponto de vista do jogador A. Nele podemos
analisar, diretamente, a variável X que representa o ganho de A em cada rodada do jogo.
Embora a função PX tenha sido originalmente definida em (x , AX) sua extensão para (R B), segue roteiro
simples e já conhecido. Aqui B é a -álgebra de Borel, a estrutura ideal para se modelar funções de
probabilidade sobre o conjunto dos reais. Podemos definir o valor de PX para qualquer elemento de B. Por
exemplo, para o intervalo (a, b] de R, podemos definir:
PX(a, b] = P{X-1
(a, b]} = P{ ; a<X()b}
Assim, por exemplo:
Px(-, 0] = P{CC5 CC4 CC3 CC2 CC1 cc5 cc4 cc3 cc2 cc1} = 0,50
A função X, assim definida, é uma variável aleatória. Para esse caso particular de X, podemos sumarizar:
x -5 -4 -3 -2 -1 2 4 6 8 10
fX(x) = PX{x} 0,10 0,10 0,10 0,10 0,10 0,10 0,10 0,10 0,10 0,10
FX(x) = PX{Xx} 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00
A tabela acima representa a função de distribuição de probabilidades (f.d.p.) e a função de distribuição
acumulada de probabilidades (f.a.d.p.) da variável aleatória X. Note que X é uma variável aleatória discreta
e com um número finito (10) de valores diferentes possíveis. Como cada um dos 10 valores possíveis para
X tem a mesma probabilidade 0,10, dizemos que a variável aleatória X tem distribuição uniforme sobre o
seu conjunto suporte, X. Estendendo PX de X para R, podemos definir a função acumulada de
distribuição de probabilidades da variável X sobre todo o conjunto dos reais, por
( ) ( - * ( - + * ( ) + * +
Para a variável X, correspondente ao ganho do jogador A em cada rodada, a f.a.d.p. FX:R[0 , 1], está
representada na figura abaixo.
Continuando sobre o jogo proposto por A, podemos definir, sobre , outras funções. Por exemplo,
podemos olhar o jogo sob o ponto de vista do jogador B, que ganha uma rodada quando as duas moedas
0,0
0,2
0,4
0,6
0,8
1,0
-10 -5 0 5 10 15
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
9
resultam em coroa. Seja Y:R definida para cada como o ganho de B associado a . No caso desse
jogo, Y=X, mas sua f.d.p. é diferente, com, por exemplo, PY{-5}=P{CC5 Cc5 cC5}=0,15, e assim por
diante, até PY{+10}=P{cc5}=0,05. Na forma tabular, a função Y:R é dada por:
CC1 CC2 CC3 CC4 CC5 cc1 cc2 cc3 cc4 cc5 Cc1 Cc2 Cc3 Cc4 Cc5 cC1 cC2 cC3 cC4 cC5
Y() -1 -2 -3 -4 -5 2 4 6 8 10 -1 -2 -3 -4 -5 -1 -2 -3 -4 -5
Assim,
y -5 -4 -3 -2 -1 2 4 6 8 10
PY{y} 0,15 0,15 0,15 0,15 0,15 0,05 0,05 0,05 0,05 0,05
PY{Yg} 0,15 0,30 0,45 0,60 0,75 0,80 0,85 0,90 0,95 1,00
A função de distribuição acumulada de probabilidades de Y está representada na figura abaixo.
Fica agora mais evidente a desvantagem de B e C em relação a A nesse jogo.
Definindo Z:R como o ganho de C, teremos o mesmo suporte Z= Y=X e a mesma f.d.p. que Y. Em
termos probabilísticos, a situação do
jogador C é idêntica à de B.
Atenção! Isto não quer dizer que os dois
terminarão o jogo empatados, com
resultados financeiros idênticos. Chances
iguais não garantem resultados iguais.
Considerando o espaço de probabilidades
(R, B), poderemos acomodar aí as três
funções de probabilidade PX, PY, PZ, todas derivadas de P, através das funções X, Y e Z, respectivamente.
Aprenderemos muito brincando com esse jogo, esses espaços de probabilidades e essas variáveis
aleatórias. Voltaremos a esse exemplo, no futuro próximo, com uma caixa mais poderosa de ferramentas.
De profissional.
Exercícios
0,0
0,2
0,4
0,6
0,8
1,0
-10 -5 0 5 10 15
P{} X() Y() Z() P{} X() Y() Z()
CC1 0,05 -1 -1 2 Cc1 0,05 2 -1 -1
CC2 0,05 -2 -2 4 Cc2 0,05 4 -2 -2
CC3 0,05 -3 -3 6 Cc3 0,05 6 -3 -3
CC4 0,05 -4 -4 8 Cc4 0,05 8 -4 -4
CC5 0,05 -5 -5 10 Cc5 0,05 10 -5 -5
cc1 0,05 -1 2 -1 cC1 0,05 2 -1 -1
cc2 0,05 -2 4 -2 cC2 0,05 4 -2 -2
cc3 0,05 -3 6 -3 cC3 0,05 6 -3 -3
cc4 0,05 -4 8 -4 cC4 0,05 8 -4 -4
cc5 0,05 -5 10 -5 cC5 0,05 10 -5 -5
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
10
1. Seja o experimento binário Ep, e o experimento Epn, composto de n repetições independentes de Ep.
Seja o espaço de probabilidades com a álgebra completa e a função de probabilidades natural. Sejam
Wi:R, para i=1, 2, 3, … , n, as v. a. que associam a cada elemento de o valor real igual a 0 ou 1
se o i-ésimo resultado for fracasso ou sucesso, respectivamente. Sejam as v.a’s. X:R e Y:R
definidas por
∑
(∑
)
Para n=5, determine o suporte de X e de Y e construa, na forma de tabelas, suas f.d.p. e f.d.a.p., bem
como função de distribuição acumulada conjunta. Como você usaria a ideia em Y para construir
dados perfeitamente equilibrados com um número arbitrário qualquer de lados (um milhão, por
exemplo?). Ou ainda, como você aperfeiçoaria o sorteio da sena substituindo o globo com as
bolinhas por uma simples e única moeda?
2. Seja o experimento aleatório D5n, e sejam X1, X2, … , Xn os resultados parciais, com
∑
∑
Considere a álgebra completa e a função natural de probabilidades para compor o espaço de
probabilidades básico para o experimento.
Com n=10, calcule (use suas habilidades com o computador) * +
Com n=50 calcule (idem) * +
Com n=4 calcule * + * + * +
Algumas Famílias Especiais de Distribuições de Probabilidades
Algumas variáveis aleatórias representam fenômenos (ou experimentos) aleatórios tão generalizados e
importantes, ou suas funções de distribuição de probabilidades possuem características matemáticas
tão peculiares, que passam a merecer atenção especial. Veremos a seguir algumas famílias muito
importantes de distribuições discretas de probabilidades.
A Distribuição de Bernoulli
Seja um experimento binário Ep, e seja X o número de sucessos. Logo, X=1 com probabilidade p e X=0
com probabilidade 1-p. Para simplicidade, seja q=1–p. Uma variável aleatória com essas características é
dita ter distribuição de Bernoulli, o que se representa por X~B(p), em homenagem à família Bernoulli –
em particular a Jacob Bernoulli – que, nos séculos XVII e XVIII dedicou grande esforço e deu
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
11
contribuições fundamentais aos estudos dos fenômenos aleatórios. É o modelo probabilístico mais
simples. Sua função de distribuição de probabilidades dada por
( ) {
A figura ao lado representa a distribuição de uma B(0,6).
Coerentemente, experimentos binários são também
denominados bernoullianos, ou de Bernoulli. Como
diversos experimentos de grande interesse teórico e prático são compostos por repetições de
experimentos binários, esses possuem, apesar de tão simples, grande importância, conforme veremos a
seguir.
A Distribuição Geométrica
Sejam um experimento binário qualquer, Ep, e o experimento composto por repetições sucessivas e
independentes de Ep até a obtenção do primeiro sucesso. O espaço amostral naturalmente associado a
esse experimento, = {F FS FFS FFFS FFFFS FFFFFS …}, é enumerável mas infinito. Seja a álgebra
completa e a função natural de probabilidades, definida por P{F}=1-p, P{FS}=(1-p).p, P{FFS}=(1-p)2. p, e,
generalizando, P{FFFF…FS}=(1-p)x.p, sendo x igual ao número de fracassos antes do primeiro sucesso.
Esta generalização sugere uma variável aleatória naturalmente associada a esse experimento:
X:R definida por X()número de fracassos em , para todo
O conjunto suporte de X é o dos inteiros não negativos: X={0, 1, 2, 3, …}, e a função de distribuição de
probabilidades de X é definida por PX{x} = P{X=x} = (1 – p)xp = pq
x, para todo xX.
Como os valores das probabilidades de {0}, {1}, {2}, {3}, … estão em progressão geométrica, refere-se a
esta função de distribuição de probabilidades como distribuição geométrica, e às variáveis aleatórias
que apresentam esta distribuição como tendo distribuição geométrica com parâmetro p. Se X tem
distribuição geométrica com parâmetro p, representa-se este fato por X~G(p). O suporte de uma
variável aleatória com distribuição geométrica é sempre o conjunto dos inteiros não negativos.
A função de distribuição acumulada de distribuição de uma v.a. X~G(p) é dada por
( ) * + ∑
(∑
∑
) (
)
( )
0,0
0,5
1,0
-1 0 1 2
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
12
O resultado acima poderia ter saído de um raciocínio bem simples: o evento {Xx} é o complemento de
{X>x}. Este, por sua vez equivale a {os primeiros x+1 resultados são fracassos}, cuja probabilidade é a
probabilidade x+1 fracassos em
igual número de tentativas, isto é,
qx+1
.
Na figura ao lado uma
representação gráfica da f.d.p. de
uma G(0,4). Note o decaimento
exponencial da f.d.p. na medida
em que x cresce.
Exemplos
1 – Um experimento consiste em arremessar um dado até a obtenção do primeiro 6. Podemos aqui
considerar o arremesso do dado como um experimento binário onde sucesso corresponde ao resultado 6
e fracasso aos demais resultados. Temos assim um Ep, com p=1/6. Seja X o número de fracassos no
experimento. Então, P{X10} = 1 – q11
= 1 – (5/6)11
= 0,8654.
Qual a probabilidade de que o experimento termine em menos que 5 lançamentos?
P{X3} = = 1 – q4 = 1 – (5/6)
4 = 0,5177
2 – Numa linha de produção em série, toda a vez que um operário realiza uma determinada operação
repetitiva, sua chance de incorrer em acidente grave é estimada em 1 milionésimo. A operação é
considerada, então, bastante segura. Dezenas de operários realizam simultaneamente essa operação
numa fabrica. Digamos que ela é realizada duas mil vezes por dia. Qual a probabilidade que em um ano, o
acidente referido ocorra pelo menos uma vez?
Aqui, o experimento binário básico é a realização da determinada operação, com p=10-6
. Num ano a
operação é realizada (considere, independentemente), 735.000 vezes. Logo, a probabilidade de nenhum
acidente é igual a (1-10-6
)750.000
=0,4724, e a probabilidade complementar, de pelo menos um acidente, é
igual a 0,5276.
3 – Seja Ep, com p=0,01. Este experimento elementar será repetido até à obtenção do primeiro sucesso.
Seja X o número de fracassos obtido no processo. Então X~G(0,01) e P{X50}=q50
=0,9950
=0,6050. Agora,
suponha que após 100 tentativas, ainda não tenha ocorrido sucesso algum. Qual a probabilidade de que o
número de tentativas adicionais necessárias seja superior a 40? Esta questão pode ser reformulada de
maneira mais rigorosa, assim
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
13
* + * + (* + * +)
* + * +
* +
* +
A Distribuição Binomial
Uma família de distribuições de extraordinária importância, a binomial é também associada a
experimentos binários.
Seja Ep um experimento binário com P{S}=p, e seja Epn o experimento composto por n repetições
sucessivas e independentes de Ep. Sabemos que o espaço amostral deste experimento tem 2n
elementos, dos quais Cnx são compostos por x sucessos e (n-x) fracassos, para x=0, 1, 2, 3, …, n. A
diferença entre ele consistindo apenas na ordem em que esses x S’s e n-x F’s estão dispostos na cadeia
que representa o resultado específico. Exemplo: com 10 repetições de Ep, existem C103=120 maneiras
diferentes de se obter 3 sucessos e 7 fracassos, sendo FFFFFFFSSS, FFFSFFSFSF e FFFFFFFSSS três delas.
Quando n cresce, o número de possibilidades cresce muito; por exemplo, existem C10030
=
29.372.339.821.610.900.000.000.000 maneiras diferentes de obter 30 sucessos em 100 repetições
sucessivas de um experimento aleatório binário.
Voltando ao , sejam o espaço amostral correspondente aos 2
n resultados diferentes possíveis, a
álgebra completa (com
elementos) e a função de probabilidades natural, com P{}=px(1-p)
n-x, onde
x é o número de sucessos em , para todo . Vamos agora definir uma função X:R como o
número de sucessos no resultado. O suporte de X é, portanto, X={0, 1, 2, 3, …, n}, com
* + * ( ) + ( )
Em experimentos binários, é comum representar a probabilidade de fracasso (1-p), por q, levando à
forma mais compacta de PX{x}:
* + * ( ) +
A função X assim definida é uma variável aleatória muito especial, com a qual desenvolveremos estreita
familiaridade nos próximos meses. Sua importância econômica é extraordinária, gerando anualmente
negócios que superam, em todo o mundo, dezenas de bilhões de reais.
Naturalmente, essa família de distribuições de probabilidades tem nome especial: distribuição binomial,
com parâmetros n e p. Dizemos então que a variável aleatória X tem distribuição binomial com
parâmetros n e p, ou simplesmente, X~b(n, p). De uma forma bem geral, ela conta o número de
sucessos em n repetições independentes de um mesmo experimento aleatório binário Ep. Ela é uma
variável aleatória discreta inteira e pode assumir n+1 valores diferentes. A denominação binomial
decorre se sua óbvia e estreita associação com o binômio de Newton.
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
14
Sendo PX{x} uma função de distribuição de probabilidades sobre o suporte X={0, 1, 2, 3, …, n}, é claro
que ∑ * + tem que ser igual a 1. E, de fato:
∑
, -
A figura ao lado ilustra a distribuição b(20, 0,5). Ela representa
graficamente a distribuição de probabilidades de X, o número de
caras em 20 arremessos de uma moeda comum. Como se vê,
nesse experimento a probabilidade do resultado perfeitamente
equilibrado, com 10 caras e 10 coroas, é algo em torno de 0,175
(mais precisamente, 0,1762). Já a probabilidade de 16 caras e 4
coroas é de apenas 0,0046.
Exemplos
Quando se quer estimar, a partir de uma amostra, a fração dos indivíduos de uma população que
apresentam certa característica (uma opinião sobre determinado tópico, por exemplo, como a preferência
por determinado candidato, ou o apoio a determinada alternativa de política pública) normalmente se
recorre à distribuição binomial. Primeiro concebendo um experimento binário Ep onde p é aquela fração
ainda desconhecida. Para isto basta sortear, completamente ao acaso, um indivíduo da população. Por
“completamente ao acaso”, aqui, quer dizer que, no sorteio, cada indivíduo tem exatamente a mesma
probabilidade de vir a ser o sorteado que qualquer outro na população. Se a população tem N indivíduos,
então aquela probabilidade é 1/N. Com o sorteio aleatório podemos ter dois resultados: ou o indivíduo
sorteado possui aquela característica, ou não. Se sim, sucesso. Se não, fracasso. Pronto, temos um
experimento binário Ep, onde p é exatamente a fração que se quer estimar. Agora, basta repetir Ep
independentemente um número suficientemente grande de vezes, que representamos por n, o tamanho
da amostra. Acumulando em X o número de vezes que se teve sucesso e temos X~b(n, p). Como a fração
amostral de respostas favoráveis
tende a cair bem perto de p quando n é
grande, temos aqui um tiro certeiro: a fração amostral é uma boa estimativa de p. E ficam aqui as
perguntas: o quê é um n “grande o suficiente”? E quão boa será a estimativa? Isto veremos adiante, mas
por enquanto vale o exemplo: Se p=0,3 e n=1000 (curiosamente, não interessa absolutamente o tamanho
populacional N) a probabilidade de X cair entre 470 e 530 é superior a 0,95, portanto cairá, com
probabilidade superior a 0,95, entre 0,47 e 0,53. Faça as contas. Use o computador para calcular
* + ∑
( )
Distribuição Binomial Negativa ou de Pascal
Numa outra composição de experimentos binários, a distribuição binomial negativa generaliza a
geométrica. Seja Ep um experimento binário e seja um experimento que consiste em repetir Ep,
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
0,20
0 2 4 6 8 10 12 14 16 18 20
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
15
independentemente, até a obtenção do n-ésimo sucesso, para dado n fixo e pré-definido. O espaço
amostral, para n=2 é ={SS FSS SFS FFSS FSFS SFFS FFFSS FFSF FSFFS SFFFS ...}, infinito enumerável. Seja
a álgebra completa e a função natural de probabilidades, definida por P{} = pnq
x, onde x é o número de
fracassos em .
Seja X:R definida como o número de fracassos antes de completados os n sucessos. Assim,
{X=x} = {; número de fracassos em é igual a x}
O conjunto suporte de X é o dos inteiros não negativos. Todos os elementos em {X=x} terminam em S e
têm comprimento n+x. A cardinalidade de {X=x} é, pois, , alem disso cada subconjunto elementar
de {X=x} tem a mesma probabilidade natural pnq
x; portanto:
* + * ( ) +
A figura abaixo ilustra a parte mais importante (de 0 a 25, cobrindo uma probabilidade total de 0,99898)
da função de distribuição de probabilidades de uma Binomial Negativa com parâmetros n=3 e p=0,34
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
16
Esperança e Variância de uma Variável Aleatória
Antes de continuar introduzindo novos modelos probabilísticos interessantes, vamos introduzir agora
dois conceitos de importância central no estudo de fenômenos aleatórios: a Esperança e a Variância.
Seja X uma variável aleatória discreta com suporte x, um subconjunto enumerável de R, a esperança
de X, representada por E(X), é definida por:
( ) ∑ * +
A esperança, ou valor médio esperado, de uma v.a. discreta é, portanto, a média de todos os seus
valores possíveis, ponderados pelas respectivas probabilidades. No caso dos três jogadores, a
esperança, ou valor médio esperado, do ganho de A, B e C, por rodada é igual, respectivamente, (faça os
cálculos) a 1,50, -0,75 e -0,75. Pela definição fica clara a associação entre o conceito de esperança e o
de centro gravidade de uma distribuição discreta de massas. Conforme veremos adiante, a esperança ou
valor médio esperado, tem o seguinte
significado físico: se o experimento for
sendo repetido indefinidamente, a
média dos valores obtidos da variável
aleatória irá convergindo fatalmente
(em probabilidade) para sua esperança. Assim, no longo prazo, Ana acumulará um ganho médio de
R$1,50 por rodada, enquanto o ganho médio dos outros dois jogadores, por rodada, estará muito
próximo (calma, logo veremos quão próximo) de R$0,75 negativos por rodada. Para eles, portanto, o
ganho médio esperado será, de fato, uma perda média esperada.
Se o texto está, a esta altura, ainda um pouco desconfortável, povoado de termos vagos e algo
subjetivos, não se desespere. É natural que isto aconteça: há 20 anos você vem sendo induzido e
treinado a pensar o mundo de forma determinística; assim, você não dispõe, ainda, uma linguagem
adequada para lidar com problemas probabilísticos. Como todos os problemas reais são, de fato, total
ou pelo menos parcialmente probabilísticos, a construção desta linguagem – e a conquista de fluência
na mesma – são de elevada importância, e uma das suas mais contundentes conquistas intelectuais
potenciais ao longo deste curso.
Enquanto a esperança de uma variável aleatória diz respeito à média ponderada dos valores que ela
pode assumir, sendo o peso as respectivas probabilidades, a variância refere-se ao grau de dispersão da
distribuição de probabilidade de X em torno da sua esperança. Definida como ( ) [( ( )) ],
nos casos discretos, temos:
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
17
( ) [( ( )) ] ∑ , ( )- * +
Abrindo o argumento do somatório, temos
( ) ∑ , ( ) ( )- * +
( ) ∑ * +
( ) ∑ * +
( ) ∑ * +
Fazendo as substituições apropriadas, com
∑ * + ( ) , ∑ * + ( ) e ∑ * + , chega-se ao resultado geral:
( ) [( ( )) ] ∑ , ( )- * +
( ) ( )
Em diversas situações a expressão V(X)=E(X2)–E
2(X) é mais conveniente para o cálculo da variância do
que a expressão definidora V(X)=E[(X – E(X)]2. Aqui se vê que se uma variável aleatória X é tal que
E(X)=0, então V(X)=E(X2).
Da mesma forma que a esperança tem uma associação matemática como o conceito de centro de
gravidade, a variância se associa ao conceito de momento de inércia de uma distribuição discreta de
massa, em torno de seu centro de gravidade.
A raiz quadrada da variância é denominada desvio padrão, e é representado geralmente por .
Esperança e variância associadas a algumas distribuições de probabilidades
Distribuição de Bernoulli – No caso de X~B(p), temos:
E(X) = 0q +1p = p
Como, nesse caso, X2X, então E(X
2) = E(X) e V(X) = E(X
2) – E
2(X) = E(X) – E
2(X) = p – p
2 = pq
Aparentemente triviais, esses resultados serão importantes adiante, uma vez que muitas variáveis
aleatórias interessantes derivam de experimentos de Bernoulli.
Distribuição Geométrica – No caso de X~G(p)da geométrica, temos
( ) ∑ =
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
18
( )
Assim, o número médio esperado de coroas antes da primeira cara é 1; de resultados menores antes de
um seis em arremessos de um dado é 5; de fracassos na Sena antes do primeiro sucesso é 50.063.859.
Basta ter paciência, portanto.
Para a determinação de uma expressão para a variância de uma G(p), basta agora determinar E(X2).
Vejamos:
( ) ∑ =
( )
( )
( )
( )
( )
( )
(
)
Portanto
( ) ( ) ( )
( )
(
)
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
19
No caso particular de variáveis aleatórias com distribuição binomial, tanto a esperança quanto a
variância possuem expressões muito simples. Aplicando a definição de esperança nesse caso, temos:
( ) ∑ * +
∑
∑
Para n=1, a solução é imediata: E(X) = 1.p + 0.(1-p) = p. Tratemos pois dos casos em que n>1.
( ) ∑
( )
∑
( ) ( )
Colocando n e p em evidência e, dentro do somatório, substituindo, n-1 por m e x-1 por y, e lembrando
que p+q=1, temos
( ) ∑
( )
, -
Assim, para n=100 e p=0,20, por exemplo, E(X)=20, o que não contraria a intuição original.
Para determinar a variância de X~b(n, p), vamos partir de ( ) ( ) ( ). Logo
( ) ( ) ( )
Portanto temos apenas determinar E(X2) :
( ) ∑ * +
∑
∑
Para n=1, a solução é imediata já que, nesse caso, X2X e, portanto, E(X
2)=E(X)=1.p+0.(1-p)=p. Tratemos
pois dos casos em que n>1.
( ) ∑
( )
∑
( ) ( )
∑ ( )
( ) ( )
∑( ) ( )
( )
(∑ ( )
( )
∑( )
( )
)
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
20
As duas parcelas dentro dos parêntesis correspondem a E(Y), onde Y~b(n-1, p) e (p+q)n-1
,
respectivamente. Logo,
( ) ,( ) - , - ( )
V(X) = E(X2) – E
2(X) = (np)
2 – np
2 + np – (np)
2 = np – np
2
V(X) = np(1-p) = npq
Resumo – Distribuição Binomial: A variável aleatória X, correspondente ao número total de sucessos em n
repetições independentes de um mesmo experimento binário EP, com P{S}=p, tem como suporte X = {0 1
2 3 … n}, com função de distribuição de probabilidade:
* + * ( ) + ( )
Em experimentos binários, é comum representar a probabilidade de fracasso (1-p), por q, levando à forma
mais compacta de PX{x}:
* + * ( ) +
A variável aleatória assim caracterizada é dita ter distribuição binomial com parâmetros n e p, o que se
representa por X~b(n, p). A denominação decorre da associação óbvia entre sua função de probabilidades
e a expansão do Binômio de Newton (p+q)n.
Para X~b(n, p), E(X)=np e V(X)=np(1-p)=npq.
Exemplos
2.3 – No Exemplo 2.1, temos
( ) ∑ * +
( ) ∑ ( ( )) * +
∑ ( ) * +
( ) ∑ * +
( ) ( ) ( ) ( )
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
21
( ) ∑ ( ( )) * +
∑( ) * +
∑ * +
2.4 – No jogo proposto anteriormente, vamos calcular esperança e variância de X, Y e Z.
A tabela ao lado dá a distribuição de probabilidades de X, de Y e de Z.
Da definição ( ) ∑ * + , chega-se a E(X)=1,50.
Analogamente, obtém-se: E(Y)=E(Z)=-0,75.
Por outro lado, ( ) ∑ * + , portanto, E(X2)=27,5 e V(X) =
E(X2)-E
2(X) = 27,5-1,50
2 =2 7,5-2,25 = 25,25.
Analogamente, obtém-se E(Y2)=E(Z
2)=19,25 , logo V(Y)=V(Z)=18,6875.
2.5 – Seja X o número de caras em 100 arremessos independentes de uma moeda. Assim, X~b(100, 0,5) e
* + ∑ (
)
(
)
∑ (
)
∑
Efetuando os cálculos: * + . Outras probabilidades interessantes: * +
e * + .
Na figura abaixo, a representação de PX{x}, sobre todo o suporte de X.
2.6 – Aplicação da distribuição binomial em pesquisas de opinião. Em números redondos O Brasil conta
hoje com cerca de 150 milhões de eleitores. Numa eleição nacional, um dos candidatos tem 12% das
intenções de voto. Uma amostra aleatória de 1000 eleitores é sorteada. Os eleitores sorteados são
entrevistados. Seja X o número de eleitores selecionados que declaram intenção de voto em A. A fração
X/n será apresentada ao candidato como a sua fatia do eleitorado no dia da pesquisa. Queremos saber
qual a probabilidade de que o erro da estimativa seja inferior a 2 pontos percentuais, isto é, que esta caia
no intervalo (0,10, 0,14):
0
0,02
0,04
0,06
0,08
0 3 6 9
12
15
18
21
24
27
30
33
36
39
42
45
48
51
54
57
60
63
66
69
72
75
78
81
84
87
90
93
96
99
g P{X=g}
= PX{g}
P{Y=g} =
PY{g}
P{Z=g} =
PZ{g}
-5 0,10 0,15 0,15 -4 0,10 0,15 0,15 -3 0,10 0,15 0,15 -2 0,10 0,15 0,15 -1 0,10 0,15 0,15 2 0,10 0,05 0,05 4 0,10 0,05 0,05 6 0,10 0,05 0,05 8 0,10 0,05 0,05
10 0,10 0,05 0,05
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
22
* + {
+} * +
Como o sorteio de cada eleitor pode ser considerado como um experimento binário com p=0,12, e tal
experimento é realizado, independentemente, 1000 vezes, então o número de sucessos (isto é, respostas
favoráveis ao candidato A) X tem distribuição b(1000, 0,12). Assim:
* + ∑ * +
∑
Usando recursos computacionais para efetuar os cálculos (usei o Excel) obtém-se:
* +
Começamos agora a entender como (porque) as pesquisas amostrais funcionam. Embora entrevistando
uma amostra aleatória de apenas 1000 de um total de cerca de 150 milhões de eleitores, o resultado de A
vai cair muito próprio do valor verdadeiro (no exemplo, 12%).
Entendemos por sorteio aleatório aquele em que um eleitor é sorteado através de um processo no qual
todos os eleitores no universo pesquisado tem precisamente a mesma chance de vir a ser sorteado, e
cada eleitor sorteado é devolvido ao lote, podendo inclusive vir a ser sorteado novamente. Assim, a cada
sorteio a probabilidade de Sucesso, aqui definido como uma resposta favorável ao candidato A, é
precisamente 0,12. Repita os cálculos para n=2000. Note que o tamanho do universo é irrelevante.
Este sorteio é dito com reposição. Tem o mérito de manter a população inalterada durante todo o
processo. Em populações muito grandes (muito maiores que a amostra), este procedimento é
tecnicamente desnecessário.
Olhando por outro ângulo. Muitas pessoas, sem treinamento em fenômenos aleatórios, apresentam com
frequência o seguinte tipo de preocupação: “e se ocorrer um erro enorme, por exemplo, maior que 10
pontos percentuais?”. Isto significaria obter um resultado, por exemplo, maior do que 22%, levando o
candidato a uma percepção totalmente equivocada de sua força eleitoral naquele momento. Vejamos:
* + ∑ * +
∑
Efetuando os cálculos, obtém-se: P{X>220}=2,489810-19
.
Eu não me preocupo com uma probabilidade tão pequena; você também não deveria, uma vez que a sua
probabilidade de vir a ser atingido pelo próximo meteorito que cair na Terra (desses que caem todo dia) é
igual* a 1,9610
-15, portanto 7.886 vezes maior. E você nunca se preocupou com meteoritos caindo sobre
sua cabeça, não é mesmo? [Ooops! Parece que um meteorito andou machucando algumas pessoas ontem
na Rússia.]
(*)Para esse cálculo fiz as seguintes suposições:
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
23
As chances de qualquer metro quadrado da Terra receber o impacto do próximo meteorito que nos atingir são as mesmas, independente de sua localização na superfície do planeta. (Você pode questionar, sim, esta hipótese simplificadora).
Se o meteorito cair no mesmo metro quadrado em que você estiver localizado, você será diretamente atingido. Se não, não.
Á área total da Terra é AT=4RT2 e o raio da Terra é igual ao seu perímetro (40 mil km) dividido por 2, logo
6.366.198m. Então, AT = 509.295.817.894.065m2, e a probabilidade de seu m2 vir a ser o escolhido, o
inverso disto, ou 1,9610-15.
2.7 – Passando o carro diante dos bois. Um resultado muito geral que provaremos mais adiante, nos
permite – como caso muito particular – afirmar, que, se X~b(n, p) com E(X) grande, então
{ ( ) √ ( ) ( ) √ ( )} .
Assim, nesses casos, a probabilidade de X cair no intervalo de mais ou menos dois desvios padrões em
torno de sua esperança é de 95%. Por exemplo, em mil arremessos de uma moeda, seja X o número de
caras; portanto, X~b(1000, 0,5). Logo E(X)=Np=500, V(X)=npq=250 o desvio padrão de X é 15,81.
Assumindo que E(X)=500 já é grande o suficiente, poderemos afirmar que P{ 469 X 531 } 0,95.
De fato, fazendo os cálculos exatos (novamente, usei o Excel), conclui-se que P{ 469 X 531 } 0,9537.
Vê-se que dos 1001 resultados possíveis em X={0, 1, 2, 3, …, 999, 1000}, as leis da probabilidade
garantem que os 63 resultados centrais acumulam probabilidade superior a 0,95. Outros cálculos exatos
surpreendem: P{X<400}=9,010-11
, ou apenas 90 trilionésimos. E P{X<300}? Dá 3,7710-38
. Não tenho um
nome para isso. Por simetria (caso das binomiais com p=0,5), P{X>700}=Dá 3,7710-38
. Sei que você não
perguntou, mas(2)
P{X<195}=1,79110-89
. A figura abaixo é um gráfico de FX(x) para X~b(1000, 0,5), na
região que interessa, de 440 a 560.
Logo teremos tudo isso como casos particulares de importantes resultados gerais da Teoria de Probabilidade, em
particular a primeira Lei Fraca dos Grandes Números, e a primeira versão do Teorema Central do Limite, um dos
mais importantes da Matemática. Você não perde por esperar.
2 Se você tem dificuldade em imaginar algo tão pequeno quanto 10-89, tente imaginar quão grande é 1089. Pense em 1089 grãos de areia fina, dessas de que são necessárias 10 grãos para encher 1mm3. Imagine o universo como uma esfera de 15 bilhões de anos luz de raio. Quantos grãos dessa areia seriam necessários para encher esse universo?
0,0
0,2
0,4
0,6
0,8
1,0
440 460 480 500 520 540 560
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
24
Parte central de uma distribuição b(1000, 0,50), com probabilidade total igual a 0,99861
0,000
0,005
0,010
0,015
0,020
0,025
0,030
45
0
45
3
45
6
45
9
46
2
46
5
46
8
47
1
47
4
47
7
48
0
48
3
48
6
48
9
49
2
49
5
49
8
50
1
50
4
50
7
51
0
51
3
51
6
51
9
52
2
52
5
52
8
53
1
53
4
53
7
54
0
54
3
54
6
54
9
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
25
Propriedades Básicas da Esperança e da Variância
Seja X uma variável aleatória definida no espaço de probabilidades (, A , P), e seja Y uma
transformação linear de X, dada por Y=aX+b, com a e b reais, sendo a0. Então Y é uma variável
aleatória, com esperança e variância dadas por:
E(Y) = a.E(X) + b e V(Y)=a2.V(X)
As provas desses resultados são simples e decorrem diretamente das definições
( ) ∑ ( ) * +
∑ * +
∑ * +
∑ * +
∑ * +
( )
E
( ) ∑ ,( ) ( ( ) )- * +
∑ [ ( ( ))] * +
∑ [( ( ))] * +
( )
Exercícios
Um jogador paga R$12 para jogar. O jogo consiste em arremessar uma moeda 10 vezes; o prêmio é R$2
por cada cara obtida. Seja Y o resultado financeiro final do jogo. Determine FY:R[0, 1], a função de
distribuição acumulada de Y, E(Y) e V(Y). [ Respostas E(Y)=-2 e V(X)=10]
Exemplos:
2.7 – Seja o espaço de probabilidades (, A, P), com ={a, b, c, d, e}; A é a álgebra gerada pela partição
P={{a,b}, {c, d}, {e}} e P é a função de probabilidades definida por P{a, b}=0,40, P{c, d}=0,50 e P{e}=0,10.
Sabemos, então, que: A = {, {a,b}, {c,d}, {e}, {a,b,c,d}, {a,b,e}, {c,d,e}, } e que, sendo P uma função de
probabilidades, P{a,b,c,d}=0,90, P{a,b,e}=0,50,
P{c,d,e}=0,60, alem de, claro, P()=0 e P()=1. Com o
espaço de probabilidades bem estruturado, vamos
definir duas funções, X e Y, de em R, como na tabela ao lado. O diagrama à esquerda
representa a função X.
As funções X: R e Y: R induzem as partições PX e PY de , respectivamente:
PX={ X-1
(0) , X-1
(1) } = { {a,b} , {c,d,e} } e PY={ Y-1
(0) , Y-1
(1) } = { {a,b, c} , {d,e} }
a b c d e
X() 0 0 1 1 1
Y() 0 0 0 1 1
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
26
O espaço amostral e as três partições referidas – P, PX e PY – estão representadas, nessa ordem, no
diagrama ao lado. É imediato verificar que PX P, mas que PY não mantém relação ordinal com as outras.
Sejam AX e AY as álgebras geradas por PX e
PY, respectivamente. Sendo P um
refinamento de PX, conclui-se que qualquer
elemento de PX é também elemento de P,
logo também de A, portanto é mensurável. De outra forma, seja um evento A:
APX AP AA A é mensurável
Por outro lado,
PX P AX A
Assim, qualquer elemento de AX é mensurável, portanto qualquer evento do tipo {X=x} ou {Xx} é
mensurável, isto é, tem P{X=x} bem definida. Concluímos que a função X é mensurável no espaço de
probabilidades (, A, P).
Tal não é, contudo, o caso de Y. A partição de induzida por Y não é nem igual a P, nem uma subpartição
desta. Assim, por exemplo, o evento {a, b, c} PY não pertence a P nem é a união de elementos de P,
portanto {a, b, c}A, não sendo, portanto, mensurável. A função P é definida para os elementos de A,
apenas. Portanto, como {a, b, c} = {Y=0}A, não existe um valor definido para P{Y=0}, portanto, Y não é
mensurável no espaço de probabilidades (, A, P).
Por outro lado, é imediato calcular probabilidades como
P{X=0} = P{a, b} = 0,4
P{X=1} = P{c, d, e} = P( {c, d}{e} ) = P{c, d} + P{e} = 0,5 + 0,1 = 0,6
ou, P{X=1} = P{a, b}c = 1 – P{a, b} = 1 – 0,4 = 0,6
Da mesma forma, qualquer evento do tipo {X=x} ou {Xx} tem probabilidade perfeitamente definida. Por
exemplo,
P{X=2} = P() =0 e P{X<0,17} = P{ ; X()<0,17 } = P{a, b} = 0,4
Ainda,
P{X-0,48} = 0 e P{X4,58} = P() = 1
Assim, qualquer evento definido em termos de X tem valor P perfeitamente bem definido. X é uma função
mensurável em (, A, P). A função Y, por outro lado, não se ajusta bem ao espaço (, A, P). Não é
mensurável, portanto não é uma variável aleatória
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
27
2 – Seja o espaço de probabilidades (, A, P), e seja A um evento qualquer (não necessariamente
mensurável), com função indicadora do evento IA : R, definida por
IA()= {
A função I, que induz uma partição binária de : { A, Ac}, é mensurável se e somente se AA. Neste caso,
( ) {
( )
E(IA) = P(A) e V(IA) = P(A)[1-P(A)]
3 – Seja um experimento aleatório composto por três arremessos sucessivos e independentes de uma
moeda. Então, = {ccc, ccC, cCc, Ccc, cCC, CcC, CCc, CCC}, e seja a partição de ,
P = { {ccc} , {ccC, cCc, Ccc} , {cCC, CcC, CCc} , {CCC} }
(dê uma propriedade definidora para cada um dos elementos da partição acima) Seja A a álgebra induzida
por P. Partindo de (, A), vamos completar um espaço de probabilidades definindo uma função de
probabilidades, P, por:
P{ccc} = 0,10 , P{ccC, cCc, Ccc} = 0,20 , P{cCC, CcC, CCc} = 0,30 e P{CCC} = 0,40
A função P definida acima não é a natural, uma vez que não procuramos manter nenhuma coerência com
as propriedades concretas do experimento. Ela apenas atende aos dois axiomas definidores de funções de
probabilidade. Como sabemos, a definição de P para cada elemento da partição geratriz de A (o que
equivale dizer, para cada átomo da álgebra) completamente define a função de probabilidades P.
Antes de definir duas funções, X e Y, de A em R, vamos dar nomes alguns eventos:
A0={ccc}, A1={ccC, cCc, Ccc}, A2={cCC, CcC, CCc} e A3={CCC}
B1={ccc, cCc, CcC, CCC} e B2={cCc, cCC, CCc, CCC}
O evento Ai pode ser descrito como: o subconjunto dos elementos , para os quais o número de caras
é i. O evento B1 é o subconjunto dos , para os quais o primeiro resultado é igual ao último; B2 agrega
os , para os quais o resultado do meio é C. A propósito, os eventos Ai são mensuráveis; os Bi, não
Vamos agora definir X:R e Y:R por:
X() = IA1() + 2 IA2() + 3 IA3()
e Y() = IB1() + 2 IB2()
À direita temos X e Y numa conveniente
forma tabular:
As respectivas funções inversas, X-1
:R e Y-1
:R, são fáceis de definir:
ccc ccC cCc Ccc cCC CcC CCc CCC
X() 0 1 1 1 2 2 2 3
Y() 1 0 3 0 2 1 2 3
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
28
X-1
(0)={ccc}=A0 X-1
(1)={ ccC, cCc, Ccc } =A1 X-1
(2)={cCC, CcC, CCc} =A2 X-1
(3)={CCC}=A3
Para qualquer outro xR, X-1
(x)=. A função Y também assume apenas os valores 0, 1, 2 e 3, com
Y-1
(0)={ccC, Ccc} Y-1
(1)={ ccc, CcC } Y-1
(2)={cCC, CCc} =A2 Y-1
(3)={cCc, CCC}=A3
Também aqui, para qualquer outro xR, Y-1
(x)=. A imagem de qualquer intervalo IR induzida por X em
, é o subconjunto dos elementos tais que X()I.
Tanto X como Y induzem uma partição de . A de X está contida em A. Aliás, é a sua partição geratriz. A
partição induzida por Y, por outro lado, não tem relação ordinal com P (nem P é um refinamento dessa
partição nem essa partição é um refinamento de P). X é mensurável e Y, não.
Distribuição conjunta de variáveis aleatórias
Sobre um mesmo espaço de probabilidades pode-se definir um número ilimitado de funções
mensuráveis diferentes, do tipo X:R. Cada variável aleatória terá sua distribuição de probabilidades,
sua esperança e variância. Contudo é frequentemente interessante analisar o comportamento
probabilístico conjunto de duas ou mais variáveis.
Seja o espaço de probabilidades discreto (, A, P), e duas funções mensuráveis, X:R e Y:R, com
respectivas funções de probabilidade, PX e PY, bem definidas em (R, B). Podemos pensar em termos da
distribuição conjunta de probabilidades:
P{x, y} = P{; X()=x e Y()=y} = P{; X()=x}{; Y()=y} = P{X=x}{Y=y}
Como X e Y são mensuráveis, cada um dos eventos {X=x}={; X()=x} e {Y=y}={; Y()=y}
pertencem a A e, portanto, sua intersecção também pertence, garantindo a perfeita definição da
probabilidade no segundo membro da equação acima.
Como P{X=x}{Y=y} = P{X=x}P{Y=y}\{X=x}, se os eventos {X=x } e {Y=y } forem independentes, então
P{x, y} = P{X=x } P{Y=y }.
Diz-se que duas variáveis aleatórias definidas num mesmo espaço de probabilidades são independentes,
se os eventos {X=x } e {Y=y } são independentes, para qualquer par (x, y) no suporte conjunto de X e Y.
Exemplos:
2.9 – Sejam , com = {1 2 3 4 5}{1 2 3 4 5} = {11 12 13 … 52 53 54 55}, a álgebra completa e a função
natural de probabilidades. Sejam as variáveis aleatórias W1 e W2 respectivamente o resultado do primeiro
e do segundo lançamento, X = W1 + W2 e Y = W2 – W2. Podemos mostrar que W1 e W2 são independentes,
confirmando nossa intuição a priori, dado que o resultado no segundo lançamento não depende do
resultado no primeiro, e vice-versa. Segue a prova formal.
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
29
A função W1 parte em cinco eventos:
{11 12 13 14 15}, {21 22 23 24 25}¸ {31 32 33 34 35}, {41 42 43 44 45} e {51 52 53 54 55}
A função W2 define outra partição, também de cinco eventos:
{11 21 31 41 51}, {12 22 32 42 52}, {13 23 33 43 53}, {14 24 34 44 54} e {15 25 35 45 55}
O espaço amostral e as partições referidas estão representados abaixo numa forma mais gráfica:
Cada uma das partes nas duas partições acima tem 5 elementos e, portanto, probabilidade igual a 0,20.
Vamos mostrar que o primeiro evento da partição definida por W1, {W1=1}={11 12 13 14 15} é
independente de {W2=1}={11 21 31 41 51}:
* + * + * + * +
* +
* +
* +
* +
De maneira análoga se pode provar o mesmo para qualquer um dos demais 24 pares de eventos do tipo
{W1=a} e {W2=b}, portanto, qualquer evento da primeira partição é independente de qualquer evento da
segunda partição e podemos concluir que P{W1=a, W2=b} = P{W1=a}P{W2=b}. As duas variáveis aleatórias
são, portanto, independentes.
O mesmo não pode ser dito para W1 e X, W2 e X, W1 e Y, W2 e Y, X e Y. Vejamos, por exemplo:
P{X=5} = P{14 23 32 41} = 0,16
* + * + * + * +
* + * + * +
* +
* +
* +
Portanto P{X=5}\{W1=2} P{X=5}, e concluímos que W1 e X não são v. a.’s independentes entre si.
Da mesma forma prova-se que nenhum dos demais pares de v.a.’s são independentes entre si.
Não podemos, portanto, simplesmente dizer que P{X=x e Y=y} = P{X=x}P{Y=y}. Em vez disso:
* + * + * + * () () +
* + * + * +
Por exemplo,
* + * + * + * + * + * +
Enquanto P{X=7}P{Y=3}=P{52 43 34 25}P{14 25}=0,160,08=0,0128.
Tendo calculado * + diretamente de {X=7}{Y=2}, perdemos a oportunidade e a diversão
de calcular a probabilidade condicional de {X=7} dado {Y=3} ou a probabilidade condicional de {Y=3} dado
{X=7}. Vamos preencher esta lacuna:
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
30
* + * + * + * +
* +
e
* + * + * + * +
* +
Assim, enquanto a probabilidade a priori de {X=7} é 0,16, condicionada a {Y=3} ela é bem maior: 0,50. Do
outro lado enquanto a probabilidade a priori de {Y=3} é 0,08, condicionada a {X=7} ela cresce para 0,25.
Vemos assim que esses dois eventos são dependentes, e guardam entre si uma associação positiva, no
sentido de que a ocorrência de um aumenta a probabilidade de ocorrência do outro.
Exercícios
3.
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
31
Esperança e variância de combinações lineares de v.a.’s independentes
Sejam o espaço de probabilidades (, A, P); X e Y duas v. a.’s discretas e independentes, de
suportes X e Y, respectivamente; e Z=aX+bY uma combinação linear de X e Y, com a e b reais
não nulos. Então, E(Z) = aE(X)+bE(Y) e V(Z)=a2V(X)+b2
V(Y).
A prova desses dois resultados é simples. Seja
{X=x e Y=y} = { ; X()=x e Y()=y } = { ; X()=x } { ; Y()=y }.
Logo,
P{X=x e Y=y} = P{ ; X()=x } { ; Y()=y} = P{ ; X()=x }P{ ; Y()=y}
Portanto
( ) ( ) ∑ ∑ ( ) * +
∑ ∑ ( ) * +
* +
∑ ∑ , * + * + * + * +-
∑ ∑ * + * +
∑ ∑ * + * +
∑ * + ∑ * +
∑ * + ∑ * +
∑ * +
∑ * + ∑ * +
( ) ( )
Para a prova do segundo resultado vamos primeiro provar que, sendo independentes, E(XY)=E(X)E(Y).
De fato
( ) ∑ ∑ * +
∑ ∑ * +
* +
∑ ( * + ∑
* +)
∑ * + ( )
( ) ∑ * +
E concluímos que, sendo X e Y independentes, ( ) ( ) ( ).
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
32
Então
( ) ( ) ∑ ∑ ( ) * +
∑ ∑ ( ) * + * +
( ) ( ) ∑ ∑ * + * +
( ) ( ) ( ) ( )
Portanto
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ( ) ( ))
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ( ) ( )) ( ( ) ( ))
E concluímos: que V(Z) = V(aX + bY) = a2.V(X) + b2.V(Y). Vejamos alguns exemplos.
Exemplos
1 – Seja E um experimento aleatório qualquer e (, A, P) um espaço de probabilidades adequado. Seja X uma
variável aleatória definida nesse espaço, com E(X)= e V(X)=2 . Sejam n repetições independentes de E, com
os n resultados independentes de X, denominados X1, X2, … , Xn. Considere os espaços amostrais usuais para o
caso. Sejam ∑ e
∑ , respectivamente o número total e a frequência relativa de
sucessos nas n replicações.
Como E(X)=p e V(V)=pq, concluímos que
( ) ( )
( ) ( )
( )
( )
( )
( )
Essa última propriedade é importantíssima. Ela diz que a variância da média de n observações independentes
de uma mesma variável aleatória X (suposta de variância finita), converge para zero quando n cresce para .
Creio que não seria exagero afirmar que, se a lei natural implícita na mesma não existisse na natureza, a vida
talvez não existisse e, mesmo que existisse, a vida inteligente, certamente que não.
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
33
Um caso particular interessante dos resultados acima ocorre quando o experimento aleatório envolvido é o Ep.
Neste caso X~B(p) e Sn corresponderia ao número de sucessos em n repetições independentes de um
experimento binário com P{S}=p. Portanto, Sn~b(n, p). Como, nesse caso, E(X)=p e V(X)=np, concluímos pelos
resultados acima que E(Sn)=np e V(Sn)=npq. Esses resultados já são nossos conhecidos [ver dedução dos
mesmos por caminhos muito mais trabalhosos, na seção sobre a distribuição binomial].
2 – Seja o experimento estocástico D5, com respectivo espaço de probabilidades natural. Seja X a variável
aleatória correspondente ao resultado obtido. Seja o experimento que corresponde a n repetições
independentes de D5, e X1, X2, … , Xn os respectivos valores de X. Definindo acima, Vamos determinar a
esperança e a variância de cada uma dessas duas variáveis aleatórias. Ora,
( ) ∑ * +
∑
( ) ∑ * +
∑
portanto
( ) ( ) ( )
Com esperança e variância de X tão bem comportados (números inteiros), o D5 é mais adequado aos exemplos
nos quais exploraremos as propriedades de sequências ilimitadas de repetições de experimentos aleatórios.
Compare por exemplo com o tradicional D6: aqui, E(X)=3,5 e V(X)=2,916666… .
Conclui-se então que: ( ) ( ) ( ) ( )
Logo veremos como tirar proveito desses fatos.
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
34
A desigualdade de Tchebyshev e a Primeira Lei dos Grande Números
Um valor observado de uma variável aleatória pode cair mais próximo ou mais distante de seu centro de
gravidade (isto é, de seu valor médio esperado). Se X tem suporte X enumerável, e se E(X) X, então
é possível que a variável aleatória X assuma um valor exatamente igual à seu valor médio esperado.
Seja X uma variável aleatória com esperança e variância 2. Ao valor D = X – denominamos desvio de
X em relação à sua esperança. Por exemplo, seja D5 e seja X
definida como o resultado observado. Numa realização de D5
podemos ter X=4. Como E(X)=3, dizemos nesse caso que X
desviou 1 ponto em relação ao seu valor médio esperado, ou
D=1. Caso X=2 então D= –1.
Esse desvio é, por sua vez, uma variável aleatória com
E(D) = E(X – ) = E(X) – = – = 0
V(D) = V(X – ) = E(X) = 2 = 0
A desigualdade de Tchebyshev demarca um limite superior para a probabilidade de D assumir valores
absolutos muito grandes:
*| | + *| | +
para qualquer positivo.
A prova é simples e direta. Primeiro vamos separar X em dois subconjuntos disjuntos: aquele onde
|D|>e o seu complemento, onde |D|. Para simplicidade de notação seja A={xX ; |D|>} . A
desigualdade pode então ser reescrita na forma ( )
.
Temos, por definição,
( ) ∑( ) * +
Assim:
( ) ∑( ) * +
∑( ) * +
Ambas as parcelas do lado direito da expressão acima são não negativas. Eliminando a segunda, ficamos
com
( ) ∑( ) * +
Resultado de D5
o o o
o o
o
o o
o o
o o
o
o o
Valor de x 1 2 3 4 5
Valor de D -2 -1 0 1 2
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
35
Em A, |x-| é sempre maior que . Logo, substituindo na expressão acima, (x–)2 por
2, o lado direito
ficará ainda menor. Então:
( ) ∑ * +
∑ * +
( )
Portanto
( ) ( )
Provando o resultado.
Essa desigualdade tem implicações teóricas muito importantes. A partir dela deduziremos a primeira lei
dos grandes números.
Exemplo
Seja D5 com o espaço de probabilidades natural (, álgebra completa e função natural de probabilidades). Seja
X a v.a. que associa a cada resultado possível o seu valor numérico correspondente. Portanto, E(X)=3 e V(X)=2.
O experimento D5 é repetido independentemente, n vezes e sejam Sn e como usualmente definidos.
Sabemos que E(Sn)=3n, V(Sn)=2n, E( )=3 e V( )=2/n. Podemos então afirmar que
*| | +
Por exemplo, para n=10.000, a desigualdade de Tchebyshev garante que:
*| | +
De valor prático nulo. Para n muito maior os limites superiores estabelecidos pela desigualdade já
adquirem algum valor prático. Por exemplo, com n=1.000.000 podemos afirmar que
*| | +
Ou, equivalentemente,
P{ 2.990.000 S1.000.000 3.010.000} > 0,98
Nesse exemplo, usamos a desigualdade de Tchebyshev para construir intervalos de probabilidade pré
definida para X. De utilidade operacional é limitada, seu valor teórico é imenso, como veremos adiante,
na prova da primeira lei dos grandes números. Para o cálculo de probabilidades de intervamos
contaremos logo com resultados mais convenientes. Eles permitirão determinar que, no contexto do
exemplo acima, para n=10.000, *| | + e, para n=1.000.000 *| | + .
Primeira lei dos grandes números
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
36
Seja uma variável aleatória X, com esperança e variância 2. Sejam n medições sucessivas e
independentes de X, com valores observados X1, X2, … , Xn, e com como usualmente definido. Então,
para qualquer >0, arbitrariamente pequeno, *| | + . Reciprocamente, podemos
dizer que * + .
Esta propriedade afirma que não interessa quão estreito o intervalo em torno da E(X), a probabilidade
de cair dentro desse intervalo tende a 1 quando n cresce ao infinito. Dizemos que converge em
probabilidade à esperança de X. No caso particular do arremesso de uma moeda, a fração de caras
converge em probabilidade para 0,5 quando o número de arremessos cresce para . Da mesma forma,
em sucessivas repetições de D5 (arremesso de um dado de 5 lados), o resultado médio converge em
probabilidade para 3 quando n.
Este resultado sai como consequência imediata da Desigualdade de Tchebyshev, uma vez que o limite,
quando n de V( ) é zero.
Usando recursos técnicos que serão introduzidos adiante, calculamos o valor exato de P{2,99 3,01}
para n repetições de D5, para diversos valores de n
n 100 1.000 10.000 100.000 1.000.000 10.000.000
P{2,99 3,01} 0,08449 0,18563 0,52270 0,97465 1,00000 1,00000
Exercícios:
4. Determine o limite superior de Tchebychev e o valor exato para das probabilidades dos seguintes
eventos
a. {| |
} com Sn igual à soma dos n primeiros resultados parciais em uma sequência
de repetições independentes de D5.
b. {|
| } com igual à frequência relativa de caras no primeiros n de uma
sequência de arremessos independentes de uma moeda normal.
c. *| | + com igual à média dos 50 primeiros resultados parciais em uma
sequência de repetições independentes de D5, para n=10, 25, 50 e 100.
d. {|
| } com igual à
frequência relativa de caras no
primeiros n de uma sequência de
arremessos independentes de uma moeda normal, para n=10, 50, 1000, 10.000.
5. Uma sacola contém 10 bolas idênticas, exceto na cor. Um experimento E consiste em sortear uma
das bolas ao acaso, anotar a cor e devolvê-la à sacola. Uma função X:R é definida, segundo a
tabela abaixo. O experimento E será repetido sucessivamente, n vezes, gerando X1, X2, X3, X4, … . Seja
a média aritmética dos n primeiros valores observados. Calcule:
cor verde amarelo azul branco
n de bolas 4 3 2 1 X 1 2 3 4
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental
Prof. Sebastião de Amorim
37
a. A probabilidade de que o resultado 1 não apareça nem uma vez entre os 10 primeiros
resultados.
b. A probabilidade de que o resultado 3 apareça exatamente 25 vezes entre os 100 primeiros
resultados
c. A probabilidade de que o evento {1 2} ocorra pelo menos 30 vezes entre os 40 primeiros
resultados.
d. O limite superior de Tchebychev para *| ( )| + para n=10, 100, 1.000 e
10.000.