2. Introdução a Probabilidade

37
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental Prof. Sebastião de Amorim 1 Introdução à Teoria da Probabilidade Fascículo 2 - VARIÁVEIS ALEATÓRIAS – distribuição e propriedades básicas Variáveis aleatórias são funções reais definidas em espaços amostrais; elas associam valores reais aos resultados de um experimento aleatório: X : R É comum em experimentos aleatórios, estarmos mais interessados em algum aspecto quantitativo do resultado do que no resultado específico. Como no caso de , em que frequentemente o resultado de interesse é o número total de sucessos, independente da ordem em que os mesmos ocorreram. Em dez arremessos de uma moeda existem () maneiras diferentes de se obter 4 caras e 6 coroas, contudo, em muitas situações práticas, a ordem específica como as 4 caras foram obtidas é irrelevante. Como ilustração, vamos explorar o experimento , correspondente a três arremessos sucessivos de uma moeda. Temos aqui o espaço amostral = { ccc ccC cCc Ccc cCC CcC CCc CCC}. Para completar um espaço de probabilidades seja A a álgebra completa de subconjuntos de , com seus 256 elementos, e P a função natural de probabilidades para o experimento considerado, aquela que associa 2 –3 =0,125 a cada um dos oito eventos unitário. Definindo a função X : R por X( ) = [número de caras em ], para todo , transformamos em X = { 0 1 2 3 } Sob esse novo ponto de vista, o conjunto de todos os resultados possíveis de é X . Podemos definir a álgebra completa de subconjuntos de X , que denominaremos A X e tem apenas 16 elementos. Estando interessados apenas no número de caras, e não na sequência específica em que elas foram obtidas, esta estrutura bem mais simples é suficiente. Precisamos agora trazer para esse novo espaço de probabilidades, ( X , A X ), uma função de probabilidades – vamos denominá-la P X – que seja coerente com a função P, em ( , A ). Para simplicidade de notação vamos representaremos por {X=x} o subconjunto de formado pelos elementos para os quais a função X associa valor x. Assim: {X=x} = { ; X( )=x} Nesse exemplo, {X=1} = { ccC cCc Ccc }, {Xx} = { ; X( )x }, e assim por diante.

description

Probabilidade

Transcript of 2. Introdução a Probabilidade

Page 1: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

1

Introdução à Teoria da Probabilidade

Fascículo 2 - VARIÁVEIS ALEATÓRIAS – distribuição e propriedades básicas

Variáveis aleatórias são funções reais definidas em espaços amostrais; elas associam valores reais aos

resultados de um experimento aleatório:

X : R

É comum em experimentos aleatórios, estarmos mais interessados em algum aspecto quantitativo do

resultado do que no resultado específico. Como no caso de , em que frequentemente o resultado de

interesse é o número total de sucessos, independente da ordem em que os mesmos ocorreram. Em dez

arremessos de uma moeda existem

( ) maneiras diferentes de se obter 4 caras e 6

coroas, contudo, em muitas situações práticas, a ordem específica como as 4 caras foram obtidas é

irrelevante.

Como ilustração, vamos explorar o experimento , correspondente a três arremessos sucessivos de

uma moeda. Temos aqui o espaço amostral = { ccc ccC cCc Ccc cCC CcC CCc CCC}. Para completar um

espaço de probabilidades seja A a álgebra completa de subconjuntos de , com seus 256 elementos, e P

a função natural de probabilidades para o experimento considerado, aquela que associa 2–3

=0,125 a

cada um dos oito eventos unitário.

Definindo a função X : R por X() = [número de caras em ], para todo , transformamos

em

X = { 0 1 2 3 }

Sob esse novo ponto de vista, o conjunto de todos os resultados possíveis de é X. Podemos definir

a álgebra completa de subconjuntos de X, que denominaremos AX e tem apenas 16 elementos. Estando

interessados apenas no número de caras, e não na sequência específica em que elas foram obtidas, esta

estrutura bem mais simples é suficiente. Precisamos agora trazer para esse novo espaço de

probabilidades, (X , AX), uma função de probabilidades – vamos denominá-la PX – que seja coerente

com a função P, em ( , A ).

Para simplicidade de notação vamos representaremos por {X=x} o subconjunto de formado pelos

elementos para os quais a função X associa valor x. Assim:

{X=x} = { ; X()=x}

Nesse exemplo, {X=1} = { ccC cCc Ccc }, {Xx} = { ; X()x }, e assim por diante.

Page 2: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

2

Seja agora X-1

:R a transformada inversa de X. Usaremos aqui a seguinte notação:

X-1

(x) = { ; X()=x} = {X=x} e X-1

(a, b] = { ; a<X()b} = {X(a, b]}

Desta forma, nesse exemplo, X-1

(2, 4] é o conjunto dos elementos , tais que X() é maior que dois e

menor ou igual a quatro, portanto X-1

(2, 4]={ CCC }. Por outro lado:

X-1

(-, 1] = { ccc ccC cCc Ccc }, X-1

(-, 0]={ ccc }, X-1

(-, -2)=, X-1

(-1, 0)=, etc.

Acho que você já pegou a ideia. Qualquer subconjunto de R tem uma imagem associada em , que

pode ser ora o próprio - como é o caso de X-1

(-2, 10), ou o vazio, como em X-1

(-, 0).

Mas especificamente, a cada elemento de, X-1

associa um subconjunto de . Esses subconjuntos da

forma X-1

(x), para xX, são disjuntos e cobrem todo o , ou seja, X-1

(x1)X-1

(x2)= para todo x1x2 de

X, e ⋃ , ( )- . Assim, a transformada inversa, X-1

:R, define uma partição de . No

exemplo das três moedas esta partição tem quatro elementos:

X-1

(0)={ccc} X-1

(1)={ ccC cCc Ccc } X-1

(2)={ cCC CcC CCc } e X-1

(3)={ CCC }

Dizemos que esta partição de é induzida por X; vamos denominá-la, provisoriamente, PX. Quando ela

é mensurável, isto é, PXA, (como é o caso nesse exemplo), então a função X é mensurável, portanto

uma variável aleatória.

Como nesse exemplo PX é mensurável (isto é, cada um de seus elementos é um evento mensurável, com

valor de P bem definido), podemos associar a cada subconjunto unitário {x}X um valor de

probabilidade igual ao valor da probabilidade do elemento correspondente em PX. A esta nova função

de probabilidades definida em AX, denominaremos PX. Ela é, por construção, coerente com P. Assim,

para cada x,

PX{x} = P{X=x} = P[ X-1

(x) ]= P{ ; X()=x}

Nesse exemplo, dos 3 arremessos de uma moeda, temos, então:

PX{0} = P{X=0} = P{ ccc } = 0,53 = 0,125

PX{1} = P{X=1} = P{ ccC cCc Ccc } = 30,53 = 0,375

PX{2} = P{X=2} = P{ cCC CcCc CCc } = 30,53 = 0,375

PX{3} = P{X=3} = P{ CCC } = 0,53 = 0,125

Vimos assim, como a função X induziu o espaço de probabilidades (X , AX , PX ) em perfeita coerência

com ( , A , P ). Com PX definida para todos os átomos de AX, sua determinação para qualquer outro

Page 3: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

3

elemento de AX é imediata, decorrendo das propriedades fundamentais das funções de probabilidades.

Por exemplo: PX{1 2} = PX[ {1}{2} ] = PX{1} + PX{2} = 30,53

+ 30,53

= 60,53

= 0,750.

E analogamente para todos os outros eventos em AX. Por razões operacionais diremos que variável

aleatória é qualquer função mensurável de em R. Essa restrição a funções mensuráveis faz sentido

prático, uma vez que só elas permitem um tratamento probabilístico completo. Nos casos discretos,

frequentemente adotamos a álgebra completa. Nesses casos, qualquer função X:R é mensurável.

No caso considerado acima transferimos o foco, da específica sequência de caras e coroas para o

número de caras. Do espaço de probabilidades original ( , A , P ) para (X , AX , PX ), o espaço induzido

por X. Nesse processo foi mantida – por construção – a coerência entre PX e P. Como P havia sido

definida de forma a refletir as propriedades reais do experimento estocástico considerado, o que nos

levou a qualificá-la como a função natural de probabilidades, a garantida coerência entre P e PX confere

a esta a qualidade de função natural de probabilidade para o caso tratado.

O espaço amostral agora é um subconjunto dos reais – XR – o que nos confere versatilidade

operacional. Podemos agora pensar, por exemplo, no resultado médio de n repetições independentes

de um mesmo experimento aleatório E. Voltando ainda ao exemplo anterior, do experimento aleatório

dos três arremessos sucessivos e independentes de uma moeda comum, podemos especular sobre,

por exemplo, o valor médio de X em m repetições independentes do mesmo. Assim:

Seja como definido e X o número resultante de caras. Repetindo

independentemente m

vezes1, sejam X1 X2 X3 … Xm os m resultados parciais, e

∑ , a sua média

aritmética. Em termos probabilísticos, o que se pode dizer de ?

Tenho certeza de que você se surpreenderá com o grau de nitidez das previsões que podemos fazer

sobre para valores grandes de m. Por exemplo, embora a média possa, em princípio, assumir

qualquer um dos 10.001 valores em {0,0000 0,0001 0,0002 … 2,9999 3,0000}, podemos prever que,

com quase certeza, ela acabará mesmo é no subconjunto de apenas 521 elementos {1,4740 … 1,5260).

Dissemos “com quase certeza”, porque a probabilidade dessa previsão falhar é menor que 0,003. Na

figura abaixo, a faixa completa de variação de , destacando no centro, em vermelho, a região na

qual a probabilidade desse resultado médio acabar caindo é igual a 0,997. O resultado médio das 10 mil

repetições é, portanto, muito mais previsível do que poderia parecer ao olhar destreinado.

Logo conquistaremos este novo território. Para isto temos que ampliar nosso arsenal de conceitos

probabilísticos. Vamos começar reassentando nosso campo de trabalho, de um espaço amostral

1 Podemos representar esse experimento duplamente composto por (

)

Page 4: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

4

qualquer para o conjunto dos reais, e expandindo o espaço de probabilidades de (X , AX , PX ) para (R, B,

PX). Esta expansão é simples: basta definir a probabilidade de qualquer intervalo real do tipo (-, x],

por:

PX(-, x] = P( X-1

(-, b] ) = P{ ; X{) x }.

Ampliando o exemplo anterior, considere , com álgebra completa e

função natural de probabilidades. Temos:

( -

{

Como se vê, com pouco esforço e sem nenhum comprometimento da

perfeita coerência com a função original de probabilidades, P, estendemos

PX para (R, B) , onde B é a -álgebra de Borel. Ao conjunto X

denominaremos suporte de X.

Podemos agora definir F:R[0,1] por

F(x)=P(-, x], denominada função de

distribuição acumulada de

probabilidades da variável aleatória X

(mais sucintamente: f.a.d.p. de X). Esta

função é sempre não decrescente (isto é,

F(x+)F(x), para todo x e qualquer >0)

com ( ) ( ) . Para o experimento anterior, E0,54, com X definida como o

número total de caras, a f.a.d.p é representada no gráfico acima.

0,0

0,2

0,4

0,6

0,8

1,0

-1 0 1 2 3 4 5

F(x)

x

0,0

0,1

0,2

0,3

0,4

0 1 2 3 4

P{X

=x}

x

Page 5: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

5

Exemplos:

2.1 – Seja o experimento D52, como já definido, e seja o espaço de probabilidades ( , A , P ), onde:

={11 12 13 14 15 21 22 23 24 25 31 32 33 34 35 41 42 43 44 45 51 52 53 54 55}

Sejam ainda a álgebra completa A e a função natural de probabilidades, definida a partir de

*+

Seja X:R e Y:R duas funções definidas por:

X() = soma dos resultados parciais em ; exemplo: X(25) = 2+5 = 7

Y() = diferença entre o segundo e o primeiro resultado parcial em ; exemplo: Y(31) = 1–3 = –2

Podemos então compor: X={2 3 4 5 6 7 8 9 10} e Y={-4 -3 -2 -1 0 1 2 3 4 }, com respectivas álgebras

completas. As funções de probabilidade PX e PY, coerentes com P, são dadas nas tabelas abaixo:

Por enquanto X e Y estão

assentadas em espaços de

probabilidade diferentes. Vamos

corrigir esta inconveniência

substituindo X e Y por

XY=XY. Podemos expandir

as funções Px e PY para o espaço (R, B), simplesmente fazendo: FX(x) = PX(-, x] = P{ ; X{)x} e

FY(y) = PY(-, y] = P{ ; Y{)y}.

z -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10

PX{z} 0 0 0 0 0 0 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04

PY{z} 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04 0 0 0 0 0 0

FX(z) 0 0 0 0 0 0 0,04 0,12 0,24 0,40 0,60 0,76 0,88 0,96 1

FY(z) 0,04 0,12 0,24 0,40 0,60 0,76 0,88 0,96 1,00 1,00 1,00 1,00 1,00 1,00 1,00

Estas funções referem-se a variáveis aleatórias discretas, com suportes finitos, mas se estendem sobre

todo o eixo real (-, ). Elas estão representadas abaixo nas formas tabular e gráfica (responda rápido:

qual das duas curvas corresponde a FX(x)? )

0,00,20,40,60,81,0

-10 -5 0 5 10 15

x 2 3 4 5 6 7 8 9 10

PX{x} 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04

FX(x) 0,04 0,12 0,24 0,40 0,60 0,76 0,88 0,96 1,00

y -4 -3 -2 -1 0 1 2 3 4

PY{y} 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04

FY(y) 0,04 0,12 0,24 0,40 0,60 0,76 0,88 0,96 1,00

Page 6: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

6

Estando agora as variáveis aleatórias X e Y assentadas num espaço de probabilidades comum, podemos

explorar suas propriedades

conjuntas.

A distribuição conjunta de

probabilidades de X e Y apoia-se

sobre um suporte discreto e finito

(uma grade) no R2. Ela pode,

portanto, ser representada na

forma tabular acima (nesse caso, de

curiosa simetria).

Também podemos falar de função de distribuição acumulada conjunta de duas variáveis, definida em R2 e

tomando valores no intervalo [0, 1], como:

FX,Y(x, y) = P( {Xx}{yY} ) = P{ ; X()x e Y()y}

Por exemplo, F(0, 0)=0, F(2, 0)=0,04, F(6, 0)=0,36, F(10, 4)=1.

2.2 - Uma jovem A, estudante de Engenharia, tendo já aprendido um pouco de Probabilidade, inventa e

propõe a dois amigos, B e C, um novo jogo de mesa, envolvendo duas moedas comuns e um dado (D5,

para maior simplicidade aritmética). Nesse jogo, Ana controla o dado; Bruno e Camila, uma moeda cada.

A cada rodada, primeiro Bruno e Camila arremessam suas moedas, definindo o vencedor: se duas caras, o

vencedor é Camila; se duas coroas, Bruno; se dois resultados diferentes, Ana vence (perceberam a

malícia?). Definido o vencedor, Ana arremessa o dado para definir o valor prêmio: cada um dos outros

dois jogadores pagará ao vencedor o resultado do dado, em R$.

A essa altura já sabemos o suficiente de probabilidade para perceber que este não é um joguinho

inocente qualquer, e que as chances favorecem um dos jogadores: claro, Ana, que inventou o jogo e não é

sonsa.

Mas ainda não temos como decifrar alguns fatos probabilísticos interessantes a respeito do que sucederá,

cumulativamente, em sucessivas rodadas desse jogo. Se você intui que numa sequência prolongada de

rodadas, toda a grana de B e C migrará para a bolsa de Ana, parabéns. Sua intuição está apontando na

direção correta. Por exemplo, que em dez rodadas, o resultado acumulado de A, em R$, será, com

probabilidade 0,95, algum valor no intervalo (-18, +48), enquanto que, para cada um dos outros dois

jogadores, com a mesma probabilidade, eles estarão no intervalo (-35, +20), em R$. Assim, após dez

rodadas, o resultado acumulado poderá ser, por exemplo, -2, 8 e -6, de A, B e C, respectivamente.

Após 100 rodadas, esses intervalos serão, respectivamente, (+45, +255) e (-163, 13), e Ana, com certeza

absoluta, sairá no lucro. No longo prazo Ana, com certeza, arruinará seus “amigos”: se B e C não

perceberem que, nesse jogo, estão em grave desvantagem probabilística, e continuarem jogando, em

1000 rodadas os intervalos serão, respectivamente, (+1.168, +1.832) e (-1.028, -473).

Px,Y(x, y) x

PY(y) 2 3 4 5 6 7 8 9 10

y

4

0,04

0,04

3

0,04

0,04

0,08

2

0,04

0,04

0,04

0,12

1

0,04

0,04

0,04

0,04

0,16

0 0,04

0,04

0,04

0,04

0,04 0,20

-1

0,04

0,04

0,04

0,04

0,16

-2

0,04

0,04

0,04

0,12

-3

0,04

0,04

0,08

-4

0,04

0,04

PX(x) 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04 1,00

Page 7: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

7

Com amigos dispostos a jogar mil rodadas, Ana sabe que, com quase certeza, não terminará a maratona

com menos que R$1.168 de lucro, embora tenha também quase certeza (probabilidade 0,975), que este

não superará R$1.832. Do outro lado, Bruno e Camila deveriam saber que, com certeza perderão. E

perderão bastante dinheiro.

Os conceitos da Teoria da Probabilidade envolvidos nos cálculos acima são relativamente simples,

conforme veremos adiante. Os resultados acima foram calculados usando um ferramental conceitual que

vocês dominarão antes de completarmos o primeiro bimestre desse curso. Por enquanto você pode testar

sua validade simulando o jogo no computador, usado métodos muito simples, denominados,

genericamente, de Monte Carlo, que pode ser muito facilmente testado no computador (posso montar

um simulador desse no Excel, em poucos minutos) Programando em C você pode fazer melhor e mais

elegantemente. Lançado o desafio.

Mas vamos aproveitar ainda mais o contexto definido por esse jogo para introduzir alguns conceitos

novos. Primeiro vamos construir o espaço amostral:

={ CC1 CC2 CC3 CC4 CC5 cc1 cc2 cc3 cc4 cc5 Cc1 Cc2 Cc3 Cc4 Cc5 cC1 cC2 cC3 cC4 cC5 }

Seja A a álgebra completa (isto é, cujos átomos são os eventos unitários de ) e P a função natural de

probabilidade para o caso, que associa a cada evento unitário a probabilidade 0,500,500,20 = 0,05. O

espaço de probabilidades para o jogo é, assim, (, A , P).

Para analisar o jogo pelo ponto de vista da nossa doce Aninha, o interesse é o quanto ela ganhará ou

perderá a cada rodada. Seja a função X:R que associa a cada o seu ganho correspondente. Numa

representação tabular de X:R, temos:

CC1 CC2 CC3 CC4 CC5 cc1 cc2 cc3 cc4 cc5 Cc1 Cc2 Cc3 Cc4 Cc5 cC1 cC2 cC3 cC4 cC5

X() -1 -2 -3 -4 -5 -1 -2 -3 -4 -5 2 4 6 8 10 2 4 6 8 10

Portanto X assume valores em X={-5, -4, -3, -2, -1, 2, 4, 6, 8, 10}, com XA(CC1)=-1, XA(CC2)=-2, e assim por

diante. Consideramos o espaço de probabilidades induzido, (R, B, PX), com a função PX definida por:

PX{-5} = P{X=-5} = P{, tais que X()=-5} = P{CC5 cc5} = 0,10

PX{-4} = P{X=-4} = P{, tais que X()=-4} = P{CC4 cc4} = 0,10

PX{8} = P{X=8} = P{, tais que X()=8} = P{Cc4 cc4} = 0,10

PX{10} = P{X=10} = P{, tais que X()=10} = P{Cc5 cC5} = 0,10

Page 8: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

8

O espaço de probabilidades (, A, P) é transformado, pela função X, no espaço de probabilidades

conjugado, (X, AX, PX), mais adequado à análise do jogo sob o ponto de vista do jogador A. Nele podemos

analisar, diretamente, a variável X que representa o ganho de A em cada rodada do jogo.

Embora a função PX tenha sido originalmente definida em (x , AX) sua extensão para (R B), segue roteiro

simples e já conhecido. Aqui B é a -álgebra de Borel, a estrutura ideal para se modelar funções de

probabilidade sobre o conjunto dos reais. Podemos definir o valor de PX para qualquer elemento de B. Por

exemplo, para o intervalo (a, b] de R, podemos definir:

PX(a, b] = P{X-1

(a, b]} = P{ ; a<X()b}

Assim, por exemplo:

Px(-, 0] = P{CC5 CC4 CC3 CC2 CC1 cc5 cc4 cc3 cc2 cc1} = 0,50

A função X, assim definida, é uma variável aleatória. Para esse caso particular de X, podemos sumarizar:

x -5 -4 -3 -2 -1 2 4 6 8 10

fX(x) = PX{x} 0,10 0,10 0,10 0,10 0,10 0,10 0,10 0,10 0,10 0,10

FX(x) = PX{Xx} 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00

A tabela acima representa a função de distribuição de probabilidades (f.d.p.) e a função de distribuição

acumulada de probabilidades (f.a.d.p.) da variável aleatória X. Note que X é uma variável aleatória discreta

e com um número finito (10) de valores diferentes possíveis. Como cada um dos 10 valores possíveis para

X tem a mesma probabilidade 0,10, dizemos que a variável aleatória X tem distribuição uniforme sobre o

seu conjunto suporte, X. Estendendo PX de X para R, podemos definir a função acumulada de

distribuição de probabilidades da variável X sobre todo o conjunto dos reais, por

( ) ( - * ( - + * ( ) + * +

Para a variável X, correspondente ao ganho do jogador A em cada rodada, a f.a.d.p. FX:R[0 , 1], está

representada na figura abaixo.

Continuando sobre o jogo proposto por A, podemos definir, sobre , outras funções. Por exemplo,

podemos olhar o jogo sob o ponto de vista do jogador B, que ganha uma rodada quando as duas moedas

0,0

0,2

0,4

0,6

0,8

1,0

-10 -5 0 5 10 15

Page 9: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

9

resultam em coroa. Seja Y:R definida para cada como o ganho de B associado a . No caso desse

jogo, Y=X, mas sua f.d.p. é diferente, com, por exemplo, PY{-5}=P{CC5 Cc5 cC5}=0,15, e assim por

diante, até PY{+10}=P{cc5}=0,05. Na forma tabular, a função Y:R é dada por:

CC1 CC2 CC3 CC4 CC5 cc1 cc2 cc3 cc4 cc5 Cc1 Cc2 Cc3 Cc4 Cc5 cC1 cC2 cC3 cC4 cC5

Y() -1 -2 -3 -4 -5 2 4 6 8 10 -1 -2 -3 -4 -5 -1 -2 -3 -4 -5

Assim,

y -5 -4 -3 -2 -1 2 4 6 8 10

PY{y} 0,15 0,15 0,15 0,15 0,15 0,05 0,05 0,05 0,05 0,05

PY{Yg} 0,15 0,30 0,45 0,60 0,75 0,80 0,85 0,90 0,95 1,00

A função de distribuição acumulada de probabilidades de Y está representada na figura abaixo.

Fica agora mais evidente a desvantagem de B e C em relação a A nesse jogo.

Definindo Z:R como o ganho de C, teremos o mesmo suporte Z= Y=X e a mesma f.d.p. que Y. Em

termos probabilísticos, a situação do

jogador C é idêntica à de B.

Atenção! Isto não quer dizer que os dois

terminarão o jogo empatados, com

resultados financeiros idênticos. Chances

iguais não garantem resultados iguais.

Considerando o espaço de probabilidades

(R, B), poderemos acomodar aí as três

funções de probabilidade PX, PY, PZ, todas derivadas de P, através das funções X, Y e Z, respectivamente.

Aprenderemos muito brincando com esse jogo, esses espaços de probabilidades e essas variáveis

aleatórias. Voltaremos a esse exemplo, no futuro próximo, com uma caixa mais poderosa de ferramentas.

De profissional.

Exercícios

0,0

0,2

0,4

0,6

0,8

1,0

-10 -5 0 5 10 15

P{} X() Y() Z() P{} X() Y() Z()

CC1 0,05 -1 -1 2 Cc1 0,05 2 -1 -1

CC2 0,05 -2 -2 4 Cc2 0,05 4 -2 -2

CC3 0,05 -3 -3 6 Cc3 0,05 6 -3 -3

CC4 0,05 -4 -4 8 Cc4 0,05 8 -4 -4

CC5 0,05 -5 -5 10 Cc5 0,05 10 -5 -5

cc1 0,05 -1 2 -1 cC1 0,05 2 -1 -1

cc2 0,05 -2 4 -2 cC2 0,05 4 -2 -2

cc3 0,05 -3 6 -3 cC3 0,05 6 -3 -3

cc4 0,05 -4 8 -4 cC4 0,05 8 -4 -4

cc5 0,05 -5 10 -5 cC5 0,05 10 -5 -5

Page 10: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

10

1. Seja o experimento binário Ep, e o experimento Epn, composto de n repetições independentes de Ep.

Seja o espaço de probabilidades com a álgebra completa e a função de probabilidades natural. Sejam

Wi:R, para i=1, 2, 3, … , n, as v. a. que associam a cada elemento de o valor real igual a 0 ou 1

se o i-ésimo resultado for fracasso ou sucesso, respectivamente. Sejam as v.a’s. X:R e Y:R

definidas por

(∑

)

Para n=5, determine o suporte de X e de Y e construa, na forma de tabelas, suas f.d.p. e f.d.a.p., bem

como função de distribuição acumulada conjunta. Como você usaria a ideia em Y para construir

dados perfeitamente equilibrados com um número arbitrário qualquer de lados (um milhão, por

exemplo?). Ou ainda, como você aperfeiçoaria o sorteio da sena substituindo o globo com as

bolinhas por uma simples e única moeda?

2. Seja o experimento aleatório D5n, e sejam X1, X2, … , Xn os resultados parciais, com

Considere a álgebra completa e a função natural de probabilidades para compor o espaço de

probabilidades básico para o experimento.

Com n=10, calcule (use suas habilidades com o computador) * +

Com n=50 calcule (idem) * +

Com n=4 calcule * + * + * +

Algumas Famílias Especiais de Distribuições de Probabilidades

Algumas variáveis aleatórias representam fenômenos (ou experimentos) aleatórios tão generalizados e

importantes, ou suas funções de distribuição de probabilidades possuem características matemáticas

tão peculiares, que passam a merecer atenção especial. Veremos a seguir algumas famílias muito

importantes de distribuições discretas de probabilidades.

A Distribuição de Bernoulli

Seja um experimento binário Ep, e seja X o número de sucessos. Logo, X=1 com probabilidade p e X=0

com probabilidade 1-p. Para simplicidade, seja q=1–p. Uma variável aleatória com essas características é

dita ter distribuição de Bernoulli, o que se representa por X~B(p), em homenagem à família Bernoulli –

em particular a Jacob Bernoulli – que, nos séculos XVII e XVIII dedicou grande esforço e deu

Page 11: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

11

contribuições fundamentais aos estudos dos fenômenos aleatórios. É o modelo probabilístico mais

simples. Sua função de distribuição de probabilidades dada por

( ) {

A figura ao lado representa a distribuição de uma B(0,6).

Coerentemente, experimentos binários são também

denominados bernoullianos, ou de Bernoulli. Como

diversos experimentos de grande interesse teórico e prático são compostos por repetições de

experimentos binários, esses possuem, apesar de tão simples, grande importância, conforme veremos a

seguir.

A Distribuição Geométrica

Sejam um experimento binário qualquer, Ep, e o experimento composto por repetições sucessivas e

independentes de Ep até a obtenção do primeiro sucesso. O espaço amostral naturalmente associado a

esse experimento, = {F FS FFS FFFS FFFFS FFFFFS …}, é enumerável mas infinito. Seja a álgebra

completa e a função natural de probabilidades, definida por P{F}=1-p, P{FS}=(1-p).p, P{FFS}=(1-p)2. p, e,

generalizando, P{FFFF…FS}=(1-p)x.p, sendo x igual ao número de fracassos antes do primeiro sucesso.

Esta generalização sugere uma variável aleatória naturalmente associada a esse experimento:

X:R definida por X()número de fracassos em , para todo

O conjunto suporte de X é o dos inteiros não negativos: X={0, 1, 2, 3, …}, e a função de distribuição de

probabilidades de X é definida por PX{x} = P{X=x} = (1 – p)xp = pq

x, para todo xX.

Como os valores das probabilidades de {0}, {1}, {2}, {3}, … estão em progressão geométrica, refere-se a

esta função de distribuição de probabilidades como distribuição geométrica, e às variáveis aleatórias

que apresentam esta distribuição como tendo distribuição geométrica com parâmetro p. Se X tem

distribuição geométrica com parâmetro p, representa-se este fato por X~G(p). O suporte de uma

variável aleatória com distribuição geométrica é sempre o conjunto dos inteiros não negativos.

A função de distribuição acumulada de distribuição de uma v.a. X~G(p) é dada por

( ) * + ∑

(∑

) (

)

( )

0,0

0,5

1,0

-1 0 1 2

Page 12: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

12

O resultado acima poderia ter saído de um raciocínio bem simples: o evento {Xx} é o complemento de

{X>x}. Este, por sua vez equivale a {os primeiros x+1 resultados são fracassos}, cuja probabilidade é a

probabilidade x+1 fracassos em

igual número de tentativas, isto é,

qx+1

.

Na figura ao lado uma

representação gráfica da f.d.p. de

uma G(0,4). Note o decaimento

exponencial da f.d.p. na medida

em que x cresce.

Exemplos

1 – Um experimento consiste em arremessar um dado até a obtenção do primeiro 6. Podemos aqui

considerar o arremesso do dado como um experimento binário onde sucesso corresponde ao resultado 6

e fracasso aos demais resultados. Temos assim um Ep, com p=1/6. Seja X o número de fracassos no

experimento. Então, P{X10} = 1 – q11

= 1 – (5/6)11

= 0,8654.

Qual a probabilidade de que o experimento termine em menos que 5 lançamentos?

P{X3} = = 1 – q4 = 1 – (5/6)

4 = 0,5177

2 – Numa linha de produção em série, toda a vez que um operário realiza uma determinada operação

repetitiva, sua chance de incorrer em acidente grave é estimada em 1 milionésimo. A operação é

considerada, então, bastante segura. Dezenas de operários realizam simultaneamente essa operação

numa fabrica. Digamos que ela é realizada duas mil vezes por dia. Qual a probabilidade que em um ano, o

acidente referido ocorra pelo menos uma vez?

Aqui, o experimento binário básico é a realização da determinada operação, com p=10-6

. Num ano a

operação é realizada (considere, independentemente), 735.000 vezes. Logo, a probabilidade de nenhum

acidente é igual a (1-10-6

)750.000

=0,4724, e a probabilidade complementar, de pelo menos um acidente, é

igual a 0,5276.

3 – Seja Ep, com p=0,01. Este experimento elementar será repetido até à obtenção do primeiro sucesso.

Seja X o número de fracassos obtido no processo. Então X~G(0,01) e P{X50}=q50

=0,9950

=0,6050. Agora,

suponha que após 100 tentativas, ainda não tenha ocorrido sucesso algum. Qual a probabilidade de que o

número de tentativas adicionais necessárias seja superior a 40? Esta questão pode ser reformulada de

maneira mais rigorosa, assim

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Page 13: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

13

* + * + (* + * +)

* + * +

* +

* +

A Distribuição Binomial

Uma família de distribuições de extraordinária importância, a binomial é também associada a

experimentos binários.

Seja Ep um experimento binário com P{S}=p, e seja Epn o experimento composto por n repetições

sucessivas e independentes de Ep. Sabemos que o espaço amostral deste experimento tem 2n

elementos, dos quais Cnx são compostos por x sucessos e (n-x) fracassos, para x=0, 1, 2, 3, …, n. A

diferença entre ele consistindo apenas na ordem em que esses x S’s e n-x F’s estão dispostos na cadeia

que representa o resultado específico. Exemplo: com 10 repetições de Ep, existem C103=120 maneiras

diferentes de se obter 3 sucessos e 7 fracassos, sendo FFFFFFFSSS, FFFSFFSFSF e FFFFFFFSSS três delas.

Quando n cresce, o número de possibilidades cresce muito; por exemplo, existem C10030

=

29.372.339.821.610.900.000.000.000 maneiras diferentes de obter 30 sucessos em 100 repetições

sucessivas de um experimento aleatório binário.

Voltando ao , sejam o espaço amostral correspondente aos 2

n resultados diferentes possíveis, a

álgebra completa (com

elementos) e a função de probabilidades natural, com P{}=px(1-p)

n-x, onde

x é o número de sucessos em , para todo . Vamos agora definir uma função X:R como o

número de sucessos no resultado. O suporte de X é, portanto, X={0, 1, 2, 3, …, n}, com

* + * ( ) + ( )

Em experimentos binários, é comum representar a probabilidade de fracasso (1-p), por q, levando à

forma mais compacta de PX{x}:

* + * ( ) +

A função X assim definida é uma variável aleatória muito especial, com a qual desenvolveremos estreita

familiaridade nos próximos meses. Sua importância econômica é extraordinária, gerando anualmente

negócios que superam, em todo o mundo, dezenas de bilhões de reais.

Naturalmente, essa família de distribuições de probabilidades tem nome especial: distribuição binomial,

com parâmetros n e p. Dizemos então que a variável aleatória X tem distribuição binomial com

parâmetros n e p, ou simplesmente, X~b(n, p). De uma forma bem geral, ela conta o número de

sucessos em n repetições independentes de um mesmo experimento aleatório binário Ep. Ela é uma

variável aleatória discreta inteira e pode assumir n+1 valores diferentes. A denominação binomial

decorre se sua óbvia e estreita associação com o binômio de Newton.

Page 14: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

14

Sendo PX{x} uma função de distribuição de probabilidades sobre o suporte X={0, 1, 2, 3, …, n}, é claro

que ∑ * + tem que ser igual a 1. E, de fato:

, -

A figura ao lado ilustra a distribuição b(20, 0,5). Ela representa

graficamente a distribuição de probabilidades de X, o número de

caras em 20 arremessos de uma moeda comum. Como se vê,

nesse experimento a probabilidade do resultado perfeitamente

equilibrado, com 10 caras e 10 coroas, é algo em torno de 0,175

(mais precisamente, 0,1762). Já a probabilidade de 16 caras e 4

coroas é de apenas 0,0046.

Exemplos

Quando se quer estimar, a partir de uma amostra, a fração dos indivíduos de uma população que

apresentam certa característica (uma opinião sobre determinado tópico, por exemplo, como a preferência

por determinado candidato, ou o apoio a determinada alternativa de política pública) normalmente se

recorre à distribuição binomial. Primeiro concebendo um experimento binário Ep onde p é aquela fração

ainda desconhecida. Para isto basta sortear, completamente ao acaso, um indivíduo da população. Por

“completamente ao acaso”, aqui, quer dizer que, no sorteio, cada indivíduo tem exatamente a mesma

probabilidade de vir a ser o sorteado que qualquer outro na população. Se a população tem N indivíduos,

então aquela probabilidade é 1/N. Com o sorteio aleatório podemos ter dois resultados: ou o indivíduo

sorteado possui aquela característica, ou não. Se sim, sucesso. Se não, fracasso. Pronto, temos um

experimento binário Ep, onde p é exatamente a fração que se quer estimar. Agora, basta repetir Ep

independentemente um número suficientemente grande de vezes, que representamos por n, o tamanho

da amostra. Acumulando em X o número de vezes que se teve sucesso e temos X~b(n, p). Como a fração

amostral de respostas favoráveis

tende a cair bem perto de p quando n é

grande, temos aqui um tiro certeiro: a fração amostral é uma boa estimativa de p. E ficam aqui as

perguntas: o quê é um n “grande o suficiente”? E quão boa será a estimativa? Isto veremos adiante, mas

por enquanto vale o exemplo: Se p=0,3 e n=1000 (curiosamente, não interessa absolutamente o tamanho

populacional N) a probabilidade de X cair entre 470 e 530 é superior a 0,95, portanto cairá, com

probabilidade superior a 0,95, entre 0,47 e 0,53. Faça as contas. Use o computador para calcular

* + ∑

( )

Distribuição Binomial Negativa ou de Pascal

Numa outra composição de experimentos binários, a distribuição binomial negativa generaliza a

geométrica. Seja Ep um experimento binário e seja um experimento que consiste em repetir Ep,

0,00

0,02

0,04

0,06

0,08

0,10

0,12

0,14

0,16

0,18

0,20

0 2 4 6 8 10 12 14 16 18 20

Page 15: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

15

independentemente, até a obtenção do n-ésimo sucesso, para dado n fixo e pré-definido. O espaço

amostral, para n=2 é ={SS FSS SFS FFSS FSFS SFFS FFFSS FFSF FSFFS SFFFS ...}, infinito enumerável. Seja

a álgebra completa e a função natural de probabilidades, definida por P{} = pnq

x, onde x é o número de

fracassos em .

Seja X:R definida como o número de fracassos antes de completados os n sucessos. Assim,

{X=x} = {; número de fracassos em é igual a x}

O conjunto suporte de X é o dos inteiros não negativos. Todos os elementos em {X=x} terminam em S e

têm comprimento n+x. A cardinalidade de {X=x} é, pois, , alem disso cada subconjunto elementar

de {X=x} tem a mesma probabilidade natural pnq

x; portanto:

* + * ( ) +

A figura abaixo ilustra a parte mais importante (de 0 a 25, cobrindo uma probabilidade total de 0,99898)

da função de distribuição de probabilidades de uma Binomial Negativa com parâmetros n=3 e p=0,34

0,00

0,02

0,04

0,06

0,08

0,10

0,12

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Page 16: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

16

Esperança e Variância de uma Variável Aleatória

Antes de continuar introduzindo novos modelos probabilísticos interessantes, vamos introduzir agora

dois conceitos de importância central no estudo de fenômenos aleatórios: a Esperança e a Variância.

Seja X uma variável aleatória discreta com suporte x, um subconjunto enumerável de R, a esperança

de X, representada por E(X), é definida por:

( ) ∑ * +

A esperança, ou valor médio esperado, de uma v.a. discreta é, portanto, a média de todos os seus

valores possíveis, ponderados pelas respectivas probabilidades. No caso dos três jogadores, a

esperança, ou valor médio esperado, do ganho de A, B e C, por rodada é igual, respectivamente, (faça os

cálculos) a 1,50, -0,75 e -0,75. Pela definição fica clara a associação entre o conceito de esperança e o

de centro gravidade de uma distribuição discreta de massas. Conforme veremos adiante, a esperança ou

valor médio esperado, tem o seguinte

significado físico: se o experimento for

sendo repetido indefinidamente, a

média dos valores obtidos da variável

aleatória irá convergindo fatalmente

(em probabilidade) para sua esperança. Assim, no longo prazo, Ana acumulará um ganho médio de

R$1,50 por rodada, enquanto o ganho médio dos outros dois jogadores, por rodada, estará muito

próximo (calma, logo veremos quão próximo) de R$0,75 negativos por rodada. Para eles, portanto, o

ganho médio esperado será, de fato, uma perda média esperada.

Se o texto está, a esta altura, ainda um pouco desconfortável, povoado de termos vagos e algo

subjetivos, não se desespere. É natural que isto aconteça: há 20 anos você vem sendo induzido e

treinado a pensar o mundo de forma determinística; assim, você não dispõe, ainda, uma linguagem

adequada para lidar com problemas probabilísticos. Como todos os problemas reais são, de fato, total

ou pelo menos parcialmente probabilísticos, a construção desta linguagem – e a conquista de fluência

na mesma – são de elevada importância, e uma das suas mais contundentes conquistas intelectuais

potenciais ao longo deste curso.

Enquanto a esperança de uma variável aleatória diz respeito à média ponderada dos valores que ela

pode assumir, sendo o peso as respectivas probabilidades, a variância refere-se ao grau de dispersão da

distribuição de probabilidade de X em torno da sua esperança. Definida como ( ) [( ( )) ],

nos casos discretos, temos:

Page 17: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

17

( ) [( ( )) ] ∑ , ( )- * +

Abrindo o argumento do somatório, temos

( ) ∑ , ( ) ( )- * +

( ) ∑ * +

( ) ∑ * +

( ) ∑ * +

Fazendo as substituições apropriadas, com

∑ * + ( ) , ∑ * + ( ) e ∑ * + , chega-se ao resultado geral:

( ) [( ( )) ] ∑ , ( )- * +

( ) ( )

Em diversas situações a expressão V(X)=E(X2)–E

2(X) é mais conveniente para o cálculo da variância do

que a expressão definidora V(X)=E[(X – E(X)]2. Aqui se vê que se uma variável aleatória X é tal que

E(X)=0, então V(X)=E(X2).

Da mesma forma que a esperança tem uma associação matemática como o conceito de centro de

gravidade, a variância se associa ao conceito de momento de inércia de uma distribuição discreta de

massa, em torno de seu centro de gravidade.

A raiz quadrada da variância é denominada desvio padrão, e é representado geralmente por .

Esperança e variância associadas a algumas distribuições de probabilidades

Distribuição de Bernoulli – No caso de X~B(p), temos:

E(X) = 0q +1p = p

Como, nesse caso, X2X, então E(X

2) = E(X) e V(X) = E(X

2) – E

2(X) = E(X) – E

2(X) = p – p

2 = pq

Aparentemente triviais, esses resultados serão importantes adiante, uma vez que muitas variáveis

aleatórias interessantes derivam de experimentos de Bernoulli.

Distribuição Geométrica – No caso de X~G(p)da geométrica, temos

( ) ∑ =

Page 18: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

18

( )

Assim, o número médio esperado de coroas antes da primeira cara é 1; de resultados menores antes de

um seis em arremessos de um dado é 5; de fracassos na Sena antes do primeiro sucesso é 50.063.859.

Basta ter paciência, portanto.

Para a determinação de uma expressão para a variância de uma G(p), basta agora determinar E(X2).

Vejamos:

( ) ∑ =

( )

( )

( )

( )

( )

( )

(

)

Portanto

( ) ( ) ( )

( )

(

)

Page 19: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

19

No caso particular de variáveis aleatórias com distribuição binomial, tanto a esperança quanto a

variância possuem expressões muito simples. Aplicando a definição de esperança nesse caso, temos:

( ) ∑ * +

Para n=1, a solução é imediata: E(X) = 1.p + 0.(1-p) = p. Tratemos pois dos casos em que n>1.

( ) ∑

( )

( ) ( )

Colocando n e p em evidência e, dentro do somatório, substituindo, n-1 por m e x-1 por y, e lembrando

que p+q=1, temos

( ) ∑

( )

, -

Assim, para n=100 e p=0,20, por exemplo, E(X)=20, o que não contraria a intuição original.

Para determinar a variância de X~b(n, p), vamos partir de ( ) ( ) ( ). Logo

( ) ( ) ( )

Portanto temos apenas determinar E(X2) :

( ) ∑ * +

Para n=1, a solução é imediata já que, nesse caso, X2X e, portanto, E(X

2)=E(X)=1.p+0.(1-p)=p. Tratemos

pois dos casos em que n>1.

( ) ∑

( )

( ) ( )

∑ ( )

( ) ( )

∑( ) ( )

( )

(∑ ( )

( )

∑( )

( )

)

Page 20: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

20

As duas parcelas dentro dos parêntesis correspondem a E(Y), onde Y~b(n-1, p) e (p+q)n-1

,

respectivamente. Logo,

( ) ,( ) - , - ( )

V(X) = E(X2) – E

2(X) = (np)

2 – np

2 + np – (np)

2 = np – np

2

V(X) = np(1-p) = npq

Resumo – Distribuição Binomial: A variável aleatória X, correspondente ao número total de sucessos em n

repetições independentes de um mesmo experimento binário EP, com P{S}=p, tem como suporte X = {0 1

2 3 … n}, com função de distribuição de probabilidade:

* + * ( ) + ( )

Em experimentos binários, é comum representar a probabilidade de fracasso (1-p), por q, levando à forma

mais compacta de PX{x}:

* + * ( ) +

A variável aleatória assim caracterizada é dita ter distribuição binomial com parâmetros n e p, o que se

representa por X~b(n, p). A denominação decorre da associação óbvia entre sua função de probabilidades

e a expansão do Binômio de Newton (p+q)n.

Para X~b(n, p), E(X)=np e V(X)=np(1-p)=npq.

Exemplos

2.3 – No Exemplo 2.1, temos

( ) ∑ * +

( ) ∑ ( ( )) * +

∑ ( ) * +

( ) ∑ * +

( ) ( ) ( ) ( )

Page 21: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

21

( ) ∑ ( ( )) * +

∑( ) * +

∑ * +

2.4 – No jogo proposto anteriormente, vamos calcular esperança e variância de X, Y e Z.

A tabela ao lado dá a distribuição de probabilidades de X, de Y e de Z.

Da definição ( ) ∑ * + , chega-se a E(X)=1,50.

Analogamente, obtém-se: E(Y)=E(Z)=-0,75.

Por outro lado, ( ) ∑ * + , portanto, E(X2)=27,5 e V(X) =

E(X2)-E

2(X) = 27,5-1,50

2 =2 7,5-2,25 = 25,25.

Analogamente, obtém-se E(Y2)=E(Z

2)=19,25 , logo V(Y)=V(Z)=18,6875.

2.5 – Seja X o número de caras em 100 arremessos independentes de uma moeda. Assim, X~b(100, 0,5) e

* + ∑ (

)

(

)

∑ (

)

Efetuando os cálculos: * + . Outras probabilidades interessantes: * +

e * + .

Na figura abaixo, a representação de PX{x}, sobre todo o suporte de X.

2.6 – Aplicação da distribuição binomial em pesquisas de opinião. Em números redondos O Brasil conta

hoje com cerca de 150 milhões de eleitores. Numa eleição nacional, um dos candidatos tem 12% das

intenções de voto. Uma amostra aleatória de 1000 eleitores é sorteada. Os eleitores sorteados são

entrevistados. Seja X o número de eleitores selecionados que declaram intenção de voto em A. A fração

X/n será apresentada ao candidato como a sua fatia do eleitorado no dia da pesquisa. Queremos saber

qual a probabilidade de que o erro da estimativa seja inferior a 2 pontos percentuais, isto é, que esta caia

no intervalo (0,10, 0,14):

0

0,02

0,04

0,06

0,08

0 3 6 9

12

15

18

21

24

27

30

33

36

39

42

45

48

51

54

57

60

63

66

69

72

75

78

81

84

87

90

93

96

99

g P{X=g}

= PX{g}

P{Y=g} =

PY{g}

P{Z=g} =

PZ{g}

-5 0,10 0,15 0,15 -4 0,10 0,15 0,15 -3 0,10 0,15 0,15 -2 0,10 0,15 0,15 -1 0,10 0,15 0,15 2 0,10 0,05 0,05 4 0,10 0,05 0,05 6 0,10 0,05 0,05 8 0,10 0,05 0,05

10 0,10 0,05 0,05

Page 22: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

22

* + {

+} * +

Como o sorteio de cada eleitor pode ser considerado como um experimento binário com p=0,12, e tal

experimento é realizado, independentemente, 1000 vezes, então o número de sucessos (isto é, respostas

favoráveis ao candidato A) X tem distribuição b(1000, 0,12). Assim:

* + ∑ * +

Usando recursos computacionais para efetuar os cálculos (usei o Excel) obtém-se:

* +

Começamos agora a entender como (porque) as pesquisas amostrais funcionam. Embora entrevistando

uma amostra aleatória de apenas 1000 de um total de cerca de 150 milhões de eleitores, o resultado de A

vai cair muito próprio do valor verdadeiro (no exemplo, 12%).

Entendemos por sorteio aleatório aquele em que um eleitor é sorteado através de um processo no qual

todos os eleitores no universo pesquisado tem precisamente a mesma chance de vir a ser sorteado, e

cada eleitor sorteado é devolvido ao lote, podendo inclusive vir a ser sorteado novamente. Assim, a cada

sorteio a probabilidade de Sucesso, aqui definido como uma resposta favorável ao candidato A, é

precisamente 0,12. Repita os cálculos para n=2000. Note que o tamanho do universo é irrelevante.

Este sorteio é dito com reposição. Tem o mérito de manter a população inalterada durante todo o

processo. Em populações muito grandes (muito maiores que a amostra), este procedimento é

tecnicamente desnecessário.

Olhando por outro ângulo. Muitas pessoas, sem treinamento em fenômenos aleatórios, apresentam com

frequência o seguinte tipo de preocupação: “e se ocorrer um erro enorme, por exemplo, maior que 10

pontos percentuais?”. Isto significaria obter um resultado, por exemplo, maior do que 22%, levando o

candidato a uma percepção totalmente equivocada de sua força eleitoral naquele momento. Vejamos:

* + ∑ * +

Efetuando os cálculos, obtém-se: P{X>220}=2,489810-19

.

Eu não me preocupo com uma probabilidade tão pequena; você também não deveria, uma vez que a sua

probabilidade de vir a ser atingido pelo próximo meteorito que cair na Terra (desses que caem todo dia) é

igual* a 1,9610

-15, portanto 7.886 vezes maior. E você nunca se preocupou com meteoritos caindo sobre

sua cabeça, não é mesmo? [Ooops! Parece que um meteorito andou machucando algumas pessoas ontem

na Rússia.]

(*)Para esse cálculo fiz as seguintes suposições:

Page 23: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

23

As chances de qualquer metro quadrado da Terra receber o impacto do próximo meteorito que nos atingir são as mesmas, independente de sua localização na superfície do planeta. (Você pode questionar, sim, esta hipótese simplificadora).

Se o meteorito cair no mesmo metro quadrado em que você estiver localizado, você será diretamente atingido. Se não, não.

Á área total da Terra é AT=4RT2 e o raio da Terra é igual ao seu perímetro (40 mil km) dividido por 2, logo

6.366.198m. Então, AT = 509.295.817.894.065m2, e a probabilidade de seu m2 vir a ser o escolhido, o

inverso disto, ou 1,9610-15.

2.7 – Passando o carro diante dos bois. Um resultado muito geral que provaremos mais adiante, nos

permite – como caso muito particular – afirmar, que, se X~b(n, p) com E(X) grande, então

{ ( ) √ ( ) ( ) √ ( )} .

Assim, nesses casos, a probabilidade de X cair no intervalo de mais ou menos dois desvios padrões em

torno de sua esperança é de 95%. Por exemplo, em mil arremessos de uma moeda, seja X o número de

caras; portanto, X~b(1000, 0,5). Logo E(X)=Np=500, V(X)=npq=250 o desvio padrão de X é 15,81.

Assumindo que E(X)=500 já é grande o suficiente, poderemos afirmar que P{ 469 X 531 } 0,95.

De fato, fazendo os cálculos exatos (novamente, usei o Excel), conclui-se que P{ 469 X 531 } 0,9537.

Vê-se que dos 1001 resultados possíveis em X={0, 1, 2, 3, …, 999, 1000}, as leis da probabilidade

garantem que os 63 resultados centrais acumulam probabilidade superior a 0,95. Outros cálculos exatos

surpreendem: P{X<400}=9,010-11

, ou apenas 90 trilionésimos. E P{X<300}? Dá 3,7710-38

. Não tenho um

nome para isso. Por simetria (caso das binomiais com p=0,5), P{X>700}=Dá 3,7710-38

. Sei que você não

perguntou, mas(2)

P{X<195}=1,79110-89

. A figura abaixo é um gráfico de FX(x) para X~b(1000, 0,5), na

região que interessa, de 440 a 560.

Logo teremos tudo isso como casos particulares de importantes resultados gerais da Teoria de Probabilidade, em

particular a primeira Lei Fraca dos Grandes Números, e a primeira versão do Teorema Central do Limite, um dos

mais importantes da Matemática. Você não perde por esperar.

2 Se você tem dificuldade em imaginar algo tão pequeno quanto 10-89, tente imaginar quão grande é 1089. Pense em 1089 grãos de areia fina, dessas de que são necessárias 10 grãos para encher 1mm3. Imagine o universo como uma esfera de 15 bilhões de anos luz de raio. Quantos grãos dessa areia seriam necessários para encher esse universo?

0,0

0,2

0,4

0,6

0,8

1,0

440 460 480 500 520 540 560

Page 24: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

24

Parte central de uma distribuição b(1000, 0,50), com probabilidade total igual a 0,99861

0,000

0,005

0,010

0,015

0,020

0,025

0,030

45

0

45

3

45

6

45

9

46

2

46

5

46

8

47

1

47

4

47

7

48

0

48

3

48

6

48

9

49

2

49

5

49

8

50

1

50

4

50

7

51

0

51

3

51

6

51

9

52

2

52

5

52

8

53

1

53

4

53

7

54

0

54

3

54

6

54

9

Page 25: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

25

Propriedades Básicas da Esperança e da Variância

Seja X uma variável aleatória definida no espaço de probabilidades (, A , P), e seja Y uma

transformação linear de X, dada por Y=aX+b, com a e b reais, sendo a0. Então Y é uma variável

aleatória, com esperança e variância dadas por:

E(Y) = a.E(X) + b e V(Y)=a2.V(X)

As provas desses resultados são simples e decorrem diretamente das definições

( ) ∑ ( ) * +

∑ * +

∑ * +

∑ * +

∑ * +

( )

E

( ) ∑ ,( ) ( ( ) )- * +

∑ [ ( ( ))] * +

∑ [( ( ))] * +

( )

Exercícios

Um jogador paga R$12 para jogar. O jogo consiste em arremessar uma moeda 10 vezes; o prêmio é R$2

por cada cara obtida. Seja Y o resultado financeiro final do jogo. Determine FY:R[0, 1], a função de

distribuição acumulada de Y, E(Y) e V(Y). [ Respostas E(Y)=-2 e V(X)=10]

Exemplos:

2.7 – Seja o espaço de probabilidades (, A, P), com ={a, b, c, d, e}; A é a álgebra gerada pela partição

P={{a,b}, {c, d}, {e}} e P é a função de probabilidades definida por P{a, b}=0,40, P{c, d}=0,50 e P{e}=0,10.

Sabemos, então, que: A = {, {a,b}, {c,d}, {e}, {a,b,c,d}, {a,b,e}, {c,d,e}, } e que, sendo P uma função de

probabilidades, P{a,b,c,d}=0,90, P{a,b,e}=0,50,

P{c,d,e}=0,60, alem de, claro, P()=0 e P()=1. Com o

espaço de probabilidades bem estruturado, vamos

definir duas funções, X e Y, de em R, como na tabela ao lado. O diagrama à esquerda

representa a função X.

As funções X: R e Y: R induzem as partições PX e PY de , respectivamente:

PX={ X-1

(0) , X-1

(1) } = { {a,b} , {c,d,e} } e PY={ Y-1

(0) , Y-1

(1) } = { {a,b, c} , {d,e} }

a b c d e

X() 0 0 1 1 1

Y() 0 0 0 1 1

Page 26: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

26

O espaço amostral e as três partições referidas – P, PX e PY – estão representadas, nessa ordem, no

diagrama ao lado. É imediato verificar que PX P, mas que PY não mantém relação ordinal com as outras.

Sejam AX e AY as álgebras geradas por PX e

PY, respectivamente. Sendo P um

refinamento de PX, conclui-se que qualquer

elemento de PX é também elemento de P,

logo também de A, portanto é mensurável. De outra forma, seja um evento A:

APX AP AA A é mensurável

Por outro lado,

PX P AX A

Assim, qualquer elemento de AX é mensurável, portanto qualquer evento do tipo {X=x} ou {Xx} é

mensurável, isto é, tem P{X=x} bem definida. Concluímos que a função X é mensurável no espaço de

probabilidades (, A, P).

Tal não é, contudo, o caso de Y. A partição de induzida por Y não é nem igual a P, nem uma subpartição

desta. Assim, por exemplo, o evento {a, b, c} PY não pertence a P nem é a união de elementos de P,

portanto {a, b, c}A, não sendo, portanto, mensurável. A função P é definida para os elementos de A,

apenas. Portanto, como {a, b, c} = {Y=0}A, não existe um valor definido para P{Y=0}, portanto, Y não é

mensurável no espaço de probabilidades (, A, P).

Por outro lado, é imediato calcular probabilidades como

P{X=0} = P{a, b} = 0,4

P{X=1} = P{c, d, e} = P( {c, d}{e} ) = P{c, d} + P{e} = 0,5 + 0,1 = 0,6

ou, P{X=1} = P{a, b}c = 1 – P{a, b} = 1 – 0,4 = 0,6

Da mesma forma, qualquer evento do tipo {X=x} ou {Xx} tem probabilidade perfeitamente definida. Por

exemplo,

P{X=2} = P() =0 e P{X<0,17} = P{ ; X()<0,17 } = P{a, b} = 0,4

Ainda,

P{X-0,48} = 0 e P{X4,58} = P() = 1

Assim, qualquer evento definido em termos de X tem valor P perfeitamente bem definido. X é uma função

mensurável em (, A, P). A função Y, por outro lado, não se ajusta bem ao espaço (, A, P). Não é

mensurável, portanto não é uma variável aleatória

Page 27: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

27

2 – Seja o espaço de probabilidades (, A, P), e seja A um evento qualquer (não necessariamente

mensurável), com função indicadora do evento IA : R, definida por

IA()= {

A função I, que induz uma partição binária de : { A, Ac}, é mensurável se e somente se AA. Neste caso,

( ) {

( )

E(IA) = P(A) e V(IA) = P(A)[1-P(A)]

3 – Seja um experimento aleatório composto por três arremessos sucessivos e independentes de uma

moeda. Então, = {ccc, ccC, cCc, Ccc, cCC, CcC, CCc, CCC}, e seja a partição de ,

P = { {ccc} , {ccC, cCc, Ccc} , {cCC, CcC, CCc} , {CCC} }

(dê uma propriedade definidora para cada um dos elementos da partição acima) Seja A a álgebra induzida

por P. Partindo de (, A), vamos completar um espaço de probabilidades definindo uma função de

probabilidades, P, por:

P{ccc} = 0,10 , P{ccC, cCc, Ccc} = 0,20 , P{cCC, CcC, CCc} = 0,30 e P{CCC} = 0,40

A função P definida acima não é a natural, uma vez que não procuramos manter nenhuma coerência com

as propriedades concretas do experimento. Ela apenas atende aos dois axiomas definidores de funções de

probabilidade. Como sabemos, a definição de P para cada elemento da partição geratriz de A (o que

equivale dizer, para cada átomo da álgebra) completamente define a função de probabilidades P.

Antes de definir duas funções, X e Y, de A em R, vamos dar nomes alguns eventos:

A0={ccc}, A1={ccC, cCc, Ccc}, A2={cCC, CcC, CCc} e A3={CCC}

B1={ccc, cCc, CcC, CCC} e B2={cCc, cCC, CCc, CCC}

O evento Ai pode ser descrito como: o subconjunto dos elementos , para os quais o número de caras

é i. O evento B1 é o subconjunto dos , para os quais o primeiro resultado é igual ao último; B2 agrega

os , para os quais o resultado do meio é C. A propósito, os eventos Ai são mensuráveis; os Bi, não

Vamos agora definir X:R e Y:R por:

X() = IA1() + 2 IA2() + 3 IA3()

e Y() = IB1() + 2 IB2()

À direita temos X e Y numa conveniente

forma tabular:

As respectivas funções inversas, X-1

:R e Y-1

:R, são fáceis de definir:

ccc ccC cCc Ccc cCC CcC CCc CCC

X() 0 1 1 1 2 2 2 3

Y() 1 0 3 0 2 1 2 3

Page 28: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

28

X-1

(0)={ccc}=A0 X-1

(1)={ ccC, cCc, Ccc } =A1 X-1

(2)={cCC, CcC, CCc} =A2 X-1

(3)={CCC}=A3

Para qualquer outro xR, X-1

(x)=. A função Y também assume apenas os valores 0, 1, 2 e 3, com

Y-1

(0)={ccC, Ccc} Y-1

(1)={ ccc, CcC } Y-1

(2)={cCC, CCc} =A2 Y-1

(3)={cCc, CCC}=A3

Também aqui, para qualquer outro xR, Y-1

(x)=. A imagem de qualquer intervalo IR induzida por X em

, é o subconjunto dos elementos tais que X()I.

Tanto X como Y induzem uma partição de . A de X está contida em A. Aliás, é a sua partição geratriz. A

partição induzida por Y, por outro lado, não tem relação ordinal com P (nem P é um refinamento dessa

partição nem essa partição é um refinamento de P). X é mensurável e Y, não.

Distribuição conjunta de variáveis aleatórias

Sobre um mesmo espaço de probabilidades pode-se definir um número ilimitado de funções

mensuráveis diferentes, do tipo X:R. Cada variável aleatória terá sua distribuição de probabilidades,

sua esperança e variância. Contudo é frequentemente interessante analisar o comportamento

probabilístico conjunto de duas ou mais variáveis.

Seja o espaço de probabilidades discreto (, A, P), e duas funções mensuráveis, X:R e Y:R, com

respectivas funções de probabilidade, PX e PY, bem definidas em (R, B). Podemos pensar em termos da

distribuição conjunta de probabilidades:

P{x, y} = P{; X()=x e Y()=y} = P{; X()=x}{; Y()=y} = P{X=x}{Y=y}

Como X e Y são mensuráveis, cada um dos eventos {X=x}={; X()=x} e {Y=y}={; Y()=y}

pertencem a A e, portanto, sua intersecção também pertence, garantindo a perfeita definição da

probabilidade no segundo membro da equação acima.

Como P{X=x}{Y=y} = P{X=x}P{Y=y}\{X=x}, se os eventos {X=x } e {Y=y } forem independentes, então

P{x, y} = P{X=x } P{Y=y }.

Diz-se que duas variáveis aleatórias definidas num mesmo espaço de probabilidades são independentes,

se os eventos {X=x } e {Y=y } são independentes, para qualquer par (x, y) no suporte conjunto de X e Y.

Exemplos:

2.9 – Sejam , com = {1 2 3 4 5}{1 2 3 4 5} = {11 12 13 … 52 53 54 55}, a álgebra completa e a função

natural de probabilidades. Sejam as variáveis aleatórias W1 e W2 respectivamente o resultado do primeiro

e do segundo lançamento, X = W1 + W2 e Y = W2 – W2. Podemos mostrar que W1 e W2 são independentes,

confirmando nossa intuição a priori, dado que o resultado no segundo lançamento não depende do

resultado no primeiro, e vice-versa. Segue a prova formal.

Page 29: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

29

A função W1 parte em cinco eventos:

{11 12 13 14 15}, {21 22 23 24 25}¸ {31 32 33 34 35}, {41 42 43 44 45} e {51 52 53 54 55}

A função W2 define outra partição, também de cinco eventos:

{11 21 31 41 51}, {12 22 32 42 52}, {13 23 33 43 53}, {14 24 34 44 54} e {15 25 35 45 55}

O espaço amostral e as partições referidas estão representados abaixo numa forma mais gráfica:

Cada uma das partes nas duas partições acima tem 5 elementos e, portanto, probabilidade igual a 0,20.

Vamos mostrar que o primeiro evento da partição definida por W1, {W1=1}={11 12 13 14 15} é

independente de {W2=1}={11 21 31 41 51}:

* + * + * + * +

* +

* +

* +

* +

De maneira análoga se pode provar o mesmo para qualquer um dos demais 24 pares de eventos do tipo

{W1=a} e {W2=b}, portanto, qualquer evento da primeira partição é independente de qualquer evento da

segunda partição e podemos concluir que P{W1=a, W2=b} = P{W1=a}P{W2=b}. As duas variáveis aleatórias

são, portanto, independentes.

O mesmo não pode ser dito para W1 e X, W2 e X, W1 e Y, W2 e Y, X e Y. Vejamos, por exemplo:

P{X=5} = P{14 23 32 41} = 0,16

* + * + * + * +

* + * + * +

* +

* +

* +

Portanto P{X=5}\{W1=2} P{X=5}, e concluímos que W1 e X não são v. a.’s independentes entre si.

Da mesma forma prova-se que nenhum dos demais pares de v.a.’s são independentes entre si.

Não podemos, portanto, simplesmente dizer que P{X=x e Y=y} = P{X=x}P{Y=y}. Em vez disso:

* + * + * + * () () +

* + * + * +

Por exemplo,

* + * + * + * + * + * +

Enquanto P{X=7}P{Y=3}=P{52 43 34 25}P{14 25}=0,160,08=0,0128.

Tendo calculado * + diretamente de {X=7}{Y=2}, perdemos a oportunidade e a diversão

de calcular a probabilidade condicional de {X=7} dado {Y=3} ou a probabilidade condicional de {Y=3} dado

{X=7}. Vamos preencher esta lacuna:

Page 30: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

30

* + * + * + * +

* +

e

* + * + * + * +

* +

Assim, enquanto a probabilidade a priori de {X=7} é 0,16, condicionada a {Y=3} ela é bem maior: 0,50. Do

outro lado enquanto a probabilidade a priori de {Y=3} é 0,08, condicionada a {X=7} ela cresce para 0,25.

Vemos assim que esses dois eventos são dependentes, e guardam entre si uma associação positiva, no

sentido de que a ocorrência de um aumenta a probabilidade de ocorrência do outro.

Exercícios

3.

Page 31: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

31

Esperança e variância de combinações lineares de v.a.’s independentes

Sejam o espaço de probabilidades (, A, P); X e Y duas v. a.’s discretas e independentes, de

suportes X e Y, respectivamente; e Z=aX+bY uma combinação linear de X e Y, com a e b reais

não nulos. Então, E(Z) = aE(X)+bE(Y) e V(Z)=a2V(X)+b2

V(Y).

A prova desses dois resultados é simples. Seja

{X=x e Y=y} = { ; X()=x e Y()=y } = { ; X()=x } { ; Y()=y }.

Logo,

P{X=x e Y=y} = P{ ; X()=x } { ; Y()=y} = P{ ; X()=x }P{ ; Y()=y}

Portanto

( ) ( ) ∑ ∑ ( ) * +

∑ ∑ ( ) * +

* +

∑ ∑ , * + * + * + * +-

∑ ∑ * + * +

∑ ∑ * + * +

∑ * + ∑ * +

∑ * + ∑ * +

∑ * +

∑ * + ∑ * +

( ) ( )

Para a prova do segundo resultado vamos primeiro provar que, sendo independentes, E(XY)=E(X)E(Y).

De fato

( ) ∑ ∑ * +

∑ ∑ * +

* +

∑ ( * + ∑

* +)

∑ * + ( )

( ) ∑ * +

E concluímos que, sendo X e Y independentes, ( ) ( ) ( ).

Page 32: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

32

Então

( ) ( ) ∑ ∑ ( ) * +

∑ ∑ ( ) * + * +

( ) ( ) ∑ ∑ * + * +

( ) ( ) ( ) ( )

Portanto

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ( ) ( ))

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

( ( ) ( )) ( ( ) ( ))

E concluímos: que V(Z) = V(aX + bY) = a2.V(X) + b2.V(Y). Vejamos alguns exemplos.

Exemplos

1 – Seja E um experimento aleatório qualquer e (, A, P) um espaço de probabilidades adequado. Seja X uma

variável aleatória definida nesse espaço, com E(X)= e V(X)=2 . Sejam n repetições independentes de E, com

os n resultados independentes de X, denominados X1, X2, … , Xn. Considere os espaços amostrais usuais para o

caso. Sejam ∑ e

∑ , respectivamente o número total e a frequência relativa de

sucessos nas n replicações.

Como E(X)=p e V(V)=pq, concluímos que

( ) ( )

( ) ( )

( )

( )

( )

( )

Essa última propriedade é importantíssima. Ela diz que a variância da média de n observações independentes

de uma mesma variável aleatória X (suposta de variância finita), converge para zero quando n cresce para .

Creio que não seria exagero afirmar que, se a lei natural implícita na mesma não existisse na natureza, a vida

talvez não existisse e, mesmo que existisse, a vida inteligente, certamente que não.

Page 33: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

33

Um caso particular interessante dos resultados acima ocorre quando o experimento aleatório envolvido é o Ep.

Neste caso X~B(p) e Sn corresponderia ao número de sucessos em n repetições independentes de um

experimento binário com P{S}=p. Portanto, Sn~b(n, p). Como, nesse caso, E(X)=p e V(X)=np, concluímos pelos

resultados acima que E(Sn)=np e V(Sn)=npq. Esses resultados já são nossos conhecidos [ver dedução dos

mesmos por caminhos muito mais trabalhosos, na seção sobre a distribuição binomial].

2 – Seja o experimento estocástico D5, com respectivo espaço de probabilidades natural. Seja X a variável

aleatória correspondente ao resultado obtido. Seja o experimento que corresponde a n repetições

independentes de D5, e X1, X2, … , Xn os respectivos valores de X. Definindo acima, Vamos determinar a

esperança e a variância de cada uma dessas duas variáveis aleatórias. Ora,

( ) ∑ * +

( ) ∑ * +

portanto

( ) ( ) ( )

Com esperança e variância de X tão bem comportados (números inteiros), o D5 é mais adequado aos exemplos

nos quais exploraremos as propriedades de sequências ilimitadas de repetições de experimentos aleatórios.

Compare por exemplo com o tradicional D6: aqui, E(X)=3,5 e V(X)=2,916666… .

Conclui-se então que: ( ) ( ) ( ) ( )

Logo veremos como tirar proveito desses fatos.

Page 34: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

34

A desigualdade de Tchebyshev e a Primeira Lei dos Grande Números

Um valor observado de uma variável aleatória pode cair mais próximo ou mais distante de seu centro de

gravidade (isto é, de seu valor médio esperado). Se X tem suporte X enumerável, e se E(X) X, então

é possível que a variável aleatória X assuma um valor exatamente igual à seu valor médio esperado.

Seja X uma variável aleatória com esperança e variância 2. Ao valor D = X – denominamos desvio de

X em relação à sua esperança. Por exemplo, seja D5 e seja X

definida como o resultado observado. Numa realização de D5

podemos ter X=4. Como E(X)=3, dizemos nesse caso que X

desviou 1 ponto em relação ao seu valor médio esperado, ou

D=1. Caso X=2 então D= –1.

Esse desvio é, por sua vez, uma variável aleatória com

E(D) = E(X – ) = E(X) – = – = 0

V(D) = V(X – ) = E(X) = 2 = 0

A desigualdade de Tchebyshev demarca um limite superior para a probabilidade de D assumir valores

absolutos muito grandes:

*| | + *| | +

para qualquer positivo.

A prova é simples e direta. Primeiro vamos separar X em dois subconjuntos disjuntos: aquele onde

|D|>e o seu complemento, onde |D|. Para simplicidade de notação seja A={xX ; |D|>} . A

desigualdade pode então ser reescrita na forma ( )

.

Temos, por definição,

( ) ∑( ) * +

Assim:

( ) ∑( ) * +

∑( ) * +

Ambas as parcelas do lado direito da expressão acima são não negativas. Eliminando a segunda, ficamos

com

( ) ∑( ) * +

Resultado de D5

o o o

o o

o

o o

o o

o o

o

o o

Valor de x 1 2 3 4 5

Valor de D -2 -1 0 1 2

Page 35: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

35

Em A, |x-| é sempre maior que . Logo, substituindo na expressão acima, (x–)2 por

2, o lado direito

ficará ainda menor. Então:

( ) ∑ * +

∑ * +

( )

Portanto

( ) ( )

Provando o resultado.

Essa desigualdade tem implicações teóricas muito importantes. A partir dela deduziremos a primeira lei

dos grandes números.

Exemplo

Seja D5 com o espaço de probabilidades natural (, álgebra completa e função natural de probabilidades). Seja

X a v.a. que associa a cada resultado possível o seu valor numérico correspondente. Portanto, E(X)=3 e V(X)=2.

O experimento D5 é repetido independentemente, n vezes e sejam Sn e como usualmente definidos.

Sabemos que E(Sn)=3n, V(Sn)=2n, E( )=3 e V( )=2/n. Podemos então afirmar que

*| | +

Por exemplo, para n=10.000, a desigualdade de Tchebyshev garante que:

*| | +

De valor prático nulo. Para n muito maior os limites superiores estabelecidos pela desigualdade já

adquirem algum valor prático. Por exemplo, com n=1.000.000 podemos afirmar que

*| | +

Ou, equivalentemente,

P{ 2.990.000 S1.000.000 3.010.000} > 0,98

Nesse exemplo, usamos a desigualdade de Tchebyshev para construir intervalos de probabilidade pré

definida para X. De utilidade operacional é limitada, seu valor teórico é imenso, como veremos adiante,

na prova da primeira lei dos grandes números. Para o cálculo de probabilidades de intervamos

contaremos logo com resultados mais convenientes. Eles permitirão determinar que, no contexto do

exemplo acima, para n=10.000, *| | + e, para n=1.000.000 *| | + .

Primeira lei dos grandes números

Page 36: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

36

Seja uma variável aleatória X, com esperança e variância 2. Sejam n medições sucessivas e

independentes de X, com valores observados X1, X2, … , Xn, e com como usualmente definido. Então,

para qualquer >0, arbitrariamente pequeno, *| | + . Reciprocamente, podemos

dizer que * + .

Esta propriedade afirma que não interessa quão estreito o intervalo em torno da E(X), a probabilidade

de cair dentro desse intervalo tende a 1 quando n cresce ao infinito. Dizemos que converge em

probabilidade à esperança de X. No caso particular do arremesso de uma moeda, a fração de caras

converge em probabilidade para 0,5 quando o número de arremessos cresce para . Da mesma forma,

em sucessivas repetições de D5 (arremesso de um dado de 5 lados), o resultado médio converge em

probabilidade para 3 quando n.

Este resultado sai como consequência imediata da Desigualdade de Tchebyshev, uma vez que o limite,

quando n de V( ) é zero.

Usando recursos técnicos que serão introduzidos adiante, calculamos o valor exato de P{2,99 3,01}

para n repetições de D5, para diversos valores de n

n 100 1.000 10.000 100.000 1.000.000 10.000.000

P{2,99 3,01} 0,08449 0,18563 0,52270 0,97465 1,00000 1,00000

Exercícios:

4. Determine o limite superior de Tchebychev e o valor exato para das probabilidades dos seguintes

eventos

a. {| |

} com Sn igual à soma dos n primeiros resultados parciais em uma sequência

de repetições independentes de D5.

b. {|

| } com igual à frequência relativa de caras no primeiros n de uma

sequência de arremessos independentes de uma moeda normal.

c. *| | + com igual à média dos 50 primeiros resultados parciais em uma

sequência de repetições independentes de D5, para n=10, 25, 50 e 100.

d. {|

| } com igual à

frequência relativa de caras no

primeiros n de uma sequência de

arremessos independentes de uma moeda normal, para n=10, 50, 1000, 10.000.

5. Uma sacola contém 10 bolas idênticas, exceto na cor. Um experimento E consiste em sortear uma

das bolas ao acaso, anotar a cor e devolvê-la à sacola. Uma função X:R é definida, segundo a

tabela abaixo. O experimento E será repetido sucessivamente, n vezes, gerando X1, X2, X3, X4, … . Seja

a média aritmética dos n primeiros valores observados. Calcule:

cor verde amarelo azul branco

n de bolas 4 3 2 1 X 1 2 3 4

Page 37: 2. Introdução a Probabilidade

Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental

Prof. Sebastião de Amorim

37

a. A probabilidade de que o resultado 1 não apareça nem uma vez entre os 10 primeiros

resultados.

b. A probabilidade de que o resultado 3 apareça exatamente 25 vezes entre os 100 primeiros

resultados

c. A probabilidade de que o evento {1 2} ocorra pelo menos 30 vezes entre os 40 primeiros

resultados.

d. O limite superior de Tchebychev para *| ( )| + para n=10, 100, 1.000 e

10.000.