Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf ·...

29
Notas sobre Probabilidade Discreta por Roberto Imbuzeiro M. F. de Oliveira IMPA i

Transcript of Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf ·...

Page 1: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Notas sobre Probabilidade Discreta

por

Roberto Imbuzeiro M. F. de Oliveira

IMPA

i

Page 2: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Indice

1 Introducao 11.1 Andamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 20 de marco de 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2 Definicoes basicas do caso discreto 22.1 Conceitos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.2 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.3 Probabilidades condicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.4 Particoes e probabilidades condicionais . . . . . . . . . . . . . . . . . . . . . . . 82.5 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Variaveis aleatorias 113.1 Definicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.2 Distribuicao de uma variavel aleatoria . . . . . . . . . . . . . . . . . . . . . . . 113.3 Distribuicoes novas a partir de antigas . . . . . . . . . . . . . . . . . . . . . . . 123.4 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.5 Somas de variaveis aleatorias independentes . . . . . . . . . . . . . . . . . . . . 14

4 Valores esperados, momentos e desigualdades 164.1 Valores esperados e momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.1.1 A desigualdade de Jansen e as normas Lp . . . . . . . . . . . . . . . . . 184.2 Variancia e covariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194.3 A desigualdade de Chebyshev e concentracao . . . . . . . . . . . . . . . . . . . 214.4 Aplicacao a aproximacoes por polinomios . . . . . . . . . . . . . . . . . . . . . 23

5 Interpretacao das probabilidades condicionais 255.1 Probabilidades e esperancas condicionais . . . . . . . . . . . . . . . . . . . . . . 25

5.1.1 Informacao e aproximacao: definindo probabilidades condicionais . . . . 255.1.2 Informacao e aproximacao: o caso geral . . . . . . . . . . . . . . . . . . 27

ii

Page 3: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Capıtulo 1: Introducao

Muitos dos conceitos relevantes em Probabilidade e ja sao interessantes no caso discreto,em que as tecnicalicades de Teoria da Medida sao desnecessarias e as ideias envolvidas setornam transparentes. Alem disso, as distribuicoes discretas sao frequentemente encontradasem aplicacoes de Probabilidade.

Estas duas razoes sugerem que um curso introdutorio de Probabilidade dispense especialatencao a este caso particular da teoria. No entanto, a duracao do curso de mestrado emProbabilidade do IMPA exige que se cumpra a parte ”dif’ıcil”do programa sem muita demora.Estas notas sucintas se propoem a complementar este curso atraves de um estudo paraleloda Probabilidade discreta atraves de exercıcios. Apresentaremos uma boa parte do cursoneste caso particular, indicaremos a correspondencia natural que existe entre conceitos deProbabilidade discreta e de Medida e, por fim, exibiremos as limitacoes do caso discreto e aforma pela qual elas sao superadas pela teoria axiomatica de Kolmogorov.

Sugestoes e correcoes devem ser enviadas para [email protected].

1.1 Andamento

Estas notas sao um trabalho em andamento que sera constantemente atualizado. Manter-emos aqui uma lista das modificacoes mais relevantes e das secoes ja prontas.

1.1.1 20 de marco de 2007

So os Capıtulos 2 e 3 estao razoavelmente prontos (mas ainda nao revistos). O Capıtulo 4ja esta algo legıvel e pode ser estudado preliminarmente. O Capıtulo 5 ainda esta totalmentecaotico.

1.2 Referencias

As principais referencias destas notas sao:

1. Kai Lai Chung, ”A Course in Probability Theory Revised”;

2. William Feller, ”An Introduction to Probability Theory and Its Applications, Volume1”;

3. Barry James. ”Probabilidade: um curso em nıvel intermediario”.

1

Page 4: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Capıtulo 2: Definicoes basicas do caso discreto

2.1 Conceitos basicos

Aproximadamente um sexto dos lancamentos de um dado resulta no numero 4. Asbrasileiras tem em media 2, 5 filhos. Ha uma chance de 22% de que a economia chilena crescamais do que a indiana no ano de 2007. Cada uma destas afirmacoes pode ser vagamenteinterpretada de uma das seguintes duas maneiras:

• Avaliacao de risco: Ha um conjunto de possibilidades para o que pode vir a acontecer.A cada possibilidade atribui-se uma medida numerica do risco de sua ocorrencia.

• Frequencia: Olhamos para uma serie de circunstancias repetidas. Para cada repeticao,observamos a ocorrencia de um dado evento e calculamos a fracao de vezes em que oevento acontece.

Grosso modo, a definicao de probabilidade que veremos a seguir captura a primeira inter-pretacao acima. Um teorema fundamental chamado de Lei dos Grandes Numeros nos permi-tira dizer que, ao menos em alguma situacoes, podemos recuperar a segunda interpretacao deforma precisa.

Nossa definicao (provisoria) de probabilidade tem dois ingredientes.

Definicao 2.1. Um espaco de probabilidade discreto e um par (Ω, P) cujos dois elementossao:

1. Um espaco amostral Ω, que e o conjunto de possıveis “acontecimentos”Ω, e que e umconjunto finito ou enumeravel.

2. Uma medida de probabilidade (ou distribuicao) P (·), que atribui a cada elemento ω ∈ Ωuma probabilidade (“valor de risco”) P (ω) ∈ [0, 1]. Exigiremos sempre que a soma dasprobabilidades seja 1, isto e: ∑

ω∈Ω

P (ω) = 1.

Hipotese 2.2. Todos os espacos de probabilidade neste capıtulo sao espacos discretos.

A definicao acima induz uma funcao sobre os subconjuntos de Ω (isto e, o conjunto P(Ω)das partes de Ω). Esta nova funcao tambem sera chamada de P.

(2.1)P : P(Ω) → [0, 1]

A 7→ P (A) =∑

ω∈A P (ω)

Note que, com esta definicao, P (ω) e o valor de P (ω) definido anteriormente.

Exercıcio 2.1. Prove que a funcao P sobre P(Ω) satisfaz as seguintes propriedades:

1. P (∅) = 0

2. P (Ω) = 1

2

Page 5: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

3. se A1, A2, · · · ⊂ Ω sao conjuntos disjuntos 2 a 2, P(∪+∞

n=1An

)=∑+∞

n=1 P (An). (Aprobabilidade da uniao de conjuntos disjuntos e a soma das probabilidades dos conjuntosindividuais.)

Mostre a seguinte recıproca: se P : P(Ω) → [0, 1] satisfaz estas tres propriedades, entaoP (ω) = P (ω) e uma medida de probabilidade no sentido da Definicao 2.1.

Observacao 2.3. Os elementos A ∈ P(Ω) sao ocasionalmente chamados de eventos.

Exercıcio 2.2. Prove tambem as seguintes propriedades.

1. Se A ⊂ B ⊂ Ω, P (A) ≤ P (B);

2. Se A1, A2 ⊂ Ω, P (A1) = P (A1 ∩A2) + P (A1\A2);

3. para todo A ∈ P(Ω), P (Ac) = 1− P (A), onde Ac e o complementar de A em Ω.

4. Inclusao-exclusao: Para quaisquer conjuntos A1, A2 ⊂ Ω:

P (A1 ∪A2) = P (A1) + P (A2)− P (A1 ∩A2) .

5. Inclusao-exclusao generalizada: Para quaisquer conjuntos A1, A2, . . . , An ⊂ Ω:

P (∪ni=1Ai) =

n∑k=1

(−1)k+1∑

S⊂1,...,n:|S|=k

P (∩i∈SAi) ,

onde |S| e a cardinalidade de S. [Este e um item mais difıcil. Uma estrategia pararesolve-lo e usar inducao em n. O caso n = 2 e o item anterior. Para n ≥ 3, considereP (Bn−1 ∪An) onde Bn−1 = ∪n−1

i=1 Ai. Note que pelo item anterior:

P (Bn−1 ∪An) = P (An) + P (Bn−1)− P(B′

n−1

),

onde B′n−1 = ∪n−1

i=1 (Ai ∩An). Agora aplique a hipotese indutiva.]

2.2 Exemplos

Alguns exemplos basicos de espacos de probabilidade sao apresentados a seguir. O leitordeve certificar-se de que cada um corresponde de fato a um espaco de probabilidade.

Exercıcio 2.3 (Espacos produto). Para 1 ≤ i ≤ n, sejam (Ωi, Pi) espacos de probabilidade(discretos). Defina um novo espaco (Ω, P) mediante o produto cartesiano

Ω = Ω1 × Ω2 × . . .Ωn

e tomando

(2.2) P (ω) = P1 (ω1) P1 (ω2) . . . Pn (ωn) , ω = (ω1, . . . , ωn) ∈ Ω.

Mostre que (Ω, P) e um espaco de probabilidade (o espaco produto) e que (2.2) e equivalentea

P (A1 × · · · ×An) = P1 (A1) P1 (A2) . . . Pn (An) , A1, . . . , An ⊂ Ω.

3

Page 6: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Exemplo 2.4 (Bernoulli). Neste caso Ω = 0, 1 correspondendo ao cara/coroa de umamoeda. Fixamos um numero p ∈ [0, 1] e dizemos que P (1) = p, P (0) = 1−p. Esta distribuicaoe chamada de Bernoulli com parametro p (Bep)

Exercıcio 2.4 (Produto de Bernoullis). Escolha p ∈ [0, 1] e n ∈ N. Seja Ω = 0, 1n eP (ω) = p|ω|(1 − p)n−|ω|, onde |ω| =

∑ni=1 ωi. Mostre que este espaco e o produto de n

espacos Ωi = 0, 1 com medida Pi = Bep.

Exemplo 2.5 (Um dado). Neste caso Ω = 1, 2, 3, 4, 5, 6 correspondendo as faces de umdado. Definimos P (ω) = 1/6 para cada ω ∈ Ω.

Exemplo 2.6 (Distribuicao uniforme). Generalizando o exemplo anterior, Ω e um conjuntodiscreto dado e P (ω) = 1/|Ω| para cada ω ∈ Ω, onde |Ω| e a cardinalidade do conjunto Ω.Esta e a distribuicao uniforme sobre Ω (UnifΩ)

Exercıcio 2.5. Mostre que neste caso ∀A ⊂ Ω, P (A) = |A|/|Ω|.

Exercıcio 2.6 (Produtos de distribuicoes uniformes sao uniformes). O produto de n espacosfinitos (Ωi, Pi = UnifΩi) e (Ω, P = UnifΩ).

Exemplo 2.7 (Distribuicao geometrica). A tecnica de datacao por carbono 14 e baseada nochamado decaimento: cada atomo transforma-se espontaneamente em outro tipo de atomoao longo do tempo1. Nosso espaco Ω correspondera ao numero de segundos que um atomoescolhido de carbono 14 demora para decair: Ω = N = 1, 2, 3, . . . . A probabilidade P tera aforma de “decaimento exponencial discreto”determinada pela seguinte formula:

(2.3) P (k, k + 1, k + 2, . . . ) = (1− p)k−1,

onde p ∈ [0, 1) e um parametro que depende das propriedades do carbono-14 2. De modo geral,a distribuicao determinada pela formual acima e chamada de geometrica com parametro p(Geop).

Exercıcio 2.7. Mostre que ha uma unica funcao P : Ω → [0, 1] compatıvel com (2.3) e queela e dada por P (ω) = p(1−p)ω−1. Calcule tambem a meia-vida H, isto e, o menor k tal que

P (k, k + 1, k + 2, . . . ) ≤ 1/2.

Exemplo 2.8 (Binomial). Recordamos a definicao do coeficiente binomial(nk

):(

n

k

)≡ n!

k!(n− k)!(k, n ∈ N, 0 ≤ k ≤ n).

A distribuicao binomial com parametros n ∈ N, p ∈ [0, 1] (Binn,p) e a probabilidade sobreΩ = 0, 1, 2, . . . , n dada por (

n

k

)pk(1− p)n−k, k ∈ Ω.

1Ver http://en.wikipedia.org/wiki/Carbon-14.2Por que nao podemos tomar p ≥ 1?

4

Page 7: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Exercıcio 2.8 (Produto de Bernoullis e Binomial.). Volte ao Exercıcio 2.4. Considere oseventos Ek ≡ ω : |ω| = k. Prove que cada Ek e a uniao disjunta de

(nk

)eventos

FS ≡ ω : ∀1 ≤ i ≤ k, ωi = 1 se i ∈ S ou 0 se i 6∈ S.

Mostre que P (FS) = pk(1−p)n−k e que P (Ek) = Binn,p(k). Esta conexao entre o produto deBernoullis e a distribuicao Binomial sera elucidada quando falarmos de variaveis aleatorias.

Exercıcio 2.9 (Apresentando a distribuicao Poisson). Fixe λ > 0 e considere (para n ≥ λ) adistribuicao Pn = Binn,pn , com pn = λ/n. Note que Pn (k) esta definido para todo 0 ≤ k ≤ ninteiro. Prove o seguinte limite para todo k ∈ N

limn→+∞

Pn (k) ≡ Poλ(k) = e−λ λk

k!.

Poλ e uma probabilidade sobre N conhecida como Poisson com parametro λ > 0. Este ex-ercıcio mostra que “binomiais convergem para Poisson”; um resultado mais forte sera provadobem mais adiante.

Exemplo 2.9 (Retirando bolas de urnas com ou sem reposicao). Imagine uma urna combolas numeradas de 1 a n das quais k ≤ n bolas a1, . . . , ak sao retiradas sucessivamente.

Para definirmos as distribuicoes abaixo, seja [b] = 1, dots, b (b natural). SR e o conjuntode funcoes de S em R e SR

inj e o subconjunto de funcoes injetivas. Descrevemos duas situacoespossıveis.

1. Cada bola retirada e reposta. Se definimos ω : [k] → [n] via ω(i) = ai, entao ω e umelemento do espaco Ω = [n][k]. Se P = Unif[n][k] , este caso e conhecido como retiradade bolas com reposicao.

2. Cada vez que uma bola e retirada, ela nao e reposta na urna, de modo que na ı-esimaretirada restam na urna as bolas 1, . . . , n\a1, . . . , ai−1. Se definimos ω : [k] → [n]via ω(i) = ai, entao ω e um elemento do espaco Ω = [n][k]

inj Se P = Unif[n]

[k]inj

, temos oque se chama de retirada de bolas com reposicao.

Exercıcio 2.10. Prove que [n][k] e [n]k tem uma bijecao natural onde cada ω ∈ [n][k] corre-sponde ao vetor (ω(1), . . . , ω(n)). Logo Unif[n][k] corresponde naturalmente a medida produtosobre [n]k (Exercıcio 2.6).

Exercıcio 2.11. Considere o caso de uma urna com n bolas da qual k = n bolas sao tiradassem reposicao. Mostre que neste caso Ω = Sn, o conjunto das permutacoes de [n]. Agoraconsidere o conjunto das permutacoes com pontos fixos, isto e, que mapeiam algum i ∈ [n]nele mesmo.

Fn = ω ∈ Sn : ∀i ∈ [n], ω(i) = i.

Seja Pn = UnifΩ. Seguindo os passos abaixo, provaremos que

Pn (Fn) =n∑

k=1

(−1)k+1

k!→ 1− e−1.

1. Defina Ei = ω ∈ Sn : ω(i) = i. Mostre que Fn = ∪iEi.

5

Page 8: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

2. Mostre que para todos 1 ≤ i1 < · · · < ik ≤ n P (Ei1 ∩ · · · ∩ Eik) = (n− k)!/n! = 1/k!

(nk

)[Dica: seja σ uma permutacao de [n]\i1, . . . , ik (que tem n − k elementos). Definaω = ωσ com a permutaca com ω(ij) = ij e ω(u) = σ(u) para u ∈ [n]\i1, . . . , ik. Proveque a cada ω ∈ Ei1 ∩ · · · ∩Eik

corresponde um σ como acima e vice-versa. Isto permitecontar os elementos da interseccao.]

3. Aplique a formula da Inclusao-Exclusao Generalizada aos Ei’s.

2.3 Probabilidades condicionais

Suponha que temos um espaco de probabilidade (Ω, P) correspondendo por exemplo a umacarta de um baralho com disribuicao uniforme. Estas cartas estao particionadas em quatroconjuntos correspondendo aos naipes e queremos saber se a carta ω ∈ Ω escolhida e de copas. De inıcio, tudo o que podemos dizer e que, se C e o evento copas,

P (C) =14.

Equivalentemente, o ”risco”atribuıdo a C e de 25%. Suponha, no entanto, que recebemos ainformacao de que a carta ω escolhida e preta, isto e, ω ∈ P . Neste caso, e necessario atualizarnossa medida de risco: como todas as cartas de copas sao vermelhas, devemos passar a atribuirrisco 0 ao dado evento. Isto e, cndicionado ao evento P , o evento C em probabilidade 0. Poroutro lado, se descobrimos que ω e vermelha (ω ∈ V = P c), entao continua existindo umrisco de que ω ∈ C; como metade das cartas vermelhas pertence a V , parece natural dizerque condicionado a V , a probabilidade de ω ∈ C e 1/2.

A probabilidade condicional pode ser vista como uma formalizacao da ideia de que proba-bilidades devem ser atualizadas cada vez que informacao nova e recebida. Mostraremos maisadiante que as formulas abaixo representam uma atualizacao otima das medidas de risco deacordo com uma certa medida natural de qualidade. Segue que as formulas abaixo nao saoarbitrarias; pelo contrario, sua escolha e bem motivada.

Definicao 2.10. Seja (Ω, P) um espaco de probabilidade discreto e A ⊂ Ω um evento comP (A) > 0. A probabilidade condicional de ω ∈ Ω dado A e definida pela formula.

(2.4) P (ω | A) =

P(ω)P(A) , ω ∈ A;0, ω ∈ Ac.

Observacao 2.11. Note que para todo evento B, P (B | A) = P (B ∪A) /P (A) [Exercıcio].Ocasionalmente falaremos de P (B | A) para P (A) = 0; neste caso, a probabilidade condicionalpode ser definida de maneira arbitraria, pois seu valor quase nunca fara diferenca.

Exercıcio 2.12. Formalize o problema do baralho descrito acima e mostre que P (C | P ) = 0,P (C | V ) = 1/2.

Exercıcio 2.13 (Regra da probabilidade total.). Se A1, A2, . . . e uma particao de Ω,

∀B ⊂ Ω, P (B) =∑

i

P (B | Ai) .

6

Page 9: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Exercıcio 2.14 (Regra de Bayes.). Se P (A) , P (B) > 0,

P (A | B) =P (B | A) P (A)

P (B).

Exercıcio 2.15. Considere Ω = [n] = 1, . . . , n com a medida uniforme. Suponha que n edivisıvel por 4. Seja P ⊂ [n] o sub-conjunto dos pares e I = P c o sub-conjunto dos ımpares eQ o sub-conjunto dos numeros divisıveis por 4. Calcule P (Q) , P (Q | P ) , P (Q | I) , P (P | Q).

Exercıcio 2.16 (Falta de memoria da distribuicao geometrica). Consideramos agora (Ω, P) =(N, Geop) como no Exemplo 2.7. Considere um evento Mk ≡ k, k + 1, k + 2, . . . . Mostreque a distribuicao condicional de P (· | Mk) e dada por

P (i + k − 1 | Mk) = p(1− p)i−1, i ∈ N e P (j | Mk) = 0, j < k.

Em particular, mostre que a meia-vida da distribuicao condicional e k − 1 + H, onde H e ameia-vida de Geop. Intuitivamente, isto quer dizer que se o atomo nao decaiu ate o tempok, o tempo que falta para o decaimento tem a mesma distribuicao que tinha originalmente: oatomo nao se lembra de quanto tempo ja passou.

Em muitos casos usa-se probabilidades condicionais para definir uma medida P implicita-mente. Abaixo vemos alguns exemplos.

Exemplo 2.12. Tem-se um saco com n moedas. Uma moeda e escolhida aleatoriamentee joga-se cara/coroa com ela, obtendo 1 ou 0. Nosso espaco amostral sera dado por Ω =[n]×0, 1, correspondendo ao par moeda/resultado, e cada elemento de Ω e um par ω = (k, b).

Considere os eventos Ek = k × 0, 1 correspondentes a escolha da k-esima moeda.Sejam Fb = [n] × b os eventos correspondentes ao valor cara/coroa. Nossa regra paradefinir probabilidades em Ω e a seguinte.

1. P (Ek) = 1/n para cada k ∈ [n] (ou seja, as moedas sao equiprovaveis);

2. P (F1 | Ek) = 1− P (F0 | K = k) = pk, onde pk ∈ (0, 1) (a k-esima moeda tem probabil-idade pk de dar cara).

Isto define unicamente uma medida sobre Ω dada por

P ((k, b)) =pkb + (1− pk)(1− b)

n.

[Exercıcio.]

Exercıcio 2.17. Suponha que p1 > · · · > pn. Calcule P (Fb) e P (Ek | Fb) e mostre que

P (Ek | F1) decresce com k.

Ou seja: se o resultado do lancamento e cara, as moedas com proabilidade alta de cara saoas mais provaveis (segundo a probabilidade condicional).

Exemplo 2.13. Voltamos ao cenario do Exemplo 2.7. Agora temos dois tipos de atomo eobservamos o decaimento de um deles. Formalmente,

Ω = 0, 1 × N

correspondendo a pares ”(atomo,tempo do atomo)”. Se Ab = b × N e Dk ≡ 0, 1 × k,definimos:

7

Page 10: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

1. P (Ai) = 1/2 (os atomos sao equiprovaveis);

2. P (Dk | Ai) = pi(1 − pi)k−1, onde pi ∈ (0, 1) (o decamento do i-esimo atomo tem dis-tribuicao Geopi

).

Isto tambem define uma probabilidade sobre Ω [Exercıcio].

Exercıcio 2.18. Calcule P (Dk) e P (Ai | Dk). Se p1 = 1/2 e p0 = 1/3, para quais k aprobabilidade de A0 condicionada a Dk e maior (isto e, quando o atomo 0 tem probabilidadecondicional maior)?

[Outros exercıcios: os das secoes 1.1 e 1.2 do Barry James que nao envolvem explicitamenteσ-algebras ou conjuntos nao discretos.]

2.4 Particoes e probabilidades condicionais

Acima falamos que probabilidades condicionais podem ser vistas como uma forma geral deatualizar a medida de risco de acordo com alguma informacao nova recebida. De modo geral,receber informacao sobre ω ∈ Ω significa saber que ω esta em algum subconjunto A ⊂ Ω.Se F = A1, . . . , An e uma particao de Ω, podemos imaginar que a informacao recebida eF(ω) = Ai a que ω pertence. Isto leva a uma definicao de probabilidade condicionada a Fcomo uma funcao.

Definicao 2.14. Se Ω e um conjunto com particao F e P e uma distribuicao sobre Ω,

P (· | F) : (ω, B) ∈ Ω×F 7→ P (B | F(ω))

e a probabilidade condicional sobre F . Aqui F(ω) e o (unico) elemento de F a que ω pertence.

A funcao P (· | F) ”condensa”todas as probabilidades condicionais P (B | Ai) em um unicoobjeto. Veremos mais adiante de que forma isto e util.

Exercıcio 2.19. Reformule a regra no Exercıcio 2.13 como P (B) =∑

ω P (ω) P (B | F(ω)).

Exercıcio 2.20. Se F = A,Ac, P (B | F) (ω) = P (B | A) se ω ∈ A e P (B | Ac) em casocontrario.

2.5 Independencia

Se probabilidades condicionais representam atualizacoes na avaliacao de risco, independenciasignifica que saber se A ocorreu nao altera a avaliacao de risco de B. Isto sugere que Ae B sao independentes quando P (B | A) = P (B), o que equivale pela regra de Bayes aP (A | B) = P (A) quando P (B) , P (A) > 0. Para evitar esta ulima condicao, toma-se emgeral uma definicao ligeiramente diferente (porem equivalente).

Definicao 2.15. Dizemos que eventos A,B sao independentes quanto P (A ∩B) = P (A) P (B).Em geral, n ≥ 2 eventos A1, . . . , An sao ditos independentes se para todas as escolhas de1 ≤ i1 < i2 < · · · < ik ≤ n,

P (Ai1 ∩ · · · ∩Aik) = P (Ai1) . . . P (Aik

) .

8

Page 11: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Exercıcio 2.21. A1, . . . , An sao independentes sse B1, . . . , Bn o sao, onde cada Bi e Ai ouAc

i .

Uma definicao um pouco mais geral e dada por

Definicao 2.16. Dizemos que n ≥ 2 particoes F1, . . . ,Fn sao independentes se para todaescolha de Fi ∈ Fi,

P (F1 ∩ · · · ∩ Fn) = P (F1) . . . P (Fn) .

Exercıcio 2.22. Se cada Fi = Ai, Aci, a definicao acima equivale a independencia de

A1, . . . , An.

Exercıcio 2.23. Qualquer subconjunto de uma famılia de eventos/particoes independentes eele proprio independente.

Exercıcio 2.24. F1 e F2 sao independentes sse P (F2 | F1) (ω) ≡ P (F2) para todo F2 ∈ F2

e ω ∈ Ω com P (ω) > 0.

Exercıcio 2.25. Os Fi sao independentes sse o seguinte ocorre: sempre que Ai e a uniao deeventos em Fi para cada i, entao A1, . . . , An sao independentes. Mostre que isto implica quese G1 e outra particao de Ω e F1 refina G1

3, entao G1,F2, . . . ,Fn sao independentes. [Dica:cada G ∈ sG1 e a uniao de elementos de F1.]

Exercıcio 2.26. Seja Fi,j : 1 ≤ i ≤ n, 1 ≤ j ≤ mi uma famılia de particoes independentes.Defina

∧mij=1Fi,j ≡ Fi,1 ∩ . . . Fi,mi : ∀1 ≤ j ≤ mi Fi,j ∈ Fi,j (1 ≤ i ≤ n).

Mostre que as ∧mij=1Fi,j’s tambem sao particoes independentes.

O exemplo mais simples de particoes independentes e o dado por espacos produto (Ex-ercıcio 2.3). Seja Ω = Ω1× . . .Ωn com uma medida produto P. Para cada 1 ≤ i ≤ n, considerea particao Fi de Ω onde elementos sao separados pela i-esima coordenada.

Fi ≡ Fi,ηi≡ ω = (ωj)n

j=1 ∈ Ω : ωi = ηi : ηi ∈ Ωi.

As particoes assim construıdas sao independentes [Exercıcio]. Grosso modo, qualquer outrafamılia de particoes independentes tem comportamento semelhante a este exemplo. Ressalta-mos, no entanto, que nem sempre eventos independentes vem de espacos produto. Veja porexemplo o exercıcio a seguir.

Exercıcio 2.27. Tome Ω = [n] com medida P = Unif[n]. Determine os valores de n para osquais os seguintes eventos sao independentes:

P = k ∈ [n] : k par,

M = k ∈ [n] : k ≥ n/2.

O exercıcio seguinte faz outra ressalva importante.3Isto e, todo F ∈ F1 esta contido em algum G ∈ G1.

9

Page 12: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Exercıcio 2.28. Sejam Ω = Ω1 × Ω2 × Ω3 com Ωi = 0, 1. Seja P dada por

P ((ω1, ω2, ω3)) =

14 , ω3 = ω1 + ω2 mod 2;0 ω3 6= ω1 + ω2 mod 2

Cheque que isto e de fato uma medida de probabilidade. Agora construa F1,F2,F3 como nocaso de espacos produto. Prove que F1,F2,F3 nao sao independentes, mas que qualquer pardelas e. Isto mostra que a independencia de tres eventos nao e consequencia da independenciadois-a-dois.

Exercıcio 2.29. Sejam A1, A2 ⊂ Ω independentes com probabilidades p1, p2 (resp.). Proveque P (A1 ∪A2) = p1+p2−p1p2. Generalize este resultado via Inclusao-Exclusao generalizadapara A1, . . . , An independentes.

Exercıcio 2.30. Seja Ω = 0, 1n com a medida produto Bep (Exercıcio 2.4). Use o exercıcioacima para calcular a probabilidade dos ω ∈ Ω com exatamente uma coordenada igual a 1.[Resposta: np(1− p)n−1.]

10

Page 13: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Capıtulo 3: Variaveis aleatorias

3.1 Definicao

Quase todos os problemas interessantes em Probabilidade envolvem o conceito de variavelaleatoria.

Definicao 3.1. Seja (Ω, P) um espaco de probabilidade discreto. Uma funcao X : Ω → Θ(onde Θ e algum outro conjunto) e chamada de variavel aleatoria (ou v.a.).

Intuitivamente1, uma variavel aleatoria corresponde a algum tipo de informacao obtidoou desejado sobre o elemento ω ∈ Ω. Se por exemplo (Ω, P) corresponde aos valores de acoesnuma bolsa de valores – ou seja, cada ω ∈ Ω e um vetor com precos de acoes diferentes emmomentos diferentes – X = X(ω) pode ser o preco das acoes de uma dada empresa ao finaldo pregao de um dia fixo. Podemos imaginar duas situacoes: ou queremos estimar X, oupretendemos usar X como base para estimar uma outra quantidade Y = Y (ω) (por exemplo,o preco da mesma acao em outro dia).

A maior parte dos exemplos de variaveis aleatorias que consideraremos tera valores em N,Z, R ou Rd; neste ultimo caso, elas tambem serao chamadas de vetores aleatorios.

3.2 Distribuicao de uma variavel aleatoria

Note que a definicao de v.a. nao envolve a medida de probabilidade P. A probabilidadeentra em cena quando percebemos que P e X induzem uma medida de probabilidade nocontradomınio Θ.

Definicao 3.2. Sejam (Ω, P) e X como acima. Considere o conjunto (enumeravel) dado por

X(Ω) ≡ X(ω) : ω ∈ Ω ⊂ Θ.

A distribuicao de X e a probabilidade PX sobre X(Ω) dada por

PX (θ) ≡ P(X−1(θ)

)(θ ∈ Θ).

Os conjuntos X−1(θ) e X−1(A) (A ⊂ X(Ω)) sao normalmente representados pelas expressoesX = θ e X ∈ A, respectivamente. A probabilidade PX pode ser estendida para todo E ⊂ Θpela formula

PX (E) = P (X ∈ E) ≡ P (X ∈ X(Ω) ∩ E) =∑

ω:X(ω)∈E

P (ω) .

A ultima parte da definicao e um abuso da definicao de proabilidade discreta, ja que Θpode nao ser enumeravel. No entanto, como X(Ω) e sempre enumera vel, isto nao causaraproblemas.

1Esta intuicao sera esclarecida na Secao ??

11

Page 14: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Exercıcio 3.1. Seja Θ um conjunto finito ou enumeravel e µ uma medida de probabilidadesobre Θ. Prove que existe uma v.a. X : Ω → Θ e uma distribuicao P sobre Ω tal que PX = µ.[Dica: o exercıcio e trivial!]

Observacao 3.3. Podemos definir distribuicoes condicionais: PY (y | A) = P (Y = y | A).

Exercıcio 3.2 (Falta de memoria de v.a.’s geometricas). Reformule o Exercıcio 2.16 daseguinte maneira: se X tem distribuicao Geop, entao para todo k a distribuicao de X − k + 1condicionada a X ≥ k tambem e Geop. Em outras palavras:

P (X = x + k − 1 | X ≥ k) = p(1− p)x−1.

3.3 Distribuicoes novas a partir de antigas

Apresentaremos agora alguns resultados gerais e especıficos sobre distribuicoes de v.a.’s.Como em muitos problemas trataremos de variaveis aleatorias definidas a partir de outrasv.a.’s, e conveniente comecar por um resultado para esta situacao.

Exercıcio 3.3. Seja X : Ω → Θ1 uma v.a. e f : Θ1 → Θ2 uma funcao. Defina a composicaof(X) ≡ f X. Mostre que f(X) e uma v.a. e que

∀A ⊂ Θ2, Pf(X) (A) = PX

(f−1(A)

).

Um caso particular especialmente importante e o de soma de variaveis aleatorias.

Exercıcio 3.4 (Soma de variaveis aleatorias). Seja X = (X1, X2, . . . , Xn) uma v.a. comvalores em Rd e defina f(x1, x2, . . . , xn) =

∑ni=1 xi. Mostre que Sn ≡ f(X) = X1 + X2 +

· · ·+ Xn e deduza do exercıcio anterior que

P (Sn = z) = P

⋃(z1,z2,...,zn)∈X(Ω) : z1+···+zn=z

(X1 = z1 ∩ X2 = z2 ∩ · · · ∩ Xn = zn)

.

Mostre que os eventos nesta uniao sao disjuntos e deduza:

P (Sn = z) =∑

(z1,z2,...,zn)∈X(Ω) : z1+···+zn=z

P

(n⋂

i=1

Xi = zi

).

Os proximos exercıcios consideram outras situacoes que nao as de soma.

Exercıcio 3.5. Suponha que (Ω, P) e um espaco finito com P uniforme (Exemplo 2.6). SejaX : Ω → Θ tal que para um certo inteiro s, todo θ ∈ Θ tem exatamente s pre-imagens por X.Prove que PX = UnifΘ.

Exercıcio 3.6. Seja [n] = 1, . . . , n. Definamos a quantidade(nk

)como o numero de sub-

conjuntos de [n] com cardinalidade k. Definamos tambem n! como o numero de permutacoesde [n]. Nosso objetivo e provar sem usar as formulas de

(nk

)e n! que

∀0 ≤ k ≤ n,

(n

k

)=

n!(n− k)!k!

.

Para isso devemos seguir os seguintes passos.

12

Page 15: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

1. Seja Ω = Sn o conjunto de permutacoes de [n] e Θ = S ∈ P([n]) : |S| = k.

2. Ponha medida P = UnifSnsobre Sn.

3. Defina a v.a. X : π ∈ Sn 7→ π(1), . . . , π(k).

4. Fixe S ∈ Θ. Escolha π ∈ X−1(S). Prove que qualquer outro η ∈ X−1(S) e da forma

η = σ1 σ2 π,

onde σ1 e permutacao de [k] (estendida a i > k via σ1(i) = i) e σ2 e permutacao de[n]\[k] (estendida a j ≤ k via σ2(j) = j).

5. Prove agora que para cada par (σ1, σ2) deste tipo ha exatamente um η como acima.Mostre que ha k!(n− k)! destes pares e deduza que

P (X = S) =k!(n− k)!

n!.

6. Por outro lado, use o exercıcio anterior para mostrar que P (X = S) = 1/|Θ| e concluaa prova.

Exercıcio 3.7. Dados 1 ≤ k ≤ n, considere Ω = [n]× [n− 1]× · · · × [n− k + 2]× [n− k + 1]com a medida uniforme. Defina X1(ω) = ω1 e para cada 2 ≤ i ≤ k:

Xi(ω) = o ωi-esimo elemento de [n]\X1(ω), . . . , Xi−1(ω).

Tome P = UnifΩ, considere a ”funcao aleatoria”X : Ω → [n][k] que para cada ω ∈ Ω e dadapor

X(ω) : [k] → [n]t 7→ Xt(ω) .

Mostre que X tem a distribuicao de ”k bolas retiradas sem reposicao de uma urna com n

bolas”(Exemplo 2.9), isto e, X e uniformemente distribuıda sobre as funcoes injetivas [n][k]inj.

[Dica: use o Exercıcio 2.6 para mostrar que P e uma distribuicao produto.]

Exercıcio 3.8. Considere novamente ”k bolas retiradas sem reposicao de uma urna com n

bolas”(Exemplo 2.9), isto e: Ω = [n][k]inj e P = UnifΩ. Seja S ⊂ [k] um conjunto com s

elementos e tome X como a restricao a S:

X : ω ∈ [n][k]inj 7→

′′ ω |S : i ∈ S 7→ ω(i)”.

Mostre que PX = Unif[n]Sinj. Este fato tem a seguinte interpretacao: se so olhamos para s

das k bolas retiradas , a distribuicao observada e a mesma de s bolas tiradas sem reposicaode uma urna com n bolas.

3.4 Independencia

Grosso modo, eventos sao independentes quando qualquer subgrupo deles nao da in-formacao alguma a respeito dos eventos restantes. A definicao de independencia de variaveisaleatorias significa algo semelhante e de fato e equivalente a independencia das particoescorrespodentes a cada v.a., conforme o exercıcio abaixo.

13

Page 16: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Exercıcio 3.9. Cada v.a. X : Ω → Θ gera uma particao FX de Ω:

FX = X−1(x) : x ∈ X(Ω).

Por outro lado, se F e uma particao, existe uma v.a. X com FX = F .

Definicao 3.4. Sejam Xi : Ω → Θi, 1 ≤ i ≤ n v.a.’s. Elas sao independentes se alguma dasseguintes condicoes equivalentes e satisfeita:

1. A distribuicao do vetor (X1, . . . , Xn) sobre Θ = ×ni=1Xi(Ωi) e uma medida produto.

2. Para todos xi ∈ Xi(Ωi),

P(X1,...,Xn) ((x1, . . . , xn)) = P (∩iXi = xi) =n∏

i=1

PXi(xi) =

n∏i=1

P (Xi = xi) ;

3. Para todos Ai ∈ P(Xi(Ωi)),

P(X1,...,Xn) (A1 × · · · ×An) =n∏

i=1

PXi (Ai) ;

4. As particoes FXisao independentes.

Exercıcio 3.10. Prove a equivaencia.

Os dois proximos exercıcios podem ou ser resolvidos diretamente, ou via os resultadossobre particoes independentes (p. ex. Exercıcio 2.25,Exercıcio 2.26).

Exercıcio 3.11 (Agrupar v.a.’s nao destroi a independencia). Sejam Xi,j : 1 ≤ i ≤ n, 1 ≤j ≤ mi v.a.’s independentes. Considere os vetores Yi = (Xi,j)mi

j=1. Mostre que eles tambemsao independentes. [Dica/obs: na notacao do Exercıcio 2.26, FYi

= ∧mij=1FXi,j

.]

Exercıcio 3.12 (Tomar funcoes das v.a.’s nao destroi a independencia). Sejam Xi : Ω → Θi,1 ≤ i ≤ n v.a.’s independentes e fi funcoes definidas nos espacos apropriados. Entao as v.a.’sYi = fi(Xi) sao independentes.[Dica/obs: na notacao do Exercıcio 2.25, cada FYi

e refinadapor FXi

.]

3.5 Somas de variaveis aleatorias independentes

Exercıcio 3.13 (Somas de v.a.’s produto; convolucoes discretas). Se as Xi : Ω → Rd (1 ≤i ≤ n) sao independentes,

∀x = (x1, . . . , xn) ∈ (Rd)n P(X1,...,Xn) (x) =n∏

i=1

PXi(xi) .

Aplique este resultado junto com o Exercıcio 3.4para mostrar que neste caso:

P (Sn = z) =∑

(z1,z2,...,zn)∈ : z1+···+zn=z

P (X1 = z1) P (X2 = z2) . . . P (Xn = zn) .

14

Page 17: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Em particular, se X1, X2, . . . , Xn tomam valores em Z:

∀z ∈ Z, P (Sn = z) =∑

(z1,z2,...,zn−1)∈Zn−1

(P (X1 = z1)× P (X2 = z2)× · · · ×

×P (Xn−1 = zn−1)× P (Zn = z − z1 − z2 − · · · − zn−1)).

No caso n = 2, a operacao que leva os vetores infinitos (P (Xi = zi))zi∈Z em (P (S2 = z))z∈Ze chamada de convolucao discreta. Para n > 2, temos convoluc oes iteradas.

Exercıcio 3.14 (A soma de Bernoullis produto e Binomial). Considere o espaco-produtode Bep’s discutido no Exercıcio 2.4: isto e, Ω = 0, 1n e P (ω) = p|ω|(1 − p)n−|ω|, onde|ω| =

∑i ωi. Defina Πi : ω 7→ ωi como a funcao que leva ω na sua i-esima coordenada. Note

que a soma das Πi’s e

S(ω) =n∑

i=1

Πi(ω) = |ω|.

Use o resultado anterior para mostrar que

PS (z) = P (S = z) = (

nk

)pk(1− p)n−k, k ∈ 0, . . . , n;

0 caso contrario.

Isto e, S tem distribuicao Binn,p (Exemplo 2.8). [Obs: de que forma isto elucida o Ex-ercıcio 2.8.]

Exercıcio 3.15 (A soma de Poissons produto e Poisson). Considere Ω1,Ω2, . . . ,Ωn = N ondecada Ωi recebe medida Poλi

. Construa o produto (Ω, P), defina Πi como no exercıcio anteriore considere Sj =

∑i≤j Πi. Mostre por inducao que cada Sj tem distribuicao PoP

i≤j λi.

15

Page 18: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Capıtulo 4: Valores esperados, momentos e desigualdades

4.1 Valores esperados e momentos

Nesta secao definiremos o valor esperado de uma variavel aleatoria com valores reais ealgumas outras quantidades daı derivadas. Primeiro comecamos com v.a.’s especialmentesimples.

Definicao 4.1. Seja X : Ω → R uma v.a. . Dizemos que X e a funcao indicadora (oucaracterıstica) de A ⊂ Ω se X(ω) = 1 quando ω ∈ A e X(ω) = 0 quando ω ∈ Ac. Neste casoescreveremos X como X = IA.

Exercıcio 4.1. Se X : Ω → R, PX = Bep para algum p ∈ [0, 1] (cf. Exemplo 2.4) se esomente se existe A ⊂ Ω com P (X = IA) = 1. Neste caso, p = P (A).

Exercıcio 4.2. Mostre que toda X : Ω → R ∪ ±∞ e uma combinacao linear de funcoessimples. Mais exatamente,

X =∑

x∈X(Ω)

x IX−1(x).

A definicao de valor esperado E [X] pode ser escrita da seguinte maneira: se X = IA,E [X] = P (A); para outras X, a definicao se estende por linearidade:

X =+∞∑j=1

cjIAj⇒ E [X] =

+∞∑j=1

cjP (Aj) .

No entanto, esta extensao pode apresentar problemas de convergencia quando Ω e infinito.Evitamos esta dificuldade com uma definicao em duas partes. Comecamos com v.a.’s comvalores nao-negativos.

Definicao 4.2. Seja X : Ω → [0,+∞] uma v.a. com valores nao negativos. O valor esperado(ou esperanca) de X, simbolizado por E [X], e dado por

E [X] ≡∑ω∈Ω

X(ω)P (ω) ,

com a convencao de que “0.∞ = 0”. O valor esperado tambem pertence a [0,+∞]. Ocasion-almente representaremos E [X] como uma integral:

E [X] =∫

Ω

X dP.

Observacao 4.3. Suponha que Ω = 0, 1, P = Bep (cf. Exemplo 2.4) e X = +∞. I1, i.e.X(0) = 0 e X(1) = +∞. Entao E [X] = 0 se p = 0 e E [X] = +∞ em caso contrario.

Observacao 4.4. Se Ω e finito e X ≥ 0, E [X] < +∞ se e somente se P (X = +∞) = 0.Quando Ω e infinito ainda e verdade que E [X] < +∞ ⇒ P (X = +∞) = 0, mas a recıprocae falsa (ex: Ω = N, PX = Geo1/2 como em Exemplo 2.7 e X(ω) = 3ω para ω ∈ N).

16

Page 19: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Exercıcio 4.3. Mostre que, na situacao acima:

E [X] =∑

x∈X(Ω)

x P (X = x) =∑

x∈X(Ω)

x PX (x) .

Deduza que se (Θ, Q) e outro espaco de probabilidade discreto e Y : Θ → [0,+∞] com QY =PX (isto e, X e Y tem a mesma distribuicao), entao E [X] = E [Y ].

Exercıcio 4.4. Se X, Y : Ω → R ∪ ±∞ e X ≤ Y sempre, E [X] ≤ E [Y ].

Agora definiremos E [X] para X qualquer.

Definicao 4.5. Seja X : Ω → [−∞,+∞] uma v.a. com valores reais (possivelmente diver-gentes). X e dita integravel se E [|X|] < +∞ segundo a Definicao 4.2. Se X e integravel, ovalor esperado (ou esperanca) de X, simbolizado por E [X], e dado por

E [X] ≡ E [maxX, 0]− E [max−X, 0] ,

onde os dois valores esperados do lado direito sao definidos como antes.

Exercıcio 4.5. Use o Exercıcio 4.4 para mostrar que E [|X|] < +∞ implica que E [maxX, 0] <+∞, E [max−X, 0] < +∞. Mais ainda, mostre que neste caso

E [X] =∑ω∈Ω

X(ω)P (ω)

onde a serie e absolutamente convergente. Por fim, prove que os fatos no Exercıcio 4.3pernamecem validos sob a definicao geral sempre que X for integravel (o que e equivalente aY integravel).

Exercıcio 4.6. Se X toma valores em N ∪ 0, E [X] =∑+∞

n=1 P (X ≥ n).

Exercıcio 4.7. Mostre que

1. PX = Bep (cf. Exemplo 2.4) ⇒ E [X] = p;

2. PX = Geop (cf. Exemplo 2.7) ⇒ E [X] = 1/p;

3. PX = Binn,p (cf. Exemplo 2.8) ⇒ E [X] = pn [Dica: Escreva

G(a, b) = (a + b)n =n∑

k=0

(n

k

)akbn−k.

Derivando termo a termo em a, mostre que

E [X] = a∂G

∂a(a, b)

](a,b)=(p,1−p)

e calcule E [X] daı.];

4. PX = Poλ (cf. Exercıcio 2.9)⇒ E [X] = λ.

17

Page 20: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Exercıcio 4.8. Seja L1 = L1(Ω, P) o espaco vetorial cujos elementos sao as v.a.s integraveisX : Ω → R. Mostre que E [·] e um operador linear sobre este espaco. Isto e, se α ∈ R e X,Y ∈ L1, entao αX + Y ∈ L1 e E [αX + Y ] = αE [X] + E [Y ]. [Se X, Y, α ≥ 0, o requerimentode estar em L1 pode ser eliminado.]

Observacao 4.6. Todas as definicoes acima tem analogos para X = (X1, . . . , Xd) : Ω →Rd. E [X] e o vetor cujas coordenadas sao os E [Xi] (se estes valores estao definidos). SeE [|Xi|] < +∞ para cada i, dizemos que X e integravel.

Definiremos agora os momentos de X.

Definicao 4.7. Para p ∈ [0,+∞) com E [|X|q] < +∞, o q-esimo momento de X e dado porE [Xq]. Se p ∈ [1,+∞), a “norma” Lp de X e ‖X‖p ≡ (E [|X|p])1/p.

Exercıcio 4.9. Mostre que ‖X‖p = 0 sse P (X = 0) = 1.

4.1.1 A desigualdade de Jansen e as normas Lp

Definicao 4.8. Seja K ⊂ Rd convexo. Dizemos que a funcao Ψ : K → R e convexa se paratodos x, y ∈ K e α ∈ [0, 1]:

Ψ(αx + (1− α)y) ≤ αΨ(x) + (1− α)Ψ(y).

Lema 4.9 (Desigualdade de Jansen). Se K ⊂ Rd e convexo, X : Ω → K e integravel eΨ : K → R e convexa e contınua,

Ψ(E [X]) ≤ E [Ψ(X)] .

Prova: [Esboco.] O primeiro passo e provar que ∀n ∈ N, ∀x1, . . . , xn ∈ K e ∀α1, . . . , αn ∈[0,+∞) com

∑ni=1 αi = 1,

Ψ(n∑

i=1

αixi) ≤n∑

i=1

αiΨ(xi).

De fato, se tomamos x = xn, y =Pn−1

i=1 αixiPn−1i=1 αi

e α = αn, deduzimos que

Ψ

(n∑

i=1

αixi

)= Ψ(αx + (1− α)y)

≤ αΨ(x) + (1− α)Ψ(y)

= αnΨ(xn) +

(n−1∑i=1

αi

(∑n−1i=1 αixi∑n−1i=1 αi

)

e o resto do resultado segue por inducao. Suponha agora que a imagem de X : Ω → Rd

contem finitos pontos x1, . . . , xn, isto e

X =n∑

i=1

xi IX=xi.

18

Page 21: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Aplicando o resultado de convexidade acima com αi = P (X = xi), deduzimos que

Ψ(E [X]) = Ψ(n∑

i=1

xi P (X = xi))

≤n∑

i=1

P (X = xi) Ψ(xi)

= E [Ψ(X)] .

Em geral, a imagem de X e um conjunto enumeravel xi+∞i=1 . Mas este caso e um limite doprimeiro [Exercıcio.] 2

Exercıcio 4.10. Aplicando Jansen a Ψ(x) = |x| (norma euclideana), mostre que para todaX : Ω → Rd |E [X] | ≤ E [|X|].

Exercıcio 4.11. Sejam q > p > 0. Aplicando Jansen a Ψ(x) = xq/p (x ≥ 0), mostre quepara toda X : Ω → R ‖X‖p ≤ ‖X‖q. Em particular, E

[X2]≥ (E [|X|])2 ≥ (E [X])2.

Exercıcio 4.12. O exercıcio anterior mostra que ‖X‖p e funcao crescente de p. Em partic-ular, existe o limite

‖X‖∞ ≡ limp→+∞

‖X‖p ∈ [0,+∞].

Prove que‖X‖∞ = sup|X(ω)| : ω ∈ Ω, P (ω) > 0.

Observacao 4.10. A chamada desigualdade de Holder implica que, se X e Y sao v.a.’s sobreo mesmo espaco Ω e 1 ≤ p, q ≤ +∞ satisfazem p−1 + q−1 = 1,

‖XY ‖1 ≤ ‖X‖p‖Y ‖q.

Em particular, se p = q = 2 temos a desigualdade de Cauchy-Schwartz:

‖XY ‖1 ≤ ‖X‖2‖Y ‖2

.

4.2 Variancia e covariancia

Apresentamos agora duas quantidades essenciais: a variancia e a covariancia.

Definicao 4.11. Seja X : Ω → R dada com X2 integravel (logo, pelo Exercıcio 4.11 X eintegravel). A quantidade

V (X) ≡ E[(X − E [X])2

]e chamada a variancia de X. Ela pode ser equivalentemente escrita como V (X) = E

[X2]−

(E [X])2 [Exercıcio.].

Observacao 4.12. A variancia e sempre nao negativa (Exercıcio 4.11). V (X) = 0 sseX = E [X] com probabilidade 1 (Exercıcio 4.9).

19

Page 22: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Definicao 4.13. Sejam X, Y : Ω → R com X2, Y 2 integraveis. A covariancia de X e Y e aquantidade dada por:

C (X, Y ) ≡ E [(X − E [X])(Y − E [Y ])] .

Equivalentemente, C (X, Y ) = E [XY ]− E [X] E [Y ] [Exercıcio].

Observacao 4.14. V (X) = C (X, X).

Exercıcio 4.13. Usando os resultados do Exercıcio 4.7, mostre que:

1. PX = Bep (cf. Exemplo 2.4) ⇒ V (X) = p(1− p);

2. PX = Geop (cf. Exemplo 2.7) ⇒ V (X) = 1/p2 − 1/p [Dica: calcule ∆ = E [X(X − 1)]e determine V (X) a partir de ∆. Note que

∆ = p

+∞∑k=2

k(k − 1)(1− p)k−1

= p(1− p)d2

dp2

(+∞∑k=0

(1− p)k

)

= p(1− p)d2

dp2

(1p

)=

2− 2p

p2.

];

3. PX = Binn,p (cf. Exemplo 2.8) ⇒ V (X) = p(1 − p)n [Dica: Como antes, e melhorcalcular ∆ = E [X(X − 1)] antes. Escreva

G(a, b) = (a + b)n =n∑

k=0

(n

k

)akbn−k.

Derivando termo a termo em a, mostre que

E [X(X − 1)] = a2 ∂2G

∂a2(a, b)

](a,b)=(p,1−p)

e calcule ∆ = E [X(X − 1)] daı.];

4. PX = Poλ (cf. Exercıcio 2.9)⇒ V (X) = λ [Dica: mais uma vez vale a pena comecarcalculando ∆ = E [X(X − 1)]. Neste caso,

∆ =∑k≥0

e−λk(k − 1)λk

k!= λ2

∑k≥2

e−λ λk−2

(k − 2)!.

.]

Exercıcio 4.14. V (X) = V (X − c) para qualquer c ∈ R. Se E [X] = 0 V (X) = E[X2]. Do

mesmo modo, C (X, Y ) = C (X − cX , Y − cY ) e C (X, Y ) = E [XY ] se E [X] = E [Y ] = 0

20

Page 23: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

4.3 A desigualdade de Chebyshev e concentracao

Variancias sao frequentemente mais faceis de se calcular do que probabilidades exatas deeventos. A desigualdade abaixo mostra que em alguns casos importantes, pode-se estimarprobabilidades a partir de variancias:

Proposicao 4.15 (Desigualdade de Chebyshev). Se E[|X|2

]< +∞,

∀λ > 0, P (|X − E [X]| ≥ λ) ≤ V (X)λ2

.

Prova: Suponha sem preda de generalidade que V (X) > 0. Seja A ≡ |X − E [X]| ≥ λ. SeΨ : R → [0,+∞) e uma funcao crescente com Ψ(λ) > 0, temos que

∀ω ∈ Ω, |X(ω)− E [X]| ≥ λ ⇔ Ψ(|X − E [X]|) ≥ Ψ(λ) ⇔ Ψ(|X − E [X]|)Ψ(λ)

≥ 1.

Tomando Ψ(x) = x2, podemos reescrever:

(4.1) A ≡ (X(ω)− E [X])2

λ2≥ 1.

Mas entao temos:

∀ω ∈ Ω,(X(ω)− E [X])2

λ2≥ IA(ω).

De fato, a desigualdade vale para ω ∈ A por conta de (4.1) e para ω ∈ Ac porque lado esquerdoe sempre ≥ 0. Tomando valores esperados, vemos que:

V (X)λ2

=∫ (

(X(ω)− E [X])2

λ2

)dP (ω) ≥

∫IA(ω) dP (ω) = P (A) .

2

De que forma se utiliza este resultado? Consideremos o caso em que PX = Binn,p. Nestecaso, vimos acima que E [X] = np, V (X) = p(1 − p)n. Suponha que queremos estimar umaprobabilidade do tipo

Binn,p(k : |k − np| ≥ εnp) = P (|X − np| ≥ εnp) .

Usando Chebyshev com λ = εnp, temos

(4.2) Binn,p(k : |k − np| ≥ εnp) ≤ p(1− p)nε2n2p2

≤ 1ε2pn

.

Equivalentemente,Binn,p(k : |k − np| < εnp) ≥ 1− (ε2pn)−2.

Isto quer dizer que se pn e “grande”, a maior parte da “massa”da distribuicao Binn,p seconcentra no intervalo ((1 − ε)np, (1 + ε)np). Em outras palavras, Yn ≡ X/np − 1 estaquase sempre no intervalo (−ε, ε). Esta propriedade e um exemplo simples do que se chamade concentracao de medida: a distribuicao PYn

esta quase toda concentrada num pequenointervalo ao redor de um valor determinıstico 0 cujo tamanho tende a 0 quando n → +∞.Um resultado semelhante vale sempre que V (X) E [X]2:

21

Page 24: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Definicao 4.16 (Concentracao). Considere uma sequencia de distribuicoes µn sobre Rd1.Dizemos que µn se concentra em c ∈ Rd se para toda bola aberta B centrada em c temos

limn→+∞

µn(B) = 1.

Uma sequencia de v.a.’s se concentra em c quando suas distribuicoes se concentram em c.

Exercıcio 4.15. Se pn ∈ [0, 1] satisfaz pnn → +∞, e PXn ≡ Binn,pn , entao Yn = Xn/pn−1se concentra em 0. Se λn → +∞ e PXn ≡ Poλn , Yn = Xn/λn se concentra em 1.

Uma pergunta importante e: quando as condicoes de concentracao acima descritas saosatisfeitas? Um caso particular e dado por variaveis aleatorias sem covariancia, que discutimosa seguir.

Definicao 4.17. Xn : Ω → R+∞n=1 sao v.a.’s sem covariancia se para todos i, j ∈ N distintosC (Xi, Xj) = 0.

Proposicao 4.18. Para quaisquer v.a.’s X1, . . . , Xn,

V

(n∑

i=1

Xi

)=

n∑i=1

V (Xi) + 2∑

1≤i<j≤n

C (Xi, Xj) .

Em particular, se as Xi’s nao tem covariancia, a variancia da soma e a soma das variancias.

Prova: [Exercıcio.] 2

Teorema 4.19 (Lei fraca dos grandes numeros.). Seja Xn : Ω → R+∞n=1 uma sequencia dev.a.’s sem covariancia e cujas variancias sao limitadas por σ2 < +∞ e tais que Entao asmedias empıricas centradas:

Cn ≡∑n

i=1(Xi − E [Xi])n

se concentram ao redor de 0. De fato,

P (|Cn| ≥ ε) ≤ σ2

ε2n.

Prova: Basta aplicar a Desigualdade de Chebyshev a nCn: como nao ha correlacoes entre os(Xi − E [Xi])’s

V (nCn) =n∑

i=1

V ((Xi − E [Xi])) =n∑

i=1

V (Xi) ≤ σ2n.

Logo

P (|Cn| ≥ ε) = P (|nCn − E [nCn] | ≥ nε) ≤ σ2n

ε2n2

e a concentracao segue do fato que o lado direito tende a 0 quando n → +∞ para todo ε fixo.2

1Mais exatamente, existe Sn ⊂ Rd finito ou enumeravel tal que µn e medida sobre Sn. Neste caso,estendemos µn a todo A ⊂ Rd como fizemos no caso de v.a.’s (Definicao 3.2): µn(A) ≡

Pω∈A∩Sn

µn(ω).

22

Page 25: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Exercıcio 4.16. No teorema acima, se µ ≡ limn→+∞∑n

i=1 E [Xi] /n existe, entao as mediasFn ≡

∑i≤n Xi/n se concentram ao redor de µ.

No caso Xi = IAipara uma sequencia Ai de eventos, podemos interpretar a Lei Fraca

da seguinte forma (cf. a introducao do capıtulo). As probabilidades P (Ai) oferecem nossaavaliacao dos “riscos”de cada evento Ai. Supondo-se que

(4.3) C(IAi , IAj

)= P (Ai ∪Aj)− P (Ai) P (Aj) = 0

para todo par i 6= j, vemos temos σ2 ≤ 1 e que portanto a Lei Fraca dos Grandes Numerosnos diz que

para n grande,∑n

i=1 IAi

n≈∑n

i=1 P (Ai)n

com probabilidade ≈ 1.

Em outras palavras: sob a hipotese (4.3), ha um baixo “risco”de que as frequencias com queos Ai’s ocorrem se desvie muito do valor esperado, quando olhamos para um numero grandede eventos.

A condicao (4.3) e chamada de independencia. O capıtulo seguinte contem muitos exem-plos de independencia; por hora, notamos apenas o seguinte resultado.

Definicao 4.20. Dois eventos A,B ⊂ Ω sao ditos independentes quando P (A ∩B) = P (A) P (B).

Corolario 4.21 (Lei Fraca dos Grandes Numeros para Eventos Independentes). Seja Ai+∞i=1

uma sequencia de evento independentes dois-a-dois. Considere

Cn ≡∑n

i=1(IAi− P (Ai))

n.

Entao Cn se concentra em 0 quando n → +∞. Mais exatamente,

∀ε > 0, P

(ω ∈ Ω :

∣∣∣∣∣n∑

i=1

IAi(ω)−

n∑i=1

P (Ai)

∣∣∣∣∣ > εn

)≤ 1

ε2n.

4.4 Aplicacao a aproximacoes por polinomios

Concluımos esta secao com um “bonus”: uma prova probabilıstica do conhecido Teoremade Weierstrass sobre aproximacoes por polinomios.

Teorema 4.22 (Weierstrass). Para toda funcao contınua f : [0, 1] → R, existe uma sequenciaPn[f ] de polinomios tas que limn→+∞(supx∈[0,1] |f(x)− Pn[f ](x)|) = 0.

A prova que daremos da uma expressao explıcita para cada Pn[f ] e uma cota de aprox-imacao para cada n finito (como veremos num Exercıcio). A demonstracao se baseia em duasobservacoes simples:

1. Binn,p se concentra quando n → +∞ (cf. (4.2)); e

2. para qualquer f : [0, 1] → R,

Pn[f ](x) =∫

f(k/n) dBinn,x(k) =n∑

k=0

(n

k

)f(k/n)xk(1− x)n−k

e um polinomio na variavel x [Exercıcio].

23

Page 26: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Prova: [Bernstein] Seja f : [0, 1] → R contınua. E sabido que qualquer f deste tipo e uni-formemente contınua, isto e, o modulo de continuidade

m(δ) ≡ sup|f(x)− f(y)| : x, y ∈ [0, 1], |x− y| ≤ δ (δ > 0)

satisfaz limδ→0 m(δ) = 0. Sabemos tambem que ‖f‖∞ = supx∈[0,1] |f(x)| < +∞. A desigual-dade de Jansen implica que

|f(x)− Pn[f ](x)| ≤∫|f(k/n)− f(x)| dBinn,x(k).

Fixamos um δ > 0 e dividimos a integral do lado direito em dois termos.∫|f(k/n)− f(x)| dBinn,x(k) =

∫k : |k−nx|≤δn

|f(k/n)− f(x)| dBinn,x(k)

+∫

s : |s−nx|>δn

|f(s/n)− f(x)| dBinn,x(s).

Na primeira integral, |k/n− x| ≤ δ, logo |f(k/n)− f(x)| ≤ m(δ). Na segunda usamos a cotamais fraca (e sempre valida) |f(s/n)− f(x)| ≤ 2 supt∈[0,1] |f(t)| = 2‖f‖∞. Deduzimos que

|f(x)− Pn[f ](x)| ≤∫

k : |k−nx|≤δn

m(δ) dBinn,x(k)

+∫

s : |s−nx|>δx

2‖f‖∞ dBinn,x(k)

≤ m(δ) + 2‖f‖∞Binn,xs : |s− nx| > δn

((4.2) com p = x, ε = δ/x) ≤ m(δ) +2‖f‖∞x(1− x)

δ2n

(∀0 ≤ x ≤ 1, x(1− x) ≤ 1/4) ≤ m(δ) +‖f‖∞2δ2n

.

Esta ultima cota e uniforme em x e vale para δ > 0 arbitrario, logo

∀δ > 0, ‖f − Pn[f ]‖∞ ≤ m(δ) +‖f‖∞2δ2n

.

A prova se encerra tomando limites em n → +∞ e δ → 0 (nesta ordem!). 2

Exercıcio 4.17. A prova acima da uma cota quantitativa para a qualidade da aproximacaopor Pn[f ]. Quanto menor o modulo de continuidade m(δ), melhor a cota. Mostre que se f eLipschitz com constante ‖f‖Lip,

‖f − Pn[f ]‖∞ ≤ ‖f‖Lipδ +‖f‖∞2δ2n

e otimize a escolha de δ = δn para obter uma cota explıcita para cada n ∈ N.

24

Page 27: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Capıtulo 5: Interpretacao das probabilidades condicionais

5.1 Probabilidades e esperancas condicionais

Dissemos no inıcio do capıtulo que uma medida de probabilidade corresponde a umaavaliacao de risco. Tambem foi dito que uma variavel aleatoria corresponde a informacaorecebida a respeito de um dado espaco amostral. Nesta secao discutiremos de que maneira ainformacao recebida nos permite calibrar a nossa medida de risco de modo a fazer previsoesmais precisas. Isto nos levara a deduzir as regras das chamadas probabilidades condicionais.

5.1.1 Informacao e aproximacao: definindo probabilidades condicionais

Nosso problema nesta secao e prever o valor de uma variavel aleatoria X : Ω → R quesuporemos satisfazer E

[|X|2

]< +∞, com base em alguma informacao I : Ω → Θ que

dispomos sobre ω ∈ Ω. Para isto, escolheremos uma funcao f : Θ → R de modo a minimizaro erro medio quadratico:

∆(X, f(I)) ≡ E[(X − f(I))2

].

No caso trivial I =constante; a informacao que obtemos e inutil. e nosso problem e equivalentea achar c ∈ R tal que

E[(X − c)2

]= min

x∈RE[(X − c)2

].

Proposicao 5.1. Para qualquer x ∈ R temos

E[(X − x)2

]= V (X) + (E [X]− x)2.

Logo o problema acima tem uma unica solucao c = E [X].

Prova:

E[(X − x)2

]= E

[X2 + x2 − 2xX

]= E

[X2]+ x2 − 2xE [X]

= E[X2]+ (x− E [X])2 − E [X]2

= V (X) + (x− E [X])2.

2

Consideraremos a seguir o caso I = IA para algum A ⊂ Ω. Isto e, toda a informacao quetemos sobre ω ∈ Ω e se ω ∈ A ou nao. Suporemos que 0 < P (A) < 1, de modo que A nao enem “impossıvel”nem “certo”1. Procuramos entao uma func ao f : 0, 1 → R tal que

(5.1) E[(X − f(I))2

]= inf

g:0,1→RE[(X − g(I))2

].

Este e um problema geomeetrico no espaco L2 = L2(Ω, P). Este espaco e Hilbert com oproduto interno 〈U, V 〉 ≡ E [UV ], ao menos quando identificamos quaisquer U,U ′ ∈ L2 comP (U = U ′) = 1 [Exercıcio]. De agora em diante faremos esta identificacao tacitamente.

1Intuitivamente, se um evento sempre ocorre (ou nunca ocorre), ele nao nos da informacao alguma sobre asituacao em questao.

25

Page 28: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

Lema 5.2. O subconjuntoEI ≡ g(I) : g : 0, 1 → R

e o subespaco linear de L2 gerado por IA, IAc.

Prova: De fato,g(I) = g(0)IA + g(1)IAc

sempre esta neste espaco, e inversamente qualquer v.a.

U = a1IA + a0IAc ∈ spanIA, IAc

e dada por g(I) com g(0) = a0, g(1) = a1. 2

Segue-se que queremos achar α, β ∈ R que minimizem

E[(X − αIA − βIAc)2

]= E

[(X − α)2IA + (X − β)2IAc

].

Afirmamos que ha uma unica escolha possıvel para α e β:

α = E [X | A] ≡ E [XIA]P (A)

β = E [X | Ac] ≡ E [XIA]P (Ac)

.

De fato, temos o seguinte resultado:

Proposicao 5.3. Para qualquer α ∈ R temos

E[(X − α)2IA

]= P (A) E

[(X − E [X | A])2

]+ P (A) (E [X | A]− x)2

e analogamente para Ac.

Prova: Basta seguir os passos da prova de Proposicao 5.1. 2

Exercıcio 5.1 (Apresentando a probabilidade condicional). Mostre que E [X | A] como definidoacima satisfaz

E [X | A] =∫

Ω

X(ω) dP (ω | A) ,

onde para todo E ⊂ Ω

P (E | A) = E [IE | A] =P (E | A)

P (A)ou equivalentemente

P (ω | A) =P (ω) IA(ω)

P (A)(ω ∈ Ω).

A distribuicao P (· | A) e a distribuicao condicionada a A. P (E | A) e a probabilidade condi-cional de E dado A.

Juntando todos os resultados anteriores, vemos ha uma unica funcao f : 0, 1 → R quesatisfaz

E[(X − f(I))2

]= inf

g:0,1→RE[(X − g(I))2

].

e ela e dada por

f(x) ≡

E [X | A] , x = 1;E [X | Ac] , x = 0.

26

Page 29: Notas sobre Probabilidade Discreta - w3.impa.brw3.impa.br/~rimfo/notas_prob_discreta.pdf · Probabilidade discreta e de Medida e, por fim, exibiremos as limita¸c˜oes do caso discreto

5.1.2 Informacao e aproximacao: o caso geral

Suponha agora que I : Ω → Θ e geral. Provaremos que existe uma f : Θ → R tal que

(5.2) E[(X − f(I))2

]= inf

g:Θ→RE[(X − g(I))2

].

Primeiro notamos o seguinte resultado.

Proposicao 5.4. Considere a particao PI de Ω induzida pelas imagens inversas dos valoresde I:

PI ≡ I−1(θ) : θ ∈ I(Ω).

Entao para toda Y : Ω → R, Y = f(I) para algum f : Θ → R se e somente se

Y =∑

E∈PI

cEIE ,

com cE ∈ R para cada E ∈ PI . Alem disso, para cada particao P de Ω existe um conjunto Θe uma funcao I : Ω → Θ tal que P = PI

Prova: Exercıcio. Para a ultima afirmacao, basta tomar Θ = P e I(ω) = E ∈ P tal queω ∈ E. 2

Esta proposicao mostra que particoes e v.a.’s sao em certo sentido equivalentes. Podemosverificar que isto faz sentido quando notamos que a informacao que i = I(ω) da a respeitode ω e justamente que ω ∈ I−1(i). Optamos por lidar com particoes a seguir. Se P e umaparticao e

L2(Ω,P, P) = spanIE : E ∈ P,

entao a otimizacao descrita em (5.2) se torna a busca por U ∈ L2(Ω,P, P) tal que

(5.3) E[(X − U)2

]= inf

V ∈L2(Ω,P,P)E[(X − V )2

].

Provaremos o seguinte teorema geral:

Teorema 5.5. Sejam X : Ω → R com E[X2]

< +∞ e P uma particao de Ω. Entao ha umasolucao U ∈ L2(Ω,P, P) que e equivalentemente descrita pelas seguintes propriedades:

1. U e solucao de (5.3);

2. para todo E ∈ P, E [UIE ] = E [XIE ].

U e a unica solucao de cada um destes dois problemas, no sentido de que qualquer outrasolucao V satisfaz P (U = V ) = 1.

27