Probabilidad II

121
POR Ernesto Antonio Guerrero Lara Mar´ ıa Di´ odora Kant´ un Chim Henry Gaspar Pant´ ı Trejo FACULTAD DE MATEM ´ ATICAS UNIVERSIDAD AUT ´ ONOMA DE YUCAT ´ AN YUCAT ´ AN-M ´ EXICO Enero, 2010 c Derechos Reservados

Transcript of Probabilidad II

POR

Ernesto Antonio Guerrero Lara

Marıa Diodora Kantun Chim

Henry Gaspar Pantı Trejo

FACULTAD DE MATEMATICAS

UNIVERSIDAD AUTONOMA DE YUCATAN

YUCATAN-MEXICO

Enero, 2010

c©Derechos Reservados

UNIVERSIDAD AUTONOMA DE YUCATAN

FACULTAD DE MATEMATICAS

LICENCIATURA EN ACTUARIA

Probabilidad II

M.C.M. Ernesto Antonio Guerrero Lara

M.C. Diodora Kantun Chim

M.C. Henry Gaspar Pantı Trejo

Merida, Yucatan Enero, 2010

Indice general

1. Desigualdades en Probabilidad 5

1.1. Desigualdad de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2. Desigualdad de Chernoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3. Desigualdad de Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.4. Desigualdad de Holder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.5. Desigualdad de Schwarz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2. Distribuciones condicionales 15

2.1. Distribucion condicional de dos variables aleatorias discretas . . . . . . . . . . . . . . 15

2.2. Distribucion condicional de dos variables aleatorias continuas . . . . . . . . . . . . . 20

2.3. Esperanza y Varianza Condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.4. Distribucion condicionales de dos variables aleatorias . . . . . . . . . . . . . . . . . . 29

2.4.1. Condicionando con respecto a una variable aleatoria discreta . . . . . . . . . 29

2.4.2. Sumas aleatorias de variables aleatorias . . . . . . . . . . . . . . . . . . . . . 30

2.4.3. Condicionando con respecto a una variable aleatoria continua . . . . . . . . . 32

2.5. Caso Especial: Normal Bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3. Otras funciones generadoras 39

3.1. Funcion Generadora de Cumulantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2. Funcion Generadora de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.3. Funcion Caracterıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.3.1. Formulas de inversion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.3.2. Teorema de Continuidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4. Funciones generadoras de momentos 55

4.1. Conceptos basicos y resultados principales . . . . . . . . . . . . . . . . . . . . . . . . 55

4.2. Momentos marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.3. Caso de la distribucion normal bivariada . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5. Covarianza y correlacion 61

5.1. Definicion de covarianza y correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.2. Propiedades y teoremas principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.3. Caso de la normal bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3

4 INDICE GENERAL

6. Sucesiones de Variables Aleatorias 696.1. Definicion de sucesion de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . 696.2. Tipos de convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 696.3. Ley debil y ley fuerte de los grandes numeros . . . . . . . . . . . . . . . . . . . . . . 806.4. Teorema del lımite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826.5. Convergencia de sumas de sucesiones de variables aleatorias . . . . . . . . . . . . . . 846.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

7. Estadısticos de orden 937.1. Introduccion a los estadısticos de orden . . . . . . . . . . . . . . . . . . . . . . . . . 937.2. Distribucion del mınimo, maximo y rango de los estadısticos de orden . . . . . . . . 937.3. Distribucion conjunta de los estadısticos de orden . . . . . . . . . . . . . . . . . . . . 997.4. Distribuciones marginales de los estadısticos de orden . . . . . . . . . . . . . . . . . 1017.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

8. Distribucion normal multivariada 1058.1. Conceptos necesarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1058.2. Matriz de Covarianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1088.3. Funcion de densidad normal multivariada . . . . . . . . . . . . . . . . . . . . . . . . 1098.4. Funcion generadora de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1118.5. Propiedades y teoremas principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

8.5.1. Distribuciones condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1128.5.2. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

Bibliografıa 120

Capıtulo 1

Desigualdades en Probabilidad

1.1. Desigualdad de Chebyshev

En esta seccion estaremos interesados en obtener cotas superiores para probabilidades de la formaP (X ≥ a) con a > 0. Es bien sabido que cuando a → ∞, P (X ≥ a) → 0. No obstante, no es clarocual es la velocidad de convergencia a cero de P (X ≥ a). En esta seccion determinaremos cotas parala velocidad de convergencia a cero de P (X ≥ a). Las dos desigualdades a estudiar en esta seccionson: la desigualdad de Markov y la desigualdad de Chebyshev.

Proposicion 1.1.1 (Desigualdad de Markov). Si X es variable aleatoria no negativa, entoncespara cualquier a > 0 se cumple

P (X ≥ a) ≤ E[X]

a. (1.1)

Demostracion: Sea a > 0. Definimos la variable aleatoria

1X≥a =

8<: 1, X ≥ a

0, otro caso

Entonces

X ≥ 1X≥aa (1.2)

pues en efecto tenemos los siguientes dos casos:

1. si ω ∈ Ω es tal que X(ω) ≥ a, entonces 1X≥a(ω) · a = a y se cumple la ecuacion (1.2),

2. si ω ∈ Ω cumple que X(ω) < a, entonces 1X≥a(ω) · a = 0 y debido a que X es no negativa,la ecuacion (1.2) es cierta.

Notemos que E[1X≥a] = 0P (X < a) + 1P (X ≥ a) = P (X ≥ a). Por lo tanto, tomandoesperanzas en ambos lados de la ecuacion (1.2) resulta

aP (X ≥ a) ≤ E[X],

lo que demuestra el resultado.

Proposicion 1.1.2 (Desigualdad de Chebyshev). Si X es una variable aleatoria con media µfinita y varianza σ2, entonces para cualquier a > 0 se cumple

P (|X − µ| ≥ a) ≤ σ2

a2. (1.3)

5

6 CAPITULO 1. DESIGUALDADES EN PROBABILIDAD

Demostracion: Usando la desigualdad de Markov para (X − µ)2 ≥ 0 resulta

P (|X − µ| ≥ a) = P ((X − µ)2 ≥ a2)

≤ E[(X − µ)2]

a2

=σ2

a2

De la desigualdad de Chebyshev se sigue que para σ2 <∞

P (|X − µ| < a) ≥ 1− σ2

a2.

En particular, tomando a = 2σ,

P (|X − µ| < 2σ) ≥ 3

4,

es decir,

P (µ− 2σ < X < µ+ 2σ) ≥ 3

4.

Esto significa que mas de las 3/4 partes de la masa de probabilidad de X esta concentrada en elintervalo (µ− 2σ, µ+ 2σ), para el caso cuando X tiene varianza finita.

La importancia de las desigualdades de Markov y Chebyshev radica en que con base en estas sepueden obtener cotas superiores para probabilidades P (X ≥ a), a > 0, con el solo conocimiento dela media o la media y varianza, respectivamente.

Ejemplo 1.1.3. Suponga que se sabe que el numero de artıculos producidos en una fabrica duranteuna semana es una variable aleatoria con media 50.

1. ¿Que se puede decir de la probabilidad que la produccion semanal exceda 75 artıculos?

2. Si la varianza de la produccion semanal se sabe que es igual a 25, entonces ¿que se puede decirde la probabilidad de que la produccion semanal se encuentre entre 40 y 60 artıculos?

Solucion: Sea X el numero de artıculos que se producen en una semana.

1. Usemos la desigualdad de Markov

P (X > 75) ≤ P (X ≥ 75) ≤ E[X]

75=

2

3.

2. Usemos la desigualdad de Chebyshev

P (40 < X < 60) = P (|X − 50| < 10) ≥ 3

4.

Por lo tanto, la probabilidad de que la produccion de artıculos semanal se encuentre entre 40y 60 artıculos es de al menos 0.75.

Observacion 1.1.4. La desigualdad de Chebyshev es valida para todas las distribuciones de va-riables aleatorias X con varianza finita. No obstante, la cota no siempre esta muy cercana al valorverdadero de la probabilidad acotada, por ejemplo, si X tiene distribucion uniforme en el intervalo(0, 10), la cota para P (|X − 5| > 4) usando la desigualdad de Chebyshev es 0.5208, mientras que elvalor verdadero de esta probabilidad es 0.2. La desigualdad de Chebyshev usualmente es empleadacomo una herramienta teorica para probar resultados de gran importancia en Probabilidad, comose vera a continuacion. Antes enunciamos el lema siguiente.

1.1. DESIGUALDAD DE CHEBYSHEV 7

Lema 1.1.5. Sea (Ω,F , P ) un espacio de probabilidad. Sea An una sucesion de eventos. Entonces,

1. si An es una sucesion creciente de eventos, es decir, para cada n ≥ 1, An ⊂ An+1, entonces

P (∪∞n=1An) = lımn→∞

P (An).

2. si An es una sucesion decreciente de eventos, esto es, para cada n ≥ 1, An ⊃ An+1, entonces

P (∩∞n=1An) = lımn→∞

P (An).

A continuacion presentamos dos aplicaciones de la desigualdad de Chebyshev.

Proposicion 1.1.6. Si Var(X) = 0, entonces

P (X = E[X]) = 1.

En otras palabras, las unicas variables aleatorias con varianza igual a cero son aquellas que sonconstantes con probabilidad 1.

Demostracion: Sea µ = E[X]. Por la desigualdad de Chebyshev, tenemos que para toda n ≥ 1,

P (|X − µ| > 1/n) ≤ n2Var(X) = 0,

de donde P (|X − µ| > 1/n) = 0. Definimos la sucesion de eventos An por

An = ω ∈ Ω : |X(ω)− µ| > 1/n = |X − µ| > 1/n.

Entonces An es una sucesion creciente de eventos y ∪nAn = X 6= µ. Aplicando el lema anterior,obtenemos

P (X 6= µ) = P (∪nAn) = lımn→∞

P (An) = lımn→∞

P (|X − µ| > 1/n) = 0.

Por lo tanto, P (X = µ) = 1.

Teorema 1.1.7 (Ley Debil de Grandes Numeros (LDGN)). Sea X1, X2, . . ., sucesion devariables aleatorias independientes e identicamente distribuidas, con E[Xi] = µ, Var(Xi) = σ2

finitos. Entonces, para cualquier ε > 0,

P

X1 + . . .+Xn

n− µ

≥ ε −→ 0, cuando n→∞.

Demostracion: Sea Yn =X1 + . . .+Xn

n. Tenemos

E[Yn] = µ, Var(Yn) =σ2

n.

Por la desigualdad de Chebyshev

P (|Yn − µ| ≥ ε) ≤ Var(Yn)

ε2

=σ2

nε2→ 0, cuando n→∞.

Observacion 1.1.8. La ley debil de grandes numeros permanece valida solo con el supuesto de lafinitud de la media (la varianza puede ser infinita). La razon por la cual se enuncia de esta maneraes para ilustrar el uso de la desigualdad de Chebyshev en la demostracion de este resultado. El tipode convergencia que se menciona en el resultado es llamada convergencia en probabilidad, este temasera estudiado con mayor detalle en capıtulos siguientes.

8 CAPITULO 1. DESIGUALDADES EN PROBABILIDAD

1.2. Desigualdad de Chernoff

Si se conoce la funcion generadora de momentos de X, entonces podemos obtener otras cotaspara P (X ≥ a), como veremos a continuacion.

Proposicion 1.2.1 (Cotas de Chernoff). Sea X variable aleatoria con funcion generadora de mo-mentos M(t) = E[etX ]. Entonces

1. P (X ≥ a) ≤ e−taM(t), para toda t > 0.

2. P (X ≤ a) ≤ e−taM(t), para toda t < 0.

Demostracion:

1. Sea t > 0, aplicando la desigualdad de Markov a la variable Y = etX resulta

P (X ≥ a) = P (etX ≥ eta)

≤ E[etX ]

eta

= e−taM(t).

2. Se hace de manera analoga y se deja como ejercicio 1

Observacion 1.2.2. Debido a que la funcion f(t) = e−taM(t), t > 0 o t < 0, aparece en ambasdesigualdades, entonces podemos minimizar f(t) para encontrar la cota mas pequena.

Ejemplo 1.2.3. Encuentre la cota mas pequena de Chernoff para P (X ≥ a), a > 0, en el caso:

1. X ∼ N(0, 1),

2. X ∼ Poisson(λ).

Solucion:

1. Tenemos que M(t) = et2/2, ası f(t) = et

2/2−ta, t > 0. Ahora el valor de t > 0 que minimizaf(t) es aquel que minimiza g(t) = t2/2− ta, el cual es t = a, de esta manera,

P (X ≥ a) ≤ e−a2/2.

2. Tenemos que M(t) = eλ(et−1). De aquı, tenemos que minimizar f(t) = eλ(et−1)−ta, t > 0.Notese que minimizar la funcion anterior es equivalente a minimizar g(t) = λ(et − 1) − ta,t > 0. La funcion g(t) se minimiza en t = ln (a/λ), donde t > 0 siempre que a > λ. Ası bajo elsupuesto a > λ, la mejor cota queda

P (X ≥ a) ≤ eλ(a/λ−1)

λ

a

a=e−λ(eλ)a

aa.

1.3. Desigualdad de Jensen

La siguiente desigualdad a estudiar es la desigualdad de Jensen, que esta mas relacionada convalores esperados que con probabilidades.

1.3. DESIGUALDAD DE JENSEN 9

Definicion 1.3.1. Una funcion g(x) es convexa si para λ ∈ (0, 1) y cualesquiera x, y se cumple

g(λx+ (1− λ)y) ≤ λg(x) + (1− λ)g(y).

La funcion g(x) es concava si −g(x) es convexa.

Observacion 1.3.2. Una segunda forma de definir una funcion convexa es la siguiente: g(x) esconvexa si y solo si para cada x0 existe una recta l0(x) = ax+b, tal que l0(x0) = g(x0) y l0(x) ≤ g(x),para todo x.

Ejemplo 1.3.3. Las siguientes funciones son convexas: g(x) = x2, g(x) = eax y g(x) = −x1/n parax ≥ 0.

Observacion 1.3.4. Para verificar convexidad de funciones dos veces diferenciables se recurre a lasegunda derivada:

1. g(x) es convexa si g′′(x) ≥ 0, para todo x;

2. g(x) es concava si g′′(x) ≤ 0, para todo x.

Teorema 1.3.5 (Desigualdad de Jensen). Para cualquier variable aleatoria X, si g(x) es unafuncion convexa, entonces

E[g(X)] ≥ g(E[X]). (1.4)

La igualdad se cumple si y solo si, para cada recta ax + b que sea tangente a g(x) en x = E[X],P (g(X) = aX + b) = 1.

Demostracion: Mostraremos la desigualdad (1.4) y el “si” de la segunda parte. Usaremos la segundadefinicion de convexidad. Sea x0 = E[X] y considere la recta l0(x) = ax+b que cumple l0(x0) = g(x0),l0(x) ≤ g(x) para toda x. Usando la desigualdad l0(x) ≤ g(x) y la definicion de l0 obtenemos

E[g(X)] ≥ E[l0(X)]

= aE[X] + b

= l0(E[X])

= l0(x0)

= g(x0)

= g(E[X]).

Por ultimo, sea ax+b una recta tangente a g en x = E(X). Supongamos que P (g(X) = aX+b) = 1y que X es variable aleatoria discreta con valores en x1, x2, . . ., el caso X variable aleatoria continuase demuestra en forma similar. Notese que se cumple

xi : g(xi) = axi + b = x1, x2, . . ..

Entonces

E[g(X)] =∞Xi=1

g(xi)P (X = xi)

=X

i:g(xi)=axi+b

g(xi)P (X = xi) +X

i:g(xi) 6=axi+b

g(xi)P (X = xi)

=∞Xi=1

(axi + b)P (X = xi)

= E[aX + b]

= aE[X] + b

= g(E[X]).

10 CAPITULO 1. DESIGUALDADES EN PROBABILIDAD

Ejemplo 1.3.6 (Desigualdades para medias). Sean a1, . . . , an numeros positivos, definimos

aA =1

n(a1 + · · ·+ an),

aG = (a1 · · · an)1/n,

aH =1

1n

1a1

+ · · ·+ 1an

,las cuales son llamadas medias aritmetica, geometrica y armonica, respectivamente. Verifique que secumple aH ≤ aG ≤ aA.

Solucion: Sea X variable aleatoria discreta que toma valores en a1, . . . , an y que tiene funcionde densidad discreta dada por

P (X = ai) =1

n, i = 1, . . . , n.

Tenemos que la funcion g(x) = log x es concava, entonces la desigualdad de Jensen implica

E[logX] ≤ log(E[X]).

Ası

log aG =1

n

nXi=1

log ai = E[logX] ≤ log(E[X]) = log

1

n

nXi=1

ai

!= log aA,

de donde se sigue que aG ≤ aA. Usando de nuevo que g(x) = log x es concava se sigue que

E[log Y ] ≤ log(E[Y ]),

para Y variable aleatoria estrictamente positiva. Tomando Y = 1/X, obtenemos

Elog

1

X

≤ logE

1

X

.

De esta manera

log

1

aG

= E

log

1

X

≤ logE

1

X

= log

1

n

nXi=1

1

ai

!= log

1

aH

,

de aquı, aH ≤ aG.

1.4. Desigualdad de Holder

Proposicion 1.4.1. Sean x1, x2, ..., xn y y1, y2, ..., yn numeros reales cualesquiera. Si p, q > 0 y1

p+

1

q= 1 entonces

nXi=1

|xiyi| ≤

nXi=1

|xi|p!1/p nX

i=1

|yi|q!1/q

.

Teorema 1.4.2 (Desigualdad de Holder). Si X y Y son variables aleatorias y p, q > 0 son tales

que1

p+

1

q= 1 entonces

|E[XY ]| ≤ E[|XY |] ≤ (E[|X|p])1/p(E[|Y |q])1/q.

1.5. DESIGUALDAD DE SCHWARZ 11

1.5. Desigualdad de Schwarz

Proposicion 1.5.1. Sean x1, x2, ..., xn y y1, y2, ..., yn numeros reales cualesquiera, entonces

(a1b1 + a2b2 + · · ·+ anbn)2 ≤ (a21 + a2

2 + · · ·+ a2n)(b21 + b22 + · · ·+ b2n).

Teorema 1.5.2 (Desigualdad de Schwarz). Si X y Y son variables aleatorias entonces

|E[XY ]| ≤ E[|XY |] ≤ (E[|X|2])1/2(E[|Y |2])1/2.

1.6. Ejercicios

1. Demuestre el inciso b) de la proposicion 1.2.1 .

2. Demuestre la siguiente proposicion.

Proposicion 1.6.1. Si X es variable aleatoria con media 0 y varianza σ2, entonces paracualquier a > 0,

P (X ≥ a) ≤ σ2

σ2 + a2.

(Ayuda:

a) X ≥ a si y solo si X + b ≥ a+ b, para todo b > 0.

b) El mınimo de la funcion f(x) =σ2 + x2

(a+ x)2se alcanza en x =

σ2

a)

3. Demuestre el siguiente teorema.

Teorema 1.6.2. Si E[X] = µ, Var(X) = σ2, entonces para a > 0,

P (X ≥ µ+ a) ≤ σ2

σ2 + a2,

P (X ≤ µ− a) ≤ σ2

σ2 + a2.

(Ayuda: Puede utilizar la proposicion 1.6.1).

4. Sean X1, . . . , X20 variables aleatorias independientes Poisson con media 1. Use la desigualdadde Markov para encontrar una cota superior para

P

20Xi=1

Xi > 50

!.

5. Sea g(x) una funcion convexa, suponga que ax+ b es una recta tangente a g(x) en x = E[X] yg(x) > ax+ b excepto en x = E[X]. Entonces E[g(X)] > g(E[X]) a menos que P (X = E[X]) =1. (Esto muestra la parte “solo si” del teorema 1.3.5.)

6. Suponga que X es una variable aleatoria con media y varianza iguales a 20. ¿Que se puededecir de P (0 < X < 40)?

7. De experiencias pasadas, un profesor sabe que la calificacion que un estudiante obtiene en suexamen final es una variable aleatoria con media 75.

12 CAPITULO 1. DESIGUALDADES EN PROBABILIDAD

a) Encuentre una cota superior para la probabilidad de que la calificacion del examen finaldel alumno exceda 85. Suponga, adicionalmente, que el profesor sabe que la varianza deesta calificacion es 25.

b) ¿Que se puede decir acerca de la probabilidad de que la calificacion del examen final delalumno se encuentre entre 65 y 85?

c) ¿Cuantos estudiantes deberıan tomar el examen para asegurar, con probabilidad de almenos 0.9, que el promedio de calificaciones se encontrara entre 70 y 80?

8. El siguiente ejercicio reafirma la observacion 1.1.4 Sea X una variable aleatoria con funcion dedensidad

f(x) =

¨cx4(1− x4) 0 < x < 1

0 otro caso

Determina:

a) P (µ− 2σ < X < µ+ 2σ).

b) Utiliza Chebyshev para encontrar una cota de P (µ− 2σ < X < µ+ 2σ).

9. Una companıa aseguradora tiene 10,000 automoviles asegurados. La reclamacion anual espe-rada por asegurado es $240 con desviacion estandar de $800. Aproxime la probabilidad de quela reclamacion total anual exceda $2.7 millones.

10. Una companıa aseguradora tiene 60,000 polizas de gastos medicos mayores individual que soloaplican una vez el deducible establecido y cuyo monto de reclamacion anual esperado porpoliza es $5,000 con una desviacion estandar de $1,800. Se sabe que la prima total pagada esde 500 millones de pesos. Halla una cota inferior para la probabilidad de que el monto total delos siniestros se aleje menos de 10 millones de la reclamacion total esperada. ¿Que significadotiene esta probabilidad con respecto a la utilidad de la cartera?

11. El numero de automoviles vendidos en una semana en un cierto negocio es una variable aleatoriacon valor esperado 16. Encuentre una cota superior a la probabilidad de que

a) las ventas de la siguiente semana sean mayores que 18;

b) las ventas de la siguiente semana sean mayores que 25.

12. Suponga que en el ejercicio 11 la varianza del numero de automoviles vendidos semanalmentees 9.

a) Encuentre una cota inferior a la probabilidad de que las ventas de la siguiente semanasean entre 10 y 22 inclusive.

b) Encuentre una cota superior a la probabilidad de que las ventas de la siguiente semanaexcedan 18.

13. SiE[X] = 75, E[Y ] = 75, Var(X) = 10, Var(Y ) = 12, Cov(X,Y) = −3

encuentre un cota superior para

a) P (|X − Y | > 75);

b) P (X > Y + 15);

c) P (Y > X + 15).

14. ¿Que tamano debe tener una muestra aleatoria seleccionada de una distribucion para la pro-babilidad de que la media muestral este entre 2 desviaciones estandar de la media de la distri-bucion sea al menos 0.99?

1.6. EJERCICIOS 13

15. Si X es variable aleatoria no negativa con media 25, ¿que se puede decir de

a) E[X3],

b) E[√X],

c) E[logX],

d) E[e−X ]?

16. Sea X variable aleatoria no negativa. Pruebe que

E[X] ≤ (E[X2])1/2 ≤ (E[X3])1/3 ≤ · · ·

17. Una variable aleatoria X se define mediante la relacion Z = logX, donde E[Z] = 0. ¿Es E[X]mayor, menor o igual a 1?

18. Sea v una funcion concava estrictamente creciente, u el monto de capital de la aseguradora,p la prima que pagan los asegurados y S la variable aleatoria que representa el monto de lasreclamaciones. Supongamos que v(u) = E[v(u+ p− S)]. Demuestra que si P (S = E(S)) < 1,entonces p > E(S).

19. Sea X variable aleatoria Poisson con media 20.

a) Use la desigualdad de Markov para obtener una cota superior para la probabilidad de

p = P (X ≥ 26)

b) Use el teorema 1.6.2 para obtener una cota superior para p.

c) Use la cota de Chernoff para obtener una cota superior para p.

d) Aproxime p usando el teorema del lımite central.

e) Determine p usando algun programa de computo o calculandolo manualmente. Nota:Especifique el procedimiento utilizado para encontrar dicho valor.

20. Suponga que el numero de unidades producidas diariamente en una fabrica A es una variablealeatoria con media 20 y desviacion estandar 3 y el numero producido en una fabrica B es unavariable aleatoria con media 18 y desviacion estandar 6. Suponiendo independencia, encuentreuna cota superior para la probabilidad de que mas unidades sean producidas diaramente en lafabrica B que en la fabrica A.

21. Un fabricante de cascos de seguridad para trabajadores de la construccion analiza el valormedio y la variacion de las fuerzas que transmiten los cascos a los usuarios al ser sometidosa una fuerza externa estandar. El fabricante desea que la fuerza media transmitida por loscascos sea de 800 lb (libras) (o menos), muy por debajo del lımite oficial de 1000 lb y que σsea menor que 40. Si µ = 800 lb y σ = 40 lb ¿Es posible que cualquier casco, sometido a lafuerza externa estandar, transmita al usuario una fuerza superior a 1,000 lb? Explique.

22. El tiempo que se necesita para afinar un automovil tiene una distribucion exponencial conmedia de 0.5 horas. Si dos autos estan esperando afinacion y si los dos tiempos de servicio sonindependientes. ¿Que se puede decir de la probabilidad de que el tiempo promedio necesariopara dos automoviles sea mayor a 0.75 horas?

a) Emplee la desigualdad de Chebyshev

b) Emplee desigualdad de Chernoff

c) Determine la probabilidad exacta.

d) ¿Que se puede comentar sobre las dos desigualdades acerca del concepto de conservador?

Nota: Emplee la funcion de distribucion f(x) = λe−λxI(0,∞)(x). Para el inciso c) puede usaralgun paquete estadıstico

14 CAPITULO 1. DESIGUALDADES EN PROBABILIDAD

23. Utiliza la proposicion 1.4.1 para demostrar la desigualdad de Holder.

24. Utiliza la proposicion 1.5.1 para demostrar la desigualdad de Schwarz.

25. Investigar la desigualdad de Minkowsky. ¿Tiene alguna aplicacion practica en Estadıstica?¿Tiene alguna aplicacion en Teorıa de Probabilidad?

Capıtulo 2

Distribuciones condicionales

2.1. Distribucion condicional de dos variables aleatorias dis-cretas

En esta seccion X y Y seran variables aleatorias discretas. Definimos a continuacion la probabi-lidad condicional que involucra variables aleatorias discretas.

Definicion 2.1.1. La probabilidad condicional de X dado Y = y esta definida por

P (X = x | Y = y) =P (X = x, Y = y)

P (Y = y), (2.1)

siempre que P (Y = y) > 0. En el caso P (Y = y) = 0 no esta definida o se le asigna un valorarbitrario, digamos cero.

En lo siguiente, siempre que hagamos referencia a variables aleatorias discretas, usaremos lanotacion pX,Y para designar la funcion masa de probabilidad conjunta de las variables aleatorias Xy Y , pY la funcion masa de probabilidad de la variable aleatoria Y y pX|Y (x | y) a la probabilidadcondicional de X dado Y = y. Usando la notacion anterior podemos escribir (2.1) en la forma

pX|Y (x | y) =pX,Y (x, y)

pY (y). (2.2)

Proposicion 2.1.2. Sean X,Y variables aleatorias con rango x1, x2, . . . y y1, y2, . . ., respecti-vamente. Entonces las siguientes afirmaciones son ciertas:

1. Para cada yj fijo, la funcion

pX|Y (x | yj), x = x1, x2, . . . ,

es una funcion masa de probabilidad.

2. Ley de probabilidad total. Para cada xi,

pX(xi) =∞Xj=1

pX|Y (xi | yj)pY (yj). (2.3)

Demostracion:

1. De la definicion se obtiene que pX|Y (xi | yj) ≥ 0, para todo i ≥ 1. Por otro lado, para yj fijo,

P (Y = yj) =∞Xi=1

P (X = xi, Y = yj).

15

16 CAPITULO 2. DISTRIBUCIONES CONDICIONALES

Entonces,

∞Xi=1

pX|Y (xi | yj) =∞Xi=1

P (X = xi, Y = yj)

P (Y = yj)

=1

P (Y = yj)

∞Xi=1

P (X = xi, Y = yj)

=1

P (Y = yj)P (Y = yj)

= 1.

2. Despejando pX,Y (xi, yj) de (2.2) se sigue

pX,Y (xi, yj) = pX|Y (xi | yj)pY (yj),

para cualesquiera i, j ≥ 1. De esta forma,

pX(xi) = P (X = xi)

=∞Xj=1

P (X = xi, Y = yj)

=∞Xj=1

pX,Y (xi, yj)

=∞Xj=1

pX|Y (xi | yj)pY (yj).

Ejemplo 2.1.3. Se lanza un dado y se observa el numero Y de la cara superior que aparece. Entoncesse lanza una moneda equilibrada Y veces y se observa X, el numero total de soles que aparecen.¿Cual es la probabilidad de que X = 5?

Solucion: Tenemos

P (Y = y) =1

6, y = 1, 2, 3, 4, 5, 6.

Y

P (X = 5 | Y = y) =

y

5

1

2

y, y = 5, 6.

Debido a que no se puede obtener un numero mayor de aguilas que de lanzamientos se sigue

P (X = 5 | Y = y) = 0, y = 1, 2, 3, 4.

Por lo tanto, usando la ley de probabilidad total

P (X = 5) = P (X = 5 | Y = 5)P (Y = 5) + P (X = 5 | Y = 6)P (Y = 6)

=

1

2

5 1

6

+

6

5

1

2

6 1

6

=

1

48.

Proposicion 2.1.4. Sean X y Y variables aleatorias independientes con distribucion Poisson demedia λ y µ, respectivamente. Entonces la variable aleatoria X, condicional a X + Y = n, tienedistribucion binomial de parametros (n, λ/(λ+ µ)).

2.1. DISTRIBUCION CONDICIONAL DE DOS VARIABLES ALEATORIAS DISCRETAS 17

Demostracion: Recordemos que X+Y tiene distribucion Poisson de media λ+µ. De esta manera,utilizando la definicion de probabilidad condicional, la independencia de X y Y , y el hecho queX + Y se distribuye Poisson de media λ+ µ, se sigue

P (X = x | X + Y = n) =P (X = x,X + Y = n)

P (X + Y = n)

=P (X = x, Y = n− x)

P (X + Y = n)

=P (X = x)P (Y = n− x)

P (X + Y = n)

=e−λ λ

x

x! e−µ µn−x

(n−x)!

e−(λ+µ) (λ+µ)n

n!

=n!

x!(n− x)!

λxµn−x

(λ+ µ)x(λ+ µ)n−x

=

n

x

λ

λ+ µ

x µ

λ+ µ

n−x=

n

x

λ

λ+ µ

x 1− λ

λ+ µ

n−x.

Ejemplo 2.1.5. En un cierto restaurante se tienen mesas para fumadores y tambien para no fuma-dores. En cierto dıa los clientes visitan el restaurante de la siguiente manera: los fumadores lleganconforme una variable aleatoria Poisson con media 20, independientemente, los no fumadores lleganconforme a otra variable aleatoria Poisson con media 30. Si se sabe que en ese dıa vendran 40 clientes,¿Cual es la probabilidad de que al menos uno de ellos sea fumador?

Solucion: Sean X,Y el numero de clientes fumadores y no fumadores, respectivamente, que visitanel restaurante. Entonces, queremos calcular P (X ≥ 1 | X+Y = 40). Por el ejemplo anterior tenemos

P (X = x | X + Y = 40) =

40

x

2

5

x 1− 2

5

40−xx = 0, 1, . . . , 40.

De esta forma, debido a que la probabilidad condicional es una funcion masa de probabilidad,obtenemos

P (X ≥ 1 | X + Y = 40) = 1− P (X = 0 | X + Y = 40) = 1−

3

5

40

= 0.99999.

Proposicion 2.1.6. Sean X variable aleatoria binomial de parametros (n, p) y Y variable aleatoriaindependiente de X con distribucion binomial de parametros (m, p). Entonces la variable aleatoriaX, condicional a X + Y = k, tiene distribucion hipergeometrica de parametros (n+m,n, k).

Demostracion: Notemos primero que x cumple: max0, k −m ≤ x ≤ mınn, k. Ademas X + Ytiene distribucion binomial de parametros n + m y p. De esta manera, usando la definicion de

18 CAPITULO 2. DISTRIBUCIONES CONDICIONALES

probabilidad condicional obtenemos

P (X = x | X + Y = k) =P (X = x,X + Y = k)

P (X + Y = k)

=P (X = x, Y = k − x)

P (X + Y = k)

=P (X = x)P (Y = k − x)

P (X + Y = k)

=

nx

px(1− p)n−x

mk−xpk−x(1− p)m−k+xn+m

k

pk(1− p)n+m−k

=

nx

mk−xn+m

k

.

Proposicion 2.1.7. Sea X variable aleatoria que condicional a Y = y tiene distribucion binomialde parametros (y, q). Suponga que Y tiene distribucion binomial de parametros (m, p). Entonces lavariable aleatoria X es binomial de parametros (m, pq).

Demostracion: Tenemos

P (X = x | Y = y) =

y

x

qx(1− q)y−x, x = 0, 1, . . . , y.

Tambien

P (Y = y) =

m

y

py(1− p)m−y, y = 0, 1, . . . ,m.

Aplicando la ley de probabilidad total resulta que para x ∈ 0, 1 . . . ,m

P (X = x) =mXy=0

P (X = x | Y = y)P (Y = y)

=mXy=x

y

x

qx(1− q)y−x

m

y

py(1− p)m−y

= qxm!

x!(m− x)!

mXy=x

(m− x)!

(y − x)!(m− y)!(1− q)y−xpy−xpx(1− p)m−y

=

m

x

(pq)x

mXy=x

(m− x)!

(y − x)!(m− x − y − x)!(p(1− q))y−x(1− p)(m−x)−(y−x)

Con el cambio de variable k = y − x, podemos escribir la sumatoria como sigue

m−xXk=0

m− xk

(p(1− q))k(1− p)m−x−k,

que por el binomio de Newton es igual a

(p(1− q) + (1− p))m−x = (1− pq)m−x.

De aquı, sustituyendo la expresion anterior resulta

P (X = x) =

m

x

(pq)x(1− pq)m−x, x = 0, 1, . . . ,m.

2.1. DISTRIBUCION CONDICIONAL DE DOS VARIABLES ALEATORIAS DISCRETAS 19

Ejemplo 2.1.8. Isabel lanza 4 veces una moneda, la probabilidad de que ella obtenga sol es 1/3.Carlos tiene otra moneda, la cual lanza cada vez que Isabel obtiene sol (no en otro caso), la proba-bilidad de que Carlos obtenga sol en su lanzamiento es 2/3. Calcule la probabilidad de que Carlosobtenga dos soles.

Solucion: Sea Y el numero de soles que Isabel obtiene en 4 lanzamientos. Sea X el numero de so-les que Carlos obtiene en sus lanzamientos. Tenemos que condicional a Y = y, X tiene distribucionbinomial de parametros (y, 2/3) y Y tiene distribucion binomial de parametros (4, 1/3). Por la propo-sicion 2.1.7, X tiene distribucion binomial con parametros (4, 2/9). De esta manera, la probabilidadde que Carlos obtenga dos soles es

P (X = 2) =

4

2

2

9

2 7

9

2

= 0.17924.

Proposicion 2.1.9. Sean X,Y variables aleatorias tales que condicional a Y = y, X tiene dis-tribucion binomial de parametros (y, p); Y tiene distribucion Poisson de parametro λ. Entonces lavariable aleatoria X tiene distribucion Poisson de parametro λp.

Demostracion: Tenemos

P (X = x | Y = y) =

y

x

px(1− p)y−x, x = 0, 1, . . . , y.

Tambien

P (X = x | Y = y) = 0, x > y.

Aplicando la ley de probabilidad total resulta

P (X = x) =∞Xy=0

P (X = x | Y = y)P (Y = y)

=∞Xy=x

y

x

px(1− p)y−xe−λλ

y

y!

= e−λ∞Xy=x

y!

x!(y − x)!px(1− p)y−xλ

xλy−x

y!

= e−λ(λp)x

x!

∞Xy=x

[λ(1− p)]y−x

(y − x)!. (2.4)

Ahora bien, con el cambio de variable k = y − x, obtenemos que la suma que aparece en el ladoderecho de (2.4) se puede escribir en la forma

∞Xk=0

[λ(1− p)]k

k!= eλ(1−p).

Sustituyendo la expresion anterior en (2.4) resulta

P (X = x) = e−λp(λp)x

x!, x = 0, 1, . . .

20 CAPITULO 2. DISTRIBUCIONES CONDICIONALES

2.2. Distribucion condicional de dos variables aleatorias con-tinuas

Definicion 2.2.1. Sea (X,Y ) vector aleatorio con funcion de densidad conjunta fX,Y (x, y). Lafuncion de densidad condicional de X dado Y = y, se define por

fX|Y (x | y) =fX,Y (x, y)

fY (y),

siempre que fY (y) > 0. En otro caso, no esta definida o se le puede asignar un valor arbitrario,digamos cero.

Observacion 2.2.2.

1. Multiplicando por ∆x en ambos lados obtenemos

fX|Y (x | y)∆x =fX,Y (x, y)∆x∆y

fY (y)∆y

≈ P (x ≤ X ≤ x+ ∆x, y ≤ Y ≤ y + ∆y)

P (y ≤ Y ≤ y + ∆y)

= P (x ≤ X ≤ x+ ∆x | y ≤ Y ≤ y + ∆y).

En otras palabras, para valores pequenos de ∆x y ∆y, fX|Y (x | y)∆x representa la probabilidadcondicional de que X se encuentre entre x y x+∆x, dado que Y se encuentra entre y y y+∆y.

2. La funcion de densidad condicional de Y dado X = x, se define en forma similar, esto es,

fY |X(y | x) =fX,Y (x, y)

fX(x),

siempre que fX(x) > 0. En otro caso, no esta definida o se le asigna un valor arbitrario, porejemplo cero.

3. La ley de probabilidad total en el caso de variables aleatorias continuas se puede escribir de lasiguiente forma

fX(x) =

Z ∞−∞

fX,Y (x, y)dy

=

Z ∞−∞

fX|Y (x | y)fY (y)dy (2.5)

Ejemplo 2.2.3. Sea (X,Y ) un vector aleatorio con funcion de densidad conjunta dada por

fX,Y (x, y) =

8<: 125 x(2− x− y) 0 < x < 1, 0 < y < 1

0, otro caso

Calcule fX|Y (x | y), 0 < y < 1.

Solucion: Tenemos

fY (y) =

Z 1

0

12

5x(2− x− y)dx

=8

5− 6

5y

Entonces, para 0 < y < 1 obtenemos

fX|Y (x | y) =fX,Y (x, y)

fY (y)=

6x(2− x− y)

4− 3y, 0 < x < 1.

2.2. DISTRIBUCION CONDICIONAL DE DOS VARIABLES ALEATORIAS CONTINUAS 21

Ejemplo 2.2.4. Sea (X,Y ) vector aleatorio con funcion de densidad conjunta dada por

fX,Y (x, y) =

8<: e− xy e−y

y 0 < x <∞, 0 < y <∞

0, otro caso

Calcule fX|Y (x | y), 0 < y <∞.

Solucion: Tenemos

fY (y) = e−yZ ∞

0

1

ye−

xy dx

= e−y

De esta manera, para 0 < y <∞

fX|Y (x | y) =1

ye−

xy , 0 < x <∞.

Observacion 2.2.5. La densidad condicional obtenida, fX|Y (x | y), es una densidad exponencialcon media y.

Ejemplo 2.2.6. Sea (X,Y ) vector aleatorio con funcion de densidad conjunta dada por

fX,Y (x, y) =

8<: 3x 0 < y < x < 1

0, otro caso

Encuentre fY |X(y | x), 0 < x < 1.

Solucion: Tenemos

fX(x) =

Z x

03xdy = 3x2.

Ası, para 0 < x < 1

fY |X(y | x) =1

x, 0 < y < x.

Observacion 2.2.7. La densidad condicional fY |X(y | x) es una densidad uniforme en el intervalo(0, x).

Ejemplo 2.2.8. Sea (X,Y ) vector aleatorio con funcion de denisidad conjunta dada por

fX,Y (x, y) =

8<: e−x 0 < y < x <∞

0, otro caso

Calcule fX|Y (x | y) y fY |X(y | x).

Solucion: Tenemos

fX(x) =

Z x

0e−xdy = xe−x

fY (y) =

Z ∞y

e−xdx = e−y

De esta manera,

fX|Y (x | y) = e−(x−y), y < x <∞.

fY |X(y | x) =1

x, 0 < y < x.

22 CAPITULO 2. DISTRIBUCIONES CONDICIONALES

Ejemplo 2.2.9. Sea X variable aleatoria que condicional a Y = y tiene distribucion exponencialde media 1/y. Suponga que Y tiene distribucion gama de parametros α y β. Encuentre la funcionde densidad marginal de X (densidad incondicional de X).

Solucion: Tenemos quefX|Y (x | y) = ye−yx, x ≥ 0,

y

fY (y) =βα

Γ(α)yα−1e−βy, y ≥ 0.

Aplicando la ley de probabilidad total, tenemos que para x ≥ 0,

fX(x) =

Z ∞0

ye−yxβα

Γ(α)yα−1e−βydy

=βα

Γ(α)

Z ∞0

yαe−(x+β)ydy

=βα

Γ(α)

Γ(α+ 1)

(x+ β)α+1

Z ∞0

(x+ β)α+1

Γ(α+ 1)yαe−(x+β)ydy

Notese que la funcion dentro del integrando es la densidad de una variable aleatoria gama deparametros α + 1 y x + β por lo que el valor de la integral es 1. Ademas, se cumple la identi-dad Γ(α+ 1) = αΓ(α), α > 0 (¡comprobar!). Por lo tanto,

fX(x) =αβα

(x+ β)α+1, x ≥ 0.

Ejemplo 2.2.10. Suponga que dado Y = y, X tiene distribucion normal con media y y varianza v,v constante. Suponga tambien que Y tiene distribucion normal con media µ y varianza w. Calculela densidad de X. ¿X tiene densidad conocida?

Solucion: Aplicando la ley de probabilidad total, tenemos que para x ∈ R

fX(x) =

Z ∞−∞

fX|Y (x | y)fY (y)dy

=

Z ∞−∞

1√2πv

exp

§− 1

2v(x− y)2

ª1√2πw

exp

§− 1

2w(y − µ)2

ªdy

=1

2π√vw

Z ∞−∞

exp

−1

2

(x− y)2

v+

(y − µ)2

w

dy.

Usamos la identidad algebraica (¡comprobar!)

(x− y)2

v+

(y − µ)2

w=v + w

vw

y − wx+ vµ

v + w

2

+(x− µ)2

v + w

para obtener

fX(x) =1

2π√vw

Z ∞−∞

exp

§− 1

2(v + w)(x− µ)2

ªexp

−1

2

v + w

vw

y − wx+ vµ

v + w

2dy

=1È

2π(v + w)exp

§− 1

2(v + w)(x− µ)2

ªZ ∞−∞

√v + w√2πvw

exp

−1

2

v + w

vw

y − wx+ vµ

v + w

2dy

Notese que la funcion dentro de la integral es una densidad de una variable aleatoria normal conmedia (wx+ vµ)/(v +w) y varianza (vw)/(v +w), lo que implica que la integral es 1. Por lo tanto,

fX(x) =1È

2π(v + w)exp

§− 1

2(v + w)(x− µ)2

ª, −∞ < x <∞.

Como puede notarse la densidad fX es una densidad normal con media µ y varianza v + w.

2.3. ESPERANZA Y VARIANZA CONDICIONALES 23

2.3. Esperanza y Varianza Condicionales

Definicion 2.3.1. Sea (X,Y ) vector aleatorio discreto. La esperanza condicional de X dado Y = yse define por

E[X | Y = y] =Xx

xpX|Y (x | y), (2.6)

siempre que pY (y) > 0. La sumatoria que aparece en (2.6) es sobre el rango de X.

Definicion 2.3.2. Sea (X,Y ) vector aleatorio continuo. La esperanza condicional de X dado Y = yse define por

E[X | Y = y] =

Z ∞−∞

xfX|Y (x | y)dx, (2.7)

siempre que fY (y) > 0.

Observacion 2.3.3. La serie que aparece en (2.6) se supone absolutamente convergente. De lamisma forma, la integral que aparece en (2.7) se supone absolutamente convergente.

Ejemplo 2.3.4. Si X,Y son variables aleatorias independientes con distribucion Poisson de parame-tros λ y µ respectivamente. Encuentre E[X | X + Y = n].

Solucion: En el ejemplo 2.1.4 vimos que X | X + Y = n tenıa distribucion binomial de parametrosn y λ

λ+µ . De esta manera

E[X | X + Y = n] = nλ

λ+ µ.

Ejemplo 2.3.5. Si X,Y son variables aleatorias independienttes con distribucion binomial deparametros (n, p) y (m, p) respectivamente, encuentre E[X | X + Y = k].

Solucion: En el ejemplo 2.1.6 vimos que X | X + Y = k tenıa distribucion hipergeometrica conparametros (n+m,n, k). Por lo tanto,

E[X | X + Y = k] = mkn

n+m.

Ejemplo 2.3.6. Sea (X,Y ) vector aleatorio con funcion de densidad conjunta dada por

fX,Y (x, y) =

8<: e− xy e−y

y , 0 < x <∞, 0 < y <∞

0 otro caso

Calcule E[X | Y = y].

Solucion: En el ejemplo 2.2.4 encontramos que

fX|Y (x | y) =1

ye−

xy , 0 < x <∞.

Notese que X | Y = y tiene distribucion exponencial con media y, por lo que

E[X | Y = y] = y.

24 CAPITULO 2. DISTRIBUCIONES CONDICIONALES

Ejemplo 2.3.7. Sea (X,Y ) vector aleatorio con funcion de densidad conjunta

fX,Y (x, y) =

8<: e−x, 0 < y < x <∞

0 otro caso

Calcule E[X | Y = y].

Solucion: En el ejemplo 2.2.8 calculamos

fX|Y (x, y) = e−(x−y), y < x <∞.

De esta manera,

E[X | Y = y] =

Z ∞y

xe−(x−y)dx

= eyZ ∞y

xe−xdx

= ey−xe−x|∞y +

Z ∞y

e−xdx

= y + 1

Proposicion 2.3.8. Sean X,Y,X1, X2 variables aleatorias, g una funcion y c constante. Entonces

1. E[c | Y = y] = c,

2. E[X1 +X2 | Y = y] = E[X1 | Y = y] + E[X2 | Y = y],

3. E[cX | Y = y] = c · E[X | Y = y],

4. E[g(X,Y ) | Y = y] = E[g(X, y) | Y = y]

5. E[X | Y = y] = E[X] si X y Y son independientes.

Demostracion: Solo mostraremos 1), 4) y 5) en caso discreto, las versiones continuas, ası comotambien 2) y 3) se le dejan al lector.

1. Si X = c, entonces para cualquier y,

pX,Y (x, y) =

8><>:pY (y), x = c

0, x 6= c

De aquı,

pX|Y (x | y) =

8<: 1, x = c

0, x 6= c

para cualquier y que cumpla pY (y) > 0. De esta manera

E[c | Y = y] = cpX|Y (c | y) = c.

2.3. ESPERANZA Y VARIANZA CONDICIONALES 25

4. Por definicion

E[g(X,Y ) | Y = y] =Xx

Xz

g(x, z)p(X,Y )|Y (x, z | y) (2.8)

Ahora bien

p(X,Y )|Y=y(x, z | y) =P (X = x, Y = y, Y = z)

P (Y = y)

=

8<: pX|Y (x | y) si z = y

0, si z 6= y

De esta manera, sustituyendo la expresion anterior en la ecuacion (2.8) queda

E[g(X,Y ) | Y = y] =Xx

Xz 6=y

g(x, z) · 0 +Xx

g(x, y)pX|Y (x | y)

= E[g(X, y) | Y = y].

5. Notemos que si X y Y son independientes entonces

pX|Y (x | y) = pX(x),

siempre que pY (y) > 0. Por lo tanto,

E[X | Y = y] =Xx

xpX|Y (x | y) =Xx

xpX(x) = E[X].

La distribucion condicional de X dado Y = y depende de y. Esto implica que la esperanzacondicional E[X | Y = y] es funcion de y, esto es,

h(y) = E[X | Y = y],

para alguna funcion h. De esta manera, podemos considerar la variable aleatoria h(Y ), la cualdenotaremos por E[X | Y ], es decir,

h(Y ) = E[X | Y ].

Esta variable cumple lo siguiente:

Teorema 2.3.9. Sea X variable aleatoria tal que E[|X|] <∞. Entonces

E[E[X | Y ]] = E[h(Y )] = E[X] (2.9)

Demostracion: Mostraremos (2.9) en el caso discreto, el caso continuo es analogo. Adicionalmentesupondremos que podemos intercambiar el orden de las sumas que aparecen en la demostracion. Lasuposicion anterior tiene una base formal de teorıa de la medida, no lo estudiaremos aquı porquequeda fuera del proposito de estas notas. Si el lector desea saber mas sobre lo anterior puede consultar

26 CAPITULO 2. DISTRIBUCIONES CONDICIONALES

[referencia Ash o cualquier otro de teorıa de la medida]

E[E[X | Y ]] = E[h(Y )]

=Xy

h(y)pY (y)

=Xy

E[X | Y = y]pY (y)

=Xy

Xx

xpX|Y (x | y)pY (y)

=Xx

Xy

xpX|Y (x | y)py(y)

=Xx

Xy

xpX,Y (x, y)

=Xx

x

Xy

pX,Y (x, y)

!=

Xx

xpX(x)

= E[X].

Observacion 2.3.10.

1. El teorema anterior se puede interpretar como la “ley de esperanza total”.

2. La suposicion E[|X|] < ∞ es importante, si no se tiene, la ecuacion (2.9) no es cierta. Parailustrar esto veamos el siguiente ejemplo.

Ejemplo 2.3.11. Suponga que la variable aleatoria Y tiene distribucion ji-cuadrada con un gradode libertad. Suponga tambien que la densidad condicional de X dado Y = y es

fX|Y (x | y) =1√2πy1/2e−

12yx

2

, −∞ < x <∞.

Notese que fX|Y (x | y) se puede escribir de la siguiente forma

fX|Y (x | y) =1q

1y

exp

(− 1

2

1y

x2

), −∞ < x <∞.

La funcion de densidad anterior es de una variable aleatoria normal con media 0 y varianza 1/y. Deaquı

E[X | Y = y] = 0,

de donde

E[X | Y ] = 0

Y tambien

E[E[X | Y ]] = 0.

2.3. ESPERANZA Y VARIANZA CONDICIONALES 27

Por otro lado,

fX(x) =

Z ∞0

1√2πy1/2e−

12yx

2 1√πy−1/2

1

2

12

e−y2 dy

=1

Z ∞0

e−12 (x2+1)ydy

=1

π

1

x2 + 1

Z ∞0

1

2(x2 + 1)e−

12 (x2+1)ydy| z

1

=1

π(x2 + 1).

Lo anterior muestra que X es una variable aleatoria Cauchy, y por lo tanto E[X] no existe. De estamanera, este ejemplo muestra que el supuesto E[|X|] es muy importante.

Ejemplo 2.3.12. Sean X,Y variables aleatorias. Suponga que X, condicional a Y = y, tienedistribucion binomial de parametros (y, q). Suponga que Y tiene distribucion binomial de parametro(m, p). Encuentre E[X].

Solucion: Tenemos

E[X | Y = y] = yq.

De aquı

E[X | Y ] = Y q.

Aplicando la ley de esperanza total resulta

E[X] = E[E[X | Y ]] = qE[Y ] = qmp.

Ejemplo 2.3.13. Suponga que X | Y = y tiene distribucion binomial de parametros y y p, a su vezY es una variable aleatoria Poisson de parametro λ. Encuentre E[X].

Solucion: Tenemos

E[X | Y ] = Y p.

De aquı, por la ley de esperanza total

E[X] = E[E[X | Y ]] = pE[Y ] = pλ.

Ejemplo 2.3.14. Sean X,Y variables aleatorias que cumplen lo siguiente: X, condicional a Y = y,tiene distribucion exponencial con media y, Y tiene distribucion exponencial con media 1. EncuentreE[X].

Solucion: Por la ley de esperanzas totales

E[X] = E[E[X | Y ]] = E[Y ] = 1.

Ejemplo 2.3.15. Una vara de longitud uno se rompe aleatoriamente en un punto uniformementedistribuido. La pieza restante se rompe una vez mas de la misma forma, esto es, en algun puntouniformemente distribuido en la longitud de la pieza. Encuentre el valor esperado de la pieza restantedespues de las dos veces que se ha roto.

28 CAPITULO 2. DISTRIBUCIONES CONDICIONALES

Solucion: Sea Y la longitud de la vara despues de haber sido rota. Sea X la longitud de la vararestante despues de haber sido rota por segunda vez. Tenemos que Y tiene distribucion uniforme en(0, 1), a su vez X | Y = y tiene distribucion uniforme en (0, y). De esta manera,

E[X | Y ] =Y

2.

De aquı

E[X] =1

2E[Y ] =

1

4.

Observacion 2.3.16. En los ejemplos anteriores no fue necesario encontrar la distribucion de Xpara encontrar su valor esperado.

Definicion 2.3.17. Sean X,Y variables aleatorias conjuntamente distribuidas. La varianza condi-cional de X dado Y = y se define por

Var(X | Y = y) = E[(X − E[X | Y = y])2 | Y = y].

De la definicion se sigue que la varianza condicional tambien es una funcion de y, digamos v(y).De esta manera, la variable aleatoria v(Y ) la denotamos por Var(X | Y ), es decir,

v(Y ) = Var(X | Y ).

Teorema 2.3.18. Sea X variable aleatoria que cumple E[X2] <∞. Entonces

Var(X) = E[Var(X | Y )] + Var(E[X | Y ]).

Demostracion: Tenemos

Var(X | Y ) = E[(X − E[X | Y ])2 | Y ]

= E[X2 | Y ]− 2E[XE[X | Y ] | Y ] + E[E2[X | Y ] | Y ]

= E[X2 | Y ]− 2(E[X | Y ])2 + (E[X | Y ])2

= E[X2 | Y ]− E2[X | Y ]

AsıE[Var(X | Y )] = E[X2]− E[(E[X | Y ])2]. (2.10)

Por otro lado,

Var(E[X | Y ]) = E[(E[X | Y ])2]− (E[E[X | Y ]])2

= E[(E[X | Y ])2]− (E[X])2. (2.11)

Sumando las ecuaciones (2.10) y (2.11) se sigue el resultado.

Ejemplo 2.3.19. Continuando con el ejemplo 2.3.15 calcule la varianza de la longitud de la vararestante despues de romperse por segunda ocasion.

Solucion: Tenemos

Var(X | Y = y) =1

12y2.

Entonces

E[Var(X | Y )] =1

12E[Y 2] =

1

12· 1

3=

1

36.

Tambien

Var(E[X | Y ]) = Var(1

2Y ) =

1

4Var(Y ) =

1

4· 1

12=

1

48.

Por lo tanto,

Var(X) =1

36+

1

48=

7

144.

2.4. DISTRIBUCION CONDICIONALES DE DOS VARIABLES ALEATORIAS 29

2.4. Distribucion condicionales de dos variables aleatorias:una discreta y la otra continua

En esta seccion estudiaremos las distribuciones condicionales en el caso donde se tiene una va-riable aleatoria discreta y otra continua. Se estudiaran particularmente los siguientes casos:

1. La variable aleatoria condicionante es discreta.

2. La variable aleatoria condicionante es continua.

En el primer caso, como introduccion al curso de Teorıa del Riesgo, estudiaremos las sumasaleatorias de variables aleatorias, las cuales como caso particular tienen el “conocido” modelo deriesgo colectivo. En el segundo caso lo que se estudiara sera el comportamiento de una variablealeatoria discreta en presencia de una variable aleatoria continua, basicamente como se ve afectadala variable aleatoria discreta en presencia de un parametro continuo.

En toda esta seccion para diferenciar las variables aleatorias continuas de las discretas, utilizare-mos la notacion N,M para las variables aleatorias discretas y X,Y, Z para las variables aleatoriascontinuas. Supondremos ademas que las variables aleatorias discretas toman valores en los enterosno negativos, esto es, en el conjunto 0, 1, 2, . . ..

2.4.1. Condicionando con respecto a una variable aleatoria discreta

Definicion 2.4.1. Sea (X,N) vector aleatorio con funcion de distribucion conjunta. Suponga queX es variable aleatoria continua y que N toma valores en 0, 1, 2, . . .. La funcion de distribucioncondicional de X dado N = n esta definida por

FX|N (x | n) = P (X ≤ x | N = n) =P (X ≤ x,N = n)

P (N = n),

siempre que P (N = n) > 0. No esta definida o le asignamos el valor cero cuando P (N = n) = 0.

Supongamos ahora que FX|N (x | n) esta bien definida y es diferenciable en x. Entonces, definimosla densidad condicional de X dado N = n por

fX|N (x | n) =d

dxFX|N (x | n). (2.12)

Observacion 2.4.2.

1. Podemos obtener FX|N (x | n), para P (N = n) > 0, a partir de fX|N (x | n) mediante laecuacion:

FX|N (x | n) =

Z x

−∞fX|N (t | n)dt.

2. Para cada valor de n fijo donde fX|N (x | n) esta definida, la funcion fX|N (· | n) es una funcionde densidad continua. En efecto, de la definicion se sigue que fX|N (x | n) es no negativa y queZ ∞

−∞fX|N (x | n) = lım

x→∞FX|N (x | n)

= 1.

3. Por la ley de probabilidad total tenemos

FX(x) = P (X ≤ x)

=∞Xn=0

P (X ≤ x | N = n)pN (n)

=∞Xn=0

Z x

−∞fX|N (t | n)pN (n)dt

30 CAPITULO 2. DISTRIBUCIONES CONDICIONALES

Suponiendo que podemos intercambiar la suma con la integral, la formula final queda

FX(x) =

Z x

−∞

∞Xn=0

fX|N (t | n)pN (n)dt. (2.13)

Derivando la ecuacion (2.13) resulta

fX(x) =∞Xn=0

fX|N (x | n)pN (n). (2.14)

La ecuacion (2.14) permite calcular la densidad marginal de X en terminos de la funcion dedensidad condicional de X dado N = n y la funcion masa de probabilidad de N .

4. La esperanza condicional de X dado N = n, esta definida por

E[X | N = n] =

Z ∞0

xfX|N (x | n)dx.

Se puede demostrar que E[X | N ] satisface las propiedades de la proposicion 2.3.8, pero no loharemos aquı porque queda fuera del proposito de estas notas. Tambien podemos considerarla variable aleatoria E[X | N ] definida en la misma forma que en las secciones anteriores.Se puede demostrar que si E[|X|] < ∞ entonces E[X | N ] satisface la ecuacion (2.9), perotampoco se hara aquı. Se le recomienda al lector demostrar estos hechos.

2.4.2. Sumas aleatorias de variables aleatorias

En esta seccion haremos uso de las herramientas desarrolladas en la seccion anterior, las cualesfueron dadas como observaciones. Antes definimos la variable suma aleatoria de variables aleatorias.

Definicion 2.4.3. Sean X1, X2, X3, . . . variables aleatorias continuas independientes e identica-mente distribuidas. Sea N variable aleatoria tomando valores en 0, 1, 2, . . . e independiente deX1, X2, X3, . . .. Definimos la variable aleatoria S de la siguiente manera:

S =

8<: 0, N = 0

X1 + · · ·+XN , N > 0(2.15)

La variable aleatoria S es una suma aleatoria de variables aleatorias. En Teorıa de Riesgo, bajoel supuesto de que las variables aleatorias X1, X2, . . . son no negativas, S es conocida con el nombrede modelo de riesgo colectivo. En un periodo de tiempo fijo, las variables aleatorias X ′is representanel monto a pagar por una companıa aseguradora y N el numero de reclamaciones efectuadas, de talforma que S es el monto total a pagar por la companıa en ese periodo de tiempo.

Definicion 2.4.4. Sean X1, X2, . . . variables aleatorias continuas independientes e identicamentedistribuidas con densidad f . La funcion de densidad f (n) de X1 +X2 + · · ·+Xn es llamada la n-esimaconvolucion de f , que se define como sigue

f (1)(x) = f(x)

f (n)(x) =

Z ∞−∞

f (n−1)(x− y)f(y)dy, n > 1.

Observacion 2.4.5.

1. La ecuacion (2.15) es la definicion general de una suma aleatoria de variables aleatorias. Parasimplificar, supondremos adicionalmente que P (N = 0) = 0. Esto para que la funcion dedistribucion acumulada de S resulte continua. En caso contrario, la funcion de distribucionacumulada de S tiene un salto de tamano P (N = 0) en el punto cero.

2.4. DISTRIBUCION CONDICIONALES DE DOS VARIABLES ALEATORIAS 31

2. Debido a que N y Xn, n ≥ 1 son independientes, entonces f (n)(x) tambien es la densidadcondicional de S = X1 + · · ·+XN , dado N = n, n ≥ 1. En efecto, para n ≥ 1

FS|N (x | n) = P (X1 + · · ·+XN ≤ x | N = n)

= P (X1 + · · ·+Xn ≤ x | N = n)

= P (X1 + · · ·+Xn ≤ x)

=

Z x

−∞f (n)(t)dt.

Derivando la ecuacion anterior resulta

fS|N (x | n) = f (n)(x).

3. Reescribiendo la ecuacion (2.14):

fS(x) =∞Xn=1

f (n)(x)pN (n). (2.16)

Ejemplo 2.4.6. Suponga que Xi tiene distribucion exponencial de media 1/λ y N tiene funcionmasa de probabilidad dada por

pN (n) = θ(1− θ)n−1, n = 1, 2, 3, . . . .

Calcule la funcion de densidad de S.

Solucion: Usando la formula (2.16) tenemos

fS(x) =∞Xn=1

f (n)(x)θ(1− θ)n−1.

Ahora bien, debido a que cada Xi tiene distribucion exponencial de parametro λ, entonces X1 +· · ·+Xn tiene densidad gama de parametros n y λ, es decir,

f (n)(x) =λn

(n− 1)!xn−1e−λx, x ≥ 0.

Ası

fS(x) =∞Xn=1

λn

(n− 1)!xn−1e−λxθ(1− θ)n−1

= λθe−λx∞Xn=1

[λx(1− θ)]n−1

(n− 1)!.

Por otro lado, con el cambio de variable k = n− 1 obtenemos

∞Xn=1

[λx(1− θ)]n−1

(n− 1)!=∞Xk=0

[λx(1− θ)]k

k!= eλx(1−θ).

De esta manera,fS(x) = λθe−λxeλx(1−θ) = λθe−λθx, x ≥ 0.

Es decir, S tiene distribucion exponencial de parametro λθ.

Ahora determinaremos cual es el valor esperado y la varianza de S. Esto lo enunciamos en elsiguiente teorema.

32 CAPITULO 2. DISTRIBUCIONES CONDICIONALES

Teorema 2.4.7. Sea S definida por (2.15). Sean µ = E[X], ν = E[N ], σ2 = Var(X) y τ2 = Var(N).Suponga que E[X2],E[N2] <∞. Entonces

E[S] = µν, Var(X) = νσ2 + µ2τ2. (2.17)

Demostracion: Calculemos E[S | N = n]. Tenemos

E[S | N = n] = E[X1 + · · ·+Xn | N = n]

= E[X1 + · · ·+Xn] (independencia de X1, X2, . . . y N)

= nE[X] (X1, X2, . . . son identicamente distribuidas)

= nµ

De aquı

E[S] = E[E[S | N ]] = E[Nµ] = µE[N ] = µν.

Ahora,

Var(S | N = n) = E[(X1 + · · ·+XN − E[S | N = n])2 | N = n]

= E[(X1 + · · ·+Xn − nµ)2 | N = n]

= E[(X1 + · · ·+Xn − nµ)2]

= Var(X1 + · · ·+Xn)

= nVar(X)

= nσ2

De aquı

Var(S) = E[Var(S | N)] + Var(E[S | N ])

= E(Nσ2) + Var(Nµ)

= σ2E[N ] + µ2Var(N)

= νσ2 + µ2τ2.

Observacion 2.4.8. Notese que en la prueba del resultado anterior no se uso el supuesto P (N =n) = 0, por lo que el resultado del teorema anterior sigue siendo valido inclusive cuando P (N =0) > 0. De esta forma tenemos el siguiente ejemplo:

Ejemplo 2.4.9. Sea S definida como en (2.15). Suponga que N es una variable aleatoria Poissonde parametro λ y que cada Xi es exponencial con media θ. Calcule E[S] y Var(S)

Solucion: Tenemos

µ = θ, σ2 = θ2, ν = λ, τ2 = λ.

Sustituyendo las cantidades anteriores en (2.17) resulta

E[S] = λθ, Var(S) = 2λθ2.

2.4.3. Condicionando con respecto a una variable aleatoria continua

En esta seccion estudiaremos el comportamiento de una variable aleatoria discreta N cuando seconoce el comportamiento de esta variable en presencia de parametros aleatorios continuos X. Paracada valor x de X supondremos que tenemos el comportamiento de la variable aleatoria N , es decir,

2.4. DISTRIBUCION CONDICIONALES DE DOS VARIABLES ALEATORIAS 33

sera conocido la probabilidad P (N = n | X = x). Sea fX la funcion de densidad continua de lavariable aleatoria X, entonces la ley de probabilidad total en este caso queda:

P (N = n) =

Z ∞−∞

P (N = n | X = x)fX(x)dx (2.18)

La formula (2.18) no la demostraremos aquı porque su demostracion involucra topicos avanzados enProbabilidad, y no es el objetivo de estas notas. Si el lector desea ver la demostracion le recomen-damos el libro (s) [Ash, etc]

Ejemplo 2.4.10. Sea N variable aleatoria que condicionada a X = x tiene distribucion binomialde parametros (m,x). Suponga que X tiene distribucion uniforme en el intervalo (0, 1). Encuentrela distribucion de N .

Solucion: Notese que N toma valores 0, 1, . . . ,m. Aplicando la formula (2.18) resulta

P (N = n) =

Z ∞−∞

P (N = n | X = x)fX(x)dx

=

Z 1

0

m

n

xn(1− x)m−ndx

=

m

n

Z 1

0xn(1− x)m−ndx

=m!

n!(m− n)!

Z 1

0xn(1− x)m−ndx

Recordemos que la funcion de densidad de una variable aleatoria beta esta dada por

1

B(a, b)xa−1(1− x)b−1, 0 < x < 1, a, b > 0,

donde B(a, b) esta definida por

B(a, b) =Γ(a)Γ(b)

Γ(a+ b).

De esta manera, tomando a = n+ 1 y b = m− n+ 1, obtenemosZ 1

0xn(1− x)m−ndx =

Γ(n+ 1)Γ(m− n+ 1)

Γ(m+ 2)=n!(m− n)!

(m+ 1)!.

Por lo tanto,

P (N = m) =1

m+ 1.

Esto es, la variable aleatoria N es uniforme discreta en 0, 1, . . . ,m

Ejemplo 2.4.11. Sea N variable aleatoria que condicionada a X = x tiene distribucion Poisson demedia x. Suponga que X tiene distribucion exponencial con media 1/λ. Encuentre la distribucionde N .

Solucion: En este caso la variable aleatoria N toma valores en 0, 1, . . .. Por la ley de probabilidadtotal tenemos

P (N = n) =

Z ∞−∞

P (N = n | X = x)fX(x)dx

=

Z ∞0

e−xxn

n!λe−λxdx

n!

Z ∞0

xne−x(1+λ)dx

34 CAPITULO 2. DISTRIBUCIONES CONDICIONALES

Haciendo el cambio de variable u = x(1 + λ) tenemosZ ∞0

xne−x(1+λ)dx =1

(1 + λ)n+1

Z ∞0

une−udu

=Γ(n+ 1)

(1 + λ)n+1

Z ∞0

1

Γ(n+ 1)une−udu| z

1

=n!

(1 + λ)n+1

Por lo tanto,

P (N = n) =λ

(1 + λ)n+1=

λ

1 + λ

1

1 + λ

n, n = 0, 1, 2, . . .

Es decir, N tiene distribucion geometrica de parametro λ/(1 + λ).

2.5. Caso Especial: Normal Bivariada

Definicion 2.5.1. El vector aleatorio (X,Y ) tiene distribucion normal bivariada si su funcion dedensidad esta dada por

f(x, y) =1

2πσxσyp

1− ρ2exp

¨− 1

2(1− ρ2)

x− µxσx

2

− 2ρ(x− µx)(y − µy)

σxσy+

y − µyσy

.

Proposicion 2.5.2. Sea (X,Y ) un vector aleatorio normal bivariado entonces:

1. La densidad condicional de X dado Y = y es una densidad normal con parametros

µx + ρσxσy

(y − µy) y σ2x(1− ρ2).

2. La densidad condicional de Y dado X = x es tambien una densidad normal.

3. X y Y ambas son variables aleatorias normales con respectivos parametros (µx, σ2x) y (µy, σ

2y).

4. X y Y son independientes si ρ = 0

Demostracion: Se deja como ejercicio.

2.6. Ejercicios

1. Mama pajaro pone huevos en un cierto lugar conforme a una distribucion Poisson de media6. Debido a los depredadores y otros factores climaticos, la probabilidad de supervivencia decada huevo es 0.2. El comportamiento de supervivencia es independiente entre huevos. Calculela probabilidad de que:

a) sobreviva un pajarito.

b) al menos 3 huevecillos sobrevivan.

2. Se lanzan dos dados distinguibles. Sean X,Y el valor mas pequeno y el valor mas grande delas caras obtenidas, respectivamente. Encuentre la funcion masa de probabilidad de X dadoY = y para y = 1, 2, . . . , 6.

3. Demuestre la identidad Γ(α+ 1) = αΓ(α), α > 0 que aparece en el ejemplo 2.2.9.

2.6. EJERCICIOS 35

4. Demuestre la identidad

(x− y)2

v+

(y − µ)2

w=v + w

vw

y − wx+ vµ

v + w

2

+(x− µ)2

v + w

que aparece en el ejemplo 2.2.10.

5. Demuestra los casos faltantes para variables discretas y continuas de la proposicion 2.3.8.

6. Sean X,Y variables aleatorias y g una funcion. Demuestre que

a) E[g(Y )X | Y ] = g(Y ) · E[X | Y ].

b) E[X | Y ] = E[X] si X,Y son independientes.

7. Se lanza un dado balanceado de 6 caras. Luego, en base al numero de la cara superior queaparezca en el dado, se lanza una moneda cargada, con esta moneda es dos veces mas probablede obtener aguila que sol. Calcule el numero esperado de soles.

8. Seleccione un numero aleatoriamente del conjunto de numeros 1, 2, . . . ,M, digamos Y . Luegoseleccione otro numero aleatoriamente no mas grande que Y , esto es, seleccione un numero delconjunto 1, 2, . . . , Y , digamos X. Encuentre el valor esperado de X.

9. Si X es una variable aleatoria continua y N es discreta, demuestre

P (a < X ≤ b,N = n) =

Z b

afX|N (x | n)pN (n)dx.

10. La funcion de densidad conjunta de X y Y esta dada por

fX,Y (x, y) =

8<: xe−x(y+1), x > 0, y > 0

0, otro caso

Encuentre la funcion de densidad de X dado Y = y y de Y dado X = x.

11. Sean X,Y variables aleatorias independientes con distribucion gamma de parametros 2 y a ymedia 2a. Encuentre la funcion de densidad condicional de X dado X + Y = 2.

12. La funcion de densidad conjunta de X y Y esta dada por

fX,Y (x, y) =

8<: c(x2 − y2)e−x, 0 ≤ x <∞, −x ≤ y ≤ x

0, otro caso

Encuentre la funcion de densidad condicional de Y dado X = x.

13. Suponga que la densidad de una variable aleatoria X es f(x), x > 0. Encuentre la funcion dedensidad condicional de X − x0 dado X > x0.

14. Sean X,Y variables aleatorias independientes exponenciales de media 1. Encuentre la distri-bucion condicional de X dado X + Y = z con z constante positiva.

15. El vector aleatorio (X,Y ) tiene distribucion normal bivariada si su funcion de densidad esta da-da por

f(x, y) =1

2πσxσyp

1− ρ2exp

¨− 1

2(1− ρ2)

x− µxσx

2

− 2ρ(x− µx)(y − µy)

σxσy+

y − µyσy

.

36 CAPITULO 2. DISTRIBUCIONES CONDICIONALES

a) Demuestre que la densidad condicional de X dado Y = y es una densidad normal conparametros

µx + ρσxσy

(y − µy) y σ2x(1− ρ2).

Demuestre tambien que la densidad condicional de Y dadoX = x es tambien una densidadnormal, ¿Cuales son sus parametros?

b) Demuestre que X y Y ambas son variables aleatorias normales con respectivos parametros(µx, σ

2x) y (µy, σ

2y).

c) Demuestre que X y Y son independientes si ρ = 0

16. Suponga que cada componente en un cierto sistema de tres componentes funciona con proba-bilidad p y falla con probabilidad 1− p, cada componente funciona o falla de manera indepen-diente de los otros. El sistema se encuentra en un ambiente aleatorio, de tal forma que p es unavariable aletoria. Suponga que p tiene distribucion uniforme en el intervalo (0, 1). El sistemaopera si al menos dos componentes funcionan. Calcule la probabilidad de que el sistema opere.

17. La funcion de densidad del vector aleatorio (X,Y ) esta dada por:

f(x, y) =

§x+ y 0 6 x 6 1 0 6 y 6 10 en otro caso

Determinar

a) E[Y |X].

b) V ar(Y |X).

18. Supongase que la distribucion conjunta de X y Y es una distribucion uniforme sobre el cırculox2 + y2 < 1. Hallar E[X|Y ].

19. Supongase que dado X = x, Y tiene una distribucion Poisson(x) y X tiene una distribucionGamma(α, β) con media αβ. Determinar la distribucion de Y e identificarla cuando α es unentero.

20. Supongase que la distribucion condicionada de Y dado P = p es Bin(n, p), tal que P tieneuna distribucion Beta(α, β). Determina la distribucion marginal de Y .

21. Sea n1 + n2 ensayos que tienen la misma probabilidad de exito, supongase sin embargo quela probabilidad de exito no es fijo, en general, es uniforme (0, 1). Determine la distribucioncondicional de la probabilidad de exito dado que de n1 + n2 ensayos resulten n1 exitos.

22. Muestre que para 0 < a < b o a < b < 0 se cumple

P (a < S < b) =

Z b

a

∞Xn=1

f (n)(x)pN (n)dx.

23. Sean X1, X2, X3 variables aleatorias independientes con funciones masa de probabilidad f1,f2, f3, respectivamente, donde f1, f2, f3 estan dadas por

f1(x) =1

410(x) +

1

411(x) +

1

212(x),

f2(x) =1

210(x) +

1

212(x),

f3(x) =1

410(x) +

1

412(x) +

1

214(x).

Sea S = X1 +X2 +X3. Calcule la funcion masa de probabilidad de S.

2.6. EJERCICIOS 37

24. Supongase que la aseguradora FMAT tiene un portafolio con n polizas de automovil que solopermiten tener hasta 2 reclamaciones por asegurado por ano. Sea S el riesgo al que se encuentraexpuesto la aseguradora y sean qj,0, qj,1 y qj,2 las probabilidades de que el j-esimo aseguradopresente 0, 1 y 2 reclamaciones, respectivamente. Si las reclamaciones de los asegurados sonindependientes entre sı y el monto de cada reclamacion del asegurado es zj , demuestre que

a) E[S] =nXj=1

zj(1− qj,0 + qj,2).

b) V ar[S] =nXj=1

z2j [(qj,1 + 4qj,2)− (qj,1 + 2qj,2)2].

38 CAPITULO 2. DISTRIBUCIONES CONDICIONALES

Capıtulo 3

Otras funciones generadoras

3.1. Funcion Generadora de Cumulantes

Definicion 3.1.1. Sea X una variable aleatoria con funcion generadora de momentos MX(t), lafuncion generadora de cumulantes de define como ψX(t) = lnMX(t). El j−esimo cumulante Kj dela variable X es Kj = ψ(j)(0) para j ≥ 1 donde ψ(j)(t) representa la j−esima derivada de la funcionψ(t).

Escribiremos Kj(X) para denotar el j−esimo cumulante de la variable aleatoria X.

Ejemplo 3.1.2. Sea X con distribucion Normal(µ, σ2). Hallar la funcion generadora de cumulantes.

Solucion: Tenemos que

MX(t) = E[etx]

=

Z ∞−∞

1√2πσ

e−txe− (x− µ)2

2σ2 dx

= eµt+

1

2σ2t2

Z ∞−∞

1√2πσ

e−[x−(µ+σ2t)]2

2σ2 dx

= eµt+

1

2σ2t2

.

Por lo tanto,

ψX(t) = lnMX(t) = ln eµt+

1

2σ2t2

= µt+1

2σ2t2.

Ejemplo 3.1.3. Sea X con distribucion Normal(µ, σ2). Entonces K1(X) = µ, K2(X) = σ2 yKj(X) = 0 para j ≥ 3.

Observacion 3.1.4. La distribucion de una variable aleatoria esta unicamente determinada por lafuncion generadora de cumulantes.

Proposicion 3.1.5. Sea X una variable aleatoria con funcion generadora de cumulantes ψX(t). Siαj = E[Xj ], entonces:

1. K1(X) = α1

2. K2(X) = α2 − α21

3. K3(X) = α3 − 3α1α2 + 2α31

39

40 CAPITULO 3. OTRAS FUNCIONES GENERADORAS

4. K4(X) = α4 − 4α1α3 − 3α22 + 12α2

1α2 − 6α41

Demostracion: Solo demostraremos el inciso 2) pues las demostraciones de los otros incisos sonanalogas. Tenemos que

ψ(1)(t) = (lnMX(t))′ =M ′X(t)

MX(t)

Luego

ψ(2)(t) =

M ′X(t)

MX(t)

′=MX(t)M ′′X(t)− (M ′X(t))2

(MX(t))2

Por lo tanto

K2(X) = ψ(2)(0) =MX(0)M ′′X(0)− (M ′X(0))2

(MX(0))2=E[1]E[X2]− (E[X])2

(E[1])2= α2 − α2

1.

Proposicion 3.1.6. Si ψX(t) es la funcion generadora de cumulantes de la variable X entoncesψaX+b(t) = ψX(at) + bt. Ademas, si Y es una variable aleatoria independiente de X con funciongeneradora de cumulantes ψY (t) entonces ψX+Y (t) = ψX(t)+ψY (t) y Kj(X+Y ) = Kj(X)+Kj(Y ).

Demostracion: La primera parte se sigue de que

ψaX+b(t) = lnMaX+b(t) = lnE[et(aX+b)] = ln(etbE[etaX ]) = ln etb + lnE[etaX ] = tb+ ψX(at).

Para la segunda parte recordemos que si X y Y son independientes, entoces MX+Y (t) =MX(t)MY (t). Ası se cumple que ψX+Y (t) = lnMX+Y (t) = lnMX(t) + lnMY (t) = ψX(t) + ψY (t).

Finalmente KX+Y = ψ(j)X+Y (0) = ψ

(j)X (0) + ψ

(j)Y (0) = Kj(X) +Kj(Y ).

Los momentos superiores son importantes para conocer mejor a las variables aleatorias. La des-viacion estandar no es suficiente pues no considera desviaciones positivas y negativas con respectoa E[X] debido a que las diferencias se elevan al cuadrado. Por esta razon, podrıamos conside-rar el estadıstico E[(X − E[X])3] que sı respeta la posicion izquierda o derecha en el que apare-ce el valor de X con respecto a E[X] aunque este no es invariante bajo cambios de escala puesE[(kX −E(kX))3] = k3E[(X −E(X))3] 6= E[(X −E(X))3] a menos que k = 1. Por este motivo esimportante considerar el sesgo de una variaable aleatoria.

Definicion 3.1.7. El sesgo de la variable aleatoria X es γX = E

X − E(X)

σX

3

.

Cuando E[(X − E(X))3] < 0 decimos que la distribucion esta cargada a la derecha y que tienecola izquierda; cuando E[(X −E(X))3] > 0 decimos que la distribucion esta cargada a la izquierday que tiene cola derecha.

γ < 0 γ = 0 γ > 0

Figura 3.1: Sesgo de distribuciones

3.1. FUNCION GENERADORA DE CUMULANTES 41

Definicion 3.1.8. Una variable aleatoria X es simetrica respecto a un punto c si para toda x sesatisface

P (X ≤ c− x) = P (X ≥ c+ x).

Cuando una variable aleatoria es simetrica con respecto a su media, el sesgo es cero.

Es importante mencionar que existen variables aleatorias que tienen igual media, desviacionestandar y sesgo; sin embargo sus valores y probabilidades son diferentes. Veamos un ejemplo.

Ejemplo 3.1.9. Consideremos las variables aleatorias Z ∼ U(−1, 1) y Y con la siguiente funcionde densidad

f(y) =

(y+√

22 , −

√2 < y < 0

√2−y2 , 0 < y <

√2

Demuestra que la media, desviacion estandar y sesgo de ambas variables son iguales.

Solucion: No es difıcil demostrar que

E[Z] = E[Y ] = 0, V ar(Z) = V ar(Y ) = 13 y γZ = γY = 0.

Por lo tanto necesitamos establecer una nueva medida para poder distinguir a las variablesaleatorias.

Definicion 3.1.10. La kurtosis de una variable aleatoria es τ = E

X − E(X)

σX

4

.

La kurtosis mide que tan alta se encuentra la curva de la funcion de densidad.

Distribucion Platokurtica Distribucion Mesokurtica Distribucion Leptokurtica

Figura 3.2: Kurtosis de distribuciones

Una variable aleatoria normal tiene coeficiente de kurtosis igual a 3. Si la kurtosis es mayor a 3, sedice que la variable aleatoria es Leptokurtica y su distribucion es “picuda” y con colas “pesadas”. Sila kurtosis es menor a 3, se dice que la variable aleatoria es Platokurtica y su distribucion es menos“picuda” y con colas “delgadas”; en ocasiones de dice que tiene “hombros”. Cuando la kurtosis es3, se dice que es Mesokurtica.

Observacion 3.1.11. En ocasiones el coeficiente de Kurtosis de define como

τ = E

X − E(X)

σX

4− 3

para que las comparaciones se realicen con respecto al cero.

Proposicion 3.1.12. Las caracterısticas “convencionales”de una variable aleatoria X estan dadasen terminos de cumulantes:

1. Media: E[X] = K1(X)

2. Varianza: V ar(X) = K2(X)

3. Sesgo: γ =K3(X)

σ3

4. Kurtosis: τ =K4(X)

σ4

42 CAPITULO 3. OTRAS FUNCIONES GENERADORAS

3.2. Funcion Generadora de Probabilidades

La funcion generadora de probabilidades, como su nombre lo indica, genera las probabilidadesasociadas a una variable aleatoria. Nosotros solo consideraremos la funcion generadora de probabi-lidades para variables aleatorias discretas no negativas.

Definicion 3.2.1. Sea X una variable aleatoria no negativa. La funcion generadora de probabili-dades PX(t) es

PX(t) = E[tX ], para t > 0.

La forma explıcita de la funcion generadora de probabilidades para las variables aleatorias enterasno negativas es

PX(t) = p0 + p1t+ p2t2 + p3t

3 + · · · , (3.1)

donde pi = P (X = i), para i = 0, 1, 2... .

Ejemplo 3.2.2. Hallar la funcion generadora de probabilidades de la variable aleatoria X que sedistribuye Bernoulli(1/4).

Solucion: Sabemos que P (X = 1) = 1/4 y que P (X = 0) = 3/4. Luego

PX(t) = E[tX ]

= t1P (X = 1) + t0P (X = 0)

=1

4t+

3

4.

Al igual que la funcion generadora de momentos, la funcion generadora de probabilidades esta de-

finida para algunos valores t. En particular, la funcion generadora de probabilidades existe para|t| < 1 pues

PX(t) =∞Xi=0

tiP (X = i)

≤∞Xi=0

ti

=1

1− t.

La funcion generadora de proabilidades tambien determina de manera unica la distribucion dela variable aleatoria.

Teorema 3.2.3. Sean X y Y dos variables aleatorias no negativas discretas. Si PX(t) = PY (t)entonces X y Y tienen la misma distribucion.

Demostracion: Se deja como ejercicio.

Proposicion 3.2.4. Sean X una variable aleatoria discreta no negativa y PX(t) su funcion gene-radora de probabilidades. Entonces para k = 1, 2, ... se cumple que

P(k)X (t) =

∞Xi=k

i(i− 1) · · · (i− k + 1)ti−kP (X = i).

3.2. FUNCION GENERADORA DE PROBABILIDADES 43

Demostracion: Procedamos a realizar la prueba por induccion. Para k = 1 tenemos que

P(1)X (t) = P ′X(t)

=d

dt

∞Xi=0

tiP (X = i)

=d

dt

"P (X = 0) +

∞Xi=1

tiP (X = i)

#=

∞Xi=1

d

dttiP (X = i)

=∞Xi=1

iti−1P (X = i),

es decir, se cumple. Ahora supongamos que

P(k)X (t) =

∞Xi=k

i(i− 1) · · · (i− k + 1)ti−kP (X = i),

luego

P(k+1)X (t) =

d

dtP

(k)X (t)

=d

dt

∞Xi=k

i(i− 1) · · · (i− k + 1)ti−kP (X = i)

=d

dt

"P (X = k) +

∞Xi=k+1

i(i− 1) · · · (i− k + 1)ti−kP (X = i)

#=

∞Xi=k+1

d

dti(i− 1) · · · (i− k + 1)ti−kP (X = i)

=∞X

i=k+1

i(i− 1) · · · (i− k + 1)(i− k)ti−k−1P (X = i)

=∞X

i=k+1

i(i− 1) · · · (i− k + 1)(i− (k + 1)− 1)ti−(k+1)P (X = i)

Observacion 3.2.5. De la definicion de funcion generadora de probabilidades y de la proposicion3.2.4 tenemos que:

1. PX(1) =∞Xi=0

1iP (X = i) =∞Xi=0

P (X = i) = 1.

2. P(k)X (0) =

∞Xi=k

i(i− 1) · · · (i− k + 1)0i−kP (X = i) = k!P (X = k).

3. P (X = k) =P

(k)X (0)

k!: esta es la razon, por la cual se conoce como funcion generadora de

probabilidades.

La funcion generadora de probabilidades se puede obtener mediante la funcion generadora demomentos como lo indica la siguiente proposicion.

44 CAPITULO 3. OTRAS FUNCIONES GENERADORAS

Proposicion 3.2.6. Sean X una variable aleatoria discreta no negativa, MX(t) y PX(t) sus fun-ciones generadoras de momentos y probabilidades, respectivamente. Entonces para t > 0 se cumpleque

PX(t) = MX(ln(t)).

Demostracion: Tenemos que

PX(t) = E[tX ]

= E[eln(tX)]

= E[eX ln t]

= MX(ln(t)).

Definicion 3.2.7. Sea X una variable aleatoria discreta no negativa. El momento factorial de ordenk de la variable X es

E[X(X − 1) · · · (X − k + 1)].

Proposicion 3.2.8. Sea X una variable aleatoria X no negativa tal que E[|X|k] < ∞ para algunk = 1, 2, .... Entonces el momento factorial de orden k se puede calcular mediante la expresion

dkPX(t)

dtk

t=1

.

Proposicion 3.2.9. Sean X1, ..., Xn variables aleatorias discretas, no negativas e independientescon funciones generadoras de probabilidades PXi(t) para i = 1, ..., n. Entonces la variable aleatoriaSn = X1 + · · ·+Xn tiene como funcion de generadora de probabilidades a

PSn(t) =nYi=1

PXi(t).

Demostracion: Tenemos que

PSn(t) = E[tSn ]

= E[tX1+···+Xn ]

= E[tX1 · · · tXn ]

= E[tX1 ] · · ·E[tXn ]

= PX1(t) · · ·PXn(t)

=nYi=1

PXi(t).

Corolario 3.2.10. Sean X1, ..., Xn variables aleatorias discretas, no negativas, independientes eidenticamente distribuidas con funcion generadora de probabilidades PX(t). Entonces la variablealeatoria Sn = X1 + · · ·+Xn tiene como funcion de generadora de probabilidades a

PSn(t) = (PX(t))n.

Demostracion: Por la proposicion 3.2.9 tenemos que

PSn(t) =nYi=1

PXi(t) = (PX(t))n.

3.3. FUNCION CARACTERISTICA 45

Ejemplo 3.2.11. Determina la funcion generadora de probabilidades de una variable aleatoriaX ∼ Bin(3, 1/4).

Solucion: Sabemos que una variable aleatoria se puede ver como suma de variables aleatoriasBernoulli independientes. Por el ejemplo 3.2.2, sabemos que la funcion generadora de probabilidadesde una variable aleatoria Bernoulli(1/4) es 1

4 t+ 34 . Finalmente por el corolario 3.2.10 tenemos que

PX(t) =

14 t+ 3

4

3.

3.3. Funcion Caracterıstica

Antes de definir la funcion caracterıstica es importante recordar la identidad

eit = cos(t) + isen(t)

que estaremos usando constantemente.

Definicion 3.3.1. Sea X una variable aleatoria. La funcion caracterıstica de X es

ϕX(t) = E[eitX ] = E[cos(tX) + isen(tX)].

Notemos que la funcion caracterıstica es una funcion compleja. Ademas

|ϕX(t)| = |E[eitX ]| ≤ E[|eitX |] = E[1] = 1 (3.2)

por lo que la funcion caracterıstica siempre existe para cualquier variable aleatoria y cualquier valort. Esta es una gran ventaja con respecto a la funcion generadora de momentos y la funcion generadorade probabilidades.

Ejemplo 3.3.2. Halla la funcion caracterıstica de la variable aleatoriaX que se distribuyeBernoulli(p).

Solucion: Por definicion tenemos que:

ϕX(t) = E[eitX ]

= eit0P (X = 0) + eitP (X = 1)

= [cos(0) + isen(0)]P (X = 0) + [cos(t) + isen(t)]P (X = 1)

= (1− p) + [cos(t) + isen(t)]p

= (1− p) + eitp

Ejemplo 3.3.3. Halla la funcion caracterıstica de la variable aleatoria X ∼ U(a, b).

46 CAPITULO 3. OTRAS FUNCIONES GENERADORAS

Solucion: Por definicion tenemos que:

ϕX(t) = E[eitX ]

=

Z b

aeitx

1

b− adx

=1

b− a

Z b

a(costx) + isentx)dx

=1

b− a

1

tsentx− 1

ticostx

ba

=1

b− a1

t(senbt− senat− icosbt+ icosat)

=1

it(b− a)(isenbt− isenat+ cosbt− cosat)

=eitb − eita

it(b− a)

Observamos en los ejemplos anteriores, que la funcion caracterıstica coincide con la funcion

generadora de momentos con la unica diferencia que reemplazamos t por it, es decir, ϕX(t) = MX(it).De hecho, en los casos discretos, los calculos son totalmente analogos a los que se hacen para lafuncion generadora de momentos. El teorema del binomio, convergencia de las series geometricasy la expansion en serie de Taylor de la funcion exponencial permanecen sin cambios en el casocomplejo.

Por otro lado, en los casos continuos, la complicacion que se tiene es que no podemos integrarfacilmente como siempre. Sin embargo, observamos que la derivada de eix es ieix, lo que justifica laintegracion y por lo tanto, los calculos son “los mismos” que para la funcion generadora de momentos.Veamos un ejemplo de estas complicaciones.

Ejemplo 3.3.4. Hallar la funcion caracterıstica de una variable aleatoria X que se distribuyeexponencial con media λ.

Solucion: De nuevo, por definicion tenemos que

ϕX(t) =

Z ∞0

eitx1

λe−

xλ dx

=1

λ

Z ∞0

e−x( 1λ−it)dx

=1

λ

11λ − it

=1

1− λit

Para ver otros ejemplos de estas complicaciones, invitamos al estudiante a resolver el ejercicio 27d) y e) de este capıtulo.

La relacion ϕX(t) = MX(it) no es cierta de manera general. Recordemos que la variable aleatoriaCauchy no tiene funcion generadora de momentos pero sı tiene funcion caracterıstica (ver ejemplo3.3.15 y el ejercicio 33).

Al igual que la funcion generadora de momentos y la funcion generadora de probabilidades, lafuncion caracterıstica determina de manera unica la distribucion de una variable aleatoria.

Teorema 3.3.5. Sean X y Y dos variable aleatorias. Si ϕX(t) = ϕY (t), entonces X y Y tienen lamisma distribucion.

3.3. FUNCION CARACTERISTICA 47

Conozcamos algunas propiedades de la funcion caracterıstica:

Proposicion 3.3.6. Sea X una variable aleatoria. Entonces

1. |ϕX(t)| ≤ ϕX(0) = 1

2. ϕX(t) = ϕX(−t).

3. ϕ(k)X (0) = ikE[Xk] para k = 1, ..., n si E[|X|n] <∞ para algun n ∈ N.

Demostracion:

1. ϕX(0) = E[ei0X ] = E[1] = 1, por la ecuacion (3.2) obtenemos el resultado.

2. ϕX(t) = E[eitX ] = E[cos(tX) + isen(tX)] = E[cos(tX) + isen(tX)] = E[cos(tX)−isen(tX)] =E[cos(−tX) + isen(−tX)] = ϕX(−t).

3. Se deja como ejercicio.

Otro resultado util es determinar la funcion caracterıstica de una transformacion lineal de unavariable aleatoria.

Proposicion 3.3.7. Sea X una variable aleatoria y a, b ∈ R. Entonces

ϕaX+b(t) = eibtϕX(at).

Demostracion: ϕaX+b(t) = E[eit(aX+b)] = eitbE[ei(at)X ] = eitbϕX(at).

Tambien se tienen resultados analogos a los de la funcion generadora de momentos y funciongeneradora de probabilidades para la suma de variables aleatorias.

Proposicion 3.3.8. Sean X1, ..., Xn variables aleatorias independientes y Sn = X1 + · · · + Xn,entonces la funcion caracterıstica de Sn es

ϕSn(t) =nYi=1

ϕXi(t).

Demostracion: Tenemos que

ϕSn(t) = E[eitSn ]

= E[eit(X1+···+Xn)]

= E[eitX1 · · · eitXn ]

= E[eitX1 ] · · ·E[eitXn ]

= ϕXi(t) · · ·ϕXn(t)

=nYi=1

ϕXi(t).

Corolario 3.3.9. Si X1, ..., Xn son variables aleatorias independientes e identicamente distribuidascon funcion caracterıstica ϕX(t), entonces

ϕSn(t) = (ϕX(t))n.

Demostracion: Por la proposicion 3.3.8 tenemos que

48 CAPITULO 3. OTRAS FUNCIONES GENERADORAS

ϕSn(t) =nYi=1

ϕXi(t) =nYi=1

ϕX(t) = (ϕX(t))n.

Ejemplo 3.3.10. Halla la funcion caracterıstica de la variable aleatoria X ∼ Bin(n, p).

Solucion: Por el ejemplo 3.3.2 sabemos que la funcion caracterıstica de una variable aleatoriaBernoulli(p) es (1 − p) + eitp. Como la variable aleatoria binomial es suma de variables aleatoriasBernoulli, el corolario 3.3.9 nos dice que

ϕX(t) = [(1− p) + eitp]n.

Otra pregunta que nos podemos hacer es ¿cuales variables aleatorias tienen funcion caracterısticareal? El siguiente teorema responde a la pregunta.

Teorema 3.3.11. Sea X una variable aleatoria. ϕX(t) es real si y solo si las variables X y −Xtienen la misma distribucion, es decir, la variable aleatoria X es simetrica con respecto al 0.

Demostracion: Notemos que las proposiciones 3.3.6.b) y 3.3.7 para a = −1 y b = 0 implican que

ϕ−X(t) = ϕX(−t) = ϕX(t). (3.3)

(⇒) Supongamos que ϕX(t) es real valuada, es decir, ϕX(t) = ϕX(t). Luego la ecuacion 3.3 diceque ϕ−X(t) = ϕX(t). Por lo tanto, el teorema 3.3.5 afirma que X y −X tienen la misma distribucion.

(⇐) Supongamos que X y −X tienen la misma distribucion, luego ϕX(t) = ϕ−X(t). Por lo quela ecuacion 3.3 nos dice que ϕX(t) = ϕX(t), es decir, que ϕX(t) es real valuada.

3.3.1. Formulas de inversion

Enunciaremos las formulas de inversion sin realizar las pruebas.

Teorema 3.3.12. Sea X una variable aleatoria con funcion de distribucion F (x) y funcion carac-terıstica ϕX(t). Si F es continua en a y b, entonces

F (b)− F (a) =1

Z ∞−∞

e−itb − e−ita

−itϕX(t)dt. (3.4)

Notemos que el teorema 3.3.5 es un corolario del teorema 3.3.12, debido a que el segundo pro-porciona una formula para el calculo explıcito de la funcion de distrbucion en terminos de la funcioncaracterıstica.

Teorema 3.3.13. Sea X una variable aleatoria con funcion de distribucion F (x) y funcion carac-terıstica ϕX(t) tal que

R∞−∞ |ϕX(t)|dt < ∞. Entonces X es una variable continua y su densidad

es

f(x) =1

Z ∞−∞

e−itxϕX(t)dt. (3.5)

Teorema 3.3.14. Si la distrbucion de X es discreta, entonces

P (X = x) = lımT→∞

1

2T

Z T

−Te−itxϕX(t)dt. (3.6)

Una aplicacion de los teoremas de inversion es el calculo de la funcion caracterıstica de unavariable aleatoria que se distribuye Cauchy(0, 1).

3.3. FUNCION CARACTERISTICA 49

Ejemplo 3.3.15. Demuestra que la funcion caracterıstica la variable aleatoria Cauchy(0, 1) esϕX(t) = e−|t|.

Solucion: Sabemos que si Y1 y Y2 son variables aleatorias independientes que se distribuyen expo-nencialmente con media 1, entonces Y = Y1−Y2 se distribuye doble exponencial(0, 1). Por el ejemplo3.3.4 sabemos que ϕY1

(t) = ϕY2(t) = 1

1−it . Ademas, por las proposiciones 3.3.8 y 3.3.7 para a = −1y b = 0 tenemos que

ϕY (t) = ϕY1−Y2(t)

= ϕY1+(−Y2)(t)

= ϕY1(t)ϕ−Y2

(t)

= ϕY1(t)ϕY2

(−t)

=1

1− it1

1 + it

=1

1 + t2.

Como fY (y) = 12e−|y|, por definicion de funcion caracterıstica y el resultado previo tenemos que

1

1 + t2=

Z ∞−∞

eity1

2e−|y|dy.

Nombrando a la variable y por t y a la variable t por x, la ecuacion anterior se convierte en

1

1 + x2=

Z ∞−∞

eitx1

2e−|t|dt

y por simetrıa,

1

1 + x2=

Z ∞−∞

e−itx1

2e−|t|dt

multiplicando por1

πa la ecuacion anterior obtenemos que

1

π

1

1 + x2=

1

Z ∞−∞

e−itxe−|t|dt.

Finalmente, haciendo una comparacion con el teorema 3.3.13, concluimos que ϕX(t) = e−|t|.

3.3.2. Teorema de Continuidad

Otro hecho importante es que la funcion caracterıstica siempre es continua. Para demostrarlo,primero daremos la definicion de que es una funcion uniformemente continua, luego probaremosque la funcion caracterıstica es uniformemente continua y ası, poder concluir, de nuestros cursos decalculo, que la funcion caracterıstica es continua.

Definicion 3.3.16. Una funcion f : R→ R es uniformemente continua si para cualesquiera t1, t2 ∈R y cualquiera ε > 0, existe una δ > 0 tal que si |t1 − t2| < δ entonces |f(t1)− f(t2)| < ε.

Notemos que la definicion anterior fue dada para funciones real valuadas. En nuestro caso, lafuncion caracterıstica es compleja valuada. El unico cambio que se hace a la definicion anterior, esque se considera la norma en vez del valor absoluto.

Lema 3.3.17. Sea X una variable aleatoria. Entonces ϕX(t) es uniformemente continua.

50 CAPITULO 3. OTRAS FUNCIONES GENERADORAS

Demostracion: Demostraremos el lema para el caso continuo pues el caso discreto es analogo.Notemos que |eix − 1| ≤ 2, inclusive |eix − 1| ≤ |x|.

Sean t, t′ ∈ R y ε > 0. Sin perdida de generalidad, podemos suponer que t′ = t+ h para alguna

h > 0. Seleccionemos un valor a > 0 tal que P (|X| ≥ a) <ε

4y δ <

ε

2a. Entonces

|ϕX(t+ h)− ϕX(t)| = |E[ei(t+h)X ]− E[eitX ]|= |E[ei(t+h)X − eitX ]|= |E[eitX(eihX − 1)]|≤ E[|eitX(eihX − 1)|]= E[|eitX ||(eihX − 1)|]≤ E[|(eihX − 1)|]

=

Z −a−∞|eihx − 1|fX(x)dx+

Z a

−a|eihx − 1|fX(x)dx+

Z ∞a|eihx − 1|fX(x)dx

≤Z −a−∞

2fX(x)dx+

Z a

−a|hx|fX(x)dx+

Z ∞a

2fX(x)dx

≤ 2P (X ≤ −a) +

Z a

−ahafX(x) + 2P (X ≥ a)

= 2P (|X| ≥ a) + haP (|X| < a)

≤ 2P (|X| ≥ a) + ha

< 2ε

4+ a

ε

2a= ε.

Corolario 3.3.18. La funcion caracterıstica de una variable aleatoria es continua.

Demostracion: Se sigue del hecho de que las funciones uniformemente continuas son continuas.

Antes de finalizar, haremos una observacion que sera util en nuestro curso de teorıa de riesgo,cuando a partir de la funcion caracterıstica tengamos que encontrar la funcion de densidad o lafuncion de masa de probabilidad.

Observacion 3.3.19. Salvo un signo menos en el exponente y en ocasiones, de un factor 1√2π

, la

funcion caracterıstica coincide con la transformada de Fourier en el caso continuo y con la serie deFourier en el caso discreto.

3.4. Ejercicios

1. Proporcione todos los detalles del ejemplo 3.1.3.

2. Complete la demostracion de la proposicion 3.1.5.

3. Compruebe los resultados del ejemplo 3.1.9.

4. Demuestre la proposicion 3.1.12.

5. Sea X una variable aleatoria continua simetrica alrededor de c. Demuestre que para toda x secumple:

a) f(c− x) = f(c+ x).

b) f(−x) = f(x) si c = 0.

6. Demuestre que una transformacion lineal aX+b, con a > 0, no cambia el sesgo de una variablealeatoria X. ¿Que sucede si a es negativa?

3.4. EJERCICIOS 51

7. Pruebe que la suma de doce variables aleatorias independientes uniformes en (0, 1) tiene media6 y varianza 1. Determine K3 y K4.

8. Determine el sesgo de una variable aleatoria gamma de parametros (α, β)

9. Demuestre que una variable aleatoria X es simetrica con respecto a c si y solo si X − c essimetrica con respecto a 0.

10. Si X ∼ N(µ, σ2), demuestre que X es simetrica con respecto a su media.

11. Demuestre que toda variable aleatoria simetrica con respecto a su media tiene sesgo cero.

12. Sea S = X1 + X2 + X3, donde X1, X2, X3 son variables aleatorias independientes, y X1 ∼Ber(0.4), X2 ∼ Ber(0.7), X3 ∼ Ber(p). Calcule el valor de p tal que S tiene sesgo γS = 0.Verfique que S no es simetrica alrededor de µ = E[S].

13. Demuestre que una transformacion lineal aX + b, con a 6= 0, no cambia la kurtosis de unavariable aleatoria X.

14. Sean X1, ..., Xn variables aleatorias independientes. Demuestre que

Kj(X1 + · · ·+Xn) = Kj(X1) + · · ·+Kj(Xn).

15. Desarrollaremos dos formulas para calcular el sesgo de una variable aleatoria:

a) Sea mk(t) =M

(k)X (t)

MX(t). Demuestra que m′k(t) = mk+1(t)−mk(t)m1(t)

b) Demuestra que:

• ψ′X(t) = m1(t)

• ψ′′X(t) = m2(t)−m1(t)2

• ψ(3)X (t) = m3(t)− 3m2(t)m1(t) + 2m1(t)3

• ψ(4)X (t) = m4(t)− 4m3(t)m1(t)− 3m2(t)2 + 12m2(t)m1(t)2 − 6m1(t)4

c) Concluye que

• ψ′X(0) = µX

• ψ′′X(0) = E[(X − µX)2]

• ψ(3)X (0) = E[(X − µX)3]

• ψ(4)X (0) 6= E[(X − µX)4]

d) Demuestra que γX =E[X3]− 3E[X2]E[X] + 2E[X]3

σ3X

(3)X (0)

(ψ(2)X (0))3/2

16. Determine la media, la varianza y el sesgo de las variables aleatorias cuyas funciones genera-doras de momentos se expresan a continuacion:

a) MX(t) =1

1− t

b) MX(t) =1

2et +

1

2e−2t

c) MX(t) =

3

4et +

1

4

3

d) MX(t) = et2

2

e) MX(t) = exp(et − 1)

52 CAPITULO 3. OTRAS FUNCIONES GENERADORAS

17. Sean X y Y variables aleatorias independientes con sesgos γX y γY , y kurtosis τX y τY ,respectivamente.

a) Demuestre que γX+Y =σ3XγX + σ3

Y γYσ3X+Y

.

b) Demuestre que τX+Y =σ4XτX + σ4

Y τYσ4X+Y

.

c) Encuentre una formula general para el sesgo de una suma de n variables aleatorias inde-pendientes.

d) Encuentre una formula general para la kurtosis de una suma de n variables aleatoriasindependientes.

18. De una formula para el sesgo y kurtosis de una suma de n variables aleatorias independientese identicamente distribuidas. ¿Que sucede con estas cantidades conforme n→∞?

19. Determina la media, la varianza y el sesgo de una variable aleatoria con distribucion Poisson(λ)utilizando la funcion generadora de cumulantes.

20. Sea X una variable aleatoria discreta con recorrido no negativo. Demuestra que |PX(t)| ≤ 1.

21. Halla la funcion generadora de probabilidades para la variable aleatoria X si:

a) se distribuye Poisson(λ)

b) se distribuye Geometrica(p)

22. Demuestra el teorema 3.2.3.

23. Sea X una variable aleatoria con valores en los enteros no negativos y funcion generadora deprobabilidades dada por:

gX(t) = ln

1

1− qt

.

Determine P (X = k), para k = 0, 1, 2, . . ., E[X] y Var(X).

24. Demuestra la proposicion 3.2.8.

25. Sea X una variable aleatoria entera no negativa. Si PX(t) es la funcion generadora de proba-bilidades, demuestra que:

a) Si E[|X|] <∞ entonces E[X] = P ′X(1).

b) Si E[X2] <∞ entonces V ar[X] = P ′′X(1) + P ′X(1)− (P ′X(1))2.

26. Sean X1, X2, ..., Xn variables independientes e identicamente distribuidas. Halla la funciongeneradora de probabilidades de X1 + · · ·+Xn si:

a) Xi ∼ Poisson(λ)

b) Xi ∼ Geometrica(p)

27. Halla la funcion caracterıstica de la variable aleatoria X si se distribuye:

a) Geometrica(p)

b) Poisson(λ)

c) exponencial con media λ

d) Gamma(α, β)

e) N(0, 1).

3.4. EJERCICIOS 53

28. Utiliza el ejercicio 27 y la proposicion 3.3.7 para demostrar que la funcion caracterıstica deX ∼ N(µ, σ2) es ϕX(t) = eitµ−

12σ

2t2 .

29. Si Xi ∼ N(µi, σ2i ) son independientes, halla la funcion caracterıstica de X1 + · · · + Xn e

identifica la distribucion.

30. Demuestre el inciso c) de la proposicion 3.3.6.

31. Utiliza la funcion caracterıstica para encontrar la media y la varianza de la variable aleatoriaX si se distribuye:

a) Geometrica(p)

b) Poisson(λ)

c) exponencial con media λ

d) Gamma(α, β)

e) Uniforme(−1, 1)

f ) N(0, 1)

32. Si Y1 y Y2 son variables aleatorias independientes que se distribuyen exponencialmente conmedia 1, demuestra que Y = Y1 − Y2 se distribuye doble exponencial(0, 1). Este resultado seutilizo en el ejemplo 3.3.15.

33. Utiliza el ejemplo 3.3.15 y la proposicion 3.3.7 para demostrar que la funcion caracterıstica dela variable aleatoria Cauchy(a, b) es ϕX(t) = eita−b|t|.

34. Si X y Y son variables aleatorias independientes e identicamente distribuidas, demuestra queX − Y tiene una distribucion simetrica.

35. Demuestra que no existen variables aleatorias independientes e identicamente distribuidas Xy Y tales que X − Y ∼ U(−1, 1).

54 CAPITULO 3. OTRAS FUNCIONES GENERADORAS

Capıtulo 4

Funciones generadoras demomentos para variables aleatoriasn dimensionales

4.1. Conceptos basicos y resultados principales

De la misma manera como calculamos la funcion generadora de momentos de una variable alea-toria, podemos calcular la funcion generadora de momentos para variables aleatorias conjuntamentedistribuidas.

Definicion 4.1.1. La funcion generadora de momentos del vector aleatorio (X1, ..., Xn) es

mX1,...,Xn(t1, ..., tn) = E

"exp

(nXi=1

tiXi

)#para todos los valores t1, ..., tn donde la esperanza exista.

El siguiente resultado es muy importante aunque no haremos la prueba pues se necesita dematerial que no es cubierto en este curso.

Teorema 4.1.2. La funcion generadora de momentos conjunta mX1,...,Xn(t1, ..., tn) de las variablesX1, ..., Xn determina de manera unica la distribucion conjunta de las variables X1, ..., Xn.

Proposicion 4.1.3. Sean X1, ..., Xn variables aleatorias con funciones generadoras de momentosmX1

(t1), ...,mXn(tn), respectivamente. Entonces X1, ..., Xn son independientes si y solo si

mX1,...,Xn(t1, ..., tn) = mX1(t1) · · ·mXn(tn)

para los valores de t1, ..., tn donde existen las generadoras de momentos.

Demostracion: (⇒) Por definicion sabemos que

mX1,...,Xn(t1, ..., tn) = E

"exp

(nXi=1

tiXi

)#= E[expt1X1 · · · exptnXn]= E[expt1X1] · · ·E[exptnXn]= mX1(t1) · · ·mXn(tn).

(⇐) Se sigue directamente del teorema 4.1.2.

55

56 CAPITULO 4. FUNCIONES GENERADORAS DE MOMENTOS

Corolario 4.1.4. Sean X1, ..., Xn variables aleatorias independientes identicamente distribuidascon funcion generadora de momentos comun mX(t), entonces la funcion generadora de momentosconjunta es

mX1,...,Xn(t, ..., t) = (mX(t))n.

Demostracion: Por la proposicion 4.1.3 tenemos que

mX1,...,Xn(t, ..., t) = mX1(t) · · ·mXn(t) = (mX(t))n.

Ejemplo 4.1.5. Sean X,Y variables aleatorias independientes con distribucion N(0, 1). Determinala funcion generadora de momentos conjunta.

Solucion: Por el corolario 4.1.4 tenemos que

mX,Y (t1, t2) = mX(t1)mY (t2)

= exp

§1

2t1

2

ªexp

§1

2t2

2

ª= exp

§1

2(t21 + t22)

ª.

La funcion generadora de momentos conjunta de variables aleatorias sirve para generar los mo-mentos conjuntos que definimos a continuacion.

Definicion 4.1.6. Sean X1, X2, ..., Xn variables aleatorias conjuntamente distribuidas. Los momen-tos conjuntos son

E[Xr11 Xr2

2 · · ·Xrnn ]

donde las ri son cero o un entero positivo.

Definicion 4.1.7. Sean X1, X2, ..., Xn variables aleatorias conjuntamente distribuidas con mediasµ1, µ2, ..., µn respectivamente. Los momentos conjuntos alrededor de la media son

E[(X1 − µ1)r1(X2 − µ2)r2 · · · (Xn − µn)rn ]

donde los valores ri son cero o enteros positivos.

4.2. Momentos marginales

Definicion 4.2.1. Sean X1, ..., Xn variable aleatorias conjuntamente distribuidas. Los momentosmarginales son los valores E[Xr1

i1· · ·Xrm

im] donde las ri son cero o enteros positivos.

Si tenemos X1, ..., Xn variables aleatorias conjuntamente distribuidas, podemos obtener el r−esi-mo momento de la variable Xj a traves de mX1,...,Xn(t1, ..., tn) diferenciado r−veces con respecto atj y tomando el lımite cuando todas las ti tienden a cero, es decir,

E[Xrj ] =

∂rmX1,...,Xn

∂trj(0, ..., 0).

De la misma manera, podemos obtener E[XriX

sj ] a partir de mX1,...,Xn(t1, ..., tn) diferenciando

r veces con respecto a ti y s veces con respecto a tj y luego calculando el lımite cuando todas las titienden a cero, es decir

E[XriX

sj ] =

∂s+rmX1,...,Xn

∂tsj∂tri

(0, ..., 0) =∂r+smX1,...,Xn

∂tri ∂tsj

(0, ..., 0).

4.3. CASO DE LA DISTRIBUCION NORMAL BIVARIADA 57

Podemos generalizar los resultados anteriores para obtener cualesquiera de los momentos margi-nales.

Ejemplo 4.2.2. Sean X,Y variables aleatorias normales independientes con media cero y varianzauno. Determina:

1. E[XY ]

2. E[X]

3. E[X2]

4. E[X2Y 2].

Solucion: Por el ejemplo 4.1.5 sabemos que mX,Y (t1, t2) = exp

§1

2(t21 + t22)

ª. Ahora aplicaremos

los resultados obtenidos en esa seccion:

1.∂2mX,Y

∂t1∂t2(t1, t2) = t1t2 exp

§1

2(t21 + t22)

ª. Luego E[XY ] =

∂2mX,Y

∂t1∂t2(0, 0) = 0.

2.∂mX,Y

∂t1(t1, t2) = t1 exp

§1

2(t21 + t22)

ª. Luego E[X] =

∂mX,Y

∂t1(0, 0) = 0.

3.∂2mX,Y

∂t21(t1, t2) = (t21 + 1) exp

§1

2(t21 + t22)

ª. Luego E[X2] =

∂2mX,Y

∂t21(0, 0) = 1.

4.∂4mX,Y

∂t21∂t22

(t1, t2) = (t21 + 1)(t22 + 1) exp

§1

2(t21 + t22)

ª. Luego E[X2Y 2] =

∂4mX,Y

∂t21∂t22

(0, 0) = 1.

Todos los resultados anteriores coinciden con los valores que conocemos utilizando las propiedadesde independencia de dichas variables.

Observacion 4.2.3. A partir de la funcion generadora de momentos conjunta no solo podemosobtener los momentos marginales, sino tambien la funcion generadora de momentos de cada variablemediante la relacion

MXi(t) = E[etXi ] = M(0, ..., t, ..., 0).

4.3. Caso de la distribucion normal bivariada

Definicion 4.3.1. Un vector aleatorio (X,Y ) es normal bivariada si su funcion de densidad esta dadapor

f(x, y) =1

2πσxσyp

1− ρ2exp

¨− 1

2(1− ρ2)

x− µxσx

2

− 2ρ(x− µx)(y − µy)

σxσy+

y − µxσy

para (x, y) ∈ R2, µx, µy, σx, σy, ρ constantes finitas, tales que −1 < ρ < 1 y σx, σy > 0.

Teorema 4.3.2. La funcion generadora de momentos de la variable aleatoria normal bivariada(X,Y ) esta dada por

m(t1, t2) = exp

§t1µx + t2µy +

1

2(t21σ

2x + 2ρt1t2σxσy + t22σ

2y)

ª.

Demostracion: Por definicion tenemos que

mX,Y (t1, t2) =

Z ∞−∞

Z ∞−∞

et1x+t2y1

2πσxσyp

1− ρ2e

¦− 1

2(1−ρ2)

( x−µxσx

)2−2ρ

(x−µx)(y−µy)

σxσy+

y−µxσy

2©dxdy.

Hagamos el cambio de variable

58 CAPITULO 4. FUNCIONES GENERADORAS DE MOMENTOS

u =x− µxσx

y v =y − µyσy

.

de donde

x = uσx + µx, y = vσy + µy y∂(x, y)

∂(u, v)=

σx 00 σy

= σxσy,

entonces la funcion generadora de momentos conjunta queda

m(t1, t2) = et1µx+t2µy

Z ∞−∞

Z ∞−∞

et1σxu+t2σyv1

2πσxσyp

1− ρ2e

¦− 1

2(1−ρ2)(u2−2ρuv+v2)

©σxσydudv

= et1µx+t2µy

Z ∞−∞

Z ∞−∞

1

2πp

1− ρ2e

¦− 1

2(1−ρ2)[u2−2ρuv+v2−2(1−ρ2)t1σxu−2(1−ρ2)t1σyv]

©dudv.

Por otro lado, es facil ver que

u2 − 2ρuv + v2 − 2(1− ρ2)t1σxu− 2(1− ρ2)t2σyv

= [u− ρv − (1− ρ2)t1σx]2 + (1− ρ2)(v − ρt1σx − t2σy)2 − (1− ρ2)(t21σ2x + 2ρt1t2σxσy + t22σ

2y).

Ası que la funcion generadora de momentos conjunta se convierte en

m(t1, t2) = et1µx+t2µy

Z ∞−∞

Z ∞−∞

1

2πp

1− ρ2exp

§− 1

2(1− ρ2)

[u− ρv − (1− ρ2)t1σx]2

+(1− ρ2)(v − ρt1σx − t2σy)2 − (1− ρ2)(t21σ2x + 2ρt1t2σxσy + t22σ

2y)©dudv.

Finalmente, hagamos un nuevo cambio de variable. Sean

w =u− ρv − (1− ρ2)t1σxp

1− ρ2y z = v − ρt1σx − t2σy,

entonces

v = z + ρt1σx + t2σy, u =p

1− ρ2w + ρ(z + ρt1σx + t2σy) + (1− ρ2)t1σx y

∂(u, v)

∂(w, z)=

p1− ρ2 ρ0 1

1− ρ2.

Como consecuencia

m(t1, t2) = et1µx+t2µy

Z ∞−∞

Z ∞−∞

1

2πp

1− ρ2e−

12 [w2+z2−(t21σ

2x+2ρt1t2σxσy+t22σ

2y)]È

1− ρ2dwdz.

= exp

§t1µx + t2µy +

1

2(t21σ

2x + 2ρt1t2σxσy + t22σ

2y)

ªZ ∞−∞

Z ∞−∞

1

2πe−

12 (w2+z2)dwdz.

Pero Z ∞−∞

Z ∞−∞

1

2πe−

12 (w2+z2)dwdz =

Z ∞−∞

1√2πe−

12 z

2Z ∞−∞

1√2πe−

12w

2

dw| z 1

dz

=

Z ∞−∞

1√2πe−

12 z

2

dz

= 1.

Por lo tanto,

m(t1, t2) = exp¦t1µx + t2µy + 1

2 (t21σ2x + 2ρt1t2σxσy + t22σ

2y)©

.

4.4. EJERCICIOS 59

4.4. Ejercicios

1. Supongase que la funcion de densidad conjunta de las variables X y Y esta dada por

f(x, y) =

¨c(x+ y2) 0 ≤ x ≤ 1, 0 ≤ y ≤ 1

0 otro caso

Determina:

a) La funcion generadora de momentos conjunta.

b) E[X2Y 2].

2. Sean X la proporcion de personas aseguradas que reclaman un siniestro y Y la proporcion desiniestros que proceden. Si la funcion de densidad conjunta de las variables X y Y esta dadapor

f(x, y) = 25 (2x+ 3y), 0 ≤ x ≤ 1, 0 ≤ y ≤ 1.

Determina:

a) La funcion generadora de momentos conjunta de las variables X y Y .

b) E[XY ]. ¿Que significa este valor?

3. La funcion de densidad conjunta de las variables X y Y esta dada por

f(x, y) = 1√2πe−ye−

12 (x−y)2 , 0 < y <∞,−∞ < x <∞.

Determina:

a) La funcion generadora de momentos conjunta de las variables X y Y .

b) Las funciones generadoras de momentos marginales.

4. Dos dados son lanzados. Sean X el numero obtenido en el primer dado y Y la suma de losnumeros obtenidos en los dos dados. Determina la funcion generadora de momentos conjuntade X y Y .

5. Sean X y Y variables aleatorias U(a, b) independientes. Determina:

a) la funcion generadora de momentos conjunta.

b) E[XY ].

6. Sean (X,Y ) un vector aleatorio normal bivariado. Determina:

a) E[X].

b) E[Y ].

c) V ar(X).

d) V ar(Y ).

e) E[XY ].

f ) E[X2Y ].

g) MX(t).

h) MY (t).

7. Sean X y Y variables aleatorias normales independientes con media µ y varianza σ2. Determinala funcion generadora de momentos conjunta de las variables X + Y y X − Y . Concluye quelas variables aleatorias X + Y y X − Y son independientes.

60 CAPITULO 4. FUNCIONES GENERADORAS DE MOMENTOS

8. Las reclamaciones en una aseguradora ocurren de acuerdo a un proceso Poisson(λ). Algunasreclamaciones no proceden, es decir, no son pagadas. Independientemente una de otra, lasreclamaciones son pagadas con probabilidad p. Demuestra que el numero de reclamacionesque son pagadas y el numero de reclamaciones que no son pagadas son variables aleatoriasindependientes con distribuciones Poisson de parametros λp y λ(1− p), respectivamente.

Capıtulo 5

Covarianza y correlacion

En este capıtulo estudiaremos la dependencia entre dos variables aleatorias X y Y conjuntamentedistribuidas como un proceso en el que una de las variables digamos X aumenta o disminuye cuandocambia Y .

5.1. Definicion de covarianza y correlacion

Definicion 5.1.1. Sean X y Y dos variables aleatorias conjuntamente distribuidas con medias µ1

y µ2, respectivamente. La covarianza de X y Y es

Cov(X,Y ) = E[(X − µ1)(Y − µ2)].

Observacion 5.1.2. Intuitivamente decimos que X y Y varıan en la misma direccion, si es altala probabilidad de que valores grandes de X esten asociados con valores grandes de Y y de quevalores pequenos de X esten asociados con valores pequenos de Y . En tales casos, ambos valoresde las desviaciones X −E[X] y Y −E[Y ] son positivos o negativos con probabilidad alta, entonces(X − E[X])(Y − E[Y ]) es predominantemente positivo de donde se obtendrıa que Cov(X,Y ) espositivo.

Analogamente, decimos que X y Y estan en direcciones opuestas, si valores positivos de X−E[X]van a estar asociados con valores negativos de Y −E[Y ] o viceversa. El producto (X−E[X])(Y −E[Y ])es entonces predominantemente negativo de donde Cov(X,Y ) es negativo.

Ademas, mientras mas grande sea el valor absoluto de Cov(X,Y ), mas grande es la dependencialineal entre las variables X y Y . No siempre existe Cov(X,Y ) pero se puede demostrar que siV ar(X) <∞ y V ar(Y ) <∞, entonces existe Cov(X,Y ).

Dependencia entre X y Y Poca o nula dependencia entre X y Y

Figura 5.1: Covarianza de X y Y

61

62 CAPITULO 5. COVARIANZA Y CORRELACION

A pesar de que la covarianza de dos variables es util para conocer la relacion lineal entre ellas,es un valor que depende de la escala de medidas. Se sigue de lo anterior que no es facil especificar aprimera vista si una covarianza es grande o no. Este problema se resuelve considerando la siguientemedida.

Definicion 5.1.3. Sean X y Y variables aleatorias conjuntamente distribuidas con varianzas σ2X y

σ2Y , respectivamente. El coeficiente de correlacion es

ρX,Y =Cov(X,Y )

σXσY.

El coeficiente de correlacion permite medir la asociacion de las variables X y Y . La diferenciaentre covarianza y correlacion es que Cov(X,Y ) depende de las unidades de medicion asociadascon X y Y , en tanto que la correlacion no depende de estas unidades de medicion. Es importanteobservar que Cov(X,Y ) y ρX,Y siempre tienen el mismo signo.

Definicion 5.1.4. Se dice que X y Y

1. estan correlacionados positivamente si ρX,Y > 0.

2. estan correlacionados negativamente si ρX,Y < 0.

3. no estan correlacionados si ρX,Y = 0.

El valor de ρX,Y proporciona una medida del grado en que las variables X y Y estan relacionadaslinealmente. Si la distribucion conjunta de X y Y en el plano XY esta relativamente concentradaalrededor de una recta que tiene pendiente positiva, entonces ρX,Y generalmente esta cerca de 1.Si esta concentrada alrededor de una recta con pendiente negativa, entonces ρX,Y generalmenteesta cerca de −1.

ρX,Y ≈ 1 ρX,Y ≈ −1

Figura 5.2: Correlacion

Cuando ρX,Y esta cercano a cero entonces los puntos pueden estar distribuidos como se muestraen la figura 5.3.

Finalmente si ρX,Y = 1 entonces existe una correlacion perfecta en la que todos los puntos estanen una recta con pendiente positiva y si ρX,Y = −1 tenemos una correlacion perfecta en la que todoslos puntos estan en una recta con pendiente negativa. Ambos casos se muestran en la figura 5.4.

5.2. Propiedades y teoremas principales

En esta seccion enunciamos algunos resultados que se tienen con respecto a la covarianza y elcoeficiente de correlacion. Comencemos con una formula sencilla para calcular la covarianza.

Proposicion 5.2.1. Sean X y Y variables aleatorias conjuntamente distribuidas con medias µ1 yµ2, respectivamente. Entonces

5.2. PROPIEDADES Y TEOREMAS PRINCIPALES 63

Cov(X,Y ) = E[XY ]− E[X]E[Y ].

Demostracion: Por definicion tenemos que

Cov(X,Y ) = E[(X − µ1)(Y − µ2)]

= E[XY −Xµ2 − µ1Y + µ1µ2]

= E[XY ]− E[Xµ2]− E[µ1Y ] + E[µ1µ2]

= E[XY ]− µ2E[X]− µ1E[Y ] + µ1µ2

= E[XY ]− µ2µ1 − µ1µ2 + µ1µ2

= E[XY ]− E[X]E[Y ].

Corolario 5.2.2. Si X y Y son variables aleatorias independientes entonces Cov(X,Y ) = 0.

Demostracion: Por la proposicion 5.2.1 tenemos que

Cov(X,Y ) = E[XY ]− E[X]E[Y ]

= E[X]E[Y ]− E[X]E[Y ]

= 0.

Observacion 5.2.3. El recıproco del corolario 5.2.2 no siempre es cierto. Ver el ejercicio 2.

Ausencia de correlacion ρX,Y ≈ 0 Ausencia de relacion lineal ρX,Y = 0

Figura 5.3: Correlacion cercana a cero

ρX,Y = 1 ρX,Y = −1

Figura 5.4: Correlacion Perfecta

64 CAPITULO 5. COVARIANZA Y CORRELACION

Proposicion 5.2.4. Sean X y Y dos variables aleatorias conjuntamente distribuidas con medias µ1

y µ2, respectivamente. Entonces:

1. Cov(X,Y ) = Cov(Y,X).

2. Cov(X,X) = V ar(X).

3. Cov(aX, Y ) = aCov(X,Y ) para a ∈ R.

Demostracion:

1. Tenemos que

Cov(X,Y ) = E[(X − µ1)(Y − µ2)]

= E[(Y − µ2)(X − µ1)]

= Cov(Y,X).

2. Por definicion Cov(X,X) = E[(X − µ1)(X − µ1)] = E[(X − µ1)2] = V ar(X).

3. Tenemos que

Cov(aX, Y ) = E[(aX − aµ1)(Y − µ2)]

= E[a(X − µ1)(Y − µ2)]

= aE[(X − µ1)(Y − µ2)]

= aCov(X,Y ).

Proposicion 5.2.5. Sean X1, ..., Xm y Y1, ..., Yn variables aleatorias conjuntamente distribuidastales que E[Xi] = ξi y E[Yj ] = µj. Entonces para constantes a1, ..., am y b1, ..., bn se cumple que

1. V ar

mXi=1

aiXi

!=

mXi=1

a2iV ar(Xi) + 2

mXi=2

i−1Xj=1

aiajCov(Xi, Xj).

2. Cov

mXi=1

aiXi,nXj=1

bjYj

!=

mXi=1

nXj=1

aibjCov(Xi, Yj).

Demostracion:

5.3. CASO DE LA NORMAL BIVARIADA 65

1. Tenemos que

V ar

mXi=1

aiXi

!= E

24 mXi=1

aiXi − E

"mXi=1

aiXi

#!235

= E

24 mXi=1

aiXi −mXi=1

aiξi

!235

= E

24 mXi=1

ai(Xi − ξi)

!235

= E

24 mXi=1

(ai(Xi − ξi))2 +Xi 6=j

aiaj(Xj − ξj)(Xi − ξi)

35= E

24 mXi=1

a2i (Xi − ξi)2 +

Xi6=j

aiaj(Xj − ξj)(Xi − ξi)

35=

mXi=1

a2iE[(Xi − ξi)2] +

Xi 6=j

aiajE[(Xj − ξj)(Xi − ξi)]

=mXi=1

a2iV ar(Xi) + 2

mXi=2

i−1Xj=1

aiajCov(Xi, Xj).

2. Analogo.

En la seccion anterior mencionamos que cuando el coeficiente de correlacion esta cercano a −1entonces la distribucion conjunta de las variables aleatorias X y Y esta concentrada alrededor deuna recta con pendiente negativa, en cambio, si dicho valor esta cercano a 1, la distribucion conjuntaesta concentrada alrededor de una recta con pendiente positiva. Ahora es momento de demostrarque dichos valores son el mınimo y maximo que alcanza el coeficiente de correlacion.

Proposicion 5.2.6. El coeficiente de correlacion de las variables X y Y satisface la desigualdad

|ρX,Y | ≤ 1.

Demostracion: Ver ejercicio 14.

5.3. Caso de la normal bivariada

Si las variables aleatorias X y Y son independientes entonces ρX,Y = 0, sin embargo el recıprocono siempre es cierto. El contraejemplo que encontro en el ejercicio 14 le puede ser util. A continuacionpresentamos un caso en el que si el coeficiente de correlacion ρX,Y = 0 entonces las variables aleatoriasX y Y son independientes.

Sea (X,Y ) un vector aleatorio normal bivariado, es decir, que su funcion de densidad esta dadapor

f(x, y) =1

2πσxσyp

1− ρ2exp

¨− 1

2(1− ρ2)

x− µxσx

2

− 2ρ(x− µx)(y − µy)

σxσy+

y − µxσy

.

En el ejercicio 21 se demostrara que el coeficiente de correlacion ρX,Y es precisamente ρ. Lue-go en el ejercicio 22 se demostrara que si ρX,Y = 0 entonces las variables aleatorias X y Y sonindependientes.

66 CAPITULO 5. COVARIANZA Y CORRELACION

5.4. Ejercicios

1. Halla la covarianza y el coeficiente de correlacion de las variables aleatorias X y Y si se sabeque:

a) f(x, y) = 2I(0,y)(x)I(0,1)(y)

b) f(x, y) =1

2xyI(0,x)(y)I(0,2)(x)

c) f(x, y) = [1− α(1− 2x)(1− 2y)]I(0,1)(x)I(0,1)(y)

d) f(x, y) = e−(x+y)I(0,∞)(x)I(0,∞)(y)

e) f(x, y) = 3(x+ y)I(0,1)(x+ y)I(0,1)(x)I(0,1)(y)

2. Encuentra dos variables aleatorias X y Y que no sean independientes tales que Cov(X,Y ) = 0.

3. Una urna contiene 4 bolas: dos de ellas numeradas con el 1 y dos de ellas numeradas con el2. Se extraen dos bolas de la urna sin reemplazo. Sean X y Y el numero mas pequeno y masgrande que indican las bolas extraidas. Hallar:

a) La funcion de densidad conjunta de X y Y .

b) Cov(X,Y ).

4. Supongamos que una urna contiene r bolas rojas y (N − r) bolas negras. Se toma una muestraaleatoria de n bolas sin reemplazo y se observa Y , el numero de bolas rojas que hay en lamuestra. Define las variables

Xi =

¨1 Si la i-esima bola es roja

0 si la i-esima bola es negra

para calcular V ar(Y ).

5. Sea X una variable aleatoria y a una constante. Demuestra que Cov(X, a) = 0.

6. Demuestre la proposicion 5.2.5 2).

7. Demuestra que V ar

nXi=1

Xi

!=

nXi=1

V ar(Xi) + 2Xi<j

Cov(Xi, Xj).

8. Un dado es lanzado n veces. Sean X el numero de 1’s obtenidos y Y el numero de 2’s. CalculaCov(X,Y ).

9. Un dado es lanzado dos veces. Sea X la suma de los numero obtenidos y Y la diferencia delprimer numero obtenido menos el segundo. Calcula Cov(X,Y ).

10. Las variables aleatorias X y Y tienen la funcion de densidad conjunta

fX,Y (x, y) =

¨2e−2x

x 0 ≤ x <∞, 0 ≤ y < x

0 otro caso

Calcula Cov(X,Y ).

11. Sean X1, X2, ... variables aleatorias independientes con media comun µ y varianza comun σ2.Sea Yn = Xn +Xn+1 +Xn+2. Calcula Cov(Yn, Yn+j) para j ≥ 0.

12. La funcion de densidad conjunta de X y Y esta dada por

fX,Y (x, y) = 1y e−(y+ x

y ) para x > 0, y > 0.

5.4. EJERCICIOS 67

Demuestra que Cov(X,Y ) = 1.

13. Demuestra la desigualdad de Cauchy-Schwartz : Sean X y Y variables aleatorias tales queE[X2] < ∞ y E[Y 2] < ∞, entonces E2[XY ] = |E[XY ]|2 ≤ E[X2]E[Y 2] y la igualdad secumple si y solo si P (Y = cX) = 1 para alguna constante c. Sugerencia: considera la funcionh(t) = E[(tX − Y )2] que es no negativa (¿por que?).

14. Demuestra la proposicion 5.2.6.

15. Hallar la covarianza de las variables aleatorias continuas X y Y si se sabe que fY |X(y|x) =I(x,x+1)(y) y fX(x) = I(0,1)(x).

16. Si Y = aX + b, demuestra que ρX,Y =

§1 , a > 0−1 , a < 0

.

17. Sea X una variable aleatoria con media µ y varianza σ2. Sea Y = aX + b donde a, b sonconstantes tales que −∞ < a <∞ y b > 0.

a) Selecciona a y b de tal manera que E[Y ] = 0 y V ar[Y ] = 1.

b) Hallar ρX,Y .

c) ¿Si X es simetrica entonces Y es simetrica?

18. Sean X1, X2, X3 y X4 variables aleatorias no correlacionadas por parejas con media comun 0y varianza 1. Calcula las correlaciones de:

a) X1 +X2 y X2 +X3.

b) X1 +X2 y X3 +X4.

19. Los jugadores A y B tiran en su turno un dado. Posteriormente la banca tira el dado. Unjugador gana si el numero que obtuvo en el dado es estrictamente mayor que el de la banca.Definamos para cada jugador la variable

I =

¨1 si el jugador gana

0 en otro caso

Demuestra que IA e IB estan positivamente correlacionados. Ademas explica por que esteresultado era logico.

20. Considera una grafica con n vertices enumerados del 1 al n y supongamos que entre cada uno

de los

n2

pares de vertices, un eje es presentado independientemente con probabilidad p.

Definimos el grado del vertice i, denotado por Di, como el numero de ejes que tiene el verticei como uno de sus vertices. Determina:

a) La distribucion de Di.

b) ρDi,Dj .

21. Si (X,Y ) tiene una distribucion normal bivariada, demuestra que Cov[X,Y ] = ρσXσY .

22. Para este ejercicio sera util el ejercicio 15 del capıtulo 2. Suponga que (X,Y ) tiene distribucionnormal bivariada.

a) Demuestre que X y Y son independientes si ρ = 0.

b) Demuestre que X y Y son independientes si y solo si Cov(X,Y ) = 0.

68 CAPITULO 5. COVARIANZA Y CORRELACION

23. Para este ejercicio es importante recordar las desigualdades vistas en el capıtulo 1. En unlugar hay 200 personas, de las cuales 100 son mujeres y 100 hombres. Se dividen las personasaleatoriamente por parejas, esto es, se crean aleatoriamente 100 parejas. Utilice el teorema1.6.2 para encontrar una cota superior para la probabilidad de que a lo mas 30 parejas seande diferente sexo. (Ayuda: Considere la variable aleatoria X =

P100i=1Xi, donde

Xi =

8<: 1, si el i-esimo hombre es pareado con una mujer

0, otro caso

para i = 1, . . . , 100.)

24. Demuestra que

min|aσX + bσY |, |aσX − bσY | 6 σaX+bY 6 max|aσX + bσY |, |aσX − bσY |

Capıtulo 6

Sucesiones de Variables Aleatorias

6.1. Definicion de sucesion de variables aleatorias

Definicion 6.1.1. Una sucesion de variables aleatorias es una lista X1, X2, ... de variables aleatorias.Representaremos por Xn, n ≥ 1 a una sucesion de variables aleatorias.

Ejemplo 6.1.2.

1. Si consideramos que las variables Xn ∼ N

1

n, 1

, entonces Xn, n ≥ 1 es una sucesion de

variables aleatorias.

2. Sea Xn una variable con distribucion

f(x) =

¨ne−nx, x > 0

0, otro caso

Entonces Xn, n ≥ 1 es una sucesion de variables aleatorias.

6.2. Tipos de convergencia

Existen muchos conceptos de convergencia en probabilidad y teorıa estadıstica, sin embargo, solodiscutiremos cinco de ellos.

Definicion 6.2.1. La sucesion Xn, n ≥ 1 converge puntualmente a X si

lımn→∞

Xn(w) = X(w)

para toda w ∈ Ω. Para este tipo de convergencia escribiremos Xn•→ Xn.

Para verificar que una variable aleatoria X es el lımite de la sucesion en la convergencia puntuallo que necesitamos es ver que para toda w ∈ Ω, la sucesion de numeros reales Xn(w) converge alnumero real X(w).

Ejemplo 6.2.2. En el espacio Ω = [0, 1], la sucesion de variables Xn(w) = wn converge puntual-mente a

X(w) =

¨0, 0 ≤ w < 1

1, w = 1.

Solucion: Para w ∈ [0, 1) es claro que lımn→∞

Xn(w) = lımn→∞

wn = 0. Tambien es claro que para

w = 1 tenemos que lımn→∞

Xn(w) = lımn→∞

Xn(1) = lımn→∞

1n = 1. Por lo tanto, la sucesion Xn converge

puntualmente a la variable

69

70 CAPITULO 6. SUCESIONES DE VARIABLES ALEATORIAS

X(w) =

¨0, 0 ≤ w < 1

1, w = 1.

Definicion 6.2.3. La sucesion Xn, n ≥ 1 converge casi seguramente (c.s.) a la variable aleatoriaX cuando n→∞ si

P (w : Xn(w)→ X(w), n→∞) = 1.

Para este tipo de convergencia, conocida tambien como convergencia con probabilidad 1, escribiremosXn

cs−→ X.

Observacion 6.2.4. Cuando utilizamos este tipo de convergencia, consideramos cada w ∈ Ω yverificamos si los numeros reales Xn(w) convergen al numero real X(w) cuando n→∞. Tendremosconvergencia casi seguramente si el conjunto de todas las w para las cuales se cumple la convergencia,tiene probabilidad uno; equivalentemente, si el conjunto de las w para las cuales no converge tieneprobabilidad cero.

Ejemplo 6.2.5. Consideremos el espacio de probabilidad ([0, 1],B[0, 1],P) donde P es la medidauniforme, es decir, la longitud del intervalo. Definamos Xn(w) = 1[0, 1n ](w), (notemos que Xn ∼Ber(1/n)). Entonces Xn

c.s.−→ 0.

Solucion: Primero hallemos el conjunto w : Xn(w)→ X(w), n→∞. Es claro que cuando n→∞tenemos que el intervalo [0, 1

n ] tiende al intervalo [0, 0] = 0. Luego

lımn→∞

Xn(w) = lımn→∞

1[0, 1n ](w) = 10(w) =

¨0, w ∈ (0, 1]

1, w = 0

por lo que el conjunto de las w donde se cumple la convergencia es w : Xn(w)→ X(w), n→∞ =(0, 1]. Por lo tanto P (w : Xn(w) → X(w), n → ∞) = P ((0, 1]) = 1 − 0 = 1 de donde concluimos

que Xnc.s.−→ 0.

Definicion 6.2.6. La sucesion Xn, n ≥ 1 converge en probabilidad a la variable aleatoria Xcuando n→∞ si para toda ε > 0 se cumple que

P (|Xn −X| > ε)→ 0 cuando n→∞.

Para este tipo de convergencia escribiremos Xnp−→ X

Ejemplo 6.2.7. Sea Xn ∼ Gamma(n, 1/n), entonces Xnp−→ 1.

Solucion: Notemos que E[Xn] = 1 y V ar(Xn) =1

n. Por la desigualdad de Chebyshev, tenemos que

para ε > 0 se cumple

P (|Xn − 1| > ε) ≤ 1

nε2

y cuando n→∞ concluimos que P (|Xn − 1| > ε)→ 0.

Definicion 6.2.8. Sea r ∈ N. La sucesion Xn, n ≥ 1 converge en media r−esima a la variable Xcuando n→∞ si

E[|Xn −X|r]→ 0 cuando n→∞.

Para este tipo de convergencia escribiremos Xnr−→ X cuando n→∞.

Observacion 6.2.9. La convergencia en media dos, es decir, cuando r = 2, es conocida comoconvergencia en media cuadratica.

6.2. TIPOS DE CONVERGENCIA 71

Ejemplo 6.2.10. Sean X1, X2, ... variables aleatorias tales que

P (Xn = 0) = 1− 1

n, P (Xn = 1) =

1

2ny P (Xn = −1) =

1

2n.

Entonces

Xnr−→ 0.

Solucion: Es claro que

E[|Xn −X|r] = E[|Xn − 0|r]= E[|Xn|r]

= | − 1|r 1

2n+ |0|r

1− 1

n

+ |1|r 1

2n

=1

2n+

1

2n

=1

n

Por lo que es claro que cuando n→∞ tenemos que E[|X −Xn|r]→ 0.

Definicion 6.2.11. La sucesion Xn, n ≥ 1 converge en distribucion a la variable X cuando n→∞si

FXn(x)→ FX(x) cuando n→∞ para toda x ∈ C(FX)

donde C(FX) = x : FX(x) es continua en x.

Para este tipo de convergencia escribiremos Xnd−→ X cuando n→∞.

Observacion 6.2.12.

1. En la convergencia en distribucion, las variables no necesariamente deben estar definidas en elmismo espacio de probabilidad.

2. Se puede demostrar que una funcion de distribucion tiene a lo mas un numero contable dediscontinuidades, por lo que C(FX) es denso en R, es decir, es toda la recta excepto a lo masun numero contable de puntos.

Ejemplo 6.2.13. Sean X1, X2, ... variables aleatorias independientes con funcion de densidad comun

f(x) =

¨αx−α−1, x > 1, α > 0

0, otro caso

y definamos Yn = n−1/α max1≤k≤n

Xk para n ≥ 1. Demuestra que Yn converge en distribucion cuando

n→∞ y determina el lımite.

Solucion: La funcion de distribucion de las variables Xn esta dada por

F (x) =

8<:Z x

1αy−α−1dy, x > 1

0, otro caso

=

¨1− x−α, x > 1

0, otro caso

72 CAPITULO 6. SUCESIONES DE VARIABLES ALEATORIAS

Se sigue que para cualquier x > 0 tenemos

FYn(x) = P

max

1≤k≤nXk ≤ xn1/α

= (F (xn1/α))n

=

1− 1

nxα

n=

1 +−x−α

n

nFinamente cuando n→∞ concluimos que

FYn(x)→ e−x−α

.

A continuacion demostraremos que para cada uno de los tipos de convergencia el lımite es unico,

pero antes una definicion.

Definicion 6.2.14. Dos variables aleatorias X y Y son iguales c.s. si P (X = Y ) = 1. En tal casoescribimos X = Y .

Teorema 6.2.15. Sea Xn, n ≥ 1 una sucesion de variables aleatorias que converge puntualmentecuando n→∞. Entonces la variable lımite es unica.

Solucion: Sea w ∈ Ω y supongamos que lımn→∞

Xn(w) = X(w) y que lımn→∞

Xn(w) = Y (w). Ası que

por definicion de sucesion de numeros reales tenemos que paraε

2existen N1 tal que para n ≥ N1

se cumple que |Xn(w) − X(w)| < ε

2. Analogamente existe N2 tal que para n ≥ N2 se cumple que

|Xn(w) − Y (w)| < ε

2. Luego si hacemos N = maxN1, N2, entonces para n ≥ N se cumple que

|Xn(w)−X(w)| < ε

2y que |Xn(w)− Y (w)| < ε

2. Por lo tanto

|X(w)− Y (w)| = |X(w)−Xn(w) +Xn(w)− Y (w)|≤ |X(w)−Xn(w)|+ |Xn(w)− Y (w)|= |Xn(w)−X(w)|+ |Xn(w)− Y (w)|

2+ε

2= ε

Ası que como ε y w ∈ Ω fueron arbitrarias entonces |X(w)− Y (w)| = 0, es decir, X(w) = Y (w)para toda w ∈ Ω. Por lo tanto P (X = Y ) = 1.

Teorema 6.2.16. Sea Xn, n ≥ 1 una sucesion de variables aleatorias que converge casi segura-mente cuando n→∞. Entonces la variable lımite es unica.

Demostracion: Supongamos que Xncs−→ X y Xn

cs−→ Y cuando n→∞. Definamos los conjuntos

NX = w : Xn(w) 9 X(w), n→∞

y

NY = w : Xn(w) 9 Y (w), n→∞.

Claramente P (NX) = P (NY ) = 0. Definamos N = NX ∪NY y notemos que por la desigualdad deltriangulo, para w /∈ N se cumple

|X(w)− Y (w)| = |X(w)−Xn(w) +Xn(w)− Y (w)|≤ |X(w)−Xn(w)|+ |Xn(w)− Y (w)|

6.2. TIPOS DE CONVERGENCIA 73

y cuando n → ∞ tenemos que |X(w) − Xn(w)| → 0 y |Xn(w) − Y (w)| → 0, por lo que cuandon→∞ concluimos que X(w) = Y (w) para w /∈ N . Como consecuencia

P (X 6= Y ) ≤ P (N)

≤ P (NX) + P (NY )

= 0.

Teorema 6.2.17. Sea Xn, n ≥ 1 una sucesion de variables aleatorias que converge en probabilidadcuando n→∞. Entonces la variable lımite es unica.

Demostracion: Supongamos que Xnp−→ X y Xn

p−→ Y cuando n → ∞. Para ε > 0 arbitrariotenemos que

|X − Y | ≤ |X −Xn|+ |Xn − Y |

por lo que si |X − Y | > ε para w ∈ Ω entonces se tiene que

|X −Xn| >ε

2o |Xn − Y | >

ε

2.

Mas formalmente tenemos que

w : |X − Y | > ε ⊂nw : |X −Xn| >

ε

2

o∪nw : |Xn − Y | >

ε

2

oPor lo tanto

P (|X − Y | > ε) ≤ P|X −Xn| >

ε

2

+ P

|Xn − Y | >

ε

2

y

lımn→∞

P (|X − Y | > ε) ≤ lımn→∞

P|X −Xn| >

ε

2

+ lımn→∞

P|Xn − Y | >

ε

2

= 0

lo que implica que P (|X − Y | > 0) = 0 que es equivalente a que P (X = Y ) = 1.

Antes de demostrar la unicidad para el tipo de convergencia de la media r−esima, demostraremosun lema.

Lema 6.2.18. Sea r > 0. Supongamos U y Y son variables aleatorias tales que E[|U |r] < ∞ yE[|V |r] <∞. Entonces

E[|U + V |r] ≤ 2r(E[|U |r] + E[|V |r]).

Demostracion: Sean a, b ∈ R. Entonces

|a+ b|r ≤ (|a|+ |b|)r

≤ (2max|a|, |b|)r

= 2rmax|a|r, |b|r≤ 2r(|a|r + |b|r).

Luego para cada w ∈ Ω tenemos que

|U(w) + V (w)|r ≤ 2r(|U(w)|r + |V (w)|r)

y tomando esperanzas en ambos lados concluimos que

E[|U + V |r] ≤ 2r(E[|U |r] + E[|V |r]).

74 CAPITULO 6. SUCESIONES DE VARIABLES ALEATORIAS

Teorema 6.2.19. Sea Xn, n ≥ 1 una sucesion de variables aleatorias que converge en media rcuando n→∞. Entonces la variable lımite es unica.

Demostracion: Por el lema 6.2.18 tenemos que

E[|X − Y |r] = E[|(X −Xn) + (Xn − Y )|r]≤ 2r(E[|X −Xn|r] + E[|Xn − Y |]r)

y cuando n → ∞ ambos terminos del lado derecho tienden a cero. Ası, cuando n → ∞ obtenemosque E[|X − Y |r] = 0, lo que implica que P (|X − Y | = 0) = 1.

Al igual que en el tipo de convergencia anterior, necesitaremos de un resultado para demostrarla unicidad de la convergencia en distribucion.

Lema 6.2.20. Sea A ⊂ R contable. Sean f y g dos funciones definidas en R tales que son continuaspor la derecha y f(x) = g(x) para toda x ∈ R−A. Entonces f(x) = g(x) para toda x ∈ R.

Demostracion: Sean x ∈ A, y ∈ R − A y ε > 0 arbitrario. Por la continuidad a la derecha, paraε

2> 0 existen δ1 > 0 y δ2 > 0 tales que

si y − x < δ1 entonces |f(y)− f(x)| < ε

2

y

si y − x < δ2 entonces |g(y)− g(x)| < ε

2.

Luego para δ = minδ1, δ2 tenemos que si y − x < δ entonces

|f(x)− g(x)| ≤ |f(x)− f(y)|+ |f(y)− g(x)|= |f(x)− f(y)|+ |g(y)− g(x)|

2+ε

2= ε.

Como la ε fue arbitrario concluimos que f(x) = g(x) para toda x ∈ R.

Teorema 6.2.21. Sea Xn, n ≥ 1 una sucesion de variables aleatorias que converge en distribucioncuando n→∞. Entonces la distribucion lımite es unica.

Demostracion: Supongamos que Xnd−→ X y Xn

d−→ Y cuando n→∞. Sea x ∈ C(FX) ∩ C(FY ),luego cuando n→∞ tenemos que

|FX(x)− FXn(x)| → 0

y

|FY (x)− FXn(x)| → 0

por lo que

|FX(x)− FY (x)| ≤ |FX(x)− FXn(x)|+ |FXn(x)− FY (x)| → 0

cuando n→∞, es decir, FX(x) = FY (x) para toda x ∈ C(FX) ∩ C(FY ).

Como (C(FX) ∩ C(FY ))C tiene a lo mas un numero contable de elementos, por el lema 6.2.20concluimos que FX(x) = FY (x) para toda x ∈ R.

A continuacion probaremos las relaciones entre los tipos de convergencia.

Lema 6.2.22. Sea Xn, n ≥ 1 una sucesion de variables aleatorias tales que converge puntualmentea la variable X, entonces tambien converge casi seguramente a la variable X.

6.2. TIPOS DE CONVERGENCIA 75

Solucion: Sabemos que para toda w ∈ Ω se cumple que

lımn→∞

Xn(w) = X(w).

Ası que w : Xn(w) → X(w), n → ∞ = Ω. Por lo tanto P (w : Xn(w) → X(w), n → ∞) =P (Ω) = 1, es decir, la sucesion converge casi seguramente a la variable X.

Lema 6.2.23. Sea Xn, n ≥ 1 una sucesion de variables aleatorias tales que converge casi segura-mente a la variable X, entonces tambien converge en probabilidad a la variable X.

Demostracion: Sea ε > 0 y definamos los siguientes eventos para n ≥ 1

An =∞Sm=n|Xm −X| > ε.

Es claro que

1. |Xn −X| > ε ⊂ An.

2. An es una sucesion decreciente.

3.∞Tn=1

An ⊂ Xn 9 X pues

w ∈∞\n=1

An ⇔ w ∈ An para toda n ≥ 1

⇒ para toda n ≥ 1 existe m ≥ n tal que |Xn(w)−X(w)| > ε

⇒ w ∈ Xn 9 X.

Por lo tanto

lımn→∞

P (|Xn −X| > ε) ≤ lımn→∞

P (An)

= P

lımn→∞

An

= P

∞\n=1

An

!≤ P (Xn 9 X)

= 0.

Lema 6.2.24. Sea Xn, n ≥ 1 una sucesion de variables aleatorias tales que converge en la mediar−esima a la variable X, entonces tambien converge en probabilidad a la variable X.

Demostracion: Por la desigualdad de Markov tenemos que para r > 0 se cumple

P (|Xn −X| > ε) = P (|X −Xn|r > εr) ≤ E[|Xn −X|r]εr

de donde obtenemos que

lımn→∞

P (|Xn −X| > ε) = 0

para toda ε > 0.

Lema 6.2.25. Sea Xn, n ≥ 1 una sucesion de variables aleatorias tales que converge en probabi-lidad a la variable X, entonces tambien converge en distribucion a la variable X.

76 CAPITULO 6. SUCESIONES DE VARIABLES ALEATORIAS

Demostracion: Sea x ∈ C(FX). Para cualquier ε > 0 tenemos que

FXn(x) = P (Xn ≤ x)

= P (Xn ≤ x, |Xn −X| ≤ ε) + P (Xn ≤ x, |Xn −X| > ε)

≤ P (X ≤ x+ ε, |Xn −X| ≤ ε) + P (|Xn −X| > ε)

≤ P (X ≤ x+ ε) + P (|Xn −X| > ε)

de donde se sigue que

lım supn→∞

FXn(x) ≤ FX(x+ ε).

Por la continuidad de FX en x resulta que

lım supn→∞

FXn(x) ≤ FX(x).

Ahora para cualquier ε > 0 tenemos que

FX(x− ε) = P (X ≤ x− ε)= P (X ≤ x− ε, |Xn −X| ≤ ε) + P (X ≤ x− ε, |Xn −X| > ε)

≤ P (Xn ≤ x) + P (|Xn −X| > ε)

de aquı obtenemos que

FX(x− ε) = lım infn→

FXn(x)

y como FX es continua en x

FX(x) ≤ lım infn→∞

FXn(x).

De esta forma hemos mostrado que

FX(x) ≤ lım infn→∞

FXn(x) ≤ lım supn→∞

FXn(x) ≤ FX(x)

por lo tanto para x ∈ C(FX) concluimos que

lımn→∞

FXn(x) = FX(x).

Podemos resumir los resultados anteriores en el siguiente teorema:

Teorema 6.2.26. Sea Xn, n ≥ 1 una sucesion de variables aleatorias. Entonces tenemos lassiguientes relaciones en los tipos de convergencia

(Xn• // X) +3 (Xn

cs // X) +3 (Xnp // X) +3 (Xn

d // X)

(Xnr //

KS

X)

Demostracion: Se sigue directamente de los lemas 6.2.22, 6.2.23, 6.2.24 y 6.2.25.

En este momento podemos estar preguntandonos si los tipos de convergencia son equivalentespero desafortunadamente la respuesta sera que no. Para ver que las implicaciones del teorema 6.2.26son estrictas utilizaremos contraejemplos como el del ejemplo 6.2.5 que demuestra que si una sucesionde variables converge casi seguramente no necesariamente converge puntualmente.

La siguiente proposicion sera util para demostrar que si una sucesion de variables converge enprobabilidad, no necesariamente converge casi seguramente.

6.2. TIPOS DE CONVERGENCIA 77

Proposicion 6.2.27. Una sucesion Xn, n ≥ 1 converge casi seguramente a X si y solo si paratoda ε > 0 y 0 < δ < 1 existe n0 tal que para toda n > n0 se cumple

P

Tm>n|Xm −X| < ε

> 1− δ.

Demostracion: Notemos que

Xncs−→ X =

Tε>0

Sn∈N

Tm>n|Xm −X| < ε

Por lo tanto, para toda ε > 0 tenemos que

P (Xncs−→ X) ≤ P

[n∈N

\m>n

|Xm −X| < ε

!= lım

n→∞P

\m>n

|Xm −X| < ε

!porque la sucesion de eventos

An =Tm>n|Xm −X| < ε

es creciente. De aquı concluimos que Xncs−→ X si y solo si para toda ε > 0 se cumple

1 = P (Xncs−→ X) = lım

n→∞P

\m>n

|Xm −X| < ε

!.

Ejemplo 6.2.28. Sean X1, X2, ... variables aleatorias independientes tales que para n ≥ 1 se tiene

P (Xn = 1) = 1− 1

ny P (Xn = n) =

1

n.

Demuestra que Xnp−→ 1 pero que Xn

cs9 1.

Solucion: Primero veamos que Xnp−→ 1. Sea ε > 0, luego, cuando n→∞ tenemos que

P (|Xn − 1| > ε) = P (Xn = n) =1

n→ 0.

Por lo tanto Xnp−→ 1.

78 CAPITULO 6. SUCESIONES DE VARIABLES ALEATORIAS

Ahora veamos que Xncs9 1. Para cada n ∈ N tenemos que

P

\m>n

|Xm − 1| < ε

!= P

lımN→∞

N\m=n+1

|Xm − 1| < ε

!= lım

N→∞P

N\

m=n+1

|Xm − 1| < ε

!= lım

N→∞

NYm=n+1

P (|Xm − 1| < ε)

= lımN→∞

NYm=n+1

1− 1

m

= lım

N→∞

NYm=n+1

m− 1

m

= lımN→∞

n

n+ 1

n+ 1

n+ 2

n+ 2

n+ 3· · · N − 1

N

= lım

N→∞

n

N= 0

Por lo tanto Xncs9 1.

Ejemplo 6.2.29. Sean k > 0 y X2, X3, ... variables aleatorias tales que

P (Xn = 1) = 1− 1

nky P (Xn = n) =

1

nk.

Demuestra que Xnp−→ 1 pero que para algunos valores de r se tiene que Xn

r9 1.

Solucion: Primero veamos que Xnp−→ 1. Sea ε > 0, luego, cuando n→∞ tenemos que

P (|Xn − 1| > ε) = P (Xn = n) =1

nk→ 0.

Por lo tanto Xnp−→ 1.

Ahora veamos que Xnr9 1. Tenemos que

E[|Xn − 1|r] = |1− 1|

1− 1

nk

+ |n− 1| 1

nk

= |n− 1|r 1

nk

=(n− 1)r

nk

=

1− 1

n

r 1

nk−r

Por lo que

lımn→∞

E[|Xn − 1|r] =

8><>:0 r < k

1 r = k

∞ r > k

Por lo tanto Xnr9 1.

Observacion 6.2.30. En relacion con el ejemplo 6.2.29 tenemos que:

6.2. TIPOS DE CONVERGENCIA 79

1. Si k = 1 y X1, X2, ... son independientes entonces

a) Xnp−→ 1

b) Xncs9 1

c) E[Xn]→ 2 cuando n→∞d) Xn

r−→ 1 para 0 < r < 1 y Xnr9 1 para r ≥ 1.

2. Si k = 2 y X1, X2, ... son independientes entonces

a) Xnp−→ 1

b) Xncs−→ 1

c) E[Xn]→ 1, V ar(Xn)→ 1 cuando n→∞d) Xn

r−→ 1 para 0 < r < 2 y Xnr9 1 para r ≥ 2.

3. Las observaciones anteriores muestran que no existe relacion entre la convergencia casi seguray la convergencia en media r.

Ejemplo 6.2.31. Sea X ∼ N(0, 1) y definamos

Xn =

¨X si n es par

−X si n es impar

Entonces Xnd−→ X pero Xn

p9 X.

Solucion: Debido a −X tambien tiene distribucion normal estandar entonces FXn(x) = Φ(x) donde

Φ(x) es la funcion de distribucion acumulada de X. De aquı se sigue que Xnd−→ X.

Por otro lado, podemos tomar ε > 0 tal que

P|X| ≤ ε

2

<

1

2

o en forma equivalente

P|X| > ε

2

>

1

2.

De esta manera tenemos dos casos:

1. Si n es par entonces P (|Xn −X| > ε) = P (|X −X| > ε) = P (0 > ε) = 0.

2. Si n es impar entonces

P (|Xn −X| > ε) = P (| −X −X| > ε) = P (2|X| > ε) = P|X| > ε

2

>

1

2.

Por lo tanto concluimos que Xnp9 X.

Con este ejemplo hemos terminado de demostrar que los regresos de las implicaciones en los tiposde convergencia no son siempre ciertos; sin embargo, hay una equivalencia entre la convergencia enprobabilidad y en distribucion que mencionaremos en el siguiente teorema.

Teorema 6.2.32. Sean X1, X2, ... variables aleatorias y c una constante, entonces

Xnp−→ c si y solo si Xn

d−→ c.

Demostracion: Por el lema 6.2.25 sabemos que si Xnp−→ c entonces Xn

d−→ c.

Ahora probemos el regreso. Sabemos que la funcion de distribucion acumulada deX = c esta dadapor

80 CAPITULO 6. SUCESIONES DE VARIABLES ALEATORIAS

FX(x) =

¨0 x < c

1 x ≥ c

y como

P (|Xn − c| > ε) = P (Xn − c > ε) + P (Xn − c < −ε)= P (Xn > c+ ε) + P (Xn < c− ε)≤ P (Xn ≤ c− ε) + P (Xn > c+ ε)

tenemos que

lımn→∞

P (|Xn − c| > ε) ≤ lımn→∞

[P (Xn ≤ c− ε) + P (Xn > c+ ε)]

= lımn→∞

[FXn(c− ε) + 1− FXn(c+ ε)]

= FX(c− ε) + (1− FX(c+ ε))

= 0.

Por lo tanto Xnp−→ c.

6.3. Ley debil y ley fuerte de los grandes numeros

Enunciaremos el siguiente teorema sin demostrar, el cual sera de gran utilidad para obtener losresultados fuertes de esta seccion.

Teorema 6.3.1. Sean X1, X2, ... variables aleatorias con funciones caracterısticas ϕX1, ϕX2

, ..., res-

pectivamente. Si ϕXn(t)→ ϕX(t) cuando n→∞ para toda t, entonces Xnd−→ X.

Observacion 6.3.2.

1. El teorema 6.3.1 es llamado teorema de continuidad de Levy.

2. El recıproco tambien es valido, es decir, si X1, X2, ... son variables aleatorias tales que Xnd−→

X para alguna variable X entonces ϕXn(t) −→ ϕX(t) cuando n→∞ para toda t.

3. Podemos obtener un teorema de existencia debilitando la hipotesis del teorema 6.3.1. En formamas precisa, solo necesitamos asumir que ϕXn(t) −→ ϕ(t) conforme n→∞ donde ϕ es algunafuncion que es continua en t = 0. La conclusion entonces es que Xn converge en distribucion,cuando n→∞, a alguna variable X cuya funcion caracterıstica es ϕ. La formulacion originaldel teorema 6.3.1 presupone el conocimiento que el lımite es una funcion caracterıstica y queesta funcion caracterıstica es de una variable aleatoria conocida X.

Se pueden obtener teoremas similares usando ya sea la funcion generadora de probabilidades ola funcion generadora de momentos. Los enunciamos a continuacion.

Teorema 6.3.3. Sean X1, X2, ... variables aleatorias tomando valores en los enteros no negativoscon funciones generadoras de probabilidades gX1

, gX2, ..., respectivamente. Si gXn(t)→ gX(t) cuando

n→∞, entonces Xnd−→ X.

Teorema 6.3.4. Sean X1, X2, ... variables aleatorias con funciones generadoras de momentos mX1,

mX2, ..., respectivamente definidas para |t| < h para algun h > 0 y para toda n. Supongamos que X

es una variable aleatoria con funcion generadora de momentos mX(t) que existe para |t| ≤ h1 < h

para algun h1 > 0. Si mXn(t)→ mX(t) cuando n→∞ entonces Xnd−→ X.

Observacion 6.3.5. El recıproco del teorema 6.3.4 y el teorema de unicidad o caracterizacion delas variables aleatorias pueden usarse para demostrar la unicidad del lımite en la convergencia endistribucion. En forma detallada si

6.3. LEY DEBIL Y LEY FUERTE DE LOS GRANDES NUMEROS 81

Xnd−→ X y Xn

d−→ Y

entonces

ϕXn(t) −→ ϕX(t) y ϕXn(t) −→ ϕY (t)

cuando n→∞ para toda t. Entonces para toda t tenemos que

0 ≤ |ϕX(t)− ϕY (t)| = |ϕX(t)− ϕXn(t) + ϕXn(t)− ϕY (t)| ≤ |ϕX(t)− ϕXn(t)|+ |ϕXn(t)− ϕY (t)|

pero como |ϕX(t)−ϕXn(t)| → 0 y |ϕXn(t)−ϕY (t)| → 0 cuando n→∞ conluimos que ϕX(t) = ϕY (t)

para toda t, es decir, Xd= Y .

Corolario 6.3.6. Sean X1, X2, ... variables aleatorias y supongamos que para algun numero real c

se cumple que ϕXn(t)→ eitc cuando n→∞ para toda t. Entonces Xnp−→ c.

Demostracion: Primero notemos que la funcion caracterıstica de la variable X = c es

ϕX(t) = E[eitx] = eitc.

Ahora bien, ya que cuando n→∞ se cumple que ϕXn(t)→ eitc entonces Xnd−→ c y, por el teorema

6.2.32, concluimos que Xnp−→ c.

Teorema 6.3.7 (Ley debil de los grandes numeros). Sean X1, X2, ... variables aleatoriasindependientes e identicamente distribuidas con media finita µ. Para n ≥ 1, definamos Sn =X1 + · · ·+Xn, entonces

Xn =Snn

p−→ µ.

Demostracion: Solo tenemos que mostrar que cuando n → ∞ entonces ϕXn(t) → eitµ para todat. Sabemos que

ϕXn(t) = E[eitXn ]

= E

expitSn

n

= E

expi t

nSn

= ϕSn

t

n

=

ϕX1

t

n

n.

donde la ultima igualdad se sigue de la proposicion 3.3.8.

Por otro lado, la funcion caracterıstica de cualquier variable X tal que E[|X|] < ∞, puede servista como

ϕX(t) = E[eitx]

= E

" ∞Xj=0

(itx)j

j!

#= E

"1 + itx+

∞Xj=2

(itx)j

j!

#= 1 + itE[X] +

∞Xj=2

(it)j

j!E[Xj ]

entonces cuando t→ 0 se cumple

82 CAPITULO 6. SUCESIONES DE VARIABLES ALEATORIAS

ϕX(t) = 1 + itE[X] + o(|t|)

donde la funcion o(|t|) 1 cumple que

lımt→0

o(|t|)|t|

= 0.

Por lo tanto

ϕXn(t) =

ϕX1

t

n

n=

1 +

it

nµ+ o

|t|n

n→ eitµ

cuando n→∞ para toda t.

Observacion 6.3.8.

1. Anteriormente habıamos demostrado este resultado con la desigualdad de Chebyshev pero conel supuesto adicional de que σ2 <∞. En este caso solo pedimos que µ <∞.

2. Se puede demostrar que Xncs−→ µ. Este resultado es conocido como la ley fuerte de los grandes

numeros.

Teorema 6.3.9 (Ley fuerte de los grandes numeros). Sean X1, X2, ... variables aleatoriasindependientes e identicamente distribuidas con media finita µ. Para n ≥ 1, definamos Sn = X1 +· · ·+Xn, entonces

Xn =Snn

cs−→ µ.

6.4. Teorema del lımite central

Teorema 6.4.1 (Teorema lımite central). Sean X1, X2, ... variables aleatorias independientes eidenticamente distribuidas con media µ < ∞ y varianza σ2 < ∞. Sea Sn = X1 + · · · + Xn paran ≥ 1, entonces

Sn − nµσ√n

d−→ Y

donde Y ∼ N(0, 1).

Demostracion: Definamos las variables Yi =Xi − µσ

que son independientes pues las Xi los son y

notemos que E[Yi] = 0 y que V ar(Yi) = 0. Sea S′n = Y1 + · · ·+ Yn entonces

Sn − nµσ√n

=

nXk=1

Xk − nµ

σ√n

=1√n

nXk=1

Xk − µσ

=

1√n

nXk=1

Yk

=S′n√n.

1En procesos estocasticos profundizamos mas sobre esta funcion

6.4. TEOREMA DEL LIMITE CENTRAL 83

Notemos que la ultima expresion tiene la misma forma que la expresion original pues E[Yi] = 0y que V ar(Yi) = 1; esto quiere decir que no importa la distribucion de la sucesion original siemprepodemos convertirla en una sucesion de variables aleatorias independientes con media cero y varianzauno.

Lo anterior quiere decir que sin perdida de generalidad podemos suponer µ = 0 y σ2 = 1 en lademostracion del teorema. Entonces por las proposiciones 3.3.7 y 3.3.8 tenemos que

ϕSn−nµσ√n

(t) = ϕ Sn√n

(t)

= ϕSn

t√n

=

ϕX1

t√n

n=

1− t2

2n+ o

t2

n

ndonde la ultima igualdad se obtiene a partir de un razonamiento analogo al desarrollado en lademostracion del teorema 6.3.7. Finalmente como

1− t2

2n+ o

t2

n

n→ e−t

2/2

cuando n→∞, conluimos que

ϕSn−nµσ√n

(t)→ e−t2/2.

Ejemplo 6.4.2. Sean X1, X2, ..., Xn una muestra de una variable aleatoria X. Supongamos que ladistribucion de X es F (x). Sea Fn(x) la funcion de distribucion empırica de la muestra, es decir

Fn(x) =numero de observaciones ≤ x

n.

Demuestre que para cada x fijo

1. Fn(x)p−→ F (x) cuando n→∞.

2.√n(Fn(x)− F (x))

d−→ N(0, σ2(x)) cuando n→∞. Determine σ2(x).

Solucion:

1. Para k ≥ 1, sea

1Xk≤x =

¨1, Xk ≤ x0, otro caso.

Es claro que 1X1≤x, 1X2≤x, ..., 1Xn≤x son variables aleatorias independientes e identica-mente distribuidas cada una con distribucion Bernoulli de parametro

p = P (1Xk≤x = 1) = P (Xk ≤ x) = F (x).

De esta forma,

Fn(x) =1

n

nXk=1

1Xk≤x

y cuando n→∞ entonces por el teorema 6.3.7 tenemos que

84 CAPITULO 6. SUCESIONES DE VARIABLES ALEATORIAS

1

n

nXk=1

1Xk≤xp−→ E[1X1≤x]

la cual sabemos que cumple

E[1X1≤x] = 1P (1X1≤x = 1) + 0P (1X1≤x = 0)

= P (1X1≤x = 1)

= P (Xk ≤ x)

= F (x).

2. Sabemos que la varianza de una variable Bernoulli es

V ar(1Xk≤x) = p(1− p) = F (x)(1− F (x)) = σ2(x).

Luego para toda y ∈ R por el teorema 6.4.1 tenemos que

lımn→∞

P (√n(Fn(x)− F (x)) ≤ y) = lım

n→∞P

√n

1

n

nXk=1

1Xk≤x − F (x)

!≤ y

!= lım

n→∞P

Sn − nµ(x)√

n≤ y

= lımn→∞

P

Sn − nµ(x)√

nσ(x)≤ y

σ(x)

= Φ

y

σ(x)

= P (X ≤ y)

con X ∼ N(0, σ2(x)).

6.5. Convergencia de sumas de sucesiones de variables alea-torias

Teorema 6.5.1. Sean X1, X2, ..., Y1, Y2, ... variables aleatorias.

1. Si Xncs−→ X y Yn

cs−→ Y entonces Xn + Yncs−→ X + Y .

2. Si Xnp−→ X y Yn

p−→ Y entonces Xn + Ynp−→ X + Y .

3. Si Xnr−→ X y Yn

r−→ Y entonces Xn + Ynr−→ X + Y .

Demostracion:

1. Definamos los siguientes conjuntos

NX = w ∈ Ω : Xn(w) 9 X(w)NY = w ∈ Ω : Yn(w) 9 Y (w)

NX+Y = w ∈ Ω : Xn(w) + Yn(w) 9 X(w) + Y (w)N = NX ∪NY

Entonces para w /∈ N , cuando n→∞ tenemos que

|X(w) + Y (w)− (Xn(w) + Yn(w))| ≤ |X(w)−Xn(w)|+ |Y (w)− Yn(w)|→ 0

Por lo que concluimos que N c ⊂ NX+Y . Ademas, en el teorema 6.2.16 demostramos queP (N) = 0 por lo que P (N c) = 1, ası que se sigue que P (NX+Y ) = 1.

6.5. CONVERGENCIA DE SUMAS DE SUCESIONES DE VARIABLES ALEATORIAS 85

2. Sea ε > 0. Definamos los conjuntos

A = w ∈ Ω : |Xn(w) + Yn(w)− (X(w) + Y (w))| > εB =

nw ∈ Ω : |Xn(w)−X(w)| > ε

2

oC =

nw ∈ Ω : |Yn(w)− Y (w)| > ε

2

oNotemos que si w ∈ A entonces w ∈ B ∪ C pues si w /∈ B ∪ C entonces w ∈ (B ∪ C)c = w ∈Bc ∩ Cc, es decir, |Xn(w)−X(w)| ≤ ε

2y |Yn(w)− Y (w)| ≤ ε

2y por lo tanto cuando n→∞

tenemos que

|Xn(w) + Yn(w)− (X(w) + Y (w))| = |Xn(w)−X(w) + Yn(w)− Y (w)|≤ |Xn(w)−X(w)|+ |Yn(w)− Y (w)|

≤ ε

2+ε

2= ε

lo cual contradice que w ∈ A; por lo tanto w ∈ B ∪ C. Luego, cuando n→∞ tenemos que

P (|Xn + Yn − (X + Y )| > ε) = P (A)

≤ P (B ∪ C)

≤ P (B) + P (C)

≤ P|Xn −X| >

ε

2

+ P

|Yn − Y | >

ε

2

→ 0.

3. Cuando n→∞ tenemos por el lema 6.2.18 que

E[|Xn + Yn − (X + Y )|r] = E[|(Xn −X) + (Yn − Y )|r]≤ 2r(E[|Xn −X|r] + E[|Yn − Y |r])→ 0.

Observacion 6.5.2. Las afirmaciones del teorema 6.5.1 se pueden establecer tambien para la dife-rencia, productos y razones. La formulacion en el caso de convergencia en distribucion requiere desupuestos adicionales.

Teorema 6.5.3. Sean X1, X2, ..., Y1, Y2, ... variables aleatorias tales que

1. Xn y Yn son independientes para toda n,

2. Xnd−→ X y Yn

d−→ Y con X y Y independientes,

entonces

Xn + Ynd−→ X + Y .

Demostracion: Sabemos que ϕXn+Yn(t) = ϕXn(t)ϕYn(t) por lo que cuando n→∞ obtenemos que

ϕXn+Yn(t)→ ϕX+Y (t), por lo que el teorema 6.3.1 nos garantiza que Xn + Ynd−→ X + Y .

En ocasiones se tienen mezclas de los tipos de convergencia como se puede apreciar en la siguienteproposicion y teorema.

Proposicion 6.5.4. Sean X1, X2, ..., Y1, Y2, ... variables aleatorias tales que

Xnd−→ X y Yn

d−→ a

86 CAPITULO 6. SUCESIONES DE VARIABLES ALEATORIAS

donde a es una constante, entonces

Xn + Ynd−→ X + a.

Demostracion: Se deja como ejercicio 18.

Teorema 6.5.5 (Teorema Slutsky). Sean X1, X2, ..., Y1, Y2, ... variables aleatorias. Supongamosque

Xnd−→ X y Yn

p−→ a

donde a es una constante. Entonces

1. Xn + Ynd−→ X + a.

2. Xn − Ynd−→ X − a.

3. XnYnd−→ Xa.

4.Xn

Yn

d−→ X

a, para a 6= 0.

Demostracion: Se deja como ejercicio 19.

Ejemplo 6.5.6. Sean X1, X2, ... independientes con distribucion uniforme en (0, 1). Demuestre que

X1 + · · ·+Xn

X21 + · · ·+X2

n

d−→ 3

2.

Solucion: Notemos que

X1 + · · ·+Xn

X21 + · · ·+X2

n

=(X1 + · · ·+Xn)/n

(X21 + · · ·+X2

n)/n.

Por otro lado, tenemos por el teorema 6.3.7 tenemos que

X1 + · · ·+Xn

n

d−→ E[X1] =1

2

y que

X21 + · · ·+X2

n

n

d−→ E[X21 ] =

1

3

por lo que por el teorema 6.5.5 concluimos que

X1 + · · ·+Xn

X21 + · · ·+X2

n

d−→ 3

2.

Ejemplo 6.5.7. Sean X1, X2, ... variables aleatorias independientes con funcion de densidad

f(x) =1

2e−|x|.

Demuestre que

√nX1 + · · ·+Xn

X21 + · · ·+X2

n

d−→ N(0, σ2)

y determina σ2.

Solucion: Notemos que E[Xi] = 0 y que E[X2i ] = 2. Reescribiendo la fraccion obtenemos que

6.5. CONVERGENCIA DE SUMAS DE SUCESIONES DE VARIABLES ALEATORIAS 87

√nX1 + · · ·+Xn

X21 + · · ·+X2

n

=(X1 + · · ·+Xn)/

√n

(X21 + · · ·+X2

n)/n

y por el teorema del lımite central obtenemos el siguiente resultado para el numerador

X1 + · · ·+Xn√n

=√

2X1 + · · ·+Xn√

2√n

d−→√

2N(0, 1)d= N(0, 2).

Por otro lado por el teorema 6.3.7 obtenemos la convergencia para el denominador

X21 + · · ·+X2

n

n

p−→ E[X2i ] = 2.

Ası que por el teorema 6.5.5 concluimos que

√nX1 + · · ·+Xn

X21 + · · ·+X2

n

d−→ N(0, 2)

2= N

0,

1

2

y conclumos que σ2 =

1

2.

Terminamos esta unidad con dos resultados que relacionan la funcion de una sucesion de variablesaleatorias con la misma funcion evaluada en el lımite en probabilidad de la sucesion de variablesaleatorias cuando la funcion es continua.

Teorema 6.5.8. Sean X1, X2, ... variables aleatorias tales que

Xnp−→ a

donde a es constante. Suponga que g es una funcion continua en a, entonces cuando n → ∞ secumple

g(Xn)p−→ g(a).

Demostracion: La continuidad de g en a implica que para toda ε > 0 existe una δ > 0 tal que si

|x− a| < δ entonces |g(x)− g(a)| < ε

o en forma equivalente, para toda ε > 0 existe una δ > 0 tal que si

|g(x)− g(a)| > ε entonces |x− a| > δ.

De lo anterior se sigue que

w : |g(Xn(w))− g(a)| > ε ⊂ w : |Xn(w)− a| > δ

esto es, para toda ε > 0 existe una δ > 0 tal que

P (|g(Xn)− g(a)| > ε) ≤ P (|Xn − a| > δ)

de donde se sigue el resultado ya que cuando n→∞

P (|Xn − a| > δ)→ 0.

Existe un resultado mas general que no demostraremos debido a su complejidad.

Teorema 6.5.9. Sean X1, X2, ... variables aleatorias tales que

Xnp−→ X

y g una funcion continua, entonces

g(Xn)p−→ g(X).

88 CAPITULO 6. SUCESIONES DE VARIABLES ALEATORIAS

6.6. Ejercicios

1. Sea Xn, n ≥ 1 una sucesion de variables aleatorias independientes e identicamente distribui-das con funcion de densidad

f(x) =

¨e−(x−a) x ≥ a0 x < a

Definamos Yn = minX1, ..., Xn. Demuestra que cuando n→∞ se cumple

Ynp−→ a.

2. Sean X1, X2, ... variables aleatorias independientes e identicamente distribuidas. Sea a ∈ R elvalor mas pequeno para el cual se cumple que P (Xk ≤ a) = 1. Demuestra que cuando n→∞entonces

max1≤k≤n

Xkp−→ a.

3. Sean X1, X2, ... variables aleatorias independientes con distribucion Cauchy(0, 1). Determinala distribucion lımite cuando n→∞ de

Yn =1

nmaxX1, ..., Xn.

4. Sean X1, X2, ... una sucesion de variables aleatorias tales que

P

Xn =

k

n

=

1

npara k = 1, ..., n.

Determina la distribucion lımite de Xn cuando n→∞.

5. Sean Xn, n ≥ 1 variables aleatorias con distribucion Bin(n, pn).

a) Supongamos que npn → m cuando n → ∞. Demuestra que cuando n → ∞ entonces

Xnd−→ Y donde Y se distribuye Poisson(m).

b) Supongamos que pn → 0 y que npn →∞ cuando n→∞. Demuestra que cuando n→∞Xn − npn√

npn

d−→ Y

donde Y ∼ N(0, 1).

c) Supongamos que npn(1 − pn) → ∞ cuando n → ∞. Demuestra que cuando n → ∞entonces

Xn − npnÈnpn(1− pn)

d−→ Y

donde Y ∼ N(0, 1).

6. Sea Xn, n ≥ 1 una sucesion de variables aleatorias con distribucion Binn2,

m

n

con m > 0.

Demuestra que cuando n→∞ entonces

Xn − nm√nm

d−→ Y

donde Y ∼ N(0, 1).

6.6. EJERCICIOS 89

7. Sean Xn1, Xn2, ..., Xnn variables aleatorias independientes con funcion de distribucion comun

P (Xnk = 0) = 1− 1

n− 1

n2, P (Xnk = 1) =

1

ny P (Xnk = 2) =

1

n2

donde k = 1, ..., n y n = 1, 2, .... Para n ≥ 1, sea Sn = Xn1 + · · ·+Xnn. Demuestra que cuando

n→∞ entonces Snd−→ Y donde Y ∼ Poisson(1).

8. Proporciona todos los detalles de la observacion 6.2.30.

9. Sean X1, X2, ... variables aleatorias independientes e identicamente distribuidas con funcioncaracterıstica

ϕ(t) =

(1−

È|t|(2− |t|) |t| < 1

0 |t| ≥ 1

Sea Sn = X1+· · ·+Xn. Demuestra queSnn2

converge en distribucion y determina la distribucion

lımite cuando n→∞.

10. Sean N,X1, X2, ... variables aleatorias independientes tales que N ∼ Poisson(λ) y Xn ∼Poisson(µ). Determina la distribucion lımite de SN = X1 + · · ·+XN cuando λ→∞ y µ→ 0tal que λµ→ γ > 0. (Considera que S0 = 0.)

11. SeanX1, X2, ... variables aleatorias independientes con dustribucion Poisson(m) y supongamosque N ∼ Geometrica(p) es independiente de X1, X2, .... Definamos SN = X1 + · · · + XN

(S0 = 0). Supongamos que m→ 0 y p→ 0 de tal forma quep

m→ α > 0. Demuestra que SN

converge en distribucion y determina la distribucion lımite.

12. SeanX1, X2, ... variables aleatorias independientes con distribucion U(0, 1) y seaNm ∼ Poisson(m)independiente de X1, X2, .... Definamos Vm = maxX1, ..., XNm con Vm = 0 cuando Nm = 0.

a) Determina la funcion de distribucion de Vm.

b) Determina la funcion generadora de momentos de Vm.

c) Demuestra que E[Vm]→ 1 cuando m→∞.

d) Demuestra que m(1−Vm) converge en distribucion cuando m→∞ y determina el lımite.

13. Se tienen dos dados A y B con las siguientes caracterısticas: el dado A tiene dos caras blancasy cuatro rojas, mientras que el dado B tiene dos caras rojas y y cuatro blancas. Una monedaes lanzada para decidir cual de los dos dados sera lanzado primero y cual de segundo. SeaXn, n ≥ 1 una sucesion de variables aleatorias definidas como sigue

Xn =

¨1 si se obtiene una cara roja

0 si se obtiene una cara blanca

en el n−esimo lanzamiento. Demuestra que la ley de los grandes numeros no se puede aplicarpara esta sucesion. ¿Por que sucede esto?

14. Aplicando el teorema del lımite central para variables Poisson independientes escogidas demanera adecuada, demuestra que

lımn→∞

e−nnXk=0

nk

k!=

1

2.

15. Sean X1, X2, ... variables aleatorias independientes con distribucion U(−1, 1).

90 CAPITULO 6. SUCESIONES DE VARIABLES ALEATORIAS

a) Demuestra que

Yn =

nXk=1

Xk

nXk=1

X2k +

nXk=1

X3k

converge en probabilidad cuando n→∞. Determina el lımite.

b) Demuestra que Yn, adecuadamente normalizado, converge en distribucion cuando n→∞y determina el lımite.

16. Sea Xn ∼ Gamma(n, 1) y sea

Yn =Xn − n√

Xn

.

Demuestra que cuando n→∞ entonces Ynd−→ Y donde Y ∼ N(0, 1).

17. Sea Yn, n ≥ 1 variables aleatorias independientes con distribucion U(−1, 1) y sea

Xn =

nXk=1

Yk

√n max

1≤k≤nYk

.

Demuestra que cuando n→∞ entonces Xnd−→ Y donde Y ∼ N

0,

1

3

.

18. Demuestra la proposicion 6.5.4.

19. Demuestra el teorema 6.5.5.

20. Sean X1, X2, ... variables aleatorias tales que Xnp−→ 2. Entonces

X2n

p−→ 4.

21. Sean X1, X2, ... variables aleatorias independientes e identicamente distribuidas con mediafinita µ ≥ 0. Demuestre que È

Xn −→√µ.

22. Sean X1, X2, ... variables aleatorias independientes con distribucion normal estandar. Demues-tra que

X1Ì1

n

nXi=1

X2i

−→ N(0, 1).

23. Sean Z1, Z2, ... variables aleatorias normal estandar y Yn ∼ χ2n independientes. Definamos para

n = 1, 2, ...

Tn =ZnÉYnn

6.6. EJERCICIOS 91

y demuestre que

Tnd−→ N(0, 1).

24. Sean X1, X2, ... variables aleatorias tales

X1 = 1, P (Xn = 1) = 1− 1

ny P (Xn = n) =

1

npara n ≥ 2.

Sea X independiente de Xn, n ≥ 1 normal estandar. Definamos Yn = XXn para n ≥ 1.Demuestre que cuando n→∞ se cumple

Ynd−→ N(0, 1), E[Yn] = 0 y V ar(Yn)→∞.

92 CAPITULO 6. SUCESIONES DE VARIABLES ALEATORIAS

Capıtulo 7

Estadısticos de orden

7.1. Introduccion a los estadısticos de orden

Supongamos que las variables X1, X2, ..., X32 representan la proporcion de votantes que tienenpreferencia por determinado partido polıtico en los 32 estados de la republica mexicana y deseamosconocer la probabilidad de que la proporcion mas baja este por encima del 30 % o que la proporcionmas alta este por debajo del 50 %. Dichas variables (la proporcion mas pequena y la mas alta) soncasos particulares de lo que conocemos como estadısticos de orden.

Definicion 7.1.1. Sea X1, .., Xn una muestra aleatoria (por lo tanto hay independencia de lasvariables). Para k = 1, ..., n, definimos el k−esimo estadıstico de orden, denotado por X(k), comola k−esima variable mas pequena entre X1, ..., Xn. Al vector aleatorio (X(1), ..., X(n)) se le conocecomo el estadıstico de orden de las variables X1, ..., Xn.

En el ejemplo mencionado anteriormente, la proporcion mas baja de entre las proporcionesX1, X2, ..., X32 es X(1) y la proporcion mas alta es X(32).

Observacion 7.1.2. El estadıstico de orden de las variables X1, ..., Xn es obtenido de la muestraoriginal mediante una permutacion de las variables y ademas X(1) ≤ X(2) ≤ ... ≤ X(n).

En muchas ocasiones es necesario considerar el numero n de observaciones originales e indicarloen el estadıstico de orden de la siguiente manera (X(1:n), ..., X(n:n)).

7.2. Distribucion del mınimo, maximo y rango de los es-tadısticos de orden

Definicion 7.2.1. Sea X1, ..., Xn una muestra aleatoria. Los estadısiticos de orden menor y mayorestan dados respectivamente por

X(1) = mınX1, ..., Xn y X(n) = maxX1, ..., Xn.

Proposicion 7.2.2. Sean X1, .., Xn variables aleatorias independientes e identicamente distribuidascon funcion de distribucion comun F . Sean X(1) y X(n) los estadısiticos de orden menor y mayor,respectivamente, entonces:

1. FX(n)(x) = (F (x))n.

2. FX(1)(x) = 1− (1− F (x))n.

Demostracion:

93

94 CAPITULO 7. ESTADISTICOS DE ORDEN

1. Por definicion e independencia tenemos que

FX(n)(x) = P (maxX1, ..., Xn ≤ x)

= P (X1 ≤ x, ...,Xn ≤ x)

= P (X1 ≤ x) · · ·P (Xn ≤ x)

= (F (x))n.

2. Por definicion e independencia tenemos que

FX(1)(x) = 1− P (X(1) > x)

= 1− P (mınX1, ..., Xn > x)

= 1− P (X1 > x, ...,Xn > x)

= 1− P (X1 > x) · · ·P (Xn > x)

= 1− (1− F (x)) · · · (1− F (x))

= 1− (1− F (x))n.

Corolario 7.2.3. Sean X1, .., Xn variables aleatorias continuas independientes e identicamente dis-tribuidas con funcion de densidad comun f y funcion de distribucion comun F . Sean X(1) y X(n)

los estadısticos de orden menor y mayor, respectivamente, entonces:

1. fX(n)(x) = n(F (x))n−1f(x).

2. fX(1)(x) = n(1− F (x))n−1f(x).

Demostracion:

1. Por la proposicion 7.2.2 tenemos que

fX(n)(x) =

d

dxFX(n)

(x)

=d

dx(F (x))n

= n(F (x))n−1 d

dxF (x)

= n(F (x))n−1f(x).

2. Nuevamente, por la proposicion 7.2.2 tenemos que

fX(1)(x) =

d

dxFX(1)

(x)

=d

dx[1− (1− F (x))n]

= −n(1− F (x))n−1 d

dx[1− F (x)]

= −n(1− F (x))n−1(−f(x))

= n(1− F (x))n−1f(x).

Ejemplo 7.2.4. En una carrera de 100m planos, los tiempos de llegada de cada competidor sepueden suponer distribuidos uniformemente en el intervalo (9.8, 10.2). ¿Cual es la probabilidad deque el ganador llegue antes de 9.86 seg?

7.2. DISTRIBUCION DEL MINIMO, MAXIMO Y RANGO DE LOS ESTADISTICOS DE ORDEN95

Solucion: Sabemos que la funcion de distribucion de la variable uniforme esta dada por

F (x) =

8><>:0, x ≤ 9.8x− 9.8

0.4, 9.8 < x < 10.2

1, x ≥ 10.2

Por la proposicion 7.2.2 concluimos que

FX(1)(9.86) = 1− (1− F (9.86))8

= 1−

1− 9.86− 9.8

0.4

8

= 0.7275.

Ahora encontraremos la funcion de densidad del k−esimo estadıstico de orden. Pero antes, enun-

ciaremos dos lemas que utilizaremos en la prueba.

Lema 7.2.5. Para 1 < k < n se cumpleZ z

0yk−1(1− y)n−kdy = −z

k−1(1− z)n−k+1

n− k + 1+

k − 1

n− k + 1

Z z

0yk−2(1− y)n−k+1dy.

Demostracion: Realicemos la integral por el metodo de integracion por partes. Sea u = yk−1 y

dv = (1− y)n−kdy, luego du = (k − 1)yk−2dy y v = − (1− y)n−k+1

n− k + 1. Por lo tantoZ z

0yk−1(1− y)n−kdy = −y

k−1(1− y)n−k+1

n− k + 1

z0

+

Z z

0

k − 1

n− k + 1yk−2(1− y)n−k+1dy

= −zk−1(1− z)n−k+1

n− k + 1+

k − 1

n− k + 1

Z z

0yk−2(1− y)n−k+1dy.

Lema 7.2.6. Para k = 1, ..., n se cumple que

nXi=k

ni

zi(1− z)n−i =

Γ(n+ 1)

Γ(k)Γ(n+ 1− k)

Z z

0yk−1(1− y)n−kdy

donde Γ(u) = (u− 1)!.

Demostracion: Procederemos por induccion sobre k de manera decreciente:

1. Para k = n, es claro que se cumple pues

nXi=n

ni

zi(1− z)n−i = zn =

Γ(n+ 1)

Γ(n)Γ(n+ 1− n)

Z z

0yn−1(1− y)n−ndy

.

2. Supongamos cierto el resultado para k y probemos que se cumple para k− 1. Por hipotesis deinduccion tenemos que

nXi=k

ni

zi(1− z)n−i =

Γ(n+ 1)

Γ(k)Γ(n+ 1− k)

Z z

0yk−1(1− y)n−kdy

96 CAPITULO 7. ESTADISTICOS DE ORDEN

pero el lema 7.2.5 nos dice queZ z

0yk−1(1− y)n−k = −z

k−1(1− z)n−k+1

n− k + 1+

k − 1

n− k + 1

Z z

0yk−2(1− y)n−k+1dy.

Por lo tantonX

i=k

ni

zi(1 − z)n−i =

Γ(n + 1)

Γ(k)Γ(n + 1 − k)

−zk−1(1 − z)n−k+1

n− k + 1+

k − 1

n− k + 1

Z z

0

yk−2(1 − y)n−k+1dy

= − Γ(n + 1)

Γ(k)Γ(n + 2 − k)zk−1(1 − z)n−k+1

+Γ(n + 1)

Γ(k − 1)Γ(n + 2 − k)

Z z

0

yk−2(1 − y)n−k+1dy

= −

nk − 1

zk−1(1 − z)n−k+1

+Γ(n + 1)

Γ(k − 1)Γ(n + 2 − k)

Z z

0

yk−2(1 − y)n−k+1dy

Pasando el termino −

nk − 1

zk−1(1 − z)n−k+1 al lado izquierdo de la igualdad obtenemos que

nXi=k−1

ni

zi(1 − z)n−i =

Γ(n + 1)

Γ(k − 1)Γ(n + 1 − (k − 1))

Z z

0

y(k−1)−1(1 − y)n−(k−1)dy.

Teorema 7.2.7. Sean X1, ..., Xn variables aleatorias independientes con funcion de distribucioncomun F . Para k = 1, ..., n se tiene que

FX(k)(x) =

Γ(n+ 1)

Γ(k)Γ(n+ 1− k)

Z F (x)

0yk−1(1− y)n−kdy.

es decir, FX(k)(x) = Fβ(k,n+1−k)(F (x)) lo que significa que la funcion de distribucion del k−esimo

estadıstico de orden, es la funcion de distribucion de una variable aleatoria Beta(k, n+1−k) evaluadaen F (x).

Demostracion: Para i = 1, ..., n definamos los eventos

Ai(x) = exactamente i variables de X1, ..., Xn son menores o iguales que x.

Notemos que dichos eventos son disjuntos pues si para i < j se tiene que Ai(x)∩Aj(x) 6= ∅, entoncesexactamente i y j variables son menores o iguales a x, lo cual contradice que i < j. Luego

FX(k)(x) = P (X(k) ≤ x)

= P

n[i=k

Ai(x)

!=

nXi=k

P (Ai(x))

=nXi=k

ni

(F (x))i(1− F (x))n−i.

Por el lema 7.2.6 obtenemos que

FX(k)(x) =

Γ(n+ 1)

Γ(k)Γ(n+ 1− k)

Z F (x)

0yk−1(1− y)n−kdy.

7.2. DISTRIBUCION DEL MINIMO, MAXIMO Y RANGO DE LOS ESTADISTICOS DE ORDEN97

Corolario 7.2.8. Sean X1, ..., Xn variables aleatorias continuas independientes con funcion de dis-tribucion comun F y funcion de densidad f . Entonces, para k = 1, ..., n la funcion de densidad dela variable X(k) es

fX(k)(x) =

Γ(n+ 1)

Γ(k)Γ(n+ 1− k)(F (x))k−1(1− F (x))n−kf(x)

es decir fX(k)(x) = fβ(k,n+1−k)(F (x))f(x).

Demostracion: Se sigue de aplicar el primer teorema fundamental del calculo al resultado delteorema 7.2.7.

Aunque en la siguiente seccion enunciaremos y demostraremos de manera general cual es lafuncion de densidad conjunta del estadıstico de orden, ahora vamos a calcular la funcion de densidadconjunta de X(1) y X(n) pues sera util para calcular la funcion de densidad de la variable “rango”que definiremos posteriormente.

Teorema 7.2.9. Sea X1, ..., Xn una muestra de variables aleatorias continuas con funcion de dis-tribucion comun F y funcion de densidad comun f . Entonces la funcion de densidad conjunta deX(1) y X(n) es

fX(1),X(n)(x, y) =

¨n(n− 1)(F (y)− F (x))n−2f(y)f(x), x < y

0, otro caso.

Demostracion: Tenemos que

P (X(1) > x,X(n) ≤ y) = P (x < Xi ≤ y, para todo k = 1, ..., n)

=nYi=1

P (x < Xi ≤ y)

= (F (y)− F (x))n para x < y.

Por otro lado, P (X(1) ≤ x,X(n) ≤ y) + P (X(1) > x,X(n) ≤ y) = P (X(n) ≤ y), lo que equivale a

FX(1),X(n)(x, y) = FX(n)

(y)− P (X(1) > x,X(n) ≤ y)

=

¨(F (y))n − (F (y)− F (x))n, x < y

(F (y))n, x ≥ y.

Por lo tanto,

fX(1),X(n)(x, y) =

∂2

∂x∂yFX(1),X(n)

(x, y) =

¨n(n− 1)(F (y)− F (x))n−2f(y)f(x), x < y

0, otro caso.

Definicion 7.2.10. Sea X1, ..., Xn una muestra aleatoria. El rango Rn esta dado por la expresionRn = X(n) −X(1).

Teorema 7.2.11. Sea X1, ..., Xn una muestra aleatoria con funcion de distribucion comun F yfuncion de densidad comun f . Entonces

fRn(r) = n(n− 1)

Z ∞−∞

(F (u+ r)− F (u))n−2f(u+ r)f(u)du.

para r > 0.

Demostracion: Ver ejercicio 6.

98 CAPITULO 7. ESTADISTICOS DE ORDEN

Ejemplo 7.2.12. Si Xi ∼ U(0, 1), determina:

1. La funcion de densidad de la variable Rn.

2. E[Rn].

Solucion:

1. Sabemos que la funcion de densidad y distribucion, respectivamente de cada variable Xi es

f(x) =

¨1, 0 < x < 1

0, otro casoy F (x) =

8><>:0, x ≤ 0

x, 0 < x < 1

1, x ≥ 1

.

Luego por el teorema 7.2.11 tenemos que

fRn(r) = n(n− 1)

Z ∞−∞

(F (u+ r)− F (u))n−2f(u+ r)f(u)du

= n(n− 1)

Z 1−r

0(u+ r − u)n−2 · 1 · 1du

= n(n− 1)rn−2(1− r), 0 < r < 1

lo que implica que Rn es una variable Beta(n− 1, 2).

2. Por definicion de esperanza, tenemos que

E[Rn] =

Z 1

0rn(n− 1)rn−2(1− r)dr

= n(n− 1)

Z 1

0(rn−1 − rn)dr

= n(n− 1)

1

n− 1

n+ 1

=

n− 1

n+ 1.

Ejemplo 7.2.13. Sean X1, ..., Xn variables aleatorias independientes que se distribuyen exp(1).Determina:

1. fX(1),X(n)(x, y).

2. fRn(r).

Solucion: Sabemos que las funciones de densidad y distribucion, respectivamente, de la variableexponencial con parametro 1 son

f(x) =

¨0, x < 0

e−x, x > 0y F (x) =

¨0, x < 0

1− e−x, x > 0

1. Por el teorema 7.2.9 tenemos que para 0 < x < y

fX(1),X(n)(x, y) = n(n− 1)(1− e−y − (1− e−x))n−2 · e−y · e−x

= n(n− 1)(e−x − e−y)n−2e−(x+y)

y cero en otro caso.

7.3. DISTRIBUCION CONJUNTA DE LOS ESTADISTICOS DE ORDEN 99

2. Del teorema 7.2.11 se sigue que

fRn(r) = n(n− 1)

Z ∞0

(1− e−(u+r) − (1− e−u))n−2 · e−(u+r) · e−udu

= n(n− 1)

Z ∞0

(e−u − e−(u+r))n−2e−(2u+r)du

= n(n− 1)

Z ∞0

e−u(n−2)(1− e−r)n−2e−(2u+r)du

= n(n− 1)(1− e−r)n−2e−rZ ∞

0e−nudu

= n(n− 1)(1− e−r)n−2e−r−1

ne−nu

∞0

= (n− 1)(1− e−r)n−2e−r, r > 0.

7.3. Distribucion conjunta de los estadısticos de orden

Definicion 7.3.1. Una matriz A de tamano n× n, es una matriz de permutacion si tiene un 1 encada fila, un 1 en cada columna y cero en el resto de las posiciones.

Ejemplo 7.3.2. Las matrices A =

1 0 00 0 10 1 0

y B =

0 0 1 00 1 0 00 0 0 11 0 0 0

son matrices de permuta-

cion porque

A

abc

=

1 0 00 0 10 1 0

abc

=

acb

y B

abcd

=

0 0 1 00 1 0 00 0 0 11 0 0 0

abcd

=

cbda

es decir, solo cambian el orden de las entradas de cada uno de las vectores. Notemos que el deter-minante de una matriz de permutacion solo puede ser ±1.

Como trabajamos con una muestra aleatoria X1, ..., Xn, sabemos que existe independencia entrelas variables y que ademas, tienen la misma funcion de densidad f , por lo que

fX1,...,Xn(x1, ..., xn) =nYi=1

f(xi). (7.1)

Ahora consideremos la permutacion σ(X1, ..., Xn) = (X(1), ..., X(n)), la cual puede ser vista enforma de matrices como

X(1)

...X(n)

= P

X1

...Xn

donde P es una matriz de permutacion. Notemos que si la entrada Pij = 1, entonces significarıaque X(i) = Xj . Sin embargo, el mapeo σ no es inyectivo, pues por simetrıa, existen n! entra-das que generan el mismo estadıstico de orden; por ejemplo, si n = 3 y el estadıstico de orden(X(1), X(2), X(3)) = (2, 3, 8), entonces los valores de las variables (X1, X2, X3) que originan dichoestadıstico pueden ser (2, 3, 8), (2, 8, 3), (3, 8, 2), (3, 2, 8), (8, 3, 2) y (8, 2, 3).

Hagamos una particion del espacio Rn en n! regiones que llamaremos R1, R2, ..., Rn! de tal maneraque el mapeo σ sea inyectivo en cada una de las regiones. Vamos aplicar el teorema de cambio de

100 CAPITULO 7. ESTADISTICOS DE ORDEN

variable en cada una de las regiones anteriores. Supongamos que X(1) = y1, ..., X(n) = yn, lo cualquiere decir que y1 ≤ y2 ≤ ... ≤ yn. A manera de ejemplo y sin perder generalidad supongamos quela region R1 es aquella donde

X1

X2

...Xn

=

ynyn−1

...y1

,

es decir, que la matriz de permutacion P =

0 0 · · · 0 10 0 · · · 1 0...

.... . .

......

0 1 · · · 0 01 0 · · · 0 0

pues

X(1)

X(2)

...X(n−1)

X(n)

=

0 0 · · · 0 10 0 · · · 1 0...

.... . .

......

0 1 · · · 0 01 0 · · · 0 0

ynyn−1

...y2

y1

,

entonces el determinante jacobiano J1 de la matriz P es −1. Por el teorema de cambio de variabley la ecuacion (7.1) tendrıamos que

f1X(1),X(2),...,X(n−1),X(n)

(y1, y2, ..., yn−1, yn) = fX1,X2,...,Xn−1,Xn(yn, yn−1, ..., y2, y1)|J1| =nYi=1

f(yi).

Repitiendo este proceso para cada una de las n! regiones Rj tendrıamos que

f jX(1),X(2),...,X(n−1),X(n)(y1, y2, ..., yn−1, yn) =

nYi=1

f(yi).

Por lo tanto, concluimos que

fX(1),X(2),...,X(n−1),X(n)(y1, y2, ..., yn−1, yn) =

n!Xj=1

f jX(1),X(2),...,X(n−1),X(n)(y1, ..., yn)

=n!Xj=1

nYi=1

f(yi)

= n!nYi=1

f(yi).

La argumentacion previa, demuestra el siguiente teorema.

Teorema 7.3.3. Sea X1, ..., Xn una muestra de variables aleatorias con funcion de densidad conti-nua comun f . Entonces

fX(1),...,X(n)(y1, ..., yn) =

8><>:n!nYk=1

f(yk), y1 < y2 < ... < yn

0, otro caso.

7.4. DISTRIBUCIONES MARGINALES DE LOS ESTADISTICOS DE ORDEN 101

7.4. Distribuciones marginales de los estadısticos de orden

Del teorema 7.3.3 podemos obtener cualquier funcion marginal por integracion, por ejemplo, lasmarginales simples

fX(k)(yk) =

Z ∞−∞· · ·Z ∞−∞

Z ∞−∞· · ·Z ∞−∞

fX(1),...,X(n)(y1, ..., yn)dy1...dyk−1dyk+1...dyn.

Ejemplo 7.4.1. Sean X1, X2, X3 una muestra aleatoria de variables aleatorias U(0, 1). Determinalas funciones de densidad marginal conjunta de las variables:

1. X(1) y X(2).

2. X(1) y X(3).

3. X(2) y X(3).

Solucion: Notemos que la funcion de densidad de cada una de las variables es

f(x) =

¨1, 0 < x < 1

0, otro caso

Luego, por el teorema 7.3.3 la funcion de densidad conjunta del estadıstico de orden es

fX(1),X(2),X(3)(y1, y2, y3) =

¨6, 0 < y1 < y2 < y3 < 1

0, otro caso

donde los lımites 0 y 1 aparecen porque las variables se encuentran en el intervalo (0, 1). Entonces

1. fX(1),X(2)(y1, y2) =

Z 1

y2

6dy3 = 6(1− y2) para 0 < y1 < y2 < 1.

2. fX(1),X(3)(y1, y3) =

Z y3

y1

6dy2 = 6(y3 − y1) para 0 < y1 < y3 < 1.

3. fX(2),X(3)(y2, y3) =

Z y2

06dy1 = 6y2 para 0 < y2 < y3 < 1.

7.5. Ejercicios

1. Cien numeros uniformemente distribuidos en el intervalo (0, 1) son generados por una compu-tadora. Determina:

a) La probabilidad de que el mas grande de los numeros sea cuando mucho 0.9.

b) La probabilidad de que el segundo mas pequeno de los numeros sea al menos 0.002.

2. Supongamos que la distribucion F de cada una de las variables X1, ..., Xn es continua. CalcularP (X1 = X(1), ..., Xn = X(n)).

3. Utiliza el resultado obtenido en el teorema 7.2.7 para demostrar que las funciones de distribu-cion de los estadısticos de orden X(1) y X(n) coinciden con las expresiones de las funciones dedistribucion de la proposicion 7.2.2.

4. Utiliza el resultado obtenido en el corolario 7.2.8 para demostrar que las funciones de densidadde los estadısticos de orden X(1) y X(n) coinciden con las expresiones de las funciones dedensidad del corolario 7.2.3.

102 CAPITULO 7. ESTADISTICOS DE ORDEN

5. Utiliza la expresion para la marginal del k−esimo estadıstico de orden encontrada en la seccion7.4, para demostrar que coincide con la obtenida en el corolario 7.2.8.

6. Demuestra que la densidad del rango Rn para r > 0 es

fRn(r) = n(n− 1)

Z ∞∞

(F (u+ r)− F (u))n−2f(u+ r)f(u)du.

7. En una carrera olımpica de 100m los tiempos de llegada de los corredores se distribuyenU(9.8,10.2). Si se tienen 8 competidores, calcula la probabilidad de que todos los corredoreslleguen a la meta en el intervalo (9.9,10.0).

8. Sean X1, X2 y X3 variables aleatorias independientes con distribucion exp(1). DeterminaE[X(3) | X(1) = x].

9. Sean X1 y X2 variables aleatorias independientes que siguen una distribucion exponencial conmedia 1. Demuestra que

a) R2 se distribuye exponencial con media 1.

b) R2 y X(1) son independientes.

10. Si X1 y X2 son variables aleatorias independientes que siguen una distribucion geometrica conparametro p, demuestra que R2 y X(1) son independientes.

11. Sea A un evento que se repite de manera independiente y cuya probabilidad de ocurrencia esp con 0 < p < 1. Para k = 1, 2, ... definimos Tk como el numero de repeticion en la cual Aocurre por k−esima ocasion. Calcular:

a) E(T3|T1 = 5)

b) E(T1|T3 = 5)

12. Sean X1, X2, X3 y X4 una muestra de una distribucion U(0, 1). Calcula las distribucionesmarginales y conjuntas de los estadısticos de orden. ¿Cuantas marginales hay?

13. Supongase que X,Y y Z tienen la siguiente funcion de densidad conjunta

f(x, y, z) =

e−(x+y+z) , para x, y, z > 0

0 , otro caso

Calcular P (X < Y < Z).

14. Sean X1 y X2 independientes distribuidas uniformemente en el intervalo (0, 1). Determina ladistribucion de Y = maxX1, X2.

15. Supongase que X1, X2, ... son variables aleatorias i.i.d. Calcular P (Y < Z) si

Y = maxX1, ..., Xn y Z = minXn+1, ..., Xn+m.

16. Juanito tuvo que esperar T0 minutos el camion que va de la escuela al centro un dıa que tenıaque llegar temprano a su casa. A partir de entonces, decidio tomar el tiempo T1, T2, ... quetardaba en pasar el camion. Sea N el numero de veces que espero el camion hasta que Tk > T0,es decir, N = k = Tj 6 T0, 1 6 j < k, Tk > T0. Si Tn, n > 0 son variables aleatorias iid.Determina:

a) La distribucion de N .

b) E[N ].

7.5. EJERCICIOS 103

17. Sean X1, ..., Xn variables aleatorias independientes continuas con funcion de distribucion F .Calcula E[F (X(n))− F (X(1))].

18. Determina el coeficiente de correlacion ρX(1),X(3)para las variables aleatorias independientes

X1, X2 y X3 que se distribuyen exponencial con media 1.

19. Supongase que X ∈ U(0, 1) y defınase Vi =X(i)

X(i+1)para i = 1, ..., n−1 y Vn = X(n). Demuestra

que V1, ..., Vn son independientes.

20. Sean X1, ..., Xn variables aleatorias independientes distribuidas exponencialmente con media1a . Defınase Y1 = X(1) y Yk = X(k) −X(k−1) para k = 2, ..., n. Realiza lo que se te pide:

a) Demuestra que Y1, ..., Yn son independientes.

b) Halla la distribucion de Yi para 1 6 i 6 n.

c) Determina E[X(n)] y V ar[X(n)].

d) Si a = 1, demuestra que

Z ∞0

nx(1− e−x)n−1e−xdx = 1 +1

2+

1

3+ · · ·+ 1

n.

21. El numero de individuos N en una poblacion sigue la distribucion del primer exito con parame-tro p. El tiempo de vida de los individuos sigue una distribucion exponencial con media 1

a y esindependiente entre sı e independiente de N . Determina la distribucion de la vida mas corta.

22. Sean X ∈ U(0, 1) y N ∼Poisson (λ) independiente de X. Considerese Y = maxX1, ..., XN(Y = 0 si N = 0) para determinar E[Y ].

23. Supongase que X1, X2, ... son variables aleatorias independientes con funcion de distribu-cion F . Supongase que N es una variable aleatoria que toma valores enteros no negati-vos con funcion generadora de probabilidades g(t). Si X1, X2, ... y N son independientes yY = maxX1, ..., XN demuestrese que FY (y) = g(F (y)).

104 CAPITULO 7. ESTADISTICOS DE ORDEN

Capıtulo 8

Distribucion normal multivariada

8.1. Conceptos necesarios

Para estudiar las propiedades de la variable aleatoria normal bivariada, es necesario recordaralgunos conceptos y resultados del algebra de matrices. Es por esto, que dedicaremos esta secciona recordar dichos conceptos sin demostrar los resultados que se mencionan. Es importante senalarque todos los vectores considerados seran vectores columna a menos de que se indique lo contrario.

Definicion 8.1.1. Una matriz A de tamano m×n con entradas en los numeros complejos C, es un

arreglo de la forma

a11 · · · a1n

.... . .

...am1 · · · amn

donde aij ∈ C para toda i = 1, ...,m y j = 1, ..., n. Decimos

que la matriz A es cuadrada si m = n.

Definicion 8.1.2. Sea A una matriz de m × n. La matriz transpuesta de A denotada por At esaquella matriz de tamano n×m cuyas entradas bij = aji.

Ejemplo 8.1.3. Las matrices transpuestas de A =

1 −22i 3

y B =

1 2 −i0√

2 π−1 0 2

son At =

1 2i−2 3

y Bt =

1 0 −1

2√

2 0−i π 2

.

Definicion 8.1.4. Una matriz cuadrada A es diagonal si aij = 0 para i 6= j.

Ejemplo 8.1.5. Las siguientes matrices son diagonales:2i 00 −1

,

1 0 00 −2 00 0 2 + i

y

i 0 0 00 −2i 0 00 0 −i 0

0 0 0√

2

.

Definicion 8.1.6. Una matriz cuadrada A es simetrica si aij = aji.

Ejemplo 8.1.7. Las siguientes matrices son simetricas:2i 22 −1

,

1 3 −13 −2 i−1 i 2 + i

y

i 0 0 00 −2i 0 00 0 −i 0

0 0 0√

2

.

Definicion 8.1.8. un elemento λ ∈ C es un eigenvalor de la matriz cuadrada A si existe un vectorx 6= 0 con entradas en C tal que Ax = λx. Al vector x se le conoce como eigenvector.

105

106 CAPITULO 8. DISTRIBUCION NORMAL MULTIVARIADA

Recordemos que asociado a una matriz A, existe un polinomio caracterıstico cuyas raıces son loseigenvalores de la matriz A. Dicho polinomio caracterıstico es det(A− λIn×n).

Ejemplo 8.1.9. Determina los eigenvectores propios de la matriz A =

−3 20 1

.

Solucion: Primero calcularemos los eigenvalores de la matriz A que son las raıces del polinomiocaracterıstico

det(A− λI2×2) = det

−3 20 1

− λ

1 00 1

=

−3− λ 20 1− λ

= (−3− λ)(1− λ).

Dichas raıces son λ1 = 3 y λ2 = 1.

Ahora calculemos los eigenvectores para el eigenvalor λ1 = −3. Si

xy

es un eigenvector para el

eigenvalor λ1 = −3 entonces −3 20 1

xy

= −3

xy

−3x+ 2y

y

=

−3x−3y

de donde se obtiene las ecuaciones −3x+ 2y = −3x y y = −3y cuyas soluciones son y = 0 y x puede

ser cualquier valor, es decir, los eigenvectores asociados al eiegnvalor λ1 = −3 tienen la forma

x0

con x ∈ R. Un representante serıa el vector

10

.

Ahora calculemos los eigenvectores para el eigenvalor λ2 = 1. Si

xy

es un eigenvector para el

eigenvalor λ2 = 1 entonces −3 20 1

xy

= 1

xy

−3x+ 2y

y

=

xy

de donde se obtiene las ecuaciones −3x+2y = x y y = y que implican 2x = y y y puede ser cualquier

valor, es decir, los eigenvectores asociados al eiegnvalor λ2 = 1 tienen la forma

x2x

con x ∈ R. Un

representante serıa el vector

12

.

Observacion 8.1.10. Los eigenvalores de una matriz simetrica son reales.

Definicion 8.1.11. Una matriz cuadrada A es ortogonal si AtA = I.

Observacion 8.1.12. Si A es una matriz ortogonal entonces A−1 = At.

Definicion 8.1.13. Los vectores x1, ..., xn ∈ Cn son ortonormales si 〈xi, xi〉 = 1 y 〈xi, xj〉 = 0 parai = 1, ..., n e i 6= j.

Proposicion 8.1.14. Sea A una matriz simetrica. Existe una matriz ortogonal C tal que CtAC = Ddonde D es una matriz diagonal y los elementos de la diagonal son los eigenvalores λ1, ..., λn de lamatriz A. Ademas, detA =

Qni=1 λi.

Definicion 8.1.15. Una forma cuadrada definida para una matriz simetrica A de tamano n× n es

8.1. CONCEPTOS NECESARIOS 107

Q(x) = xtAx =nXi=1

nXj=1

aijxixj para x ∈ Rn.

Decimos que Q es definida positiva si Q(x) > 0 para toda x 6= 0. Decimos que Q es semidefinidapositiva si Q(x) ≥ 0 para toda x.

Proposicion 8.1.16. Q es definida positiva (semidefinida positiva) si y solo si los eigenvalores sonpositivos (no negativos).

Proposicion 8.1.17. Sean A una matriz simetrica y Ak = aij | i, j = 1, ..., k.

1. Si detAk > 0 para k = 1, ..., n entonces Q es definida positiva.

2. Si detAk ≥ 0 para k = 1, ..., n entonces Q es semidefinida positiva.

Ejemplo 8.1.18. Demuestra que la matriz

1. A =

1 −1 20 2 −1−2 0 1

es definida positiva.

2. B =

2 0 −12 0 −11 1 1

es semidefinida positiva.

Solucion: Ambos casos se concluyen a partir de la proposicion 8.1.17 pues

1. como A1 = (1), A2 =

1 −10 2

y A3 = A entonces detA1 = 1, detA2 = 2 y detA3 = 8.

2. como B1 = (2), B2 =

2 02 0

y B3 = B entonces detB1 = 2, detB2 = 0 y detB3 = 0.

Tambien se pudo demostrar utilizando la proposicion 8.1.16.

Definicion 8.1.19. Sea A una matriz invertible de tamano n×n. Para i, j = 1, ..., n, el complementoalgebraico del elemento aij es la matriz Aij de tamano (n− 1)× (n− 1) que se obtiene al eliminarla i−esima fila y la j−esima columna de la matriz A.

Ejemplo 8.1.20. Halla los complementos algebraicos A23 y A14 de la matriz

2 0 −1 −31 3 −2 −1−1 0 0 34 π e 5

.

Solucion: Para calcular A23, solo necesitamos eliminar la segunda fila y la tercera columna de la

matriz A. Luego A23 =

2 0 −3−1 0 34 π 5

. Analogamente A14 =

1 3 −2−1 0 04 π e

.

La siguiente proposicion es util para calcular la matriz inversa de cualquier matriz invertible.

Proposicion 8.1.21. Sea A una matriz invertible. Entonces A−1 = (cij) donde

cij = (−1)i+jdetAjidetA

.

Ejemplo 8.1.22. Determina la matriz inversa de A =

1 0 23 1 −11 1 1

Solucion: Notemos que detA = 6. Por otro lado los complementos algebraicos son

108 CAPITULO 8. DISTRIBUCION NORMAL MULTIVARIADA

A11 =

1 −11 1

A12 =

3 −11 1

A13 =

3 11 1

A21 =

0 21 1

A22 =

1 21 1

A23 =

1 01 1

A31 =

0 21 −1

A32 =

1 23 −1

A33 =

1 03 1

.

Luego detA11 = 2, detA12 = 4, detA13 = 2, detA21 = −2, detA22 = −1, detA23 = 1, detA31 =

−2, detA32 = −7 y detA33 = 1. Por lo tanto, la matriz inversa de A es A−1 =

13

13 − 1

3− 2

3 − 16

76

13 − 1

616

Definicion 8.1.23. Una matriz A simetrica es definida positiva (semidefinida positiva) si la formacuadratica asociada es definida positiva (semidefinida positiva).

A continuacion desarrollaremos un metodo para calcular la raız cuadarada de la matriz simetricasemidefinida positiva A, es decir, encontrar una matriz B tal que B2 = A.

Como A es simetrica, por la proposicion 8.1.14 existe una matriz ortogonal C tal que CtAC = D

donde D =

λ1 · · · 0...

. . ....

0 · · · λn

con λi eigenvalor de A. Por la proposicion 8.1.16 todos los eigenvalores

son no negativos por lo que tiene sentido definir la matriz D =

√λ1 · · · 0...

. . ....

0 · · ·√λn

. Definamos

B = CDCt, entonces

B2 = (CDCt)(CDCt) = CDIDCt = CDDCt = CDCt = A.

Por fin ya estamos listos para comenzar a estudiar la matriz de covarianzas.

8.2. Matriz de Covarianzas

Definicion 8.2.1. Sea ~X = (X1, ..., Xn) un vector aleatorio tal que V ar(Xi) <∞ para i = 1, ..., n.

1. El vector media de ~X es E[ ~X] = (E[X1], ..., E[Xn]).

2. La matriz de covarianzas de ~X es Cov( ~X) = E[( ~X−E[ ~X])( ~X−E[ ~X])t], es decir, las entradasde la matriz son λij = E[(Xi − E[Xi])(Xj − E[Xj ])] para i, j = 1, ..., n.

Observacion 8.2.2. Notemos que λii = V ar(Xi) y λij = Cov(Xi, Xj) = λji para i = 1, ..., n yj 6= i. Por lo tanto, la matriz de covarianzas Λ es simetrica.

Proposicion 8.2.3. Sea ~X un vector aleatorio. La matriz de covarianzas Cov( ~X) es semidefinidapositiva, es decir, la forma cuadratica

Q(~y) = ~ytCov( ~X)~y ≥ 0

para todo ~y.

Demostracion: Se deja como ejercicio.

Proposicion 8.2.4. Sea ~X = (X1, ..., Xn) un vector aleatorio con media µ y matriz de covarianzas

Λ. Sea A una matriz de tamano m×n y b un vector columna de tamano m. Si ~Y = A ~X+b entonces:

8.3. FUNCION DE DENSIDAD NORMAL MULTIVARIADA 109

1. E[~Y ] = Aµ+ b.

2. Cov(~Y ) = AΛAt.

Demostracion:

1. E[~Y ] = E[A ~X + b] = AE[ ~X] + b = Aµ+ b.

2. Por otro lado

Cov(~Y ) = E[(~Y − E[~Y ])(~Y − E[~Y ])t]

= E[(A ~X + b− (Aµ+ b))(A ~X + b− (Aµ+ b))t]

= E[(A ~X −Aµ)(A ~X −Aµ)t]

= E[A( ~X − µ)(A( ~X − µ))t]

= E[A( ~X − µ)( ~X − µ)tAt]

= AE[( ~X − µ)( ~X − µ)t]At

= AΛAt.

Observacion 8.2.5. Si n = 1, el teorema anterior se reduce a E[Y ] = aE[X] + b y Cov(Y ) =a2V ar(X).

Ya estamos listos para comenzar a estudiar al vector aleatorio normal multivariado.

8.3. Funcion de densidad normal multivariada

Existen tres definiciones para decir que un vector aleatorio es normal multivariado. Todas ellasson equivalentes y lo iremos probando poco a poco.

Definicion 8.3.1 (Primera Definicion). El vector aleatorio ~X =

X1

...Xn

es normal si para

cualquier vector ~a ∈ Rn se tiene que la variable ~at ~X es normal.

Cuando escribamos ~X ∈ N(µ,Λ) estaremos indicando que ~X es un vector normal con vectormedia µ y matriz de covarianzas Λ.

Ejemplo 8.3.2. Si X1, ..., Xn son variables aleatorias normales independientes con medias µi y

varianzas σ2i , demuestra que el vector ~X =

X1

...Xn

es normal y calcula su media y matriz de

covarianzas.

Solucion: Sea ~a =

a1

...an

∈ Rn. Por nuestros cursos de inferencia sabemos que

~at ~X = a1X1 + · · ·+ anXn

es una variable aleatoria normal con medianXi=1

aiµi y varianzanXi=1

a2iσ

2i . Por lo tanto, ~X es normal.

Por la definicion 8.2.1 tenemos que E[ ~X] =

µ1

...µn

y Cov( ~X) =

σ2

1 · · · 0

0. . . 0

0 · · · σ2n

.

110 CAPITULO 8. DISTRIBUCION NORMAL MULTIVARIADA

Proposicion 8.3.3. Sea ~X = (X1, .., Xn)t ∈ N(µ,Λ) entonces:

1. Xi es una variable aleatoria normal para cada i = 1, ..., n.

2. X1 + · · ·+Xn es normal.

3. Cada distribucion marginal es normal multivariado.

Demostracion:

1. Por definicion de vector normal multivariado sabemos que para cualquier ~a ∈ Rn se tiene que~at ~X es normal. En particular, para el vector ~a que tiene un 1 en la i−esima posicion y 0 en

las posiciones restantes, tenemos que ~at ~X = (0, ..., 1, ..., 0)

X1

...Xn

= Xi es normal.

2. Analogamente al inciso anterior, consideremos el vector ~a que tiene 1′s en todas sus entradas.Entonces ~at ~X = X1 + · · ·+Xn es normal.

3. Sin perdida de generalidad veamos que ~Z =

X1

...Xm

con m < n es normal multivariado.

Para ello tendrıamos que probar que para cualquier vector ~b =

b1...bm

∈ Rm, la variable

~bt ~Z = b1X1 + · · · + bmXm es normal. Esto es cierto pues si seleccionamos ~a ∈ Rn donde lasprimeras m entradas coinciden con las entradas de ~b y las restantes n−m entradas son cero,entonces ~bt ~Z = b1X1 + · · ·+ bmXm = ~at ~X que es normal.

Proposicion 8.3.4. Sea ~X ∈ N(µ,Λ) un vector de tamano n y ~Y = A ~X+~b donde A es una matriz

de tamano m× n y ~b es un vector de tamano m. Entonces ~Y ∈ N(Aµ+~b,AΛAt).

Demostracion: Sea ~a ∈ Rm. Luego ~at~Y = ~at(A ~X + ~b) = (~atA) ~X + ~at~b la cual es una variable

normal porque ~X es normal multivariado. Por lo tanto ~Y es normal multivariado.

Los parametros de ~Y los calculamos a partir de la proposicion 8.2.4 que nos dice que E[~Y ] =

AE[ ~X +~b] = Aµ+~b y Cov(~Y ) = ACov( ~X)At = AΛAt.

Ejemplo 8.3.5. Sea ~X ∈ N

12

,

1 −2−2 7

. Sea Y1 = X1 + X2 y Y2 = 2X1 − 3X2. Halla la

distribucion de ~Y .

Solucion: Notemos que ~Y =

1 12 −3

~X. Por la proposicion 8.3.4 concluimos que

~Y ∈ N

1 12 −3

12

,

1 12 −3

1 −2−2 7

1 21 −3

es decir

~Y ∈ N

3−4

,

4 −17−17 91

8.4. FUNCION GENERADORA DE MOMENTOS 111

8.4. Funcion generadora de momentos

Recordemos que en la definicion 4.1.1 dijimos que la funcion generadora de momentos conjunta

para un vector aleatorio (X1, .., Xn) estaba dada por mX1,...,Xn(s1, ..., sn) = E

"exp

(nXi=1

siXi

)#.

En el contexto de este capıtulo, podemos escribir la funcion generadora de momentos conjunta comom ~X(~s) = E[exp~st ~X] donde ~X = (X1, ..., Xn)t y ~s = (s1, ..., sn)t. Bajo este contexto, definiremosa continuacion la funcion caracterıstica conjunta de un vector aleatorio.

Definicion 8.4.1. La funcion caracterıstica del vector aleatorio ~X esta dada por

ϕ ~X(~s) = E[ei~st ~X ].

Notemos que en la definicion anterior, ~st ~X =nXi=1

siXi no es un vector aleatorio sino una variable

aleatoria.

Teorema 8.4.2. La funcion caracterıstica del vector aleatorio ~X ∈ N(µ,Λ) es

ϕ ~X(~s) = exp¦i~stµ− 1

2~stΛ~s©

.

Demostracion: Notemos que como ~X es un vector normal multivariado, Z = ~st ~X es normalunivariado. Ademas, la proposicion 8.2.4 indica que E[Z] = ~stE[ ~X] = ~stµ y el ejercicio 4 nos diceque V ar(Z) = ~stΛ~s. Luego

ϕ ~X(~s) = E[expi~st ~X]= E[expiZ]= ϕZ(1)

= exp

§iE[Z]− 1

2V ar(Z)

ª= exp

§i~stµ− 1

2~stΛ~s

ª.

Definicion 8.4.3 (Segunda Definicion). Un vector ~X ∈ N(µ,Λ) si su funcion caracterıstica es

ϕ ~X(~s) = expi~stµ− 12~stΛ~s.

Teorema 8.4.4. Las definiciones 8.3.1 y 8.4.3 son equivalentes.

Demostracion: (⇒) Es lo demostrado en el teorema 8.4.2.

(⇐) Sea ~a ∈ Rn un vector columna. Notemos que~at ~X es una variable aleatoria univariada; luego

ϕ~at ~X(u) = E[expiu(~at ~X)]= E[expi(u~at) ~X]= ϕ ~X(u~a)

= exp

§i(u~a)tµ− 1

2(u~a)tΛ(u~a)

ª= exp

§iu~atµ− 1

2u2~atΛ~a

ªPor lo tanto at ~X ∼ N(~atµ,~atΛ~a).

112 CAPITULO 8. DISTRIBUCION NORMAL MULTIVARIADA

Teorema 8.4.5. Si ~X ∈ N(µ,Λ) con detΛ > 0 entonces

f ~X(~x) =

1

n/2 1√detΛ

exp

§−1

2( ~X − µ)tΛ−1( ~X − µ)

ª.

Demostracion: Sea ~Y un vector aleatorio con componentes Y1, ..., Yn independientes tales queYi ∼ N(0, 1), entonces ~Y ∈ N(~0, In×n). Por la proposicion 8.3.4 el vector ~X = Λ1/2~Y + µ es normalmultivariado con media

E[ ~X] = Λ1/2E[~Y ] + µ = Λ1/2

0...0

+ µ = µ.

y matriz de covarianzas

Cov( ~X) = Λ1/2Cov(~Y )(Λ1/2)t = Λ1/2In×nΛ1/2 = Λ1/2Λ1/2 = Λ.

De lo anterior concluimos que ~X ∈ N(µ,Λ). Por otra parte

f~Y (~y) =nYi=1

fYi(yi)

=nYi=1

1√2π

exp

−y

2i

2

=

1

n/2exp

(−1

2

nXi=1

y2i

)=

1

n/2exp

§−1

2~yt~y

ªy como ~Y = Λ−1/2( ~X − µ), utilizamos el teorema de cambio de variable para obtener que

f ~X(~x) =

1

n/2 1√detΛ

exp

§−1

2(~x− µ)tΛ−1(~x− µ)

ª.

Definicion 8.4.6 (Tercera Definicion). Sea Λ una matriz simetrica tal que detΛ > 0. Un vector

aleatorio ~X ∈ N(µ,Λ) si su funcion de densidad conjunta esta dada por

f ~X(~x) =

1

n/2 1√detΛ

exp

§−1

2( ~X − µ)tΛ−1( ~X − µ)

ª.

Teorema 8.4.7. Las definiciones 8.4.3 y 8.4.6 son equivalentes cuando detΛ > 0.

Demostarcion: (⇒) Es lo demostrado en el teorema 8.4.5. (⇐) Se deja como ejercicio.

8.5. Propiedades y teoremas principales

8.5.1. Distribuciones condicionales

Recordemos que en el ejercicio 15 del capıtulo 2 presentamos la funcion de densidad conjuntade un vector aleatorio (X,Y ) normal bivariado y demostramos en el ejercicio 6 del capıtulo 4 queE[X] = µX , E[Y ] = µY , V ar(X) = σ2

X y V ar(Y ) = σ2Y . Ademas, en el ejercicio 21 del capıtulo 5 se

demostro que ρX,Y = ρ. Entonces, por el ejercicio 15 del capıtulo 2, tenemos que

X | Y = y ∼ Nµx + ρ

σxσy

(y − µy), σ2x(1− ρ2)

. (8.1)

8.5. PROPIEDADES Y TEOREMAS PRINCIPALES 113

Ejemplo 8.5.1. Sea (X,Y )t un vector aleatorio con funcion de densidad

fX,Y (x, y) =1

2πexp

§−1

2(x2 − 2xy + 2y2)

ª.

Determina las distribuciones condicionales, particularmente las esperanzas y varianzas condicionales.

Solucion: Es facil ver que un vector aleatorio normal bivariado con Λ−1 =

1 −1−1 2

, E[X] = 0

y E[Y ] = 0, tienen la funcion de densidad descrita anteriormente. Por otro lado Λ = (Λ−1)−1 =2 11 1

. Por lo tanto (X,Y )t ∈ N(0,Λ). Se sigue que V ar(X) = 2, V ar(Y ) = 1, Cov(X,Y ) = 1 y

por lo tanto ρ = 1√2. Por (8.1) concluimos que

E[X|Y = y] = E[X] + ρσXσY (y − E[Y ]) = 0 + 1√2

√2

1 (y − 0) = y

V ar(X|Y = y) = σ2X(1− ρ2) = 2(1− 1

2 ) = 1.

Analogamente a (8.1) obtenemos que

E[Y |X = x] =x

2

V ar(Y |X = x) =1

2.

Ejemplo 8.5.2. Bajo el contexto del ejemplo 8.5.1, calcula la funcion de densidad condicional dela variable Y | X = x.

Solucion: En el ejemplo 8.5.1 vimos que el vector (X,Y )t es normal bivariado, que E[X] = 0 yV ar(X) = 2. Luego X ∼ N(0, 2) por lo que su funcion de densidad es

fX(x) =1√2π

1√2

exp

−1

2

x2

2

.

Luego la funcion de densidad condicional de Y |X = x es

fY |X(y|x) =

12π exp

¦− 1

2 (x2 − 2xy + 2y2)©

1√2π

1√2

exp− 12x2

2

=1

√2πÈ

12

exp

−1

2

x2

2− 2xy + 2y2

=

1√

2πÈ

12

exp

−1

2

(y − x2 )2

12

que es la densidad de una variable aleatoria N

x

2,

1

2

.

Si extendemos el resultado de la normal bivariada al caso general, es decir, si ~X ∈ N(µ,Λ) es un

vector de n entradas con detΛ > 0 y sean ~Y1 = (Xi1 , ..., Xik)t y ~Y2 = (Xj1 , ..., Xjm)t subvectores de~X donde 1 ≤ k ≤ n y 1 ≤ m ≤ n y las componentes de ~Y1 y ~Y2 las suponemos diferentes, entonces

f ~Y2| ~Y1(~y2 | ~y1) =

f ~Y1, ~Y2(~y1, ~y2)

f ~Y1(~y1)

lo que implica que la distribucion condicional de distribuciones normales multivariada es normal.

114 CAPITULO 8. DISTRIBUCION NORMAL MULTIVARIADA

8.5.2. Independencia

Teorema 8.5.3. Sea ~X ∈ N(µ,Λ). Las componentes de ~X son independientes si y solo si son nocorrelacionadas.

Demostracion: (⇒) Si para i 6= j las componentes Xi y Xj son independientes, entonces el corolario

5.2.2 nos dice que Cov(Xi, Xj) = 0, es decir, las componentes del vector ~X son no correlacionadas.

(⇐) Supongamos que las componentes de ~X son no correlacionadas. Entonces la matriz de

covarianzas es Λ =

σ2

1 · · · 0...

. . ....

0 · · · σ2n

. Si σ2

k = 0 para algun k, entonces Xk es degenerada e in-

dependiente de las otras Xi. Ası, supongamos que σ2i > 0 para toda i = 1, ..., n, entonces existe

Λ−1 =

1σ21· · · 0

.... . .

...0 · · · 1

σ2n

, por lo tanto la funcion de densidad es

f ~X(~x) =

1

(n/2) 1Qni=1 σi

exp

§−1

2( ~X − µ)tΛ−1( ~X − µ)

ª=

1

(n/2) 1Qni=1 σi

exp

(−1

2

nXi=1

(Xi − µi)2

σ2i

)=

nYi=1

1√2πσi

exp

−1

2

(Xi − µi)2

σ2i

=

nYi=1

fXi(xi).

Por lo tanto, las componentes del vector ~X son independientes.

Es importante el supuesto de que el vector aleatorio ~X sea normal multivariado, pues de lo con-trario, el hecho de que no esten correlacionados no implica que las componentes sean independientescomo veremos en el siguiente ejemplo.

Ejemplo 8.5.4. Sean las variables X ∼ N(0, 1) y Z independiente de X tal que P (Z = 1) = P (Z =−1) = 1

2 . Definamos Y = ZX. Demuestra que Y es una variable aleatoria normal, pero que X + Yno es normal.

Solucion: Calculemos la funcion de distribucion de Y :

FY (y) = P (Y ≤ y)

= P (Y ≤ y | Z = 1)P (Z = 1) + P (Y ≤ y | Z = −1)P (Z = −1)

=1

2P (X ≤ y | Z = 1) +

1

2P (−X ≤ y | Z = 1)

=1

2P (X ≤ y) +

1

2P (−X ≤ y)

=1

2Φ(y) +

1

2(1− Φ(−y))

= Φ(y)

Por lo tanto Y ∼ N(0, 1). Sin embargo, P (X + Y = 0) = P (Z = −1) = 12 , es decir, X + Y no es

normal, lo que implica que (X,Y )t no es normal bivariado.

Proposicion 8.5.5. Sea ~X ∈ N(µ,Λ) donde Λ puede ser vista en bloques (e inclusive despues deun reordenamiento en las componentes)

8.5. PROPIEDADES Y TEOREMAS PRINCIPALES 115

Λ =

Λ1 0 · · · 0 00 Λ2 · · · 0 0...

.... . .

......

0 0 · · · 0 Λk

donde Λi para i = 1, ..., k son matrices. Entonces ~X puede ser particionado en vectores ~X(1), ..., ~X(k)

tal que Cov( ~X(i)) = Λi y en ese sentido los vectores ~X(i) son independientes.

Ejemplo 8.5.6. Sea ~X ∈ N(µ,Λ) donde Λ =

2 0 40 1 04 0 9

. Determina los subvectores de ~X que

son independientes.

Solucion: Notemos que si hacemos el siguiente reordenamiento ~Y = (X2, X1, X3) entonces Cov(~Y ) =1 0 00 2 40 4 9

. Esto quiere decir que X2 es independiente de (X1, X3)t.

Proposicion 8.5.7. Sean ~X ∈ N(µ,Λ) y ~Y = Ct ~X donde la matriz ortogonal C satisface CtΛC =D con D matriz diagonal. Entonces:

1. ~Y ∈ N(Ctµ,D).

2. Las componentes de ~Y son independientes.

3. V ar(Yk) = λk para k = 1, ..., n donde λ1, ..., λn son los eigenvalores de Λ.

Demostracion: Como Λ es simetrica, la proposicion 8.1.14 nos indica que existe una matriz or-togonal C tal que CtΛC = D donde D es una matriz diagonal esta formado por eigenvalores deΛ.

1. Por la proposicion 8.3.4 tenemos que ~Y ∈ N(Ctµ,CtΛC), es decir, ~Y ∈ N(Ctµ,D).

2. Por el inciso anterior, las componentes de ~Y son no correlacionados y por el teorema 8.5.3, lascomponentes de ~Y son independientes.

3. Por la proposicion 8.1.14 y la definicion de matriz de covarianzas, se sigue el resultado.

Corolario 8.5.8. ~X = (X1, ..., Xn)t ∈ N(0, In×n) si y solo si X1, ..., Xn son variables aleatoriasnormal estandar independientes.

Corolario 8.5.9. Sea ~X ∈ N(µ, σ2I) donde σ2 > 0. Sean C una matriz ortogonal y ~Y = C ~X,

entonces ~Y ∈ N(Cµ, σ2I) y en particular, Y1, ..., Yn son variables aleatorias normales con varianzaen comun σ2.

Ejemplo 8.5.10. Sean X y Y variables aleatorias independientes con distribucion comun N(0, 1).Demuestra que U1 = X+Y√

2y U2 = X−Y√

2son variables aleatorias independientes.

Solucion: Es facil ver que U1

U2

=

1√2

1√2

1√2− 1√

2

XY

y que la matriz

1√2

1√2

1√2− 1√

2

es ortogonal. Por el corolario 8.5.9 se concluye que U1 y U2 son

independientes.

116 CAPITULO 8. DISTRIBUCION NORMAL MULTIVARIADA

Antes de enunciar un resultado que nos permite decidir si una variable aleatoria es independiente

de la variable X =1

n

nXi=1

Xi, necesitamos conocer cuando una funcion g : Rn → R es invariante bajo

traslacion.

Definicion 8.5.11. Una funcion g : Rn → R es invariante bajo traslacion si g(x + a · 1n) = g(x)para toda x ∈ Rn, a ∈ R y donde 1n es el vector columna de tamano n con todas sus entradas iguala 1.

Ejemplo 8.5.12. Demuestra que la funcion g(x1, ..., xn) =1

n− 1

nXi=1

(xi − x)2 donde x =1

n

nXi=1

xi,

es invariante bajo traslacion.

Solucion: Para efectos del calculo en este ejercicio, vamos a considerar a los vectores como fila yno como columna como lo hemos hecho a lo largo de este capıtulo. Sea a ∈ R y (x1, ..., xn) ∈ Rn.Notemos que si y = x+ a · 1 = (x1, ..., xn) + a(1, ..., 1) = (x1 + a, ..., xn + a), entonces

y =1

n

nXi=1

(xi + a)

=1

n

nXi=1

xi +nXi=1

a

!= =

1

n

nXi=1

xi +1

nna

= x+ a.

Luego

g((x1, ..., xn) + a(1, ..., 1)) = g((x1 + a, ..., xn + a))

=1

n− 1

nXi=1

(xi + a− (x+ a))2

=1

n− 1

nXi=1

(xi − x)2

= g(x1, ..., xn).

Por lo tanto, concluimos que la funcion g es invariante bajo traslacion.

Teorema 8.5.13 (Teorema de Daly). Sea ~X ∈ N(µ, σ2I) y sea Xn =1

n

nXi=1

Xi. Supongamos que

la funcion g : Rn → R es invariante bajo traslacion. Entonces Xn y g( ~X) son independientes.

Como una aplicacion del teorema anterior tenemos el siguiente ejemplo.

Ejemplo 8.5.14. Si ~X ∈ N(µ, σ2I), demuestre que S2n y Xn son independientes.

Solucion: Por el ejemplo 8.5.12, la funcion g( ~X) = S2n es invariante bajo traslacion. Por el teorema

8.5.13, se concluye que S2n y Xn son independientes.

Teorema 8.5.15. Sea ~X ∈ N(µ,Λ) con detΛ > 0. Entonces ( ~X − µ)tΛ−1( ~X − µ) ∈ χ2(n) donde n

es la dimension del vector ~X.

Demostracion: Por el ejercicio 2, la matriz Λ−1/2 es simetrica, es decir, (Λ−1/2)t = Λ−1/2. Sea~Y = Λ−1/2( ~X − µ), entonces E[~Y ] = Λ−1/2(µ − µ) = 0 y Cov(~Y ) = Λ−1/2Cov( ~X)(Λ−1/2)t =

Λ−1/2Cov( ~X)Λ−1/2 = Λ−1/2ΛΛ−1/2 = I. Por lo tanto ~Y ∈ N(0, I).

8.6. EJERCICIOS 117

Finalmente

( ~X − µ)tΛ−1( ~X − µ) = ( ~X − µ)tΛ−1/2Λ−1/2( ~X − µ)

= (Λ−1/2( ~X − µ))tΛ−1/2( ~X − µ)

= ~Y t~Y

=nXi=1

Y 2i

que es una variable aleatoria χ2 con n grados de libertad.

8.6. Ejercicios

1. Determina los eigenvalores y eigenvectores de las siguientes matrices

a) A =

4 −52 −3

.

b) B =

0 1 −11 1 0−1 0 1

.

2. Sea Λ una matriz simetrica tal que detΛ > 0. Demuestra que Λ−1/2 es simetrica.

3. Demuestra la proposicion 8.2.3.

4. Sean ~X un vector aleatorio con Cov( ~X) = Λ y ~s un vector columna. Si Z = ~st ~X, demuestraque V ar(Z) = ~stΛ~s.(Nota que Z es una variable aleatoria univariada, no es un vector aleatorio)

5. Demuestra que si ~X es un vector aleatorio y ~Y = B ~X entonces el jacobiano

d(y)

d(x)

= detB.

6. Provea todos los detalles del cambio de variable utilizado en la demostracion del teorema 8.4.5.

7. Demuestra la condicion suficiente del teorema 8.4.7. (Sugerencia: Utiliza el hecho de que lafuncion caracterıstica determina de manera unica la distribucion de una variable.)

8. Determina la distribucion de ~Y si:

a) Y1 = X1 +2X2 +3X3 +4X4 y Y2 = 4X1 +3X2 +2X3 +X4 con X1, X2, X3 y X4 variablesaleatorias independientes normales estandar.

b) Y1 = X1 +X2 y Y2 = 2X1 − 3X2 si ~X ∈ N

12

,

1 −2−2 7

.

9. Determina la distribucion de ~X = (X1, X2)t si la funcion caracterıstica es

ϕ ~X(~s) = exp

§is1 + 2is2 −

1

2s2

1 + 2s1s2 − 6s22

ª.

10. Determina la distribucion de Y = X1 +X2 si la funcion caracterıstica de ~X es

ϕ ~X(~s) = expis1 − 2s21 − s2

2 − s1s2.

11. Demuestra que la funcion generadora de momentos conjunta del vector ~X ∈ N(µ,Λ) es

m ~X(~s) = exp¦~stµ+ 1

2~stΛ~s©

.

118 CAPITULO 8. DISTRIBUCION NORMAL MULTIVARIADA

12. Si X y Y tienene la funcion generadora de momentos conjunta mX,Y (s1, s2) = exps21+2s1s2+

4s22, calcula P (2X < Y + 2).

13. Determina la distribucion del vector aleatorio ~X si la funcion generadora de momentos esm ~X(~s) = exps2

1 + 3s1s2 + 4s22.

14. Sea ~X ∈ N(0,Λ) donde

Λ =

72

12 −1

12

12 0

−1 0 12

.

Determina la funcion de densidad de ~Y si Y1 = X2 +X3, Y2 = X1 +X3 y Y3 = X1 +X2.

15. Calcula la funcion de densidad de la variable aleatoria X|Y = y del ejemplo 8.5.1.

16. Sea ~X ∈ N(µ,Λ) donde µ =

11

y Λ =

3 11 2

. Encuentra la funcion de densidad condicional

de X1 +X2 dado que X1 −X2 = 0.

17. Sea ~X ∈ N(0,Λ) donde Λ =

1 2 −12 6 0−1 0 4

. Sea Y1 = X1 + X3, Y2 = 2X1 − X2 y Y3 =

2X3 −X2. Determina la funcion de densidad condicional de Y3 dado que Y1 = 0 y Y2 = 1.

18. Considera la siguiente funcion de densidad conjunta de las variables aleatorias X y Y parademostrar que si las distribuciones condicionales de variables aleatorias es normal, no necesa-riamente la distribucion conjunta es normal:

fX,Y = c exp−(1 + x2)(1 + y2), −∞ < x, y <∞.

19. Sean X1 y X2 dos variables aleatorias independientes con distribucion N(0, 1). Demuestra queX1 +X2 y X1 −X2 son independientes.

20. Sea (X,Y )t un vector normal bivariado con coeficiente de correlacion ρ. Si V ar(X) = V ar(Y )demuestra que X y Y − ρX son independientes.

21. Sea ~X ∈ N(µ, σ2I) con σ2 > 0. Sea B una matriz tal que BBt = D con D matriz diagonal.

Demuestre que las componentes de ~Y = B ~X son independientes y se distribuyen normal.

22. Sean X1, ..., Xn variables aleatorias independientes N(0, 1). Definamos Xn =1

n

nXi=1

Xi y s2n =

1

n− 1

nXi=1

(Xi − Xn)2.

a) Determina la distribucion de (Xn, X1 − Xn, ..., Xn − Xn).

b) Demuestra que Xn y (X1 − Xn, ..., Xn − Xn) son independientes.

23. SeanX1 yX2 dos variables aleatorias independientes normal estandar. Define Y1 =X2

1 −X22È

X21 +X2

2

y Y2 =2X1X2ÈX2

1 +X22

. Demuestre que Y1 y Y2 son independientes y se distribuyen normal

estandar.

24. Sea ~X = (X1, X2, X3)t normal. Si X1 y X2 +X3 son independientes, X2 y X1 +X3 son indepe-nedientes, y X3 y X1 +X2 son independientes; demuestra que X1, X2 y X3 son independientes.

8.6. EJERCICIOS 119

25. Sea ~X ∈ N(µ,Λ) donde

µ =

34−3

y Λ =

2 1 31 4 −23 −2 8

Definamos Y1 = X1 +X3 y Y2 = 2X2. Determina la distribucion de:

a) ~Y .

b) Y1 | Y2 = 10.

26. Sea

X1

X2

∈ N

µ1

µ2

,

σ2

1 ρσ1σ2

ρσ1σ2 σ22

donde |ρ| ≤ 1. Definamos el vector aleatorio ~Y

mediante las ecuaciones X1 = µ1 + σ1Y1 y X2 = µ2 + ρσ2Y1 + σ2

p1− ρ2Y2. Demuestra que:

a) ~Y ∈ N(0, I).

b) Y1 y Y2 son independientes.

27. Sea (X,Y, Z)t normal con funcion de densidad

c exp

§−1

2(4x2 + 3y2 + 5z2 + 2xy + 6xz + 4zy)

ªDetermina la distribucion condicional de ~X dado X + Z = 1 y Y + Z = 0.

28. Sea ~X ∈ N(0,Λ) donde

Λ =

3 −2 1−2 2 01 0 1

.

Determina la distribucion de X1 +X3 dado X2 = 0.

29. Sea (X,Y )t un vector normal bivariado. Supongamos que la funcion generadora de momentoses

mX,Y (s, u) = exp2s+ 3u+ s2 + asu+ 2u2

Determina el valor de a para que X + 2Y y 2X − Y sean independientes.

120 CAPITULO 8. DISTRIBUCION NORMAL MULTIVARIADA

Bibliografıa

[1] Bean M.A. (2009) Probability: The Science of Uncertainty with applications to Investments,Insurance and engineering. Thomson.

[2] DeGroot, M. (1988) Probabilidad y Estadıstica, Adison-Wesley Iberoamericana, Wilmigton,USA.

[3] Feller, W. (1978) Introduccion a la Teorıa de Probabilidades y sus Aplicaciones. Volumen II.Mexico. Editorial Limusa.

[4] Gahahramani, S. (2005) Fundamentals of Probability with Stochastic Processes. Third edition.Prentice Hall.

[5] Gut A.(2009) An intermediate Course in Probability, Springer-Verlag, New York.

[6] Hassett, M.; Stewart, D. (2009) Probability for Risk Management. ACTEX Publications.

[7] Hogg, R.V; Craig, A. T. (2004) Introduction to Mathematical Statistics. 6th Edition. New Jersey.Prentice Hall.

[8] Karlin, S. Taylor, H. (1998) An introduction to Stochastic Modeling. Third Edition. AcademicPress, Inc.

[9] Miller, I.; Miller, M. (2004). Mathematical Statistics with applications. 7th Edition, PrenticeHall.

[10] Mood, A. M. et al. (1974) Introduction to the Theory of Statistics. 3rd Edition. Mc Graw Hill.

[11] Ross, S.M. (2009) A First Course in Probability. 8th Edition. Prentice Hall, New Jersey.

[12] Ross, S.M. (2006) Introduction to probability models. 9th Edition. Academic Press.

[13] Wackerly D., Mendenhall W., Scheaffer R. (2002) Estadıstica Matematica con Aplicaciones.Sexta Edicion. Thomson.

121