Capitulo2 probabilidad

Capítulo 1

Capítulo 2

Principales distribuciones

n-dimensionales

2.1. Introducción

En este tema se estudian generalizaciones multidimensionales de dos distribuciones

unidimensionales, la binomial y la normal.

La distribución del número de éxitos en n pruebas de Bernoulli repetidas es binomial.

Se clasi�ca el resultado de cada repetición en una de las dos clases �éxito�o �fracaso�. La

distribución multinomial, apartado 2.2, la generaliza considerando mas de dos clases.

La distribución normal n-dimensional (bidimensional para n = 2) es una generalización

de la normal unidimensional. Es una distribución muy usada y tiene propiedades que la

hacen muy manejable. Por ejemplo, como en el caso unidimensional, se tiene que transfor-

maciones lineales de v.a. normales son v.a. normales. Todas las distribuciones marginales

son normales. Las componentes son independientes si y solo si son incorreladas.

En el apartado 2.3 estudiamos el caso bidimensional (n = 2), y en el apartado 2.4 el

caso n-dimensional en general (n � 1).

Usaremos notación matricial para el caso general. Es una herramienta potente que per-

mite expresiones y demostraciones sencillas; por ejemplo, la función de densidad tiene una

expresión muy parecida a la del caso unidimensional, pero sustituyendo algunos elemen-

2. Principales distribuciones n-dimensionales

tos numéricos por vectores y matrices. Podríamos prescindir del apartado 2.3 (excepto lo

referido a distribuciones condicionadas), donde se estudia el caso n = 2, puesto que lo allí

estudiado se puede obtener como caso particular de lo estudiado en el apartado 2.4. Sin

embargo, conviene explicar este caso utilizando también la notación extendida, que es la

que hemos utilizado para todas las distribuciones bidimensionales que hemos considerado,

escribiendo por ejemplo la función de densidad como f(x; y) en vez de f(z), con z = (x; y).

2.2. Distribución multinomial

2.2.1. Introducción: la distribución binomial

Consideremos un experimento aleatorio compuesto consistente en n repeticiones inde-

pendientes de un experimento aleatorio básico. Por ejemplo, se lanza n = 15 veces una

moneda o, se conectan, en funcionamiento continuo hasta que se estropean, n = 10 re-

sistencias eléctricas producidas por una máquina.

Consideremos un suceso A referido al experimento aleatorio básico. Por ejemplo, �obte-

ner cara�, en el lanzamiento de moneda, o, �durar más de 400 horas�, en el ejemplo de la

conexión hasta el fallo de las resistencias.

Las v.a. �número de caras�, en el primer ejemplo, y �número de resistencias que duran

más de 400 horas�, en el segundo ejemplo, tienen distribución binomial B (n; p), siendo n

el número de repeticiones y p = P (A). La función de masa de X � B (n; p) viene dada por

P fX = xg =�n

�px (1� p)n�x si x = 0; : : : ; n . (2.1)

En el primer ejemplo hay solo dos resultados posibles, cara y cruz. El suceso A es

�obtener cara�. En el segundo ejemplo, el suceso A es �durar más de 400 horas�. Aunque

podemos observar el valor exacto de la duración, solo estamos interesados aquí en si ha

ocurrido A o no. De esta forma, clasi�camos los resultados en dos clases, A y Ac, y llegamos

así a una situación análoga a la del primer ejemplo, con solo dos resultados posibles.

Estas clases son exhaustivas (cubren todos los casos posibles), y mutuamente ex-

cluyentes (ningun caso está en más de una clase a la vez). Utilizando terminología de

2.2 Distribución multinomial

probabilidad decimos que las clases son sucesos incompatibles cuya unión es el suceso se-

guro, y si utilizamos terminología de teoría de conjuntos decimos que las clases son una

partición del espacio muestral.

La v.a. que consideramos, X, es el número de veces que ocurre A, o dicho de otro modo,

el recuento del número de observaciones en la clase A. Obsérvese que si se obtiene X = x,

entonces el número de observaciones en la clase Ac es n� x.

Consideramos ahora k � 2 clases en general y estudiamos la distribución del vector

aleatorio con el recuento del número de observaciones en cada clase.

2.2.2. La distribución multinomial

Una v.a. k-dimensional X = (X1; : : : ; Xk) tiene distribución multinomial con paráme-

tros n, natural, y p1; : : :; pk � 0 con p1 + � � �+ pk = 1 , y se denota por

X � mult(n; p1; : : : ; pk) , (2.2)

si es discreta con función de masa

P fX1 = n1; : : : ; Xk = nkg =n!

n1! � � �nk!pn11 � � � p

nkk (2.3)

si n1; : : : ; nk � 0 son enteros con n1 + � � �+ nk = n. (2.4)

Obsérvese que X1 + � � �+Xk = n.

Consideremos un experimento aleatorio básico. Sea k � 2 y supongamos que se clasi�ca

el resultado del experimento, según corresponda, en una de k clases A1; : : : ; Ak, exhaustivas

y mutuamente excluyentes, con probabilidades p1; : : : ; pk � 0 con p1 + � � � + pk = 1. Se

llevan a cabo n repeticiones independientes del experimento y se contabiliza el número de

observaciones en cada clase considerando la v.a. X = (X1; : : : ; Xk), siendo Xi el número

de observaciones en Ai. Se tiene que X � mult(n; p1; : : : ; pk).

Ejemplo 1. Consideremos una urna U(3b; 5n; 2r), esto es, con tres bolas blancas, cinco

negras y dos rojas. Se extraen siete bolas al azar con reemplazamiento.

a) Calcula la probabilidad de que dos sean blancas, cuatro negras y la otra roja.

b) Calcula la probabilidad de que tres sean blancas, dos negras y dos rojas.

Solución: Sea X el número de bolas blancas, Y el número de negras y Z el de

rojas (ó X1; X2; X3, como queramos). La probabilidad de que la bola sea blanca en una

extracción vale 3=10, la probabilidad de que sea negra vale 5=10, y la de roja 2=10. Por

tanto (X;Y ) � mult (7; 003; 005; 002).

a) La probabilidad pedida vale

P fX = 2; Y = 4; Z = 1g = 7!

2!4!1!003200540021 = 00118 . (2.5)

b) La probabilidad pedida vale

P fX = 3; Y = 2; Z = 2g = 7!

3!2!2!003300520022 = 000567 . (2.6)

Puesto que X1 + � � �+Xk = n se tiene que

Xk = n�X1 � � � � �Xk�1 . (2.7)

En algunas ocasiones resulta conveniente considerar (X1; : : : ; Xk�1) en vez de (X1; : : : ; Xk).

Esta expresión abreviada no supone pérdida de información, puesto que podemos recuperar

Xk mediante (2.7). Se suele escribir

(X1; : : : ; Xk�1) � mult (n; p1; : : : ; pk�1) , (2.8)

con parámetros p1; : : : ; pk�1 � 0 y p1 + � � � + pk�1 < 1 . Las probabilidades de las

k � 1 primeras clases son los parámetros p1; : : : ; pk�1, y la probabilidad de la clase k vale

pk = 1� p1 � � � � � pk�1.

La distribución binomial B(n; p) es justamente la distribución multinomial mult(n; p)

expresada de esta manera, con k = 2 clases (exito y fracaso, o cualquier otra clasi�cación

con dos opciones).

Ejercicio 2. Consideremos Z � B(n; p) y T � mult (n; p), con 0 < p < 1. Comprueba

que la función de masa de Z y la de T coinciden, y por tanto Z � T .

Solución: Para z = 0; : : : ; n se tiene, por (2.1), que

P fZ = zg =�n

�pz (1� p)n�z = n!

z! (n� z)!pz (1� p)n�z . (2.9)

Puesto que el parámetro p en mult (n; p) es un único valor numérico p < 1, entonces se está

utilizando la expresión dada en (2.8) con k = 2 clases. El vector (X1; : : : ; Xk�1) en (2.8)

se reduce a la v.a. unidimensional X1 = T . Las probabilidades de las clases son p1 = p y

p2 = 1� p, y por (2.3) se tiene (con X2 = n�X1)

P fT = zg = P fX1 = zg = P fX1 = z;X2 = n� zg =n!

z! (n� z)!pz1pn�z2 (2.10)

z! (n� z)!pz (1� p)n�z = P fZ = zg (2.11)

para z = 0; : : : ; n, y por tanto Z � T .

La fórmula de Leibnitz

(a1 + � � �+ ak)n =X

n1;:::;nk

n1! � � �nk!an11 � � � a

nkk , (2.12)

siendo el sumatorio la suma para todos los n1; : : : ; nk � 0 enteros con n1 + � � �+ nk = n,

es una generalización de la fórmula del binomio de Newton (k = 2). Mediante su uso se

comprueba por ejemplo que la función de masa dada en (2.3) y (2.4) suma 1, y por tanto

es, efectivamente, una función de masa.

En el estudio de distribuciones marginales conviene considerar (X1; : : : ; Xk�1) (expre-

sión abreviada) en vez de (X1; : : : ; Xk). Mediante la fórmula (2.12) se obtiene la función

característica (f.c.) de (X1; : : : ; Xk�1), que es

'(t1; : : : ; tk�1) = (p1eit1 + � � �+ pk�1eitk�1 + pk)n (2.13)

Teniendo en cuenta que '(t1; : : : ; tk�1) = E[ei(t1X1+��+tk�1Xk�1)], se observa que las f.c.

de las distribuciones marginales se obtienen a partir '(t1; : : : ; tk�1) haciendo nulos los ar-

gumentos correspondientes a las componentes que se quieren eliminar. Realizando esta

operación en la f.c. (2.13), se observa que las f.c. marginales vuelven a ser del tipo (2.13),

con k reducido según el número de componentes eliminado. Por tanto, todas las distribu-

ciones marginales son multinomiales. Los parámetros correspondientes a componentes no

eliminadas conservan su valor, y los parámetros correspondientes a componentes eliminadas

se eliminan.

Ejemplo 3. Consideremos una urna U(1b; 2v; 3a; 4r), esto es, con una bola blanca, dos

verdes, tres azules y cuatro rojas. Se extraen n bolas al azar con reemplazamiento. Sean

X1, X2 y X3 el número de bolas blancas, verdes y azules (el de rojas es n�X1�X2�X3).

Se tiene que (X1; X2; X3) � mult (n; 001; 002; 003). Obsérvese que corresponde a la expre-

sión en forma abreviada, puesto que no hemos incluido el número de rojas, X4, lo que se

traduce en que 001 + 002 + 003 < 1.

Las distribuciones marginales son:X1 � mult (n; 001) (que es laB (n; 001)),X2 � mult (n; 002),

X3 � mult (n; 003) , (X1; X2) � mult (n; 001; 002) , (X1; X3) � mult (n; 001; 003) y

(X2; X3) � mult (n; 002; 003) .

Se tiene que Xj � mult (n; pj), y esta distribución es una B (n; pj), por el resultado del

ejercicio 2. Entonces, se tiene que

E[Xj ] = npj y V [Xj ] = npj(1� pj) .

Las covarianzas se pueden obtener a partir de la f.c.. Se tiene que (Xj ; Xl) � mult (n; pj ; pl),

y su f.c. es

'j;l(tj ; tl) = (pjeitj + ple

itl + 1� pj � pl)n . (2.14)

Por tanto

E [XjXl] =1

i2d2'j;l(tj ; tl)

dtjdtl

��tj ;tl=0

= n(n� 1)pjpl , (2.15)

y entonces

Cov(Xj ; Xl) = E [XjXl]� E [Xj ]E [Xl] = �npjpl para j 6= l. (2.16)

El coe�ciente de correlación vale

�(Xi; Xj) = �r

pipj(1� pi)(1� pj)

para i 6= j. (2.17)

Ejemplo 4. Consideremos una urna U(3b; 5n; 2r). Se extraen siete bolas al azar con reem-

plazamiento.

a) Calcula la probabilidad de que dos sean blancas, cuatro negras y la otra roja.

b) Calcula la probabilidad de que dos sean blancas, y el resto de otro color.

c) Calcula la probabilidad de que dos sean blancas sabiendo que tres son negras.

d) Determina el número esperado de bolas blancas y la varianza.

e) Determina la covarianza y el coe�ciente de correlación entre el número de bolas

blancas y negras.

Solución: Utilizamos la notación abreviada. Sea X el número de bolas blancas e

Y el número de negras. La probabilidad de que la bola sea blanca en una extracción vale

3=10, y la de que sea negra vale 5=10, y por tanto (X;Y ) � mult (7; 003; 005), X � B(7; 003)

e Y � B(7; 005).

a) Es el ejemplo 1a. Se vuelve a resolver ahora para poder apreciar cómo se expresa el

problema con la expresión abreviada, utilizando (X;Y ) en vez de (X;Y; Z) (compárese la

resolución del ejemplo 1a con ésta). La probabilidad pedida vale

P fX = 2; Y = 4g = 7!

2!4!(7� 2� 4)!00320054(1� 003� 005)7�2�4 (2.18)

2!4!1!003200540021 = 00118 . (2.19)

b) La probabilidad pedida vale

P fX = 2g = 7!

2!(7� 2)!0032(1� 003)7�2 = 00318 . (2.20)

c) Se obtiene

P fX = 2=Y = 3g = P fX = 2; Y = 3gP fY = 3g =

2!3!2!003200530022

3!4!00530054

= 00346 . (2.21)

d) Se tiene que

E[X] = 7 � 003 = 201 y V [X] = 7 � 003 � (1� 003) = 1047 . (2.22)

e) Puesto que (X;Y ) � mult (7; 003; 005), se tiene por (2.16) y (2.17) que

Cov(X;Y ) = �7 � 003 � 005 = �1005 , y (2.23)

� (X;Y ) = �

s003 � 005

(1� 003)(1� 005) = �00655 . (2.24)

Ejemplo 5. Una máquina produce tornillos cuya longitud se distribuye según unaN (�; �),

con � = 205 y � = 0002 (en mm). Un tornillo es rechazado por pequeño si mide menos de

2045 mm, es aceptado como bueno si mide entre 2045 y 2055 mm, y es rechazado por grande

si mide mas de 2055 mm. Para un lote de 100 tornillos, determina:

a) Probabilidad de que 2 tornillos sean pequeños, 95 buenos, y 3 grandes.

b) Probabilidad de que 95 sean buenos, y el resto sean rechazados.

c) Probabilidad de que 2 sean pequeños sabiendo que 3 son grandes.

d) Determina el número esperado de tornillos buenos y la desviación típica.

e) Determina la covarianza y el coe�ciente de correlación entre el número de tornillos

pequeños y grandes.

Solución: Tenemos k = 3 clases, correspondientes a tornillos pequeños, buenos y

grandes. En primer lugar, calculamos las probabilidades de las clases:

p1 = P�N (�; �) < 2045

�N (0; 1) <

2045� ��

�(2.25)

= P�N (0; 1) < �205

�N (0; 1) > 205

= 0000621 , (2.26)

p3 = P�N (�; �) > 2055

�N (0; 1) >

2055� ��

�(2.27)

= P�N (0; 1) > 205

= 0000621 , y (2.28)

p2 = 1� p1 � p3 = 00988 . (2.29)

Sea X el número de tornillos pequeños, Y el número de buenos, y Z el número de grandes.

Se tiene que (X;Y; Z) � mult (100; p1; p2; p3).

a) Se tiene que

P fX = 2; Y = 95; Z = 3g = 100!

2!95!3!p21p

33 = 0

000221 . (2.30)

b) Se tiene que Y � B (100; p2), y entonces

P fY = 95g =�100

�p952 (1� p2)

100�95 = 0000595 . (2.31)

c) Se tiene que Z � B (100; p3), y entonces

P fX = 2=Z = 3g = P fX = 2; Z = 3gP fZ = 3g =

2!95!3!p21p

100�2�32 p33

3!97!p33 (1� p3)

100�97= 00104 . (2.32)

(El numerador es el mismo que en el apartado a).

d) Se tiene que

E[Y ] = E[B (100; p2)] = 100 � p2 = 9808 y (2.33)

V [Y ] = V [B (100; p2)] = 100 � p2 � (1� p2) = 1019 , (2.34)

y por tanto �Y =pV [Y ] = 1009.

e) Puesto que (X;Z) � mult (100; p1; p3), se tiene por (2.16) y (2.17) que

Cov(X;Y ) = �100p1p3 = �0000386 , y (2.35)

� (X;Y ) = �r

p1p3(1� p1)(1� p3)

= �0000625 . (2.36)

Ejemplo 6. Consideremos (X;Y ) � mult (n; p1; p2) con p1 + p2 < 1 (por tanto con k = 3

clases). Determina la distribución condicionada de (Y=X = x).

Solución: Se tiene que X � B (n; p1), y por tanto, para x = 0; 1; : : : ; n,

P fY = y=X = xg = P fX = x; Y = ygP fX = xg (2.37)

x!y!(n� x� y)!px1py2(1� p1 � p2)n�x�y

x!(n� x)!px1(1� p1)n�x

. (2.38)

El numerador P fX = x; Y = yg en (2.37) toma el valor dado en (2.38) solo cuando y � 0,

x + y � n, y es nulo en otro caso. Entonces, el soporte de la distribución de (Y=X = x)

(con x �jo) viene dado por 0 � y � n� x, con y entero, esto es, y = 0; 1; : : : ; n� x.

Comprobamos a continuación que la función de masa P fY = y=X = xg dada por (2.38)

corresponde a una distribución binomial. Simpli�cando (2.38) se obtiene

P fY = y=X = xg =

y!(n� x� y)!py2(1� p1 � p2)n�x�y

(n� x)! (1� p1)y(1� p1)n�x�y

(2.39)

�n� xy

��p2

1� p1

�y �1� p1 � p21� p1

�n�x�y. (2.40)

Entonces, P fY = y=X = xg = PnB�n� x; p2

1�p1

�= y

osi y = 0; 1; : : : ; n� x. Por tanto

(Y=X = x) � B�n� x; p2

1� p1

�. (2.41)

Del mismo modo se obtiene (X=Y = y) � B�n� y; p1

1�p2

�, lo que permite resolver el

ejemplo 4c de la siguiente manera:

P fX = 2=Y = 3g = PnB�n� 3; p1

1�p2

�= 2

�B�4; 35

�= 2

(2.42)

2!(4� 2)!

�2�1� 3

�4�2= 00346 . (2.43)

Resuelve también de esta manera el ejemplo 5c.

Ejercicio 7. Calcula E [XjXl] para (Xj ; Xl) � mult (n; pj ; pl), con pj + pl < 1,

a) de un modo directo, a partir de la función de masa conjunta,

b) mediante el uso de la esperanza condicionada, utilizando los momentos de las dis-

tribuciones marginal y condicionada para (Xj ; Xl).

Solución: Denotamos (Xj ; Xl) por (Y; Z), para evitar tener que escribir repetida-

mente los subíndices.

a) Se tiene que

E [XjXl] = E [Y Z] =X

y;z�0 enteros con y+z�nyz � P fY = y; Z = zg (2.44)

= 0 +X

y;z�1, y+z�nyz � P fY = y; Z = zg (2.45)

y;z�1, y+z�nyz � P fmult (n; pj ; pl) = (y; z)g (2.46)

y;z�1, y+z�nyz

y!z! (n� y � z)!pyjpzl (1� pj � pl)

n�y�z (2.47)

= pjplX

y;z�1, y+z�n

(y � 1)! (z � 1)! (n� y � z)!py�1j pz�1l (1� pj � pl)n�y�z .

Expresando la suma en términos de y0 = y � 1 (y por tanto, y = y0 + 1) y z0 = z � 1 se

2.3 Distribución normal bidimensional

obtiene

E [XjXl] = pjpln (n� 1)X

y0;z0�0, y0+z0�n�2

(n� 2)!y0!z0! (n� 2� y0 � z0)!p

j pz0l (1� pj � pl)

n�2�y0�z0

= n (n� 1) pjplX

y0;z0�0, y0+z0�n�2P�mult (n� 2; pj ; pl) =

�y0; z0

�(2.48)

= n (n� 1) pjpl . (2.49)

b) Se tiene que Y � B (n; pj) y entonces E[Y ] = npj y V [Y ] = npj(1� pj). Recuérdese

que E[Y 2] = V [Y ] + E[Y ]2. Por el ejemplo 6 se tiene que (Z=Y = y) � B�n� y; pl

1�pj

y entonces E [Z=Y = y] = (n� y) pl1�pj . Se tiene que

E [XjXl] = E [Y Z] = E [E [Y Z=Y ]] = E [Y E [Z=Y ]] = E

�Y (n� Y ) pl

1� pj

�(2.50)

1� pjE�nY � Y 2

pl1� pj

�nE [Y ]� E

�Y 2��

(2.51)

1� pj

�n � npj �

�(npj(1� pj)) + (npj)2

��(2.52)

1� pjn�npj � (pj(1� pj))� np2j

�(2.53)

=npl1� pj

(npj (1� pj)� (pj (1� pj))) =npl1� pj

(n� 1) pj (1� pj) (2.54)

= n (n� 1) pjpl . (2.55)

2.3. Distribución normal bidimensional

Una v.a. bidimensional (X;Y ) tiene distribución normal bidimensional con parámetros

�1; �2; �1; �2 y �, denotado por

(X;Y ) � N (�1; �2; �1; �2; �) , (2.56)

si es continua con función de densidad

f(x; y) =1

2��1�2p1� �2

exp f�Q(x; y)=2g si �1 < x; y <1 , (2.57)

con Q(x; y) =1

1� �2

"�x� �1�1

�2� 2�x� �1

y � �2�2

�y � �2�2

�2#, (2.58)

siendo los parámetros �1; �2 reales, �1; �2 > 0 y j�j < 1.

Es sabido que los parámetros � y � de una normal unidimensional N(�; �) son la media

y la desviación típica. En la siguiente proposición se obtiene, entre otras propiedades, que

también los parámetros �1; �2; �1; �2; � que intervienen en (2.57) y (2.58) son justamente

lo que indican (medias, desviaciones típicas y coe�ciente de correlación).

Proposición 8. La función f dada en (2.57) y (2.58) es, efectivamente, una función de

densidad. Las distribuciones marginales y condicionadas son:

X � N (�1; �1) , (2.59)

Y � N (�2; �2) , (2.60)

(Y=X = x) � N��x; �2

p1� �2

�con �x = �2 + �

�2�1(x� �1) , y (2.61)

(X=Y = y) � N��y; �1

p1� �2

�con �y = �1 + �

�1�2(y � �2) . (2.62)

Además, se tiene que los valores de los parámetros �1, �2, �1, �2 y � son, tal como indica

su notación, justamente las medias, desviaciones típicas y el coe�ciente de correlación.

Demostración. Demostramos (2.59) y (2.61) obteniendo una expresión de f de la forma

f(x; y) = g(x)hx(y), siendo g(x) y hx(y) densidades normales, que resultan ser las den-

sidades de X y de (Y=X = x). La demostración de (2.60) y (2.62) es la misma, pero

intercambiando X e Y . A partir de (2.59) y (2.60) se obtiene que �1, �2, �1 y �2 son las

medias y las desviaciones típicas. Obtendremos al coe�ciente de correlación mediante el

uso de la esperanza condicionada.

Teniendo en cuenta que

�y �

��2 + �

�2�1(x� �1)

��2=

�y � �2�2

� �x� �1�1

�2(2.63)

�y � �2�2

�2+ �2

�x� �1�1

�2� 2�x� �1

y � �2�2

(2.64)

= (1� �2)Q(x; y)� (1� �2)�x� �1�1

�2(2.65)

= (1� �2)"Q(x; y)�

�x� �1�1

�2#, (2.66)

se obtiene

Q(x; y) =1

(1� �2)�22

�y �

��2 + �

�2�1(x� �1)

��2+

�x� �1�1

�2. (2.67)

Teniendo en cuenta también que 2��1�2p1� �2 =

�p2��1

� �p2��2

p1� �2

�obtenemos

que f(x; y) se puede expresar como

f(x; y) = g(x)hx(y) , con (2.68)

g(x) =1p2��1

(�12

�x� �1�1

�2)y

hx(y) =1

p2��2

p1� �2

(� 1

2(1� �2)�22

�y �

��2 + �

�2�1(x� �1)

��2).

Obsérvese que g(x) es la función de densidad de una N(�1; �1) y hx(y) es la función de

densidad de una N��x; �2

p1� �2

�. A partir de este hecho la proposición se demuestra

de un modo sencillo.

Se tiene queRg(x)dx = 1 y

Rhx(y)dy = 1, puesto que g(x) y hx(y) son funciones de

densidad. De aquí se obtieneZ 1

�1f(x; y)dydx =

�1g(x)hx(y)dydx (2.69)

�1g(x)

�Z 1

�1hx(y)dy

�dx =

�1g(x)dx = 1 , (2.70)

y por tanto f es una función de densidad, y se tiene que

f1(x) =

�1f(x; y)dy =

�1g(x)hx(y)dy = g(x)

�1hx(y)dy = g(x) , (2.71)

y por tanto X � N(�1; �1). Además,

f(y=x) =f(x; y)

f1(x)=g(x)hx(y)

f1(x)= hx(y) , (2.72)

y por tanto (Y=X = x) � N��x; �2

p1� �2

La distribución de Y y la de (X=Y = y) se obtienen intercambiandoX e Y en la demostración.

Puesto que X � N(�1; �1) e Y � N(�2; �2) se tiene que EX = �1, V [X] = �21, EY = �2,

V [Y ] = �22.

Llamemos provisionalmente c al parámetro � incluido en (2.57) y (2.58), y sea � el coe-

�ciente de correlación (como siempre). Comprobamos que c = �, y por tanto a partir de

aquí queda justi�cado que llamemos � a este parámetro, puesto que es, efectivamente, el

coe�ciente de correlación. Se tiene que

E [XY ] = E [E [XY=X]] = E [XE [Y=X]] = E [X�X ] (2.73)

��2 + c

�2�1(X � �1)

��= E

��2X + c

�2�1(X � �1)X

�(2.74)

= �2E [X] + c�2�1E�X2 � �1X

�= �2E [X] + c

�2�1

�E�X2�� 1E [X]

�(2.75)

= �2E [X] + c�2�1

�V [X] + E [X]2 � �1E [X]

�(2.76)

= �2�1 + c�2�1

��21 + �

21 � �1 � �1

�= �1�2 + c�2�1 , (2.77)

y de aquí se obtiene

Cov (X;Y ) = E [XY ]� E [X]E [Y ] = �1�2 + c�2�1 � �1�2 = c�2�1 , y (2.78)

� =Cov (X;Y )

�1�2= c , (2.79)

como queríamos demostrar.

Ejemplo 9. Sea (X;Y ) � N (3;�1; 4; 6;�1=2). Determina las distribuciones marginales y

condicionadas.

Solución: Por (2.59) y (2.60), las distribuciones marginales son X � N(3; 4) e

Y � N(�1; 6).

Se tiene que �x = �1 � 1264(x � 3) = �

54 y �2

p1� �2 = 3

p3 , y entonces, por

(2.61),

(Y=X = x) � N��34x+

54 ; 3p3�. (2.80)

Del mismo modo se obtiene, por (2.62), que (X=Y = y) � N��13y +

83 ; 2p3�.

Ejemplo 10. En un estudio botánico se consideran las plantas de un año de edad de

cierta especie vegetal, cultivadas en condiciones controladas (en un vivero). La distribución

conjunta de la altura de la planta (en cm), X, y el diámetro del tronco (en mm), Y , es

N (27; 12; 2; 1; 009).

a) Calcula la probabilidad de que una planta mida más de 30 cm.

b) Calcula la probabilidad de que una planta con un diámetro de 15 mm mida más de

30 cm.

c) Calcula P fX > 3Y � 7g.

Solución:

a) Se tiene que X � N(27; 2). Como es sabido, una variable normal unidimensional

tipi�cada es (se distribuye como una) N (0; 1), y entonces

X � 272

� N (0; 1) . (2.81)

De aquí se obtiene

P fX > 30g = P�X � 272

>30� 272

�= P

�N (0; 1) > 105

. (2.82)

Buscando en las tablas de la N (0; 1) se obtiene P fX > 30g = 000668.

b) Realizando los cálculos se obtiene �y=15 = 3204 y �1p1� �2 = 008718 , y entonces

se tiene que (X=Y = 15) � N (3204; 008718). Por tanto,�X�3204008718 = Y = 15

�� N (0; 1) y

la probabilidad pedida vale:

P fX > 30=Y = 15g = P�X � 3204008718

>30� 3204008718

�Y = 15

�(2.83)

= P�N (0; 1) > �2075

�N (0; 1) < 2075

(2.84)

= 1� P�N (0; 1) > 2075

= 1� 0000298 = 0099702 . (2.85)

c) Se tiene que P fX > 3Y � 7g = P fZ > 0g, con Z = X � 3Y + 7. Por el ejercicio

12 y la proposición 13d, en el apartado 2.4, se tiene que transformaciones lineales de v.a.

normales son v.a. normales, y por tanto Z es normal. Calculamos los parámetros. Se tiene

EZ = E [X � 3Y + 7] = EX � 3EY + 7 = �2 , y (2.86)

V Z = V [X � 3Y + 7] = V [X] + (�3)2V [Y ] + 2(�3)Cov (X;Y ) (2.87)

= 22 + 9 � 12 � 6 � 009 � 2 � 1 = 202 . (2.88)

Por tanto Z � N��2;

p202�. De aquí se obtiene

P fX > 3Y � 7g = P fZ > 0g = P�Z � (�2)p

202>0� (�2)p

�(2.89)

= PnN (0; 1) > 2=

p202o= P

�N (0; 1) > 1035

. (2.90)

Buscando en las tablas de la N (0; 1) se obtiene P fX > 3Y � 7g = 000885 .

La función característica (f.c.) de (X;Y ) � N (�1; �2; �1; �2; �) es

'(t; u) = E[ei(tX+uY )] = exp

�i(t�1 + u�2)�

2�21t

2 � 12�22u

2 + ��1�2tu

�. (2.91)

Es sabido que variables independientes son incorreladas, pero el recíproco no es cierto

en general. Sin embargo, para v.a. normales el recíproco sí se cumple:

Proposición 11. Si (X;Y ) es normal y � = 0 se tiene que X e Y son independientes.

Demostración. Sea (X;Y ) � N (�1; �2; �1; �2; 0). Es inmediato comprobar que la función

de densidad de (X;Y ), en (2.57) y (2.58) con � = 0, se expresa como un producto de una

función de x por una función de y. Además, el soporte de (X;Y ) es el producto cartesiano

R2 = R� R, y por tanto X e Y son independientes.

También se puede demostrar mediante la función característica: es inmediato comprobar

que '(t; u) = '1(t)'2(u).

2.4. Distribución normal n�dimensional

Denotamos la traspuesta de una matriz mediante el símbolo � 0 �añadido al nombre

de la matriz: M y M 0 por ejemplo. Ésto también se aplica a vectores, de modo que, por

ejemplo, (5; 3)0 =�53

�es el vector columna traspuesto del vector �la (5; 3).

Téngase en cuenta que el producto escalar de dos vectores se puede expresar como un

producto de matrices, considerando los vectores como matrices (con una sola �la o una sola

columna): los vectores columna u = (u1; : : : ; un)0 y v = (v1; : : : ; vn)

0 son matrices n � 1,

2.4 Distribución normal n�dimensional

y el producto de matrices u0v = v0u =Pni=1 uivi es una matriz 1 � 1, un número, que es

justamente el producto escalar de u por v.

Sea � = (�1; : : : ; �n)0 2 Rn y � una matriz n � n simétrica de�nida positiva. Una

v.a. X = (X1; : : : ; Xn)0 (conviene expresarla así, como vector columna) tiene distribución

normal n-dimensional, multidimensional, o multivariante, con parámetros � y �, denotado

X � N (�;�) , (2.92)

si es continua con función de densidad

f(x) =1p

(2�)n j�jexp

��12(x� �)0��1(x� �)

�(2.93)

si x = (x1; : : : ; xn)0 2 Rn . (2.94)

El hecho de que � sea de�nida positiva determina que � es no singular, y por tanto

invertible, y que (x� �)0��1(x� �) > 0 para x 6= �.

Para n = 1 se tiene que X = X1 es una v.a. unidimensional. Los parámetros � y � son

matrices 1� 1, esto es, números, y la función f dada en (2.93) y (2.94) queda:

f(x) =1p2��

�� 1

2�(x� �)2

�si x = x1 2 R. (2.95)

Obsérvese que ésta es la función de densidad de una normal unidimensional N (�; �), con

esperanza � = � y desviación típica � =p� . Por tanto, se tiene que la distribución

normal n-dimensional con n = 1 es la distribución normal unidimensional, como cabía

esperar de cualquier distribución que llamáramos normal n-dimensional.

Téngase en cuenta que en la notación habitual para la normal unidimensional, N (�; �),

el segundo parámetro, �, es la desviación típica, pero que si la expresamos como normal

n-dimensional, N(�;�) con n = 1, entonces el segundo parámetro, � = �2, es la varianza.

Utilizamos esta notación para la normal unidimensional, y no la notación N��; �2

�, lo

que nos obliga a dar estas explicaciones, porque es la que se utiliza habitualmente en las

aplicaciones a la estadística.

En el siguiente ejercicio comprobamos que la distribución N (�1; �2; �1; �2; �), estudiada

en el apartado 2.3, coincide con la distribución N (�;�) cuando � y � son los dados en

(2.96). Con ello, se comprueba que la normal del apartado 2.3 es justamente una normal

n-dimensional con n = 2, y por ello es correcto llamarla normal bidimensional como hemos

hecho.

Ejercicio 12. Comprueba que la distribución N (�;�), con

0B@ �1

1CA y � =

0B@ �21 ��1�2

��1�2 �22

1CA , (2.96)

es la misma que la N (�1; �2; �1; �2; �).

Solución: Comprobaremos que las funciones de densidad coinciden. Obsérvese que

x � � = (x1; x2)0 � (�1; �2)0 = (x1 � �1; x2 � �2)0 , con x = (x1; x2)0 (ó x = (x; y)0, como

queramos). Se obtiene

j�j = (1� �2)�21�22 y ��1 =1

0B@ �22 ��1�2

��1�2 �21

1CA . (2.97)

Realizando el cálculo se obtiene que (x��)0��1(x��) es justamente la forma cuadrática

Q (x1; x2) en (2.58). Con lo anterior, es inmediato comprobar que

1p(2�)2 j�j

��12(x� �)0��1(x� �)

2��1�2p1� �2

exp f�Q (x1; x2) =2g .

Obsérvese que la expresión matricial para la densidad normal bidimensional es más

simple que la expresión extendida f(x; y).

El vector de esperanzas y la matriz de covarianzas de una v.a. bidimensional con mo-

mentos �1, �2, �1, �2 y �, son los dados en (2.96). Por tanto, otra consecuencia del resultado

del ejercicio anterior es que los parámetros � y � de una N (�;�) con n = 2 son justamente

el vector de esperanzas y la matriz de covarianzas (y por eso se denotan de esa manera). En

la siguiente proposición se comprueba, entre otras cuestiones, que ésto también es válido

para el caso n-dimensional en general

Se tiene que la función característica de X � N (�;�) es

'(t) = E[eitX ] = exp�it�� 1

2t�t0 para t = (t1; : : : ; tn) 2 Rn . (2.98)

Proposición 13. Sea X � N(�;�), con X = (X1; : : : ; Xn)0.

a) Se veri�ca que el vector de esperanzas y la matriz de covarianzas de X son:

E[X] = � y �X = � . (2.99)

b) Las distribuciones marginales son normales.

c) Las variables X1; : : : ; Xn son independientes si y solo si son incorreladas, esto es,

si � es diagonal.

d) Transformaciones lineales con rango máximo son normales. Para k � n consideremos

una matriz k � n , A, con rango k, y un vector k � 1, b. Se tiene que

AX + b � N�A�+ b; A�A0

�. (2.100)

(Ya se explicó en el tema 2 que el vector de esperanzas y la matriz de covarianzas de AX+b

son A�+b y A�A0. Lo que añade este resultado es que si la distribución de X es normal,

entonces la de AX + b también es normal.)

e) Sea Z = (Z1; : : : ; Zn) � N(0; I), de modo que Z1; : : : ; Zn son vaiid N(0; 1). Existe

una transformación lineal que aplica X en Z, esto es, existen A y b con Z � AX + b.

Demostración:

a) En la proposición 8 se demuestra para n = 2. No hacemos la demostración general.

c) Ya sabemos que si son independientes son incorreladas.

Supongamos ahora que � es diagonal (incorreladas). Se obtiene,

(x� �)0��1 (x� �) =nXi=1

�2i(xi � �i)2 , (2.101)

y entonces f (x1; : : : ; xn) se expresa como un producto h1(x1) � � �hn(xn), y por tanto

X1; : : : ; Xn son independientes: ( 1p(2�)2j�j

es una constante)

f (x1; : : : ; xn) =1p

(2�)2 j�jexp

��12(x� �)0��1 (x� �)

�(2.102)

(2�)2 j�j

�2i(xi � �i)2

�. (2.103)

También se demuestra de un modo inmediato mediante la función característica.

d) Lo demostramos utilizando la f.c.. También lo demostramos mediante el teorema de

cambio de variable (t.c.v.) para el caso k = n; es un ejercicio interesante de aplicación del

t.c.v. y de uso de las operaciones matriciales básicas.

Puesto que la f.c. de X � N(�;�) es 'X(t) = E[eitX ] = exp�it�� 1

2t�t0, la f.c. de

Y = AX + b es

'Y (t) = EheitY

heit(AX+b)

i= eitbE

hei(tA)X)

i= eitb'X(tA) (2.104)

= eitb exp

�i(tA)�� 1

2(tA)�(tA)0

�(2.105)

�itb+ itA�� 1

2tA�A0t0

�(2.106)

�it(A�+ b)� 1

2t(A�A0)t0

�, (2.107)

que es la f.c. de una N(A�+ b; A�A0), y por tanto Y = AX + b � N(A�+ b; A�A0).

Suponemos ahora k = n. La matriz A, n� n, tiene rango n, y por tanto es no singular

y tiene inversa. Entonces, la aplicación lineal h : Rn ! Rn dada por y = h(x) = Ax+b es

biyectiva, y la aplicación inversa viene dada por (despejando) x = A�1(y� b). Es sencillo

comprobar que el determinante Jacobiano de la transformación inversa es J =��A�1��. Por

el t.c.v. se obtiene que la función de densidad de Y = h(X) = AX + b es:

g(y) = f(A�1(y � b))abs(��A�1��) = (2.108)

abs(jAj)p(2�)n j�j

��12

�A�1(y � b)� �

�0��1

�A�1(y � b)� �

��(2.109)

(2�)n jAj j�j jA0jexp

��12

�A�1(y � (A �+b))

�0��1

�A�1(y � (A �+b))

��(2.110)

(2�)n jA�A0jexp

��12(y � (A �+b))0A0�1��1A�1(y � (A �+b))

�(2.111)

(2�)n jA�A0jexp

��12(y � (A �+b))0

�A�A0

��1(y � (A �+b))

�. (2.112)

Se han utilizado las siguientes propiedades de operaciones con matrices:

- En (2.109):��A�1�� = jAj�1.

- En (2.110): jA0j = jAj, y entonces abs(jAj) =qjAj2 =

pjAj jA0j; propiedad distribu-

- En (2.111): el determinante del producto de matrices coincide con el producto de los

determinantes; la traspuesta del producto coincide con el producto de traspuestas, pero en

orden inverso;�A�1

�0= (A0)�1.

- En (2.112): propiedad asociativa del producto; la inversa del producto coincide con el

producto de inversas, pero en orden inverso.

Se observa en la expresión (2.112) que g(y) es la función de densidad de una distribución

N (A�+ b; A�A0), y por tanto Y = AX + b � N (A�+ b; A�A0).

b) Las marginales de X se pueden obtener como transformadas lineales de X de

una manera muy sencilla. Se obtiene que son normales, y los parámetros se obtienen a

partir de � y �, eliminando los elementos que involucran variables eliminadas. Obtenemos

la distribución de X1 y de (X1; X2), lo que es su�ciente para apreciar de qué manera se

producen las marginales.

Sea A = (1; 0; : : : ; 0) el vector (o matriz) 1 � n cuyo primer elemento es un uno y el

resto son ceros. Se tiene que X1 = AX, y por tanto

X1 � N�A�; A�A0

�. (2.113)

La v.a. X1 es unidimensional, y en este caso A� y A�A0 quedan reducidos a números.

Realizando los cálculos se obtiene E[X1] = A� = �1 y V [X1] = A�A0 = �21. Para n = 1

no utilizamos notación matricial, sino que utilizamos la habitual, en la que el segundo

parámetro es la desviación típicap�21 = �1. De este modo,

X1 � N (�1; �1) . (2.114)

0B@ 1 0 0 � � � 0

0 1 0 � � � 0

1CA . (2.115)

Se tiene que (X1; X2)0 = AX, y por tanto (X1; X2)

0 � N (A�; A�A0). Realizando los

cálculos se obtiene A� = (�1; �2)0 ; A�A0 = (�ij)i;j=1;2, y de aquí0B@ X1

1CA � N

0B@0B@ �1

1CA ;0B@ �21 Cov(X1; X2)

Cov (X1; X2) �22

1CA1CA . (2.116)

Obsérvese que Cov(X1; X2) = �(X1;X2)�1�2.

e) Se puede demostrar la existencia y obtener la transformación de varias maneras,

por ejemplo a partir de los autovalores y autovectores de �. La transformación no es única.

Únicamente presentamos la transformación para n = 1 y n = 2 (solo una de ellas). Para

n = 1 la transformación lineal es la tipi�cación. Para n = 2 se tiene que AX+b � N (0; I),

�1p1��2

� �

�2p1��2

0 1�2

1CA y b = �A� =

0B@ ��2=�2��1=�1p1��2

��2�2

1CA . (2.117)

También podemos realizar la operación a la inversa, transformando una variable aleato-

ria Y � N (0; I) en otra v.a. X � N(�;�). Para n = 1 la transformación está dada por

X = �Y + �, y para n = 2 la transformación (una de ellas) está dada por X = BY + �,

con B = A�1 =

0B@ �1p1� �2 ��1

0 �2

1CA, siendo A la matriz en (2.117).�

Ejemplo 14. Sea (X1; X2) � N (3;�1; 1; 2; 005). Determina la distribución de (Y1; Y2), con

Y1 = 2X1 � 3X2 + 1 y Y2 = X1 + 2X2.

Solución: Sean

0B@ X1

1CA , � =

0B@ 1 1

1CA , (2.118)

0B@ Y1

1CA , A =

0B@ 2 �3

1CA y b =

1CA . (2.119)

Los datos del enunciado se pueden expresar como: X � N (�;�) e Y = AX + b. Por la

proposición 13d se obtiene Y � N (A�+ b; A�A0). Realizando los cálculos se obtiene

Y � N

0B@0B@ 10

1CA ,0B@ 28 �21

�21 21

1CA1CA , (2.120)

o, lo que es lo mismo, Y � N�10; 1;

p28;p21;�

p3=2�.

Ejemplo 15. Sea X = (X1; X2; X3)0 � N (�;�), con

0BBBB@0

1CCCCA , � =

0BBBB@1 1 �2

�2 0 9

1CCCCA , (2.121)

Determina la distribución marginal de (X1; X3) y la distribución de Y = (Y1; Y2)0, con

Y1 = �3X1 + 2X2 + 1 y Y2 = 3X1 � X2 + 4X3 � 3. ¿Son independientes (X1; X3)?, ¿y

(X2; X3)?.

Solución: Se tiene que (X1; X3)0 = AX, con A =

0B@ 1 0 0

1CA. Por tanto,0B@ X1

1CA � N�A�; A�A0

�= N

0B@0B@ 0

1CA ;0B@ 1 �2

�2 9

1CA1CA (2.122)

Se tiene que Y = AX + b, con A =

0B@ �3 2 0

3 �1 4

1CA y b =

1CA , y entonces

Y � N�A�+ b; A�A0

�= N

0B@0B@ �3

1CA ;0B@ 13 16

16 103

1CA1CA . (2.123)

Puesto que Cov (X1; X3) = �2 6= 0, se tiene que �(X1;X3) 6= 0, y entonces, por la

proposición 11, se tiene que (X1; X3) no son independientes. Puesto que Cov (X2; X3) = 0,

se tiene que �(X2;X3) = 0, y entonces, por la proposición 11, se tiene que (X1; X3) son

independientes.

En la proposición 13d se exige que la transformación lineal tenga rango máximo, igual

a k. Ésto determina que Y = AX + b es una v.a. continua, esto es, que tiene función de

densidad, la de la N (A�+ b; A�A0) (de�nición en 2.92, 2.93 y 2.94).

En caso contrario, la matriz de covarianzas A�A0 de la transformada es singular, y

no tiene inversa. Entonces, la función de densidad normal dada en 2.93 y 2.94 no esta

de�nida. La v.a. Y no es discreta ni continua, ni una mixtura de ambos tipos, sino que

tiene una distribución singular, aunque de un tipo muy sencillo. Su soporte es el subespacio

(hiperplano) de Rk

T = fAx+ b : x 2 Rng . (2.124)

La dimensión de T coincide con el rango de A, menor que k, y por ello Y es singular.

Sin embargo, si nos restringimos a T , entonces Y tiene distribución básicamente normal

continua.

Consideremos por ejemplo, n; k = 2, A =

0B@ 2 6

1CA , con rango rg(A) = 1 < 2, y

b = 0. Sea X = (X1; X2)0 y sea Y = AX + b, con Y = (Y1; Y2)

0. Se tiene que, Y1 =

2X1 + 6X2 = 2Y2, y por tanto la v.a. singular Y = (Y1; Y2)0 es básicamente una v.a.

unidimensional continua, como comentamos a continuación. Se obtiene

� (Y1; Y2) =Cov (2Y2; Y2)pV [2Y2]

pV [Y2]

=2Cov (Y2; Y2)p22V [Y2]

pV [Y2]

= 1 . (2.125)

El soporte de Y (el conjunto T � R2 en (2.124)) es la recta y1 = 2y2 (ó y2 = y1=2), en

el plano (y1; y2). Cualquier aplicación lineal biyectiva h : T ! R transforma Y en una

v.a. unidimensional continua; por ejemplo, h (Y1; Y2) = Y1 es normal unidimensional con

parámetros

�Y1 = E [Y1] = E [2X1 + 6X2] = 2E [X1] + 6E [X2] y (2.126)

V [Y1] = V [2X1 + 6X2] = 22V [X1] + 6

2V [X2] + 2 � 2 � 6 � Cov (X1; X2) . (2.127)

Existen generalizaciones de la noción de inversa de una matriz que permiten de�nir una

normal con matriz de covarianzas singular. Esta noción permite manejar la situación que

acabamos de describir, con rg(A) < k, de una manera cómoda. De una manera más simple

y directa que la que acabamos de considerar, sin necesidad de introducir la aplicación h.

No la estudiamos.

Capitulo2 probabilidad

Documents

Transcript of Capitulo2 probabilidad

Capitulo2 Unlocked

Capitulo2 - Electroneumática.pdf

Capitulo2 (1)

Capitulo2 Leo

Capitulo2 - tesis.uson.mx

Capitulo2 POO Tecnicas

Prueba Capitulo2

CAPITULO2 - Annotation

Capitulo2 Gestiondelapercepionpublica 1

Cif oms capitulo2

Capitulo2 Bioreactores

Exploration1 capitulo2

capitulo2 pmbook

Capitulo2 a

Capitulo2- suelos

capitulo2 globalizacion

Capitulo2 Staffing

Capitulo2 CALIDAD

Capitulo2 Torres

Capitulo2 vectores