Post on 26-Jan-2016
description
Capítulo 1
1
1.
2
Capítulo 2
Principales distribuciones
n-dimensionales
2.1. Introducción
En este tema se estudian generalizaciones multidimensionales de dos distribuciones
unidimensionales, la binomial y la normal.
La distribución del número de éxitos en n pruebas de Bernoulli repetidas es binomial.
Se clasi�ca el resultado de cada repetición en una de las dos clases �éxito�o �fracaso�. La
distribución multinomial, apartado 2.2, la generaliza considerando mas de dos clases.
La distribución normal n-dimensional (bidimensional para n = 2) es una generalización
de la normal unidimensional. Es una distribución muy usada y tiene propiedades que la
hacen muy manejable. Por ejemplo, como en el caso unidimensional, se tiene que transfor-
maciones lineales de v.a. normales son v.a. normales. Todas las distribuciones marginales
son normales. Las componentes son independientes si y solo si son incorreladas.
En el apartado 2.3 estudiamos el caso bidimensional (n = 2), y en el apartado 2.4 el
caso n-dimensional en general (n � 1).
Usaremos notación matricial para el caso general. Es una herramienta potente que per-
mite expresiones y demostraciones sencillas; por ejemplo, la función de densidad tiene una
expresión muy parecida a la del caso unidimensional, pero sustituyendo algunos elemen-
1
2. Principales distribuciones n-dimensionales
tos numéricos por vectores y matrices. Podríamos prescindir del apartado 2.3 (excepto lo
referido a distribuciones condicionadas), donde se estudia el caso n = 2, puesto que lo allí
estudiado se puede obtener como caso particular de lo estudiado en el apartado 2.4. Sin
embargo, conviene explicar este caso utilizando también la notación extendida, que es la
que hemos utilizado para todas las distribuciones bidimensionales que hemos considerado,
escribiendo por ejemplo la función de densidad como f(x; y) en vez de f(z), con z = (x; y).
2.2. Distribución multinomial
2.2.1. Introducción: la distribución binomial
Consideremos un experimento aleatorio compuesto consistente en n repeticiones inde-
pendientes de un experimento aleatorio básico. Por ejemplo, se lanza n = 15 veces una
moneda o, se conectan, en funcionamiento continuo hasta que se estropean, n = 10 re-
sistencias eléctricas producidas por una máquina.
Consideremos un suceso A referido al experimento aleatorio básico. Por ejemplo, �obte-
ner cara�, en el lanzamiento de moneda, o, �durar más de 400 horas�, en el ejemplo de la
conexión hasta el fallo de las resistencias.
Las v.a. �número de caras�, en el primer ejemplo, y �número de resistencias que duran
más de 400 horas�, en el segundo ejemplo, tienen distribución binomial B (n; p), siendo n
el número de repeticiones y p = P (A). La función de masa de X � B (n; p) viene dada por
P fX = xg =�n
x
�px (1� p)n�x si x = 0; : : : ; n . (2.1)
En el primer ejemplo hay solo dos resultados posibles, cara y cruz. El suceso A es
�obtener cara�. En el segundo ejemplo, el suceso A es �durar más de 400 horas�. Aunque
podemos observar el valor exacto de la duración, solo estamos interesados aquí en si ha
ocurrido A o no. De esta forma, clasi�camos los resultados en dos clases, A y Ac, y llegamos
así a una situación análoga a la del primer ejemplo, con solo dos resultados posibles.
Estas clases son exhaustivas (cubren todos los casos posibles), y mutuamente ex-
cluyentes (ningun caso está en más de una clase a la vez). Utilizando terminología de
2
2.2 Distribución multinomial
probabilidad decimos que las clases son sucesos incompatibles cuya unión es el suceso se-
guro, y si utilizamos terminología de teoría de conjuntos decimos que las clases son una
partición del espacio muestral.
La v.a. que consideramos, X, es el número de veces que ocurre A, o dicho de otro modo,
el recuento del número de observaciones en la clase A. Obsérvese que si se obtiene X = x,
entonces el número de observaciones en la clase Ac es n� x.
Consideramos ahora k � 2 clases en general y estudiamos la distribución del vector
aleatorio con el recuento del número de observaciones en cada clase.
2.2.2. La distribución multinomial
Una v.a. k-dimensional X = (X1; : : : ; Xk) tiene distribución multinomial con paráme-
tros n, natural, y p1; : : :; pk � 0 con p1 + � � �+ pk = 1 , y se denota por
X � mult(n; p1; : : : ; pk) , (2.2)
si es discreta con función de masa
P fX1 = n1; : : : ; Xk = nkg =n!
n1! � � �nk!pn11 � � � p
nkk (2.3)
si n1; : : : ; nk � 0 son enteros con n1 + � � �+ nk = n. (2.4)
Obsérvese que X1 + � � �+Xk = n.
Consideremos un experimento aleatorio básico. Sea k � 2 y supongamos que se clasi�ca
el resultado del experimento, según corresponda, en una de k clases A1; : : : ; Ak, exhaustivas
y mutuamente excluyentes, con probabilidades p1; : : : ; pk � 0 con p1 + � � � + pk = 1. Se
llevan a cabo n repeticiones independientes del experimento y se contabiliza el número de
observaciones en cada clase considerando la v.a. X = (X1; : : : ; Xk), siendo Xi el número
de observaciones en Ai. Se tiene que X � mult(n; p1; : : : ; pk).
Ejemplo 1. Consideremos una urna U(3b; 5n; 2r), esto es, con tres bolas blancas, cinco
negras y dos rojas. Se extraen siete bolas al azar con reemplazamiento.
a) Calcula la probabilidad de que dos sean blancas, cuatro negras y la otra roja.
b) Calcula la probabilidad de que tres sean blancas, dos negras y dos rojas.
3
2. Principales distribuciones n-dimensionales
Solución: Sea X el número de bolas blancas, Y el número de negras y Z el de
rojas (ó X1; X2; X3, como queramos). La probabilidad de que la bola sea blanca en una
extracción vale 3=10, la probabilidad de que sea negra vale 5=10, y la de roja 2=10. Por
tanto (X;Y ) � mult (7; 003; 005; 002).
a) La probabilidad pedida vale
P fX = 2; Y = 4; Z = 1g = 7!
2!4!1!003200540021 = 00118 . (2.5)
b) La probabilidad pedida vale
P fX = 3; Y = 2; Z = 2g = 7!
3!2!2!003300520022 = 000567 . (2.6)
�
Puesto que X1 + � � �+Xk = n se tiene que
Xk = n�X1 � � � � �Xk�1 . (2.7)
En algunas ocasiones resulta conveniente considerar (X1; : : : ; Xk�1) en vez de (X1; : : : ; Xk).
Esta expresión abreviada no supone pérdida de información, puesto que podemos recuperar
Xk mediante (2.7). Se suele escribir
(X1; : : : ; Xk�1) � mult (n; p1; : : : ; pk�1) , (2.8)
con parámetros p1; : : : ; pk�1 � 0 y p1 + � � � + pk�1 < 1 . Las probabilidades de las
k � 1 primeras clases son los parámetros p1; : : : ; pk�1, y la probabilidad de la clase k vale
pk = 1� p1 � � � � � pk�1.
La distribución binomial B(n; p) es justamente la distribución multinomial mult(n; p)
expresada de esta manera, con k = 2 clases (exito y fracaso, o cualquier otra clasi�cación
con dos opciones).
Ejercicio 2. Consideremos Z � B(n; p) y T � mult (n; p), con 0 < p < 1. Comprueba
que la función de masa de Z y la de T coinciden, y por tanto Z � T .
Solución: Para z = 0; : : : ; n se tiene, por (2.1), que
P fZ = zg =�n
z
�pz (1� p)n�z = n!
z! (n� z)!pz (1� p)n�z . (2.9)
4
2.2 Distribución multinomial
Puesto que el parámetro p en mult (n; p) es un único valor numérico p < 1, entonces se está
utilizando la expresión dada en (2.8) con k = 2 clases. El vector (X1; : : : ; Xk�1) en (2.8)
se reduce a la v.a. unidimensional X1 = T . Las probabilidades de las clases son p1 = p y
p2 = 1� p, y por (2.3) se tiene (con X2 = n�X1)
P fT = zg = P fX1 = zg = P fX1 = z;X2 = n� zg =n!
z! (n� z)!pz1pn�z2 (2.10)
=n!
z! (n� z)!pz (1� p)n�z = P fZ = zg (2.11)
para z = 0; : : : ; n, y por tanto Z � T .
�
La fórmula de Leibnitz
(a1 + � � �+ ak)n =X
n1;:::;nk
n!
n1! � � �nk!an11 � � � a
nkk , (2.12)
siendo el sumatorio la suma para todos los n1; : : : ; nk � 0 enteros con n1 + � � �+ nk = n,
es una generalización de la fórmula del binomio de Newton (k = 2). Mediante su uso se
comprueba por ejemplo que la función de masa dada en (2.3) y (2.4) suma 1, y por tanto
es, efectivamente, una función de masa.
En el estudio de distribuciones marginales conviene considerar (X1; : : : ; Xk�1) (expre-
sión abreviada) en vez de (X1; : : : ; Xk). Mediante la fórmula (2.12) se obtiene la función
característica (f.c.) de (X1; : : : ; Xk�1), que es
'(t1; : : : ; tk�1) = (p1eit1 + � � �+ pk�1eitk�1 + pk)n (2.13)
Teniendo en cuenta que '(t1; : : : ; tk�1) = E[ei(t1X1+���+tk�1Xk�1)], se observa que las f.c.
de las distribuciones marginales se obtienen a partir '(t1; : : : ; tk�1) haciendo nulos los ar-
gumentos correspondientes a las componentes que se quieren eliminar. Realizando esta
operación en la f.c. (2.13), se observa que las f.c. marginales vuelven a ser del tipo (2.13),
con k reducido según el número de componentes eliminado. Por tanto, todas las distribu-
ciones marginales son multinomiales. Los parámetros correspondientes a componentes no
eliminadas conservan su valor, y los parámetros correspondientes a componentes eliminadas
se eliminan.
5
2. Principales distribuciones n-dimensionales
Ejemplo 3. Consideremos una urna U(1b; 2v; 3a; 4r), esto es, con una bola blanca, dos
verdes, tres azules y cuatro rojas. Se extraen n bolas al azar con reemplazamiento. Sean
X1, X2 y X3 el número de bolas blancas, verdes y azules (el de rojas es n�X1�X2�X3).
Se tiene que (X1; X2; X3) � mult (n; 001; 002; 003). Obsérvese que corresponde a la expre-
sión en forma abreviada, puesto que no hemos incluido el número de rojas, X4, lo que se
traduce en que 001 + 002 + 003 < 1.
Las distribuciones marginales son:X1 � mult (n; 001) (que es laB (n; 001)),X2 � mult (n; 002),
X3 � mult (n; 003) , (X1; X2) � mult (n; 001; 002) , (X1; X3) � mult (n; 001; 003) y
(X2; X3) � mult (n; 002; 003) .
�
Se tiene que Xj � mult (n; pj), y esta distribución es una B (n; pj), por el resultado del
ejercicio 2. Entonces, se tiene que
E[Xj ] = npj y V [Xj ] = npj(1� pj) .
Las covarianzas se pueden obtener a partir de la f.c.. Se tiene que (Xj ; Xl) � mult (n; pj ; pl),
y su f.c. es
'j;l(tj ; tl) = (pjeitj + ple
itl + 1� pj � pl)n . (2.14)
Por tanto
E [XjXl] =1
i2d2'j;l(tj ; tl)
dtjdtl
����tj ;tl=0
= n(n� 1)pjpl , (2.15)
y entonces
Cov(Xj ; Xl) = E [XjXl]� E [Xj ]E [Xl] = �npjpl para j 6= l. (2.16)
El coe�ciente de correlación vale
�(Xi; Xj) = �r
pipj(1� pi)(1� pj)
para i 6= j. (2.17)
Ejemplo 4. Consideremos una urna U(3b; 5n; 2r). Se extraen siete bolas al azar con reem-
plazamiento.
a) Calcula la probabilidad de que dos sean blancas, cuatro negras y la otra roja.
6
2.2 Distribución multinomial
b) Calcula la probabilidad de que dos sean blancas, y el resto de otro color.
c) Calcula la probabilidad de que dos sean blancas sabiendo que tres son negras.
d) Determina el número esperado de bolas blancas y la varianza.
e) Determina la covarianza y el coe�ciente de correlación entre el número de bolas
blancas y negras.
Solución: Utilizamos la notación abreviada. Sea X el número de bolas blancas e
Y el número de negras. La probabilidad de que la bola sea blanca en una extracción vale
3=10, y la de que sea negra vale 5=10, y por tanto (X;Y ) � mult (7; 003; 005), X � B(7; 003)
e Y � B(7; 005).
a) Es el ejemplo 1a. Se vuelve a resolver ahora para poder apreciar cómo se expresa el
problema con la expresión abreviada, utilizando (X;Y ) en vez de (X;Y; Z) (compárese la
resolución del ejemplo 1a con ésta). La probabilidad pedida vale
P fX = 2; Y = 4g = 7!
2!4!(7� 2� 4)!00320054(1� 003� 005)7�2�4 (2.18)
=7!
2!4!1!003200540021 = 00118 . (2.19)
b) La probabilidad pedida vale
P fX = 2g = 7!
2!(7� 2)!0032(1� 003)7�2 = 00318 . (2.20)
c) Se obtiene
P fX = 2=Y = 3g = P fX = 2; Y = 3gP fY = 3g =
7!
2!3!2!003200530022
7!
3!4!00530054
= 00346 . (2.21)
d) Se tiene que
E[X] = 7 � 003 = 201 y V [X] = 7 � 003 � (1� 003) = 1047 . (2.22)
e) Puesto que (X;Y ) � mult (7; 003; 005), se tiene por (2.16) y (2.17) que
Cov(X;Y ) = �7 � 003 � 005 = �1005 , y (2.23)
� (X;Y ) = �
s003 � 005
(1� 003)(1� 005) = �00655 . (2.24)
�
7
2. Principales distribuciones n-dimensionales
Ejemplo 5. Una máquina produce tornillos cuya longitud se distribuye según unaN (�; �),
con � = 205 y � = 0002 (en mm). Un tornillo es rechazado por pequeño si mide menos de
2045 mm, es aceptado como bueno si mide entre 2045 y 2055 mm, y es rechazado por grande
si mide mas de 2055 mm. Para un lote de 100 tornillos, determina:
a) Probabilidad de que 2 tornillos sean pequeños, 95 buenos, y 3 grandes.
b) Probabilidad de que 95 sean buenos, y el resto sean rechazados.
c) Probabilidad de que 2 sean pequeños sabiendo que 3 son grandes.
d) Determina el número esperado de tornillos buenos y la desviación típica.
e) Determina la covarianza y el coe�ciente de correlación entre el número de tornillos
pequeños y grandes.
Solución: Tenemos k = 3 clases, correspondientes a tornillos pequeños, buenos y
grandes. En primer lugar, calculamos las probabilidades de las clases:
p1 = P�N (�; �) < 2045
= P
�N (0; 1) <
2045� ��
�(2.25)
= P�N (0; 1) < �205
= P
�N (0; 1) > 205
= 0000621 , (2.26)
p3 = P�N (�; �) > 2055
= P
�N (0; 1) >
2055� ��
�(2.27)
= P�N (0; 1) > 205
= 0000621 , y (2.28)
p2 = 1� p1 � p3 = 00988 . (2.29)
Sea X el número de tornillos pequeños, Y el número de buenos, y Z el número de grandes.
Se tiene que (X;Y; Z) � mult (100; p1; p2; p3).
a) Se tiene que
P fX = 2; Y = 95; Z = 3g = 100!
2!95!3!p21p
952 p
33 = 0
000221 . (2.30)
b) Se tiene que Y � B (100; p2), y entonces
P fY = 95g =�100
95
�p952 (1� p2)
100�95 = 0000595 . (2.31)
c) Se tiene que Z � B (100; p3), y entonces
P fX = 2=Z = 3g = P fX = 2; Z = 3gP fZ = 3g =
100!
2!95!3!p21p
100�2�32 p33
100!
3!97!p33 (1� p3)
100�97= 00104 . (2.32)
8
2.2 Distribución multinomial
(El numerador es el mismo que en el apartado a).
d) Se tiene que
E[Y ] = E[B (100; p2)] = 100 � p2 = 9808 y (2.33)
V [Y ] = V [B (100; p2)] = 100 � p2 � (1� p2) = 1019 , (2.34)
y por tanto �Y =pV [Y ] = 1009.
e) Puesto que (X;Z) � mult (100; p1; p3), se tiene por (2.16) y (2.17) que
Cov(X;Y ) = �100p1p3 = �0000386 , y (2.35)
� (X;Y ) = �r
p1p3(1� p1)(1� p3)
= �0000625 . (2.36)
�
Ejemplo 6. Consideremos (X;Y ) � mult (n; p1; p2) con p1 + p2 < 1 (por tanto con k = 3
clases). Determina la distribución condicionada de (Y=X = x).
Solución: Se tiene que X � B (n; p1), y por tanto, para x = 0; 1; : : : ; n,
P fY = y=X = xg = P fX = x; Y = ygP fX = xg (2.37)
=
n!
x!y!(n� x� y)!px1py2(1� p1 � p2)n�x�y
n!
x!(n� x)!px1(1� p1)n�x
. (2.38)
El numerador P fX = x; Y = yg en (2.37) toma el valor dado en (2.38) solo cuando y � 0,
x + y � n, y es nulo en otro caso. Entonces, el soporte de la distribución de (Y=X = x)
(con x �jo) viene dado por 0 � y � n� x, con y entero, esto es, y = 0; 1; : : : ; n� x.
Comprobamos a continuación que la función de masa P fY = y=X = xg dada por (2.38)
corresponde a una distribución binomial. Simpli�cando (2.38) se obtiene
P fY = y=X = xg =
1
y!(n� x� y)!py2(1� p1 � p2)n�x�y
1
(n� x)! (1� p1)y(1� p1)n�x�y
(2.39)
=
�n� xy
��p2
1� p1
�y �1� p1 � p21� p1
�n�x�y. (2.40)
9
2. Principales distribuciones n-dimensionales
Entonces, P fY = y=X = xg = PnB�n� x; p2
1�p1
�= y
osi y = 0; 1; : : : ; n� x. Por tanto
(Y=X = x) � B�n� x; p2
1� p1
�. (2.41)
Del mismo modo se obtiene (X=Y = y) � B�n� y; p1
1�p2
�, lo que permite resolver el
ejemplo 4c de la siguiente manera:
P fX = 2=Y = 3g = PnB�n� 3; p1
1�p2
�= 2
o= P
�B�4; 35
�= 2
(2.42)
=4!
2!(4� 2)!
�3
5
�2�1� 3
5
�4�2= 00346 . (2.43)
Resuelve también de esta manera el ejemplo 5c.
�
Ejercicio 7. Calcula E [XjXl] para (Xj ; Xl) � mult (n; pj ; pl), con pj + pl < 1,
a) de un modo directo, a partir de la función de masa conjunta,
b) mediante el uso de la esperanza condicionada, utilizando los momentos de las dis-
tribuciones marginal y condicionada para (Xj ; Xl).
Solución: Denotamos (Xj ; Xl) por (Y; Z), para evitar tener que escribir repetida-
mente los subíndices.
a) Se tiene que
E [XjXl] = E [Y Z] =X
y;z�0 enteros con y+z�nyz � P fY = y; Z = zg (2.44)
= 0 +X
y;z�1, y+z�nyz � P fY = y; Z = zg (2.45)
=X
y;z�1, y+z�nyz � P fmult (n; pj ; pl) = (y; z)g (2.46)
=X
y;z�1, y+z�nyz
n!
y!z! (n� y � z)!pyjpzl (1� pj � pl)
n�y�z (2.47)
= pjplX
y;z�1, y+z�n
n!
(y � 1)! (z � 1)! (n� y � z)!py�1j pz�1l (1� pj � pl)n�y�z .
Expresando la suma en términos de y0 = y � 1 (y por tanto, y = y0 + 1) y z0 = z � 1 se
10
2.3 Distribución normal bidimensional
obtiene
E [XjXl] = pjpln (n� 1)X
y0;z0�0, y0+z0�n�2
(n� 2)!y0!z0! (n� 2� y0 � z0)!p
y0
j pz0l (1� pj � pl)
n�2�y0�z0
= n (n� 1) pjplX
y0;z0�0, y0+z0�n�2P�mult (n� 2; pj ; pl) =
�y0; z0
�(2.48)
= n (n� 1) pjpl . (2.49)
b) Se tiene que Y � B (n; pj) y entonces E[Y ] = npj y V [Y ] = npj(1� pj). Recuérdese
que E[Y 2] = V [Y ] + E[Y ]2. Por el ejemplo 6 se tiene que (Z=Y = y) � B�n� y; pl
1�pj
�,
y entonces E [Z=Y = y] = (n� y) pl1�pj . Se tiene que
E [XjXl] = E [Y Z] = E [E [Y Z=Y ]] = E [Y E [Z=Y ]] = E
�Y (n� Y ) pl
1� pj
�(2.50)
=pl
1� pjE�nY � Y 2
�=
pl1� pj
�nE [Y ]� E
�Y 2��
(2.51)
=pl
1� pj
�n � npj �
�(npj(1� pj)) + (npj)2
��(2.52)
=pl
1� pjn�npj � (pj(1� pj))� np2j
�(2.53)
=npl1� pj
(npj (1� pj)� (pj (1� pj))) =npl1� pj
(n� 1) pj (1� pj) (2.54)
= n (n� 1) pjpl . (2.55)
�
2.3. Distribución normal bidimensional
Una v.a. bidimensional (X;Y ) tiene distribución normal bidimensional con parámetros
�1; �2; �1; �2 y �, denotado por
(X;Y ) � N (�1; �2; �1; �2; �) , (2.56)
si es continua con función de densidad
f(x; y) =1
2��1�2p1� �2
exp f�Q(x; y)=2g si �1 < x; y <1 , (2.57)
con Q(x; y) =1
1� �2
"�x� �1�1
�2� 2�x� �1
�1
y � �2�2
+
�y � �2�2
�2#, (2.58)
11
2. Principales distribuciones n-dimensionales
siendo los parámetros �1; �2 reales, �1; �2 > 0 y j�j < 1.
Es sabido que los parámetros � y � de una normal unidimensional N(�; �) son la media
y la desviación típica. En la siguiente proposición se obtiene, entre otras propiedades, que
también los parámetros �1; �2; �1; �2; � que intervienen en (2.57) y (2.58) son justamente
lo que indican (medias, desviaciones típicas y coe�ciente de correlación).
Proposición 8. La función f dada en (2.57) y (2.58) es, efectivamente, una función de
densidad. Las distribuciones marginales y condicionadas son:
X � N (�1; �1) , (2.59)
Y � N (�2; �2) , (2.60)
(Y=X = x) � N��x; �2
p1� �2
�con �x = �2 + �
�2�1(x� �1) , y (2.61)
(X=Y = y) � N��y; �1
p1� �2
�con �y = �1 + �
�1�2(y � �2) . (2.62)
Además, se tiene que los valores de los parámetros �1, �2, �1, �2 y � son, tal como indica
su notación, justamente las medias, desviaciones típicas y el coe�ciente de correlación.
Demostración. Demostramos (2.59) y (2.61) obteniendo una expresión de f de la forma
f(x; y) = g(x)hx(y), siendo g(x) y hx(y) densidades normales, que resultan ser las den-
sidades de X y de (Y=X = x). La demostración de (2.60) y (2.62) es la misma, pero
intercambiando X e Y . A partir de (2.59) y (2.60) se obtiene que �1, �2, �1 y �2 son las
medias y las desviaciones típicas. Obtendremos al coe�ciente de correlación mediante el
uso de la esperanza condicionada.
Teniendo en cuenta que
1
�22
�y �
��2 + �
�2�1(x� �1)
��2=
�y � �2�2
� �x� �1�1
�2(2.63)
=
�y � �2�2
�2+ �2
�x� �1�1
�2� 2�x� �1
�1
y � �2�2
(2.64)
= (1� �2)Q(x; y)� (1� �2)�x� �1�1
�2(2.65)
= (1� �2)"Q(x; y)�
�x� �1�1
�2#, (2.66)
12
2.3 Distribución normal bidimensional
se obtiene
Q(x; y) =1
(1� �2)�22
�y �
��2 + �
�2�1(x� �1)
��2+
�x� �1�1
�2. (2.67)
Teniendo en cuenta también que 2��1�2p1� �2 =
�p2��1
� �p2��2
p1� �2
�obtenemos
que f(x; y) se puede expresar como
f(x; y) = g(x)hx(y) , con (2.68)
g(x) =1p2��1
exp
(�12
�x� �1�1
�2)y
hx(y) =1
p2��2
p1� �2
exp
(� 1
2(1� �2)�22
�y �
��2 + �
�2�1(x� �1)
��2).
Obsérvese que g(x) es la función de densidad de una N(�1; �1) y hx(y) es la función de
densidad de una N��x; �2
p1� �2
�. A partir de este hecho la proposición se demuestra
de un modo sencillo.
Se tiene queRg(x)dx = 1 y
Rhx(y)dy = 1, puesto que g(x) y hx(y) son funciones de
densidad. De aquí se obtieneZ 1
�1
Z 1
�1f(x; y)dydx =
Z 1
�1
Z 1
�1g(x)hx(y)dydx (2.69)
=
Z 1
�1g(x)
�Z 1
�1hx(y)dy
�dx =
Z 1
�1g(x)dx = 1 , (2.70)
y por tanto f es una función de densidad, y se tiene que
f1(x) =
Z 1
�1f(x; y)dy =
Z 1
�1g(x)hx(y)dy = g(x)
Z 1
�1hx(y)dy = g(x) , (2.71)
y por tanto X � N(�1; �1). Además,
f(y=x) =f(x; y)
f1(x)=g(x)hx(y)
f1(x)= hx(y) , (2.72)
y por tanto (Y=X = x) � N��x; �2
p1� �2
�.
La distribución de Y y la de (X=Y = y) se obtienen intercambiandoX e Y en la demostración.
Puesto que X � N(�1; �1) e Y � N(�2; �2) se tiene que EX = �1, V [X] = �21, EY = �2,
V [Y ] = �22.
Llamemos provisionalmente c al parámetro � incluido en (2.57) y (2.58), y sea � el coe-
�ciente de correlación (como siempre). Comprobamos que c = �, y por tanto a partir de
13
2. Principales distribuciones n-dimensionales
aquí queda justi�cado que llamemos � a este parámetro, puesto que es, efectivamente, el
coe�ciente de correlación. Se tiene que
E [XY ] = E [E [XY=X]] = E [XE [Y=X]] = E [X�X ] (2.73)
= E
�X
��2 + c
�2�1(X � �1)
��= E
��2X + c
�2�1(X � �1)X
�(2.74)
= �2E [X] + c�2�1E�X2 � �1X
�= �2E [X] + c
�2�1
�E�X2�� �1E [X]
�(2.75)
= �2E [X] + c�2�1
�V [X] + E [X]2 � �1E [X]
�(2.76)
= �2�1 + c�2�1
��21 + �
21 � �1 � �1
�= �1�2 + c�2�1 , (2.77)
y de aquí se obtiene
Cov (X;Y ) = E [XY ]� E [X]E [Y ] = �1�2 + c�2�1 � �1�2 = c�2�1 , y (2.78)
� =Cov (X;Y )
�1�2= c , (2.79)
como queríamos demostrar.
Ejemplo 9. Sea (X;Y ) � N (3;�1; 4; 6;�1=2). Determina las distribuciones marginales y
condicionadas.
Solución: Por (2.59) y (2.60), las distribuciones marginales son X � N(3; 4) e
Y � N(�1; 6).
Se tiene que �x = �1 � 1264(x � 3) = �
34x +
54 y �2
p1� �2 = 3
p3 , y entonces, por
(2.61),
(Y=X = x) � N��34x+
54 ; 3p3�. (2.80)
Del mismo modo se obtiene, por (2.62), que (X=Y = y) � N��13y +
83 ; 2p3�.
�
Ejemplo 10. En un estudio botánico se consideran las plantas de un año de edad de
cierta especie vegetal, cultivadas en condiciones controladas (en un vivero). La distribución
conjunta de la altura de la planta (en cm), X, y el diámetro del tronco (en mm), Y , es
N (27; 12; 2; 1; 009).
a) Calcula la probabilidad de que una planta mida más de 30 cm.
14
2.3 Distribución normal bidimensional
b) Calcula la probabilidad de que una planta con un diámetro de 15 mm mida más de
30 cm.
c) Calcula P fX > 3Y � 7g.
Solución:
a) Se tiene que X � N(27; 2). Como es sabido, una variable normal unidimensional
tipi�cada es (se distribuye como una) N (0; 1), y entonces
X � 272
� N (0; 1) . (2.81)
De aquí se obtiene
P fX > 30g = P�X � 272
>30� 272
�= P
�N (0; 1) > 105
. (2.82)
Buscando en las tablas de la N (0; 1) se obtiene P fX > 30g = 000668.
b) Realizando los cálculos se obtiene �y=15 = 3204 y �1p1� �2 = 008718 , y entonces
se tiene que (X=Y = 15) � N (3204; 008718). Por tanto,�X�3204008718 = Y = 15
�� N (0; 1) y
la probabilidad pedida vale:
P fX > 30=Y = 15g = P�X � 3204008718
>30� 3204008718
�Y = 15
�(2.83)
= P�N (0; 1) > �2075
= P
�N (0; 1) < 2075
(2.84)
= 1� P�N (0; 1) > 2075
= 1� 0000298 = 0099702 . (2.85)
c) Se tiene que P fX > 3Y � 7g = P fZ > 0g, con Z = X � 3Y + 7. Por el ejercicio
12 y la proposición 13d, en el apartado 2.4, se tiene que transformaciones lineales de v.a.
normales son v.a. normales, y por tanto Z es normal. Calculamos los parámetros. Se tiene
que
EZ = E [X � 3Y + 7] = EX � 3EY + 7 = �2 , y (2.86)
V Z = V [X � 3Y + 7] = V [X] + (�3)2V [Y ] + 2(�3)Cov (X;Y ) (2.87)
= 22 + 9 � 12 � 6 � 009 � 2 � 1 = 202 . (2.88)
15
2. Principales distribuciones n-dimensionales
Por tanto Z � N��2;
p202�. De aquí se obtiene
P fX > 3Y � 7g = P fZ > 0g = P�Z � (�2)p
202>0� (�2)p
202
�(2.89)
= PnN (0; 1) > 2=
p202o= P
�N (0; 1) > 1035
. (2.90)
Buscando en las tablas de la N (0; 1) se obtiene P fX > 3Y � 7g = 000885 .
�
La función característica (f.c.) de (X;Y ) � N (�1; �2; �1; �2; �) es
'(t; u) = E[ei(tX+uY )] = exp
�i(t�1 + u�2)�
1
2�21t
2 � 12�22u
2 + ��1�2tu
�. (2.91)
Es sabido que variables independientes son incorreladas, pero el recíproco no es cierto
en general. Sin embargo, para v.a. normales el recíproco sí se cumple:
Proposición 11. Si (X;Y ) es normal y � = 0 se tiene que X e Y son independientes.
Demostración. Sea (X;Y ) � N (�1; �2; �1; �2; 0). Es inmediato comprobar que la función
de densidad de (X;Y ), en (2.57) y (2.58) con � = 0, se expresa como un producto de una
función de x por una función de y. Además, el soporte de (X;Y ) es el producto cartesiano
R2 = R� R, y por tanto X e Y son independientes.
También se puede demostrar mediante la función característica: es inmediato comprobar
que '(t; u) = '1(t)'2(u).
2.4. Distribución normal n�dimensional
Denotamos la traspuesta de una matriz mediante el símbolo � 0 �añadido al nombre
de la matriz: M y M 0 por ejemplo. Ésto también se aplica a vectores, de modo que, por
ejemplo, (5; 3)0 =�53
�es el vector columna traspuesto del vector �la (5; 3).
Téngase en cuenta que el producto escalar de dos vectores se puede expresar como un
producto de matrices, considerando los vectores como matrices (con una sola �la o una sola
columna): los vectores columna u = (u1; : : : ; un)0 y v = (v1; : : : ; vn)
0 son matrices n � 1,
16
2.4 Distribución normal n�dimensional
y el producto de matrices u0v = v0u =Pni=1 uivi es una matriz 1 � 1, un número, que es
justamente el producto escalar de u por v.
Sea � = (�1; : : : ; �n)0 2 Rn y � una matriz n � n simétrica de�nida positiva. Una
v.a. X = (X1; : : : ; Xn)0 (conviene expresarla así, como vector columna) tiene distribución
normal n-dimensional, multidimensional, o multivariante, con parámetros � y �, denotado
por
X � N (�;�) , (2.92)
si es continua con función de densidad
f(x) =1p
(2�)n j�jexp
��12(x� �)0��1(x� �)
�(2.93)
si x = (x1; : : : ; xn)0 2 Rn . (2.94)
El hecho de que � sea de�nida positiva determina que � es no singular, y por tanto
invertible, y que (x� �)0��1(x� �) > 0 para x 6= �.
Para n = 1 se tiene que X = X1 es una v.a. unidimensional. Los parámetros � y � son
matrices 1� 1, esto es, números, y la función f dada en (2.93) y (2.94) queda:
f(x) =1p2��
exp
�� 1
2�(x� �)2
�si x = x1 2 R. (2.95)
Obsérvese que ésta es la función de densidad de una normal unidimensional N (�; �), con
esperanza � = � y desviación típica � =p� . Por tanto, se tiene que la distribución
normal n-dimensional con n = 1 es la distribución normal unidimensional, como cabía
esperar de cualquier distribución que llamáramos normal n-dimensional.
Téngase en cuenta que en la notación habitual para la normal unidimensional, N (�; �),
el segundo parámetro, �, es la desviación típica, pero que si la expresamos como normal
n-dimensional, N(�;�) con n = 1, entonces el segundo parámetro, � = �2, es la varianza.
Utilizamos esta notación para la normal unidimensional, y no la notación N��; �2
�, lo
que nos obliga a dar estas explicaciones, porque es la que se utiliza habitualmente en las
aplicaciones a la estadística.
17
2. Principales distribuciones n-dimensionales
En el siguiente ejercicio comprobamos que la distribución N (�1; �2; �1; �2; �), estudiada
en el apartado 2.3, coincide con la distribución N (�;�) cuando � y � son los dados en
(2.96). Con ello, se comprueba que la normal del apartado 2.3 es justamente una normal
n-dimensional con n = 2, y por ello es correcto llamarla normal bidimensional como hemos
hecho.
Ejercicio 12. Comprueba que la distribución N (�;�), con
� =
0B@ �1
�2
1CA y � =
0B@ �21 ��1�2
��1�2 �22
1CA , (2.96)
es la misma que la N (�1; �2; �1; �2; �).
Solución: Comprobaremos que las funciones de densidad coinciden. Obsérvese que
x � � = (x1; x2)0 � (�1; �2)0 = (x1 � �1; x2 � �2)0 , con x = (x1; x2)0 (ó x = (x; y)0, como
queramos). Se obtiene
j�j = (1� �2)�21�22 y ��1 =1
j�j
0B@ �22 ���1�2
���1�2 �21
1CA . (2.97)
Realizando el cálculo se obtiene que (x��)0��1(x��) es justamente la forma cuadrática
Q (x1; x2) en (2.58). Con lo anterior, es inmediato comprobar que
1p(2�)2 j�j
exp
��12(x� �)0��1(x� �)
�=
1
2��1�2p1� �2
exp f�Q (x1; x2) =2g .
�
Obsérvese que la expresión matricial para la densidad normal bidimensional es más
simple que la expresión extendida f(x; y).
El vector de esperanzas y la matriz de covarianzas de una v.a. bidimensional con mo-
mentos �1, �2, �1, �2 y �, son los dados en (2.96). Por tanto, otra consecuencia del resultado
del ejercicio anterior es que los parámetros � y � de una N (�;�) con n = 2 son justamente
el vector de esperanzas y la matriz de covarianzas (y por eso se denotan de esa manera). En
la siguiente proposición se comprueba, entre otras cuestiones, que ésto también es válido
para el caso n-dimensional en general
18
2.4 Distribución normal n�dimensional
Se tiene que la función característica de X � N (�;�) es
'(t) = E[eitX ] = exp�it�� 1
2t�t0 para t = (t1; : : : ; tn) 2 Rn . (2.98)
Proposición 13. Sea X � N(�;�), con X = (X1; : : : ; Xn)0.
a) Se veri�ca que el vector de esperanzas y la matriz de covarianzas de X son:
E[X] = � y �X = � . (2.99)
b) Las distribuciones marginales son normales.
c) Las variables X1; : : : ; Xn son independientes si y solo si son incorreladas, esto es,
si � es diagonal.
d) Transformaciones lineales con rango máximo son normales. Para k � n consideremos
una matriz k � n , A, con rango k, y un vector k � 1, b. Se tiene que
AX + b � N�A�+ b; A�A0
�. (2.100)
(Ya se explicó en el tema 2 que el vector de esperanzas y la matriz de covarianzas de AX+b
son A�+b y A�A0. Lo que añade este resultado es que si la distribución de X es normal,
entonces la de AX + b también es normal.)
e) Sea Z = (Z1; : : : ; Zn) � N(0; I), de modo que Z1; : : : ; Zn son vaiid N(0; 1). Existe
una transformación lineal que aplica X en Z, esto es, existen A y b con Z � AX + b.
Demostración:
a) En la proposición 8 se demuestra para n = 2. No hacemos la demostración general.
c) Ya sabemos que si son independientes son incorreladas.
Supongamos ahora que � es diagonal (incorreladas). Se obtiene,
(x� �)0��1 (x� �) =nXi=1
1
�2i(xi � �i)2 , (2.101)
y entonces f (x1; : : : ; xn) se expresa como un producto h1(x1) � � �hn(xn), y por tanto
X1; : : : ; Xn son independientes: ( 1p(2�)2j�j
es una constante)
f (x1; : : : ; xn) =1p
(2�)2 j�jexp
��12(x� �)0��1 (x� �)
�(2.102)
=1p
(2�)2 j�j
nYi=1
exp
�1
�2i(xi � �i)2
�. (2.103)
19
2. Principales distribuciones n-dimensionales
También se demuestra de un modo inmediato mediante la función característica.
d) Lo demostramos utilizando la f.c.. También lo demostramos mediante el teorema de
cambio de variable (t.c.v.) para el caso k = n; es un ejercicio interesante de aplicación del
t.c.v. y de uso de las operaciones matriciales básicas.
Puesto que la f.c. de X � N(�;�) es 'X(t) = E[eitX ] = exp�it�� 1
2t�t0, la f.c. de
Y = AX + b es
'Y (t) = EheitY
i= E
heit(AX+b)
i= eitbE
hei(tA)X)
i= eitb'X(tA) (2.104)
= eitb exp
�i(tA)�� 1
2(tA)�(tA)0
�(2.105)
= exp
�itb+ itA�� 1
2tA�A0t0
�(2.106)
= exp
�it(A�+ b)� 1
2t(A�A0)t0
�, (2.107)
que es la f.c. de una N(A�+ b; A�A0), y por tanto Y = AX + b � N(A�+ b; A�A0).
Suponemos ahora k = n. La matriz A, n� n, tiene rango n, y por tanto es no singular
y tiene inversa. Entonces, la aplicación lineal h : Rn ! Rn dada por y = h(x) = Ax+b es
biyectiva, y la aplicación inversa viene dada por (despejando) x = A�1(y� b). Es sencillo
comprobar que el determinante Jacobiano de la transformación inversa es J =��A�1��. Por
el t.c.v. se obtiene que la función de densidad de Y = h(X) = AX + b es:
g(y) = f(A�1(y � b))abs(��A�1��) = (2.108)
=1
abs(jAj)p(2�)n j�j
exp
��12
�A�1(y � b)� �
�0��1
�A�1(y � b)� �
��(2.109)
=1p
(2�)n jAj j�j jA0jexp
��12
�A�1(y � (A �+b))
�0��1
�A�1(y � (A �+b))
��(2.110)
=1p
(2�)n jA�A0jexp
��12(y � (A �+b))0A0�1��1A�1(y � (A �+b))
�(2.111)
=1p
(2�)n jA�A0jexp
��12(y � (A �+b))0
�A�A0
��1(y � (A �+b))
�. (2.112)
Se han utilizado las siguientes propiedades de operaciones con matrices:
- En (2.109):��A�1�� = jAj�1.
- En (2.110): jA0j = jAj, y entonces abs(jAj) =qjAj2 =
pjAj jA0j; propiedad distribu-
tiva.
20
2.4 Distribución normal n�dimensional
- En (2.111): el determinante del producto de matrices coincide con el producto de los
determinantes; la traspuesta del producto coincide con el producto de traspuestas, pero en
orden inverso;�A�1
�0= (A0)�1.
- En (2.112): propiedad asociativa del producto; la inversa del producto coincide con el
producto de inversas, pero en orden inverso.
Se observa en la expresión (2.112) que g(y) es la función de densidad de una distribución
N (A�+ b; A�A0), y por tanto Y = AX + b � N (A�+ b; A�A0).
b) Las marginales de X se pueden obtener como transformadas lineales de X de
una manera muy sencilla. Se obtiene que son normales, y los parámetros se obtienen a
partir de � y �, eliminando los elementos que involucran variables eliminadas. Obtenemos
la distribución de X1 y de (X1; X2), lo que es su�ciente para apreciar de qué manera se
producen las marginales.
Sea A = (1; 0; : : : ; 0) el vector (o matriz) 1 � n cuyo primer elemento es un uno y el
resto son ceros. Se tiene que X1 = AX, y por tanto
X1 � N�A�; A�A0
�. (2.113)
La v.a. X1 es unidimensional, y en este caso A� y A�A0 quedan reducidos a números.
Realizando los cálculos se obtiene E[X1] = A� = �1 y V [X1] = A�A0 = �21. Para n = 1
no utilizamos notación matricial, sino que utilizamos la habitual, en la que el segundo
parámetro es la desviación típicap�21 = �1. De este modo,
X1 � N (�1; �1) . (2.114)
Sea
A =
0B@ 1 0 0 � � � 0
0 1 0 � � � 0
1CA . (2.115)
Se tiene que (X1; X2)0 = AX, y por tanto (X1; X2)
0 � N (A�; A�A0). Realizando los
cálculos se obtiene A� = (�1; �2)0 ; A�A0 = (�ij)i;j=1;2, y de aquí0B@ X1
X2
1CA � N
0B@0B@ �1
�2
1CA ;0B@ �21 Cov(X1; X2)
Cov (X1; X2) �22
1CA1CA . (2.116)
21
2. Principales distribuciones n-dimensionales
Obsérvese que Cov(X1; X2) = �(X1;X2)�1�2.
e) Se puede demostrar la existencia y obtener la transformación de varias maneras,
por ejemplo a partir de los autovalores y autovectores de �. La transformación no es única.
Únicamente presentamos la transformación para n = 1 y n = 2 (solo una de ellas). Para
n = 1 la transformación lineal es la tipi�cación. Para n = 2 se tiene que AX+b � N (0; I),
con
A =
0B@ 1
�1p1��2
� �
�2p1��2
0 1�2
1CA y b = �A� =
0B@ ��2=�2��1=�1p1��2
��2�2
1CA . (2.117)
También podemos realizar la operación a la inversa, transformando una variable aleato-
ria Y � N (0; I) en otra v.a. X � N(�;�). Para n = 1 la transformación está dada por
X = �Y + �, y para n = 2 la transformación (una de ellas) está dada por X = BY + �,
con B = A�1 =
0B@ �1p1� �2 ��1
0 �2
1CA, siendo A la matriz en (2.117).�
Ejemplo 14. Sea (X1; X2) � N (3;�1; 1; 2; 005). Determina la distribución de (Y1; Y2), con
Y1 = 2X1 � 3X2 + 1 y Y2 = X1 + 2X2.
Solución: Sean
X =
0B@ X1
X2
1CA , � =
0B@ 3
�1
1CA , � =
0B@ 1 1
1 4
1CA , (2.118)
Y =
0B@ Y1
Y2
1CA , A =
0B@ 2 �3
1 2
1CA y b =
0B@ 1
0
1CA . (2.119)
Los datos del enunciado se pueden expresar como: X � N (�;�) e Y = AX + b. Por la
proposición 13d se obtiene Y � N (A�+ b; A�A0). Realizando los cálculos se obtiene
Y � N
0B@0B@ 10
1
1CA ,0B@ 28 �21
�21 21
1CA1CA , (2.120)
o, lo que es lo mismo, Y � N�10; 1;
p28;p21;�
p3=2�.
�
22
2.4 Distribución normal n�dimensional
Ejemplo 15. Sea X = (X1; X2; X3)0 � N (�;�), con
� =
0BBBB@0
�2
3
1CCCCA , � =
0BBBB@1 1 �2
1 4 0
�2 0 9
1CCCCA , (2.121)
Determina la distribución marginal de (X1; X3) y la distribución de Y = (Y1; Y2)0, con
Y1 = �3X1 + 2X2 + 1 y Y2 = 3X1 � X2 + 4X3 � 3. ¿Son independientes (X1; X3)?, ¿y
(X2; X3)?.
Solución: Se tiene que (X1; X3)0 = AX, con A =
0B@ 1 0 0
0 0 1
1CA. Por tanto,0B@ X1
X3
1CA � N�A�; A�A0
�= N
0B@0B@ 0
3
1CA ;0B@ 1 �2
�2 9
1CA1CA (2.122)
Se tiene que Y = AX + b, con A =
0B@ �3 2 0
3 �1 4
1CA y b =
0B@ 1
�3
1CA , y entonces
Y � N�A�+ b; A�A0
�= N
0B@0B@ �3
11
1CA ;0B@ 13 16
16 103
1CA1CA . (2.123)
Puesto que Cov (X1; X3) = �2 6= 0, se tiene que �(X1;X3) 6= 0, y entonces, por la
proposición 11, se tiene que (X1; X3) no son independientes. Puesto que Cov (X2; X3) = 0,
se tiene que �(X2;X3) = 0, y entonces, por la proposición 11, se tiene que (X1; X3) son
independientes.
�
En la proposición 13d se exige que la transformación lineal tenga rango máximo, igual
a k. Ésto determina que Y = AX + b es una v.a. continua, esto es, que tiene función de
densidad, la de la N (A�+ b; A�A0) (de�nición en 2.92, 2.93 y 2.94).
En caso contrario, la matriz de covarianzas A�A0 de la transformada es singular, y
no tiene inversa. Entonces, la función de densidad normal dada en 2.93 y 2.94 no esta
de�nida. La v.a. Y no es discreta ni continua, ni una mixtura de ambos tipos, sino que
23
2. Principales distribuciones n-dimensionales
tiene una distribución singular, aunque de un tipo muy sencillo. Su soporte es el subespacio
(hiperplano) de Rk
T = fAx+ b : x 2 Rng . (2.124)
La dimensión de T coincide con el rango de A, menor que k, y por ello Y es singular.
Sin embargo, si nos restringimos a T , entonces Y tiene distribución básicamente normal
continua.
Consideremos por ejemplo, n; k = 2, A =
0B@ 2 6
1 3
1CA , con rango rg(A) = 1 < 2, y
b = 0. Sea X = (X1; X2)0 y sea Y = AX + b, con Y = (Y1; Y2)
0. Se tiene que, Y1 =
2X1 + 6X2 = 2Y2, y por tanto la v.a. singular Y = (Y1; Y2)0 es básicamente una v.a.
unidimensional continua, como comentamos a continuación. Se obtiene
� (Y1; Y2) =Cov (2Y2; Y2)pV [2Y2]
pV [Y2]
=2Cov (Y2; Y2)p22V [Y2]
pV [Y2]
= 1 . (2.125)
El soporte de Y (el conjunto T � R2 en (2.124)) es la recta y1 = 2y2 (ó y2 = y1=2), en
el plano (y1; y2). Cualquier aplicación lineal biyectiva h : T ! R transforma Y en una
v.a. unidimensional continua; por ejemplo, h (Y1; Y2) = Y1 es normal unidimensional con
parámetros
�Y1 = E [Y1] = E [2X1 + 6X2] = 2E [X1] + 6E [X2] y (2.126)
V [Y1] = V [2X1 + 6X2] = 22V [X1] + 6
2V [X2] + 2 � 2 � 6 � Cov (X1; X2) . (2.127)
Existen generalizaciones de la noción de inversa de una matriz que permiten de�nir una
normal con matriz de covarianzas singular. Esta noción permite manejar la situación que
acabamos de describir, con rg(A) < k, de una manera cómoda. De una manera más simple
y directa que la que acabamos de considerar, sin necesidad de introducir la aplicación h.
No la estudiamos.
24