Departamento de Estat stica - ufscar.br · Departamento de Estat stica Universidade Federal de S~ao...
Transcript of Departamento de Estat stica - ufscar.br · Departamento de Estat stica Universidade Federal de S~ao...
Departamento de Estatıstica
Universidade Federal de Sao Carlos
Teoria de Matrizes para Estatıstica
Jose Carlos Fogo
Sao Carlos
Julho de 2017
Sumario
1 Vetores 1
1.1 Definicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Representacao grafica no <2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Propriedades algebricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Vetores especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Produto entre vetores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Propriedades algebricas do produto interno entre vetores . . . . . . . . . . 5
1.4 Modulo ou comprimento de um vetor . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Outros resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6 Representacao vetorial dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Matrizes 10
2.1 Casos especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 Matriz Transposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2 Matriz Quadrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.3 Matriz de Zeros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.4 Matriz Diagonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.5 Matriz Simetrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.6 Matriz de Uns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.7 Matrizes Triangulares Superior e Inferior . . . . . . . . . . . . . . . . . . . . 12
2.2 Operacoes com matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Medidas relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.1 Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.2 Posto ou rank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.3 Traco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Autovalores e autovetores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5 Matriz dos cofatores e matriz adjunta . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6 Matriz inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7 Matriz nao singular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
i
Sumario Teoria de Matrizes para Estatıstica
2.8 Matriz ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.9 Matriz definida positiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.10 Operacoes elementares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.11 Matrizes similares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3 Matrizes particionadas 32
3.1 Casos especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Operacoes com matrizes particionadas . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Decomposicao LDU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Rank, ou posto, de matrizes particionadas . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Determinante de matrizes particionadas . . . . . . . . . . . . . . . . . . . . . . . . 38
3.6 A inversa de uma matriz particionada . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Decomposicao de matrizes 42
4.1 Decomposicao espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 Decomposicao em valores singulares . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3 Decomposicao LU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3.1 Determinacao das matrizes L e U . . . . . . . . . . . . . . . . . . . . . . . 50
4.3.2 O algoritmo de Crout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.4 Decomposicao de Cholesky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4.1 Determinacao da matriz G . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 Vetores aleatorios 60
5.1 Vetores aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.1.1 Valor esperado de um vetor aleatorio . . . . . . . . . . . . . . . . . . . . . . 62
5.1.2 Matriz de variancias-covariancias de um vetor aleatorio . . . . . . . . . . . 63
5.1.3 Matriz de correlacoes de um vetor aleatorio . . . . . . . . . . . . . . . . . . 67
5.1.4 Vetores aleatorios particionados . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2 Representacao vetorial dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2.1 A representacao dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.2.2 O vetor de medias amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.2.3 A matriz de variancias e covariancias amostrais . . . . . . . . . . . . . . . . 76
6 Espacos Vetoriais 82
6.1 Subespacos vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.2 Dependencia linear de vetores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.3 Base de um espaco vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7 Formas quadraticas 91
7.1 Diagonalizacao de formas quadraticas . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.2 Formas quadraticas e conicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
7.3 Distribuicao de formas quadraticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.4 Otimizacao de formas quadraticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.4.1 Derivada de uma forma quadratica . . . . . . . . . . . . . . . . . . . . . . . 100
ii
Sumario Teoria de Matrizes para Estatıstica
8 Sistemas lineares 104
8.1 Notacao Matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
8.2 Sistemas homogeneos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.3 Uso da decomposicao LU na solucao de sistemas lineares . . . . . . . . . . . . . 112
9 Projecoes Ortogonais 115
9.1 Matriz canonica de uma projecao ortogonal . . . . . . . . . . . . . . . . . . . . . . 116
9.2 Decomposicao ortogonal de um vetor . . . . . . . . . . . . . . . . . . . . . . . . . . 117
iii
1Vetores
1.1 Definicao
Na Fısica: e uma forma de se representar matematicamente grandezas fısicas que possuam
mais de um aspecto para ser definida.
Exemplo: a forca, necessita da magnitude, direcao e sentido em que e aplicada;
Na Matematica: e uma tripla constituıda de uma direcao, um sentido e um numero nao
negatico (modulo), Venturini, J.J.
Obs: Usando a teoria de matrizes, pode-se definir um vetor como qalquer matriz coluna, ou
matriz linha.
Na Wikipedia: e um conceito caracterizado por uma magnitude (modulo) e uma orientacao
(direcao e sentido).
Notacao: ~v, ~x, ~a (letras minusculas).
Nas notas da disciplina, vamos adotar a notacao usual em publicacoes, ou seja, com letras mi-
nusculas, em negrito: v, x, a.
x =
x1
x2...
xp
, e um vetor de dimensao p.
1
Vetores Teoria de Matrizes para Estatıstica
Exemplo:
x =
1234
, e um vetor de dimensao 4.
1.1.1 Representacao grafica no <2
Exemplo: Sejam
x =[
25
]e y =
[30.5
],
Figura 1.1: Representacao grafica de vetores no plano
1.1.2 Propriedades algebricas
i) u + v = v + u;
ii) (u + v) + w = u + (v + w);
iii) a (u + v) = a v + a u, a = escalar;
iv) (a+ b) u = a u + b u, a, b = escalares.
2
Vetores Teoria de Matrizes para Estatıstica
1.2 Vetores especiais
i) vetor nulo:
0n =
00...
0
;
ii) vetor de 1’s:
1n =
11...
1
n×1
; (1.1)
iii) vetor transposto:
vt =[v1, v2, · · · , vp
].
1.3 Produto entre vetores
Os produtos entre de vetores mais comuns sao o produto escalar euclidiano, ou produto interno
e o produto vetorial, ou produto externo, sendo que nos dois casos os vetores devem ter mesmas
dimensoes.
Alem das duas formas de produtos acima, temos ainda o produto direto, ou produto Kronecker
e o produto elemento-a-elemento.
Nota: Na disciplina serao destacados os produtos interno, Kronecker e elemento-a-elemento.
Considere os vetores
v =
v1
v2...
vp
e x =
x1
x2...
xp
.
a) Produto elemento-a-elemento1:
x ∗ v =
x1 · v1
x2 · v2...
xp · vp
.1Como nao temos uma notacao para um operador elemento-a-elemento, vamos utilizar o asterisco (*)
3
Vetores Teoria de Matrizes para Estatıstica
b) Produto interno ou produto escalar:
〈x,v〉 = x · v = xt v =p∑i=1
xi · vi
c) Produto Kronecker ou produto direto: sejam x e v vetores com dimensoes p e q,
respectivamente
x⊗v =
x1 · vx2 · v
...
xp · v
pq×1
.
Exemplos:
Sejam x =
2−5−1
e v =
32−3
,• de (a):
x ∗ v =
(2) · (3)
(−5) · (2)(−1) · (−3)
=
6
−103
;
• de (b):
〈x,v〉 = xtv = (2) · (3) + (−5) · (2) + (−1) · (−3) = −1.
• de (c):
x⊗v =
2 · v−5 · v−1 · v
=
64−6−15−10
15−3−2
3
4
Vetores Teoria de Matrizes para Estatıstica
Obs: Para o produto Kronecker as dimensoes nao precisam ser necessariamente iguais
Se x =[
23
]e v =
1234
, entao: x⊗v =
2468369
12
1.3.1 Propriedades algebricas do produto interno entre vetores
i) utv = vtu ou 〈u,v〉 = 〈v,u〉;
ii) (ut + vt)w = utw + vtw ou 〈(u+v),w〉 = 〈u,w〉 + 〈v,w〉;
iii) (k vt)u = k (vtu) = vt(k u), ou 〈kv,u〉 = k 〈v,u〉 = 〈v, ku〉 k = escalar;
iv) utu ≥ 0 ou 〈u,u〉 ≥ 0;
v) utu = 0⇔ u = 0 ou 〈u,u〉 = 0⇔ u = 0.
1.4 Modulo ou comprimento de um vetor
O comprimento, modulo ou norma de um vetor v e definido por
‖v‖ =√
vtv =√v2
1 + v22 + . . .+ v2
p.
Exemplo: Dados os vetores vt = (2,−5,−1),xt = (3, 2,−3) e ut = (0.8, 0.6), entao
‖v‖ =√
4 + 25 + 1 =√
30;
‖x‖ =√
9 + 4 + 9 =√
22;
‖u‖ =√
0.64 + 0.36 =√
1 = 1.
O vetor que tem norma igial a 1, ou seja, vtv = 1, e chamado de vetor normal.
No exemplo acima o vetor ut = (0.64, 0.36) e um vetor normal.
1.5 Outros resultados
i) Angulo entre vetores: considere o angulo θ formado por dois vetores u e v, entao:
cos(θ) = utv‖u‖ ‖v‖
= utv√utu√
vtv.
5
Vetores Teoria de Matrizes para Estatıstica
Se θ = 90◦, cos(θ) = 0, entao u e v sao ortogonais, ou seja, u⊥v, portanto, dois vetores sao
ortogonais se utv = 0.
Figura 1.2: Angulo entre vetores.
ii) Projecao de um vetor sobre outro:
Considere os vetores u e v. Entao, a projecao de u sobre v e obtida por:
Pu/v =(
utvvtv
)v = (utv)
‖v‖2v.
O modulo da projecao, por sua vez, e dado por:
∥∥∥Pu/v
∥∥∥ =∣∣∣∣∣utvvtv
∣∣∣∣∣√vtv =∣∣utv
∣∣‖v‖2
‖v‖ =∣∣utv
∣∣‖v‖ ‖u‖
‖u‖
∥∥∥Pu/v
∥∥∥ = |cos(θ)| ‖u‖ .
Exemplo: Dados os vetores ut = (1, 2),vt = (2, 1), encontar a projecao de u sobre v e calcular
o seu modulo.
Calculos:
‖u‖ =√
11 + 22 =√
5
‖v‖ = ‖u‖ =√
5
utv = 2 · 1 + 1 · 2 = 4
cos(θ) = utv‖u‖ ‖v‖
= 4√5√
5= 0.8 ⇒ θ ∼= 36.9◦
Projecao de u sobre v:
Pu/v =(
utvvtv
)v = 4
5
[21
]=[
1.60.8
].
6
Vetores Teoria de Matrizes para Estatıstica
Comprimento da projecao:∥∥∥Pu/v
∥∥∥ = |cos(θ)| ‖u‖ = 0.8√
5 =√
3.2
De fato
∥∥∥Pu/v
∥∥∥2=[
1.6 0.8] [ 1.6
0.8
]= 3.2, logo,
∥∥∥Pu/v
∥∥∥ =√
3.2.
Figura 1.3: Projecao de um vetor u sobre um vetor v.
1.6 Representacao vetorial dos dados
Na estatıstica os dados sao usualmente representados em vetores (os softwares usam esse con-
ceito).
Exemplo: Seja uma amostra de tamanho n = 10 representando o ganho lıquido de um grupo
7
Vetores Teoria de Matrizes para Estatıstica
de empresas da bolsa de valores (em milhoes de reais). Pode-se representar os dados por
x =
564389203215385187127297432451
.
Como∑
xi = 3250 e∑
x2i = 1234408, tem-se que:
x = 325010 = 325;
s2 = 1234408− 10(325)2
(10− 1) = 19795.33.
Os resultados acima da media amostral x e variancia amostral s2 podem ser facilmente obtidos
utilizando as operacoes vetoriais.
i) Para a soma dos elementos de x, tem-se
1tn x =
n∑i=1
xi = x1 + . . .+ xn
ii) Para a soma dos quadrados dos elementos de x,
xt x =n∑i=1
x2i = x2
1 + . . .+ x2n
Assim, de (i) e (ii) tem-se que:
x = 1tn xn
;
s2 = 1(n− 1)
[xt x− (1t
n x)2
n
].
8
Vetores Teoria de Matrizes para Estatıstica
No exemplo:
1tn x = 3250;
[xt x− (1t
n x)2
n
]= 1234408− (3250)2
10 = 178158.
9
2Matrizes
Definicao 2.1. Matriz
Matriz e uma colecao retangular n× p de valores reais, representada por
An×p =
a11 a12 · · · a1p
a21 a22 · · · a2p...
.... . .
...
an1 an2 · · · anp
,
em que: n e o numero de linhas e p e o numero de colunas da matriz �
Segundo Graybill (1983), uma matriz pode, ainda, ser representada da seguinte forma:
An×p = [aij ]n×p .
Nos podemos obter uma matriz n × p pela multiplicacao de um vetor u, n × 1, com um vetor
linha vt, 1× p
uvt =
u1
u2...
un
[
v1 v2 · · · vp]
=
u1v1 u1v2 · · · u1vp
u2v1 u2v2 · · · u2vp...
.... . .
...
unv1 unv2 · · · unvp
. (2.1)
(2.2)
Nota: O produto uvt e muitas vezes chamado de produto exterior ou produto externo (Banerjee
e Roy, 2014).
10
Matrizes Teoria de Matrizes para Estatıstica
2.1 Casos especiais
2.1.1 Matriz Transposta
Denotada por A′ ou At, e obtida trocando-se as linhas de A pelas colunas.
Exemplo: A2×3 =[
3 −2 11 5 4
]At
3×2 =
3 1−2 5
1 4
.2.1.2 Matriz Quadrada
E uma matriz para a qual o numero de linhas e igual ao de colunas.
Exemplo: A3×3 =
a11 a12 a13
a21 a22 a23
a31 a32 a33
.
2.1.3 Matriz de Zeros
Denotada 0n×p, e a matriz cujos elementos sao todos iguais a zero.
Exemplo: 0n×p =
0 0 · · · 00 0 · · · 0...
.... . .
...
0 0 · · · 0
n×p
.
2.1.4 Matriz Diagonal
E uma matriz quadrada na qual apenas os elementos da diagonal sao diferentes de zero.
Exemplo: Ap×p =
a11 0 · · · 00 a22 · · · 0...
.... . .
...
0 0 · · · app
.
Casos especiciais:
11
Matrizes Teoria de Matrizes para Estatıstica
a) Matriz escalar: e uma matriz diagonal na qual todos os elementos da diagonal sao iguais,
ou seja, dii = d, i = 1, 2, . . . , n.
Exemplo: D =
d 0 · · · 00 d · · · 0...
.... . .
...
0 0 · · · d
.
b) Matriz identidade: e um caso particular da matriz diagonal. Denotada por Ip = Ip×p, seus
elementos da diagonal sao todos iguais a 1, ou seja, a11 = a22 = . . . = app = 1.
Exemplo: I3 =
1 0 00 1 00 0 1
.
2.1.5 Matriz Simetrica
Matriz quadrada em que A = At, ou seja, quando aij = aji, i, j = 1, 2, . . . , p.
Exemplo: A3×3 =
1 2 32 4 53 5 6
.2.1.6 Matriz de Uns
Denotada Jn, e uma matriz quadrada cujos elementos sao todos iguais a um.
Exemplo: Jn =
1 1 · · · 11 1 · · · 1...
.... . .
...
1 1 · · · 1
n×n
.
A matriz Jn e definida pelo produto Jn = 1n1tn, ver (1.1), e apresenta a seguinte propriedade:
a) J2 = JJ = nJ;
b) J3 = JJJ = n2J;
c) Jk = nk−1J.
2.1.7 Matrizes Triangulares Superior e Inferior
A matriz quadrada Un×n, e uma matriz triangular superior se todos os elementos abaixo da
diagonal forem iguais a zero e, a matriz quadrada quadrada Ln×n, e uma matriz triangular inferior
se todos os elementos acima da diagonal forem iguais a zero.
12
Matrizes Teoria de Matrizes para Estatıstica
Exemplo: matrizes triangulares superior e inferior de dimensoes 4× 4.
U4×4 =
u11 u12 u13 u14
0 u22 u23 u24
0 0 u33 u34
0 0 0 u44
L4×4 =
l11 0 0 0l21 l22 0 0l31 l32 l33 0l41 l42 l43 l44
Teorema 2.1. Sejam matrizes Un×n e Ln×n, triangulares superior e inferior, respectivamente.
Entao seus determinantes sao obtidos pela multiplicacao dos elementos das diagonais, ou seja:
|U| =n∏i=1
uii
|L| =n∏i=1
lii
.
Teorema 2.2. Sejam matrizes An×n e Bn×n, entao:
i) Se A e B sao ambas triangulares inferiores, o produto AB e uma matriz triangular inferior.
ii) Se A e B sao ambas triangulares superiores, o produto AB e uma matriz triangular superior.
Teorema 2.3. Seja An×n:
i) Se A e triangular inferior (ou superior) com todos os elementos da diagonal diferentes de
zero, entao A e invertıvel e sua inversa A−1 e triangular inferior (ou superior).
ii) Os elementos da diagonal de A−1 sao os recıprocos dos elementos da diagonal de A, ou seja
a∗ii = 1aii, i = 1, 2, . . . , n,
em que a∗ii sao os elementos da diagonal de A−1 e aii, os elementos da diagonal de A.
2.2 Operacoes com matrizes
i) Multiplicacao por um escalar:
cAn×p =
c a11 c a12 · · · c a1p
c a21 c a22 · · · c a2p...
.... . .
...
c an1 c an2 · · · c anp
.
13
Matrizes Teoria de Matrizes para Estatıstica
ii) Adicao de matrizes de mesmas dimensoes:
An×p + Bn×p =
a11 + b11 a12 + b12 · · · a1p + b1p
a21 + b21 a22 + b22 · · · a2p + b2p...
.... . .
...
an1 + bn1 an2 + bn2 · · · anp + bnp
.
Resultados:
a) A + B = B + A;
b) (A + B) + C = A + (B + C);
c) c (A + B) = cA + cB;
d) A + 0 = A e A − A = 0;
e) (c+ d) A = cA + dA;
f) (c d) A = c (dA);
g) (A + B)t = At + Bt.
Nota: A matriz 0 e o elemento neutro da adicao de matrizes, ou seja, A + 0 = A.
iii) Multiplicacao de matrizes: o produto de duas matrizes An×k e Bk×p e dado pelos produtos
internos das linhas de A pelas colunas de B
An×k Bk×p = (A B)n×p ,
desta forma, o numero de colunas da primeira (A) deve ser igual ao numero de linhas da
segunda (B) e o resultado sera uma matriz cujo numero de linhas sera igual ao numero de
linhas da primeira e o numero de colunas, igual ao da segunda.
Exemplo:
A2×3 =[
3 −1 21 5 −4
]B3×2 =
−2 1
7 09 −3
,
A B =[
(−6− 7 + 18) (3− 6)(−2 + 35− 36) (1 + 12)
]=[
5 −3−3 13
].
Uma matriz An×k pode ser representada como uma colecao de k vetores nas colunas, assim
como n vetores transpostos nas linhas.
Seja ati· vetor transposto representando a i-esima linha, i = 1, 2, . . ., n, entao, a matriz A pode
ser escrita por:
An×k =
at1·at2·...
atn·
.
14
Matrizes Teoria de Matrizes para Estatıstica
Da mesma forma, considerando as colunas de An×k como vetores, pode-se, ainda, escrever A
como:
An×k =[
a·1 a·2 · · · a·k].
Desta forma, o produto entre duas matrizes An×k e Bk×p pode ser representado por
An×kBk×p =
at1·at2·...
atn·
[
b·1 b·2 · · · b·p].
An×kBk×p =
at1·b·1 at1·b·2 · · · at1·b·pat2·b·1 at2·b·2 · · · at2·b·p
......
. . ....
atn·b·1 atn·b·2 · · · atn·b·p
.
A partir de (2.2) podemos, ainda, representar o produto entre duas matrizes por:
An×kBk×p =[
a·1 a·2 · · · a·p]
bt1·bt2·...
btn·
=p∑j=1
a·jbtj·.
Resultados:
(as matrizes A, B e C sao de dimensoes tais que os produtos abaixo sejam definidos)
a) A (B C) = (A B) C;
b) A (B + C) = A B + A C;
c) c (A B) = (cA) B;
d) c (A B) = (cA) B;
e) (αA)(β B) = (αβ)(AB);
f) (A B)t = BtAt.
Notas:
1) Em geral nao vale a propriedade comutativa, ou seja, A B 6= B A,
2) Se A B = 0, nao implica, necessariamente, que A = 0 ou que B = 0;
3) A identidade e o elemento neutro da multiplicacao de matrizes, ou seja, A I = I A = A.
15
Matrizes Teoria de Matrizes para Estatıstica
2.3 Medidas relacionadas
2.3.1 Determinante
Seja uma matriz quadrada A, entao, seu determinante e um escalar denotado por |A| e e definido
por:
|A| =k∑j=1
a1j (−1)j+1 |A1j | , k > 1.
em que a1j e o j-esimo elemento da primeira linha de A e A1j e a matriz obtida eliminando-se a
primeira linha e a j-esima coluna de A.
O resultado tambem e valido quando excluımos qualquer uma das outras linhas, ou seja
|A| =k∑j=1
aij (−1)i+j |Aij | , k > 1, i = 1, 2, . . . , k.
Nota: o termo (−1)i+j |Aij | e definido como cofator do elemento aij e sera visto mais adiante.
Exemplo: A =
2 1 3 01 −1 2 2−2 0 3 3
4 1 −1 2
.
• Eliminando-se a primeira linha:
|A| = (2) (−1)1+1
∣∣∣∣∣∣∣∣−1 2 2
0 3 31 −1 2
∣∣∣∣∣∣∣∣+ (1) (−1)1+2
∣∣∣∣∣∣∣∣1 2 2−2 3 3
4 −1 2
∣∣∣∣∣∣∣∣+
(3) (−1)1+3
∣∣∣∣∣∣∣∣1 −1 2−2 0 3
4 1 2
∣∣∣∣∣∣∣∣+ (0) (−1)1+4
∣∣∣∣∣∣∣∣−1 −1 3−2 0 3
4 1 −1
∣∣∣∣∣∣∣∣
|A| = (2) (−1)2 (−9) + (1) (−1)3 (21) + (3) (−1)4 (−23) + (0) (−1)5 (17)
|A| = −18− 21− 69 = −108.
• Eliminando-se a terceira linha:
|A| = (−2) (−1)2 (18) + (0) (−1)3 (30) + (3) (−1)4 (−2) + (3) (−1)5 (22)
|A| = −36− 6− 66 = −108.
16
Matrizes Teoria de Matrizes para Estatıstica
Casos especiais:
a) k = 2:
A =[a11 a12
a21 a22
], |A| = a11 a22 − a12 a21.
Exemplo:
A =[
1 36 4
], |A| = 1 · 4− 3 · 6 = −14.
b) k = 3:
A =
a11 a12 a13
a21 a22 a23
a31 a32 a33
,|A| = a21 a32 a13 + a11 a22 a33 + a12 a23 a31 − a12 a21 a33 − a13 a22 a31 − a11 a23 a32.
Exemplo:
A =
3 1 67 4 52 −7 1
,|A| = 10 + 12− 294− 7− 48 + 105 = −222.
Resultados
(as matrizes A, B sao tais que os produtos sejam definidos)
a) |A| = |At|,
b) Se os elementos de uma linha (ou coluna) sao iguais a zero, entao, |A| = 0,
c) Se duas linhas (ou colunas) sao iguais ou proporcionais, entao, |A| = 0,
d) |A B| = |A|· |B|,
e) |c A| = ck|A|, em que k e o numero de linhas (ou colunas) de A,
f) |I| = 1.
2.3.2 Posto ou rank
O posto ou rank de uma matriz An×p e dado pelo numero maximo de linhas ou colunas
linearmente independentes (LI), ou seja, posto(A)≤ min(n, p).
17
Matrizes Teoria de Matrizes para Estatıstica
Exemplos:
A =
3 0 1 −21 3 1 04 3 4 5
, posto(A) = 3,
todas as linhas, de A sao LI.
B =
4 1 −3−1 4 5
2 2 0
, posto(B) = 2,
a primeira coluna de B e combinacao linear das demais.
Notas:
1) Uma matriz An×p e dita ser de posto completo se o seu posto for igual a min(n, p),2) Nos exemplos acima, a matriz A e de posto completo, enquanto que, a matriz B nao e de posto
completo.
2.3.3 Traco
Seja uma matriz quadrada Ak×k, entao o traco de A, denotado por tr(A), e dado pela soma
dos elementos de sua diagonal principal
tr(A) =k∑i=1
aii.
Exemplos:
A =
3 0 11 3 14 3 4
, tr(A) = 3 + 3 + 4 = 10.
B =
4 1 −3−1 4 5
2 2 0
, tr(B) = 8.
Resultados
a) tr(cA) = c tr(A), d) tr(B−1 A B) = tr(A)
b) tr(A±B) = tr(A) ± tr(B), e) tr(At A) = tr(A At) =k∑i=1
k∑j=1
a2ij
c) tr(A B) = tr(B A),
18
Matrizes Teoria de Matrizes para Estatıstica
2.4 Autovalores e autovetores
Considere a matriz A e os vetores u e v:
A =[
3 −21 0
]u =
[−1
1
]v =
[21
]
Entao, as transformacoes operadas por A resultam em
A u =[
3 −21 0
] [−1
1
]=[−5−1
]
A v =[
3 −21 0
] [21
]=[
42
]= 2 v
Tomando como foco as transformacoes lineares do tipo
A x = λ x, com λ constante,
temos transformacoes nas quais o vetor x tem seu tamanho expandido ou diminuido.
Representando as transformacoes graficamente temos:
Figura 2.1: Transformacoes do tipo Ax.
19
Matrizes Teoria de Matrizes para Estatıstica
Por exemplo, A =
1 11 21 −1
aplicada no vetor x =[x1
x2
]
resulta em A x =
x1 + x2
x1 + 2x2
x1 − x2
Definicao 2.2. Autovetor
Um autovetor de uma matriz Ak×k e um vetor x, nao nulo, tal que A x = λx, para algum
escalar λ �
Definicao 2.3. Autovalor
Um escalar λ e chamado de autovalor de A se existe solucao nao trivial x para A x = λx �
Considere a transformacao A x = λ x, entao, podemos escrever A x = λ Ix. Logo, uma forma
de encontrar os autovalores de A e resolver o sistema
A x− λ I x = (A− λ I) x = 0. (2.3)
O sistema (2.3) tem solucao nao trivial se, e somente se, a matriz A−λI for singular, entao, os
autovalores de A sao solucoes da equacao
|A− λ I| = 0. (2.4)
Teorema 2.4. Seja uma matriz Ak×k e λ um escalar, entao, as seguintes afirmacoes sao equiva-
lentes:
a) λ e um autovalor de A.
b) λ e solucao de |A− λ I| = 0.
c) o sistema (A− λ I) x = 0 tem solucoes nao triviais.
Notas:
1) A equacao polinomial |A x− λ I| = 0 e chamada funcao caracterıstica de A;
1) Os valores λ e x e sao chamados autovalor e autovetor associados;
2) Normalmente, os autovetores sao dados na forma padronizada e, tal que ete = 1, em que
ete = x‖x‖ = x√
xtx.
20
Matrizes Teoria de Matrizes para Estatıstica
Resultado: Seja Ak×k uma matriz quadrada; como o polinomio (2.4) e de grau k, entao
existem k autovalores λ1, λ2, . . . , λk que satisfazem a equacao polinomial |A− λ I| = 0. Assim
sendo, existem k autovetores e1, e2, . . . , ek associados.
Exemplos:
i) Seja a matriz:
A =[
1 01 3
], entao
|A− λ I| =∣∣∣∣∣ (1− λ) 0
1 (3− λ)
∣∣∣∣∣ = (1− λ) (3− λ) = 0
3− 4λ+ λ2 = 0
λ1 = 4 +√
16− 122 = 3 e λ2 = 4−
√16− 122 = 1
Portanto, os autovalores de A sao λ1 = 3 e λ2 = 1.
Para encontrar os autovetores associados devemos fazer:
• Autovetor e1 associado ao autovalor λ1 = 3:
A x1 = λ1 x1
[1 01 3
] [x11
x12
]= 3
[x11
x12
]{
x11 = 3x11
x11 + 3x12 = 3x12
Do sistema acima temos que x11 = 0 e x12 pode ser um valor arbitrario, o qual sera
considerado igual a 1. O primeiro autovetor e, portanto, x1t = (0, 1).
Padronizando o autovetor x1 temos
e1 = x1√x1tx1
=[
01
].
21
Matrizes Teoria de Matrizes para Estatıstica
• Autovetor e2 associado ao autovalor λ2 = 1:
A x2 = λ2 x2
[1 01 3
] [x21
x22
]=[x21
x22
]{
x21 = x21
x21 + 3x22 = x22
Da segunda equacao temos x21 = −2x22. Tomando x22 = 1, entao x21 fica igual a
x21 = −2 e o segundo autovetor e, portanto, x2t = (−2, 1).
Padronizando o autovetor x2 temos
e2 = x2√x2tx2
= 1√5
[−2
1
]=[−2/√
51/√
5
].
ii) Outro exemplo:
A =[
3 41 6
], entao
∣∣∣∣∣ (3− λ) 41 (6− λ)
∣∣∣∣∣ = 14− 9λ+ λ2 = 0
λ1 = 7
λ2 = 2
• Autovetor e1 associado ao autovalor λ1 = 7:{3x11 + 4x12 = 7x11
x11 + 6x12 = 7x12
Do sistema acima temos que x11 = x12, portando, x1t = (1, 1) e,
e1 =[
1/√
21/√
2
].
• Autovetor e2 associado ao autovalor λ2 = 2:{3x21 + 4x22 = 2x21
x21 + 6x22 = 2x22
Do sistema acima temos que x21 = −4x22, portando, x2t = (1,−1/4) e,
e2 =[
4/√
17−1/√
17
].
Resultados:
22
Matrizes Teoria de Matrizes para Estatıstica
a) Seja Ap×p com autovalores λ1, λ2, . . . , λp, entao, os autovalores de AtA e AAt, denotados
por δ1, δ2, . . . , δp, serao os mesmos e
p∏i=1
λ2i =
p∏i=1
δi;
b) Se, alem disso, A for simetrica, com autovetores v1,v2, . . . ,vp, AtA e AAt terao
autovalores δ1 = λ21, δ2 = λ2
2, . . . , δp = λ2p e mesmos autovetores;
c) Os autovalores δ1, δ2, . . . , δp de AtA e AAt recebem o nome de valores singulares.
2.5 Matriz dos cofatores e matriz adjunta
i) Matriz dos Cofatores: Seja uma matriz quadrada Ap×p. Considere |Aij | como sendo o
determinante da submatriz resultante ao se retirar a i-esima linha e j-esima coluna de A,
i, j = 1, 2, . . . , p. Entao a quantidade
Cij = (−1)i+j |Aij | ,
e definida como cofator do elemento aij .
A matriz que se obtem substituindo-se cada termo ai,j de A pelo seu respectivo cofator e
chamada matriz dos cofatores de A e sera denotada por cof(A).
cof(A) =
C11 C12 · · · C1p
C21 C22 · · · C2p...
.... . .
...
Cp1 Cp2 · · · Cpp
Casos especiais:
Matriz 2×2:
cof (A) =[
a22 −a21
−a12 a11
].
23
Matrizes Teoria de Matrizes para Estatıstica
Matriz 3×3:
cof (A) =
∣∣∣∣∣ a22 a23
a32 a33
∣∣∣∣∣ −∣∣∣∣∣ a21 a23
a31 a33
∣∣∣∣∣∣∣∣∣∣ a21 a22
a31 a32
∣∣∣∣∣−∣∣∣∣∣ a12 a13
a31 a33
∣∣∣∣∣∣∣∣∣∣ a11 a13
a31 a33
∣∣∣∣∣ −∣∣∣∣∣ a11 a12
a31 a32
∣∣∣∣∣∣∣∣∣∣ a11 a13
a22 a23
∣∣∣∣∣ −∣∣∣∣∣ a11 a13
a21 a23
∣∣∣∣∣∣∣∣∣∣ a12 a12
a21 a22
∣∣∣∣∣
.
Exemplos:
a) Matriz 2×2:
A =[
1 36 4
], cof(A) =
[4 −6−3 1
].
b) Matriz 3×3:
A =
3 0 11 2 13 −3 4
.
C11 = (−1)(1+1)∣∣∣∣∣ 2 1−3 4
∣∣∣∣∣ = 11, C12 = (−1)(1+2)∣∣∣∣∣ 1 1
3 4
∣∣∣∣∣ = −1
C13 = (−1)(1+3)∣∣∣∣∣ 1 2
3 −3
∣∣∣∣∣ = −9.
Ainda, C21 = −3, C22 = 9, C23 = 9, C31 = −2, C32 = −2 e C33 = 6, logo
cof(A) =
11 −1 −9−3 9 9−2 −2 6
ii) Matriz Adjunta: A matriz adjunta de uma matriz quadrada, denotada por adj(A), e a
transposta da matriz dos cofatores.
Caso especial: Matriz 2×2:
adj (A) =[
a22 −a12
−a21 a11
].
Exemplos:
24
Matrizes Teoria de Matrizes para Estatıstica
a) Matriz 2×2:
A =[
1 36 4
], adj(A) =
[4 −3−6 1
].
b) Matriz 3×3:
A =
3 0 11 2 13 −3 4
, adj(A) =
11 −3 −2−1 9 −2−9 9 6
2.6 Matriz inversa
A inversa de uma matriz quadrada A, denotada por A−1, e tal que: A A−1 = A−1A = I.
Pode-se encontrar a inversa de uma matriz de uma maneira rapida por meio da relacao com
sua matriz adjunta
A−1 = 1|A|adj (A) ,
em que |A| e o determinante da matriz A.
Caso especial: a inversa de uma matriz 2×2 e dada por
A =[a11 a12
a21 a22
], A−1 = 1
|A|
[a22 −a12
−a21 a11
].
Exemplo:
A =[
1 36 4
], A−1 = − 1
14
[4 −3−1 2
].
O procedimento acima, apesar de simples, nao e pratico quando se tem matrizes com dimensoes
muito grandes. O metodo da diagonalizacao (ou pivoteamento), mais pratico, e mais indicado
messes casos.
O metodo do pivoteamento consiste em se colocar a matriz A ou lado da matriz identidade I, de
mesma dimensao, formando uma matriz estendida[
A I]. Por meio de operacoes elementares
aplicadas nas linhas de[
A I], efetuar a diagonalizacao de A transformando-a numa matriz
identidade (as mesmas transformacoes devem ser aplicadas em I).
Apos a finalizacao do processo, tem-se a esquerda uma matriz identidade e a direita a matriz
inversa de A, ou seja,[
I A−1].
Exemplo: Encontrar a matriz inversa de A pelo metodo do pivoteamento.
25
Matrizes Teoria de Matrizes para Estatıstica
A =
1 2 −1 12 2 0 30 −3 2 1−3 0 −1 −4
.
a) Montar a matriz estendida[
A I]:
1 2 −1 1 1 0 0 02 2 0 3 0 1 0 00 −3 2 1 0 0 1 0−3 0 −1 −4 0 0 0 1
b) Multiplicar a primeira linha por (−2) e somar a segunda linha e multiplicar a primeira linha
por (3) e somar a quarta linha:1 2 −1 1 1 0 0 00 −2 2 1 −2 1 0 00 −3 2 1 0 0 1 00 6 −4 −1 3 0 0 1
26
Matrizes Teoria de Matrizes para Estatıstica
c) Dividir a segunda linha por (−2). Na sequencia, multiplicar a segunda linha por (3) e somar
a terceira linha e multiplicar a segunda linha por (−6) e somar a quarta linha:1 2 −1 1 1 0 0 00 1 −1 −1/2 1 −1/2 0 00 0 −1 −1/2 3 −3/2 1 00 0 2 2 −3 3 0 1
d) Multiplicar a terceira linha por (−1). Na sequencia, multiplicar a terceira linha por (−2) e
somar a quarta linha: 1 2 −1 1 1 0 0 00 1 −1 −1/2 1 −1/2 0 00 0 1 1/2 −3 3/2 −1 00 0 0 1 3 0 2 1
d) Multiplicar a quarta linha por (−1/2) e somar a terceira linha; multiplicar a quarta linha por
(1/2) e somar a segunda linha e multiplicar a quarta linha por (−1) e somar a primeira linha:1 2 −1 0 −2 0 −2 −10 1 −1 0 5/2 −1/2 1 1/20 0 1 0 −9/2 3/2 −2 −1/20 0 0 1 3 0 2 1
e) Multiplicar a terceira linha por (1) e somar as segunda e primeira linhas:
1 2 0 0 −13/2 3/2 −4 −3/20 1 0 0 −2 1 −1 00 0 1 0 −9/2 3/2 −2 −1/20 0 0 1 3 0 2 1
f) Multiplicar a segunda linha por (−2) e somar a primeira linha, com o pivoteamento completo:
1 0 0 0 −5/2 −1/2 −2 −3/20 1 0 0 −2 1 −1 00 0 1 0 −9/2 3/2 −2 −1/20 0 0 1 3 0 2 1
.
Portanto, a inversa de A e:
A−1 =
−5/2 −1/2 −2 −3/2−2 1 −1 0
−9/2 3/2 −2 −1/23 0 2 1
.
27
Matrizes Teoria de Matrizes para Estatıstica
Resultados
(as matrizes A, B e C sao tais que as inversas existam e os produtos sejam definidos)
a) (A−1)t = (At)−1;
b) (A B)−1 = B−1A−1;
c) (kA)−1 = (1/k)A−1;
d) Se existe a inversa A−1 de uma matriz A, entao A−1 e unica.
2.7 Matriz nao singular
Uma matriz quadrada Ak×k e nao singular se:
A x = 0 =⇒ x = 0.
Notas:
1) Note que A x = a1x1 + a2x2 + . . .+ akxk, onde ai e a i-esima coluna de A, i = 1, 2, . . . , k.
Portanto, uma matriz Ak×k e nao singular se as suas colunas forem linearmente independentes,
2) Uma matriz quadrada e de posto completo se, e so se, ela e nao singular,
3) Se Ak×k e nao singular, entao existe uma unica matriz inversa A−1,
4) Se Ak×k e nao singular, entao |A| = 1/|A−1|, isto e |A|·|A−1| = 1,
5) Para uma matriz Ak×k nao singular, os resultados a seguir sao equivalentes
• A x = 0 ⇒ x = 0,
• |A| 6= 0,
• Existe A−1 tal que, A−1A = I.
2.8 Matriz ortogonal
Uma matriz quadrada e dita ser ortogonal se P−1 = Pt, ou seja, uma matriz Pk×k e dita
ser ortogonal se suas colunas, consideradas como vetores, sao mutuamente perpendiculares e de
comprimento 1, o que equivale a dizer que P Pt = I.
Exemplo:
P =
−1/2 1/2 1/2 1/2
1/2 −1/2 1/2 1/21/2 1/2 −1/2 1/21/2 1/2 1/2 −1/2
, entao P Pt = I.
Nota: Uma matriz P e ortogonal, se e somente se, Pt = P−1.
Propriedades:
a) Sejam pij , i, j = 1, 2, . . . , k, elementos de uma matriz ortogonal P, entao, −1 ≤ pij ≤ 1;
b) Se P e ortogonal =⇒ P e nao singular;
28
Matrizes Teoria de Matrizes para Estatıstica
c) det(P) = ± 1;
d) Sejam P1, P2, . . ., Pk ortogonais, entao o produto P1·P2· . . . ·Pk e uma matriz ortogonal;
Teorema 2.5. Seja uma matriz quadrada A, e uma matriz orotogonal P, entao:
det(A) = det(PtAP) �
Teorema 2.6. Seja uma matriz quadrada A, entao existe P ortogonal, tal que PtAP = D, D
diagonal, se, e so se, A e simetrica �
Exemplo:
A =[
1 04 1
]det(A) = 1
P =
1√2− 1√
21√2
1√2
PtAP =
[3 −22 −1
]det(PtAP) = 1
2.9 Matriz definida positiva
Considere o produto xtA x. Como temos apenas termos quadraticos x2i e termos cruzados xixj ,
xtA x recebe o nome de forma quadratica.
Se uma matriz Ak×k, simetrica, e tal que
xtA x > 0, ∀ x nao nulo,
entao, dizemos que A e uma matriz definida positiva.
Nota: Se uma matriz Ak×k e definida positiva, entao os seus autovalores sao todos positivos, isto
e λi > 0, ∀ i = 1, 2, . . . , k.
Exemplo: Considere a forma quadratica 6x21 + 4x1x2 + 3x2
2, entao
xtA x =[x1 x2
] [ 6 22 3
] [x1
x2
].
Como 6x21 + 4x1x2 + 3x2
2 > 0, ∀ x 6= 0, entao, A =
[6 22 3
]e definida positiva.
Notas:
1) Se xtA x ≥ 0, ∀ x nao nulo, entao A e semi-definida positiva,
2) Se xtA x < 0, ∀ x nao nulo, entao A e definida negativa,
3) Se xtA x ≤ 0, ∀ x nao nulo, entao A e semi-definida negativa.
29
Matrizes Teoria de Matrizes para Estatıstica
2.10 Operacoes elementares
Operacoes elementares sao transformacoes aplicadas nas linhas e colunas de uma matriz, po-
dendo ser do tipo:
i) troca de 2 linhas (ou colunas);
ii) multiplicacao de uma linha (ou coluna) por um esclar;
iii) combinacoes lineares de linhas (ou colunas).
As operacoes elementares podem ser representadas por meio de matrizes que recebem o nome
de matrizes elementares. Por exemplo, considere o operador
P =
1 0 04 1 00 0 1
.Operando numa matriz A3×k, tem como resultado PA que preserva as linhas 1 e 3 e a segunda
linha dada por 4 vezes a linha 1 mais a linha 2.
Exemplo:
PA =
1 0 04 1 00 0 1
1 3 2 −24 2 −3 16 1 8 3
=
1 3 2 −28 14 5 −76 1 8 3
.Resultados:
a) o posto de uma matriz nao e alterado pela aplicacao de operacoes elementares;
b) duas matrizes de mesmo posto e dimensoes sao ditas serem equivalentes;
c) duas matrizes equivalentes podem ser transformadas uma na outra por meio de operacoes
elementares
Sejam matrizes nao singulares P e Q, entao, para alguma matriz A, os produtos PA, AQ e
PAQ tem todas o mesmo posto.
2.11 Matrizes similares
Sejam A e B quadradas de mesmas dimensoes, se existe Q nao singular, tal que:
B = Q−1AQ,
entao A e B sao chamadas de similares e a transformacao Q−1AQ e chamada transformacao
similar.
30
Matrizes Teoria de Matrizes para Estatıstica
Resultados:
i) Os determinantes de matrizes similares sao iguais; no caso, |A| = |B|;ii) Matrizes similares tem mesmos autovalores.
Exemplo 2.1. Sejam
A =[
0.4 0.60.2 0.8
]e Q =
[1 11 −3
].
Entao:
B =[
3/4 1/41/4 1/4
] [0.4 0.60.2 0.8
] [1 11 −3
]=[
1 −1.60 0.2
].
Neste caso, |A| = 0.2 = |B|.
Resultado: Seja Ak×k, entao existe uma matriz Q tal que Q−1AQ = T, em que T e triangular
superior e os autovalores de A serao a diagonal de T.
Teorema 2.7. Se Ak×k e simetrica, entao, seus autovalores serao reais.
Teorema 2.8. Se Ak×k e simetrica, entao, para dois autovalores λi e λj , i 6= j, teremos autovetores
associados xi e xj e
xti xj = 0,
ou seja, xi e xj sao ortogonais.
Teorema 2.9. Se Ak×k e simetrica, entao existe uma matriz P tal que
PtAP = Λ,
em que Λ e diagonal com os autovalores de A.
Exemplo 2.2. Seja
A =[
16 44 10
].
Seus autovalores sao λ1 = 18 e λ2 = 8, com autovetores associados:
e1 =[
2/√
51/√
5
]e e1 =
[1/√
5−2/√
5
],
logo,P =[
2/√
5 1/√
51/√
5 −2/√
5
]
Entao: [2/√
5 1/√
51/√
5 −2/√
5
] [16 44 10
] [2/√
5 1/√
51/√
5 −2/√
5
]=[
18 00 8
]= Λ.
31
3Matrizes particionadas
Uma matriz particionada e uma matriz cujo conteudo e subdividido em submatrizes, ou blocos.
Por exemplo, seja Am×n nao singular, entao, a matriz A particionada em blocos 2 × 2 e definida
por:
A =
A11 A12
m1 × n1 m1 × n2
A21 A22
m2 × n1 m2 × n2
,
em que: m1 +m2 = m e n1 + n2 = n.
O caso geral da particao em blocos `× c e dado por:
A =
A11 A12 . . . A1c
A21 A22 . . . A2c...
.... . .
...
A`1 A`2 . . . A`c
,
sendo Aij de dimensoes mi × nj , i = 1, 2, . . . , ` e j = 1, 2, . . . , c, tal que
∑i=1
mi = m ec∑j=1
ni = n.
Nota 3.1. i) A particao pode ser quadrada, como e o caso 2×2, mas os blocos Aij , i = 1, 2, . . . , `e j = 1, 2, . . . , c, nao sao necessariamente quadrados;
Nota 3.2. ii) Neste material vamos considerar apenas as particoes em blocos 2× 2.
32
Matrizes particionadas Teoria de Matrizes para Estatıstica
3.1 Casos especiais
a) Bloco triangulares inferior (L) e superior (U):
L =[
A11 0A21 A22
],
U =[
A11 A12
0 A22
].
b) Bloco diagonal:
D =[
A11 00 A22
],
c) Simetrica:
A =[
A11 A12
At12 A22
],
com A11 e A22 simetricas.
d) Transposta:
At =[
At11 At
21At
12 At22
].
3.2 Operacoes com matrizes particionadas
a) Traco: seja A particionada em blocos 2× 2, entao o traco de A pode ser escrito por
traço(A) = traço(A11) + traço(A22).
b) Soma: Sejam A e B com mesmas dimensoes, particionadas em blocos 2 × 2, tais que seus
blocos equivalentes tambem tem mesmas dimensoes, entao:
A + B =[
A11 + B11 A12 + B12
A21 + B21 A22 + B22
].
b) Produto: Sejam Am×n e Bn×k, cujas particoes tem dimensoes compatıveis para o produto,
33
Matrizes particionadas Teoria de Matrizes para Estatıstica
ou seja, A e B sao do tipo:
Am×n =
A11 A12
m1 × n1 m1 × n2
A21 A22
m2 × n1 m2 × n2
e Bm×n =
B11 B12
n1 × k1 n1 × k2
B21 B22
n2 × k1 n2 × k2
,
em que: m1 + m2 = m, n1 + n2 = n e k1 + k2 = k, entao o produto entre A e B e definido
por:
Cm×k = AB =[
A11B11 + A12B21 A11B12 + A12B22
A21B11 + A22B21 A21B12 + A22B22
]
Cm×k =
C11 C12
m1 × k1 m1 × k2
C21 C22
m2 × k1 m2 × k2
.
Exemplo 3.1. Sejam duas matrizes A e B, tais que:
A5×5 =
1 2 4 2 1−1 3 0 −3 1
2 −2 1 0 −12 1 3 1 0−2 0 1 1 −1
,
B5×6 =
−1 0 3 4 3 03 1 1 −3 2 00 3 1 0 −1 1−1 −1 0 −2 −1 −1
1 3 3 2 1 2
.
Fazendo os produtos parciais, temos:
A11B11 + A12B21 =
4 15
14 9−9 −2
,
34
Matrizes particionadas Teoria de Matrizes para Estatıstica
A11B12 + A12B22 =
12 −4 2 43 −5 7 52 12 0 −1
,
A21B11 + A22B21 =[
0 90 −1
],
A21B12 + A22B22 =[
10 3 4 2−8 −12 −9 −2
].
Portanto, o produto AB e dado por:
AB5×6 =
4 15 12 −4 2 414 9 3 −5 7 5−9 −2 2 12 0 −1
0 9 10 3 4 20 −1 −8 −12 −9 −2
�
3.3 Decomposicao LDU
A decomposicao LDU trata-se de um processo de diagonalizacao de uma matriz particionada,
em que:
� L e uma matriz bloco triangular inferior;
� D e uma matriz bloco diagonal;
� U e uma matriz bloco triangular superior.
Assim sendo, dada uma a matriz A nao singular, podemos escrever
A = L D U e D = L−1 A U−1.
Seja A dada por:
A =[
A11 A12
A21 A22
].
i) Transformamos A numa matriz bloco triangular superior por meio da operacao
[I 0
−A21A−111 I
] [A11 A12
A21 A22
]=[
A11 A12
0 F
], (3.1)
em que F = A22 −A21A−111 A12.
35
Matrizes particionadas Teoria de Matrizes para Estatıstica
ii) De maneira semelhante, podemos transformar A numa matriz bloco triangular inferior fa-
zendo [A11 A12
A21 A22
] [I −A−1
11 A12
0 I
]=[
A11 0A21 F
],
com F definido da mesma forma como no caso anterior.
iii) Combinando as duas operacoes anteriores, ou seja, pre-multiplicando a matriz A pela ma-
triz dada em (i) e pos-multiplicando pela matriz em (ii), temos como resultado uma matriz
diagonal [I 0
−A21A−111 I
] [A11 A12
A21 A22
] [I −A−1
11 A12
0 I
]=[
A11 00 F
].
E facil mostrar que (fica como exercıcio)
[I 0
−A21A−111 I
]−1
=[
I 0A21A−1
11 I
]= L,
e que
[I −A−1
11 A12
0 I
]−1 [I A−1
11 A12
0 I
]= U.
Desta forma, a decomposicao L D U de A e dada por:[I 0
A21A−111 I
] [A11 00 F
] [I A−1
11 A12
0 I
]= A.
Exemplo 3.2. Considere a matriz A particionada em blocos 2× 2
A5×5 =
1 1 2 11 2 0 23 0 2 11 3 1 −1
.
36
Matrizes particionadas Teoria de Matrizes para Estatıstica
Desta forma, temos
A11 =[
1 11 2
]e |A11| = 1,
A22 =[
2 11 −1
]e |A22| = −3,
cujas inversas sao dadas por:
A−111 =
[1 11 2
],
A−122 = 1
3
[2 11 −1
].
A matriz F, definida em (3.1), e dada por
F = A22 −A21A−111 A12
=[−10 1
3 −4
].
Das relacoes acima, temos, ainda, que
A21A−111 =
[6 −3−1 2
],
A−111 A12 =
[4 0−2 1
].
Portando, as matrizes L, U e D da decomposicao LDU de A sao dadas por
L =
1 0 0 00 1 0 06 3 1 0−1 2 0 1
,
37
Matrizes particionadas Teoria de Matrizes para Estatıstica
U =
1 0 4 00 1 −2 10 0 1 00 0 0 1
,
D =
1 1 0 01 2 0 00 0 −10 10 0 3 4
�
3.4 Rank, ou posto, de matrizes particionadas
Seja a matriz A particionada em blocos 2× 2, entao,
a) se A11 nao e singular, rank(A) = rank(A11) + rank(F);
b) se A22 nao e singular, rank(A) = rank(A22) + rank(G),
em que
F = A22 −A21A−111 A12
G = A11 −A12A−122 A21
Prova item (a): Se duas matrizes L e U nao sao singulares entao das secoes (2.10) e (3.3)
segue-se que:
rank(A) = rank(D) = rank(A11) + rank(F)
.
A prova do item (b) segue reaciocınio semelhante, com a diagonalizacao da decomposicao LDU
partindo de A22 como pivo.
3.5 Determinante de matrizes particionadas
Resultado: Considere uma matriz A particionada em blocos 2 × 2 em que A11 e A22 sejam
quadradas. Se A for bloco triangular superior, bloco triangular inferior ou bloco diagonal, ou seja,
A =[
A11 A12
0 A22
], A =
[A11 0A21 A22
]ou A =
[A11 00 A22
].
38
Matrizes particionadas Teoria de Matrizes para Estatıstica
entao, segue-se que
|A| = |A11| · |A22|.
Seja A =[
A11 A12
A21 A22
], entao |A| = |A11| · |A22 −A21A−1
11 A12|, ou seja,
det(A) = det(A11) · det(F).
Prova: Podemos provar a relacao acima a partir da diagonalizacao de A, porem, vamos fazer
a demonstracao usando uma proposicao diferente. Seja a matriz C dada por
C =[
A−111 −A−1
11 A12
0 I
],
entao, segue-se que |C| = |A−111 | · |I| = |A
−111 |.
Como podemos escrever |A| = |A11| · |A| · |A−111 |, logo
|A| = |A11| ·∣∣∣∣∣ A11 A12
A21 A22
∣∣∣∣∣ ·∣∣∣∣∣ A−1
11 −A−111 A12
0 I
∣∣∣∣∣
|A| = |A11| ·∣∣∣∣∣[
A11 A12
A21 A22
]·[
A−111 −A−1
11 A12
0 I
]∣∣∣∣∣
|A| = |A11| ·∣∣∣∣∣ I 0
A21A−111 A22 −A21A−1
11 A12
∣∣∣∣∣
|A| = |A11| ·∣∣∣A22 −A21A−1
11 A12∣∣∣ �
Exemplo 3.3. Considere a matriz do Exemplo (3.2). Como
A11 =[
1 11 2
]e F =
[−10 1
3 −4
],
39
Matrizes particionadas Teoria de Matrizes para Estatıstica
entao, o determinante da matriz A e dado por:
|A| =∣∣∣∣∣ 1 1
1 2
∣∣∣∣∣ ·∣∣∣∣∣ −10 1
3 −4
∣∣∣∣∣ = (1) · (37) = 37.
Nota 3.3. Com um raciocınio semelhante, mostra-se que |A| = |A22| · |A11−A12A−122 A21|, ou seja,
det(A) = det(A22) · det(G).
3.6 A inversa de uma matriz particionada
Seja |A11| 6= 0 e |A22| 6= 0, os resultados a seguir sao validos.
i) A−111 e A−1
22 existem;
ii)(A11 −A12A−1
22 A21)−1
e(A22 −A21A−1
11 A12)−1
existem;
iii) Com isso, A−1 pode ser escrita como:
A−1 =
(A11 −A12A−1
22 A21)−1
−A−111 A12
(A22 −A21A−1
11 A12)−1
−A−122 A21
(A11 −A12A−1
22 A21)−1 (
A22 −A21A−111 A12
)−1
. (3.2)
Prova: Considere a matriz B, inversa de A, isto e AB = I, entao, B11 e B22 nao sao singulares.
Desta forma, temos que
AB =[
A11B11 + A12B21 A11B12 + A12B22
A21B11 + A22B21 A21B12 + A22B22
]=[
I 00 I
].
Logo, temos as seguintes relacoes entre as partes de A e as submatrizes B11 e B21A11B11 + A12B21 = I
A21B11 + A22B21 = 0
40
Matrizes particionadas Teoria de Matrizes para Estatıstica
Isolando B21 na segunda equacao, temos
A21B11 + A22B21 = 0
A22B21 = −A21B11
B21 = −A−122 A21B11
Asim, podemos obter B11 substituindo B21 na primeira equacao, ou seja,
A11B11 −A12(A−122 A21B11) = I
(A11 −A12A−122 A21)B11 = I
B11 = (A11 −A12A−122 A21)−1
B11 = G−1
Com isso B21 e dado por:
B21 = −A−122 A21(A11 −A12A−1
22 A21)−1
B21 = −A−122 A21G−1
De maneira analoga podemos calcular B12 e B22 a partir deA11B12 + A12B22 = 0
A21B12 + A22B22 = I
De onde obtemos:{B22 = (A22 −A21A−1
11 A12)−1
B22 = F−1 e
{B12 = −A−1
11 A12(A22 −A21A−111 A12)−1
B12 = −A−111 A12F−1
Portanto, com as submatrizes B11, B12, B21 e B22 obtemos a inversa de A como em (3.2) �
41
4Decomposicao de matrizes
4.1 Decomposicao espectral
Seja a matriz Ak×k, simetrica, entao A pode escrita por:
A =k∑i=1
λi ei eti.
Exemplo:
A =[
2.2 0.40.4 2.8
], entao
λ1 = 3, e1 =
1√5
2√5
;
λ2 = 2, e2 =
2√5−1√
5
.Logo,
A = 3[
1/√
52/√
5
] [ 1√5,
2√5
]+ 2
[2/√
5−1/√
5
] [ 2√5,−1√
5
]
A =[
3/5 6/56/5 12/5
]+[
8/5 −4/5−4/5 2/5
]
A =[
2.2 0.40.4 2.8
].
Vamos definir uma matriz U, ortogonal, cujas colunas sao formadas pelos autovetores e1, e2,
42
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
. . ., ek e, da mesma forma, uma matriz ortogonal V, tal que V = Ut, ou seja
U =[
e1 | e2 | . . . | ek], e
V = Ut =
et
1
et2
...
etk
.
Definindo, ainda, uma matriz diagonal formada pelos autovalores λ1, λ2, . . ., λk, ou seja,
Λ =
λ1 0 · · · 00 λ2 · · · 0...
.... . .
...
0 0 · · · λk
,
podemos escrever
A = U Λ V ou A = U Λ Ut.
No caso 2×2, temos
U =[
e1 | e2]
e Λ =[λ1 00 λ2
].
Desta forma, uma matriz A2×2 pode ser representada por
A =[
e1 | e2] [ λ1 0
0 λ2
] [et
1
et2
]
A = λ1 e1 et1 + λ2 e2 et
2.
Exemplo: No exemplo anterior temos
A =[
2.2 0.40.4 2.8
], U =
[1/√
5 2/√
52/√
5 −1/√
5
]e Λ =
[3 00 2
].
Casos especiais:
43
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
a) Matriz inversa: a inversa de uma matriz Ak×k, simetrica, pode ser obtida fazendo
A−1 =k∑i=1
1λi
ei eti,
ou ainda,
A−1 = U Λ−1Ut.
b) Matriz raiz quadrada: a matriz raiz quadrada de uma matriz Ak×k, definida positiva, e
uma matriz tal que A1/2A1/2 = A, podendo ser obtida de
A1/2 =k∑i=1
√λi ei et
i,
ou, equivalentemente,
A1/2 = UΛ1/2Ut,
em que Λ1/2 e dada por
Λ1/2 =
√λ1 0 · · · 00
√λ2 · · · 0
......
. . ....
0 0 · · ·√λk
.
Outras relacoes envolvendo a matriz raiz quadrada sao apresentadas a seguir:
• A−1/2 = (A1/2)−1 = UΛ−1/2Ut;
• A−1/2A−1/2 = A−1.
Exemplo: Considere a matriz A =[
2.2 0.40.4 2.8
],
entao, U =[
1/√
5 2/√
52/√
5 −1/√
5
]e Λ =
[3 00 2
].
Desta forma, fazendo Λ1/2 =[ √
3 00√
2
], temos
A1/2 =[
1/√
5 2/√
52/√
5 −1/√
5
] [ √3 0
0√
2
] [1/√
5 2/√
52/√
5 −1/√
5
]
A1/2 =
(√
3 + 4√
2)5
(2√
3− 2√
2)5
(2√
3− 2√
2)5
(4√
3 +√
2)5
.
44
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
A matriz A1/2 e a matriz raiz quadrada de A sendo que, de fato
A1/2 A1/2 =
(√
3 + 4√
2)5
(2√
3− 2√
2)5
(2√
3− 2√
2)5
(4√
3 +√
2)5
(√
3 + 4√
2)5
(2√
3− 2√
2)5
(2√
3− 2√
2)5
(4√
3 +√
2)5
=[
2.2 0.40.4 2.8
]= A.
Agora, fazendo Λ−1/2 =[
1/√
3 00 1/
√2
], temos
A−1/2 =[
1/√
5 2/√
52/√
5 −1/√
5
] [1/√
3 00 1/
√2
] [1/√
5 2/√
52/√
5 −1/√
5
]
A−1/2 =
( 1
5√
3+ 4
5√
2
) ( 25√
3− 2
5√
2
)( 2
5√
3− 2
5√
2
) ( 45√
3+ 1
5√
2
) ,
sendo assim, teremos
A−1/2 A−1/2 = 16
[2.8 −0.2−0.2 2.2
]= A−1.
4.2 Decomposicao em valores singulares
Seja a matriz Am×k uma matriz de valores reais. Existem matrizes Um×m e Vk×k, ortogonais,
tais que
A = UΣVt,
em que Λ e uma matriz do tipo
Σ =[
Σr 00 0
]m×k
, com r = posto de A,
e Σr e uma matriz diagonal com os r valores singulares de A.
A decomposicao em valores singulares pode ser expressa numa relacao matricial que depende
do posto da matriz.
Considere Am×k e seja r ≤ min(m, k), rank(A). Entao, existem r constantes positivas, ou
valores singulares, σ1 =√λ1, σ2 =
√λ2, . . . , σr =
√λr, em que λi > 0, i = 1, 2, . . . , r sao os r
autovalores positivos de AtA.
Existem, ainda, r autovetores v1,v2, . . . ,vr, de dimensao k × 1 e r autovetores u1,u2, . . . ,ur,
45
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
de dimensao m× 1, tal que
A =r∑i=1
σi ui vti = Ur Σr Vtr,
em que Ur = [u1 | u2 | · · · | ur] e Vr = [v1 | v2 | · · · | vr], sao matrizes ortogonais e Σr e uma
matriz diagonal do tipo
Σr =
σ1 0 · · · 00 σ2 · · · 0...
.... . .
...
0 0 · · · σr
.
Nessa situacao, λ1 ≥ λ2 ≥ . . . ≥ λr > 0 e v1,v2, . . . ,vr, sao os r primeiros pares de autovalores
e autovetores de AtA, obtidos de
AtA vi = λi vi,
em que λ1 > λ2 > . . . > λr > 0, sao valores estritamente positivos.
Os autovetores ui, por sua vez, estao associados aos autovetores vi, i = 1, 2, . . . , r, pela relacao
ui = 1σi
A vi.
Desta forma, a decomposicao em valores singulares pode ser escrita pela expressao
A = Ur Σr Vtr.
Nota 4.1. Notas
a) Alternativamente, ui, i = 1, 2, . . . , r, sao os r autovetores associados aos mesmos autovalores
positivos λ1 ≥ λ2 ≥ . . . ≥ λr > 0 de A At, em que σi =√λi, i = 1, 2, . . . , r sao os respectivos
valores singulares.
Os autovetores vi, por sua vez, estao relacionados aos autovetores ui, i = 1, 2, . . . , r, pela
relacao
vi = 1σi
At ui.
b) Da decomposicao em valores singulares temos, ainda, as seguintes relacoes:A vi = σi ui.
At ui = σi vi.
46
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
c) Uma forma de representar a decomposicao em valores singulares e atraves da decomposicao
polar, em que a matriz Am×k pode ser representada por A = P Q, com P = U Σ Ut e
Q = U Vt. De fato,
A = U Σ Vt
= U Σ (Ut U) Vt
= (U Σ Ut) (U Vt)
= P Q.
Exemplo 4.1. Seja A =
1 10 11 0
, entao, At A e dada por
At A =[
1 0 11 1 0
] 1 10 11 0
=[
2 11 2
].
O posto de A e r = 2, assim, os dois autovalores diferentes de 0 de At A sao λ1 = 3 e λ2 = 1.
Os autovetores associados sao
v1 =[
1/√
21/√
2
]e v2 =
[1/√
2−1/√
2
]
respectivamente.
Os autovetores u1 e u2, por sua vez, sao obtidos de
u1 = 1√3
1 10 11 0
[
1/√
21/√
2
]=
2/√
61/√
61/√
6
,
u2 = 1√1
1 10 11 0
[
1/√
2−1/√
2
]=
0
−1/√
21/√
2
.
47
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
Assim sendo, a matriz A pode ser escrita como
A = Ur Σr Vtr, ou seja,
A =
2/√
6 01/√
6 −1/√
21/√
6 1/√
2
[ √
3 00 1
] [1/√
2 1/√
21/√
2 −1/√
2
].
A =
1 10 11 0
A decomposicao polar de A e expressa por:
P = U Σ Ut = 1√12
4 2 22 (1 +
√3) (1−
√3)
2 (1−√
3) (1 +√
3)
Q = U Vt = 1√12
2 2
(1−√
3) (1 +√
3)(1 +
√3) (1−
√3)
�
Exemplo 4.2. Seja A =
4 38 68 −9
, entao, A At e dada por
A At =
4 38 68 −9
[
4 8 83 6 −9
]=
25 50 550 100 105 10 145
.Os autovalores diferentes de 0 de A At sao λ1 = 150 e λ2 = 120 com autovetores associados,
u1 =
−1/√
30−2/√
30−5/√
30
e u2 =
1/√
62/√
6−1/√
6
respectivamente.
48
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
Os vetores v1 e v2, por sua vez, sao obtidos de
v1 = 1√150
[4 8 83 6 −9
] −1/√
30−2/√
30−5/√
30
=[−2/√
51/√
5
],
v2 = 1√120
[4 8 83 6 −9
] 1/√
62/√
6−1/√
6
=[−1/√
5−2/√
5.
].
Assim sendo, a matriz A pode ser escrita como
A = U Λ Vt, ou seja,
A =
−1/√
30 −1/√
6−2/√
30 −2/√
6−5/√
30 1/√
6
[ √
150 00√
120
] [−2/√
5 1/√
5−1/√
5 −2/√
5
].
A =
4 38 68 −9
�
4.3 Decomposicao LU
Seja a matriz An×n, a decomposicao LU e uma fatoracao do tipo A = LU, em que L e uma
matriz triangular inferior cujos elementos da diagonal sao iguais a 1 e U uma matriz triangular
superior, ou seja
1 0 0 · · · 0`21 1 0 · · · 0`31 `32 1 · · · 0...
......
. . ....
`n1 `n2 `n3 · · · 1
u11 u12 u13 · · · u1n
0 u22 u23 · · · u2n
0 0 u33 · · · u3n...
......
. . ....
0 0 0 · · · unn
=
a11 a12 a13 · · · a1n
a21 a22 a23 · · · a2n
a31 a32 a33 · · · a3n...
......
. . ....
an1 an2 an3 · · · ann
.
(4.1)
Definicao 4.1. Menores principais: Seja uma matriz quadrada An×n dada em (4.2), entao, o
menor principal de A de ordem k, denotado por Ak, e dado pela submatriz formada pelas k
49
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
primeiras linhas e k primeiras colunas de A, ou seja,
Ak =
a11 a12 · · · a1k
a21 a22 · · · a2k...
.... . .
...
ak1 ak2 · · · akk
, k = 1, 2, . . . , n.
Os menores principais de uma matriz assim definidos tambem sao chamados de menores prin-
cipais lıderes, por serem formados pelas suas k primeiras linhas e k primeiras colunas.
Teorema 4.1. Seja uma matriz quadrada An×n e Ak seu menor principal de ordem k. Se |Ak| 6= 0,
∀ k ≤ n − 1, entao, existe uma unica matriz triangular inferior L, cujos elementos da diagonal
sao iguais a 1, e, uma unica matriz triangular superior U tal que A = LU.
Alem disso, |A| = u11 · u22 · · · unn.
Prova: A prova do teorema (4.1) e feita por inducao.
4.3.1 Determinacao das matrizes L e U
As matrizes U e L podem ser obtidas aplicando-se a eliminacao Gaussiana (ou escalonamento)
em A, transformando-a na matriz triangular superior U. Nesse processo, os elementos da diagonal
de U serao os pivos de A.
Com as operacao nas linhas de A para escalonar as suas colunas, os valores utilizados como mul-
tiplicadores, com os sinais trocados, devem ocupar suas posicoes respectivas numa matriz triangular
inferior que, no final do processo, sera a matriz L.
Neste processo e comum colocar a matriz identidade ao lado da matriz A, que sera escalonada.
Os multiplicadores (com os sinais trocados) serao, entao, alocados nas respetivas posicoes da matriz
identidade, abaixo da sua diagonal. No final do processo a matriz A sera transformada na matriz
triangular superior U e, a identidade, na matriz triangular inferior L.
O exemplo a seguir ilustra o processo descrito acima.
Exemplo: Considere a matriz A
A =
2 1 4 63 −2 5 0−1 2 −3 4
2 2 −2 3
.
50
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
a) Montar a matriz[
I A]:
1 0 0 0 2 1 4 60 1 0 0 3 −2 5 00 0 1 0 −1 2 −3 40 0 0 1 2 2 −2 3
b) Multiplicar a primeira linha por (−3/2) e somar a segunda linha;
multiplicar a primeira linha por (1/2) e somar a terceira linha e
multiplicar a primeira linha por (−1) e soma a quarta linha:1 0 0 0 2 1 4 6
3/2 1 0 0 0 −7/2 −1 −9−1/2 0 1 0 0 5/2 −1 7
1 0 0 1 0 1 −6 −3
c) Multiplicar a segunda linha por (5/7) e somar a terceira linha e
multiplicar a segunda linha por (2/7) e somar a quarta linha:1 0 0 0 2 1 4 6
3/2 1 0 0 0 −7/2 −1 −9−1/2 −5/7 1 0 0 0 −12/7 4/7
1 −2/7 0 1 0 0 −44/7 −39/7
d) Multiplicar terceira linha por (−11/3) e somar a quarta linha:
1 0 0 0 2 1 4 63/2 1 0 0 0 −7/2 −1 −9−1/2 −5/7 1 0 0 0 −12/7 4/7
1 −2/7 11/3 1 0 0 0 −23/3
Desta forma, temos:
1 0 0 03/2 1 0 0−1/2 −5/7 1 0
1 −2/7 11/3 1
2 1 4 60 −7/2 −1 −90 0 −12/7 4/70 0 0 −23/3
= A.
51
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
4.3.2 O algoritmo de Crout
As matrizes L e U podem ser obtidas pelo algoritmo de Crout, num processo com 2n−1 passos,
sendo que, as colunas de U e as linhas de L sao determinadas alternadamente em cada um dos
passos (Figura 4.1).
Figura 4.1: Determinacao das matrizes L e U
Seja A = LU, entao:
1 0 0 · · · 0`21 1 0 · · · 0`31 `32 1 · · · 0...
......
. . ....
`n1 `n2 `n3 · · · 1
u11 u12 u13 · · · u1n
0 u22 u23 · · · u2n
0 0 u33 · · · u3n...
......
. . ....
0 0 0 · · · unn
= A.
i) 1o passo: do produto da 1a linha de L com as colunas de U, temos que
u11 = a11,
u12 = a12,...
u1n = a1n,
⇒ u1j = a1j , j = 1, 2, . . . , n.
52
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
ii) 2o passo: do produto das linhas 2 a n, de L, com a 1a coluna de U, obtemos
`21u11 = a21 ⇒ `21 = a21u11
,
`31u11 = a31 ⇒ `31 = a31u11
,
......
...
`n1u11 = an1 ⇒ `n1 = an1u11
,
⇒ `i1 = ai1u11
i = 2, . . . , n.
iii) 3o passo: fazendo o produto da 2a linha de L com as colunas 2 a n de U, temos que
`21u12 + u22 = a22, ⇒ u22 = a22 − `21u12,
`21u12 + u23 = a23, ⇒ u23 = a23 − `21u13,...
......
`21u1n + u2n = a2n, ⇒ u2n = a2n − `21u1n,
⇒ u2j = a2j − `21u1j , j = 2, . . . , n.
iv) 4o passo: do produto das linhas 3 a n, de L, com a 2a coluna de U, obtemos
`31u12 + `32u22 = a32 ⇒ `32 = a32 − `31a12u22
,
`41u12 + `42u22 = a42 ⇒ `42 = a42 − `41a12u22
,
......
...
`n1u12 + `n2u22 = an2 ⇒ `n2 = an2 − `n1a12u22
,
⇒ `i2 = ai2 − `i1a12u22
, i = 3, . . . , n.
item[iv)]E o processo deve continuar ate o passo 2n − 1, quando sera obtido o elemento unn
de U.
53
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
Desta forma, termos as seguintes formulas gerais para o processo de determinacao de L e U:
u1j = a1j , j = 1, 2, . . . , n;
`ij = aij −∑i−1k=1 `ikakjujj
, j = 1, 2, . . . , n; i > j;
uij = aij −j−1∑k=1
`ikukj , j = 2, 3, . . . , n; i ≤ j.
lembrando que o processo de determinacao de `ij e uij deve ser alternado, para cada valor de j.
Exemplo 4.3. Considere a matriz
A =
2 1 4 63 −2 5 0−1 2 −3 4
2 2 −2 3
,
do processo de determinacao de L e U, temos:
i) 1o passo:
u11 = a11 = 2;
u12 = a12 = 1;
u13 = a13 = 4;
u14 = a14 = 6.
ii) 2o passo:
`21u11 = 3 ⇒ `21 = a21a11
= 32;
`31u11 = −1 ⇒ `31 = a31a11
= −12;
`41u11 = 2 ⇒ `41 = a41a11
= 1.
54
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
iii) 3o passo:
`21u12 + u22 = −2 ⇒ u22 = −2− `21a12 = −2− 32 = −7
2;
`21u13 + u23 = 5 ⇒ u23 = 5− `21a13 = 5− 6 = −1;
`21u14 + u24 = 0 u24 = −`21a14 = −9.
iv) 4o passo:
`31u12 + `32u22 = 2
(−1
2
)(1) + `32
(−7
2
)= 2 ⇒ `32 =
(−2
7
)(2 + 1
2
)= −5
7
`41u12 + `42u22 = 2
(1)(1) + `42
(−7
2
)= 2 ⇒ `42 =
(−2
7
)(2− 1) = −2
7
v) 5o passo:
`31u13 + `32u23 + u33 = −3
(−1
2
)(4) +
(−5
7
)(−1) + u33 = −3 ⇒ u33 = −3 + 2
(−5
7
)= −12
7
`31u14 + `32u24 + u34 = 4
(−1
2
)(6) +
(−5
7
)(−9) + u34 = 4 ⇒ u34 = 4 + 3
(−45
7
)= 4
7
vi) 6o passo:`41u13 + `42u23 + `43u33 = −2
(1)(4) +(−2
7
)(−1) + `43
(−12
7
)= −2 ⇒ `43 =
(− 7
12
)(−2− 30
7
)= 11
3
55
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
vii) 7o passo:`41u14 + `42u24 + `43u34 + u44 = 3
(1)(6) +(−2
7
)(−9) +
(113
)(47
)+ u44 = 3 ⇒ u44 = 3− 6− 18
7 −4421 = −23
3
Desta forma, temos:
L =
1 0 0 0
3/2 1 0 0−1/2 −5/7 1 0
1 −2/7 11/3 1
e U =
2 1 4 60 −7/2 −1 −90 0 −12/7 4/70 0 0 −23/3
.
E, ainda:
|A| = u11 · u22 · u33 · u44
|A| = (2) ·(−7
2
)·(−12
7
)·(−23
3
)
|A| = −92.
4.4 Decomposicao de Cholesky
Seja a matriz An×n, simetrica e definida positiva, nessa condicao A pode fatorada na forma
A = GGt, em que G e uma matriz triangular inferior.
g11 0 · · · 0g21 g22 · · · 0...
.... . .
...
gn1 gn2 · · · gnn
g11 g21 · · · gn1
0 g22 · · · gn2...
.... . .
...
0 0 · · · gnn
=
a11 a12 · · · a1n
a21 a22 · · · a2n...
.... . .
...
an1 an2 · · · ann
.
Observe que a fatoracao de Cholesky e equivalente a decomposicao LU, em que U = Gt e
L = G, com a diagonal principal nao necessariamente formada por 1’s.
Da decomposicao de Cholesky remos, ainda, que:
|A| = |G| |Gt| = (g11 · g22 · · · gnn)2 .
56
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
Como para a decomposicao de cholesky a matriz A deve ser definida positiva, a seguir vamos
apresentar a definicao de matriz definida positiva e uma forma de verificacao desta condicao dada
pelo criterio de Sylvestre.
Definicao 4.2. Uma matriz quadrada An×n e definida positiva se, e so se,
xtAx > 0, ∀ vetor x 6= 0.
Alem da Definicao (4.2), podemos verificar se uma matriz e definida positiva pelo criterio de
Sylvestre, apresentado a seguir:
Criterio 4.1. Criterio de Sylvestre: Uma matriz quadrada An×n e definida positiva se, e so se, os
seus menores principais nao forem singulares, ou seja
|Ak| 6= 0, k = 1, 2, . . . , n.
4.4.1 Determinacao da matriz G
De maneira semelhante a decomposicao LU, a matriz G pode ser obtida diretamente do produto
GGt, num processo com 2n−1 passos, sendo que, os elementos da diagonal de G e as suas colunas
sao determinadas alternadamente (Figura 4.2).
Figura 4.2: Determinacao da matriz G
Para a determinacao da matriz G vamos separar os elementos da diagonal daqueles fora da
diagonal, iniciando o processo pela sua primeira coluna. O processo deve, entao, prosseguir alter-
nadamente na determinacao dos elementos da diagonal e das respectivas coluna. As formulas gerais
57
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
sao apresentadas abaixo:
Para a 1a coluna:g11 =
√a11;
g1j = ai1g11
, i = 2, 3, . . . , n.
Para as demais colunas:
gii =
√√√√aii − i−1∑k=1
g2ik, i = 2, 3, . . . , n
gij = 1gjj
aij − j−1∑k=1
gik gjk
, 2 ≤ j < i.
Exemplo 4.4. Considere a matriz simetrica
A =
4 2 −42 10 4−4 4 9
.Verificando se a matriz A e definida positiva:
A1 = 4 ⇒ |A1| = 4 > 0;
A2 =
4 2
2 10
⇒ |A2| = 36 > 0;
A3 = A ⇒ |A3| = |A| = 36 > 0.
Portanto, pelo criterio de Sylvestre temos que a matriz A e definida positiva.
Calculando os elementos da matriz G:
i) 1o passo:
g11 =√a11 =
√4 = 2.
ii) 2o passo:g21 = a21
2 = 22 = 1;
g31 = a312 = −4
2 = −2.
58
Decomposicao de matrizes Teoria de Matrizes para Estatıstica
iii) 3o passo:
g22 =√a22 − g2
21 =√
10− 1 = 3.
iv) 4o passo:
g32 = a32 − g31 g21g22
= 4− (−2) · (1)3 = 6
3 = 2;
v) 5o passo:
g33 =√a33 − (g2
31 + g232) =
√9− (4 + 4) = 1.
A matriz G e, portanto, dada por:
G =
2 0 01 3 0−2 2 1
.E o determinante de A e:
|A| = |G|2 = (2 · 3 · 1)2 = (6)2 = 36
.
59
5Vetores aleatorios
5.1 Vetores aleatorios
Um vetor Xp×1, do tipo
X =
X1
X2...
Xp
e um vetor aleatorio se X1, X2, . . . , Xp forem variaveis aleatorias (va’s).
Nota 5.1. Como um vetor aleatorio e uma representacao generalizada de uma variavel aleatoria,
aqui tambem iremos denota-los por va �
Nota 5.2. Da mesma forma, uma matriz aleatoria e uma matriz cujos elementos sao va’s �
Exemplo 5.1. Num estudo sobre a qualidade do ar foram observadas as variaveis X1: radiacao
solar; X2: velocidade do ar; X3: temperatura e X4: concentracao de ozone.
Desta forma, essas variaveis formam um vetor aleatorio de dimensao 4, dado por
X =
X1
X2
X3
X4
�
A distribuicao de probabilidade conjunta de um vetor aleatorio e definida por
i) p(x) = p(x1, . . . , xp) = P (X1 = x1, . . . , Xp = xp), se X for composto por variaveis aleatorias
discretas e,
ii) f(x) = f(x1, . . . , xp), se X for composto por variaveis aleatorias contınuas.
As distribuicoes marginais das variaveis aleatorias X1, X2, . . . , Xp sao calculadas por
60
Vetores aleatorios Teoria de Matrizes para Estatıstica
i) Caso discreto
pk(xk) =∑
x1,...,xp
xi 6=xk
P (X1 = x1, . . . , Xp = xp), k = 1, 2, . . . , p,
ii) Caso contınuo
fk(xk) =∫x1,...,xp
xi 6=xk
f(x1, . . . , xp)dx1 . . . dxp, k = 1, 2, . . . , p.
Combinacoes lineares de variaveis aleatorias
Em muitas aplicacoes estatısticas, especialmente no contexto multvariado, trabalha-se com com-
binacoes lineares de va’s. Uma combinacao linear dos componentes de um vetor aleatorio pode ser
representada pelo produto interno entre um vetor de coeficientes a e o vetor X.
Seja um vetor aleatorio X e um vetor de coeficientes lineares a, entao, temos uma combinacao
linear dada por
Y = atX =p∑i=1
ai Xi = a1 X1 + a2 X2 + . . .+ ap Xp.
Exemplo 5.2. Considere o vetor Xt = (X1, X2) e os coeficientes at = (1/2, 1/2), entao, a combi-
nacao linear
Y = atX = X1 + X22 ,
representa a media entre X1 e X2 �
Considere, agora, vetor aleatorio X e k combinacoes lineares dadas pelos vetores de coeficientes
a1,a2, . . . ,ak, assim, temos que
Y1 = at1X = a11 X1 + a12 X2 + . . .+ a1p Xp
Y2 = at2X = a21 X1 + a22 X2 + . . .+ a2p Xp
......
Yk = atkX = ak1 X1 + ak2 X2 + . . .+ akp Xp
Agrupando as variaveis Y1, Y2, . . . , Yk num vetor aleatorio Y, os coeficientes das combinacoes
lineares devem ser dispostos como linhas numa matriz de coeficientes A, ou seja
A =
at
1
at2...
atk
.
61
Vetores aleatorios Teoria de Matrizes para Estatıstica
Desta forma, as combinacoes lineares sao escritas como
Y = AX =
at
1Xat
2X...
atkX
.
Exemplo 5.3. Exemplos de aplicacoes com diversas combinacoes lineares podem ser obtidas nas
analises mutivariadas de componentes principais ou correlacao canonica, entre outras �
5.1.1 Valor esperado de um vetor aleatorio
O valor esperado de um vetor aleatorio X e definido por:
E(X) =
E(X1)E(X2)
...
E(Xp)
,
em que E(Xi), i = 1, 2, . . . , p, e o valor esperado da i-esima va.
Normalmente o vetor de medias e denotado por µ, ou seja,
E(X) = µ =
µ1
µ2...
µp
,
sendo que E(Xi) = µi =
∑xi
xipi(xi), se xi for discreta e,
∫xi
xifi(xi), se xi for contınua.
Propriedades
a) Sejam um va X e um vetor de coeficientes a, entao, a combinacao atX tem valor esperado
E(atX) = atE(X).
b) Sejam as combinacoes lineares atX e btY, com X e Y, entao
E(atX + btY) = atE(X) + btE(Y).
c) Comsiderando k combinacoes lineares com uma matriz de coeficientes A, temos
E(A X) = A E(X).
62
Vetores aleatorios Teoria de Matrizes para Estatıstica
Da mesma forma, com dois conjuntos de combinacoes lineares A X e B Y tais que as dimen-
soes das matrizes envolvidas sejam compatıveis, temos
E(A X + B Y) = A E(X) + B E(Y).
Exemplo 5.4.
a) Sejam Xt = (X1, X2, X3) tal que E(X) = (2,−1, 1)t. Se at = (4, 3, 3), entao,
atX = 4X1 + 3X2 + 3X3
e
E(atX) =[
4 3 3]
2−1
1
= 8− 3 + 3 = 8.
b) Com k = 4 combinacoes lineares dadas pelos coeficientes na matriz
A =
2 −1 1
0.5 0 11 2 1−1 1 2
,
as combinacoes lineares sao dadas porY1 = 2X1 −X2 +X3
Y2 = X1/2 +X3
Y3 = X1 + 2X2 +X3
Y4 = −X1 +X2 + 2X3
logo, E(AX) =
2 −1 1
0.5 0 11 2 1−1 1 2
2−1
1
=
621−1
�
5.1.2 Matriz de variancias-covariancias de um vetor aleatorio
Sejam X1 e X2 va’s com µ1 = E(X1) e µ2 = E(X2). Entao, temos que suas respectivas
variancias sao calculadas por
σ21 = V ar(X1) = E[(X1 − µ1)2] = E[(X1 − µ1)(X1 − µ1)] e
σ22 = V ar(X2) = E[(X2 − µ2)2] = E[(X2 − µ2)(X2 − µ2)],
63
Vetores aleatorios Teoria de Matrizes para Estatıstica
e, a covariancia entre X1 e X2, por
σ12 = Cov(X1, X2) = E[(X1 − µ1)(X2 − µ2)].
No contexto multivariado, as quantidades acima sao representadas por uma matriz de variancias
e covariancias (matriz var-cov) denotada por Σ
Σ =[σ2
1 σ12
σ12 σ22
].
Nota 5.3. Observe que a matriz Σ e simetrica cuja diagonal e composta pelas variancias das varia-
veis aleatorias e os elementos fora da diagonal pelas covariancias entre essas variaveis �
Considere o vetor aleatorio X composto pelas va’s X1, X2, . . . , Xp, tal que E(X) = µ, entao, a
matriz var-voc de X e definida por
ΣX = Cov(X) = E[(X− µ)(X− µ)t]
ΣX = E
(X1 − µ1)(X2 − µ2)
...
(Xp − µp)
[
(X1 − µ1) (X2 − µ2) . . . (Xp − µp)]
ΣX = E
(X1 − µ1)2 (X1 − µ1)(X2 − µ2) . . . (X1 − µ1)(Xp − µp)
(X2 − µ2)(X1 − µ1) (X2 − µ2)2 . . . (X2 − µ2)(Xp − µp)...
.... . .
...
(Xp − µp)(X1 − µ1) (Xp − µp)(X2 − µ2) . . . (Xp − µp)2
ΣX =
E[(X1 − µ1)2] E[(X1 − µ1)(X2 − µ2)] . . . E[(X1 − µ1)(Xp − µp)]
E[(X2 − µ2)(X1 − µ1)] E[(X2 − µ2)2] . . . E[(X2 − µ2)(Xp − µp)[...
.... . .
...
E[(Xp − µp)(X1 − µ1)] E[(Xp − µp)(X2 − µ2)[ . . . E[(Xp − µp)2]
.
Ou seja, a matriz var-cov de X e da forma:
ΣX = Cov(X) =
σ2
1 σ12 . . . σ1p
σ12 σ22 . . . σ2p
......
. . ....
σ1p σ2p . . . σ2p
.
64
Vetores aleatorios Teoria de Matrizes para Estatıstica
Propriedades
a) Seja o vetor aleatorio X, tal que Cov(X) = ΣX e a combinacao linear atX. A variancia de
atX e dada por
V ar(atX) = atΣXa.
Prova:
V ar(atX) = E[(atX− atµ)(atX− atµ)t]
V ar(atX) = E[(atX− atµ)(Xta − µta)]
V ar(atX) = E[at(X− µ)(Xt − µt)a]
V ar(atX) = atE[(X− µ)(X− µ)t]a
V ar(atX) = atΣXa �
Ainda: V ar(atX + b) = atΣXa.
b) Considerando k combinacoes lineares com matriz de coeficientes A, temos
Cov(AX) = ACov(X)At = AΣXAt.
Prova: segue o mesmo raciocınio do item anterior.
Exemplo 5.5.
i) No exemplo (5.4), seja a matriz var-cov de X
ΣX =
4 −2 2−2 7 3
2 3 6
,entao, dada a combinacao linear Z = atX, em que at = (4, 3, 3), tem-se
V ar(Z) = ( 4 3 3 )
4 −2 2−2 7 3
2 3 6
433
= 235.
ii) Dada a matriz de coeficientes A =
2 −1 1
0.5 0 11 2 1−1 1 2
,
65
Vetores aleatorios Teoria de Matrizes para Estatıstica
tal que Z = A X, entao, ΣZ = Cov(Z) e dada por
ΣZ =
2 −1 1
0.5 0 11 2 1−1 1 2
4 −2 2−2 7 3
2 3 6
2 0.5 1 −1−1 0 2 1
1 1 1 2
=
39 13 3 −613 9 15 123 15 46 41−6 12 41 43
�
c) Sejam os vetores aleatorios X e Y, com vetores de medias µX e µY , respectivamente. A
matriz de covariancias entre X e Y, denotada por Cov(X,Y), e definida por
Cov(X,Y) = E[(X− µX)(Y− µY)t] = ΣXY .
De (a) e (b) segue-se que:
i) para duas combinacoes lineares atX e btY,
Cov(atX,btY) = atΣXYb;
ii) para dois grupos de combinacoes lineares AX e BY, com dimensoes compatıveis,
Cov(AX,BY) = AΣXYBt.
Obs: A matriz ΣXY nao e necessariamente quadrada.
Exemplo 5.6.
i) Considere o vetor aleatorio Yt = (Y1, Y2) cuja a matriz var-voc e dada por
ΣY =[
6 22 3
]
e seja a combinacao linear T = btY, com bt = (2,−3), entao, a variancia de T e
V ar(T ) = ( 2 −3 )[
6 22 3
](2−3
)= 27.
ii) Considere, agora, k = 2 combinacoes lineares: T1 = Y1 − Y2 e T2 = Y1 + 2Y2. Os
coeficientes de T1 e T2 sao dados pelas linhas da matriz
B =[
1 −11 2
].
66
Vetores aleatorios Teoria de Matrizes para Estatıstica
Desta forma, a matriz var-voc de T = B Y, denotada por ΣT, e calculada por
ΣT = Cov(T) =[
1 −11 2
] [6 22 3
] [1 1−1 2
]=[
5 22 26
].
iii) Assumindo que a matriz de covariancias entre os vetores aleatorios X e Y seja
ΣXY =
2 40 31 −3
,entao, a matriz de covariancias Cov(Z,T), entre Z = A X e T = B Y, e dada por
ΣZT =
2 −1 1
0.5 0 11 2 1−1 1 2
2 40 31 −3
[
1 1−1 2
]=
3 93 0−4 17
7 −14
�
d) Dadas duas combinacoes lineares atX e btY, entao, a variancia de atX + btY e
V ar(atX + btY) = atΣXa + btΣYb + 2atΣXYb, (5.1)
em que ΣX = Cov(X), ΣY = Cov(Y) e ΣXY = Cov(X,Y).
Exemplo 5.7.
Dos Exemplos (5.5) e (5.5), temos que atΣXa = 235 , btΣYb = 27 e, considerando que
atΣXYb = ( 4 3 3 )
2 40 31 −3
(
2−3
)= −26,
entao: V ar(atX + btY) = 235 + 27− 52 = 210 �
5.1.3 Matriz de correlacoes de um vetor aleatorio
A correlacao entre duas va’s Xi e Xj , i, j = 1, 2, . . . , p, e calcular por
ρij = Cor(Xi, Yj) = σij√σ2i σ
2j
,
67
Vetores aleatorios Teoria de Matrizes para Estatıstica
desta forma, a matriz de correlacoes de um va X e dada por
ρX =
1 ρ12 · · · ρ1p
ρ21 1 · · · ρ2p...
.... . .
...
ρp1 ρp2 · · · 1
.
Contudo, dado um va X, entretanto, a matriz de correlacoes pode ser obtida a partir de sua
matriz var-cov ΣX . Tomando a diagonal de ΣX numa matriz VX e extraindo a raiz quadrada,
temos
VX1/2 =
√diag(ΣX) =
√σ2
1 0 · · · 00
√σ2
2 · · · 0...
.... . . 0
0 0 · · ·√σ2p
.
Desta forma, a matriz ρX e dada pela relacao
ρX = (V1/2X )−1 ΣX (V1/2
X )−1,
ou ainda,
ρX = V−1/2X ΣX V−1/2
X .
A matriz de covariancias e, portanto, obtida da relacao
ΣX = V1/2X ρX V1/2
X .
Exemplo 5.8.
i) No exemplo (5.5, i), em que ΣX =
4 −2 2−2 7 3
2 3 6
, a matriz V−1/2X e dada por
V−1/2X =
1/√
4 0 00 1/
√7 0
0 0 1/√
6
.
Desta forma, a matriz de correlacoes do v.a. X e
ρX = V−1/2X ΣX V−1/2
X =
1.0000 −0.3780 0.4082−0.3780 1.0000 0.4629
0.4082 0.4629 1.0000
.
68
Vetores aleatorios Teoria de Matrizes para Estatıstica
ii) Considerando, ainda, o vetor de combinacoes lineares Y de (5.5, ii), a matriz ρY e dada por
ρY = V−1/2Y ΣY V−1/2
Y =
1.0000 0.6939 0.0708 −0.14650.6939 1.0000 0.7372 0.61000.0708 0.7372 1.0000 0.9219−0.1465 0.6100 0.9219 1.0000
.
iii) Sejam dois conjuntos de combinacoes lineares dados por Z = AX e W = BX, para calcular
a correlacao entre os v.a.’s Z e W fazemos:
ΣZW = Cov(AX,BX)
ΣZW = E[(AX−AµX)(BX−BµX)t]
ΣZW = E[(AX−AµX)(XtBt − µtXBt)]
ΣZW = E[A(X− µX)(Xt − µtX)Bt]
ΣZW = AE[(X− µX)(X− µX)t]Bt
ΣZW = AΣXBt.
Por exemplo, sejam os conuntos de combinacoes lineares Z = AX e W = BX, com ΣX e
A dados no exemplo (5.5) e com
B =[
1 1 11 0 −1
],
entao, a matriz de correlacoes entre Z e W e dada por:
ΣZW = AΣXBt
ΣZW =
2 −1 1
0.5 0 11 2 1−1 1 2
4 −2 2−2 7 3
2 3 6
−1 1
0 11 −1
=
−5 −3
3 −112 315 0
.
A matriz de correlacoes entre Z e W e, entao, dada por
ρZW = V−1/2Z ΣZW V−1/2
W =
−0.3269 −0.2774
0.4082 −0.19250.7223 0.25540.9339 0.0000
.
O resultado acima sera mostrado mais detalhadamente com v.a. particionados �
69
Vetores aleatorios Teoria de Matrizes para Estatıstica
5.1.4 Vetores aleatorios particionados
Seja um vetor aleatorio X particionado em dois grupos X(1) e X(2),
X =[
X(1)
X(2)
].
entao, o vetor de medias µ e dado por
µX = E(X) =[E(X(1))E(X(2))
]=[
µ(1)X
µ(2)X
].
Assim sendo, a matriz de variancias e covariancias de X e definida por
ΣX =[
Cov(X(1)) Cov(X(1),X(2))Cov(X(2),X(1)) Cov(X(2))
]
ΣX =
ΣX11ΣX12
ΣtX12
ΣX22
.Considerando dois grupos de combinacoes lineares Y(1) = AX(1) e Y(2) = BX(2), entao, pode-
mos escrever
Y =[
Y(1)
Y(2)
]=[
A 00 B
] [X(1)
X(2)
].
Definindo a matriz C como
C =[
A 00 B
],
entao teremos Y = CX
70
Vetores aleatorios Teoria de Matrizes para Estatıstica
a) Vetor de medias de uma combinacao linear de um v.a. particionado:
E(Y) = E(CX)
E(Y) =[
A 00 B
] [E(X(1))E(X(2))
]
E(Y) =[
AE(X(1))BE(X(2))
]
E(Y) =[
µ(1)Y
µ(2)Y
].
b) Matriz var-cov de uma combinacao linear de um v.a. particionado
ΣY = Cov(Y)
ΣY = Cov(CX)
ΣY = CΣXCt
ΣY =[
A 00 B
] ΣX11ΣX12
ΣtX12
ΣX12
[ A 00 B
]t
ΣY =
AΣX11At AΣX12
Bt
BΣtX12
At BΣX22Bt
ΣY =
ΣY11ΣY12
ΣtY12
ΣY22
.
c) Matriz de correlacoes de uma combinacao linear de um v.a. particionado: Extraindo a diago-
nal de ΣY , particionada, teremos duas matrizes V1/2Y1
=√diag(ΣY11
) e V1/2Y2
=√diag(ΣY22
),
71
Vetores aleatorios Teoria de Matrizes para Estatıstica
tal que
V1/2Y =
V1/2Y1
00 V1/2
Y2
.
Portanto, a matriz de correlacoes do vetor de combinacoes lineares particionado Y = CX e
dado por
ρY = V−1/2Y ΣYV−1/2
Y
ρY =
V−1/2Y1
00 V−1/2
Y2
ΣY11ΣY12
ΣtY12
ΣY22
V−1/2Y1
00 V−1/2
Y2
ρY =
V−1/2Y1
ΣY11V−1/2
Y1V−1/2
Y1ΣY12
V−1/2Y2
V−1/2Y2
ΣtY12
V−1/2Y1
V−1/2Y2
ΣY22V−1/2
Y2
ρY =
ρY11ρY12
ρtY12
ρY22
.
Exemplo 5.9. i) Seja o v.a. X particionado em X(1) = (X1, X2)t e X(2) = (X3, X4)t com
matriz var-cov
ΣX =
4 2 2 12 7 3 02 3 6 11 0 1 4
,
entao, temos que
ΣX11=[
4 22 7
], ΣX22
=[
6 11 4
]e ΣX12
=[
2 13 0
].
Assumindo dois grupos de combinacoes lineares Y(1) = AX(1) e Y(2) = BX(2), tais que
A =
−1 1
0 12 11 2
e B =[
1 −11 1
],
72
Vetores aleatorios Teoria de Matrizes para Estatıstica
a matriz var-cov de Y e calculada por
ΣY =[
A 00 B
]4 2 2 12 7 3 02 3 6 11 0 1 4
[
At 00 Bt
]
ΣY =
A(
4 22 7
)At A
(2 13 0
)Bt
B(
2 31 0
)At B
(6 11 4
)Bt
ΣY =
7 5 1 8 2 05 7 11 16 3 31 11 31 32 5 98 16 32 40 7 92 3 5 7 8 20 3 9 9 2 12
ou seja
ΣY11=
7 5 1 85 7 11 161 11 31 328 16 32 40
, ΣY22=[
8 22 12
]e ΣY12
=
2 03 35 97 9
.
Para o calculo da matriz de correlacoes do v.a. Y temos que
V−1/2Y1
=
1/√
7 0 0 00 1/
√7 0 0
0 0 1/√
31 00 0 0 1/
√40
e V−1/2Y2
=[
1/√
8 00 1/
√2
].
73
Vetores aleatorios Teoria de Matrizes para Estatıstica
Desta forma,
ρY =
V−1/2Y1
00 V−1/2
Y2
7 5 1 8 2 05 7 11 16 3 31 11 31 32 5 98 16 32 40 7 92 3 5 7 8 20 3 9 9 2 12
V−1/2Y1
00 V−1/2
Y2
ρY =
1.0000 0.7143 0.0679 0.4781 0.2673 0.00000.7143 1.0000 0.7467 0.9562 0.4009 0.32730.0679 0.7467 1.0000 0.9087 0.3175 0.46660.4781 0.9562 0.9087 1.0000 0.3913 0.41080.2673 0.4009 0.3175 0.3913 1.0000 0.20410.0000 0.3273 0.4666 0.4108 0.2041 1.0000
�
5.2 Representacao vetorial dos dados
Seja um vetor Xp×1
X =
X1
X2...
Xp
e seja a aa multivariada de tamanho n, X1,X2, . . . ,Xn. Entao, X1 e a primeira observacao
multivariada, X2 a segunda e Xn a ultima.
Por exemplo, num estudo a respeito do comportamento de consumo das famılias de uma regiao,
foi observada uma aa de tamanho n = 70 com informacoes das seguintes variaveis:
X =
X1
X2
X3
X4
X5
=⇒
gasto familiar anual em restaurantes
gasto familiar anual com cinema
idade do chefe da famılia
renda familiar anual
grau de escolaridade do chefe da famılia
Neste caso, temos a amostra aleatoria X1,X2, . . . ,X70 de um va X5×1.
74
Vetores aleatorios Teoria de Matrizes para Estatıstica
5.2.1 A representacao dos dados
A representacao dos dados multivariados e feita por meio de uma matriz de dados, na qual, as
colunas representam as variaveis aleatorias e as linhas as observacoes multivariadas, ou seja
Xn×p =
X1 X2 · · · Xp
↓ ↓ ↓→ variaveis aleatorias
x11 x12 · · · x1p
x21 x22 · · · x2p...
.... . .
...
xn1 xn2 · · · xnp
→ 1a obs. multivariada
→ 2a obs. multivariada...
→ n-esima obs. multivariada
Por exemplo, considere a matriz de dados abaixo representando uma aa de tamanho n = 5 de
um vetor aleatorio de dimensao 3, Xt = (X1, X2, X3),
X5×3 =
1.2 0.6 101.9 0.7 122.2 0.6 112.6 0.8 141.6 0.8 13
.
Desta forma, a primeira linha de X, (1.2, 0.6, 10), representa a primeira observacao multivariada
enquanto que a primeira coluna, (1.2, 1.9, 2.2, 2.6, 1.6)t, representa a amostra aleatoria de tamanho
5 da variavel X1.
Portanto, nas linhas de X temos as n = 5 observacoes enquanto que, nas colunas, as amostras
de cada uma das variaveis X1, X2 e X3.
5.2.2 O vetor de medias amostrais
Para o calculo do vetor de medias amostrais, vamos relembrar que operacao xt1n fornece a
soma dos valores da va X observados na amostra, logo,
x = 1n
xt 1n,
em que 1n = (1, 1, . . . , 1)t e um vetor 1’s, de dimensao n.
No contexto multivariado, seja X a matrix de dados, logo, o vetor de medias amostrais e definido
por
x = 1nXt 1n,
ou seja:
x =
x1
x2...
xp
.
75
Vetores aleatorios Teoria de Matrizes para Estatıstica
No exemplo, temos p = 3, entao,
x = 15
1.2 1.9 2.2 2.6 1.60.6 0.7 0.6 0.8 0.810 12 11 14 13
11111
=
1.90.712
,
portanto, x1 = 1.9, x2 = 0.7 e x3 = 12.
5.2.3 A matriz de variancias e covariancias amostrais
Para a matriz de variancias e covariancias amostrais lembremos que a covariancia entre duas
variaveis X1 e X2 e obtida de,
s12 = 1(n− 1)
n∑i=1
(xi1 − x1)(xi2 − x2) = 1(n− 1)(x1 − 1nx1)t(x2 − 1nx2). (5.2)
Observe que os vetores (xi − 1nxi) em (5.2) sao, de fato, vetores de desvios do tipo
di =
x1i − xix2i − xi
...
xni − xi
, i = 1, 2, . . . , p.
Logo, pode-se escrever a covariancia sij por
sij = 1(n− 1) dt
i dj, i, j = 1, 2, . . . , p, com i 6= j,
e, as variancias: s2i = 1
(n− 1) dti di, i = 1, 2, . . . , p.
Para a matriz de var-cov amostral, compomos a matriz dos desvios com vetores di, i = 1, 2, . . . , pnas suas colunas
∆ =[
d1 | d2 | · · · | dp],
ou seja, a matriz ∆ e do tipo:
∆ =
(x11 − x1) (x12 − x2) · · · (x1p − xp)(x21 − x1) (x22 − x2) · · · (x2p − xp)
......
. . ....
(xn1 − x1) (xn2 − x2) · · · (xnp − xp)
.
Desta forma, a matriz var-cov amostral e dada por
S = 1(n− 1) ∆t ∆. (5.3)
76
Vetores aleatorios Teoria de Matrizes para Estatıstica
A matriz de desvios ∆ pode, ainda, ser escrita como ∆ = X− X, em que a matriz de medias
X e dada por:
X =
x1 x2 · · · xp
x1 x2 · · · xp...
.... . .
...
x1 x2 · · · xp
= 1n xt, (5.4)
sendo cada coluna de X um vetor de constante com a media amostral da respectiva variavel em X.
Desta forma, podemos obter uma expressao para ∆ por
∆ = X− 1n xt
∆ = X− 1n
1n(Xt 1n
)t
∆ = X− 1n
1n 1tn X
∆ =(I− 1
nJn
)X,
sendo Jn = 1n 1tn uma matriz n× n, do tipo:
Jn =
1 1 · · · 11 1 · · · 1...
.... . .
...
1 1 · · · 1
.
Logo, a matriz var-cov amostral e dada pela expressao
S = 1(n− 1) (X− X)t (X− X)
S = 1(n− 1)
[(X− 1
nJn
)X]t [(
I− 1nJn
)X].
S = 1(n− 1) Xt
(I− 1
nJn
)t (I− 1
nJn
)X. (5.5)
Mostra-se facilmente que a matriz (I − 1/n Jn) e simetrica e idempotente, portanto, a matriz
var-cov em (5.5) e , finalmente, dada por
S = 1(n− 1) Xt
(I− 1
nJn
)X. (5.6)
Nota 5.4. : A matriz var-cov amostral S, em (5.6), e um estimador nao viesado da matriz var-cov
populacional ΣΣΣ.
77
Vetores aleatorios Teoria de Matrizes para Estatıstica
Como exemplo, considere a matriz de dados
X =
1.2 0.6 101.9 0.7 122.2 0.6 112.6 0.8 141.6 0.8 13
.
Desta forma, temos
(I5 −
15J5
)=
1 0 0 0 00 1 0 0 00 0 1 0 00 0 0 1 00 0 0 0 1
−
1/5 1/5 1/5 1/5 1/51/5 1/5 1/5 1/5 1/51/5 1/5 1/5 1/5 1/51/5 1/5 1/5 1/5 1/51/5 1/5 1/5 1/5 1/5
=
4/5 −1/5 −1/5 −1/5 −1/5−1/5 4/5 −1/5 −1/5 −1/5−1/5 −1/5 4/5 −1/5 −1/5−1/5 −1/5 −1/5 4/5 −1/5−1/5 −1/5 −1/5 −1/5 4/5
.
Logo, a matriz S e dada por:
S = 14
1.2 1.8 2.2 2.6 1.60.6 0.7 0.6 0.8 0.810 12 11 14 13
4/5 −1/5 −1/5 −1/5 −1/5−1/5 4/5 −1/5 −1/5 −1/5−1/5 −1/5 4/5 −1/5 −1/5−1/5 −1/5 −1/5 4/5 −1/5−1/5 −1/5 −1/5 −1/5 4/5
1.2 0.6 101.9 0.7 122.2 0.6 112.6 0.8 141.6 0.8 13
S = 14
1.16 0.08 2.200.08 0.04 0.602.20 0.60 10.0
S =
0.29 0.02 0.550.02 0.01 0.150.55 0.15 2.50
.Para o calculo da matriz de correlacoes amostrais R, os procedimentos sao os mesmos utilizados
anteriormente, ou seja:
R = V−1/2 S V−1/2,
em que V1/2 e a matriz diagonal cujos elementos sao os desvios padroes amostrais observados.
78
Vetores aleatorios Teoria de Matrizes para Estatıstica
Com os dados do exemplo, temos que
V−1/2 =
1/√
0.29 0 00 1/
√0.01 0
0 0 1/√
2.50
,e, a matriz de correlacoes amostrais R e dada por
R = V−1/2
0.29 0.02 0.550.02 0.01 0.150.55 0.15 2.50
V−1/2
R =
1.0000 0.3714 0.64590.3714 1.0000 0.94870.6459 0.9487 1.0000
.Portanto, para a amostra multivariada dada pela matriz X, temos que as correlacoes amostrais
sao: r12 = 0.3712, r13 = 0.6459 e r23 = 0.9487.
Exemplo 5.10. Dados dos Alunos
Exemplo com dados coletados de n = 11 alunos da aula de Teoria de Matrizes, referentes
as variaveis X1 = idade (anos); X2 = altura (m); X3 = peso (kg) e X4 = gasto semanal com
alimentacao (R$).
Os resultados apresentados abaixo foram obtidos no R, utilizando a representacao vetorial dos
dados. Foram calculados o vetor de medias amostrais bem como as matrizes var-cov e de correlacoes
(algumas saıdas foram omitidas).
> # Entrando com os dados
> #######################
> idade <- c(21,21,20,20,21,20,21,21,18,25,26)
> altura <- c(1.86,1.75,1.70,1.59,1.62,1.77,1.78,1.76,1.65,1.77,1.78)
> peso <- c(90,76,62,60,60,68,76,77,60,72,98)
> gasto <- c(20,18,10,20,30,45,40,15,45,25,50)
> # Criando a matriz de dados
> ###########################
> X <- cbind(idade,altura,peso,gasto)
> X
idade altura peso gasto
[1,] 21 1.86 90 20
[2,] 21 1.75 76 18
[3,] 20 1.70 62 10
[4,] 20 1.59 60 20
[5,] 21 1.62 60 30
[6,] 20 1.77 68 45
79
Vetores aleatorios Teoria de Matrizes para Estatıstica
[7,] 21 1.78 76 40
[8,] 21 1.76 77 15
[9,] 18 1.65 60 45
[10,] 25 1.77 72 25
[11,] 26 1.78 98 50
> # Criando o vetor de um’s
> #########################
> n <- nrow(X)
> um <- rep(1,n)
> um
> #Calculando o vetor de medias amostrais
> #######################################
> xbar <- t(X)%*%um/n
> round(xbar,2)
[,1]
idade 21.27
altura 1.73
peso 72.64
gasto 28.91
> # Criando a matriz Jn e identidade In
> #####################################
> Jn <- um%*%t(um)
> Jn
> In <- diag(n)
> In
> #Calculando a matriz var-cov amostral S
> #######################################
> S <- (t(X)%*%(In - Jn/n)%*%X)/(n-1)
> round(S,4)
idade altura peso gasto
idade 5.2182 0.0780 19.0091 5.3273
altura 0.0780 0.0065 0.8170 0.0710
peso 19.0091 0.8170 160.0545 34.4636
gasto 5.3273 0.0710 34.4636 193.0909
> # Extraindo a diagonal de S e criando a matriz V^(-1/2)
> #######################################################
> V <- diag(1/sqrt(diag(S)))
80
Vetores aleatorios Teoria de Matrizes para Estatıstica
> round(V,4)
idade altura peso gasto
idade 0.4378 0.0000 0.000 0.000
altura 0.0000 12.3655 0.000 0.000
peso 0.0000 0.0000 0.079 0.000
gasto 0.0000 0.0000 0.000 0.072
> # Calculando a matriz de correlac~oes amostrais R
> ################################################
> R <- V%*%S%*%V
> round(R,4)
idade altura peso gasto
idade 1.0000 0.4222 0.6578 0.1678
altura 0.4222 1.0000 0.7985 0.0632
peso 0.6578 0.7985 1.0000 0.1960
gasto 0.1678 0.0632 0.1960 1.0000
81
6Espacos Vetoriais
Definicao 6.1. Espaco Vetorial
Seja Vn = {v1,v2, . . . ,vk}, em que vi e um vetor com dimensao n× 1, i = 1, 2, . . . , k, se:
i) para um escalar a e um vetor vi ∈ Vn =⇒ avi ∈ Vn, i = 1, 2, . . . , k,
ii) para dois vetores vi,vj ∈ Vn =⇒ vi + vj ∈ Vn, i, j = 1, 2, . . . , k,
entao, Vn e um espaco vetorial �
Exemplo 6.1.
Seja n = 3 e V3 = {v1,v2}, em que
v1 =
011
e v2 =
01−1
Entao, para um escalar a, quaisquer vetores do tipo v′ = (0, a, a) ou v′ = (0, a,−a) pertencem
a V3. Alem disso, para dois escalares a e b,
v =
0
a+ b
a− b
∈ V3.
Note que qualquer vetor do tipo v′ = (0, k1, k2) ∈ V3, pois, para
a = k1 + k22 e b = k1 − k2
2 , av1 + bv2 ∈ V3.
Por outro lado, v =
100
/∈ V3 �
82
Espacos vetoriais Teoria de Matrizes para Estatıstica
6.1 Subespacos vetoriais
Seja Sn um subconjunto de vetores de um espaco Vn. Se Sn e um espaco vetorial, entao, Sn e
chamado de sbespaco de Vn.
Teorema 6.1. Se Sn e um subconjunto de vetores no espaco Vn tal que, para cada s1 e s2 ∈ Sn o
vetor
a1s1 + a2s2 ∈ Sn a1, a2 ∈ <,
entao, Sn e um subespaco de Vn �
Exemplo 6.2.
a) Seja o vetor ut = (1,−1, 1), entao, o conjunto de vetores do tipo k1u, ∀k1 ∈ <, e um subespaco
de R3;
Por outro lado, o conjunto de vetores definidos por k2w, em que wt = (1, 2) nao e um
subespaco de R3, mas sim de R2.
b) O conjunto de vetores V3 ={
v | vt = (a1, a2, 0)}, a1, a2 ∈ <, e um espaco vetorial e e
subespaco de R3, pois V3 ⊂ R3;
c) O espaco S3 ={
s | st = (0, a, 0)}, a ∈ <, e um subespaco de V3 e, por conseguinte, de R3,
pois S3 ⊂ V3 ⊂ R3;
d) Por outro lado, S∗3 ={
s∗ | s∗t = (a, 0, 0)}, a ∈ <, e um espaco vetorial e e subespaco de R3
e de V3, mas nao e subespaco de S3;
e) O conjunto de 2 vetores U = {u1 = (0, 1, 0) e u2 = (0, 2, 0)} e um subconjunto de V3, S3 e
de R3 mas nao e um subespaco �
Teorema 6.2. O conjunto {0}, em que 0 e o vetor nulo n× 1, e subespaco de todo espaco vetorial
Vn e todo espaco vetorial Vn e subespaco dele mesmo �
6.2 Dependencia linear de vetores
Definicao 6.2. Vetores linearmente independentes (`i)Seja o conjunto de vetores { v1,v2, . . . ,vk } tal que vi ∈ Rn, i = 1, 2, . . . , n, entao, v1,v2, . . . ,vk
sao ditos serem linearmente indepententes (`i) se, e so se, para escalares a1, a2, . . . , ak
k∑i=1
ai vi = a1 v1 + a2 v2 + . . .+ ak vk = 0
apenas se a1 = a2 = . . . = ak = 0 �
83
Espacos vetoriais Teoria de Matrizes para Estatıstica
Se pelo menos um dos esclares {a1, a2, . . . , ak} for diferente de zero e ainda assim
k∑i=1
ai vi = 0
entao os vetores { v1,v2, . . . ,vk } sao ditos linearmente dependentes (`d).
Exemplo 6.3.
a) Sejam
v1 =
1−1
3
, e v2 =
111
,entao, a1v1 + a2v2 = 0 implica
a1 + a2 = 0−a1 + a2 = 03a1 + a2 = 0
(6.1)
Da equacao 2 temos que a1 = a2 e, das equacoes 1 e 3, temos a1 = a2 = 0
=⇒ v1,v2 sao `i.
b) Sejam
v1 =
113
, e v2 =
4412
,entao, a1v1 + a2v2 = 0 implica{
a1 + 4a2 = 03a1 + 12a2 = 0
(6.2)
Da equacao 1 temos que a1 = −4a2 e, substituindo este resultado na equacao 2, temos
3(−4a2) + 12a2 = 0, ou seja, ∀ a2 6= 0, se a1 = −4a2 ⇒ a1v1 + a2v2 = 0. Portanto
v1,v2 sao `d.
Teorema 6.3. Se k > 1 vetores sao `d sempre e possıvel expressar pelo menos um deles como
combinacao linear dos demais.
Corolario 6.3.1. Se num conjunto de k vetores { v1,v2, . . . ,vk } existe um grupo de j vetores `d
(j ≤ k), entao, o conjunto inteiro e `d.
Na teoria de matrizes normalmente consideramos suas colunas como vetores, ou seja, se A e
84
Espacos vetoriais Teoria de Matrizes para Estatıstica
uma matriz n× k, entao suas colunas podem ser vistas como k vetores n× 1
A = [c1|c2| . . . |ck] =
c11 c12 · · · c1k
c21 c22 · · · c2k...
.... . .
...
cn1 cn2 · · · cnk
Teorema 6.4. Uma condicao suficiente e necessaria para que o conjunto de k vetores (colunas de
A) seja `d e que o posto de A seja menor do que seu o numero de colunas, ou seja, posto(A) < k.
Teorema 6.5. Se o posto de uma matriz formada por k vetores n× 1 como suas colunas for igual
a r, entao r deve ser menor ou igual a k e, se r > 0, entao existem exatamente r vetores (colunas)
que sao `i, enquanto que, cada um dos (n−r) vetores (colunas) restantes podem ser expressos como
combinacoes lineares daqueles r vetores.
Teorema 6.6. Um conjunto de k vetores { v1,v2, . . . ,vk } de dimensao n × 1 e sempre `d se
k > n.
Exemplo 6.4.
a) Sejam v1 =
110−1
, v2 =
201−1
e v3 =
0−1
11
,
entao, a matriz formada por estes vetores e dada por
A =
1 2 01 0 −20 1 1−1 −1 1
.
Ve-se claramente que v3 = v2 − 2v1, e, como posto(A) = 2, do teorema (6.5) quaisquer 2
vetores (colunas) de A sao `i.
b) Considere A =[
1 −1 52 4 3
], entao, do teorema (6.6) os vetores
v1 =(
12
), v2 =
(−14
)e v3 =
(53
)sao `d.
Encontrar as constantes a e b tais que v3 = av1 + bv2:(53
)= a
(12
)+ b
(−14
)
85
Espacos vetoriais Teoria de Matrizes para Estatıstica
Consequentemente, temos que resolver o sistema de equacoes lineares{a − b = 5
2a + 4b = 3
cuja solucao e dada por s =[
23/6−7/6
]
Definicao 6.3. Espaco coluna: Seja uma matriz An×k, o espaco coluna de A, tambem, chamado
de “espaco imagem” de A, e o espaco gerado pelas suas colunas, sendo denotado por I(A).
O espaco formado pelas linhas de A e chamado de espaco linha e denotado por I(At).
Exemplo 6.5. O vetor yt = (1,−1) esta no espaco coluna da matriz A =[
1 −1 −30 5 0
]?
A resposta e sim, pois as colunas de A geram o espaco bidimensional.
v1v3
v2
y
Figura 6.1: Representacao do vetor yt = (−1, 1) no espaco coluna de A
Seja An×k entao temos:
i) dim[I(A)] = numero de colunas `i de A;
ii) dim[I(At)] = numero de linhas `i de A;
iii) dim[I(A)] = dim[I(At)] = r = posto(A) ≤ min(n, k).
6.3 Base de um espaco vetorial
Definicao 6.4. Gerador
86
Espacos vetoriais Teoria de Matrizes para Estatıstica
Considere um conjunto de vetores V = {v1,v2, . . . ,vk} pertencentes ao espaco vetorial Vn tal
que todo vetor de Vn pode ser escrito como combinacao linear dos vetores de V . O conjunto V e
chamado de gerador, ou span, de Vn �
Teorema 6.7. Seja {v1,v2, . . . ,vk} tal que vi ∈ Vn, i = 1, 2, . . . , k, e seja
W = {w | w =k∑i=1
aivi, ai ∈ <},
entao W e um subespaco de Vn.
Definicao 6.5. Base
Seja {v1,v2, . . . ,vk} ∈ Vn um conjunto de vetores `i e que gera Vn, entao {v1,v2, . . . ,vk} e
a base de Vn �
Exemplo 6.6.
a) Os vetores v1 =(
11
)e v2 =
(1−1
)formam uma base do R2;
b) Os vetores v1 =(
10
), v2 =
(−1
5
)e v3 =
(−3
0
)nao formam uma base pois nao sao
`i porem, os conjuntos {v1,v2} ou {v2,v3} formam bases do R2�
Seja o vetor ei tal que o unico elemento nao nulo e dado pelo valor 1 ocupando a i-esima posicao,
i = 1, 2, . . . , n
ei =
00...
1...
0
,
entao, ei e chamado de vetor canonico do espaco Rn e a base formada por vetores canonicos e
chamada de base canonica.
Exemplo 6.7.
a) A base
{(10
),
(01
)}e a base canonica do R2;
b) Os vetores
e1 =
100
, e2 =
010
e e3 =
001
87
Espacos vetoriais Teoria de Matrizes para Estatıstica
sao os vetores canonicos e formam a base canonica do R3, pois todo vetor do tipo
v =
a
b
c
pode ser escrito como combinacao de e1, e2 e e3 �
Nota 6.1.
1) De maneira geral, uma base para um espaco vetorial nao e unica;
2) O numero de vetores de qualquer base de um espaco vetorial e sempre o mesmo.
Definicao 6.6. Dimensao de um espaco vetorial
Considere o espaco vetorial Vn exceto o {0} e seja k o numero de vetores `i na sua base, entao,
k e a dimensao de Vn �
Exemplo 6.8.
Seja o espaco V3 = {v1,v2,v3,v4} tal que
v1 =
110
, v2 =
1−1
0
, v3 =
100
e v4 =
200
,i) a dimensao de V3 e igual a 2 =⇒ k = 2 vetores de V3 formam uma base;
ii) v1 e v2 geram V3 mas v3 e v4 nao;
iii) os pares de vetores {v1,v2}, {v1,v3}, {v1,v4}, {v2,v3} e {v2,v4} sao bases de V3;
iv) os vetores {v1,v2,v3} geram V3 mas nao formam uma base pois nao sao `i �
Teorema 6.8. Se r > 0 e o posto da matriz cujas colunas sao dadas pelo conjunto de vetores
{v1,v2, . . . ,vk}, que geram Vn, entao ha exatamente r vetores `i nesse conjunto e, todo vetor de
Vn pode ser expresso unicamente como uma combinacao linear desses r vetores �
Teorema 6.9. Sejam V = [v1,v2, . . . ,vk], uma matriz cujas colunas formam uma base de Vn e
U = [u1,u2, . . . ,u`], matriz cujas colunas sao vetores de Vn.
Os vetores de U formam uma base de Vn se, e so se, k = `. Neste caso existe uma matriz A
nao singular tal que
U = VA,
ou seja, se temos uma base V podemos mudar para uma nova base U por meio da transformacao
linear U = VA �
Definicao 6.7. Bases ortogonais e ortonormais
88
Espacos vetoriais Teoria de Matrizes para Estatıstica
Se {v1,v2, . . . ,vk} e uma base de Vn tal que
a) vti vj = 0 ∀ i 6= j, i, j = 1, 2, . . . , k, a base e ortogonal;
a) se alem disso, vti vi = 1 ∀ i = 1, 2, . . . , k, a base e ortonormal.
Teorema 6.10. Todo espaco Vn tem uma base ortogonal �
Teorema 6.11. Todo espaco Vn − {0} tem uma base ortonormal. Por exemplo, a base canonica
e uma base ortonormal do Rn �
Teorema 6.12. Seja um conjunto de vetores {v1,v2, . . . ,vk} em Vn tal que vti vj = 0 ∀ i 6= j.
Se nenhum desses vetores e o vetor nulo, entao, v1,v2, . . . ,vk sao `i �
Teorema 6.13. Qualquer conjunto de q vetores, diferentes do vetor nulo, ortogonais 2 a 2 formam
um subconjunto de uma base de Vn �
Teorema 6.14. Sejam {v1,v2, . . . ,vk} vetores formando uma base de Vn 6= {0}. Entao, podemos
obter uma base ortonormal {z1, z2, . . . , zk} a partir do procedimento denominado de orotogonali-
zacao de Gram-Schmidt:
y1 = v1 com z1 = y1‖y1‖
;
y2 = v2 −(
yt1v2
‖y1‖2
)y1 com z2 = y2
‖y2‖;
Para o vetor zk temos
yk = vk −[(
yt1vk
‖y1‖2
)y1 +
(yt
2vk
‖y2‖2
)y2 + · · ·+
(yt
k−1vk
‖yk−1‖2
)yk−1
]
= vk −k−1∑i=1
(yt
i vk
‖yi‖2
)yi com zk = yk
‖yk‖.
Os vetores y1,y2, . . . ,yk formam uma base ortogonal para Vn enquanto que, z1, z2, . . . , zk
formam uma base ortonormal �
Exemplo 6.9.
Sejam x1 =
1111
, x2 =
0111
e x3 =
0011
uma base de V3.
Entao, pelo procedimento de Gram-Schmidt temos:
89
Espacos vetoriais Teoria de Matrizes para Estatıstica
a) y1 = x1 =
1111
;
b) O vetor y2 e obtido pela diferenca entre x2 e a sua projecao sobre y1, ou seja:
y2 = x2 −(
xt2y1
yt1y1
)y1, mas
(xt
2y1yt
1y1
)y1 = 3
4
1111
Logo, y2 =
0111
−
3/43/43/43/4
= 14
−3
111
.
c) Vamos calcular y3 pela diferenca entre x3 e sua projecao no plano gerado por y1 e y2:
Como
(xt
3y1yt
1y1
)y1 = 1
2
1111
e
(xt
3y2yt
2y2
)y2 = 1
6
−3
111
, entao
y3 =
0011
−
1/21/21/21/2
−−1/2
1/61/61/6
= 13
0−2
11
.
Portanto y1 =
1111
, y2 =
−3
111
e y3 =
0−2
11
formam uma base ortogonal para V3.
Para obter a base ortonormal basta dividir cada um deles pela sua norma �
90
7Formas quadraticas
Seja An×n uma matriz quadrada e x um vetor de dimensao n, entao, o polinonio definido por
Q(x) = xtAx =n∑i=1
n∑j=1
aijxixj , (7.1)
e uma forma quadratica associada a matriz A.
Nota 7.1. Analisando os termos da soma em (7.1), temos que:
i) se i = j, o termo da soma e dado por aii x2i ;
ii) se i 6= j, podemos somar os termos aijxixj + ajixjxi = (aij + aji)xixj .
Desta forma, Q(x) pode ser reescrita como:
Q(x) =n∑i=1
aiix2i +
n−1∑i=1
n∑j=i+1
(aij + aji)xixj . (7.2)
Obs: aiix2i sao os termos quadraticos e aijxixj sao os termos mistos ou termos cruzados �
Exemplo 7.1. Seja o vetor xt = (xi, x2) e a matriz A2×2 dada por:
A =[
2 −111 7
].
Entao, a forma quadratica associada a matriz A e dada por:
Q(x) = (x1, x2)[
2 −111 7
] (x1
x2
)= 2x2
1 + 7x22 − 10x1x2 �
Note que, no exemplo acima, a matriz A pode ser substituıda pela matriz simetrica
A =[
2 −5−5 7
].
91
Formas quadraticas Teoria de Matrizes para Estatıstica
No caso de A ser uma matriz simetrica, a forma quadratica (7.2) tem a forma
Q(x) =n∑i=1
aiix2i +
n−1∑i=1
n∑j=i+1
2aijxixj
Proposicao 7.1. Toda forma quadratica esta associada a uma matriz simetrica.
Prova: Considere a forma quadratica xtAx, entao:
xtAx =(xtAx
)t= xtAtx,
logo, podemos escrever
xtAx = xtAx + xtAtx2 = xt
(A + At
2)x.
e facil mostrar que(A + At
2)
e simetrica, entao:
Q(x) = xtAx = xtAsimx,
em que Asim =(A + At
2)
�
Num grande numero de aplicacoes a matriz A e simetrica, assim como ocorre na estatıstica com
a matriz de variancias e covariancias Σ
Exemplo 7.2. Qual e a matriz simetrica associada a forma quadratica
Q(x) = 3x21 + 2x2
2 + x23 + 4x1x2 − 6x1x3 + 10x2x3?
Com A simetrica, Q(x) e da forma
a11x21 + a22x
22 + a33x
23 + 2a12x1x2 + 2a13x1x3 + 2a23x2x3,
portanto: A =
3 2 −32 2 5−3 5 1
�
7.1 Diagonalizacao de formas quadraticas
Teorema 7.1. Toda forma quadratica pode ser diagonalizavel.
Prova: Seja xtAx, com A simetrica, entao,
P =[e1, e2, · · · , en
],
92
Formas quadraticas Teoria de Matrizes para Estatıstica
e a matriz ortogonal cujas colunas sao os autovetores de A e
Λ =
λ1 0 · · · 00 λ2 · · · 0...
.... . .
...
0 0 · · · λn
e a matriz diagonal com os autovalores de A.
Da decomposicao espectral de A, temos que A = PΛPt, entao:
xtAx = xtPΛPtx
xtAx =(Ptx
)tΛ(Ptx
)xtAx = ytΛy,
ou seja, xtAx = λ1y21 + λ2y
22 + . . .+ λny
2n.
Obs: A diagonalizacao da forma quadratica representa uma mudanca de base ortogonal dada por
y = Ptx, ou seja, a diagonalizacao transforma x em y, sendo que o sistema y e ortogonal.
Exemplo 7.3. Reduzir 8x21 + 5x2
2 − 4x1x2 na forma diagonalizada de A.
A matriz associada a forma quadratica e A =[
8 −2−2 5
],
com autovalores e autovetores Λ =[
9 00 4
]e P =
[−2/√
5 1/√
51/√
5 2/√
5
].
Com a mudanca de base, a sua forma diagonalizada, e dada por 9y21 + 4y2
2 �
Teorema 7.2. Uma forma quadratica xtAx e dita ser:
i) Definida positiva se Q(x) > 0 ∀ x 6= 0;
ii) Semidefinida positiva se Q(x) ≥ 0 ∀ x 6= 0;
iii) Definida negativa se Q(x) < 0 ∀ x 6= 0;
iv) Semidefinida negativa se Q(x) ≤ 0 ∀ x 6= 0;
v) Indefinida se Q(x) assume valores positivos e negativos.
Teorema 7.3. Se a matriz A associada a uma forma quadratica for simetrica, entao dizemos que:
93
Formas quadraticas Teoria de Matrizes para Estatıstica
i) Q(x) e definida positiva ⇐⇒ os autovalores de A sao todos positivos, ou seja,
λ1 > 0, λ2 > 0, . . . , λn > 0;
ii) Q(x) e semidefinida positiva ⇐⇒ A possui r autovalores positivos e n − r autovalores
iguais a 0, ou seja, λ1 > 0, λ2 > 0, . . . , λr > 0, λr+1 = . . . = λn = 0;
iii) Q(x) e definida negativa ⇐⇒ os autovalores de A sao todos negativos, ou seja,
λ1 < 0, λ2 < 0, . . . , λn < 0;
iv) Q(x) e semidefinida negativa ⇐⇒ A possui r autovalores negativos e n − r autovalores
iguais a 0, ou seja, λ1 < 0, λ2 < 0, . . . , λr < 0, λr+1 = . . . = λn = 0;
v) Q(x) e indefinida⇐⇒ A possui pelo menos um autovalor positivo e pelo menos um negativo.
7.2 Formas quadraticas e conicas
As formas quadraticas no R2 surgem naturalmente no estudo das secoes conicas. Por exemplo
ax2 + 2bxy + cy2 + dx+ ey + f = 0, (7.3)
com a e c nao nulos, representa uma conica.
Dividindo (7.3) por −f e com b = d = e = 0, teremos a conica reduzida sem o termo cruzado
a∗x2 + c∗y2 = 1,
que pode ser uma circunferencia, elipse, parabola ou hiperbole, dependendo dos valores de a∗ e c∗.
Exemplo 7.4. A elipsex2
1α2 + x2
2β2 = 1, 0 < β ≤ α apresentada na Figura (7.4), pode ser
representada pela funcao quadratica
Q(x) = (x1, x2)[
1/α2 00 1/β2
] (x1
x2
)= 1 �
Figura 7.1: Elipse centrada na origem, sem termo cruzado
94
Formas quadraticas Teoria de Matrizes para Estatıstica
Exemplo 7.5. Seja a elipse
ax21 + 2bx1x2 + cx2
2 = k, entao
Q(x) = (x1, x2)[a b
b c
] (x1
x2
)= k.
Na forma diagonalizada, temos
(y1, y2)[λ1 00 λ2
] (y1
y2
)= k
y21λ1 + y2
2λ2 = k.
A diagonalizacao efetua, de fato, uma rotacao nos eixos do sistema, com os novos eixos (y1, y2)nas direcoes principais da elipse, conforme representa a Figura (7.5), sendo a matriz de transfor-
macao dada por
P =[
cos(θ) −sen(θ)sen(θ) cos(θ)
].
Figura 7.2: Elipse centrada na origem, rotacionada com y = Px
7.3 Distribuicao de formas quadraticas
Formas quadraticas ocorrem na estatıstica associadas com a matriz de variancias e covariancias
Σ, em especial na padronizacao de variaveis aleatorias. A matriz de variancias e covariancias Σtem a particularidade de ser simetrica e definida positiva.
Nesta secao vamos apresentar resultados envolvendo distribuicoes de formas quadraticas no caso
especial da padronizacao de va’s normais independentes.
95
Formas quadraticas Teoria de Matrizes para Estatıstica
Seja Xp×1 = (X1, X2, . . . , Xp)t um vetor aleatorio p-variado tal que X tem distribuicao normal
multivariada, X ∼ Np(µ,Σ), em que
E(X) = µ =
µ1
µ2...
µp
e Cov(X) = Σ =
σ2
1 σ12 · · · σ1p
σ21 σ22 · · · σ2p
......
. . ....
σp1 σp2 · · · σ2p
,
entao, a funcao densidade de probabilidade multivariada de Z e:
f(x) = 1(2π)p/2|Σ|1/2 exp
{−1
2(X− µ)tΣ−1(X− µ)}. (7.4)
Note que o expoente de (7.4) e, de fato, uma forma quadratica em X, ou seja,
Q(X) = (X− µ)tΣ−1(X− µ). (7.5)
A forma quadratica definida em (7.5) e muito importante na estatıstica, aparecendo em muitas
aplicacoes pratica, como por exemplo em modelos lineares. Como a forma quadratica envolve uma
transformacao de um vetor aleatorio X, ela propria e uma variavel aleatoria. Neste sentido e im-
portante que possamos identificar a sua distribuicao de probabilidade.
Para determinarmos a distribuicao de probabilidade deQ(X), precisaremos de alguns resultados:
Resultado 7.1. Resultados:
i) A matriz de variancias e covariancias de um vetor aleatorio e definida por (ver Johnson e
Wichwen, 2002, p. 68):
Σ = Cov(X) = E[(X− µ)(X− µ)t].
ii) Se X ∼ Np(µ,Σ), entao (X− µ) ∼ Np(0,Σ).
iii) De (i) e (ii) segue-se que A(X− µ) ∼ Np(0,AΣAt).
iv) Da decomposicao espectral de Σ temos que Σ =p∑i=1
λieieti e Σ−1 =
p∑i=1
1λi
eieti .
Resultado 7.2. Seja Q(X) = (X−µ)tΣ−1(X−µ) em que X ∼ Np(µ,Σ) com fdp dada por (7.4),
entao,
Q(X) ∼ χ2p.
96
Formas quadraticas Teoria de Matrizes para Estatıstica
Prova 7.3.1. Prova:
(X− µ)tΣ−1(X− µ) = (X− µ)t( p∑i=1
1λi
eieti
)(X− µ)
=p∑i=1
1λi
(X− µ)tei eti (X− µ)
=p∑i=1
[ 1√λi
eti (X− µ)
]t [ 1√λi
eti (X− µ)
]
Como os produtos entre o vetores na soma geram variaveis unidimensionais, podemos escrever:
(X− µ)tΣ−1(X− µ) =p∑i=1
[ 1√λi
eti (X− µ)
]2
=p∑i=1
Z2i , (7.6)
em que Zi = 1√λi
eti (X− µ).
Assim sendo, temos que a forma quadratica em (7.5) e representada pela soma de variaveis
aleatorias Zi, i = 1, 2, . . . , p, dadas pela transformacao Z = A(X− µ), sendo a matriz A igual a,
A =
1√λ1
et1
1√λ2
et2
...
1√λp
etp
.
A soma em (7.6) pode ser representada pelo produto escalar do vetor Z = A(X − µ) com ele
mesmo,
p∑i=1
Z2i = ZtZ
= [A(X− µ)]t [A(X− µ)] .
Portanto, temos que mostrar que a transformacao Z = A(X− µ) gera um vetor cujos compo-
97
Formas quadraticas Teoria de Matrizes para Estatıstica
nentes Z1, Z2, . . . , Zp sao variaveis independentes normais padronizadas e a soma (7.6) nada mais
e do que a soma de variaveis independentes quiquadrado com um grau de liberdade.
Do resultado (7.1), itens (ii) e (iii) temos que o valor esperado de Z e sua matriz de variancias-
covariancias sao dados, respectivamente, por E(Z) = 0 e Cov(Z) = AΣAt, em que
AΣAt =
1√λ1
et1
1√λ2
et2
...
1√λp
etp
(λ1e1et
1 + λ2e2et2 + · · ·+ λpepet
p
) [ 1√λ1
e11√λ2
et2 · · · 1√
λpet
p
]
=
√λ1et
1
√λ2et
2
...
√λpet
p
[ 1√λ1
e11√λ2
et2 · · · 1√
λpet
p
]=
1 0 · · · 00 1 · · · 0...
.... . .
...
0 0 · · · 1
,
ou seja, Z ∼ Np(0, I), o que mostra que Z1, Z2, . . . , Zp sao iid N(0, 1) e que (7.6) e a soma de p
variaveis independentes χ21, de onde concluımos que
(X− µ)tΣ−1(X− µ) ∼ χ2p �
Caso especial:
Seja Xp×1, vetor aleatorio tal que Xi, i = 1, 2, . . . , p sao independentes com distribuicao
Xi ∼ N(µi, σ2i ).
entao, o vetor aleatorio X tem distribuicao normal multivariada X ∼ Np(µ,Σ), em que
µ =
µ1
µ2...
µp
e Σ =
σ2
1 0 · · · 00 σ2
2 · · · 0...
.... . .
...
0 0 · · · σ2p
.
98
Formas quadraticas Teoria de Matrizes para Estatıstica
Resultado 7.3. Seja X va tal que Xi, i = 1, 2, . . . , p sao independentes com distribuicao Xi ∼N(µi, σ2
i ), entao:
a) Se Zi ∼Xi − µiσi
, entao, Zi ∼ N(0, 1), i = 1, 2, . . . , p, e,
Z2i =
(Xi − µiσi
)2
∼ χ21 ;
b) Sejam Y1 ∼ χi2m, e Y2 ∼ χ2n, entao,
(Y1 + Y2) ∼ χ2m+n.
Seja X ∼ Np(µ,Σ), com componentes independentes, entao, temos que determinar a distribui-
cao da forma quadratica:
Q(X) = (X− µ)tΣ−1(X− µ) ? (7.7)
Como as variaveis aleatorias Xi, i = 1, 2, . . . , p, (componentes de X) sao independentes, Σ−1
e da forma:
Σ−1 =
1/σ2
1 0 · · · 00 1/σ2
2 · · · 0...
.... . .
...
0 0 · · · 1/σ2p
.
Entao, a forma quadratica (7.7) e expressa por
Q(X) = (X− µ)tΣ−1(X− µ)
Q(X) =p∑i=1
(Xi − µiσi
)2
Q(X) =p∑i=1
Yi.
Do resultado (7.3), Yi ∼ χ21, logo, Q(X) tem distribuicao quiquadrado com p graus de liberdade,
ou seja
Q(X) ∼ χ2p.
99
Formas quadraticas Teoria de Matrizes para Estatıstica
7.4 Otimizacao de formas quadraticas
Aplicacoes importantes envolvendo formas quadraticas dizem respeito a sua otimizacao, ou seja,
a busca de pontos de maximo ou de mınimo de Q(x).Considere a forma quadratica bidimensional Q(x) = xtAx, em que xt = (x1, x2) e A e do tipo
A =[a b
b c
].
Para a determinacao do ponto crıtico devemos obter as derivadas parciais de Q(x) em relacao
as variaveis x1 e x2 e resolver o sistema:
∂Q(x)∂x1
= 0
∂Q(x)∂x2
= 0
(7.8)
A solucao de (7.8), a qual denotaremos por (x◦1, x◦2), e o ponto crıtico, o qual devera ser inves-
tigado sobre a sua natureza: ponto de maximo, ponto de mınimo ou ponto de sela.
Neste aspecto, devemos obter a matriz de derivas segundas de Q(x), chamada de matriz Hes-
siana, definida por:
Hes =
∂2Q(x)∂x2
1
∂2Q(x)∂x1∂x2
∂2Q(x)∂x2∂x1
∂2Q(x)∂x2
2
.
A natureza de (x◦1, x◦2) sera determinada pela caracterısitca da matriz Hes:
i) Q(x) tem um mınimo relativo em (x◦1, x◦2) se Hes for definida positiva;
ii) Q(x) tem um maximo relativo em (x◦1, x◦2) se Hes for definida negativa;
iii) Q(x) tem um ponto de sela em (x◦1, x◦2) se Hes for indefinida.
7.4.1 Derivada de uma forma quadratica
Seja a forma quadratica bidimensional Q(x) = xtAx, entao, definimos
∂Q(x)∂x = 2Ax
∂Q(x)∂xt = 2xtA
100
Formas quadraticas Teoria de Matrizes para Estatıstica
Exemplo 7.6. Considere o modelo linear dado por
y = Xβ + ε. (7.9)
Uma solucao para (7.9) e dada pela estimativa de mınimos quadrados, ou seja, pelo vetor β que
minimiza a soma de quadrados dos erros. O vetor de erros e dado por
ε = y−Xβx
e a soma de quadrados dos erros, por
SQErro = (y−X)t(y−Xβ)
SQErro = yty− 2βtXty + βt(XtX)β. (7.10)
Para a solucao de (7.9) devemos derivar a SQErro em relacao a β e igualar a derivada a 0.
Como podemos observar, a expressao em (7.10) e, de fato, uma forma quadratica em β, ou seja,
Q(β) = yty− 2βtXty + βt(XtX)β,
cuja derivada em relacao a β e
∂Q(β)∂β
= 2(XtX)β − 2Xty. (7.11)
Igualando (7.11) a 0, obtemos a solucao de mınimos quadrados de (7.9), dada por
2(XtX)β − 2Xty = 0
=⇒ β = (XtX)−1Xty.
101
Formas quadraticas Teoria de Matrizes para Estatıstica
Exemplo 7.7. Exemplos de formas quadraticas com ponto crıtico em (x◦1, x◦2) = (0, 0).
a) Q(x) = xtAx, em que A e definida positiva:
Q(x) = (x1, x2)[
8 22 5
](x1
x2
)= 8x2
1 + 5x22 + 4x1x2
Os autovalores da matriz A sao λ1 = 9 e λ2 = 4.
Derivadas de Q(x):
∂Q(x)∂x1
= 16x1 + 4x2
∂Q(x)∂x2
= 4x1 + 10x2
A matriz Hessiana de Q(x) e dada por Hes =[
16 44 10
].
Como Hes e definida positiva =⇒ (0, 0) e ponto de mınimo.
b) Q(x) = xtAx, em que A e indefinida:
Q(x) = (x1, x2)[
28 1515 −12
](x1
x2
)= 28x2
1 − 12x22 + 301x2
Os autovalores da matriz A sao λ1 = 33 e λ2 = −17.
A matriz Hessiana de Q(x) e dada por Hes =[
56 3030 −24
].
Como Hes e indefinida =⇒ (0, 0) e ponto de sela.
c) Q(x) = xtAx, em que A e definida negativa:
Q(x) = (x1, x2)[−10 4
4 −10
](x1
x2
)= 8x1x2 − 10x2
1 − 10x22
Os autovalores da matriz A sao λ1 = −6 e λ2 = −14.
A matriz Hessiana de Q(x) e dada por Hes =[−20 1616 −20
].
Como Hes e definida negativa =⇒ (0, 0) e ponto de maximo.
102
Formas quadraticas Teoria de Matrizes para Estatıstica
Figura 7.3: Formas quadraticas com matriz A definida positiva, indefinida e definida negativa
103
8Sistemas lineares
Definicao 8.1. Equacao linear
Uma equacao linear e uma equacao que pode ser escrita na forma:
a1 x1 + a2 x2 + . . .+ am xm = b,
com a1, a2, . . . , am, b ∈ R, conhecidos �
As equacoes a seguir sao exemplos de equacoes lineares:
i) 4x1 + 6x2 = 10
ii) 5x1 + x2 + 3 = 2x2
Definicao 8.2. Sistema linear
Um sistema linear e uma colecao de equacoes lineares, como por exemplo:
{2x1 − x2 = 8x1 + 3x2 = 9
A solucao de um sistema linear e um vetor de valores st = (s1, s2, . . . , sm) que atende a todas
as equacoes simultaneamente. Logo, no caso anterior, a solucao e dada pelo par de valores (x1, x2)que torna as duas equacoes verdadeiras.
Exemplo 8.1. Considere o sistema linear dado pelas seguintes equacoes:x1 + x2 − x3 = 6
2x1 − x2 + x3 = 6x1 + 2x2 + 3x3 = 13
A solucao do sistema acima e dada pelo vetor: s =
431
104
Sistemas lineares Teoria de Matrizes para Estatıstica
A solucao de um sistema linear e dada pelo vetor s que e solucao simultanea para todas as suas
equacoes. No caso bidimensional cada equacao representa uma reta no plano e, portanto, a solucao
do sistema linear e dada pelo ponto de interseccao entre essas retas.
Exemplo 8.2. Por exemplo, o sistema linear
{x1 − 2x2 = −1−x1 + 3x2 = 3
definido pelas retas r1 = {(x1, x2) | x1 − 2x2 = −1} e r2 = {(x1, x2) | 3x2 − x1 = 3}, tem como
solucao o ponto (3, 2), como podemos observar pela Figura (8.1) �
Figura 8.1: Solucao de um sistema linear como interseccao de duas retas
De maneira geral, temos que a solucao de um sistema linear e dada pela interseccao dos su-
bespacos definidos pelas suas equacoes. Essa interseccao pode resultar num ponto, num subespaco
com infinitos pontos ou num conjunto vazio, o que pode ser observado pelo exemplo a seguir.
Sejam os sistemas lineares definidos pelas retas r1 e r2
a) No exemplo (8.2), temos retas concorrentes (r1 /\ r2), logo, a solucao e unica, dada pelo ponto
(3, 2);
b)
{x1 − 2x2 = −1 (r1)−x1 + 2x2 = 1 (r2)
Neste caso, as retas sao coincidentes (r1 = r2), portanto, a solucao e dada por infinitos pontos,
ou seja, pelo subespaco definido pelas retas;
c)
{x1 − 2x2 = −1 (r1)−x1 + 3x2 = 3 (r2)
105
Sistemas lineares Teoria de Matrizes para Estatıstica
Neste ultimo caso, as retas sao paralelas (r1 ‖ r2), entao, como nao ha pontos em comum,
nao existe solucao para o sistema.
Podemos, assim, classificar os sistemas lineares em funcao do numero de solucoes:
i) impossıvel: nao apresenta solucao;
ii) possıvel e determinado: apresenta solucao unica;
iii) possıvel e indeterminado: apresenta infinitas solucoes;
8.1 Notacao Matricial
Nesta secao sera introduzida a notacao matricial para a teoria de sistemas lineares. Na notacao
matricial as variaveis x1, x2, . . . , xm sao representadas por um vetor xm×1, do tipo
x =
x1
x2...
xm
,
os coficientes das equacoes sao representados pelas linhas de uma matriz Ak×m
A =
a11 a12 · · · a1m
a21 a22 · · · a2m...
.... . .
...
ak1 ak2 · · · akm
e as constantes do lado direito das igualdades, num vetor bk×1
b =
b1
b2...
bk
.
Desta forma, o sistema linear pode ser representado matricialmente por:
A x = b.
Exemplo 8.3. Considerndo o sistema linear2x1 + 3x2 + x3 = 5x1 − 2x2 + 4x3 = 1x1 + x2 + x3 = 2
106
Sistemas lineares Teoria de Matrizes para Estatıstica
Entao, pela definicao acima temos k = 3 equacoes e m = 3 variaveis, sendo a matriz A e os
vetores x e b, dados por:
A =
2 3 11 −2 41 1 1
, x =
x1
x2
x3
e b =
512
�
A matriz A e tambem cahamda de matriz de coeficientes ou matriz associada. Para a solucao
do sistema, acrescenta-se o vetor b como a (m + 1)-esima coluna de A, compondo a matriz que
sera denominada de matriz completa do sistema. A matriz completa e da forma [ A | b ].No exemplo (8.3), a matriz A e a matriz associada e a matriz completa e dada por
[ A | b ] =
2 3 1 51 −2 4 11 1 1 2
A pergunta aqui e: Como achar a solucao de um sistema linear?
Definicao 8.3. Sistema equivalente: dois sistemas sao ditos serem equivalentes se tem o mesmo
conjunto solucao �
Os sistemas
{2x1 − x2 = 6x1 − x2 = 4
e
{2x1 − x2 = 6
− x2 = −2
sao equivalentes, pois ve-se claramente que o ponto (2,−2) e solucao para ambos.
Uma estrategia basica para se obter a solucao de um sistema linear e substituı-lo por um
sistema equivalente de facil solucao. O sistema equivalente normalmente e obtido pela aplicacao de
operacoes elementares na matriz completa, num processo de escalonamento.
Considere o sistemax1 − 2x2 + x3 = 0
2x2 − 8x3 = 8−4x1 + 5x2 + 9x3 = −9
que tem matriz completa
[ A | b ] =
1 −2 1 00 2 −8 8−4 5 9 −9
escalonada na forma
1 −2 1 00 1 −4 40 0 1 3
,
107
Sistemas lineares Teoria de Matrizes para Estatıstica
a qual fornece a solucao:
s =
29163
.Pode-se, ainda, continuar o processo de escalonamento ate reduzir a matriz completa numa
matriz identidade. Nesse situacao, a matriz final e dita estar na forma escalonada reduzida.
Teorema 8.1. A matriz escalonada reduzida de um sistema linear e unica.
No exemplo caso acima, a matriz escalonada reduzida e da forma:1 0 0 290 1 0 160 0 1 3
.Exemplo 8.4. Encontrar as solucoes dos sistemas lineares
a)
2x1 + 2x2 + 4x3 = 2
x2 + 4x3 = −32x1 + 3x2 + 4x3 = 8
Escalonando a matriz completa:2 2 4 20 1 4 −32 3 4 8
=⇒
1 2 4 20 1 4 −30 0 0 1
.
Como podemos notar pela ultima linha da matriz escalonada, nao existe solucao para o
sistema, pois o sistema equivalente e da formax1 + 2x2 + 4x3 = 2
x2 + 4x3 = −30 = 1 !
portanto, o sistema acima e impossıvel.
b)
x1 + x2 + x3 = 2x1 − 2x2 + 3x3 = 5
2x1 − x2 + 4x3 = 7
Escalonando a matriz completa:1 1 1 21 −2 3 52 −1 4 7
=⇒
1 1 1 20 −3 2 30 0 0 0
.
108
Sistemas lineares Teoria de Matrizes para Estatıstica
O sistema equivalente, neste caso, e dado porx1 + x2 + x3 = 2− 3x2 + 2x3 = 3
0 = 0
A ultima linha de zeros na forma escalonada indica que o sistema tem infinitas solucoes. Neste
caso o sistema e possıvel e indeterminado, pois as solucoes ficam em funcao da variavel livre
x3. Com x3 como variavel livre, temos o seguinte conjunto de solucoes:
s ={
(x1, x2, x3) ∈ R3 | x1 = 3− 2x33 ;x2 = 5x3
3 − 1;x3
}�
Nota 8.1.
i) o posto (ou caracterıstica) de uma matriz e dado pelo numero de linhas nao nulas na sua
forma escalonada;
ii) se q e posto da matriz associada a um sistema linear com m incognitas e q = m, ou seja, a
matriz e de posto completo, entao o sistema e possıvel e determinado.
O teorema a seguir garante a existencia de solucao quando a matriz A for de posto completo.
Teorema 8.2. Seja Ak×m, matriz de coeficientes, entao as afirmacoes a seguir sao equivalentes:
i) para cada b ∈ Rm, Ax = b tem solucao;
ii) as colunas de A geram o Rm �
Obter a solucao de um sistema linear pelo processo de escalonamento pode ser muito demorado
e sujeito a erros. O processo e tanto mais demorado e suscetıvel a erros, quanto maior for o numero
de incogonitas (variaveis). O sistema linear, entretanto, pode ser resolvido atraves da inversa da
matriz A, quando existir, o que, na pratica, e equivalente ao processo de escalonamento.
Seja A a matriz associada a um sistema linear com m incognitas, entao, Ax = b. Pre-
multiplicando os dois lados da igualdade pela inversa de A, temos
A−1Ax = A−1b
x = A−1b, (8.1)
logo, A−1b e a solucao do sistema.
Pelo resultado (8.1) fica claro que a solucao do sistema depende da existencia da inversa da
matriz associada A. Em outras palavras, se a matriz A nao for singular, o sistema e possıvel e
determinado e a solucao e unica. Desta forma, um sistema linear pode, ainda, ser classificado em
funcao do do posto das matrizes associada e completa.
109
Sistemas lineares Teoria de Matrizes para Estatıstica
Teorema 8.3. Teorema de Rouche-Capelli
Seja um sistema linear Ax = b, em que:
X [ A ] e a matriz associada, de dimensoes k ×m, de posto q(A);
X [ A | b ] e a matriz completa, de dimensoes k × (m+ 1), de posto q(A|b).
Entao:
i) se q(A) = q(A|b) = m =⇒ o sistema e possıvel e determinado - PD e tem solucao unica;
ii) se q(A) = q(A|b) < m =⇒ o sistema e possıvel e indeterminado - PI e tem infinitas
solucoes;
iii) se q(A) 6= q(A|b) =⇒ o sistema e impossıvel - SI e nao tem solucao �.
Exemplo 8.5. Exemplos:
a) Seja a matriz A =
4 5 −13 7 02 8 3
e o vetor b =
111
Como q(A) = q(A|b) = 3, o sistema e PD e a solucao e dada por: s =
5/292/291/29
.
b) Matriz A =
2 4 −5−2 9 75 6 1
e o vetor b =
−101
Como q(A) = q(A|b) = 3, o sistema e PD e a solucao e dada por: s =
106/235−69/235119/235
.
c) Matriz A =
4 10 512 30 168 20 15
e o vetor b =
123
Como q(A) = 2 e q(A|b) = 3, logo, o sistema e SI, ou seja, nao tem solucao.
d) Matriz A =
1 2 4 −3−3 5 10 9−8 0 0 3−6 7 14 4
e o vetor b =
71−310
Como q(A) = q(A|b) = 3 (< m), o sistema e PI e o conjunto de solucoes e dada por:
110
Sistemas lineares Teoria de Matrizes para Estatıstica
s =
0
2(1− x3)x3
−1
.
8.2 Sistemas homogeneos
Sistemas homogeneos sao sistemas escritos na forma Ax = 0 e que apresenta como propriedade
a solucao trivial xt = (0, 0, . . . , 0).Seja um sistema linear Ax = b, entao, o conjunto de solucao s e obtido pela translacao do
conjunto de solucao de Ax = 0.
Exemplo 8.6. Considere o sistema definido pela matriz
A =
3 5 −4−3 −2 45 1 −8
,
entao, a matriz completa do sistema homogeneo escalonada e dada por
A =
1 0 −4/3 00 1 0 00 0 0 0
,
portanto, o sistema equivalente e da forma
{x1 − 4x3/3 = 0
x2 = 0e, portanto, a solucao do sistema e dada por:
s =
4x3/3
0x3
= x3
4/301
.
Considere, agora b =
7−1−4
, entao, neste caso, o sistema equivalente sera dado por
{x1 − 4x3/3 = −1
x2 = 2
e a solucao sera
s =
4x3/3− 1
2x3
= x3
4/301
+
−120
,111
Sistemas lineares Teoria de Matrizes para Estatıstica
que, como pode ser constatado, e uma translacao da solucao do sistema homogeneo.
Seja D o determinante da matriz associada de um sistema homogeneo, entao, temos as seguinte
propriedades:
i) se D 6= 0, entao o sistema homogeneo e PD e apresenta apenas a solucao trivial;
ii) se D = 0, entao o sistema homogeneo e PI e apresenta a solucao trivial e solucoes proprias.
8.3 Uso da decomposicao LU na solucao de sistemas lineares
Seja o sistemas linear Ax = b, com An×n nao singular e b vetor de constantes conhecidas.
Uma forma bastante simples para se obter a solucao do sistema e por meio da decomposicao LU
(ver secao 4.3).
O processo de solucao de uma sistema linear pela decomposicao LU de A, sendo dado por:
Ax = b
LUx = b.
Entao, fazendo y = Ux, teremos
Ly = b, (8.2)
sendo que, inicialmente, devemos encontrar o vetor y, solucao de (8.2), num procedimento passo-
a-frente e, com o vetor y obtido, encontrar x solucao de Ux = y, num procedimento passo-atras.
Os vetores y e x podem, ainda, serem obtidos por: y = L−1b e x = U−1y.
Exemplo 8.7. Exemplos:
a) Seja a matriz A =
1 −2 10 2 −8−4 5 9
e o vetor b =
089
.
Como A = LU, em que: L =
1 0 00 1 0−4 −3/2 1
e U =
1 −2 10 2 −80 0 1
, de (8.2) temos que:
y =
083
.
Desta forma, da relacao Ux = y, obtemos x =
29163
.
112
Sistemas lineares Teoria de Matrizes para Estatıstica
b) Seja A =
2 1 4 63 −2 5 0−1 2 −3 42 2 −2 3
e b =
1−1−11
.
Com L =
1 0 0 0
3/2 1 0 0−1/2 −5/7 1 0
1 −2/7 11/3 1
e U =
2 1 4 60 −7/2 −1 −90 0 −12/7 4/70 0 0 −23/3
,
y = L−1b =
1−5/2−16/723/3
e, x = U−1y =
031−1
.
A solucao do sistema Ax = b pode ser facilmente obtida com o procedimento pratico da
decomposicao LU.
Para isso, tomamos a matriz completa [ A | b ] e, com a aplicacao de operacoes elementares
nas linhas de A, a transformamos numa matriz triangular superior. No final do processo, a ultima
coluna de [ A | b ], inicialmente composta pelo vetor b, tera se transformado no vetor y, ou seja:
[ A | b ] =⇒ [ U | y ].operacoes
elementares
Exemplo 8.8. Exemplo: Considere o sistema linear do item (b) do exemplo anterior
Entao, [ A | b ] =
2 1 4 6 13 −2 5 0 −1−1 2 −3 4 −1
2 2 −2 3 1
.
Seja Li representando a i-esima linha de A, i = 1, 2, . . . , n, entao, para as tres primeiras
eliminacoes, fazendo (−3/2L1 + L2); (1/2L1 + L3) e (−L1 + L4), temos:2 1 4 6 10 −7/2 −1 −9 −5/20 5/2 −1 7 −1/20 1 −6 −3 1
.
113
Sistemas lineares Teoria de Matrizes para Estatıstica
Continuando o processo, com as operacoes (5/7L2 + L3) e (2/7L2 + L4), obtemos2 1 4 6 10 −7/2 −1 −9 −5/20 0 −12/7 4/7 −16/70 0 −44/7 −39/7 −5/7
.
Para a ultima eliminacao, enfim, fazemos (−11/3L3 + L4), obtendo2 1 4 6 10 −7/2 −1 −9 −5/20 0 −12/7 4/7 −16/70 0 0 −23/3 23/3
= [ U | y ]
.
Observe que a ultima coluna da matriz resultante e, de fato, o vetor y da relacao Ly = b e que,
a matriz resultante da aplicacao das operacoes elementares em A e a matriz U da decomposicao
LU.
Desta forma, podemos obter o vetor x fazendo x = U−1y, ou atraves de um processo passo-atras
a partir da ultima linha de [ U | y ].
114
9Projecoes Ortogonais
Definicao 9.1. Projecao ortogonal
Seja T (x) : R2 7−→ R2 que projeta um vetor x ∈ R2 sobre uma reta que passa pela origem,
entao, T (x) e a projecao ortogonal de R2 sobre a reta (ver Figura 9.1) �
Figura 9.1: Projecao ortogonal sobre a reta passando pela origem
Nota: Projecoes sobre retas sao lineares e, portanto, operadores matriciais.
115
Projecoes ortogonais Teoria de Matrizes para Estatıstica
9.1 Matriz canonica de uma projecao ortogonal
Seja r uma reta qualquer passando pela origem, que faz um angulo θ com o eixo das abcissas,
entao, a matriz canonica da projecao ortogonal de um vetor qualquer do R2 ssobre r sera:
Pθ =
12(1 + cos 2θ) 1
2 sen2θ12 sen2θ 1
2(1− cos 2θ)
=[
cos2 θ senθ cos θsenθ cos θ sen2θ
]
Exemplo 9.1. Considere a reta x1 = x2, com um angulo de θ = 45◦ (π/4). Encontrar a projecao
do vetor v = (√
3, 1)t sobre a reta, dada pelo vetor w (ver Figura 9.2).
Figura 9.2: Componentes de uma projecao ortogonal sobre a reta
Resultados:
i) ‖v‖= 2;
ii) sen θ1 = 12 =⇒ θ1 = 30◦;
iii) θ − θ1 = 15◦ =⇒ ‖w‖= ‖v‖cos 15◦;
iv) cos 15◦ = cos(45◦ − 30◦) = cos 15◦ = cos 45◦ cos 30◦ + sen45◦ sen30◦
cos 15◦ =√
22
√3
2 +√
22
12 =
√2 (√
3 + 1)4 ;
vi) ‖w‖=√
2 (√
3 + 1)2 .
116
Projecoes ortogonais Teoria de Matrizes para Estatıstica
Desta forma, w1 = ‖w‖cos 45◦ =[√
2 (√
3 + 1)2
] √2
2 =√
3 + 12 e
w =
√3 + 12
√3 + 12
.
Para o angulo θ = 45◦ a matriz de projecao e dada por:
Pθ =[
1/2 1/21/2 1/2
]e, w = Pθv =
[1/2 1/21/2 1/2
] ( √3
1
)=
√3 + 12
√3 + 12
.
Matrizes de projecoes ortogonais sobre:
i) o eixo x: (θ = 0) e Pθ =[
1 00 0
];
ii) o eixo y: (θ = 90◦) e Pθ =[
0 00 1
].
9.2 Decomposicao ortogonal de um vetor
Considere a reta r passando pela origem e seja um vetor a sobre r. Um vetor x qualquer do R2
pode, entao, ser escrito por:
x = x1 + x2
em que x1 e a projecao de x em a (e consequentemente sobre r) e x2 e o componente perpendicular
a a (Figura 9.3).
Para a determinacao da projecao de x sobre a reta temos que x1 pode ser escrito como um
multiplo de a, ou seja, x1 = ka.
Entao, como x2 = x− ka e, considerando que x2 e a sao ortogonais, temos que
x2ta = (x− ka)ta = 0
xta − kata = 0
=⇒ k = xtaata
De onde se obtem: x1 = projax = xtaata a.
117
Projecoes ortogonais Teoria de Matrizes para Estatıstica
Figura 9.3: Decomposicao ortogonal de um vetor
Teorema 9.1. Se a e um vetor nao nulo em Rn, entao, qualquer vetor x ∈ Rn pode ser escrito
como uma decomposicao ortogonal do tipo:
x = x1 + x2,
em que:
x1 = xta
ata a e multiplo de a,
x2 = x− xtaata a ⊥ a (x2 ⊥ x1).
x1 e o componente vetorial de x ao longo de a e x2 e o componente vetorial de x ortogonal a a.
Exemplo 9.2. Sejam x = (2,−1, 3) e a = (4,−1, 2), achar os componentes x1 e x2 da projecao
ortogonal de x em a.
xta = 2 · 4 + (−1) · (−1) + 3 · 2 = 15ata = 42 + (−1)2 + 22 = 21
Logo, x1 = 1521
4−1
2
=
20/7−5/710/7
,
118
Projecoes ortogonais Teoria de Matrizes para Estatıstica
x2 = x− x1 =
2−1
3
−
20/7−5/710/7
=
−6/7−2/711/7
.
Teorema 9.2. Se a e um vetor nao nulo em Rn expresso na forma de coluna, entao, a matriz
canonica do operador linear T (x) = projax e dada por
P = 1ata a at,
em que P e simetrica de posto 1.
Prova 9.2.1. Considere a base canonica do Rn e1 =
10...
0
, e2 =
01...
0
, . . . , en =
00...
1
e seja
o vetor a =
a1
a2...
an
Entao, a projecao dos vetores da base canonica do Rn sobre o vetor a serao:
T (ej) =ejta
ata a = aj‖a‖2 a, j = 1, 2, . . . , n.
Para a continuidade da prova ha a necessidade do seguinte resultado: os vetores colunas da
matriz canonica de uma transformacao linear T (x) sao as imagens da base canonica obtidas pela
transformacao T (ej), j = 1, 2, . . . , n.
Desta forma, teremos:
P =[ a1‖a‖2 a a2
‖a‖2 a · · · an‖a‖2 a
]
P = 1‖a‖2
[a1 a a2 a · · · an a
]
P = 1ata a
[a1 a2 · · · an
]
P = 1ata aat
119
Projecoes ortogonais Teoria de Matrizes para Estatıstica
Nota 9.1. A matriz P nao e afetada se tomarmos um multiplo nao nulo de a, ou seja, P e deter-
minada pela reta r sobre a qual projeta, e nao pelo vetor a. Em particular se considerarmos um
vetor unitario u, P = uut.
Exemplo 9.3. Considere o vetor at = ( 3 5 −4 ).
a) Determine a matriz de projecao ortogonal sobre a reta gerada por a.
b) Encontre a projecao de vt = ( 2 −1 3 ).
c) Mostre que P tem posto 1.
Resolucao:
a) ata = 50 e aat =
9 15 −12
15 25 −20−12 −20 16
,
logo, P =
0.18 0.30 −0.240.30 0.50 −0.40−0.24 −0.40 0.32
b) P vt =
9 15 −12
15 25 −20−12 −20 16
23−1
=
1.52.5−2.0
.
c) Sejam L1, L2 e L3 as linhas 1, 2 e 3 de P, respectivamente.
Como L2 = 5L13 e L3 = −4L1
3 , entao, oposto de P e 1.
O posto de P igual a 1 indica que seu espaco coluna tem dimensao 1. O espaco coluna de P
e imagem do operador T (x) = projax, que e dada pela reta definida por a.
Teorema 9.3 (Projecao sobre suespacos:). Se W e um subespaco do Rn, entao, cada vetor x ∈ Rn
pode ser expresso de maneira unica como
x = x1 + x2,
com x1 ∈W e x2 ∈W⊥, em que W⊥ o subespaco perpendicular a W,
ou seja, x = projWx + projW⊥ x.
120
Projecoes ortogonais Teoria de Matrizes para Estatıstica
Prova 9.3.1 (Prova:). Seja { w1, w2; . . . , wk}, base do subespaco W. Considerando os vetores
w1, w2, . . . , wk como colunas da matriz M,
M =[
w1 w2 . . . wk
],
entao W e chamado de espaco coluna de M e W⊥ de espaco nulo de Mt.
Assim sendo, devemos mostrar que, ∀x ∈W, entao, x = x1 + x2 tal que:
x1 ∈W, e x2 ∈W⊥, ou seja,Mt x2 = 0.
Entao, para um vetor v ∈ Rk, podemos escrever x1 = M v. Desta forma, como x2 = x − x1,
temos que
Mt (x− x1) = 0
Mt (x−M v) = 0
Mtx−MtM v = 0
MtM v = Mtx
Como M e de posto completo (suas colunas formam a base deW), segue-se que MtM e invertıvel
e, consequentemente, v e obtido unicamente de
v = (MtM)−1Mtx
o que implica em: x1 = M v = M(MtM)−1Mtxx2 = x− x1 =
[I−M(MtM)−1Mt
]x
Teorema 9.4 (Matriz canonica de projecao:). Se W e um subespaco nao nulo do Rn e M e uma
matriz cujas colunas formam uma base de W, entao, a matriz canonica da projecao ortogonal de
um vetor x ∈ Rn em W e dada por
P = projWx = M(MtM)−1Mt, ∀ x ∈ Rn.
Exemplo 9.4. Sejam os vetores w1 = (1, 1, 1) e w2 = (1, 1, −1). Determine a matriz de projecao
ortogonal de um vetor qualquer do R3 no plano formado por {w1,w2} e encontre a projecao de
x = (5, −3, 0).Resolucao:
M =
1 11 11 −1
e MtM =[
3 11 3
].
121
Projecoes ortogonais Teoria de Matrizes para Estatıstica
Desta forma,a matriz P e dada por:
P =
1 11 11 −1
[
3/8 −1/8−1/8 3/8
] [1 1 11 1 −1
]=
0.5 0.5 00.5 0.5 0
0 0 1
e, a projecao ortogonal de x = (5, −3, 0) no plano formado por {w1,w2} e
P x =
0.5 0.5 00.5 0.5 00 0 1
5−31
=
110
.Exemplo 9.5. Encontrar a matriz de projecao ortogonal de um vetor qualquer do R3 no plano
x− 4y + 2z = 0.
Resolucao:
Para obter a matriz M devemos encontrar vetores que geram o plano e formam sua base. Para
isso, consideramos t1 = y e t2 = z ex
y
z
=
4t1 − 2t2
t1
t2
= t1
410
+ t2
−2
01
Logo, a matriz M e dada por:
M =
4 −21 00 1
Desta forma, a matriz P e calculada por
P =
4 −21 00 1
[
5/21 −8/21−8/21 17/21
] [4 1 0−2 0 1
]
P = 121
20 4 −24 5 8−2 8 17
> tempo <- c(2,2,3,8,4,7,5)
> evento <- c(1,1,0,1,1,1,0)
> Surv(tempo,evento)
[1] 2 2 3+ 8 4 7 5+
122