Departamento de Estat stica - ufscar.br · Departamento de Estat stica Universidade Federal de S~ao...

Departamento de Estatıstica

Universidade Federal de Sao Carlos

Teoria de Matrizes para Estatıstica

Jose Carlos Fogo

Sao Carlos

Julho de 2017

Sumario

1 Vetores 1

1.1 Definicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 Representacao grafica no <2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.2 Propriedades algebricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Vetores especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 Produto entre vetores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3.1 Propriedades algebricas do produto interno entre vetores . . . . . . . . . . 5

1.4 Modulo ou comprimento de um vetor . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.5 Outros resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.6 Representacao vetorial dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Matrizes 10

2.1 Casos especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.1 Matriz Transposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.2 Matriz Quadrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.3 Matriz de Zeros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.4 Matriz Diagonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.5 Matriz Simetrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1.6 Matriz de Uns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1.7 Matrizes Triangulares Superior e Inferior . . . . . . . . . . . . . . . . . . . . 12

2.2 Operacoes com matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.3 Medidas relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.3.1 Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.3.2 Posto ou rank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.3.3 Traco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.4 Autovalores e autovetores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.5 Matriz dos cofatores e matriz adjunta . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.6 Matriz inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.7 Matriz nao singular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

i

Sumario Teoria de Matrizes para Estatıstica

2.8 Matriz ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.9 Matriz definida positiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.10 Operacoes elementares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.11 Matrizes similares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3 Matrizes particionadas 32

3.1 Casos especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2 Operacoes com matrizes particionadas . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3 Decomposicao LDU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.4 Rank, ou posto, de matrizes particionadas . . . . . . . . . . . . . . . . . . . . . . . 38

3.5 Determinante de matrizes particionadas . . . . . . . . . . . . . . . . . . . . . . . . 38

3.6 A inversa de uma matriz particionada . . . . . . . . . . . . . . . . . . . . . . . . . 40

4 Decomposicao de matrizes 42

4.1 Decomposicao espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 Decomposicao em valores singulares . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.3 Decomposicao LU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.3.1 Determinacao das matrizes L e U . . . . . . . . . . . . . . . . . . . . . . . 50

4.3.2 O algoritmo de Crout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.4 Decomposicao de Cholesky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.4.1 Determinacao da matriz G . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5 Vetores aleatorios 60

5.1 Vetores aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

5.1.1 Valor esperado de um vetor aleatorio . . . . . . . . . . . . . . . . . . . . . . 62

5.1.2 Matriz de variancias-covariancias de um vetor aleatorio . . . . . . . . . . . 63

5.1.3 Matriz de correlacoes de um vetor aleatorio . . . . . . . . . . . . . . . . . . 67

5.1.4 Vetores aleatorios particionados . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.2 Representacao vetorial dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.2.1 A representacao dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.2.2 O vetor de medias amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.2.3 A matriz de variancias e covariancias amostrais . . . . . . . . . . . . . . . . 76

6 Espacos Vetoriais 82

6.1 Subespacos vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.2 Dependencia linear de vetores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.3 Base de um espaco vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

7 Formas quadraticas 91

7.1 Diagonalizacao de formas quadraticas . . . . . . . . . . . . . . . . . . . . . . . . . 92

7.2 Formas quadraticas e conicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

7.3 Distribuicao de formas quadraticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

7.4 Otimizacao de formas quadraticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

7.4.1 Derivada de uma forma quadratica . . . . . . . . . . . . . . . . . . . . . . . 100

ii

Sumario Teoria de Matrizes para Estatıstica

8 Sistemas lineares 104

8.1 Notacao Matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

8.2 Sistemas homogeneos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

8.3 Uso da decomposicao LU na solucao de sistemas lineares . . . . . . . . . . . . . 112

9 Projecoes Ortogonais 115

9.1 Matriz canonica de uma projecao ortogonal . . . . . . . . . . . . . . . . . . . . . . 116

9.2 Decomposicao ortogonal de um vetor . . . . . . . . . . . . . . . . . . . . . . . . . . 117

iii

1Vetores

1.1 Definicao

Na Fısica: e uma forma de se representar matematicamente grandezas fısicas que possuam

mais de um aspecto para ser definida.

Exemplo: a forca, necessita da magnitude, direcao e sentido em que e aplicada;

Na Matematica: e uma tripla constituıda de uma direcao, um sentido e um numero nao

negatico (modulo), Venturini, J.J.

Obs: Usando a teoria de matrizes, pode-se definir um vetor como qalquer matriz coluna, ou

matriz linha.

Na Wikipedia: e um conceito caracterizado por uma magnitude (modulo) e uma orientacao

(direcao e sentido).

Notacao: ~v, ~x, ~a (letras minusculas).

Nas notas da disciplina, vamos adotar a notacao usual em publicacoes, ou seja, com letras mi-

nusculas, em negrito: v, x, a.

x =

x1

x2...

xp

, e um vetor de dimensao p.

1

Vetores Teoria de Matrizes para Estatıstica

Exemplo:

x =

1234

, e um vetor de dimensao 4.

1.1.1 Representacao grafica no <2

Exemplo: Sejam

x =[

25

]e y =

[30.5

],

Figura 1.1: Representacao grafica de vetores no plano

1.1.2 Propriedades algebricas

i) u + v = v + u;

ii) (u + v) + w = u + (v + w);

iii) a (u + v) = a v + a u, a = escalar;

iv) (a+ b) u = a u + b u, a, b = escalares.

2


1.2 Vetores especiais

i) vetor nulo:

0n =

00...

0

;

ii) vetor de 1’s:

1n =

11...

1

n×1

; (1.1)

iii) vetor transposto:

vt =[v1, v2, · · · , vp

].

1.3 Produto entre vetores

Os produtos entre de vetores mais comuns sao o produto escalar euclidiano, ou produto interno

e o produto vetorial, ou produto externo, sendo que nos dois casos os vetores devem ter mesmas

dimensoes.

Alem das duas formas de produtos acima, temos ainda o produto direto, ou produto Kronecker

e o produto elemento-a-elemento.

Nota: Na disciplina serao destacados os produtos interno, Kronecker e elemento-a-elemento.

Considere os vetores

v =

v1

v2...

vp

e x =

x1

x2...

xp

.

a) Produto elemento-a-elemento1:

x ∗ v =

x1 · v1

x2 · v2...

xp · vp

.1Como nao temos uma notacao para um operador elemento-a-elemento, vamos utilizar o asterisco (*)

3


b) Produto interno ou produto escalar:

〈x,v〉 = x · v = xt v =p∑i=1

xi · vi

c) Produto Kronecker ou produto direto: sejam x e v vetores com dimensoes p e q,

respectivamente

x⊗v =

x1 · vx2 · v

...

xp · v

pq×1

.

Exemplos:

Sejam x =

2−5−1

e v =

32−3

,• de (a):

x ∗ v =

(2) · (3)

(−5) · (2)(−1) · (−3)

=

6

−103

;

• de (b):

〈x,v〉 = xtv = (2) · (3) + (−5) · (2) + (−1) · (−3) = −1.

• de (c):

x⊗v =

2 · v−5 · v−1 · v

=

64−6−15−10

15−3−2

3

4


Obs: Para o produto Kronecker as dimensoes nao precisam ser necessariamente iguais

Se x =[

23

]e v =

1234

, entao: x⊗v =

2468369

12

1.3.1 Propriedades algebricas do produto interno entre vetores

i) utv = vtu ou 〈u,v〉 = 〈v,u〉;

ii) (ut + vt)w = utw + vtw ou 〈(u+v),w〉 = 〈u,w〉 + 〈v,w〉;

iii) (k vt)u = k (vtu) = vt(k u), ou 〈kv,u〉 = k 〈v,u〉 = 〈v, ku〉 k = escalar;

iv) utu ≥ 0 ou 〈u,u〉 ≥ 0;

v) utu = 0⇔ u = 0 ou 〈u,u〉 = 0⇔ u = 0.

1.4 Modulo ou comprimento de um vetor

O comprimento, modulo ou norma de um vetor v e definido por

‖v‖ =√

vtv =√v2

1 + v22 + . . .+ v2

p.

Exemplo: Dados os vetores vt = (2,−5,−1),xt = (3, 2,−3) e ut = (0.8, 0.6), entao

‖v‖ =√

4 + 25 + 1 =√

30;

‖x‖ =√

9 + 4 + 9 =√

22;

‖u‖ =√

0.64 + 0.36 =√

1 = 1.

O vetor que tem norma igial a 1, ou seja, vtv = 1, e chamado de vetor normal.

No exemplo acima o vetor ut = (0.64, 0.36) e um vetor normal.

1.5 Outros resultados

i) Angulo entre vetores: considere o angulo θ formado por dois vetores u e v, entao:

cos(θ) = utv‖u‖ ‖v‖

= utv√utu√

vtv.

5


Se θ = 90◦, cos(θ) = 0, entao u e v sao ortogonais, ou seja, u⊥v, portanto, dois vetores sao

ortogonais se utv = 0.

Figura 1.2: Angulo entre vetores.

ii) Projecao de um vetor sobre outro:

Considere os vetores u e v. Entao, a projecao de u sobre v e obtida por:

Pu/v =(

utvvtv

)v = (utv)

‖v‖2v.

O modulo da projecao, por sua vez, e dado por:

∥∥∥Pu/v

∥∥∥ =∣∣∣∣∣utvvtv

∣∣∣∣∣√vtv =∣∣utv

∣∣‖v‖2

‖v‖ =∣∣utv

∣∣‖v‖ ‖u‖

‖u‖

∥∥∥Pu/v

∥∥∥ = |cos(θ)| ‖u‖ .

Exemplo: Dados os vetores ut = (1, 2),vt = (2, 1), encontar a projecao de u sobre v e calcular

o seu modulo.

Calculos:

‖u‖ =√

11 + 22 =√

5

‖v‖ = ‖u‖ =√

5

utv = 2 · 1 + 1 · 2 = 4

cos(θ) = utv‖u‖ ‖v‖

= 4√5√

5= 0.8 ⇒ θ ∼= 36.9◦

Projecao de u sobre v:

Pu/v =(

utvvtv

)v = 4

5

[21

]=[

1.60.8

].

6


Comprimento da projecao:∥∥∥Pu/v

∥∥∥ = |cos(θ)| ‖u‖ = 0.8√

5 =√

3.2

De fato

∥∥∥Pu/v

∥∥∥2=[

1.6 0.8] [ 1.6

0.8

]= 3.2, logo,

∥∥∥Pu/v

∥∥∥ =√

3.2.

Figura 1.3: Projecao de um vetor u sobre um vetor v.

1.6 Representacao vetorial dos dados

Na estatıstica os dados sao usualmente representados em vetores (os softwares usam esse con-

ceito).

Exemplo: Seja uma amostra de tamanho n = 10 representando o ganho lıquido de um grupo

7


de empresas da bolsa de valores (em milhoes de reais). Pode-se representar os dados por

x =

564389203215385187127297432451

.

Como∑

xi = 3250 e∑

x2i = 1234408, tem-se que:

x = 325010 = 325;

s2 = 1234408− 10(325)2

(10− 1) = 19795.33.

Os resultados acima da media amostral x e variancia amostral s2 podem ser facilmente obtidos

utilizando as operacoes vetoriais.

i) Para a soma dos elementos de x, tem-se

1tn x =

n∑i=1

xi = x1 + . . .+ xn

ii) Para a soma dos quadrados dos elementos de x,

xt x =n∑i=1

x2i = x2

1 + . . .+ x2n

Assim, de (i) e (ii) tem-se que:

x = 1tn xn

;

s2 = 1(n− 1)

[xt x− (1t

n x)2

n

].

8


No exemplo:

1tn x = 3250;

[xt x− (1t

n x)2

n

]= 1234408− (3250)2

10 = 178158.

9

2Matrizes

Definicao 2.1. Matriz

Matriz e uma colecao retangular n× p de valores reais, representada por

An×p =

a11 a12 · · · a1p

a21 a22 · · · a2p...

.... . .

...

an1 an2 · · · anp

,

em que: n e o numero de linhas e p e o numero de colunas da matriz �

Segundo Graybill (1983), uma matriz pode, ainda, ser representada da seguinte forma:

An×p = [aij ]n×p .

Nos podemos obter uma matriz n × p pela multiplicacao de um vetor u, n × 1, com um vetor

linha vt, 1× p

uvt =

u1

u2...

un

[

v1 v2 · · · vp]

=

u1v1 u1v2 · · · u1vp

u2v1 u2v2 · · · u2vp...

.... . .

...

unv1 unv2 · · · unvp

. (2.1)

(2.2)

Nota: O produto uvt e muitas vezes chamado de produto exterior ou produto externo (Banerjee

e Roy, 2014).

10

Matrizes Teoria de Matrizes para Estatıstica

2.1 Casos especiais

2.1.1 Matriz Transposta

Denotada por A′ ou At, e obtida trocando-se as linhas de A pelas colunas.

Exemplo: A2×3 =[

3 −2 11 5 4

]At

3×2 =

3 1−2 5

1 4

.2.1.2 Matriz Quadrada

E uma matriz para a qual o numero de linhas e igual ao de colunas.

Exemplo: A3×3 =

a11 a12 a13

a21 a22 a23

a31 a32 a33

.

2.1.3 Matriz de Zeros

Denotada 0n×p, e a matriz cujos elementos sao todos iguais a zero.

Exemplo: 0n×p =

0 0 · · · 00 0 · · · 0...

.... . .

...

0 0 · · · 0

n×p

.

2.1.4 Matriz Diagonal

E uma matriz quadrada na qual apenas os elementos da diagonal sao diferentes de zero.

Exemplo: Ap×p =

a11 0 · · · 00 a22 · · · 0...

.... . .

...

0 0 · · · app

.

Casos especiciais:

11


a) Matriz escalar: e uma matriz diagonal na qual todos os elementos da diagonal sao iguais,

ou seja, dii = d, i = 1, 2, . . . , n.

Exemplo: D =

d 0 · · · 00 d · · · 0...

.... . .

...

0 0 · · · d

.

b) Matriz identidade: e um caso particular da matriz diagonal. Denotada por Ip = Ip×p, seus

elementos da diagonal sao todos iguais a 1, ou seja, a11 = a22 = . . . = app = 1.

Exemplo: I3 =

1 0 00 1 00 0 1

.

2.1.5 Matriz Simetrica

Matriz quadrada em que A = At, ou seja, quando aij = aji, i, j = 1, 2, . . . , p.

Exemplo: A3×3 =

1 2 32 4 53 5 6

.2.1.6 Matriz de Uns

Denotada Jn, e uma matriz quadrada cujos elementos sao todos iguais a um.

Exemplo: Jn =

1 1 · · · 11 1 · · · 1...

.... . .

...

1 1 · · · 1

n×n

.

A matriz Jn e definida pelo produto Jn = 1n1tn, ver (1.1), e apresenta a seguinte propriedade:

a) J2 = JJ = nJ;

b) J3 = JJJ = n2J;

c) Jk = nk−1J.

2.1.7 Matrizes Triangulares Superior e Inferior

A matriz quadrada Un×n, e uma matriz triangular superior se todos os elementos abaixo da

diagonal forem iguais a zero e, a matriz quadrada quadrada Ln×n, e uma matriz triangular inferior

se todos os elementos acima da diagonal forem iguais a zero.

12


Exemplo: matrizes triangulares superior e inferior de dimensoes 4× 4.

U4×4 =

u11 u12 u13 u14

0 u22 u23 u24

0 0 u33 u34

0 0 0 u44

L4×4 =

l11 0 0 0l21 l22 0 0l31 l32 l33 0l41 l42 l43 l44

Teorema 2.1. Sejam matrizes Un×n e Ln×n, triangulares superior e inferior, respectivamente.

Entao seus determinantes sao obtidos pela multiplicacao dos elementos das diagonais, ou seja:

|U| =n∏i=1

uii

|L| =n∏i=1

lii

.

Teorema 2.2. Sejam matrizes An×n e Bn×n, entao:

i) Se A e B sao ambas triangulares inferiores, o produto AB e uma matriz triangular inferior.

ii) Se A e B sao ambas triangulares superiores, o produto AB e uma matriz triangular superior.

Teorema 2.3. Seja An×n:

i) Se A e triangular inferior (ou superior) com todos os elementos da diagonal diferentes de

zero, entao A e invertıvel e sua inversa A−1 e triangular inferior (ou superior).

ii) Os elementos da diagonal de A−1 sao os recıprocos dos elementos da diagonal de A, ou seja

a∗ii = 1aii, i = 1, 2, . . . , n,

em que a∗ii sao os elementos da diagonal de A−1 e aii, os elementos da diagonal de A.

2.2 Operacoes com matrizes

i) Multiplicacao por um escalar:

cAn×p =

c a11 c a12 · · · c a1p

c a21 c a22 · · · c a2p...

.... . .

...

c an1 c an2 · · · c anp

.

13


ii) Adicao de matrizes de mesmas dimensoes:

An×p + Bn×p =

a11 + b11 a12 + b12 · · · a1p + b1p

a21 + b21 a22 + b22 · · · a2p + b2p...

.... . .

...

an1 + bn1 an2 + bn2 · · · anp + bnp

.

Resultados:

a) A + B = B + A;

b) (A + B) + C = A + (B + C);

c) c (A + B) = cA + cB;

d) A + 0 = A e A − A = 0;

e) (c+ d) A = cA + dA;

f) (c d) A = c (dA);

g) (A + B)t = At + Bt.

Nota: A matriz 0 e o elemento neutro da adicao de matrizes, ou seja, A + 0 = A.

iii) Multiplicacao de matrizes: o produto de duas matrizes An×k e Bk×p e dado pelos produtos

internos das linhas de A pelas colunas de B

An×k Bk×p = (A B)n×p ,

desta forma, o numero de colunas da primeira (A) deve ser igual ao numero de linhas da

segunda (B) e o resultado sera uma matriz cujo numero de linhas sera igual ao numero de

linhas da primeira e o numero de colunas, igual ao da segunda.

Exemplo:

A2×3 =[

3 −1 21 5 −4

]B3×2 =

−2 1

7 09 −3

,

A B =[

(−6− 7 + 18) (3− 6)(−2 + 35− 36) (1 + 12)

]=[

5 −3−3 13

].

Uma matriz An×k pode ser representada como uma colecao de k vetores nas colunas, assim

como n vetores transpostos nas linhas.

Seja ati· vetor transposto representando a i-esima linha, i = 1, 2, . . ., n, entao, a matriz A pode

ser escrita por:

An×k =

at1·at2·...

atn·

.

14


Da mesma forma, considerando as colunas de An×k como vetores, pode-se, ainda, escrever A

como:

An×k =[

a·1 a·2 · · · a·k].

Desta forma, o produto entre duas matrizes An×k e Bk×p pode ser representado por

An×kBk×p =

at1·at2·...

atn·

[

b·1 b·2 · · · b·p].

An×kBk×p =

at1·b·1 at1·b·2 · · · at1·b·pat2·b·1 at2·b·2 · · · at2·b·p

......

. . ....

atn·b·1 atn·b·2 · · · atn·b·p

.

A partir de (2.2) podemos, ainda, representar o produto entre duas matrizes por:

An×kBk×p =[

a·1 a·2 · · · a·p]

bt1·bt2·...

btn·

=p∑j=1

a·jbtj·.

Resultados:

(as matrizes A, B e C sao de dimensoes tais que os produtos abaixo sejam definidos)

a) A (B C) = (A B) C;

b) A (B + C) = A B + A C;

c) c (A B) = (cA) B;

d) c (A B) = (cA) B;

e) (αA)(β B) = (αβ)(AB);

f) (A B)t = BtAt.

Notas:

1) Em geral nao vale a propriedade comutativa, ou seja, A B 6= B A,

2) Se A B = 0, nao implica, necessariamente, que A = 0 ou que B = 0;

3) A identidade e o elemento neutro da multiplicacao de matrizes, ou seja, A I = I A = A.

15


2.3 Medidas relacionadas

2.3.1 Determinante

Seja uma matriz quadrada A, entao, seu determinante e um escalar denotado por |A| e e definido

por:

|A| =k∑j=1

a1j (−1)j+1 |A1j | , k > 1.

em que a1j e o j-esimo elemento da primeira linha de A e A1j e a matriz obtida eliminando-se a

primeira linha e a j-esima coluna de A.

O resultado tambem e valido quando excluımos qualquer uma das outras linhas, ou seja

|A| =k∑j=1

aij (−1)i+j |Aij | , k > 1, i = 1, 2, . . . , k.

Nota: o termo (−1)i+j |Aij | e definido como cofator do elemento aij e sera visto mais adiante.

Exemplo: A =

2 1 3 01 −1 2 2−2 0 3 3

4 1 −1 2

.

• Eliminando-se a primeira linha:

|A| = (2) (−1)1+1

∣∣∣∣∣∣∣∣−1 2 2

0 3 31 −1 2

∣∣∣∣∣∣∣∣+ (1) (−1)1+2

∣∣∣∣∣∣∣∣1 2 2−2 3 3

4 −1 2

∣∣∣∣∣∣∣∣+

(3) (−1)1+3

∣∣∣∣∣∣∣∣1 −1 2−2 0 3

4 1 2

∣∣∣∣∣∣∣∣+ (0) (−1)1+4

∣∣∣∣∣∣∣∣−1 −1 3−2 0 3

4 1 −1

∣∣∣∣∣∣∣∣

|A| = (2) (−1)2 (−9) + (1) (−1)3 (21) + (3) (−1)4 (−23) + (0) (−1)5 (17)

|A| = −18− 21− 69 = −108.

• Eliminando-se a terceira linha:

|A| = (−2) (−1)2 (18) + (0) (−1)3 (30) + (3) (−1)4 (−2) + (3) (−1)5 (22)

|A| = −36− 6− 66 = −108.

16


Casos especiais:

a) k = 2:

A =[a11 a12

a21 a22

], |A| = a11 a22 − a12 a21.

Exemplo:

A =[

1 36 4

], |A| = 1 · 4− 3 · 6 = −14.

b) k = 3:

A =

a11 a12 a13

a21 a22 a23

a31 a32 a33

,|A| = a21 a32 a13 + a11 a22 a33 + a12 a23 a31 − a12 a21 a33 − a13 a22 a31 − a11 a23 a32.

Exemplo:

A =

3 1 67 4 52 −7 1

,|A| = 10 + 12− 294− 7− 48 + 105 = −222.

Resultados

(as matrizes A, B sao tais que os produtos sejam definidos)

a) |A| = |At|,

b) Se os elementos de uma linha (ou coluna) sao iguais a zero, entao, |A| = 0,

c) Se duas linhas (ou colunas) sao iguais ou proporcionais, entao, |A| = 0,

d) |A B| = |A|· |B|,

e) |c A| = ck|A|, em que k e o numero de linhas (ou colunas) de A,

f) |I| = 1.

2.3.2 Posto ou rank

O posto ou rank de uma matriz An×p e dado pelo numero maximo de linhas ou colunas

linearmente independentes (LI), ou seja, posto(A)≤ min(n, p).

17


Exemplos:

A =

3 0 1 −21 3 1 04 3 4 5

, posto(A) = 3,

todas as linhas, de A sao LI.

B =

4 1 −3−1 4 5

2 2 0

, posto(B) = 2,

a primeira coluna de B e combinacao linear das demais.

Notas:

1) Uma matriz An×p e dita ser de posto completo se o seu posto for igual a min(n, p),2) Nos exemplos acima, a matriz A e de posto completo, enquanto que, a matriz B nao e de posto

completo.

2.3.3 Traco

Seja uma matriz quadrada Ak×k, entao o traco de A, denotado por tr(A), e dado pela soma

dos elementos de sua diagonal principal

tr(A) =k∑i=1

aii.

Exemplos:

A =

3 0 11 3 14 3 4

, tr(A) = 3 + 3 + 4 = 10.

B =

4 1 −3−1 4 5

2 2 0

, tr(B) = 8.

Resultados

a) tr(cA) = c tr(A), d) tr(B−1 A B) = tr(A)

b) tr(A±B) = tr(A) ± tr(B), e) tr(At A) = tr(A At) =k∑i=1

k∑j=1

a2ij

c) tr(A B) = tr(B A),

18


2.4 Autovalores e autovetores

Considere a matriz A e os vetores u e v:

A =[

3 −21 0

]u =

[−1

1

]v =

[21

]

Entao, as transformacoes operadas por A resultam em

A u =[

3 −21 0

] [−1

1

]=[−5−1

]

A v =[

3 −21 0

] [21

]=[

42

]= 2 v

Tomando como foco as transformacoes lineares do tipo

A x = λ x, com λ constante,

temos transformacoes nas quais o vetor x tem seu tamanho expandido ou diminuido.

Representando as transformacoes graficamente temos:

Figura 2.1: Transformacoes do tipo Ax.

19


Por exemplo, A =

1 11 21 −1

aplicada no vetor x =[x1

x2

]

resulta em A x =

x1 + x2

x1 + 2x2

x1 − x2

Definicao 2.2. Autovetor

Um autovetor de uma matriz Ak×k e um vetor x, nao nulo, tal que A x = λx, para algum

escalar λ �

Definicao 2.3. Autovalor

Um escalar λ e chamado de autovalor de A se existe solucao nao trivial x para A x = λx �

Considere a transformacao A x = λ x, entao, podemos escrever A x = λ Ix. Logo, uma forma

de encontrar os autovalores de A e resolver o sistema

A x− λ I x = (A− λ I) x = 0. (2.3)

O sistema (2.3) tem solucao nao trivial se, e somente se, a matriz A−λI for singular, entao, os

autovalores de A sao solucoes da equacao

|A− λ I| = 0. (2.4)

Teorema 2.4. Seja uma matriz Ak×k e λ um escalar, entao, as seguintes afirmacoes sao equiva-

lentes:

a) λ e um autovalor de A.

b) λ e solucao de |A− λ I| = 0.

c) o sistema (A− λ I) x = 0 tem solucoes nao triviais.

Notas:

1) A equacao polinomial |A x− λ I| = 0 e chamada funcao caracterıstica de A;

1) Os valores λ e x e sao chamados autovalor e autovetor associados;

2) Normalmente, os autovetores sao dados na forma padronizada e, tal que ete = 1, em que

ete = x‖x‖ = x√

xtx.

20


Resultado: Seja Ak×k uma matriz quadrada; como o polinomio (2.4) e de grau k, entao

existem k autovalores λ1, λ2, . . . , λk que satisfazem a equacao polinomial |A− λ I| = 0. Assim

sendo, existem k autovetores e1, e2, . . . , ek associados.

Exemplos:

i) Seja a matriz:

A =[

1 01 3

], entao

|A− λ I| =∣∣∣∣∣ (1− λ) 0

1 (3− λ)

∣∣∣∣∣ = (1− λ) (3− λ) = 0

3− 4λ+ λ2 = 0

λ1 = 4 +√

16− 122 = 3 e λ2 = 4−

√16− 122 = 1

Portanto, os autovalores de A sao λ1 = 3 e λ2 = 1.

Para encontrar os autovetores associados devemos fazer:

• Autovetor e1 associado ao autovalor λ1 = 3:

A x1 = λ1 x1

[1 01 3

] [x11

x12

]= 3

[x11

x12

]{

x11 = 3x11

x11 + 3x12 = 3x12

Do sistema acima temos que x11 = 0 e x12 pode ser um valor arbitrario, o qual sera

considerado igual a 1. O primeiro autovetor e, portanto, x1t = (0, 1).

Padronizando o autovetor x1 temos

e1 = x1√x1tx1

=[

01

].

21


• Autovetor e2 associado ao autovalor λ2 = 1:

A x2 = λ2 x2

[1 01 3

] [x21

x22

]=[x21

x22

]{

x21 = x21

x21 + 3x22 = x22

Da segunda equacao temos x21 = −2x22. Tomando x22 = 1, entao x21 fica igual a

x21 = −2 e o segundo autovetor e, portanto, x2t = (−2, 1).

Padronizando o autovetor x2 temos

e2 = x2√x2tx2

= 1√5

[−2

1

]=[−2/√

51/√

5

].

ii) Outro exemplo:

A =[

3 41 6

], entao

∣∣∣∣∣ (3− λ) 41 (6− λ)

∣∣∣∣∣ = 14− 9λ+ λ2 = 0

λ1 = 7

λ2 = 2

• Autovetor e1 associado ao autovalor λ1 = 7:{3x11 + 4x12 = 7x11

x11 + 6x12 = 7x12

Do sistema acima temos que x11 = x12, portando, x1t = (1, 1) e,

e1 =[

1/√

21/√

2

].

• Autovetor e2 associado ao autovalor λ2 = 2:{3x21 + 4x22 = 2x21

x21 + 6x22 = 2x22

Do sistema acima temos que x21 = −4x22, portando, x2t = (1,−1/4) e,

e2 =[

4/√

17−1/√

17

].

Resultados:

22


a) Seja Ap×p com autovalores λ1, λ2, . . . , λp, entao, os autovalores de AtA e AAt, denotados

por δ1, δ2, . . . , δp, serao os mesmos e

p∏i=1

λ2i =

p∏i=1

δi;

b) Se, alem disso, A for simetrica, com autovetores v1,v2, . . . ,vp, AtA e AAt terao

autovalores δ1 = λ21, δ2 = λ2

2, . . . , δp = λ2p e mesmos autovetores;

c) Os autovalores δ1, δ2, . . . , δp de AtA e AAt recebem o nome de valores singulares.

2.5 Matriz dos cofatores e matriz adjunta

i) Matriz dos Cofatores: Seja uma matriz quadrada Ap×p. Considere |Aij | como sendo o

determinante da submatriz resultante ao se retirar a i-esima linha e j-esima coluna de A,

i, j = 1, 2, . . . , p. Entao a quantidade

Cij = (−1)i+j |Aij | ,

e definida como cofator do elemento aij .

A matriz que se obtem substituindo-se cada termo ai,j de A pelo seu respectivo cofator e

chamada matriz dos cofatores de A e sera denotada por cof(A).

cof(A) =

C11 C12 · · · C1p

C21 C22 · · · C2p...

.... . .

...

Cp1 Cp2 · · · Cpp

Casos especiais:

Matriz 2×2:

cof (A) =[

a22 −a21

−a12 a11

].

23


Matriz 3×3:

cof (A) =

∣∣∣∣∣ a22 a23

a32 a33

∣∣∣∣∣ −∣∣∣∣∣ a21 a23

a31 a33

∣∣∣∣∣∣∣∣∣∣ a21 a22

a31 a32

∣∣∣∣∣−∣∣∣∣∣ a12 a13

a31 a33

∣∣∣∣∣∣∣∣∣∣ a11 a13

a31 a33

∣∣∣∣∣ −∣∣∣∣∣ a11 a12

a31 a32

∣∣∣∣∣∣∣∣∣∣ a11 a13

a22 a23

∣∣∣∣∣ −∣∣∣∣∣ a11 a13

a21 a23

∣∣∣∣∣∣∣∣∣∣ a12 a12

a21 a22

∣∣∣∣∣

.

Exemplos:

a) Matriz 2×2:

A =[

1 36 4

], cof(A) =

[4 −6−3 1

].

b) Matriz 3×3:

A =

3 0 11 2 13 −3 4

.

C11 = (−1)(1+1)∣∣∣∣∣ 2 1−3 4

∣∣∣∣∣ = 11, C12 = (−1)(1+2)∣∣∣∣∣ 1 1

3 4

∣∣∣∣∣ = −1

C13 = (−1)(1+3)∣∣∣∣∣ 1 2

3 −3

∣∣∣∣∣ = −9.

Ainda, C21 = −3, C22 = 9, C23 = 9, C31 = −2, C32 = −2 e C33 = 6, logo

cof(A) =

11 −1 −9−3 9 9−2 −2 6

ii) Matriz Adjunta: A matriz adjunta de uma matriz quadrada, denotada por adj(A), e a

transposta da matriz dos cofatores.

Caso especial: Matriz 2×2:

adj (A) =[

a22 −a12

−a21 a11

].

Exemplos:

24


a) Matriz 2×2:

A =[

1 36 4

], adj(A) =

[4 −3−6 1

].

b) Matriz 3×3:

A =

3 0 11 2 13 −3 4

, adj(A) =

11 −3 −2−1 9 −2−9 9 6

2.6 Matriz inversa

A inversa de uma matriz quadrada A, denotada por A−1, e tal que: A A−1 = A−1A = I.

Pode-se encontrar a inversa de uma matriz de uma maneira rapida por meio da relacao com

sua matriz adjunta

A−1 = 1|A|adj (A) ,

em que |A| e o determinante da matriz A.

Caso especial: a inversa de uma matriz 2×2 e dada por

A =[a11 a12

a21 a22

], A−1 = 1

|A|

[a22 −a12

−a21 a11

].

Exemplo:

A =[

1 36 4

], A−1 = − 1

14

[4 −3−1 2

].

O procedimento acima, apesar de simples, nao e pratico quando se tem matrizes com dimensoes

muito grandes. O metodo da diagonalizacao (ou pivoteamento), mais pratico, e mais indicado

messes casos.

O metodo do pivoteamento consiste em se colocar a matriz A ou lado da matriz identidade I, de

mesma dimensao, formando uma matriz estendida[

A I]. Por meio de operacoes elementares

aplicadas nas linhas de[

A I], efetuar a diagonalizacao de A transformando-a numa matriz

identidade (as mesmas transformacoes devem ser aplicadas em I).

Apos a finalizacao do processo, tem-se a esquerda uma matriz identidade e a direita a matriz

inversa de A, ou seja,[

I A−1].

Exemplo: Encontrar a matriz inversa de A pelo metodo do pivoteamento.

25


A =

1 2 −1 12 2 0 30 −3 2 1−3 0 −1 −4

.

a) Montar a matriz estendida[

A I]:

1 2 −1 1 1 0 0 02 2 0 3 0 1 0 00 −3 2 1 0 0 1 0−3 0 −1 −4 0 0 0 1

b) Multiplicar a primeira linha por (−2) e somar a segunda linha e multiplicar a primeira linha

por (3) e somar a quarta linha:1 2 −1 1 1 0 0 00 −2 2 1 −2 1 0 00 −3 2 1 0 0 1 00 6 −4 −1 3 0 0 1

26


c) Dividir a segunda linha por (−2). Na sequencia, multiplicar a segunda linha por (3) e somar

a terceira linha e multiplicar a segunda linha por (−6) e somar a quarta linha:1 2 −1 1 1 0 0 00 1 −1 −1/2 1 −1/2 0 00 0 −1 −1/2 3 −3/2 1 00 0 2 2 −3 3 0 1

d) Multiplicar a terceira linha por (−1). Na sequencia, multiplicar a terceira linha por (−2) e

somar a quarta linha: 1 2 −1 1 1 0 0 00 1 −1 −1/2 1 −1/2 0 00 0 1 1/2 −3 3/2 −1 00 0 0 1 3 0 2 1

d) Multiplicar a quarta linha por (−1/2) e somar a terceira linha; multiplicar a quarta linha por

(1/2) e somar a segunda linha e multiplicar a quarta linha por (−1) e somar a primeira linha:1 2 −1 0 −2 0 −2 −10 1 −1 0 5/2 −1/2 1 1/20 0 1 0 −9/2 3/2 −2 −1/20 0 0 1 3 0 2 1

e) Multiplicar a terceira linha por (1) e somar as segunda e primeira linhas:

1 2 0 0 −13/2 3/2 −4 −3/20 1 0 0 −2 1 −1 00 0 1 0 −9/2 3/2 −2 −1/20 0 0 1 3 0 2 1

f) Multiplicar a segunda linha por (−2) e somar a primeira linha, com o pivoteamento completo:

1 0 0 0 −5/2 −1/2 −2 −3/20 1 0 0 −2 1 −1 00 0 1 0 −9/2 3/2 −2 −1/20 0 0 1 3 0 2 1

.

Portanto, a inversa de A e:

A−1 =

−5/2 −1/2 −2 −3/2−2 1 −1 0

−9/2 3/2 −2 −1/23 0 2 1

.

27


Resultados

(as matrizes A, B e C sao tais que as inversas existam e os produtos sejam definidos)

a) (A−1)t = (At)−1;

b) (A B)−1 = B−1A−1;

c) (kA)−1 = (1/k)A−1;

d) Se existe a inversa A−1 de uma matriz A, entao A−1 e unica.

2.7 Matriz nao singular

Uma matriz quadrada Ak×k e nao singular se:

A x = 0 =⇒ x = 0.

Notas:

1) Note que A x = a1x1 + a2x2 + . . .+ akxk, onde ai e a i-esima coluna de A, i = 1, 2, . . . , k.

Portanto, uma matriz Ak×k e nao singular se as suas colunas forem linearmente independentes,

2) Uma matriz quadrada e de posto completo se, e so se, ela e nao singular,

3) Se Ak×k e nao singular, entao existe uma unica matriz inversa A−1,

4) Se Ak×k e nao singular, entao |A| = 1/|A−1|, isto e |A|·|A−1| = 1,

5) Para uma matriz Ak×k nao singular, os resultados a seguir sao equivalentes

• A x = 0 ⇒ x = 0,

• |A| 6= 0,

• Existe A−1 tal que, A−1A = I.

2.8 Matriz ortogonal

Uma matriz quadrada e dita ser ortogonal se P−1 = Pt, ou seja, uma matriz Pk×k e dita

ser ortogonal se suas colunas, consideradas como vetores, sao mutuamente perpendiculares e de

comprimento 1, o que equivale a dizer que P Pt = I.

Exemplo:

P =

−1/2 1/2 1/2 1/2

1/2 −1/2 1/2 1/21/2 1/2 −1/2 1/21/2 1/2 1/2 −1/2

, entao P Pt = I.

Nota: Uma matriz P e ortogonal, se e somente se, Pt = P−1.

Propriedades:

a) Sejam pij , i, j = 1, 2, . . . , k, elementos de uma matriz ortogonal P, entao, −1 ≤ pij ≤ 1;

b) Se P e ortogonal =⇒ P e nao singular;

28


c) det(P) = ± 1;

d) Sejam P1, P2, . . ., Pk ortogonais, entao o produto P1·P2· . . . ·Pk e uma matriz ortogonal;

Teorema 2.5. Seja uma matriz quadrada A, e uma matriz orotogonal P, entao:

det(A) = det(PtAP) �

Teorema 2.6. Seja uma matriz quadrada A, entao existe P ortogonal, tal que PtAP = D, D

diagonal, se, e so se, A e simetrica �

Exemplo:

A =[

1 04 1

]det(A) = 1

P =

1√2− 1√

21√2

1√2

PtAP =

[3 −22 −1

]det(PtAP) = 1

2.9 Matriz definida positiva

Considere o produto xtA x. Como temos apenas termos quadraticos x2i e termos cruzados xixj ,

xtA x recebe o nome de forma quadratica.

Se uma matriz Ak×k, simetrica, e tal que

xtA x > 0, ∀ x nao nulo,

entao, dizemos que A e uma matriz definida positiva.

Nota: Se uma matriz Ak×k e definida positiva, entao os seus autovalores sao todos positivos, isto

e λi > 0, ∀ i = 1, 2, . . . , k.

Exemplo: Considere a forma quadratica 6x21 + 4x1x2 + 3x2

2, entao

xtA x =[x1 x2

] [ 6 22 3

] [x1

x2

].

Como 6x21 + 4x1x2 + 3x2

2 > 0, ∀ x 6= 0, entao, A =

[6 22 3

]e definida positiva.

Notas:

1) Se xtA x ≥ 0, ∀ x nao nulo, entao A e semi-definida positiva,

2) Se xtA x < 0, ∀ x nao nulo, entao A e definida negativa,

3) Se xtA x ≤ 0, ∀ x nao nulo, entao A e semi-definida negativa.

29


2.10 Operacoes elementares

Operacoes elementares sao transformacoes aplicadas nas linhas e colunas de uma matriz, po-

dendo ser do tipo:

i) troca de 2 linhas (ou colunas);

ii) multiplicacao de uma linha (ou coluna) por um esclar;

iii) combinacoes lineares de linhas (ou colunas).

As operacoes elementares podem ser representadas por meio de matrizes que recebem o nome

de matrizes elementares. Por exemplo, considere o operador

P =

1 0 04 1 00 0 1

.Operando numa matriz A3×k, tem como resultado PA que preserva as linhas 1 e 3 e a segunda

linha dada por 4 vezes a linha 1 mais a linha 2.

Exemplo:

PA =

1 0 04 1 00 0 1

1 3 2 −24 2 −3 16 1 8 3

=

1 3 2 −28 14 5 −76 1 8 3

.Resultados:

a) o posto de uma matriz nao e alterado pela aplicacao de operacoes elementares;

b) duas matrizes de mesmo posto e dimensoes sao ditas serem equivalentes;

c) duas matrizes equivalentes podem ser transformadas uma na outra por meio de operacoes

elementares

Sejam matrizes nao singulares P e Q, entao, para alguma matriz A, os produtos PA, AQ e

PAQ tem todas o mesmo posto.

2.11 Matrizes similares

Sejam A e B quadradas de mesmas dimensoes, se existe Q nao singular, tal que:

B = Q−1AQ,

entao A e B sao chamadas de similares e a transformacao Q−1AQ e chamada transformacao

similar.

30


Resultados:

i) Os determinantes de matrizes similares sao iguais; no caso, |A| = |B|;ii) Matrizes similares tem mesmos autovalores.

Exemplo 2.1. Sejam

A =[

0.4 0.60.2 0.8

]e Q =

[1 11 −3

].

Entao:

B =[

3/4 1/41/4 1/4

] [0.4 0.60.2 0.8

] [1 11 −3

]=[

1 −1.60 0.2

].

Neste caso, |A| = 0.2 = |B|.

Resultado: Seja Ak×k, entao existe uma matriz Q tal que Q−1AQ = T, em que T e triangular

superior e os autovalores de A serao a diagonal de T.

Teorema 2.7. Se Ak×k e simetrica, entao, seus autovalores serao reais.

Teorema 2.8. Se Ak×k e simetrica, entao, para dois autovalores λi e λj , i 6= j, teremos autovetores

associados xi e xj e

xti xj = 0,

ou seja, xi e xj sao ortogonais.

Teorema 2.9. Se Ak×k e simetrica, entao existe uma matriz P tal que

PtAP = Λ,

em que Λ e diagonal com os autovalores de A.

Exemplo 2.2. Seja

A =[

16 44 10

].

Seus autovalores sao λ1 = 18 e λ2 = 8, com autovetores associados:

e1 =[

2/√

51/√

5

]e e1 =

[1/√

5−2/√

5

],

logo,P =[

2/√

5 1/√

51/√

5 −2/√

5

]

Entao: [2/√

5 1/√

51/√

5 −2/√

5

] [16 44 10

] [2/√

5 1/√

51/√

5 −2/√

5

]=[

18 00 8

]= Λ.

31

3Matrizes particionadas

Uma matriz particionada e uma matriz cujo conteudo e subdividido em submatrizes, ou blocos.

Por exemplo, seja Am×n nao singular, entao, a matriz A particionada em blocos 2 × 2 e definida

por:

A =

A11 A12

m1 × n1 m1 × n2

A21 A22

m2 × n1 m2 × n2

,

em que: m1 +m2 = m e n1 + n2 = n.

O caso geral da particao em blocos `× c e dado por:

A =

A11 A12 . . . A1c

A21 A22 . . . A2c...

.... . .

...

A`1 A`2 . . . A`c

,

sendo Aij de dimensoes mi × nj , i = 1, 2, . . . , ` e j = 1, 2, . . . , c, tal que

∑i=1

mi = m ec∑j=1

ni = n.

Nota 3.1. i) A particao pode ser quadrada, como e o caso 2×2, mas os blocos Aij , i = 1, 2, . . . , `e j = 1, 2, . . . , c, nao sao necessariamente quadrados;

Nota 3.2. ii) Neste material vamos considerar apenas as particoes em blocos 2× 2.

32

Matrizes particionadas Teoria de Matrizes para Estatıstica

3.1 Casos especiais

a) Bloco triangulares inferior (L) e superior (U):

L =[

A11 0A21 A22

],

U =[

A11 A12

0 A22

].

b) Bloco diagonal:

D =[

A11 00 A22

],

c) Simetrica:

A =[

A11 A12

At12 A22

],

com A11 e A22 simetricas.

d) Transposta:

At =[

At11 At

21At

12 At22

].

3.2 Operacoes com matrizes particionadas

a) Traco: seja A particionada em blocos 2× 2, entao o traco de A pode ser escrito por

traço(A) = traço(A11) + traço(A22).

b) Soma: Sejam A e B com mesmas dimensoes, particionadas em blocos 2 × 2, tais que seus

blocos equivalentes tambem tem mesmas dimensoes, entao:

A + B =[

A11 + B11 A12 + B12

A21 + B21 A22 + B22

].

b) Produto: Sejam Am×n e Bn×k, cujas particoes tem dimensoes compatıveis para o produto,

33


ou seja, A e B sao do tipo:

Am×n =

A11 A12

m1 × n1 m1 × n2

A21 A22

m2 × n1 m2 × n2

e Bm×n =

B11 B12

n1 × k1 n1 × k2

B21 B22

n2 × k1 n2 × k2

,

em que: m1 + m2 = m, n1 + n2 = n e k1 + k2 = k, entao o produto entre A e B e definido

por:

Cm×k = AB =[

A11B11 + A12B21 A11B12 + A12B22

A21B11 + A22B21 A21B12 + A22B22

]

Cm×k =

C11 C12

m1 × k1 m1 × k2

C21 C22

m2 × k1 m2 × k2

.

Exemplo 3.1. Sejam duas matrizes A e B, tais que:

A5×5 =

1 2 4 2 1−1 3 0 −3 1

2 −2 1 0 −12 1 3 1 0−2 0 1 1 −1

,

B5×6 =

−1 0 3 4 3 03 1 1 −3 2 00 3 1 0 −1 1−1 −1 0 −2 −1 −1

1 3 3 2 1 2

.

Fazendo os produtos parciais, temos:

A11B11 + A12B21 =

4 15

14 9−9 −2

,

34


A11B12 + A12B22 =

12 −4 2 43 −5 7 52 12 0 −1

,

A21B11 + A22B21 =[

0 90 −1

],

A21B12 + A22B22 =[

10 3 4 2−8 −12 −9 −2

].

Portanto, o produto AB e dado por:

AB5×6 =

4 15 12 −4 2 414 9 3 −5 7 5−9 −2 2 12 0 −1

0 9 10 3 4 20 −1 −8 −12 −9 −2

�

3.3 Decomposicao LDU

A decomposicao LDU trata-se de um processo de diagonalizacao de uma matriz particionada,

em que:

� L e uma matriz bloco triangular inferior;

� D e uma matriz bloco diagonal;

� U e uma matriz bloco triangular superior.

Assim sendo, dada uma a matriz A nao singular, podemos escrever

A = L D U e D = L−1 A U−1.

Seja A dada por:

A =[

A11 A12

A21 A22

].

i) Transformamos A numa matriz bloco triangular superior por meio da operacao

[I 0

−A21A−111 I

] [A11 A12

A21 A22

]=[

A11 A12

0 F

], (3.1)

em que F = A22 −A21A−111 A12.

35


ii) De maneira semelhante, podemos transformar A numa matriz bloco triangular inferior fa-

zendo [A11 A12

A21 A22

] [I −A−1

11 A12

0 I

]=[

A11 0A21 F

],

com F definido da mesma forma como no caso anterior.

iii) Combinando as duas operacoes anteriores, ou seja, pre-multiplicando a matriz A pela ma-

triz dada em (i) e pos-multiplicando pela matriz em (ii), temos como resultado uma matriz

diagonal [I 0

−A21A−111 I

] [A11 A12

A21 A22

] [I −A−1

11 A12

0 I

]=[

A11 00 F

].

E facil mostrar que (fica como exercıcio)

[I 0

−A21A−111 I

]−1

=[

I 0A21A−1

11 I

]= L,

e que

[I −A−1

11 A12

0 I

]−1 [I A−1

11 A12

0 I

]= U.

Desta forma, a decomposicao L D U de A e dada por:[I 0

A21A−111 I

] [A11 00 F

] [I A−1

11 A12

0 I

]= A.

Exemplo 3.2. Considere a matriz A particionada em blocos 2× 2

A5×5 =

1 1 2 11 2 0 23 0 2 11 3 1 −1

.

36


Desta forma, temos

A11 =[

1 11 2

]e |A11| = 1,

A22 =[

2 11 −1

]e |A22| = −3,

cujas inversas sao dadas por:

A−111 =

[1 11 2

],

A−122 = 1

3

[2 11 −1

].

A matriz F, definida em (3.1), e dada por

F = A22 −A21A−111 A12

=[−10 1

3 −4

].

Das relacoes acima, temos, ainda, que

A21A−111 =

[6 −3−1 2

],

A−111 A12 =

[4 0−2 1

].

Portando, as matrizes L, U e D da decomposicao LDU de A sao dadas por

L =

1 0 0 00 1 0 06 3 1 0−1 2 0 1

,

37


U =

1 0 4 00 1 −2 10 0 1 00 0 0 1

,

D =

1 1 0 01 2 0 00 0 −10 10 0 3 4

�

3.4 Rank, ou posto, de matrizes particionadas

Seja a matriz A particionada em blocos 2× 2, entao,

a) se A11 nao e singular, rank(A) = rank(A11) + rank(F);

b) se A22 nao e singular, rank(A) = rank(A22) + rank(G),

em que

F = A22 −A21A−111 A12

G = A11 −A12A−122 A21

Prova item (a): Se duas matrizes L e U nao sao singulares entao das secoes (2.10) e (3.3)

segue-se que:

rank(A) = rank(D) = rank(A11) + rank(F)

.

A prova do item (b) segue reaciocınio semelhante, com a diagonalizacao da decomposicao LDU

partindo de A22 como pivo.

3.5 Determinante de matrizes particionadas

Resultado: Considere uma matriz A particionada em blocos 2 × 2 em que A11 e A22 sejam

quadradas. Se A for bloco triangular superior, bloco triangular inferior ou bloco diagonal, ou seja,

A =[

A11 A12

0 A22

], A =

[A11 0A21 A22

]ou A =

[A11 00 A22

].

38


entao, segue-se que

|A| = |A11| · |A22|.

Seja A =[

A11 A12

A21 A22

], entao |A| = |A11| · |A22 −A21A−1

11 A12|, ou seja,

det(A) = det(A11) · det(F).

Prova: Podemos provar a relacao acima a partir da diagonalizacao de A, porem, vamos fazer

a demonstracao usando uma proposicao diferente. Seja a matriz C dada por

C =[

A−111 −A−1

11 A12

0 I

],

entao, segue-se que |C| = |A−111 | · |I| = |A

−111 |.

Como podemos escrever |A| = |A11| · |A| · |A−111 |, logo

|A| = |A11| ·∣∣∣∣∣ A11 A12

A21 A22

∣∣∣∣∣ ·∣∣∣∣∣ A−1

11 −A−111 A12

0 I

∣∣∣∣∣

|A| = |A11| ·∣∣∣∣∣[

A11 A12

A21 A22

]·[

A−111 −A−1

11 A12

0 I

]∣∣∣∣∣

|A| = |A11| ·∣∣∣∣∣ I 0

A21A−111 A22 −A21A−1

11 A12

∣∣∣∣∣

|A| = |A11| ·∣∣∣A22 −A21A−1

11 A12∣∣∣ �

Exemplo 3.3. Considere a matriz do Exemplo (3.2). Como

A11 =[

1 11 2

]e F =

[−10 1

3 −4

],

39


entao, o determinante da matriz A e dado por:

|A| =∣∣∣∣∣ 1 1

1 2

∣∣∣∣∣ ·∣∣∣∣∣ −10 1

3 −4

∣∣∣∣∣ = (1) · (37) = 37.

Nota 3.3. Com um raciocınio semelhante, mostra-se que |A| = |A22| · |A11−A12A−122 A21|, ou seja,

det(A) = det(A22) · det(G).

3.6 A inversa de uma matriz particionada

Seja |A11| 6= 0 e |A22| 6= 0, os resultados a seguir sao validos.

i) A−111 e A−1

22 existem;

ii)(A11 −A12A−1

22 A21)−1

e(A22 −A21A−1

11 A12)−1

existem;

iii) Com isso, A−1 pode ser escrita como:

A−1 =

(A11 −A12A−1

22 A21)−1

−A−111 A12

(A22 −A21A−1

11 A12)−1

−A−122 A21

(A11 −A12A−1

22 A21)−1 (

A22 −A21A−111 A12

)−1

. (3.2)

Prova: Considere a matriz B, inversa de A, isto e AB = I, entao, B11 e B22 nao sao singulares.

Desta forma, temos que

AB =[

A11B11 + A12B21 A11B12 + A12B22

A21B11 + A22B21 A21B12 + A22B22

]=[

I 00 I

].

Logo, temos as seguintes relacoes entre as partes de A e as submatrizes B11 e B21A11B11 + A12B21 = I

A21B11 + A22B21 = 0

40


Isolando B21 na segunda equacao, temos

A21B11 + A22B21 = 0

A22B21 = −A21B11

B21 = −A−122 A21B11

Asim, podemos obter B11 substituindo B21 na primeira equacao, ou seja,

A11B11 −A12(A−122 A21B11) = I

(A11 −A12A−122 A21)B11 = I

B11 = (A11 −A12A−122 A21)−1

B11 = G−1

Com isso B21 e dado por:

B21 = −A−122 A21(A11 −A12A−1

22 A21)−1

B21 = −A−122 A21G−1

De maneira analoga podemos calcular B12 e B22 a partir deA11B12 + A12B22 = 0

A21B12 + A22B22 = I

De onde obtemos:{B22 = (A22 −A21A−1

11 A12)−1

B22 = F−1 e

{B12 = −A−1

11 A12(A22 −A21A−111 A12)−1

B12 = −A−111 A12F−1

Portanto, com as submatrizes B11, B12, B21 e B22 obtemos a inversa de A como em (3.2) �

41

4Decomposicao de matrizes

4.1 Decomposicao espectral

Seja a matriz Ak×k, simetrica, entao A pode escrita por:

A =k∑i=1

λi ei eti.

Exemplo:

A =[

2.2 0.40.4 2.8

], entao

λ1 = 3, e1 =

1√5

2√5

;

λ2 = 2, e2 =

2√5−1√

5

.Logo,

A = 3[

1/√

52/√

5

] [ 1√5,

2√5

]+ 2

[2/√

5−1/√

5

] [ 2√5,−1√

5

]

A =[

3/5 6/56/5 12/5

]+[

8/5 −4/5−4/5 2/5

]

A =[

2.2 0.40.4 2.8

].

Vamos definir uma matriz U, ortogonal, cujas colunas sao formadas pelos autovetores e1, e2,

42

Decomposicao de matrizes Teoria de Matrizes para Estatıstica

. . ., ek e, da mesma forma, uma matriz ortogonal V, tal que V = Ut, ou seja

U =[

e1 | e2 | . . . | ek], e

V = Ut =

et

1

et2

...

etk

.

Definindo, ainda, uma matriz diagonal formada pelos autovalores λ1, λ2, . . ., λk, ou seja,

Λ =

λ1 0 · · · 00 λ2 · · · 0...

.... . .

...

0 0 · · · λk

,

podemos escrever

A = U Λ V ou A = U Λ Ut.

No caso 2×2, temos

U =[

e1 | e2]

e Λ =[λ1 00 λ2

].

Desta forma, uma matriz A2×2 pode ser representada por

A =[

e1 | e2] [ λ1 0

0 λ2

] [et

1

et2

]

A = λ1 e1 et1 + λ2 e2 et

2.

Exemplo: No exemplo anterior temos

A =[

2.2 0.40.4 2.8

], U =

[1/√

5 2/√

52/√

5 −1/√

5

]e Λ =

[3 00 2

].

Casos especiais:

43


a) Matriz inversa: a inversa de uma matriz Ak×k, simetrica, pode ser obtida fazendo

A−1 =k∑i=1

1λi

ei eti,

ou ainda,

A−1 = U Λ−1Ut.

b) Matriz raiz quadrada: a matriz raiz quadrada de uma matriz Ak×k, definida positiva, e

uma matriz tal que A1/2A1/2 = A, podendo ser obtida de

A1/2 =k∑i=1

√λi ei et

i,

ou, equivalentemente,

A1/2 = UΛ1/2Ut,

em que Λ1/2 e dada por

Λ1/2 =

√λ1 0 · · · 00

√λ2 · · · 0

......

. . ....

0 0 · · ·√λk

.

Outras relacoes envolvendo a matriz raiz quadrada sao apresentadas a seguir:

• A−1/2 = (A1/2)−1 = UΛ−1/2Ut;

• A−1/2A−1/2 = A−1.

Exemplo: Considere a matriz A =[

2.2 0.40.4 2.8

],

entao, U =[

1/√

5 2/√

52/√

5 −1/√

5

]e Λ =

[3 00 2

].

Desta forma, fazendo Λ1/2 =[ √

3 00√

2

], temos

A1/2 =[

1/√

5 2/√

52/√

5 −1/√

5

] [ √3 0

0√

2

] [1/√

5 2/√

52/√

5 −1/√

5

]

A1/2 =

(√

3 + 4√

2)5

(2√

3− 2√

2)5

(2√

3− 2√

2)5

(4√

3 +√

2)5

.

44


A matriz A1/2 e a matriz raiz quadrada de A sendo que, de fato

A1/2 A1/2 =

(√

3 + 4√

2)5

(2√

3− 2√

2)5

(2√

3− 2√

2)5

(4√

3 +√

2)5

(√

3 + 4√

2)5

(2√

3− 2√

2)5

(2√

3− 2√

2)5

(4√

3 +√

2)5

=[

2.2 0.40.4 2.8

]= A.

Agora, fazendo Λ−1/2 =[

1/√

3 00 1/

√2

], temos

A−1/2 =[

1/√

5 2/√

52/√

5 −1/√

5

] [1/√

3 00 1/

√2

] [1/√

5 2/√

52/√

5 −1/√

5

]

A−1/2 =

( 1

5√

3+ 4

5√

2

) ( 25√

3− 2

5√

2

)( 2

5√

3− 2

5√

2

) ( 45√

3+ 1

5√

2

) ,

sendo assim, teremos

A−1/2 A−1/2 = 16

[2.8 −0.2−0.2 2.2

]= A−1.

4.2 Decomposicao em valores singulares

Seja a matriz Am×k uma matriz de valores reais. Existem matrizes Um×m e Vk×k, ortogonais,

tais que

A = UΣVt,

em que Λ e uma matriz do tipo

Σ =[

Σr 00 0

]m×k

, com r = posto de A,

e Σr e uma matriz diagonal com os r valores singulares de A.

A decomposicao em valores singulares pode ser expressa numa relacao matricial que depende

do posto da matriz.

Considere Am×k e seja r ≤ min(m, k), rank(A). Entao, existem r constantes positivas, ou

valores singulares, σ1 =√λ1, σ2 =

√λ2, . . . , σr =

√λr, em que λi > 0, i = 1, 2, . . . , r sao os r

autovalores positivos de AtA.

Existem, ainda, r autovetores v1,v2, . . . ,vr, de dimensao k × 1 e r autovetores u1,u2, . . . ,ur,

45


de dimensao m× 1, tal que

A =r∑i=1

σi ui vti = Ur Σr Vtr,

em que Ur = [u1 | u2 | · · · | ur] e Vr = [v1 | v2 | · · · | vr], sao matrizes ortogonais e Σr e uma

matriz diagonal do tipo

Σr =

σ1 0 · · · 00 σ2 · · · 0...

.... . .

...

0 0 · · · σr

.

Nessa situacao, λ1 ≥ λ2 ≥ . . . ≥ λr > 0 e v1,v2, . . . ,vr, sao os r primeiros pares de autovalores

e autovetores de AtA, obtidos de

AtA vi = λi vi,

em que λ1 > λ2 > . . . > λr > 0, sao valores estritamente positivos.

Os autovetores ui, por sua vez, estao associados aos autovetores vi, i = 1, 2, . . . , r, pela relacao

ui = 1σi

A vi.

Desta forma, a decomposicao em valores singulares pode ser escrita pela expressao

A = Ur Σr Vtr.

Nota 4.1. Notas

a) Alternativamente, ui, i = 1, 2, . . . , r, sao os r autovetores associados aos mesmos autovalores

positivos λ1 ≥ λ2 ≥ . . . ≥ λr > 0 de A At, em que σi =√λi, i = 1, 2, . . . , r sao os respectivos

valores singulares.

Os autovetores vi, por sua vez, estao relacionados aos autovetores ui, i = 1, 2, . . . , r, pela

relacao

vi = 1σi

At ui.

b) Da decomposicao em valores singulares temos, ainda, as seguintes relacoes:A vi = σi ui.

At ui = σi vi.

46


c) Uma forma de representar a decomposicao em valores singulares e atraves da decomposicao

polar, em que a matriz Am×k pode ser representada por A = P Q, com P = U Σ Ut e

Q = U Vt. De fato,

A = U Σ Vt

= U Σ (Ut U) Vt

= (U Σ Ut) (U Vt)

= P Q.

Exemplo 4.1. Seja A =

1 10 11 0

, entao, At A e dada por

At A =[

1 0 11 1 0

] 1 10 11 0

=[

2 11 2

].

O posto de A e r = 2, assim, os dois autovalores diferentes de 0 de At A sao λ1 = 3 e λ2 = 1.

Os autovetores associados sao

v1 =[

1/√

21/√

2

]e v2 =

[1/√

2−1/√

2

]

respectivamente.

Os autovetores u1 e u2, por sua vez, sao obtidos de

u1 = 1√3

1 10 11 0

[

1/√

21/√

2

]=

2/√

61/√

61/√

6

,

u2 = 1√1

1 10 11 0

[

1/√

2−1/√

2

]=

0

−1/√

21/√

2

.

47


Assim sendo, a matriz A pode ser escrita como

A = Ur Σr Vtr, ou seja,

A =

2/√

6 01/√

6 −1/√

21/√

6 1/√

2

[ √

3 00 1

] [1/√

2 1/√

21/√

2 −1/√

2

].

A =

1 10 11 0

A decomposicao polar de A e expressa por:

P = U Σ Ut = 1√12

4 2 22 (1 +

√3) (1−

√3)

2 (1−√

3) (1 +√

3)

Q = U Vt = 1√12

2 2

(1−√

3) (1 +√

3)(1 +

√3) (1−

√3)

�

Exemplo 4.2. Seja A =

4 38 68 −9

, entao, A At e dada por

A At =

4 38 68 −9

[

4 8 83 6 −9

]=

25 50 550 100 105 10 145

.Os autovalores diferentes de 0 de A At sao λ1 = 150 e λ2 = 120 com autovetores associados,

u1 =

−1/√

30−2/√

30−5/√

30

e u2 =

1/√

62/√

6−1/√

6

respectivamente.

48


Os vetores v1 e v2, por sua vez, sao obtidos de

v1 = 1√150

[4 8 83 6 −9

] −1/√

30−2/√

30−5/√

30

=[−2/√

51/√

5

],

v2 = 1√120

[4 8 83 6 −9

] 1/√

62/√

6−1/√

6

=[−1/√

5−2/√

5.

].

Assim sendo, a matriz A pode ser escrita como

A = U Λ Vt, ou seja,

A =

−1/√

30 −1/√

6−2/√

30 −2/√

6−5/√

30 1/√

6

[ √

150 00√

120

] [−2/√

5 1/√

5−1/√

5 −2/√

5

].

A =

4 38 68 −9

�

4.3 Decomposicao LU

Seja a matriz An×n, a decomposicao LU e uma fatoracao do tipo A = LU, em que L e uma

matriz triangular inferior cujos elementos da diagonal sao iguais a 1 e U uma matriz triangular

superior, ou seja

1 0 0 · · · 0`21 1 0 · · · 0`31 `32 1 · · · 0...

......

. . ....

`n1 `n2 `n3 · · · 1

u11 u12 u13 · · · u1n

0 u22 u23 · · · u2n

0 0 u33 · · · u3n...

......

. . ....

0 0 0 · · · unn

=

a11 a12 a13 · · · a1n

a21 a22 a23 · · · a2n

a31 a32 a33 · · · a3n...

......

. . ....

an1 an2 an3 · · · ann

.

(4.1)

Definicao 4.1. Menores principais: Seja uma matriz quadrada An×n dada em (4.2), entao, o

menor principal de A de ordem k, denotado por Ak, e dado pela submatriz formada pelas k

49


primeiras linhas e k primeiras colunas de A, ou seja,

Ak =

a11 a12 · · · a1k

a21 a22 · · · a2k...

.... . .

...

ak1 ak2 · · · akk

, k = 1, 2, . . . , n.

Os menores principais de uma matriz assim definidos tambem sao chamados de menores prin-

cipais lıderes, por serem formados pelas suas k primeiras linhas e k primeiras colunas.

Teorema 4.1. Seja uma matriz quadrada An×n e Ak seu menor principal de ordem k. Se |Ak| 6= 0,

∀ k ≤ n − 1, entao, existe uma unica matriz triangular inferior L, cujos elementos da diagonal

sao iguais a 1, e, uma unica matriz triangular superior U tal que A = LU.

Alem disso, |A| = u11 · u22 · · · unn.

Prova: A prova do teorema (4.1) e feita por inducao.

4.3.1 Determinacao das matrizes L e U

As matrizes U e L podem ser obtidas aplicando-se a eliminacao Gaussiana (ou escalonamento)

em A, transformando-a na matriz triangular superior U. Nesse processo, os elementos da diagonal

de U serao os pivos de A.

Com as operacao nas linhas de A para escalonar as suas colunas, os valores utilizados como mul-

tiplicadores, com os sinais trocados, devem ocupar suas posicoes respectivas numa matriz triangular

inferior que, no final do processo, sera a matriz L.

Neste processo e comum colocar a matriz identidade ao lado da matriz A, que sera escalonada.

Os multiplicadores (com os sinais trocados) serao, entao, alocados nas respetivas posicoes da matriz

identidade, abaixo da sua diagonal. No final do processo a matriz A sera transformada na matriz

triangular superior U e, a identidade, na matriz triangular inferior L.

O exemplo a seguir ilustra o processo descrito acima.

Exemplo: Considere a matriz A

A =

2 1 4 63 −2 5 0−1 2 −3 4

2 2 −2 3

.

50


a) Montar a matriz[

I A]:

1 0 0 0 2 1 4 60 1 0 0 3 −2 5 00 0 1 0 −1 2 −3 40 0 0 1 2 2 −2 3

b) Multiplicar a primeira linha por (−3/2) e somar a segunda linha;

multiplicar a primeira linha por (1/2) e somar a terceira linha e

multiplicar a primeira linha por (−1) e soma a quarta linha:1 0 0 0 2 1 4 6

3/2 1 0 0 0 −7/2 −1 −9−1/2 0 1 0 0 5/2 −1 7

1 0 0 1 0 1 −6 −3

c) Multiplicar a segunda linha por (5/7) e somar a terceira linha e

multiplicar a segunda linha por (2/7) e somar a quarta linha:1 0 0 0 2 1 4 6

3/2 1 0 0 0 −7/2 −1 −9−1/2 −5/7 1 0 0 0 −12/7 4/7

1 −2/7 0 1 0 0 −44/7 −39/7

d) Multiplicar terceira linha por (−11/3) e somar a quarta linha:

1 0 0 0 2 1 4 63/2 1 0 0 0 −7/2 −1 −9−1/2 −5/7 1 0 0 0 −12/7 4/7

1 −2/7 11/3 1 0 0 0 −23/3

Desta forma, temos:

1 0 0 03/2 1 0 0−1/2 −5/7 1 0

1 −2/7 11/3 1

2 1 4 60 −7/2 −1 −90 0 −12/7 4/70 0 0 −23/3

= A.

51


4.3.2 O algoritmo de Crout

As matrizes L e U podem ser obtidas pelo algoritmo de Crout, num processo com 2n−1 passos,

sendo que, as colunas de U e as linhas de L sao determinadas alternadamente em cada um dos

passos (Figura 4.1).

Figura 4.1: Determinacao das matrizes L e U

Seja A = LU, entao:

1 0 0 · · · 0`21 1 0 · · · 0`31 `32 1 · · · 0...

......

. . ....

`n1 `n2 `n3 · · · 1

u11 u12 u13 · · · u1n

0 u22 u23 · · · u2n

0 0 u33 · · · u3n...

......

. . ....

0 0 0 · · · unn

= A.

i) 1o passo: do produto da 1a linha de L com as colunas de U, temos que

u11 = a11,

u12 = a12,...

u1n = a1n,

⇒ u1j = a1j , j = 1, 2, . . . , n.

52


ii) 2o passo: do produto das linhas 2 a n, de L, com a 1a coluna de U, obtemos

`21u11 = a21 ⇒ `21 = a21u11

,

`31u11 = a31 ⇒ `31 = a31u11

,

......

...

`n1u11 = an1 ⇒ `n1 = an1u11

,

⇒ ì1 = ai1u11

i = 2, . . . , n.

iii) 3o passo: fazendo o produto da 2a linha de L com as colunas 2 a n de U, temos que

`21u12 + u22 = a22, ⇒ u22 = a22 − `21u12,

`21u12 + u23 = a23, ⇒ u23 = a23 − `21u13,...

......

`21u1n + u2n = a2n, ⇒ u2n = a2n − `21u1n,

⇒ u2j = a2j − `21u1j , j = 2, . . . , n.

iv) 4o passo: do produto das linhas 3 a n, de L, com a 2a coluna de U, obtemos

`31u12 + `32u22 = a32 ⇒ `32 = a32 − `31a12u22

,

`41u12 + `42u22 = a42 ⇒ `42 = a42 − `41a12u22

,

......

...

`n1u12 + `n2u22 = an2 ⇒ `n2 = an2 − `n1a12u22

,

⇒ ì2 = ai2 − ì1a12u22

, i = 3, . . . , n.

item[iv)]E o processo deve continuar ate o passo 2n − 1, quando sera obtido o elemento unn

de U.

53


Desta forma, termos as seguintes formulas gerais para o processo de determinacao de L e U:

u1j = a1j , j = 1, 2, . . . , n;

ìj = aij −∑i−1k=1 ìkakjujj

, j = 1, 2, . . . , n; i > j;

uij = aij −j−1∑k=1

ìkukj , j = 2, 3, . . . , n; i ≤ j.

lembrando que o processo de determinacao de ìj e uij deve ser alternado, para cada valor de j.

Exemplo 4.3. Considere a matriz

A =

2 1 4 63 −2 5 0−1 2 −3 4

2 2 −2 3

,

do processo de determinacao de L e U, temos:

i) 1o passo:

u11 = a11 = 2;

u12 = a12 = 1;

u13 = a13 = 4;

u14 = a14 = 6.

ii) 2o passo:

`21u11 = 3 ⇒ `21 = a21a11

= 32;

`31u11 = −1 ⇒ `31 = a31a11

= −12;

`41u11 = 2 ⇒ `41 = a41a11

= 1.

54


iii) 3o passo:

`21u12 + u22 = −2 ⇒ u22 = −2− `21a12 = −2− 32 = −7

2;

`21u13 + u23 = 5 ⇒ u23 = 5− `21a13 = 5− 6 = −1;

`21u14 + u24 = 0 u24 = −`21a14 = −9.

iv) 4o passo:

`31u12 + `32u22 = 2

(−1

2

)(1) + `32

(−7

2

)= 2 ⇒ `32 =

(−2

7

)(2 + 1

2

)= −5

7

`41u12 + `42u22 = 2

(1)(1) + `42

(−7

2

)= 2 ⇒ `42 =

(−2

7

)(2− 1) = −2

7

v) 5o passo:

`31u13 + `32u23 + u33 = −3

(−1

2

)(4) +

(−5

7

)(−1) + u33 = −3 ⇒ u33 = −3 + 2

(−5

7

)= −12

7

`31u14 + `32u24 + u34 = 4

(−1

2

)(6) +

(−5

7

)(−9) + u34 = 4 ⇒ u34 = 4 + 3

(−45

7

)= 4

7

vi) 6o passo:`41u13 + `42u23 + `43u33 = −2

(1)(4) +(−2

7

)(−1) + `43

(−12

7

)= −2 ⇒ `43 =

(− 7

12

)(−2− 30

7

)= 11

3

55


vii) 7o passo:`41u14 + `42u24 + `43u34 + u44 = 3

(1)(6) +(−2

7

)(−9) +

(113

)(47

)+ u44 = 3 ⇒ u44 = 3− 6− 18

7 −4421 = −23

3

Desta forma, temos:

L =

1 0 0 0

3/2 1 0 0−1/2 −5/7 1 0

1 −2/7 11/3 1

e U =

2 1 4 60 −7/2 −1 −90 0 −12/7 4/70 0 0 −23/3

.

E, ainda:

|A| = u11 · u22 · u33 · u44

|A| = (2) ·(−7

2

)·(−12

7

)·(−23

3

)

|A| = −92.

4.4 Decomposicao de Cholesky

Seja a matriz An×n, simetrica e definida positiva, nessa condicao A pode fatorada na forma

A = GGt, em que G e uma matriz triangular inferior.

g11 0 · · · 0g21 g22 · · · 0...

.... . .

...

gn1 gn2 · · · gnn

g11 g21 · · · gn1

0 g22 · · · gn2...

.... . .

...

0 0 · · · gnn

=

a11 a12 · · · a1n

a21 a22 · · · a2n...

.... . .

...

an1 an2 · · · ann

.

Observe que a fatoracao de Cholesky e equivalente a decomposicao LU, em que U = Gt e

L = G, com a diagonal principal nao necessariamente formada por 1’s.

Da decomposicao de Cholesky remos, ainda, que:

|A| = |G| |Gt| = (g11 · g22 · · · gnn)2 .

56


Como para a decomposicao de cholesky a matriz A deve ser definida positiva, a seguir vamos

apresentar a definicao de matriz definida positiva e uma forma de verificacao desta condicao dada

pelo criterio de Sylvestre.

Definicao 4.2. Uma matriz quadrada An×n e definida positiva se, e so se,

xtAx > 0, ∀ vetor x 6= 0.

Alem da Definicao (4.2), podemos verificar se uma matriz e definida positiva pelo criterio de

Sylvestre, apresentado a seguir:

Criterio 4.1. Criterio de Sylvestre: Uma matriz quadrada An×n e definida positiva se, e so se, os

seus menores principais nao forem singulares, ou seja

|Ak| 6= 0, k = 1, 2, . . . , n.

4.4.1 Determinacao da matriz G

De maneira semelhante a decomposicao LU, a matriz G pode ser obtida diretamente do produto

GGt, num processo com 2n−1 passos, sendo que, os elementos da diagonal de G e as suas colunas

sao determinadas alternadamente (Figura 4.2).

Figura 4.2: Determinacao da matriz G

Para a determinacao da matriz G vamos separar os elementos da diagonal daqueles fora da

diagonal, iniciando o processo pela sua primeira coluna. O processo deve, entao, prosseguir alter-

nadamente na determinacao dos elementos da diagonal e das respectivas coluna. As formulas gerais

57


sao apresentadas abaixo:

Para a 1a coluna:g11 =

√a11;

g1j = ai1g11

, i = 2, 3, . . . , n.

Para as demais colunas:

gii =

√√√√aii − i−1∑k=1

g2ik, i = 2, 3, . . . , n

gij = 1gjj

aij − j−1∑k=1

gik gjk

, 2 ≤ j < i.

Exemplo 4.4. Considere a matriz simetrica

A =

4 2 −42 10 4−4 4 9

.Verificando se a matriz A e definida positiva:

A1 = 4 ⇒ |A1| = 4 > 0;

A2 =

4 2

2 10

⇒ |A2| = 36 > 0;

A3 = A ⇒ |A3| = |A| = 36 > 0.

Portanto, pelo criterio de Sylvestre temos que a matriz A e definida positiva.

Calculando os elementos da matriz G:

i) 1o passo:

g11 =√a11 =

√4 = 2.

ii) 2o passo:g21 = a21

2 = 22 = 1;

g31 = a312 = −4

2 = −2.

58


iii) 3o passo:

g22 =√a22 − g2

21 =√

10− 1 = 3.

iv) 4o passo:

g32 = a32 − g31 g21g22

= 4− (−2) · (1)3 = 6

3 = 2;

v) 5o passo:

g33 =√a33 − (g2

31 + g232) =

√9− (4 + 4) = 1.

A matriz G e, portanto, dada por:

G =

2 0 01 3 0−2 2 1

.E o determinante de A e:

|A| = |G|2 = (2 · 3 · 1)2 = (6)2 = 36

.

59

5Vetores aleatorios

5.1 Vetores aleatorios

Um vetor Xp×1, do tipo

X =

X1

X2...

Xp

e um vetor aleatorio se X1, X2, . . . , Xp forem variaveis aleatorias (va’s).

Nota 5.1. Como um vetor aleatorio e uma representacao generalizada de uma variavel aleatoria,

aqui tambem iremos denota-los por va �

Nota 5.2. Da mesma forma, uma matriz aleatoria e uma matriz cujos elementos sao va’s �

Exemplo 5.1. Num estudo sobre a qualidade do ar foram observadas as variaveis X1: radiacao

solar; X2: velocidade do ar; X3: temperatura e X4: concentracao de ozone.

Desta forma, essas variaveis formam um vetor aleatorio de dimensao 4, dado por

X =

X1

X2

X3

X4

�

A distribuicao de probabilidade conjunta de um vetor aleatorio e definida por

i) p(x) = p(x1, . . . , xp) = P (X1 = x1, . . . , Xp = xp), se X for composto por variaveis aleatorias

discretas e,

ii) f(x) = f(x1, . . . , xp), se X for composto por variaveis aleatorias contınuas.

As distribuicoes marginais das variaveis aleatorias X1, X2, . . . , Xp sao calculadas por

60

Vetores aleatorios Teoria de Matrizes para Estatıstica

i) Caso discreto

pk(xk) =∑

x1,...,xp

xi 6=xk

P (X1 = x1, . . . , Xp = xp), k = 1, 2, . . . , p,

ii) Caso contınuo

fk(xk) =∫x1,...,xp

xi 6=xk

f(x1, . . . , xp)dx1 . . . dxp, k = 1, 2, . . . , p.

Combinacoes lineares de variaveis aleatorias

Em muitas aplicacoes estatısticas, especialmente no contexto multvariado, trabalha-se com com-

binacoes lineares de va’s. Uma combinacao linear dos componentes de um vetor aleatorio pode ser

representada pelo produto interno entre um vetor de coeficientes a e o vetor X.

Seja um vetor aleatorio X e um vetor de coeficientes lineares a, entao, temos uma combinacao

linear dada por

Y = atX =p∑i=1

ai Xi = a1 X1 + a2 X2 + . . .+ ap Xp.

Exemplo 5.2. Considere o vetor Xt = (X1, X2) e os coeficientes at = (1/2, 1/2), entao, a combi-

nacao linear

Y = atX = X1 + X22 ,

representa a media entre X1 e X2 �

Considere, agora, vetor aleatorio X e k combinacoes lineares dadas pelos vetores de coeficientes

a1,a2, . . . ,ak, assim, temos que

Y1 = at1X = a11 X1 + a12 X2 + . . .+ a1p Xp

Y2 = at2X = a21 X1 + a22 X2 + . . .+ a2p Xp

......

Yk = atkX = ak1 X1 + ak2 X2 + . . .+ akp Xp

Agrupando as variaveis Y1, Y2, . . . , Yk num vetor aleatorio Y, os coeficientes das combinacoes

lineares devem ser dispostos como linhas numa matriz de coeficientes A, ou seja

A =

at

1

at2...

atk

.

61


Desta forma, as combinacoes lineares sao escritas como

Y = AX =

at

1Xat

2X...

atkX

.

Exemplo 5.3. Exemplos de aplicacoes com diversas combinacoes lineares podem ser obtidas nas

analises mutivariadas de componentes principais ou correlacao canonica, entre outras �

5.1.1 Valor esperado de um vetor aleatorio

O valor esperado de um vetor aleatorio X e definido por:

E(X) =

E(X1)E(X2)

...

E(Xp)

,

em que E(Xi), i = 1, 2, . . . , p, e o valor esperado da i-esima va.

Normalmente o vetor de medias e denotado por µ, ou seja,

E(X) = µ =

µ1

µ2...

µp

,

sendo que E(Xi) = µi =

∑xi

xipi(xi), se xi for discreta e,

∫xi

xifi(xi), se xi for contınua.

Propriedades

a) Sejam um va X e um vetor de coeficientes a, entao, a combinacao atX tem valor esperado

E(atX) = atE(X).

b) Sejam as combinacoes lineares atX e btY, com X e Y, entao

E(atX + btY) = atE(X) + btE(Y).

c) Comsiderando k combinacoes lineares com uma matriz de coeficientes A, temos

E(A X) = A E(X).

62


Da mesma forma, com dois conjuntos de combinacoes lineares A X e B Y tais que as dimen-

soes das matrizes envolvidas sejam compatıveis, temos

E(A X + B Y) = A E(X) + B E(Y).

Exemplo 5.4.

a) Sejam Xt = (X1, X2, X3) tal que E(X) = (2,−1, 1)t. Se at = (4, 3, 3), entao,

atX = 4X1 + 3X2 + 3X3

e

E(atX) =[

4 3 3]

2−1

1

= 8− 3 + 3 = 8.

b) Com k = 4 combinacoes lineares dadas pelos coeficientes na matriz

A =

2 −1 1

0.5 0 11 2 1−1 1 2

,

as combinacoes lineares sao dadas porY1 = 2X1 −X2 +X3

Y2 = X1/2 +X3

Y3 = X1 + 2X2 +X3

Y4 = −X1 +X2 + 2X3

logo, E(AX) =

2 −1 1

0.5 0 11 2 1−1 1 2

2−1

1

=

621−1

�

5.1.2 Matriz de variancias-covariancias de um vetor aleatorio

Sejam X1 e X2 va’s com µ1 = E(X1) e µ2 = E(X2). Entao, temos que suas respectivas

variancias sao calculadas por

σ21 = V ar(X1) = E[(X1 − µ1)2] = E[(X1 − µ1)(X1 − µ1)] e

σ22 = V ar(X2) = E[(X2 − µ2)2] = E[(X2 − µ2)(X2 − µ2)],

63


e, a covariancia entre X1 e X2, por

σ12 = Cov(X1, X2) = E[(X1 − µ1)(X2 − µ2)].

No contexto multivariado, as quantidades acima sao representadas por uma matriz de variancias

e covariancias (matriz var-cov) denotada por Σ

Σ =[σ2

1 σ12

σ12 σ22

].

Nota 5.3. Observe que a matriz Σ e simetrica cuja diagonal e composta pelas variancias das varia-

veis aleatorias e os elementos fora da diagonal pelas covariancias entre essas variaveis �

Considere o vetor aleatorio X composto pelas va’s X1, X2, . . . , Xp, tal que E(X) = µ, entao, a

matriz var-voc de X e definida por

ΣX = Cov(X) = E[(X− µ)(X− µ)t]

ΣX = E

(X1 − µ1)(X2 − µ2)

...

(Xp − µp)

[

(X1 − µ1) (X2 − µ2) . . . (Xp − µp)]

ΣX = E

(X1 − µ1)2 (X1 − µ1)(X2 − µ2) . . . (X1 − µ1)(Xp − µp)

(X2 − µ2)(X1 − µ1) (X2 − µ2)2 . . . (X2 − µ2)(Xp − µp)...

.... . .

...

(Xp − µp)(X1 − µ1) (Xp − µp)(X2 − µ2) . . . (Xp − µp)2

ΣX =

E[(X1 − µ1)2] E[(X1 − µ1)(X2 − µ2)] . . . E[(X1 − µ1)(Xp − µp)]

E[(X2 − µ2)(X1 − µ1)] E[(X2 − µ2)2] . . . E[(X2 − µ2)(Xp − µp)[...

.... . .

...

E[(Xp − µp)(X1 − µ1)] E[(Xp − µp)(X2 − µ2)[ . . . E[(Xp − µp)2]

.

Ou seja, a matriz var-cov de X e da forma:

ΣX = Cov(X) =

σ2

1 σ12 . . . σ1p

σ12 σ22 . . . σ2p

......

. . ....

σ1p σ2p . . . σ2p

.

64


Propriedades

a) Seja o vetor aleatorio X, tal que Cov(X) = ΣX e a combinacao linear atX. A variancia de

atX e dada por

V ar(atX) = atΣXa.

Prova:

V ar(atX) = E[(atX− atµ)(atX− atµ)t]

V ar(atX) = E[(atX− atµ)(Xta − µta)]

V ar(atX) = E[at(X− µ)(Xt − µt)a]

V ar(atX) = atE[(X− µ)(X− µ)t]a

V ar(atX) = atΣXa �

Ainda: V ar(atX + b) = atΣXa.

b) Considerando k combinacoes lineares com matriz de coeficientes A, temos

Cov(AX) = ACov(X)At = AΣXAt.

Prova: segue o mesmo raciocınio do item anterior.

Exemplo 5.5.

i) No exemplo (5.4), seja a matriz var-cov de X

ΣX =

4 −2 2−2 7 3

2 3 6

,entao, dada a combinacao linear Z = atX, em que at = (4, 3, 3), tem-se

V ar(Z) = ( 4 3 3 )

4 −2 2−2 7 3

2 3 6

433

= 235.

ii) Dada a matriz de coeficientes A =

2 −1 1

0.5 0 11 2 1−1 1 2

,

65


tal que Z = A X, entao, ΣZ = Cov(Z) e dada por

ΣZ =

2 −1 1

0.5 0 11 2 1−1 1 2

4 −2 2−2 7 3

2 3 6

2 0.5 1 −1−1 0 2 1

1 1 1 2

=

39 13 3 −613 9 15 123 15 46 41−6 12 41 43

�

c) Sejam os vetores aleatorios X e Y, com vetores de medias µX e µY , respectivamente. A

matriz de covariancias entre X e Y, denotada por Cov(X,Y), e definida por

Cov(X,Y) = E[(X− µX)(Y− µY)t] = ΣXY .

De (a) e (b) segue-se que:

i) para duas combinacoes lineares atX e btY,

Cov(atX,btY) = atΣXYb;

ii) para dois grupos de combinacoes lineares AX e BY, com dimensoes compatıveis,

Cov(AX,BY) = AΣXYBt.

Obs: A matriz ΣXY nao e necessariamente quadrada.

Exemplo 5.6.

i) Considere o vetor aleatorio Yt = (Y1, Y2) cuja a matriz var-voc e dada por

ΣY =[

6 22 3

]

e seja a combinacao linear T = btY, com bt = (2,−3), entao, a variancia de T e

V ar(T ) = ( 2 −3 )[

6 22 3

](2−3

)= 27.

ii) Considere, agora, k = 2 combinacoes lineares: T1 = Y1 − Y2 e T2 = Y1 + 2Y2. Os

coeficientes de T1 e T2 sao dados pelas linhas da matriz

B =[

1 −11 2

].

66


Desta forma, a matriz var-voc de T = B Y, denotada por ΣT, e calculada por

ΣT = Cov(T) =[

1 −11 2

] [6 22 3

] [1 1−1 2

]=[

5 22 26

].

iii) Assumindo que a matriz de covariancias entre os vetores aleatorios X e Y seja

ΣXY =

2 40 31 −3

,entao, a matriz de covariancias Cov(Z,T), entre Z = A X e T = B Y, e dada por

ΣZT =

2 −1 1

0.5 0 11 2 1−1 1 2

2 40 31 −3

[

1 1−1 2

]=

3 93 0−4 17

7 −14

�

d) Dadas duas combinacoes lineares atX e btY, entao, a variancia de atX + btY e

V ar(atX + btY) = atΣXa + btΣYb + 2atΣXYb, (5.1)

em que ΣX = Cov(X), ΣY = Cov(Y) e ΣXY = Cov(X,Y).

Exemplo 5.7.

Dos Exemplos (5.5) e (5.5), temos que atΣXa = 235 , btΣYb = 27 e, considerando que

atΣXYb = ( 4 3 3 )

2 40 31 −3

(

2−3

)= −26,

entao: V ar(atX + btY) = 235 + 27− 52 = 210 �

5.1.3 Matriz de correlacoes de um vetor aleatorio

A correlacao entre duas va’s Xi e Xj , i, j = 1, 2, . . . , p, e calcular por

ρij = Cor(Xi, Yj) = σij√σ2i σ

2j

,

67


desta forma, a matriz de correlacoes de um va X e dada por

ρX =

1 ρ12 · · · ρ1p

ρ21 1 · · · ρ2p...

.... . .

...

ρp1 ρp2 · · · 1

.

Contudo, dado um va X, entretanto, a matriz de correlacoes pode ser obtida a partir de sua

matriz var-cov ΣX . Tomando a diagonal de ΣX numa matriz VX e extraindo a raiz quadrada,

temos

VX1/2 =

√diag(ΣX) =

√σ2

1 0 · · · 00

√σ2

2 · · · 0...

.... . . 0

0 0 · · ·√σ2p

.

Desta forma, a matriz ρX e dada pela relacao

ρX = (V1/2X )−1 ΣX (V1/2

X )−1,

ou ainda,

ρX = V−1/2X ΣX V−1/2

X .

A matriz de covariancias e, portanto, obtida da relacao

ΣX = V1/2X ρX V1/2

X .

Exemplo 5.8.

i) No exemplo (5.5, i), em que ΣX =

4 −2 2−2 7 3

2 3 6

, a matriz V−1/2X e dada por

V−1/2X =

1/√

4 0 00 1/

√7 0

0 0 1/√

6

.

Desta forma, a matriz de correlacoes do v.a. X e

ρX = V−1/2X ΣX V−1/2

X =

1.0000 −0.3780 0.4082−0.3780 1.0000 0.4629

0.4082 0.4629 1.0000

.

68


ii) Considerando, ainda, o vetor de combinacoes lineares Y de (5.5, ii), a matriz ρY e dada por

ρY = V−1/2Y ΣY V−1/2

Y =

1.0000 0.6939 0.0708 −0.14650.6939 1.0000 0.7372 0.61000.0708 0.7372 1.0000 0.9219−0.1465 0.6100 0.9219 1.0000

.

iii) Sejam dois conjuntos de combinacoes lineares dados por Z = AX e W = BX, para calcular

a correlacao entre os v.a.’s Z e W fazemos:

ΣZW = Cov(AX,BX)

ΣZW = E[(AX−AµX)(BX−BµX)t]

ΣZW = E[(AX−AµX)(XtBt − µtXBt)]

ΣZW = E[A(X− µX)(Xt − µtX)Bt]

ΣZW = AE[(X− µX)(X− µX)t]Bt

ΣZW = AΣXBt.

Por exemplo, sejam os conuntos de combinacoes lineares Z = AX e W = BX, com ΣX e

A dados no exemplo (5.5) e com

B =[

1 1 11 0 −1

],

entao, a matriz de correlacoes entre Z e W e dada por:

ΣZW = AΣXBt

ΣZW =

2 −1 1

0.5 0 11 2 1−1 1 2

4 −2 2−2 7 3

2 3 6

−1 1

0 11 −1

=

−5 −3

3 −112 315 0

.

A matriz de correlacoes entre Z e W e, entao, dada por

ρZW = V−1/2Z ΣZW V−1/2

W =

−0.3269 −0.2774

0.4082 −0.19250.7223 0.25540.9339 0.0000

.

O resultado acima sera mostrado mais detalhadamente com v.a. particionados �

69


5.1.4 Vetores aleatorios particionados

Seja um vetor aleatorio X particionado em dois grupos X(1) e X(2),

X =[

X(1)

X(2)

].

entao, o vetor de medias µ e dado por

µX = E(X) =[E(X(1))E(X(2))

]=[

µ(1)X

µ(2)X

].

Assim sendo, a matriz de variancias e covariancias de X e definida por

ΣX =[

Cov(X(1)) Cov(X(1),X(2))Cov(X(2),X(1)) Cov(X(2))

]

ΣX =

ΣX11ΣX12

ΣtX12

ΣX22

.Considerando dois grupos de combinacoes lineares Y(1) = AX(1) e Y(2) = BX(2), entao, pode-

mos escrever

Y =[

Y(1)

Y(2)

]=[

A 00 B

] [X(1)

X(2)

].

Definindo a matriz C como

C =[

A 00 B

],

entao teremos Y = CX

70


a) Vetor de medias de uma combinacao linear de um v.a. particionado:

E(Y) = E(CX)

E(Y) =[

A 00 B

] [E(X(1))E(X(2))

]

E(Y) =[

AE(X(1))BE(X(2))

]

E(Y) =[

µ(1)Y

µ(2)Y

].

b) Matriz var-cov de uma combinacao linear de um v.a. particionado

ΣY = Cov(Y)

ΣY = Cov(CX)

ΣY = CΣXCt

ΣY =[

A 00 B

] ΣX11ΣX12

ΣtX12

ΣX12

[ A 00 B

]t

ΣY =

AΣX11At AΣX12

Bt

BΣtX12

At BΣX22Bt

ΣY =

ΣY11ΣY12

ΣtY12

ΣY22

.

c) Matriz de correlacoes de uma combinacao linear de um v.a. particionado: Extraindo a diago-

nal de ΣY , particionada, teremos duas matrizes V1/2Y1

=√diag(ΣY11

) e V1/2Y2

=√diag(ΣY22

),

71


tal que

V1/2Y =

V1/2Y1

00 V1/2

Y2

.

Portanto, a matriz de correlacoes do vetor de combinacoes lineares particionado Y = CX e

dado por

ρY = V−1/2Y ΣYV−1/2

Y

ρY =

V−1/2Y1

00 V−1/2

Y2

ΣY11ΣY12

ΣtY12

ΣY22

V−1/2Y1

00 V−1/2

Y2

ρY =

V−1/2Y1

ΣY11V−1/2

Y1V−1/2

Y1ΣY12

V−1/2Y2

V−1/2Y2

ΣtY12

V−1/2Y1

V−1/2Y2

ΣY22V−1/2

Y2

ρY =

ρY11ρY12

ρtY12

ρY22

.

Exemplo 5.9. i) Seja o v.a. X particionado em X(1) = (X1, X2)t e X(2) = (X3, X4)t com

matriz var-cov

ΣX =

4 2 2 12 7 3 02 3 6 11 0 1 4

,

entao, temos que

ΣX11=[

4 22 7

], ΣX22

=[

6 11 4

]e ΣX12

=[

2 13 0

].

Assumindo dois grupos de combinacoes lineares Y(1) = AX(1) e Y(2) = BX(2), tais que

A =

−1 1

0 12 11 2

e B =[

1 −11 1

],

72


a matriz var-cov de Y e calculada por

ΣY =[

A 00 B

]4 2 2 12 7 3 02 3 6 11 0 1 4

[

At 00 Bt

]

ΣY =

A(

4 22 7

)At A

(2 13 0

)Bt

B(

2 31 0

)At B

(6 11 4

)Bt

ΣY =

7 5 1 8 2 05 7 11 16 3 31 11 31 32 5 98 16 32 40 7 92 3 5 7 8 20 3 9 9 2 12

ou seja

ΣY11=

7 5 1 85 7 11 161 11 31 328 16 32 40

, ΣY22=[

8 22 12

]e ΣY12

=

2 03 35 97 9

.

Para o calculo da matriz de correlacoes do v.a. Y temos que

V−1/2Y1

=

1/√

7 0 0 00 1/

√7 0 0

0 0 1/√

31 00 0 0 1/

√40

e V−1/2Y2

=[

1/√

8 00 1/

√2

].

73


Desta forma,

ρY =

V−1/2Y1

00 V−1/2

Y2

7 5 1 8 2 05 7 11 16 3 31 11 31 32 5 98 16 32 40 7 92 3 5 7 8 20 3 9 9 2 12

V−1/2Y1

00 V−1/2

Y2

ρY =

1.0000 0.7143 0.0679 0.4781 0.2673 0.00000.7143 1.0000 0.7467 0.9562 0.4009 0.32730.0679 0.7467 1.0000 0.9087 0.3175 0.46660.4781 0.9562 0.9087 1.0000 0.3913 0.41080.2673 0.4009 0.3175 0.3913 1.0000 0.20410.0000 0.3273 0.4666 0.4108 0.2041 1.0000

�

5.2 Representacao vetorial dos dados

Seja um vetor Xp×1

X =

X1

X2...

Xp

e seja a aa multivariada de tamanho n, X1,X2, . . . ,Xn. Entao, X1 e a primeira observacao

multivariada, X2 a segunda e Xn a ultima.

Por exemplo, num estudo a respeito do comportamento de consumo das famılias de uma regiao,

foi observada uma aa de tamanho n = 70 com informacoes das seguintes variaveis:

X =

X1

X2

X3

X4

X5

=⇒

gasto familiar anual em restaurantes

gasto familiar anual com cinema

idade do chefe da famılia

renda familiar anual

grau de escolaridade do chefe da famılia

Neste caso, temos a amostra aleatoria X1,X2, . . . ,X70 de um va X5×1.

74


5.2.1 A representacao dos dados

A representacao dos dados multivariados e feita por meio de uma matriz de dados, na qual, as

colunas representam as variaveis aleatorias e as linhas as observacoes multivariadas, ou seja

Xn×p =

X1 X2 · · · Xp

↓ ↓ ↓→ variaveis aleatorias

x11 x12 · · · x1p

x21 x22 · · · x2p...

.... . .

...

xn1 xn2 · · · xnp

→ 1a obs. multivariada

→ 2a obs. multivariada...

→ n-esima obs. multivariada

Por exemplo, considere a matriz de dados abaixo representando uma aa de tamanho n = 5 de

um vetor aleatorio de dimensao 3, Xt = (X1, X2, X3),

X5×3 =

1.2 0.6 101.9 0.7 122.2 0.6 112.6 0.8 141.6 0.8 13

.

Desta forma, a primeira linha de X, (1.2, 0.6, 10), representa a primeira observacao multivariada

enquanto que a primeira coluna, (1.2, 1.9, 2.2, 2.6, 1.6)t, representa a amostra aleatoria de tamanho

5 da variavel X1.

Portanto, nas linhas de X temos as n = 5 observacoes enquanto que, nas colunas, as amostras

de cada uma das variaveis X1, X2 e X3.

5.2.2 O vetor de medias amostrais

Para o calculo do vetor de medias amostrais, vamos relembrar que operacao xt1n fornece a

soma dos valores da va X observados na amostra, logo,

x = 1n

xt 1n,

em que 1n = (1, 1, . . . , 1)t e um vetor 1’s, de dimensao n.

No contexto multivariado, seja X a matrix de dados, logo, o vetor de medias amostrais e definido

por

x = 1nXt 1n,

ou seja:

x =

x1

x2...

xp

.

75


No exemplo, temos p = 3, entao,

x = 15

1.2 1.9 2.2 2.6 1.60.6 0.7 0.6 0.8 0.810 12 11 14 13

11111

=

1.90.712

,

portanto, x1 = 1.9, x2 = 0.7 e x3 = 12.

5.2.3 A matriz de variancias e covariancias amostrais

Para a matriz de variancias e covariancias amostrais lembremos que a covariancia entre duas

variaveis X1 e X2 e obtida de,

s12 = 1(n− 1)

n∑i=1

(xi1 − x1)(xi2 − x2) = 1(n− 1)(x1 − 1nx1)t(x2 − 1nx2). (5.2)

Observe que os vetores (xi − 1nxi) em (5.2) sao, de fato, vetores de desvios do tipo

di =

x1i − xix2i − xi

...

xni − xi

, i = 1, 2, . . . , p.

Logo, pode-se escrever a covariancia sij por

sij = 1(n− 1) dt

i dj, i, j = 1, 2, . . . , p, com i 6= j,

e, as variancias: s2i = 1

(n− 1) dti di, i = 1, 2, . . . , p.

Para a matriz de var-cov amostral, compomos a matriz dos desvios com vetores di, i = 1, 2, . . . , pnas suas colunas

∆ =[

d1 | d2 | · · · | dp],

ou seja, a matriz ∆ e do tipo:

∆ =

(x11 − x1) (x12 − x2) · · · (x1p − xp)(x21 − x1) (x22 − x2) · · · (x2p − xp)

......

. . ....

(xn1 − x1) (xn2 − x2) · · · (xnp − xp)

.

Desta forma, a matriz var-cov amostral e dada por

S = 1(n− 1) ∆t ∆. (5.3)

76


A matriz de desvios ∆ pode, ainda, ser escrita como ∆ = X− X, em que a matriz de medias

X e dada por:

X =

x1 x2 · · · xp

x1 x2 · · · xp...

.... . .

...

x1 x2 · · · xp

= 1n xt, (5.4)

sendo cada coluna de X um vetor de constante com a media amostral da respectiva variavel em X.

Desta forma, podemos obter uma expressao para ∆ por

∆ = X− 1n xt

∆ = X− 1n

1n(Xt 1n

)t

∆ = X− 1n

1n 1tn X

∆ =(I− 1

nJn

)X,

sendo Jn = 1n 1tn uma matriz n× n, do tipo:

Jn =

1 1 · · · 11 1 · · · 1...

.... . .

...

1 1 · · · 1

.

Logo, a matriz var-cov amostral e dada pela expressao

S = 1(n− 1) (X− X)t (X− X)

S = 1(n− 1)

[(X− 1

nJn

)X]t [(

I− 1nJn

)X].

S = 1(n− 1) Xt

(I− 1

nJn

)t (I− 1

nJn

)X. (5.5)

Mostra-se facilmente que a matriz (I − 1/n Jn) e simetrica e idempotente, portanto, a matriz

var-cov em (5.5) e , finalmente, dada por

S = 1(n− 1) Xt

(I− 1

nJn

)X. (5.6)

Nota 5.4. : A matriz var-cov amostral S, em (5.6), e um estimador nao viesado da matriz var-cov

populacional ΣΣΣ.

77


Como exemplo, considere a matriz de dados

X =

1.2 0.6 101.9 0.7 122.2 0.6 112.6 0.8 141.6 0.8 13

.

Desta forma, temos

(I5 −

15J5

)=

1 0 0 0 00 1 0 0 00 0 1 0 00 0 0 1 00 0 0 0 1

−

1/5 1/5 1/5 1/5 1/51/5 1/5 1/5 1/5 1/51/5 1/5 1/5 1/5 1/51/5 1/5 1/5 1/5 1/51/5 1/5 1/5 1/5 1/5

=

4/5 −1/5 −1/5 −1/5 −1/5−1/5 4/5 −1/5 −1/5 −1/5−1/5 −1/5 4/5 −1/5 −1/5−1/5 −1/5 −1/5 4/5 −1/5−1/5 −1/5 −1/5 −1/5 4/5

.

Logo, a matriz S e dada por:

S = 14

1.2 1.8 2.2 2.6 1.60.6 0.7 0.6 0.8 0.810 12 11 14 13

4/5 −1/5 −1/5 −1/5 −1/5−1/5 4/5 −1/5 −1/5 −1/5−1/5 −1/5 4/5 −1/5 −1/5−1/5 −1/5 −1/5 4/5 −1/5−1/5 −1/5 −1/5 −1/5 4/5

1.2 0.6 101.9 0.7 122.2 0.6 112.6 0.8 141.6 0.8 13

S = 14

1.16 0.08 2.200.08 0.04 0.602.20 0.60 10.0

S =

0.29 0.02 0.550.02 0.01 0.150.55 0.15 2.50

.Para o calculo da matriz de correlacoes amostrais R, os procedimentos sao os mesmos utilizados

anteriormente, ou seja:

R = V−1/2 S V−1/2,

em que V1/2 e a matriz diagonal cujos elementos sao os desvios padroes amostrais observados.

78


Com os dados do exemplo, temos que

V−1/2 =

1/√

0.29 0 00 1/

√0.01 0

0 0 1/√

2.50

,e, a matriz de correlacoes amostrais R e dada por

R = V−1/2

0.29 0.02 0.550.02 0.01 0.150.55 0.15 2.50

V−1/2

R =

1.0000 0.3714 0.64590.3714 1.0000 0.94870.6459 0.9487 1.0000

.Portanto, para a amostra multivariada dada pela matriz X, temos que as correlacoes amostrais

sao: r12 = 0.3712, r13 = 0.6459 e r23 = 0.9487.

Exemplo 5.10. Dados dos Alunos

Exemplo com dados coletados de n = 11 alunos da aula de Teoria de Matrizes, referentes

as variaveis X1 = idade (anos); X2 = altura (m); X3 = peso (kg) e X4 = gasto semanal com

alimentacao (R$).

Os resultados apresentados abaixo foram obtidos no R, utilizando a representacao vetorial dos

dados. Foram calculados o vetor de medias amostrais bem como as matrizes var-cov e de correlacoes

(algumas saıdas foram omitidas).

> # Entrando com os dados

> #######################

> idade <- c(21,21,20,20,21,20,21,21,18,25,26)

> altura <- c(1.86,1.75,1.70,1.59,1.62,1.77,1.78,1.76,1.65,1.77,1.78)

> peso <- c(90,76,62,60,60,68,76,77,60,72,98)

> gasto <- c(20,18,10,20,30,45,40,15,45,25,50)

> # Criando a matriz de dados

> ###########################

> X <- cbind(idade,altura,peso,gasto)

> X

idade altura peso gasto

[1,] 21 1.86 90 20

[2,] 21 1.75 76 18

[3,] 20 1.70 62 10

[4,] 20 1.59 60 20

[5,] 21 1.62 60 30

[6,] 20 1.77 68 45

79


[7,] 21 1.78 76 40

[8,] 21 1.76 77 15

[9,] 18 1.65 60 45

[10,] 25 1.77 72 25

[11,] 26 1.78 98 50

> # Criando o vetor de um’s

> #########################

> n <- nrow(X)

> um <- rep(1,n)

> um

> #Calculando o vetor de medias amostrais

> #######################################

> xbar <- t(X)%*%um/n

> round(xbar,2)

[,1]

idade 21.27

altura 1.73

peso 72.64

gasto 28.91

> # Criando a matriz Jn e identidade In

> #####################################

> Jn <- um%*%t(um)

> Jn

> In <- diag(n)

> In

> #Calculando a matriz var-cov amostral S

> #######################################

> S <- (t(X)%*%(In - Jn/n)%*%X)/(n-1)

> round(S,4)


idade 5.2182 0.0780 19.0091 5.3273

altura 0.0780 0.0065 0.8170 0.0710

peso 19.0091 0.8170 160.0545 34.4636

gasto 5.3273 0.0710 34.4636 193.0909

> # Extraindo a diagonal de S e criando a matriz V^(-1/2)

> #######################################################

> V <- diag(1/sqrt(diag(S)))

80


> round(V,4)


idade 0.4378 0.0000 0.000 0.000

altura 0.0000 12.3655 0.000 0.000

peso 0.0000 0.0000 0.079 0.000

gasto 0.0000 0.0000 0.000 0.072

> # Calculando a matriz de correlac~oes amostrais R

> ################################################

> R <- V%*%S%*%V

> round(R,4)


idade 1.0000 0.4222 0.6578 0.1678

altura 0.4222 1.0000 0.7985 0.0632

peso 0.6578 0.7985 1.0000 0.1960

gasto 0.1678 0.0632 0.1960 1.0000

81

6Espacos Vetoriais

Definicao 6.1. Espaco Vetorial

Seja Vn = {v1,v2, . . . ,vk}, em que vi e um vetor com dimensao n× 1, i = 1, 2, . . . , k, se:

i) para um escalar a e um vetor vi ∈ Vn =⇒ avi ∈ Vn, i = 1, 2, . . . , k,

ii) para dois vetores vi,vj ∈ Vn =⇒ vi + vj ∈ Vn, i, j = 1, 2, . . . , k,

entao, Vn e um espaco vetorial �

Exemplo 6.1.

Seja n = 3 e V3 = {v1,v2}, em que

v1 =

011

e v2 =

01−1

Entao, para um escalar a, quaisquer vetores do tipo v′ = (0, a, a) ou v′ = (0, a,−a) pertencem

a V3. Alem disso, para dois escalares a e b,

v =

0

a+ b

a− b

∈ V3.

Note que qualquer vetor do tipo v′ = (0, k1, k2) ∈ V3, pois, para

a = k1 + k22 e b = k1 − k2

2 , av1 + bv2 ∈ V3.

Por outro lado, v =

100

/∈ V3 �

82

Espacos vetoriais Teoria de Matrizes para Estatıstica

6.1 Subespacos vetoriais

Seja Sn um subconjunto de vetores de um espaco Vn. Se Sn e um espaco vetorial, entao, Sn e

chamado de sbespaco de Vn.

Teorema 6.1. Se Sn e um subconjunto de vetores no espaco Vn tal que, para cada s1 e s2 ∈ Sn o

vetor

a1s1 + a2s2 ∈ Sn a1, a2 ∈ <,

entao, Sn e um subespaco de Vn �

Exemplo 6.2.

a) Seja o vetor ut = (1,−1, 1), entao, o conjunto de vetores do tipo k1u, ∀k1 ∈ <, e um subespaco

de R3;

Por outro lado, o conjunto de vetores definidos por k2w, em que wt = (1, 2) nao e um

subespaco de R3, mas sim de R2.

b) O conjunto de vetores V3 ={

v | vt = (a1, a2, 0)}, a1, a2 ∈ <, e um espaco vetorial e e

subespaco de R3, pois V3 ⊂ R3;

c) O espaco S3 ={

s | st = (0, a, 0)}, a ∈ <, e um subespaco de V3 e, por conseguinte, de R3,

pois S3 ⊂ V3 ⊂ R3;

d) Por outro lado, S∗3 ={

s∗ | s∗t = (a, 0, 0)}, a ∈ <, e um espaco vetorial e e subespaco de R3

e de V3, mas nao e subespaco de S3;

e) O conjunto de 2 vetores U = {u1 = (0, 1, 0) e u2 = (0, 2, 0)} e um subconjunto de V3, S3 e

de R3 mas nao e um subespaco �

Teorema 6.2. O conjunto {0}, em que 0 e o vetor nulo n× 1, e subespaco de todo espaco vetorial

Vn e todo espaco vetorial Vn e subespaco dele mesmo �

6.2 Dependencia linear de vetores

Definicao 6.2. Vetores linearmente independentes (`i)Seja o conjunto de vetores { v1,v2, . . . ,vk } tal que vi ∈ Rn, i = 1, 2, . . . , n, entao, v1,v2, . . . ,vk

sao ditos serem linearmente indepententes (`i) se, e so se, para escalares a1, a2, . . . , ak

k∑i=1

ai vi = a1 v1 + a2 v2 + . . .+ ak vk = 0

apenas se a1 = a2 = . . . = ak = 0 �

83


Se pelo menos um dos esclares {a1, a2, . . . , ak} for diferente de zero e ainda assim

k∑i=1

ai vi = 0

entao os vetores { v1,v2, . . . ,vk } sao ditos linearmente dependentes (`d).

Exemplo 6.3.

a) Sejam

v1 =

1−1

3

, e v2 =

111

,entao, a1v1 + a2v2 = 0 implica

a1 + a2 = 0−a1 + a2 = 03a1 + a2 = 0

(6.1)

Da equacao 2 temos que a1 = a2 e, das equacoes 1 e 3, temos a1 = a2 = 0

=⇒ v1,v2 sao `i.

b) Sejam

v1 =

113

, e v2 =

4412

,entao, a1v1 + a2v2 = 0 implica{

a1 + 4a2 = 03a1 + 12a2 = 0

(6.2)

Da equacao 1 temos que a1 = −4a2 e, substituindo este resultado na equacao 2, temos

3(−4a2) + 12a2 = 0, ou seja, ∀ a2 6= 0, se a1 = −4a2 ⇒ a1v1 + a2v2 = 0. Portanto

v1,v2 sao `d.

Teorema 6.3. Se k > 1 vetores sao `d sempre e possıvel expressar pelo menos um deles como

combinacao linear dos demais.

Corolario 6.3.1. Se num conjunto de k vetores { v1,v2, . . . ,vk } existe um grupo de j vetores `d

(j ≤ k), entao, o conjunto inteiro e `d.

Na teoria de matrizes normalmente consideramos suas colunas como vetores, ou seja, se A e

84


uma matriz n× k, entao suas colunas podem ser vistas como k vetores n× 1

A = [c1|c2| . . . |ck] =

c11 c12 · · · c1k

c21 c22 · · · c2k...

.... . .

...

cn1 cn2 · · · cnk

Teorema 6.4. Uma condicao suficiente e necessaria para que o conjunto de k vetores (colunas de

A) seja `d e que o posto de A seja menor do que seu o numero de colunas, ou seja, posto(A) < k.

Teorema 6.5. Se o posto de uma matriz formada por k vetores n× 1 como suas colunas for igual

a r, entao r deve ser menor ou igual a k e, se r > 0, entao existem exatamente r vetores (colunas)

que sao `i, enquanto que, cada um dos (n−r) vetores (colunas) restantes podem ser expressos como

combinacoes lineares daqueles r vetores.

Teorema 6.6. Um conjunto de k vetores { v1,v2, . . . ,vk } de dimensao n × 1 e sempre `d se

k > n.

Exemplo 6.4.

a) Sejam v1 =

110−1

, v2 =

201−1

e v3 =

0−1

11

,

entao, a matriz formada por estes vetores e dada por

A =

1 2 01 0 −20 1 1−1 −1 1

.

Ve-se claramente que v3 = v2 − 2v1, e, como posto(A) = 2, do teorema (6.5) quaisquer 2

vetores (colunas) de A sao `i.

b) Considere A =[

1 −1 52 4 3

], entao, do teorema (6.6) os vetores

v1 =(

12

), v2 =

(−14

)e v3 =

(53

)sao `d.

Encontrar as constantes a e b tais que v3 = av1 + bv2:(53

)= a

(12

)+ b

(−14

)

85


Consequentemente, temos que resolver o sistema de equacoes lineares{a − b = 5

2a + 4b = 3

cuja solucao e dada por s =[

23/6−7/6

]

Definicao 6.3. Espaco coluna: Seja uma matriz An×k, o espaco coluna de A, tambem, chamado

de “espaco imagem” de A, e o espaco gerado pelas suas colunas, sendo denotado por I(A).

O espaco formado pelas linhas de A e chamado de espaco linha e denotado por I(At).

Exemplo 6.5. O vetor yt = (1,−1) esta no espaco coluna da matriz A =[

1 −1 −30 5 0

]?

A resposta e sim, pois as colunas de A geram o espaco bidimensional.

v1v3

v2

y

Figura 6.1: Representacao do vetor yt = (−1, 1) no espaco coluna de A

Seja An×k entao temos:

i) dim[I(A)] = numero de colunas `i de A;

ii) dim[I(At)] = numero de linhas `i de A;

iii) dim[I(A)] = dim[I(At)] = r = posto(A) ≤ min(n, k).

6.3 Base de um espaco vetorial

Definicao 6.4. Gerador

86


Considere um conjunto de vetores V = {v1,v2, . . . ,vk} pertencentes ao espaco vetorial Vn tal

que todo vetor de Vn pode ser escrito como combinacao linear dos vetores de V . O conjunto V e

chamado de gerador, ou span, de Vn �

Teorema 6.7. Seja {v1,v2, . . . ,vk} tal que vi ∈ Vn, i = 1, 2, . . . , k, e seja

W = {w | w =k∑i=1

aivi, ai ∈ <},

entao W e um subespaco de Vn.

Definicao 6.5. Base

Seja {v1,v2, . . . ,vk} ∈ Vn um conjunto de vetores `i e que gera Vn, entao {v1,v2, . . . ,vk} e

a base de Vn �

Exemplo 6.6.

a) Os vetores v1 =(

11

)e v2 =

(1−1

)formam uma base do R2;

b) Os vetores v1 =(

10

), v2 =

(−1

5

)e v3 =

(−3

0

)nao formam uma base pois nao sao

`i porem, os conjuntos {v1,v2} ou {v2,v3} formam bases do R2�

Seja o vetor ei tal que o unico elemento nao nulo e dado pelo valor 1 ocupando a i-esima posicao,

i = 1, 2, . . . , n

ei =

00...

1...

0

,

entao, ei e chamado de vetor canonico do espaco Rn e a base formada por vetores canonicos e

chamada de base canonica.

Exemplo 6.7.

a) A base

{(10

),

(01

)}e a base canonica do R2;

b) Os vetores

e1 =

100

, e2 =

010

e e3 =

001

87


sao os vetores canonicos e formam a base canonica do R3, pois todo vetor do tipo

v =

a

b

c

pode ser escrito como combinacao de e1, e2 e e3 �

Nota 6.1.

1) De maneira geral, uma base para um espaco vetorial nao e unica;

2) O numero de vetores de qualquer base de um espaco vetorial e sempre o mesmo.

Definicao 6.6. Dimensao de um espaco vetorial

Considere o espaco vetorial Vn exceto o {0} e seja k o numero de vetores ì na sua base, entao,

k e a dimensao de Vn �

Exemplo 6.8.

Seja o espaco V3 = {v1,v2,v3,v4} tal que

v1 =

110

, v2 =

1−1

0

, v3 =

100

e v4 =

200

,i) a dimensao de V3 e igual a 2 =⇒ k = 2 vetores de V3 formam uma base;

ii) v1 e v2 geram V3 mas v3 e v4 nao;

iii) os pares de vetores {v1,v2}, {v1,v3}, {v1,v4}, {v2,v3} e {v2,v4} sao bases de V3;

iv) os vetores {v1,v2,v3} geram V3 mas nao formam uma base pois nao sao ì �

Teorema 6.8. Se r > 0 e o posto da matriz cujas colunas sao dadas pelo conjunto de vetores

{v1,v2, . . . ,vk}, que geram Vn, entao ha exatamente r vetores ì nesse conjunto e, todo vetor de

Vn pode ser expresso unicamente como uma combinacao linear desses r vetores �

Teorema 6.9. Sejam V = [v1,v2, . . . ,vk], uma matriz cujas colunas formam uma base de Vn e

U = [u1,u2, . . . ,u`], matriz cujas colunas sao vetores de Vn.

Os vetores de U formam uma base de Vn se, e so se, k = `. Neste caso existe uma matriz A

nao singular tal que

U = VA,

ou seja, se temos uma base V podemos mudar para uma nova base U por meio da transformacao

linear U = VA �

Definicao 6.7. Bases ortogonais e ortonormais

88


Se {v1,v2, . . . ,vk} e uma base de Vn tal que

a) vti vj = 0 ∀ i 6= j, i, j = 1, 2, . . . , k, a base e ortogonal;

a) se alem disso, vti vi = 1 ∀ i = 1, 2, . . . , k, a base e ortonormal.

Teorema 6.10. Todo espaco Vn tem uma base ortogonal �

Teorema 6.11. Todo espaco Vn − {0} tem uma base ortonormal. Por exemplo, a base canonica

e uma base ortonormal do Rn �

Teorema 6.12. Seja um conjunto de vetores {v1,v2, . . . ,vk} em Vn tal que vti vj = 0 ∀ i 6= j.

Se nenhum desses vetores e o vetor nulo, entao, v1,v2, . . . ,vk sao `i �

Teorema 6.13. Qualquer conjunto de q vetores, diferentes do vetor nulo, ortogonais 2 a 2 formam

um subconjunto de uma base de Vn �

Teorema 6.14. Sejam {v1,v2, . . . ,vk} vetores formando uma base de Vn 6= {0}. Entao, podemos

obter uma base ortonormal {z1, z2, . . . , zk} a partir do procedimento denominado de orotogonali-

zacao de Gram-Schmidt:

y1 = v1 com z1 = y1‖y1‖

;

y2 = v2 −(

yt1v2

‖y1‖2

)y1 com z2 = y2

‖y2‖;

Para o vetor zk temos

yk = vk −[(

yt1vk

‖y1‖2

)y1 +

(yt

2vk

‖y2‖2

)y2 + · · ·+

(yt

k−1vk

‖yk−1‖2

)yk−1

]

= vk −k−1∑i=1

(yt

i vk

‖yi‖2

)yi com zk = yk

‖yk‖.

Os vetores y1,y2, . . . ,yk formam uma base ortogonal para Vn enquanto que, z1, z2, . . . , zk

formam uma base ortonormal �

Exemplo 6.9.

Sejam x1 =

1111

, x2 =

0111

e x3 =

0011

uma base de V3.

Entao, pelo procedimento de Gram-Schmidt temos:

89


a) y1 = x1 =

1111

;

b) O vetor y2 e obtido pela diferenca entre x2 e a sua projecao sobre y1, ou seja:

y2 = x2 −(

xt2y1

yt1y1

)y1, mas

(xt

2y1yt

1y1

)y1 = 3

4

1111

Logo, y2 =

0111

−

3/43/43/43/4

= 14

−3

111

.

c) Vamos calcular y3 pela diferenca entre x3 e sua projecao no plano gerado por y1 e y2:

Como

(xt

3y1yt

1y1

)y1 = 1

2

1111

e

(xt

3y2yt

2y2

)y2 = 1

6

−3

111

, entao

y3 =

0011

−

1/21/21/21/2

−−1/2

1/61/61/6

= 13

0−2

11

.

Portanto y1 =

1111

, y2 =

−3

111

e y3 =

0−2

11

formam uma base ortogonal para V3.

Para obter a base ortonormal basta dividir cada um deles pela sua norma �

90

7Formas quadraticas

Seja An×n uma matriz quadrada e x um vetor de dimensao n, entao, o polinonio definido por

Q(x) = xtAx =n∑i=1

n∑j=1

aijxixj , (7.1)

e uma forma quadratica associada a matriz A.

Nota 7.1. Analisando os termos da soma em (7.1), temos que:

i) se i = j, o termo da soma e dado por aii x2i ;

ii) se i 6= j, podemos somar os termos aijxixj + ajixjxi = (aij + aji)xixj .

Desta forma, Q(x) pode ser reescrita como:

Q(x) =n∑i=1

aiix2i +

n−1∑i=1

n∑j=i+1

(aij + aji)xixj . (7.2)

Obs: aiix2i sao os termos quadraticos e aijxixj sao os termos mistos ou termos cruzados �

Exemplo 7.1. Seja o vetor xt = (xi, x2) e a matriz A2×2 dada por:

A =[

2 −111 7

].

Entao, a forma quadratica associada a matriz A e dada por:

Q(x) = (x1, x2)[

2 −111 7

] (x1

x2

)= 2x2

1 + 7x22 − 10x1x2 �

Note que, no exemplo acima, a matriz A pode ser substituıda pela matriz simetrica

A =[

2 −5−5 7

].

91

Formas quadraticas Teoria de Matrizes para Estatıstica

No caso de A ser uma matriz simetrica, a forma quadratica (7.2) tem a forma

Q(x) =n∑i=1

aiix2i +

n−1∑i=1

n∑j=i+1

2aijxixj

Proposicao 7.1. Toda forma quadratica esta associada a uma matriz simetrica.

Prova: Considere a forma quadratica xtAx, entao:

xtAx =(xtAx

)t= xtAtx,

logo, podemos escrever

xtAx = xtAx + xtAtx2 = xt

(A + At

2)x.

e facil mostrar que(A + At

2)

e simetrica, entao:

Q(x) = xtAx = xtAsimx,

em que Asim =(A + At

2)

�

Num grande numero de aplicacoes a matriz A e simetrica, assim como ocorre na estatıstica com

a matriz de variancias e covariancias Σ

Exemplo 7.2. Qual e a matriz simetrica associada a forma quadratica

Q(x) = 3x21 + 2x2

2 + x23 + 4x1x2 − 6x1x3 + 10x2x3?

Com A simetrica, Q(x) e da forma

a11x21 + a22x

22 + a33x

23 + 2a12x1x2 + 2a13x1x3 + 2a23x2x3,

portanto: A =

3 2 −32 2 5−3 5 1

�

7.1 Diagonalizacao de formas quadraticas

Teorema 7.1. Toda forma quadratica pode ser diagonalizavel.

Prova: Seja xtAx, com A simetrica, entao,

P =[e1, e2, · · · , en

],

92


e a matriz ortogonal cujas colunas sao os autovetores de A e

Λ =

λ1 0 · · · 00 λ2 · · · 0...

.... . .

...

0 0 · · · λn

e a matriz diagonal com os autovalores de A.

Da decomposicao espectral de A, temos que A = PΛPt, entao:

xtAx = xtPΛPtx

xtAx =(Ptx

)tΛ(Ptx

)xtAx = ytΛy,

ou seja, xtAx = λ1y21 + λ2y

22 + . . .+ λny

2n.

Obs: A diagonalizacao da forma quadratica representa uma mudanca de base ortogonal dada por

y = Ptx, ou seja, a diagonalizacao transforma x em y, sendo que o sistema y e ortogonal.

Exemplo 7.3. Reduzir 8x21 + 5x2

2 − 4x1x2 na forma diagonalizada de A.

A matriz associada a forma quadratica e A =[

8 −2−2 5

],

com autovalores e autovetores Λ =[

9 00 4

]e P =

[−2/√

5 1/√

51/√

5 2/√

5

].

Com a mudanca de base, a sua forma diagonalizada, e dada por 9y21 + 4y2

2 �

Teorema 7.2. Uma forma quadratica xtAx e dita ser:

i) Definida positiva se Q(x) > 0 ∀ x 6= 0;

ii) Semidefinida positiva se Q(x) ≥ 0 ∀ x 6= 0;

iii) Definida negativa se Q(x) < 0 ∀ x 6= 0;

iv) Semidefinida negativa se Q(x) ≤ 0 ∀ x 6= 0;

v) Indefinida se Q(x) assume valores positivos e negativos.

Teorema 7.3. Se a matriz A associada a uma forma quadratica for simetrica, entao dizemos que:

93


i) Q(x) e definida positiva ⇐⇒ os autovalores de A sao todos positivos, ou seja,

λ1 > 0, λ2 > 0, . . . , λn > 0;

ii) Q(x) e semidefinida positiva ⇐⇒ A possui r autovalores positivos e n − r autovalores

iguais a 0, ou seja, λ1 > 0, λ2 > 0, . . . , λr > 0, λr+1 = . . . = λn = 0;

iii) Q(x) e definida negativa ⇐⇒ os autovalores de A sao todos negativos, ou seja,

λ1 < 0, λ2 < 0, . . . , λn < 0;

iv) Q(x) e semidefinida negativa ⇐⇒ A possui r autovalores negativos e n − r autovalores

iguais a 0, ou seja, λ1 < 0, λ2 < 0, . . . , λr < 0, λr+1 = . . . = λn = 0;

v) Q(x) e indefinida⇐⇒ A possui pelo menos um autovalor positivo e pelo menos um negativo.

7.2 Formas quadraticas e conicas

As formas quadraticas no R2 surgem naturalmente no estudo das secoes conicas. Por exemplo

ax2 + 2bxy + cy2 + dx+ ey + f = 0, (7.3)

com a e c nao nulos, representa uma conica.

Dividindo (7.3) por −f e com b = d = e = 0, teremos a conica reduzida sem o termo cruzado

a∗x2 + c∗y2 = 1,

que pode ser uma circunferencia, elipse, parabola ou hiperbole, dependendo dos valores de a∗ e c∗.

Exemplo 7.4. A elipsex2

1α2 + x2

2β2 = 1, 0 < β ≤ α apresentada na Figura (7.4), pode ser

representada pela funcao quadratica

Q(x) = (x1, x2)[

1/α2 00 1/β2

] (x1

x2

)= 1 �

Figura 7.1: Elipse centrada na origem, sem termo cruzado

94


Exemplo 7.5. Seja a elipse

ax21 + 2bx1x2 + cx2

2 = k, entao

Q(x) = (x1, x2)[a b

b c

] (x1

x2

)= k.

Na forma diagonalizada, temos

(y1, y2)[λ1 00 λ2

] (y1

y2

)= k

y21λ1 + y2

2λ2 = k.

A diagonalizacao efetua, de fato, uma rotacao nos eixos do sistema, com os novos eixos (y1, y2)nas direcoes principais da elipse, conforme representa a Figura (7.5), sendo a matriz de transfor-

macao dada por

P =[

cos(θ) −sen(θ)sen(θ) cos(θ)

].

Figura 7.2: Elipse centrada na origem, rotacionada com y = Px

7.3 Distribuicao de formas quadraticas

Formas quadraticas ocorrem na estatıstica associadas com a matriz de variancias e covariancias

Σ, em especial na padronizacao de variaveis aleatorias. A matriz de variancias e covariancias Σtem a particularidade de ser simetrica e definida positiva.

Nesta secao vamos apresentar resultados envolvendo distribuicoes de formas quadraticas no caso

especial da padronizacao de va’s normais independentes.

95


Seja Xp×1 = (X1, X2, . . . , Xp)t um vetor aleatorio p-variado tal que X tem distribuicao normal

multivariada, X ∼ Np(µ,Σ), em que

E(X) = µ =

µ1

µ2...

µp

e Cov(X) = Σ =

σ2

1 σ12 · · · σ1p

σ21 σ22 · · · σ2p

......

. . ....

σp1 σp2 · · · σ2p

,

entao, a funcao densidade de probabilidade multivariada de Z e:

f(x) = 1(2π)p/2|Σ|1/2 exp

{−1

2(X− µ)tΣ−1(X− µ)}. (7.4)

Note que o expoente de (7.4) e, de fato, uma forma quadratica em X, ou seja,

Q(X) = (X− µ)tΣ−1(X− µ). (7.5)

A forma quadratica definida em (7.5) e muito importante na estatıstica, aparecendo em muitas

aplicacoes pratica, como por exemplo em modelos lineares. Como a forma quadratica envolve uma

transformacao de um vetor aleatorio X, ela propria e uma variavel aleatoria. Neste sentido e im-

portante que possamos identificar a sua distribuicao de probabilidade.

Para determinarmos a distribuicao de probabilidade deQ(X), precisaremos de alguns resultados:

Resultado 7.1. Resultados:

i) A matriz de variancias e covariancias de um vetor aleatorio e definida por (ver Johnson e

Wichwen, 2002, p. 68):

Σ = Cov(X) = E[(X− µ)(X− µ)t].

ii) Se X ∼ Np(µ,Σ), entao (X− µ) ∼ Np(0,Σ).

iii) De (i) e (ii) segue-se que A(X− µ) ∼ Np(0,AΣAt).

iv) Da decomposicao espectral de Σ temos que Σ =p∑i=1

λieieti e Σ−1 =

p∑i=1

1λi

eieti .

Resultado 7.2. Seja Q(X) = (X−µ)tΣ−1(X−µ) em que X ∼ Np(µ,Σ) com fdp dada por (7.4),

entao,

Q(X) ∼ χ2p.

96


Prova 7.3.1. Prova:

(X− µ)tΣ−1(X− µ) = (X− µ)t( p∑i=1

1λi

eieti

)(X− µ)

=p∑i=1

1λi

(X− µ)tei eti (X− µ)

=p∑i=1

[ 1√λi

eti (X− µ)

]t [ 1√λi

eti (X− µ)

]

Como os produtos entre o vetores na soma geram variaveis unidimensionais, podemos escrever:

(X− µ)tΣ−1(X− µ) =p∑i=1

[ 1√λi

eti (X− µ)

]2

=p∑i=1

Z2i , (7.6)

em que Zi = 1√λi

eti (X− µ).

Assim sendo, temos que a forma quadratica em (7.5) e representada pela soma de variaveis

aleatorias Zi, i = 1, 2, . . . , p, dadas pela transformacao Z = A(X− µ), sendo a matriz A igual a,

A =

1√λ1

et1

1√λ2

et2

...

1√λp

etp

.

A soma em (7.6) pode ser representada pelo produto escalar do vetor Z = A(X − µ) com ele

mesmo,

p∑i=1

Z2i = ZtZ

= [A(X− µ)]t [A(X− µ)] .

Portanto, temos que mostrar que a transformacao Z = A(X− µ) gera um vetor cujos compo-

97


nentes Z1, Z2, . . . , Zp sao variaveis independentes normais padronizadas e a soma (7.6) nada mais

e do que a soma de variaveis independentes quiquadrado com um grau de liberdade.

Do resultado (7.1), itens (ii) e (iii) temos que o valor esperado de Z e sua matriz de variancias-

covariancias sao dados, respectivamente, por E(Z) = 0 e Cov(Z) = AΣAt, em que

AΣAt =

1√λ1

et1

1√λ2

et2

...

1√λp

etp

(λ1e1et

1 + λ2e2et2 + · · ·+ λpepet

p

) [ 1√λ1

e11√λ2

et2 · · · 1√

λpet

p

]

=

√λ1et

1

√λ2et

2

...

√λpet

p

[ 1√λ1

e11√λ2

et2 · · · 1√

λpet

p

]=

1 0 · · · 00 1 · · · 0...

.... . .

...

0 0 · · · 1

,

ou seja, Z ∼ Np(0, I), o que mostra que Z1, Z2, . . . , Zp sao iid N(0, 1) e que (7.6) e a soma de p

variaveis independentes χ21, de onde concluımos que

(X− µ)tΣ−1(X− µ) ∼ χ2p �

Caso especial:

Seja Xp×1, vetor aleatorio tal que Xi, i = 1, 2, . . . , p sao independentes com distribuicao

Xi ∼ N(µi, σ2i ).

entao, o vetor aleatorio X tem distribuicao normal multivariada X ∼ Np(µ,Σ), em que

µ =

µ1

µ2...

µp

e Σ =

σ2

1 0 · · · 00 σ2

2 · · · 0...

.... . .

...

0 0 · · · σ2p

.

98


Resultado 7.3. Seja X va tal que Xi, i = 1, 2, . . . , p sao independentes com distribuicao Xi ∼N(µi, σ2

i ), entao:

a) Se Zi ∼Xi − µiσi

, entao, Zi ∼ N(0, 1), i = 1, 2, . . . , p, e,

Z2i =

(Xi − µiσi

)2

∼ χ21 ;

b) Sejam Y1 ∼ χi2m, e Y2 ∼ χ2n, entao,

(Y1 + Y2) ∼ χ2m+n.

Seja X ∼ Np(µ,Σ), com componentes independentes, entao, temos que determinar a distribui-

cao da forma quadratica:

Q(X) = (X− µ)tΣ−1(X− µ) ? (7.7)

Como as variaveis aleatorias Xi, i = 1, 2, . . . , p, (componentes de X) sao independentes, Σ−1

e da forma:

Σ−1 =

1/σ2

1 0 · · · 00 1/σ2

2 · · · 0...

.... . .

...

0 0 · · · 1/σ2p

.

Entao, a forma quadratica (7.7) e expressa por

Q(X) = (X− µ)tΣ−1(X− µ)

Q(X) =p∑i=1

(Xi − µiσi

)2

Q(X) =p∑i=1

Yi.

Do resultado (7.3), Yi ∼ χ21, logo, Q(X) tem distribuicao quiquadrado com p graus de liberdade,

ou seja

Q(X) ∼ χ2p.

99


7.4 Otimizacao de formas quadraticas

Aplicacoes importantes envolvendo formas quadraticas dizem respeito a sua otimizacao, ou seja,

a busca de pontos de maximo ou de mınimo de Q(x).Considere a forma quadratica bidimensional Q(x) = xtAx, em que xt = (x1, x2) e A e do tipo

A =[a b

b c

].

Para a determinacao do ponto crıtico devemos obter as derivadas parciais de Q(x) em relacao

as variaveis x1 e x2 e resolver o sistema:

∂Q(x)∂x1

= 0

∂Q(x)∂x2

= 0

(7.8)

A solucao de (7.8), a qual denotaremos por (x◦1, x◦2), e o ponto crıtico, o qual devera ser inves-

tigado sobre a sua natureza: ponto de maximo, ponto de mınimo ou ponto de sela.

Neste aspecto, devemos obter a matriz de derivas segundas de Q(x), chamada de matriz Hes-

siana, definida por:

Hes =

∂2Q(x)∂x2

1

∂2Q(x)∂x1∂x2

∂2Q(x)∂x2∂x1

∂2Q(x)∂x2

2

.

A natureza de (x◦1, x◦2) sera determinada pela caracterısitca da matriz Hes:

i) Q(x) tem um mınimo relativo em (x◦1, x◦2) se Hes for definida positiva;

ii) Q(x) tem um maximo relativo em (x◦1, x◦2) se Hes for definida negativa;

iii) Q(x) tem um ponto de sela em (x◦1, x◦2) se Hes for indefinida.

7.4.1 Derivada de uma forma quadratica

Seja a forma quadratica bidimensional Q(x) = xtAx, entao, definimos

∂Q(x)∂x = 2Ax

∂Q(x)∂xt = 2xtA

100


Exemplo 7.6. Considere o modelo linear dado por

y = Xβ + ε. (7.9)

Uma solucao para (7.9) e dada pela estimativa de mınimos quadrados, ou seja, pelo vetor β que

minimiza a soma de quadrados dos erros. O vetor de erros e dado por

ε = y−Xβx

e a soma de quadrados dos erros, por

SQErro = (y−X)t(y−Xβ)

SQErro = yty− 2βtXty + βt(XtX)β. (7.10)

Para a solucao de (7.9) devemos derivar a SQErro em relacao a β e igualar a derivada a 0.

Como podemos observar, a expressao em (7.10) e, de fato, uma forma quadratica em β, ou seja,

Q(β) = yty− 2βtXty + βt(XtX)β,

cuja derivada em relacao a β e

∂Q(β)∂β

= 2(XtX)β − 2Xty. (7.11)

Igualando (7.11) a 0, obtemos a solucao de mınimos quadrados de (7.9), dada por

2(XtX)β − 2Xty = 0

=⇒ β = (XtX)−1Xty.

101


Exemplo 7.7. Exemplos de formas quadraticas com ponto crıtico em (x◦1, x◦2) = (0, 0).

a) Q(x) = xtAx, em que A e definida positiva:

Q(x) = (x1, x2)[

8 22 5

](x1

x2

)= 8x2

1 + 5x22 + 4x1x2

Os autovalores da matriz A sao λ1 = 9 e λ2 = 4.

Derivadas de Q(x):

∂Q(x)∂x1

= 16x1 + 4x2

∂Q(x)∂x2

= 4x1 + 10x2

A matriz Hessiana de Q(x) e dada por Hes =[

16 44 10

].

Como Hes e definida positiva =⇒ (0, 0) e ponto de mınimo.

b) Q(x) = xtAx, em que A e indefinida:

Q(x) = (x1, x2)[

28 1515 −12

](x1

x2

)= 28x2

1 − 12x22 + 301x2

Os autovalores da matriz A sao λ1 = 33 e λ2 = −17.

A matriz Hessiana de Q(x) e dada por Hes =[

56 3030 −24

].

Como Hes e indefinida =⇒ (0, 0) e ponto de sela.

c) Q(x) = xtAx, em que A e definida negativa:

Q(x) = (x1, x2)[−10 4

4 −10

](x1

x2

)= 8x1x2 − 10x2

1 − 10x22

Os autovalores da matriz A sao λ1 = −6 e λ2 = −14.

A matriz Hessiana de Q(x) e dada por Hes =[−20 1616 −20

].

Como Hes e definida negativa =⇒ (0, 0) e ponto de maximo.

102


Figura 7.3: Formas quadraticas com matriz A definida positiva, indefinida e definida negativa

103

8Sistemas lineares

Definicao 8.1. Equacao linear

Uma equacao linear e uma equacao que pode ser escrita na forma:

a1 x1 + a2 x2 + . . .+ am xm = b,

com a1, a2, . . . , am, b ∈ R, conhecidos �

As equacoes a seguir sao exemplos de equacoes lineares:

i) 4x1 + 6x2 = 10

ii) 5x1 + x2 + 3 = 2x2

Definicao 8.2. Sistema linear

Um sistema linear e uma colecao de equacoes lineares, como por exemplo:

{2x1 − x2 = 8x1 + 3x2 = 9

A solucao de um sistema linear e um vetor de valores st = (s1, s2, . . . , sm) que atende a todas

as equacoes simultaneamente. Logo, no caso anterior, a solucao e dada pelo par de valores (x1, x2)que torna as duas equacoes verdadeiras.

Exemplo 8.1. Considere o sistema linear dado pelas seguintes equacoes:x1 + x2 − x3 = 6

2x1 − x2 + x3 = 6x1 + 2x2 + 3x3 = 13

A solucao do sistema acima e dada pelo vetor: s =

431

104

Sistemas lineares Teoria de Matrizes para Estatıstica

A solucao de um sistema linear e dada pelo vetor s que e solucao simultanea para todas as suas

equacoes. No caso bidimensional cada equacao representa uma reta no plano e, portanto, a solucao

do sistema linear e dada pelo ponto de interseccao entre essas retas.

Exemplo 8.2. Por exemplo, o sistema linear

{x1 − 2x2 = −1−x1 + 3x2 = 3

definido pelas retas r1 = {(x1, x2) | x1 − 2x2 = −1} e r2 = {(x1, x2) | 3x2 − x1 = 3}, tem como

solucao o ponto (3, 2), como podemos observar pela Figura (8.1) �

Figura 8.1: Solucao de um sistema linear como interseccao de duas retas

De maneira geral, temos que a solucao de um sistema linear e dada pela interseccao dos su-

bespacos definidos pelas suas equacoes. Essa interseccao pode resultar num ponto, num subespaco

com infinitos pontos ou num conjunto vazio, o que pode ser observado pelo exemplo a seguir.

Sejam os sistemas lineares definidos pelas retas r1 e r2

a) No exemplo (8.2), temos retas concorrentes (r1 /\ r2), logo, a solucao e unica, dada pelo ponto

(3, 2);

b)

{x1 − 2x2 = −1 (r1)−x1 + 2x2 = 1 (r2)

Neste caso, as retas sao coincidentes (r1 = r2), portanto, a solucao e dada por infinitos pontos,

ou seja, pelo subespaco definido pelas retas;

c)

{x1 − 2x2 = −1 (r1)−x1 + 3x2 = 3 (r2)

105


Neste ultimo caso, as retas sao paralelas (r1 ‖ r2), entao, como nao ha pontos em comum,

nao existe solucao para o sistema.

Podemos, assim, classificar os sistemas lineares em funcao do numero de solucoes:

i) impossıvel: nao apresenta solucao;

ii) possıvel e determinado: apresenta solucao unica;

iii) possıvel e indeterminado: apresenta infinitas solucoes;

8.1 Notacao Matricial

Nesta secao sera introduzida a notacao matricial para a teoria de sistemas lineares. Na notacao

matricial as variaveis x1, x2, . . . , xm sao representadas por um vetor xm×1, do tipo

x =

x1

x2...

xm

,

os coficientes das equacoes sao representados pelas linhas de uma matriz Ak×m

A =

a11 a12 · · · a1m

a21 a22 · · · a2m...

.... . .

...

ak1 ak2 · · · akm

e as constantes do lado direito das igualdades, num vetor bk×1

b =

b1

b2...

bk

.

Desta forma, o sistema linear pode ser representado matricialmente por:

A x = b.

Exemplo 8.3. Considerndo o sistema linear2x1 + 3x2 + x3 = 5x1 − 2x2 + 4x3 = 1x1 + x2 + x3 = 2

106


Entao, pela definicao acima temos k = 3 equacoes e m = 3 variaveis, sendo a matriz A e os

vetores x e b, dados por:

A =

2 3 11 −2 41 1 1

, x =

x1

x2

x3

e b =

512

�

A matriz A e tambem cahamda de matriz de coeficientes ou matriz associada. Para a solucao

do sistema, acrescenta-se o vetor b como a (m + 1)-esima coluna de A, compondo a matriz que

sera denominada de matriz completa do sistema. A matriz completa e da forma [ A | b ].No exemplo (8.3), a matriz A e a matriz associada e a matriz completa e dada por

[ A | b ] =

2 3 1 51 −2 4 11 1 1 2

A pergunta aqui e: Como achar a solucao de um sistema linear?

Definicao 8.3. Sistema equivalente: dois sistemas sao ditos serem equivalentes se tem o mesmo

conjunto solucao �

Os sistemas

{2x1 − x2 = 6x1 − x2 = 4

e

{2x1 − x2 = 6

− x2 = −2

sao equivalentes, pois ve-se claramente que o ponto (2,−2) e solucao para ambos.

Uma estrategia basica para se obter a solucao de um sistema linear e substituı-lo por um

sistema equivalente de facil solucao. O sistema equivalente normalmente e obtido pela aplicacao de

operacoes elementares na matriz completa, num processo de escalonamento.

Considere o sistemax1 − 2x2 + x3 = 0

2x2 − 8x3 = 8−4x1 + 5x2 + 9x3 = −9

que tem matriz completa

[ A | b ] =

1 −2 1 00 2 −8 8−4 5 9 −9

escalonada na forma

1 −2 1 00 1 −4 40 0 1 3

,

107


a qual fornece a solucao:

s =

29163

.Pode-se, ainda, continuar o processo de escalonamento ate reduzir a matriz completa numa

matriz identidade. Nesse situacao, a matriz final e dita estar na forma escalonada reduzida.

Teorema 8.1. A matriz escalonada reduzida de um sistema linear e unica.

No exemplo caso acima, a matriz escalonada reduzida e da forma:1 0 0 290 1 0 160 0 1 3

.Exemplo 8.4. Encontrar as solucoes dos sistemas lineares

a)

2x1 + 2x2 + 4x3 = 2

x2 + 4x3 = −32x1 + 3x2 + 4x3 = 8

Escalonando a matriz completa:2 2 4 20 1 4 −32 3 4 8

=⇒

1 2 4 20 1 4 −30 0 0 1

.

Como podemos notar pela ultima linha da matriz escalonada, nao existe solucao para o

sistema, pois o sistema equivalente e da formax1 + 2x2 + 4x3 = 2

x2 + 4x3 = −30 = 1 !

portanto, o sistema acima e impossıvel.

b)

x1 + x2 + x3 = 2x1 − 2x2 + 3x3 = 5

2x1 − x2 + 4x3 = 7

Escalonando a matriz completa:1 1 1 21 −2 3 52 −1 4 7

=⇒

1 1 1 20 −3 2 30 0 0 0

.

108


O sistema equivalente, neste caso, e dado porx1 + x2 + x3 = 2− 3x2 + 2x3 = 3

0 = 0

A ultima linha de zeros na forma escalonada indica que o sistema tem infinitas solucoes. Neste

caso o sistema e possıvel e indeterminado, pois as solucoes ficam em funcao da variavel livre

x3. Com x3 como variavel livre, temos o seguinte conjunto de solucoes:

s ={

(x1, x2, x3) ∈ R3 | x1 = 3− 2x33 ;x2 = 5x3

3 − 1;x3

}�

Nota 8.1.

i) o posto (ou caracterıstica) de uma matriz e dado pelo numero de linhas nao nulas na sua

forma escalonada;

ii) se q e posto da matriz associada a um sistema linear com m incognitas e q = m, ou seja, a

matriz e de posto completo, entao o sistema e possıvel e determinado.

O teorema a seguir garante a existencia de solucao quando a matriz A for de posto completo.

Teorema 8.2. Seja Ak×m, matriz de coeficientes, entao as afirmacoes a seguir sao equivalentes:

i) para cada b ∈ Rm, Ax = b tem solucao;

ii) as colunas de A geram o Rm �

Obter a solucao de um sistema linear pelo processo de escalonamento pode ser muito demorado

e sujeito a erros. O processo e tanto mais demorado e suscetıvel a erros, quanto maior for o numero

de incogonitas (variaveis). O sistema linear, entretanto, pode ser resolvido atraves da inversa da

matriz A, quando existir, o que, na pratica, e equivalente ao processo de escalonamento.

Seja A a matriz associada a um sistema linear com m incognitas, entao, Ax = b. Pre-

multiplicando os dois lados da igualdade pela inversa de A, temos

A−1Ax = A−1b

x = A−1b, (8.1)

logo, A−1b e a solucao do sistema.

Pelo resultado (8.1) fica claro que a solucao do sistema depende da existencia da inversa da

matriz associada A. Em outras palavras, se a matriz A nao for singular, o sistema e possıvel e

determinado e a solucao e unica. Desta forma, um sistema linear pode, ainda, ser classificado em

funcao do do posto das matrizes associada e completa.

109


Teorema 8.3. Teorema de Rouche-Capelli

Seja um sistema linear Ax = b, em que:

X [ A ] e a matriz associada, de dimensoes k ×m, de posto q(A);

X [ A | b ] e a matriz completa, de dimensoes k × (m+ 1), de posto q(A|b).

Entao:

i) se q(A) = q(A|b) = m =⇒ o sistema e possıvel e determinado - PD e tem solucao unica;

ii) se q(A) = q(A|b) < m =⇒ o sistema e possıvel e indeterminado - PI e tem infinitas

solucoes;

iii) se q(A) 6= q(A|b) =⇒ o sistema e impossıvel - SI e nao tem solucao �.

Exemplo 8.5. Exemplos:

a) Seja a matriz A =

4 5 −13 7 02 8 3

e o vetor b =

111

Como q(A) = q(A|b) = 3, o sistema e PD e a solucao e dada por: s =

5/292/291/29

.

b) Matriz A =

2 4 −5−2 9 75 6 1

e o vetor b =

−101

Como q(A) = q(A|b) = 3, o sistema e PD e a solucao e dada por: s =

106/235−69/235119/235

.

c) Matriz A =

4 10 512 30 168 20 15

e o vetor b =

123

Como q(A) = 2 e q(A|b) = 3, logo, o sistema e SI, ou seja, nao tem solucao.

d) Matriz A =

1 2 4 −3−3 5 10 9−8 0 0 3−6 7 14 4

e o vetor b =

71−310

Como q(A) = q(A|b) = 3 (< m), o sistema e PI e o conjunto de solucoes e dada por:

110


s =

0

2(1− x3)x3

−1

.

8.2 Sistemas homogeneos

Sistemas homogeneos sao sistemas escritos na forma Ax = 0 e que apresenta como propriedade

a solucao trivial xt = (0, 0, . . . , 0).Seja um sistema linear Ax = b, entao, o conjunto de solucao s e obtido pela translacao do

conjunto de solucao de Ax = 0.

Exemplo 8.6. Considere o sistema definido pela matriz

A =

3 5 −4−3 −2 45 1 −8

,

entao, a matriz completa do sistema homogeneo escalonada e dada por

A =

1 0 −4/3 00 1 0 00 0 0 0

,

portanto, o sistema equivalente e da forma

{x1 − 4x3/3 = 0

x2 = 0e, portanto, a solucao do sistema e dada por:

s =

4x3/3

0x3

= x3

4/301

.

Considere, agora b =

7−1−4

, entao, neste caso, o sistema equivalente sera dado por

{x1 − 4x3/3 = −1

x2 = 2

e a solucao sera

s =

4x3/3− 1

2x3

= x3

4/301

+

−120

,111


que, como pode ser constatado, e uma translacao da solucao do sistema homogeneo.

Seja D o determinante da matriz associada de um sistema homogeneo, entao, temos as seguinte

propriedades:

i) se D 6= 0, entao o sistema homogeneo e PD e apresenta apenas a solucao trivial;

ii) se D = 0, entao o sistema homogeneo e PI e apresenta a solucao trivial e solucoes proprias.

8.3 Uso da decomposicao LU na solucao de sistemas lineares

Seja o sistemas linear Ax = b, com An×n nao singular e b vetor de constantes conhecidas.

Uma forma bastante simples para se obter a solucao do sistema e por meio da decomposicao LU

(ver secao 4.3).

O processo de solucao de uma sistema linear pela decomposicao LU de A, sendo dado por:

Ax = b

LUx = b.

Entao, fazendo y = Ux, teremos

Ly = b, (8.2)

sendo que, inicialmente, devemos encontrar o vetor y, solucao de (8.2), num procedimento passo-

a-frente e, com o vetor y obtido, encontrar x solucao de Ux = y, num procedimento passo-atras.

Os vetores y e x podem, ainda, serem obtidos por: y = L−1b e x = U−1y.

Exemplo 8.7. Exemplos:

a) Seja a matriz A =

1 −2 10 2 −8−4 5 9

e o vetor b =

089

.

Como A = LU, em que: L =

1 0 00 1 0−4 −3/2 1

e U =

1 −2 10 2 −80 0 1

, de (8.2) temos que:

y =

083

.

Desta forma, da relacao Ux = y, obtemos x =

29163

.

112


b) Seja A =

2 1 4 63 −2 5 0−1 2 −3 42 2 −2 3

e b =

1−1−11

.

Com L =

1 0 0 0

3/2 1 0 0−1/2 −5/7 1 0

1 −2/7 11/3 1

e U =

2 1 4 60 −7/2 −1 −90 0 −12/7 4/70 0 0 −23/3

,

y = L−1b =

1−5/2−16/723/3

e, x = U−1y =

031−1

.

A solucao do sistema Ax = b pode ser facilmente obtida com o procedimento pratico da

decomposicao LU.

Para isso, tomamos a matriz completa [ A | b ] e, com a aplicacao de operacoes elementares

nas linhas de A, a transformamos numa matriz triangular superior. No final do processo, a ultima

coluna de [ A | b ], inicialmente composta pelo vetor b, tera se transformado no vetor y, ou seja:

[ A | b ] =⇒ [ U | y ].operacoes

elementares

Exemplo 8.8. Exemplo: Considere o sistema linear do item (b) do exemplo anterior

Entao, [ A | b ] =

2 1 4 6 13 −2 5 0 −1−1 2 −3 4 −1

2 2 −2 3 1

.

Seja Li representando a i-esima linha de A, i = 1, 2, . . . , n, entao, para as tres primeiras

eliminacoes, fazendo (−3/2L1 + L2); (1/2L1 + L3) e (−L1 + L4), temos:2 1 4 6 10 −7/2 −1 −9 −5/20 5/2 −1 7 −1/20 1 −6 −3 1

.

113


Continuando o processo, com as operacoes (5/7L2 + L3) e (2/7L2 + L4), obtemos2 1 4 6 10 −7/2 −1 −9 −5/20 0 −12/7 4/7 −16/70 0 −44/7 −39/7 −5/7

.

Para a ultima eliminacao, enfim, fazemos (−11/3L3 + L4), obtendo2 1 4 6 10 −7/2 −1 −9 −5/20 0 −12/7 4/7 −16/70 0 0 −23/3 23/3

= [ U | y ]

.

Observe que a ultima coluna da matriz resultante e, de fato, o vetor y da relacao Ly = b e que,

a matriz resultante da aplicacao das operacoes elementares em A e a matriz U da decomposicao

LU.

Desta forma, podemos obter o vetor x fazendo x = U−1y, ou atraves de um processo passo-atras

a partir da ultima linha de [ U | y ].

114

9Projecoes Ortogonais

Definicao 9.1. Projecao ortogonal

Seja T (x) : R2 7−→ R2 que projeta um vetor x ∈ R2 sobre uma reta que passa pela origem,

entao, T (x) e a projecao ortogonal de R2 sobre a reta (ver Figura 9.1) �

Figura 9.1: Projecao ortogonal sobre a reta passando pela origem

Nota: Projecoes sobre retas sao lineares e, portanto, operadores matriciais.

115

Projecoes ortogonais Teoria de Matrizes para Estatıstica

9.1 Matriz canonica de uma projecao ortogonal

Seja r uma reta qualquer passando pela origem, que faz um angulo θ com o eixo das abcissas,

entao, a matriz canonica da projecao ortogonal de um vetor qualquer do R2 ssobre r sera:

Pθ =

12(1 + cos 2θ) 1

2 sen2θ12 sen2θ 1

2(1− cos 2θ)

=[

cos2 θ senθ cos θsenθ cos θ sen2θ

]

Exemplo 9.1. Considere a reta x1 = x2, com um angulo de θ = 45◦ (π/4). Encontrar a projecao

do vetor v = (√

3, 1)t sobre a reta, dada pelo vetor w (ver Figura 9.2).

Figura 9.2: Componentes de uma projecao ortogonal sobre a reta

Resultados:

i) ‖v‖= 2;

ii) sen θ1 = 12 =⇒ θ1 = 30◦;

iii) θ − θ1 = 15◦ =⇒ ‖w‖= ‖v‖cos 15◦;

iv) cos 15◦ = cos(45◦ − 30◦) = cos 15◦ = cos 45◦ cos 30◦ + sen45◦ sen30◦

cos 15◦ =√

22

√3

2 +√

22

12 =

√2 (√

3 + 1)4 ;

vi) ‖w‖=√

2 (√

3 + 1)2 .

116


Desta forma, w1 = ‖w‖cos 45◦ =[√

2 (√

3 + 1)2

] √2

2 =√

3 + 12 e

w =

√3 + 12

√3 + 12

.

Para o angulo θ = 45◦ a matriz de projecao e dada por:

Pθ =[

1/2 1/21/2 1/2

]e, w = Pθv =

[1/2 1/21/2 1/2

] ( √3

1

)=

√3 + 12

√3 + 12

.

Matrizes de projecoes ortogonais sobre:

i) o eixo x: (θ = 0) e Pθ =[

1 00 0

];

ii) o eixo y: (θ = 90◦) e Pθ =[

0 00 1

].

9.2 Decomposicao ortogonal de um vetor

Considere a reta r passando pela origem e seja um vetor a sobre r. Um vetor x qualquer do R2

pode, entao, ser escrito por:

x = x1 + x2

em que x1 e a projecao de x em a (e consequentemente sobre r) e x2 e o componente perpendicular

a a (Figura 9.3).

Para a determinacao da projecao de x sobre a reta temos que x1 pode ser escrito como um

multiplo de a, ou seja, x1 = ka.

Entao, como x2 = x− ka e, considerando que x2 e a sao ortogonais, temos que

x2ta = (x− ka)ta = 0

xta − kata = 0

=⇒ k = xtaata

De onde se obtem: x1 = projax = xtaata a.

117


Figura 9.3: Decomposicao ortogonal de um vetor

Teorema 9.1. Se a e um vetor nao nulo em Rn, entao, qualquer vetor x ∈ Rn pode ser escrito

como uma decomposicao ortogonal do tipo:

x = x1 + x2,

em que:

x1 = xta

ata a e multiplo de a,

x2 = x− xtaata a ⊥ a (x2 ⊥ x1).

x1 e o componente vetorial de x ao longo de a e x2 e o componente vetorial de x ortogonal a a.

Exemplo 9.2. Sejam x = (2,−1, 3) e a = (4,−1, 2), achar os componentes x1 e x2 da projecao

ortogonal de x em a.

xta = 2 · 4 + (−1) · (−1) + 3 · 2 = 15ata = 42 + (−1)2 + 22 = 21

Logo, x1 = 1521

4−1

2

=

20/7−5/710/7

,

118


x2 = x− x1 =

2−1

3

−

20/7−5/710/7

=

−6/7−2/711/7

.

Teorema 9.2. Se a e um vetor nao nulo em Rn expresso na forma de coluna, entao, a matriz

canonica do operador linear T (x) = projax e dada por

P = 1ata a at,

em que P e simetrica de posto 1.

Prova 9.2.1. Considere a base canonica do Rn e1 =

10...

0

, e2 =

01...

0

, . . . , en =

00...

1

e seja

o vetor a =

a1

a2...

an

Entao, a projecao dos vetores da base canonica do Rn sobre o vetor a serao:

T (ej) =ejta

ata a = aj‖a‖2 a, j = 1, 2, . . . , n.

Para a continuidade da prova ha a necessidade do seguinte resultado: os vetores colunas da

matriz canonica de uma transformacao linear T (x) sao as imagens da base canonica obtidas pela

transformacao T (ej), j = 1, 2, . . . , n.

Desta forma, teremos:

P =[ a1‖a‖2 a a2

‖a‖2 a · · · an‖a‖2 a

]

P = 1‖a‖2

[a1 a a2 a · · · an a

]

P = 1ata a

[a1 a2 · · · an

]

P = 1ata aat

119


Nota 9.1. A matriz P nao e afetada se tomarmos um multiplo nao nulo de a, ou seja, P e deter-

minada pela reta r sobre a qual projeta, e nao pelo vetor a. Em particular se considerarmos um

vetor unitario u, P = uut.

Exemplo 9.3. Considere o vetor at = ( 3 5 −4 ).

a) Determine a matriz de projecao ortogonal sobre a reta gerada por a.

b) Encontre a projecao de vt = ( 2 −1 3 ).

c) Mostre que P tem posto 1.

Resolucao:

a) ata = 50 e aat =

9 15 −12

15 25 −20−12 −20 16

,

logo, P =

0.18 0.30 −0.240.30 0.50 −0.40−0.24 −0.40 0.32

b) P vt =

9 15 −12

15 25 −20−12 −20 16

23−1

=

1.52.5−2.0

.

c) Sejam L1, L2 e L3 as linhas 1, 2 e 3 de P, respectivamente.

Como L2 = 5L13 e L3 = −4L1

3 , entao, oposto de P e 1.

O posto de P igual a 1 indica que seu espaco coluna tem dimensao 1. O espaco coluna de P

e imagem do operador T (x) = projax, que e dada pela reta definida por a.

Teorema 9.3 (Projecao sobre suespacos:). Se W e um subespaco do Rn, entao, cada vetor x ∈ Rn

pode ser expresso de maneira unica como

x = x1 + x2,

com x1 ∈W e x2 ∈W⊥, em que W⊥ o subespaco perpendicular a W,

ou seja, x = projWx + projW⊥ x.

120


Prova 9.3.1 (Prova:). Seja { w1, w2; . . . , wk}, base do subespaco W. Considerando os vetores

w1, w2, . . . , wk como colunas da matriz M,

M =[

w1 w2 . . . wk

],

entao W e chamado de espaco coluna de M e W⊥ de espaco nulo de Mt.

Assim sendo, devemos mostrar que, ∀x ∈W, entao, x = x1 + x2 tal que:

x1 ∈W, e x2 ∈W⊥, ou seja,Mt x2 = 0.

Entao, para um vetor v ∈ Rk, podemos escrever x1 = M v. Desta forma, como x2 = x − x1,

temos que

Mt (x− x1) = 0

Mt (x−M v) = 0

Mtx−MtM v = 0

MtM v = Mtx

Como M e de posto completo (suas colunas formam a base deW), segue-se que MtM e invertıvel

e, consequentemente, v e obtido unicamente de

v = (MtM)−1Mtx

o que implica em: x1 = M v = M(MtM)−1Mtxx2 = x− x1 =

[I−M(MtM)−1Mt

]x

Teorema 9.4 (Matriz canonica de projecao:). Se W e um subespaco nao nulo do Rn e M e uma

matriz cujas colunas formam uma base de W, entao, a matriz canonica da projecao ortogonal de

um vetor x ∈ Rn em W e dada por

P = projWx = M(MtM)−1Mt, ∀ x ∈ Rn.

Exemplo 9.4. Sejam os vetores w1 = (1, 1, 1) e w2 = (1, 1, −1). Determine a matriz de projecao

ortogonal de um vetor qualquer do R3 no plano formado por {w1,w2} e encontre a projecao de

x = (5, −3, 0).Resolucao:

M =

1 11 11 −1

e MtM =[

3 11 3

].

121


Desta forma,a matriz P e dada por:

P =

1 11 11 −1

[

3/8 −1/8−1/8 3/8

] [1 1 11 1 −1

]=

0.5 0.5 00.5 0.5 0

0 0 1

e, a projecao ortogonal de x = (5, −3, 0) no plano formado por {w1,w2} e

P x =

0.5 0.5 00.5 0.5 00 0 1

5−31

=

110

.Exemplo 9.5. Encontrar a matriz de projecao ortogonal de um vetor qualquer do R3 no plano

x− 4y + 2z = 0.

Resolucao:

Para obter a matriz M devemos encontrar vetores que geram o plano e formam sua base. Para

isso, consideramos t1 = y e t2 = z ex

y

z

=

4t1 − 2t2

t1

t2

= t1

410

+ t2

−2

01

Logo, a matriz M e dada por:

M =

4 −21 00 1

Desta forma, a matriz P e calculada por

P =

4 −21 00 1

[

5/21 −8/21−8/21 17/21

] [4 1 0−2 0 1

]

P = 121

20 4 −24 5 8−2 8 17

> tempo <- c(2,2,3,8,4,7,5)

> evento <- c(1,1,0,1,1,1,0)

> Surv(tempo,evento)

[1] 2 2 3+ 8 4 7 5+

122

Departamento de Estat stica - ufscar.br · Departamento de Estat stica Universidade Federal de S~ao...

Documents

Transcript of Departamento de Estat stica - ufscar.br · Departamento de Estat stica Universidade Federal de S~ao...