Post on 17-Apr-2015
1
Análise de regressão linear simples: abordagem matricial
Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na regressão linear múltipla, pois permite que grandes sistemas de equações e conjunto de dados sejam representados de forma compacta e operacional.
MatrizesMatriz: um conjunto de elementos arranjados em linhas e colunas. Exemplo:
3521
4733
2316
Linha 1Linha 2Linha 3
Coluna 1
Coluna 2
(Dimensão: 3 x 2)
Linhas
Colunas
A =
3231
2221
1211
aa
aa
aa
(3 x 2)
i=1,2,3 (linhas)
j=1,2 (colunas)
Representada por letras em negrito, p.e., A, B, C, , , , , etc.
2
Matriz quadrada:
333231
232221
1211
aaa
aaa
aaa
13
93
74
Vetor:
10
7
4
a Vetor linha ou transposto: 1074' a
Matriz transposta (A’):
4105
372
43
107
52'
)23( )32( x x AA
Número de linhas = número de colunas.
Contém apenas uma coluna. Também são representados por letras minúsculas em negrito.
3
Aplicação na regressão linear simples:
O vetor y consiste de n observações da variável resposta:
n
n) (1
n
nxYYY
Y
Y
Y
..y
.
.yx
'21
2
1
1
Matriz X de delineamento:
n
n
n
2 n XXX
X
X
X
...
1...11
1
..
..
..
1
1
21)x2(
'
2
1
)x(XX
O vetor dos parâmetros:
β
α
1 xβ
2
4
Exemplo :
• X = tamanho do registro
• Y = tempo para criptografar
3067768233964013235121444384
805256375128YX
Resultados de n = 8 ensaios experimentais:
896 245833291024
5
3329
2458
3067
2339
1323
1444
805
375
y 332924583067233913231444805375' y
10241
8961
7681
6401
5121
3841
2561
1281
X
β
6
• Exercício: em um experimento foi estudado a porcentagem de acertos na cache (Y) em função do tamanho da cache (X), em kbytes, para um determinado tipo de pré-carregamento. Alguns resultados deste experimento foram:
• Tamanho da cache: 250 300 350 400• Acertos (%) : 44,45 46,99 50,66 53,21• Dar o vetor de dados (y), vetor de dados transposto
(y’), a matriz de delineamento (X), matriz do delineamento transposta (X’) e o vetor de parâmetros ().
7
Adição e subtração de matrizes:
43
32
21
63
52
41
)x3()x3( 2 2 BA
20
20
20
4633
3522
2411
106
84
62
4633
3522
2411
)3(
)3(
2 x
2 x
BA
BA
Aplicação na regressão:
Temos o modelo de regressão, para a i-ésima observação:
n1,2,..,i εyEy iii )(
onde E(yi) corresponde ao valor médio de yi. Este modelo pode ser escrito em forma matricial.
Matrizes de mesma dimensão
8
Vamos definir os vetores de respostas médias e de resíduos:
n
1 n
n ε
ε
ε
yE
yE
yE
E1 n
.
.
.ε
)(
.
.
.
)(
)(
)y()x(
)x(
2
1
2
1
Assim, o modelo de regressão escrito na forma matricial, fica:
)x()x()x(ε)y(y
1 n1 n1 nE
Exercício: estruturar o vetor de erros () para o experimento sobre acertos e tamanho de cache.
9
Multiplicação de matrizes:
Por escalar:
1236
288
39
74
24A
Multiplicação de matriz por matriz:
3221
5233
81645144
85625542
85
64
222222 )..()..(
)..()..(
14
52AB
Nota: geralmente ABBA. Para poder realizar a multiplicação, o número de colunas da matriz A dever ser igual ao número de linhas da matriz B.
Exercício: faça a multiplicação das matrizes: .
2
5
3
850
431
AB
10
Aplicação na regressão:
quadrados de Somay
y
y
y
yyyn
ii
n
nnxxn
1
2
2
1
2111
.
.
....yy '
11
Exercício:
Para o experimento sobre acertos e tamanho de cache, realizar o produto de vetores: y’y.
3329
2458
3067
2339
1323
1444
805
375
332924583067233913231444805375' yy
Exemplo: tempo para criptografar e tamanho do registro
530.625.36' yy
12
21
2
1
1
2
2
1
2122
1
1
1
111
n
ii
n
ii
n
ii
n
nnxxnXX
Xn
X
X
X
XXX
..
..
..
...
...XX '
Importante:
13
Exemplo: tempo para criptografar e tamanho do registro
Exercício:
Para o experimento sobre acertos e tamanho de cache, realizar o produto de matrizes: X’X.
10241
8961
7681
6401
5121
3841
2561
1281
1024896768640512384256128
11111111'XX
8 4608X'X = 4608 3342336
14
Importante:
12
2
1
2112
111
ii
i
n
nnxxn YX
Y
Y
Y
Y
XXX
.
.
.
...
...yX '
15
Exercício:
Para o experimento sobre acertos e tamanho de cache, realizar o produto X’y.
Exemplo: tempo para criptografar e tamanho do registro
3329
2458
3067
2339
1323
1444
805
375
1024896768640512384256128
11111111' yX
X'y = 1514010949632
16
nn
xnx
X
.
.
.
X
X
X
..
..
..
X
X
2
1
2
1
122
1
1
1
βX
Importante:
17
Exercício:
Para o experimento sobre acertos e tamanho de cache, realizar o produto X.
Exemplo: tempo para criptografar e tamanho do registro
1024.
896.
768.
640.
512.
384.
256.
128.
10241
8961
7681
6401
5121
3841
2561
1281
Xβ
18
Portanto, o modelo de regressão na forma matricial fica:
εXβ y
8
7
6
5
4
3
2
1
8
7
6
5
4
3
2
1
1024.
896.
768.
640.
512.
384.
256.
128.
10241
8961
7681
6401
5121
3841
2561
1281
3329
2458
3067
2339
1323
1444
805
375
19
Exercício:
Para o experimento sobre acertos e tamanho de cache, obtenha o modelo de regressão linear simples através das operações y = X + .
20
Inversa de uma matriz
Suponha a equação a.x = b, em que a, b e x são números reais e queremos resolver esta equação em x. Vemos diretamente que x = b/a é a solução para a 0. As etapas para se chegar a esta solução foram:
a
bx
a
bx
a
bxa
ab
aax
abax
1
111
Para duas ou mais equações temos a seguinte representação em termos matriciais:
Ax = b
O que precisamos fazer para resolver estas equações em x? Precisamos encontrar uma matriz representada por A-1, chamada inversa de A, equivalente a 1/a, tal que A-1A=I, sendo I uma matriz cujos elementos na diagonal são todos iguais a 1 e fora iguais a zero, ou seja:
1.00
....
0.10
0.01
1 IAA
21
Exemplo
Se temos um sistema de equações:
bAx
Assumindo que A tem inversa, podemos pré-multiplicar ambos os lados da igualdade por A-1:
bAx)AA( 1 1
Como A-1Ax = Ix = x, obtemos a solução:
bAx 1
22
10
20
13
42
2
1
x
x
A solução do sistema de equações é dada por:
4
2
10
20
2030
4010
10
20
13
42
2
11
2
1
..
..
x
x
x
x
Exemplo: suponha o seguinte sistema de equações:
103
2042
21
21
xx
xx
Escrevendo na forma matricial temos:
Observação: a inversa da matriz foi calculada com o auxílio do Excel.
23
Aplicação na regressão
Na análise de regressão, a principal inversa é a de (X’X), representada por (X’X)-1:
Exemplo:
Para o experimento sobre tempo para criptografar e tamanho do registro, a inversa da matriz (X’ X) com o auxílio de uma planilha eletrônica.
8 4608X'X = 4608 3342336
Inversa(X' X) 0,607143 -0,000837054-0,000837 1,45322E-06
24
Exemplo:
Para o experimento sobre acertos e tamanho de cache, a inversa da matriz (X’ X) com o auxílio de uma planilha eletrônica.
00008,0026,0
026,07,8
4350001300
13004
1XX
XX
'
'
25
Análise de regressão linear simples através de matrizesO modelo de regressão linear simples, na forma matricial é dado por:
εXβ y
Para obtermos as estimativas dos coeficientes de regressão (b) devemos resolver as equações normais:
yXb)XX( ''
yX)XX(b)XX()XX( '''' 11 Como (X’X)-1( X’X)=I e Ib=b, temos:
yX)XX(b '' 1
26
Exercício: Usando a abordagem matricial obter os coeficientes de regressão para o exemplo de uma pesquisadora que está estudando a porcentagem de acertos com o tamanho da cache.
Exemplo: Usando a abordagem matricial obter os coeficientes de regressão para o exemplo de um pesquisador que está estudando o tempo para criptografar e o tamanho do registro.
Inversa(X' X) 0,607143 -0,000837054-0,000837 1,45322E-06
X'y = 1514010949632
24,3
71,26
10949632
15140
00000145,0000837,0
000837,0607143,01yXXXb ''
27
Valores estimados e resíduos
Valores estimados
Em termos matriciais, os valores estimados ou preditos são obtidos por:
1 x 2 x n1 x n 2bXY
28
Exercício: Estimar (predizer) os valores de porcentagem de acertos na cache de acordo com o modelo de regressão linear simples.
Exemplo: Estimar (predizer) os valores de tempo para criptografar de acordo com o modelo de regressão linear simples.
7,3243
0,2929
4,2514
8,2099
2,1685
6,1270
9,855
3,441
24,3
71,26
10241
8961
7681
6401
5121
3841
2561
1281
ˆ Xby
29
Resíduos
Os resíduos, em termos matriciais, são dados por:
XbYYYe ˆ
Exemplo: Obter os valores dos resíduos ou erros do tempo para criptografar de acordo com o modelo de regressão linear simples.
30
Exercício:
para o exemplo de porcentagem de acerto na cache e o tamanho, obter o vetor de valores dos resíduos:
67,14
05,471
57,552
19,239
19,362
42,173
95,50
33,66
7,3243
0,2929
4,2514
8,2099
2,1685
6,1270
9,855
3,441
3329
2458
3067
2339
1323
1444
805
375
ˆ Xbyyye
31
Calcular SQE (Soma de quadrados dos erros) e QME (Quadrado médio dos erros).
Exemplo:
• X = tamanho do registro
• Y = tempo para criptografar
Resultados de n = 8 ensaios experimentais:
yXbyyee '''' SQE
3067768233964013235121444384
805256375128YX
896 245833291024
32
9,903.752
67,14
05,471
57,552
19,239
19,362
42,173
95,50
33,66
67,1405,47157,55219,23919,36242,17395,5033,66'
ee
Exercício:Para os dados de porcentagem de acertos na cache e tamanho calcular SQE (Soma de quadrados dos erros) e QME (Quadrado médio dos erros).
QME = 752.903,9/(8-2) = 107.557,7
33
Análise de variância
Soma de quadradosO termo da correção é dada por: Jyy'
nC 1
A soma de quadrados total é dada por:
CSQTO yy'
A soma de quadrados do erro (resíduo) é dada por:
yXbyy
)Xby()Xby(ee'''
''
SQE
A soma de quadrados da regressão é dada por:
CSQRE yXb ''
111
111
111
x
.
....
.
.
n nj
34
Exercício: para os dados de porcentagem de acertos na cache e o tamanho da cache, obter as somas de quadrados da ANOVA.
Correção:
Soma de quadrados total:
Soma de quadrados da regressão:
Soma de quadrados do erro:
Fazer a tabela da ANOVA com a razão F*. Fazer o teste de significância do modelo.
35
Inferência na análise de regressão
Vamos tratar aqui das expressões para o cálculo do intervalo de confiança para uma resposta média e do intervalo de predição para uma nova observação.
Resposta média
Para estimar a resposta média em Xh, vamos definir o vetor:
h2 x h
h1 x h X
X1
1
1
'
2
XX
Vimos que os valores estimados, na forma matricial, são dados por:
1) 1hhYx(
'ˆ bX
36
Exemplo
Para o exemplo do tempo para criptografar, deseja-se determinar a estimativa da resposta média quando Xh = 512. Tem-se:
5121512
1
2 x 1
'
1 x 2h
hXX
19,685.124,3
71,265121ˆ
1) x 1(
'
bXhhY
37
Exercício: para o exemplo das porcentagens de acerto na cache, deseja-se determinar a estimativa da resposta média quando Xh = 300. Tem-se:
3001300
1
12
2 x h
1 x h
'XX
05990
36293001
,
,bXˆ
x(
'
1) 1hhY
38
))(()ˆ( 1''2hhh QMEYs XXXX
A estimativa da variância de uma resposta média é obtida por:
Exemplo: para o exemplo do tempo para criptografar, determinar a estimativa da variância da média de uma observação estimada quando Xh=512. Temos:
Exemplo: para o exemplo do tempo para criptografar, determinar a estimativa do desvio padrão da média de uma observação estimada quando Xh=512. Temos:
Exemplo: construir o intervalo de confiança, com 95%, para a resposta média quando Xh=512.
512
1
00000145,0000837,0
000837,0607143,051217,107557ˆ512
2 ys
39
Exercício: para o exemplo das porcentagens de acerto na cache, determinar a estimativa da variância da média de uma observação estimada quando Xh=300. Temos:
Exercício: para o exemplo das porcentagens de acerto na cache, determinar a estimativa do desvio padrão da média de uma observação estimada quando Xh=300. Temos:
Exercício: construir o intervalo de confiança, com 95%, para a resposta média quando Xh=300.
40
Predição de uma observação
Para predizer a resposta em Xh, vamos definir o vetor:
h2 x h
h1 x h X
X1
1
1
'
2
XX
Vimos que os valores preditos, na forma matricial, são dados por:
1) 1hhYx(
'ˆ bX
Exercício: para o exemplo das porcentagens de acerto na cache, predizer a porcentagem de acertos quando Xh=300. Temos:
3001
300
1
12
2 x h
1 x h
'XX
334705990
36293001 ,
,
,bXˆ
x(
'
1) 1hhY
41
A variância de uma predição é dada por:
)XX)(XX())(ˆ( ''hhh QMEpreditoYs 12 1
Exercício: para o exemplo das porcentagens de acerto na cache, desejamos determinar a estimativa da variância da predição de uma observação quando Xh=300. Temos:
Exercício: para o exemplo das porcentagens de acerto na cache, desejamos determinar a estimativa do desvio padrão da predição de uma observação quando Xh=300. Temos:
Exercício: construir o intervalo de predição, com 95%, para um valor da resposta quando Xh=300.
42
Exercício: continuação do exercício do tempo para criptografar e o tamanho da palavra.
Predição. Determinar a estimativa da variância e o desvio padrão da predição de uma observação quando Xh = 512. Seja QME = 107.557,7.
Intervalo de predição. Construir o intervalo de predição, com 95% de confiança, para um valor da resposta quando Xh = 512.