Análise de Regressão: aspectos teóricos e computacionais
-
Upload
rodrigo-rodrigues -
Category
Education
-
view
319 -
download
4
Transcript of Análise de Regressão: aspectos teóricos e computacionais
Análise de Regressão: aspectos teóricos e computacionais
Rodrigo Lins Rodrigues
(05/12) Parte 1: Teórica
2
Quem sou?
Professor da UFRPE do curso de Licenciatura em Computação
Estudante de doutorado em Ciência da Computação
Pesquiso sobre Mineração de DadosEducacionais; Contatos:
Email: [email protected] Facebook: /rodrigomuribec
3
Agenda Entendimento sobre estatística; Natureza das variáveis; Correlação x Regressão; Pressupostos do modelo de regressão; Softwares Estatísticos/Data Mining; Exemplo prática no software R; Conhecendo o Rcommander
Material: https://goo.gl/uf5bwe
4
...Vamos entender um pouco sobre o que é a estatística ?
Introdução a Estatística
• A estatística lida com o planejamento, coleta, análise e interpretação dos dados como ferramentas auxiliares na tomada de decisões e resolução de problemas;
Introdução a Estatística
•Algumas áreas e técnicas da estatística...
▫Estatística descritiva;▫Planejamento de experimentos;▫Análise multivariada;▫Estatística não-paramétrica;▫Análise de regressão;▫Modelos lineares;▫Séries temporais;▫Tecnologia da amostragem;▫Controle de qualidade;▫ ...Etc.
7
•Primeiro vamos entender tipos de dados
Natureza das variáveis
Categóricas Numéricas
Nominal
(classificação)
Ordinal
(classificação)Discreta
(contagem)
Contínua
(mensuração)
sexo, raça, região, grupo
sangüíneo
pressão sangüínea
(baixa, normal,
alta)
Número de acidentes, número de
filhos
Peso, altura, pressão
sangüínea
8
...O que é Regressão e Correlação ?
9
...olhe pra essa imagem e pense um pouco mais!
10
Análise de Correlação e Regressão
• Correlação: medida descritiva que mede força da relação entre duas variáveis quantitativas;
• Regressão: A finalidade é estimar valores de uma variável, com base em valores conhecidos da outra;
11
Correlação de Pearson
• Mede o grau da correlação (positiva ou negativa) entre duas variáveis de escala métrica;
P > 0,4 Significa uma correlação positiva entre as duas variáveis.
-0,4 < 0 > 0,4 : Significa que as duas variáveis não dependem linearmente uma da outra.
P < -0,4 Significa uma correlação negativa entre as duas variáveis - Isto é, se uma aumenta, a outra sempre diminui.
Análise de Regressão
13
Análise de Regressão Linear
1. Determinar como duas variáveis se relacionam;
2. Estimar a função que determina a relação entre as variáveis;
3. Usar a equação ajustada para prever valores da variável dependente.
i i iY X Modelo de Regressão Linear Simples
Inclinaçãopopulacional
Interceptopopulacional Erro Aleatório
Variável Independente
Variável Dependente
X
Y
Coeficienteangular
i i iY X
i} ( ) iE Y x
Análise de Regressão Linear
15
Análise de Regressão Linear• Em um modelo estatístico, geralmente a variável resposta é afetada por várias variáveis;
• Então, analisamos Y como função apenas das K primeiras variáveis, sendo que permanece um erro (ou resíduo), devido a não utilização dasoutras m variáveis.
50556065707580859095
100
150 160 170 180 190
Altura (cm)
Peso
(kg)
1 2 1( , ,..., , ,..., )k k k mY f X X X X X
• A relação entre X e Y é Linear;
• Os valores de X são fixos, isto é, X não é uma variável aleatória;
• A média dos erros é nula, isto é:
( ) 0iE 1,2,...,i n
2 2 2( ) ( ) [ ( )] ( )i i i iVar E E E
• O erro em uma observação é não correlacionado com o erro em qualquer outra observação;
• Os erros têm distribuição normal.
Pressupostos do modelo de regressão
17
Análise de RegressãoO coeficiente de determinação ou simplesmente . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra.
2R
Definimos o coeficiente de determinação ou explicação do modelo, que é dado por:
2 SQreg bSxyRSQtot Syy
O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste.
20 1R 2R
• Muitas vezes, podemos encontrar problemas na especificação da função que relaciona as variáveis (não linearidade);
• Pode ser verificado através de um gráfico de dispersão entre X e Y;
• Existem funções que podem ser transformadas em modelos lineares;
• Existem vários tipos de funções que podemos transformar, tais como:
Ajuste do modelo de regressão
Função Potência; Função Exponencial; Função Hiperbólica.
Aplicações computacionaisSoftware R
(05/12) Parte 2: Prático
Softwares utilizados na estatística
•Existem diversas ferramentas que dão suporte a análise dos dados quantitativos, dentre elas:
Trabalhando com a base de dados
• Geralmente as bases de dados são digitadas em Excel;
• Todos os softwares estatísticos importam bases em formatos: xls, xlsx, csv, txt,etc;
• É aconselhável que a base seja transformada pra CSV;
• Quando existem diferentes bases de dados e queremos fazer integração pra análises, utilizamos alguns softwares:
22
Software Estatístico R• É um conjunto integrado de pacotes ou bibliotecas
para manipulação de dados, cálculo e visualização gráfica;
• É uma ferramenta com uma grande quantidade de pacotes para atender diversas áreas;
• Possui uma linguagem de fácil entendimento;
• É software livre !!!
23
Software Estatístico R
• O R possui mais de 3.500 pacotes disponíveis;
• Foi uma evolução do S-plus;
• Começou em 1993;
• Em 1995 adotou a licença GPL
24
Software Estatístico R
http://www.r-bloggers.com/
25
•http://www.r-project.org/Repositório para download
26
...Chegou a hora de botarmos a mão na massa!
Material: https://goo.gl/uf5bwe
27
Conhecendo a interface do R
28
Importando a base de dados
29
Aplicando estatísticas descritivas
30
Gráficos• Estatística descritiva (Gráficos –
Histograma)
31
• Estatística descritiva (Gráfico de barras)
Gráficos
32
• Estatística descritiva (Gráfico de dispersão)
Gráficos
33
Trabalhando na prática• Tirar a média, mediana, máximo e minimo para
cada uma das variáveis quantitativas;
• Plote gráficos de dispersão para as variáveis quantitativas contínuas;
• Plote gráficos de histograma para variáveis quantitativas contínuas;
• Faça correlações entre as variáveis quantitativas;
• Analise a normalidade dos dados;
34
...Vamos praticar agora com Regressão Linear
35
Regressão linear
•Plotando as duas variáveis em um gráfico de dispersão.
36
Regressão linear
•Testando a normalidade
37
Regressão linear
• Vamos construir um modelo linear
38
Regressão linear
• Temos o modelo Linear
InclinaçãoPopulacional: 95,29873Intercepto
Populacional: -89,22419
Variável Independente
Variável Dependente: Peso
Y
Coeficienteangular
i i iY X
i}
39
...Vamos facilitar nossas vidas ?
40
•O que é o Rcmdr?
▫Um pacote do R para manipulação gráfica;▫Facilita as análises básicas;▫Não precisa utilizar linha de comando;▫Disponibiliza uma saída de script;▫É leve e pode ser instalado em qualquer
versão do R;
Pacote Rcomander
41
Instalando o pacote Rcommander
Depois de instalado digite: require(Rcmdr)
42
Conhecendo a interface
43
Criando e carregando banco de dados
44
Vamos para a prática na ferramenta....