Análise de Regressão: aspectos teóricos e computacionais

45
Análise de Regressão: aspectos teóricos e computacionais Rodrigo Lins Rodrigues (05/12) Parte 1: Teórica

Transcript of Análise de Regressão: aspectos teóricos e computacionais

Page 1: Análise de Regressão: aspectos teóricos e computacionais

Análise de Regressão: aspectos teóricos e computacionais

Rodrigo Lins Rodrigues

(05/12) Parte 1: Teórica

Page 2: Análise de Regressão: aspectos teóricos e computacionais

2

Quem sou?

Professor da UFRPE do curso de Licenciatura em Computação

Estudante de doutorado em Ciência da Computação

Pesquiso sobre Mineração de DadosEducacionais; Contatos:

Email: [email protected] Facebook: /rodrigomuribec

Page 3: Análise de Regressão: aspectos teóricos e computacionais

3

Agenda Entendimento sobre estatística; Natureza das variáveis; Correlação x Regressão; Pressupostos do modelo de regressão; Softwares Estatísticos/Data Mining; Exemplo prática no software R; Conhecendo o Rcommander

Material: https://goo.gl/uf5bwe

Page 4: Análise de Regressão: aspectos teóricos e computacionais

4

...Vamos entender um pouco sobre o que é a estatística ?

Page 5: Análise de Regressão: aspectos teóricos e computacionais

Introdução a Estatística

• A estatística lida com o planejamento, coleta, análise e interpretação dos dados como ferramentas auxiliares na tomada de decisões e resolução de problemas;

Page 6: Análise de Regressão: aspectos teóricos e computacionais

Introdução a Estatística

•Algumas áreas e técnicas da estatística...

▫Estatística descritiva;▫Planejamento de experimentos;▫Análise multivariada;▫Estatística não-paramétrica;▫Análise de regressão;▫Modelos lineares;▫Séries temporais;▫Tecnologia da amostragem;▫Controle de qualidade;▫ ...Etc.

Page 7: Análise de Regressão: aspectos teóricos e computacionais

7

•Primeiro vamos entender tipos de dados

Natureza das variáveis

Categóricas Numéricas

Nominal

(classificação)

Ordinal

(classificação)Discreta

(contagem)

Contínua

(mensuração)

sexo, raça, região, grupo

sangüíneo

pressão sangüínea

(baixa, normal,

alta)

Número de acidentes, número de

filhos

Peso, altura, pressão

sangüínea

Page 8: Análise de Regressão: aspectos teóricos e computacionais

8

...O que é Regressão e Correlação ?

Page 9: Análise de Regressão: aspectos teóricos e computacionais

9

...olhe pra essa imagem e pense um pouco mais!

Page 10: Análise de Regressão: aspectos teóricos e computacionais

10

Análise de Correlação e Regressão

• Correlação: medida descritiva que mede força da relação entre duas variáveis quantitativas;

• Regressão: A finalidade é estimar valores de uma variável, com base em valores conhecidos da outra;

Page 11: Análise de Regressão: aspectos teóricos e computacionais

11

Correlação de Pearson

• Mede o grau da correlação (positiva ou negativa) entre duas variáveis de escala métrica;

P > 0,4 Significa uma correlação positiva entre as duas variáveis.

-0,4 < 0 > 0,4 : Significa que as duas variáveis não dependem linearmente uma da outra.

P < -0,4 Significa uma correlação negativa entre as duas variáveis - Isto é, se uma aumenta, a outra sempre diminui.

Page 12: Análise de Regressão: aspectos teóricos e computacionais

Análise de Regressão

Page 13: Análise de Regressão: aspectos teóricos e computacionais

13

Análise de Regressão Linear

1. Determinar como duas variáveis se relacionam;

2. Estimar a função que determina a relação entre as variáveis;

3. Usar a equação ajustada para prever valores da variável dependente.

i i iY X Modelo de Regressão Linear Simples

Page 14: Análise de Regressão: aspectos teóricos e computacionais

Inclinaçãopopulacional

Interceptopopulacional Erro Aleatório

Variável Independente

Variável Dependente

X

Y

Coeficienteangular

i i iY X

i} ( ) iE Y x

Análise de Regressão Linear

Page 15: Análise de Regressão: aspectos teóricos e computacionais

15

Análise de Regressão Linear• Em um modelo estatístico, geralmente a variável resposta é afetada por várias variáveis;

• Então, analisamos Y como função apenas das K primeiras variáveis, sendo que permanece um erro (ou resíduo), devido a não utilização dasoutras m variáveis.

50556065707580859095

100

150 160 170 180 190

Altura (cm)

Peso

(kg)

1 2 1( , ,..., , ,..., )k k k mY f X X X X X

Page 16: Análise de Regressão: aspectos teóricos e computacionais

• A relação entre X e Y é Linear;

• Os valores de X são fixos, isto é, X não é uma variável aleatória;

• A média dos erros é nula, isto é:

( ) 0iE 1,2,...,i n

2 2 2( ) ( ) [ ( )] ( )i i i iVar E E E

• O erro em uma observação é não correlacionado com o erro em qualquer outra observação;

• Os erros têm distribuição normal.

Pressupostos do modelo de regressão

Page 17: Análise de Regressão: aspectos teóricos e computacionais

17

Análise de RegressãoO coeficiente de determinação ou simplesmente . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra.

2R

Definimos o coeficiente de determinação ou explicação do modelo, que é dado por:

2 SQreg bSxyRSQtot Syy

O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste.

20 1R 2R

Page 18: Análise de Regressão: aspectos teóricos e computacionais

• Muitas vezes, podemos encontrar problemas na especificação da função que relaciona as variáveis (não linearidade);

• Pode ser verificado através de um gráfico de dispersão entre X e Y;

• Existem funções que podem ser transformadas em modelos lineares;

• Existem vários tipos de funções que podemos transformar, tais como:

Ajuste do modelo de regressão

Função Potência; Função Exponencial; Função Hiperbólica.

Page 19: Análise de Regressão: aspectos teóricos e computacionais

Aplicações computacionaisSoftware R

(05/12) Parte 2: Prático

Page 20: Análise de Regressão: aspectos teóricos e computacionais

Softwares utilizados na estatística

•Existem diversas ferramentas que dão suporte a análise dos dados quantitativos, dentre elas:

Page 21: Análise de Regressão: aspectos teóricos e computacionais

Trabalhando com a base de dados

• Geralmente as bases de dados são digitadas em Excel;

• Todos os softwares estatísticos importam bases em formatos: xls, xlsx, csv, txt,etc;

• É aconselhável que a base seja transformada pra CSV;

• Quando existem diferentes bases de dados e queremos fazer integração pra análises, utilizamos alguns softwares:

Page 22: Análise de Regressão: aspectos teóricos e computacionais

22

Software Estatístico R• É um conjunto integrado de pacotes ou bibliotecas

para manipulação de dados, cálculo e visualização gráfica;

• É uma ferramenta com uma grande quantidade de pacotes para atender diversas áreas;

• Possui uma linguagem de fácil entendimento;

• É software livre !!!

Page 23: Análise de Regressão: aspectos teóricos e computacionais

23

Software Estatístico R

• O R possui mais de 3.500 pacotes disponíveis;

• Foi uma evolução do S-plus;

• Começou em 1993;

• Em 1995 adotou a licença GPL

Page 24: Análise de Regressão: aspectos teóricos e computacionais

24

Software Estatístico R

http://www.r-bloggers.com/

Page 25: Análise de Regressão: aspectos teóricos e computacionais

25

•http://www.r-project.org/Repositório para download

Page 26: Análise de Regressão: aspectos teóricos e computacionais

26

...Chegou a hora de botarmos a mão na massa!

Material: https://goo.gl/uf5bwe

Page 27: Análise de Regressão: aspectos teóricos e computacionais

27

Conhecendo a interface do R

Page 28: Análise de Regressão: aspectos teóricos e computacionais

28

Importando a base de dados

Page 29: Análise de Regressão: aspectos teóricos e computacionais

29

Aplicando estatísticas descritivas

Page 30: Análise de Regressão: aspectos teóricos e computacionais

30

Gráficos• Estatística descritiva (Gráficos –

Histograma)

Page 31: Análise de Regressão: aspectos teóricos e computacionais

31

• Estatística descritiva (Gráfico de barras)

Gráficos

Page 32: Análise de Regressão: aspectos teóricos e computacionais

32

• Estatística descritiva (Gráfico de dispersão)

Gráficos

Page 33: Análise de Regressão: aspectos teóricos e computacionais

33

Trabalhando na prática• Tirar a média, mediana, máximo e minimo para

cada uma das variáveis quantitativas;

• Plote gráficos de dispersão para as variáveis quantitativas contínuas;

• Plote gráficos de histograma para variáveis quantitativas contínuas;

• Faça correlações entre as variáveis quantitativas;

• Analise a normalidade dos dados;

Page 34: Análise de Regressão: aspectos teóricos e computacionais

34

...Vamos praticar agora com Regressão Linear

Page 35: Análise de Regressão: aspectos teóricos e computacionais

35

Regressão linear

•Plotando as duas variáveis em um gráfico de dispersão.

Page 36: Análise de Regressão: aspectos teóricos e computacionais

36

Regressão linear

•Testando a normalidade

Page 37: Análise de Regressão: aspectos teóricos e computacionais

37

Regressão linear

• Vamos construir um modelo linear

Page 38: Análise de Regressão: aspectos teóricos e computacionais

38

Regressão linear

• Temos o modelo Linear

InclinaçãoPopulacional: 95,29873Intercepto

Populacional: -89,22419

Variável Independente

Variável Dependente: Peso

Y

Coeficienteangular

i i iY X

i}

Page 39: Análise de Regressão: aspectos teóricos e computacionais

39

...Vamos facilitar nossas vidas ?

Page 40: Análise de Regressão: aspectos teóricos e computacionais

40

•O que é o Rcmdr?

▫Um pacote do R para manipulação gráfica;▫Facilita as análises básicas;▫Não precisa utilizar linha de comando;▫Disponibiliza uma saída de script;▫É leve e pode ser instalado em qualquer

versão do R;

Pacote Rcomander

Page 41: Análise de Regressão: aspectos teóricos e computacionais

41

Instalando o pacote Rcommander

Depois de instalado digite: require(Rcmdr)

Page 42: Análise de Regressão: aspectos teóricos e computacionais

42

Conhecendo a interface

Page 43: Análise de Regressão: aspectos teóricos e computacionais

43

Criando e carregando banco de dados

Page 44: Análise de Regressão: aspectos teóricos e computacionais

44

Vamos para a prática na ferramenta....

Page 45: Análise de Regressão: aspectos teóricos e computacionais

45

Dúvidas ?

Contatos:Email: [email protected];Cel: 9874-6647Facebook: facebook.com/

rodrigomuribec