Análise de Regressão: aspectos teóricos e computacionais

Post on 20-Mar-2017

319 views 4 download

Transcript of Análise de Regressão: aspectos teóricos e computacionais

Análise de Regressão: aspectos teóricos e computacionais

Rodrigo Lins Rodrigues

(05/12) Parte 1: Teórica

2

Quem sou?

Professor da UFRPE do curso de Licenciatura em Computação

Estudante de doutorado em Ciência da Computação

Pesquiso sobre Mineração de DadosEducacionais; Contatos:

Email: rlr@ded.ufrpe.br Facebook: /rodrigomuribec

3

Agenda Entendimento sobre estatística; Natureza das variáveis; Correlação x Regressão; Pressupostos do modelo de regressão; Softwares Estatísticos/Data Mining; Exemplo prática no software R; Conhecendo o Rcommander

Material: https://goo.gl/uf5bwe

4

...Vamos entender um pouco sobre o que é a estatística ?

Introdução a Estatística

• A estatística lida com o planejamento, coleta, análise e interpretação dos dados como ferramentas auxiliares na tomada de decisões e resolução de problemas;

Introdução a Estatística

•Algumas áreas e técnicas da estatística...

▫Estatística descritiva;▫Planejamento de experimentos;▫Análise multivariada;▫Estatística não-paramétrica;▫Análise de regressão;▫Modelos lineares;▫Séries temporais;▫Tecnologia da amostragem;▫Controle de qualidade;▫ ...Etc.

7

•Primeiro vamos entender tipos de dados

Natureza das variáveis

Categóricas Numéricas

Nominal

(classificação)

Ordinal

(classificação)Discreta

(contagem)

Contínua

(mensuração)

sexo, raça, região, grupo

sangüíneo

pressão sangüínea

(baixa, normal,

alta)

Número de acidentes, número de

filhos

Peso, altura, pressão

sangüínea

8

...O que é Regressão e Correlação ?

9

...olhe pra essa imagem e pense um pouco mais!

10

Análise de Correlação e Regressão

• Correlação: medida descritiva que mede força da relação entre duas variáveis quantitativas;

• Regressão: A finalidade é estimar valores de uma variável, com base em valores conhecidos da outra;

11

Correlação de Pearson

• Mede o grau da correlação (positiva ou negativa) entre duas variáveis de escala métrica;

P > 0,4 Significa uma correlação positiva entre as duas variáveis.

-0,4 < 0 > 0,4 : Significa que as duas variáveis não dependem linearmente uma da outra.

P < -0,4 Significa uma correlação negativa entre as duas variáveis - Isto é, se uma aumenta, a outra sempre diminui.

Análise de Regressão

13

Análise de Regressão Linear

1. Determinar como duas variáveis se relacionam;

2. Estimar a função que determina a relação entre as variáveis;

3. Usar a equação ajustada para prever valores da variável dependente.

i i iY X Modelo de Regressão Linear Simples

Inclinaçãopopulacional

Interceptopopulacional Erro Aleatório

Variável Independente

Variável Dependente

X

Y

Coeficienteangular

i i iY X

i} ( ) iE Y x

Análise de Regressão Linear

15

Análise de Regressão Linear• Em um modelo estatístico, geralmente a variável resposta é afetada por várias variáveis;

• Então, analisamos Y como função apenas das K primeiras variáveis, sendo que permanece um erro (ou resíduo), devido a não utilização dasoutras m variáveis.

50556065707580859095

100

150 160 170 180 190

Altura (cm)

Peso

(kg)

1 2 1( , ,..., , ,..., )k k k mY f X X X X X

• A relação entre X e Y é Linear;

• Os valores de X são fixos, isto é, X não é uma variável aleatória;

• A média dos erros é nula, isto é:

( ) 0iE 1,2,...,i n

2 2 2( ) ( ) [ ( )] ( )i i i iVar E E E

• O erro em uma observação é não correlacionado com o erro em qualquer outra observação;

• Os erros têm distribuição normal.

Pressupostos do modelo de regressão

17

Análise de RegressãoO coeficiente de determinação ou simplesmente . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra.

2R

Definimos o coeficiente de determinação ou explicação do modelo, que é dado por:

2 SQreg bSxyRSQtot Syy

O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste.

20 1R 2R

• Muitas vezes, podemos encontrar problemas na especificação da função que relaciona as variáveis (não linearidade);

• Pode ser verificado através de um gráfico de dispersão entre X e Y;

• Existem funções que podem ser transformadas em modelos lineares;

• Existem vários tipos de funções que podemos transformar, tais como:

Ajuste do modelo de regressão

Função Potência; Função Exponencial; Função Hiperbólica.

Aplicações computacionaisSoftware R

(05/12) Parte 2: Prático

Softwares utilizados na estatística

•Existem diversas ferramentas que dão suporte a análise dos dados quantitativos, dentre elas:

Trabalhando com a base de dados

• Geralmente as bases de dados são digitadas em Excel;

• Todos os softwares estatísticos importam bases em formatos: xls, xlsx, csv, txt,etc;

• É aconselhável que a base seja transformada pra CSV;

• Quando existem diferentes bases de dados e queremos fazer integração pra análises, utilizamos alguns softwares:

22

Software Estatístico R• É um conjunto integrado de pacotes ou bibliotecas

para manipulação de dados, cálculo e visualização gráfica;

• É uma ferramenta com uma grande quantidade de pacotes para atender diversas áreas;

• Possui uma linguagem de fácil entendimento;

• É software livre !!!

23

Software Estatístico R

• O R possui mais de 3.500 pacotes disponíveis;

• Foi uma evolução do S-plus;

• Começou em 1993;

• Em 1995 adotou a licença GPL

24

Software Estatístico R

http://www.r-bloggers.com/

25

•http://www.r-project.org/Repositório para download

26

...Chegou a hora de botarmos a mão na massa!

Material: https://goo.gl/uf5bwe

27

Conhecendo a interface do R

28

Importando a base de dados

29

Aplicando estatísticas descritivas

30

Gráficos• Estatística descritiva (Gráficos –

Histograma)

31

• Estatística descritiva (Gráfico de barras)

Gráficos

32

• Estatística descritiva (Gráfico de dispersão)

Gráficos

33

Trabalhando na prática• Tirar a média, mediana, máximo e minimo para

cada uma das variáveis quantitativas;

• Plote gráficos de dispersão para as variáveis quantitativas contínuas;

• Plote gráficos de histograma para variáveis quantitativas contínuas;

• Faça correlações entre as variáveis quantitativas;

• Analise a normalidade dos dados;

34

...Vamos praticar agora com Regressão Linear

35

Regressão linear

•Plotando as duas variáveis em um gráfico de dispersão.

36

Regressão linear

•Testando a normalidade

37

Regressão linear

• Vamos construir um modelo linear

38

Regressão linear

• Temos o modelo Linear

InclinaçãoPopulacional: 95,29873Intercepto

Populacional: -89,22419

Variável Independente

Variável Dependente: Peso

Y

Coeficienteangular

i i iY X

i}

39

...Vamos facilitar nossas vidas ?

40

•O que é o Rcmdr?

▫Um pacote do R para manipulação gráfica;▫Facilita as análises básicas;▫Não precisa utilizar linha de comando;▫Disponibiliza uma saída de script;▫É leve e pode ser instalado em qualquer

versão do R;

Pacote Rcomander

41

Instalando o pacote Rcommander

Depois de instalado digite: require(Rcmdr)

42

Conhecendo a interface

43

Criando e carregando banco de dados

44

Vamos para a prática na ferramenta....

45

Dúvidas ?

Contatos:Email: rlr@ded.ufrpe.br;Cel: 9874-6647Facebook: facebook.com/

rodrigomuribec