Web Data Mining com R: design de projetos para criação de modelos preditivos
Click here to load reader
-
Upload
fabricio-barth -
Category
Technology
-
view
224 -
download
0
description
Transcript of Web Data Mining com R: design de projetos para criação de modelos preditivos
![Page 1: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/1.jpg)
Web Data Mining com R: design deprojetos para criacao de modelos
preditivos
Fabrıcio Jailson Barth
Faculdade BandTec e VAGAS Tecnologia
Junho de 2013
![Page 2: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/2.jpg)
Sumario e Objetivos
• Etapas em estudos preditivos
• Escolha dos dados
• Medidas de erro
Web Data Mining com R: design de projetos para criacao de modelos preditivos — Sumario e Objetivos 2
![Page 3: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/3.jpg)
Etapas em estudos preditivos
• Escolher o conjunto de dados corretos.
• Dividir os dados em:
? Treinamento.
? Teste.
? Validacao (opcional).
Web Data Mining com R: design de projetos para criacao de modelos preditivos — Etapas em estudos preditivos 3
![Page 4: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/4.jpg)
• Selecionar atributos que devem formar o conjunto de
treinamento.
• Identificar modelos preditivos usando o conjunto de
treinamento.
Web Data Mining com R: design de projetos para criacao de modelos preditivos — Etapas em estudos preditivos 4
![Page 5: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/5.jpg)
• Aplicar cross-validation sobre o conjunto de
treinamento.
• Se nao existe conjunto de validacao entao aplicar o
modelo 1x no conjunto de teste.
• Se existe conjunto de validacao entao aplicar o modelo
no conjunto de teste e refinar o modelo.
• Se existe conjunto de validacao entao aplicar o modelo
1x no conjunto de validacao.
Web Data Mining com R: design de projetos para criacao de modelos preditivos — Etapas em estudos preditivos 5
![Page 6: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/6.jpg)
Identificando o conjunto de dadoscorretos
• Em alguns casos e facil (avaliacao de filmes → novas
avaliacoes de filmes).
• Em outros pode ser mais difıcil (dados geneticos →doencas).
• Geralmente, quanto maior a quantidade de dados,
melhor sao os modelos.
• Conhecer bench marks ajuda!
• Sempre comecamos com dados brutos e
precisamos processa-los.
Web Data Mining com R: design de projetos para criacao de modelos preditivos — Identificando o conjunto de dados
corretos
6
![Page 7: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/7.jpg)
Definicao de Erro
Table 1: Conjunto de teste
Exemplo Classe real Classe inferida
1 Positivo Positivo
2 Positivo Negativo
3 Negativo Negativo
4 Negativo Negativo
5 Negativo Negativo
6 Positivo Positivo
7 Positivo Negativo
8 Negativo Negativo
Web Data Mining com R: design de projetos para criacao de modelos preditivos — Definicao de Erro 7
![Page 8: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/8.jpg)
erro(modelo) =qtd incorretos
qtd exemplos(1)
onde:
• qtd exemplos: quantidade de exemplos do conjunto
de teste.
• qtd corretos: quantidade de exemplos do conjunto de
teste incorretamente classificados.
Web Data Mining com R: design de projetos para criacao de modelos preditivos — Definicao de Erro 8
![Page 9: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/9.jpg)
Neste exemplo:
Table 2: Conjunto de teste
Exemplo Classe real Classe inferida
1 Positivo Positivo
2 Positivo Negativo
3 Negativo Negativo
4 Negativo Negativo
5 Negativo Negativo
6 Positivo Positivo
7 Positivo Negativo
8 Negativo Negativo
erro(modelo) =2
8= 0.25 (2)
Web Data Mining com R: design de projetos para criacao de modelos preditivos — Definicao de Erro 9
![Page 10: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/10.jpg)
Definicao de Verdadeiro e Falso Positivo
• Verdadeiro Positivo = identificado corretamente.
• Falso Positivo = identificado incorretamente.
• Verdadeiro Negativo = rejeitado corretamente.
• Falso Negativo = rejeitado incorretamente.
Web Data Mining com R: design de projetos para criacao de modelos preditivos — Definicao de Verdadeiro e Falso
Positivo
10
![Page 11: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/11.jpg)
Exemplo de teste medico:
• Verdadeiro Positivo = Pessoa doente corretamente
classificada como doente.
• Falso Positivo = Pessoa saudavel incorretamente
classificada como doente.
• Verdadeiro Negativo = Pessoa saudavel corretamente
classificada como saudavel.
• Falso Negativo = Pessoa doente incorretamente
classificada como saudavel.
Web Data Mining com R: design de projetos para criacao de modelos preditivos — Definicao de Verdadeiro e Falso
Positivo
11
![Page 12: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/12.jpg)
Matriz de precisao e cobertura
Positivo de fato Negativo de fato Precisao
Classificados Verdadeiro Falso
pelo modelo Positivo Positivo V P/(V P + FP )
como positivo (VP) (FP)
Classificados Falso Verdadeiro
pelo modelo Negativo Negativo V N/(V N + FN)
como negativo (FN) (VN)
Cobertura Acuracia:
V P/(V P + FN) V N/(FP + V N) (V P + V N)/(FP + FN)
Web Data Mining com R: design de projetos para criacao de modelos preditivos — Matriz de precisao e cobertura 12
![Page 13: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/13.jpg)
Cross-validation
Web Data Mining com R: design de projetos para criacao de modelos preditivos — Cross-validation 13
![Page 14: Web Data Mining com R: design de projetos para criação de modelos preditivos](https://reader037.fdocuments.net/reader037/viewer/2022100300/5584505ed8b42a6a6d8b4d85/html5/thumbnails/14.jpg)
Material de consulta
• Tom Mitchell. Machine Learning, 1997. (Capıtulo 5).
• Iah H. Witteh and Eibe Frank. Data Mining, 2000.
(Capıtulo 5).
• Prediction study design. Data Analysis Course.
Coursera.org
• Imagens retiradas de
http://genome.tugraz.at/proclassify/help/pages/XV.html
Web Data Mining com R: design de projetos para criacao de modelos preditivos — Material de consulta 14