CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

21
CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08

Transcript of CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

Page 1: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Data Mining

Gláucia Braga e Silva

abril/08

Page 2: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Sumário

Introdução Definições Técnicas Aplicações Ferramentas Conclusões

Page 3: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Referências Luiz Homero Bastos Cunico. Técnicas em Data Mining

aplicadas na predição de satisfação de Funcionários de uma rede de lojas do comércio varejista. Dissertação Mestrado. Universidade Federal do Paraná. Curitiba, 2005.

Marcos Corrêa Neves; Corina Costa Freitas; Gilberto Câmara. Mineração de Dados em Grandes Bancos de Dados Geográficos. Relatório Técnico. INPE, Novembro, 2001.

Rafael Santos. Data Mining em Java: Conceitos, Algoritmos e Implementações. Laboratório Associado de Computação e Matemática Aplicada. INPE.

Page 4: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Um “Bando” de Dados

Fonte: http://distancelearning.ksi.edu/demo/ba531/ba531.htm

Page 5: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

A busca por informação útil

Fonte: http://distancelearning.ksi.edu/demo/ba531/ba531.htm

Page 6: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Necessidade

Grandes Volumes de Dados Informação Útil

KDD

Data Mining

Page 7: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Definições KDD - Knowledge Discovery in Databases

Descoberta de Conhecimento em Bancos de Dados - Processo não trivial de identificação de padrões válidos, novos, úteis e implicitamente presentes em grandes volumes de dados.

Page 8: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Definições

Data Mining (DM) – Consiste da busca, automática ou semi-automática, em grandes quantidades de dados com o objetivo de descobrir padrões importantes, utilizando algoritmos com eficiência computacional aceitável. Núcleo do processo de KDD.

Page 9: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Valor estratégico dos dados

Page 10: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Evolução da recuperação de dados

Fonte: http://www.fanap.br/site/revista.php#15

Page 11: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Data Mining - Tarefas Classificação: aprendizado de uma função que mapeia

um dado em uma de várias classes conhecidas.

Regressão (predição): aprendizado de uma função que mapeia um dado em um valor real.

Agrupamento (clustering): identificação de grupos de dados onde os dados tem características semelhantes entre si e os grupos tem características diferentes.

Sumarização: descrição do que caracteriza um conjunto de dados (ex. conjunto de regras).

Detecção de desvios ou outliers: identificação de dados que deveriam seguir um padrão mas não o fazem.

Page 12: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Data Mining - Atividades e Tarefas

Page 13: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Data Mining

Campo interdisciplinar que envolve outras áreas do conhecimento como Estatística,

Inteligência Artificial e Aprendizado de Máquina.

Page 14: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Data Mining e Estatística Uso de conceitos estatísticos

Distribuição normal, variância, análise de regressão, análise de Cluster, desvios simples, análises de conjuntos, análises de discriminantes e intervalos de confiança

Page 15: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Data Mining e Inteligência Artificial Construída a partir dos fundamentos da

heurística, em oposto à Estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas estatísticos. Redes neurais, regras de indução, árvores de

decisão, séries temporais, etc.

Page 16: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Data Mining e Aprendizado de Máquina “Casamento” da Estatística e da Inteligência

Artificial. Programas de computador aprendem com os

dados estudados, a fim de tomar decisões baseadas nas características destes dados. Uso da Estatística para os conceitos fundamentais; e Uso de heurísticas avançadas da IA e algoritmos para

alcançar os objetivos.

Page 17: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Data Mining e Data Warehouse Data Warehouse - repositório centralizado

de dados; Data Mining – extração inteligente de dados

Funciona melhor com o Data Warehouse

Data Warehouse: A Memória da Empresa

Data Mining: A Inteligência da Empresa

Page 18: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Aplicações de Data Mining Logística Medicina BioInformática Marketing Economia e Finanças Segurança Ciências Espaciais – GIS Governo Astronomia Entre outras

Page 19: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Exemplos de Ferramentas de Software Weka: software de domínio público (Java), desenvolvido pela

Universidade de Waikato.

Intelligent Miner: desenvolvido pela IBM, é uma ferramenta de DM interligada diretamente com o DB2 da IBM.

Oracle Data Miner: desenvolvido pela Oracle, permite interligação direta com o SGBD Oracle.

Enterprise Miner: tradicionalmente utilizado na área de negócios, marketing e inteligência competitiva.

Statistica Data Miner: acrescenta as facilidades de mineração de dados ao tradicional pacote utilizado em aplicações de estatística.

TANAGRA – Software livre de mineração de dados e de igual maneira estatística.

Page 20: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Alguns Casos de Sucesso Wal*Mart: utilizando DM para previsão de itens por

cada loja da empresa; modificou seus sistemas de ressuprimento automático de produtos.

ShopKo: rede varejista americana, que utilizou DM para determinar quais produtos são vendidos através da venda indireta de outros produtos.

Banco Itaú: reduziu em um quinto a conta com despesas postais com malas diretas aos correntistas, aumentando a taxa de resposta de 2% para 30%.

Amazon: recomendações de livros e interesses.

Page 21: CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

CE245 – Tecnologias da

Informação

Conclusões A partir dos conceitos gerais sobre Data

Mining, conclui-se que se trata de uma Tecnologia da Informação atual e com um vasto campo de atuação.

Aliada a outras áreas do conhecimento, como Estatística e IA, constitui um poderoso mecanismo de obtenção de informações úteis e conhecimento, muitas vezes camuflados, em grandes volumes de dados.