Ana Cláudia de Aquino Dantas Giselle Duailibe Zanchetta Gláucia Vieira Ferreira
CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.
Transcript of CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.
CE245 – Tecnologias da
Informação
Data Mining
Gláucia Braga e Silva
abril/08
CE245 – Tecnologias da
Informação
Sumário
Introdução Definições Técnicas Aplicações Ferramentas Conclusões
CE245 – Tecnologias da
Informação
Referências Luiz Homero Bastos Cunico. Técnicas em Data Mining
aplicadas na predição de satisfação de Funcionários de uma rede de lojas do comércio varejista. Dissertação Mestrado. Universidade Federal do Paraná. Curitiba, 2005.
Marcos Corrêa Neves; Corina Costa Freitas; Gilberto Câmara. Mineração de Dados em Grandes Bancos de Dados Geográficos. Relatório Técnico. INPE, Novembro, 2001.
Rafael Santos. Data Mining em Java: Conceitos, Algoritmos e Implementações. Laboratório Associado de Computação e Matemática Aplicada. INPE.
CE245 – Tecnologias da
Informação
Um “Bando” de Dados
Fonte: http://distancelearning.ksi.edu/demo/ba531/ba531.htm
CE245 – Tecnologias da
Informação
A busca por informação útil
Fonte: http://distancelearning.ksi.edu/demo/ba531/ba531.htm
CE245 – Tecnologias da
Informação
Necessidade
Grandes Volumes de Dados Informação Útil
KDD
Data Mining
CE245 – Tecnologias da
Informação
Definições KDD - Knowledge Discovery in Databases
Descoberta de Conhecimento em Bancos de Dados - Processo não trivial de identificação de padrões válidos, novos, úteis e implicitamente presentes em grandes volumes de dados.
CE245 – Tecnologias da
Informação
Definições
Data Mining (DM) – Consiste da busca, automática ou semi-automática, em grandes quantidades de dados com o objetivo de descobrir padrões importantes, utilizando algoritmos com eficiência computacional aceitável. Núcleo do processo de KDD.
CE245 – Tecnologias da
Informação
Valor estratégico dos dados
CE245 – Tecnologias da
Informação
Evolução da recuperação de dados
Fonte: http://www.fanap.br/site/revista.php#15
CE245 – Tecnologias da
Informação
Data Mining - Tarefas Classificação: aprendizado de uma função que mapeia
um dado em uma de várias classes conhecidas.
Regressão (predição): aprendizado de uma função que mapeia um dado em um valor real.
Agrupamento (clustering): identificação de grupos de dados onde os dados tem características semelhantes entre si e os grupos tem características diferentes.
Sumarização: descrição do que caracteriza um conjunto de dados (ex. conjunto de regras).
Detecção de desvios ou outliers: identificação de dados que deveriam seguir um padrão mas não o fazem.
CE245 – Tecnologias da
Informação
Data Mining - Atividades e Tarefas
CE245 – Tecnologias da
Informação
Data Mining
Campo interdisciplinar que envolve outras áreas do conhecimento como Estatística,
Inteligência Artificial e Aprendizado de Máquina.
CE245 – Tecnologias da
Informação
Data Mining e Estatística Uso de conceitos estatísticos
Distribuição normal, variância, análise de regressão, análise de Cluster, desvios simples, análises de conjuntos, análises de discriminantes e intervalos de confiança
CE245 – Tecnologias da
Informação
Data Mining e Inteligência Artificial Construída a partir dos fundamentos da
heurística, em oposto à Estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas estatísticos. Redes neurais, regras de indução, árvores de
decisão, séries temporais, etc.
CE245 – Tecnologias da
Informação
Data Mining e Aprendizado de Máquina “Casamento” da Estatística e da Inteligência
Artificial. Programas de computador aprendem com os
dados estudados, a fim de tomar decisões baseadas nas características destes dados. Uso da Estatística para os conceitos fundamentais; e Uso de heurísticas avançadas da IA e algoritmos para
alcançar os objetivos.
CE245 – Tecnologias da
Informação
Data Mining e Data Warehouse Data Warehouse - repositório centralizado
de dados; Data Mining – extração inteligente de dados
Funciona melhor com o Data Warehouse
Data Warehouse: A Memória da Empresa
Data Mining: A Inteligência da Empresa
CE245 – Tecnologias da
Informação
Aplicações de Data Mining Logística Medicina BioInformática Marketing Economia e Finanças Segurança Ciências Espaciais – GIS Governo Astronomia Entre outras
CE245 – Tecnologias da
Informação
Exemplos de Ferramentas de Software Weka: software de domínio público (Java), desenvolvido pela
Universidade de Waikato.
Intelligent Miner: desenvolvido pela IBM, é uma ferramenta de DM interligada diretamente com o DB2 da IBM.
Oracle Data Miner: desenvolvido pela Oracle, permite interligação direta com o SGBD Oracle.
Enterprise Miner: tradicionalmente utilizado na área de negócios, marketing e inteligência competitiva.
Statistica Data Miner: acrescenta as facilidades de mineração de dados ao tradicional pacote utilizado em aplicações de estatística.
TANAGRA – Software livre de mineração de dados e de igual maneira estatística.
CE245 – Tecnologias da
Informação
Alguns Casos de Sucesso Wal*Mart: utilizando DM para previsão de itens por
cada loja da empresa; modificou seus sistemas de ressuprimento automático de produtos.
ShopKo: rede varejista americana, que utilizou DM para determinar quais produtos são vendidos através da venda indireta de outros produtos.
Banco Itaú: reduziu em um quinto a conta com despesas postais com malas diretas aos correntistas, aumentando a taxa de resposta de 2% para 30%.
Amazon: recomendações de livros e interesses.
CE245 – Tecnologias da
Informação
Conclusões A partir dos conceitos gerais sobre Data
Mining, conclui-se que se trata de uma Tecnologia da Informação atual e com um vasto campo de atuação.
Aliada a outras áreas do conhecimento, como Estatística e IA, constitui um poderoso mecanismo de obtenção de informações úteis e conhecimento, muitas vezes camuflados, em grandes volumes de dados.