Mineração de Dados: Introdução Victor Ströele [email protected] 25/4/2015Business Intelligence.
-
Upload
carolina-souto -
Category
Documents
-
view
218 -
download
0
Transcript of Mineração de Dados: Introdução Victor Ströele [email protected] 25/4/2015Business Intelligence.
![Page 2: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/2.jpg)
Roteiro BI e Mineração de Dados Introdução Processo KDD Conjuntos de Dados Funcionalidades da MD Etapas de Desenvolvimento da MD Integração DW e MD
![Page 3: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/3.jpg)
Business Intelligence Inteligência de negócios, ou inteligência
empresarialmétodo que visa ajudar as empresas a tomar
as decisões inteligentes Análise dos clientes
Clientes Mais ValiososClientes de Maior PotencialClientes Negativos (geram prejuízos)Clientes Intermediários
![Page 4: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/4.jpg)
BI e Mineração de Dados Grande volume de dados armazenado
diariamente pelas empresas Estratégias de Análise para tornar a empresa
mais competitiva BI:
Obter a partir dos dados operativos brutos, informação útil para subsidiar a tomada de decisão nos escalões médios e altos da empresa.
Mineração de Dados: Subsidiar a empresa com conhecimento novo e útil
acerca do seu meio ambiente
![Page 5: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/5.jpg)
Introdução Problema: Crescimento da quantidade de
informações disponíveis e distribuídas em diversas bases de dados:Bases de dados das Empresas (várias filiais)Bancos (concessão de crédito) Internet (Redes Sociais, e-mail)
![Page 6: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/6.jpg)
Introdução
OBJETIVO
“Extrair novos conhecimentos que estão escondidos em grandes
bases de dados.”
![Page 7: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/7.jpg)
Introdução Data Warehouse: repositório de múltiplas
fontes de dados heterogêneos unificados em um único local.
DW
Bases de DadosDistribuídas
![Page 8: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/8.jpg)
Introdução
KDD
Muitos Dados, mas Pouca Informação
![Page 9: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/9.jpg)
KDD KDD: Knowledge Discovery from Data. KDD é um processo de extração de
informações úteis em bases de dados, no qual a descoberta de conhecimento é a sua última etapa.
![Page 10: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/10.jpg)
Processo KDD Limpeza Integração Seleção Transformação Mineração dos Dados Avaliação dos Padrões Apresentação do
Conhecimento
![Page 11: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/11.jpg)
Processo KDD Componentes Principais:
Repositório de informações Servidor de Banco de
Dados Base de Conhecimentos Mecanismo de Mineração
de Dados Avaliação dos padrões Interface com o usuário
![Page 12: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/12.jpg)
Processo KDD Repositório de informações (Banco de
Dados, Data Warehouse, Internet): Representa uma ou um conjunto de bases de dados, ou qualquer tipo de repositório utilizado para armazenamento de dados. As etapas de limpeza dos dados e técnicas de integração do processo KDD devem ser aplicadas nesses componentes
![Page 13: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/13.jpg)
Processo KDD Servidor de Banco de Dados ou Data
Warehouses: Esses servidores são responsáveis pela coleta dos dados relevantes, com base na solicitação do usuário.
Base de Conhecimento: usada para guiar a pesquisa ou para avaliar o quão interessante é o padrão encontrado.
![Page 14: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/14.jpg)
Processo KDD Mecanismo de Mineração de Dados: Este
componente é fundamental para o processo KDD e consiste em um conjunto de módulos funcionais para tarefas como a caracterização, associação e análise de correlação, classificação, predição, análise de agrupamentos (cluster) e análise de outlier.
![Page 15: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/15.jpg)
Processo KDD Módulo de Avaliação de Padrões: analisa se
os resultados obtidos pelo componente de mineração de dados são interessantes. Esse módulo precisa ter uma interação com o módulo de mineração de dados para focar a busca em padrões interessantes.
![Page 16: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/16.jpg)
Processo KDD Interface com Usuário: Estabelece a
comunicação entre o processo KDD e o usuário, permitindo que o usuário interaja com o sistema como um todo.
![Page 17: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/17.jpg)
Conjuntos de Dados Banco de Dados Relacional:
Modelo mais utilizado.
CarrosAno Cor Modelo ...2005 Preto Astra ...1974 Azul Claro Fusca ...
... ... ... ...
![Page 18: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/18.jpg)
Conjuntos de Dados Data Warehouses:
União de diversos conjuntos de dados ou Reestruturação de uma base de dados
![Page 19: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/19.jpg)
Conjuntos de Dados Banco de Dados Transacional:
Arquivos ou tabelas que armazenam as informações de uma transação.
Podem existir outros arquivos ou tabelas complementares
Transação PrincipalNúmero Tipo Meio
0001 Venda de Carro
Vendedor Loja
0002 Venda de Som
Internet
... ... ...
Transação SecundáriaNúmero Data Responsável
0001 05/07/2008
José
0002 08/07/2008
Internet
... ... ...
![Page 20: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/20.jpg)
Conjuntos de Dados Sistemas de Informação e de Dados
Avançados: Banco de dados objeto-relacional Banco de Dados Temporais Banco de Dados Textuais World Wide Web
![Page 21: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/21.jpg)
Funcionalidades Descrição de Classe/Conceito
Pessoas Itens
Compram muito ou pouco Adulto ou Infantil
![Page 22: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/22.jpg)
Funcionalidades Descrição de Classe/Conceito
Caracterização: resumo das características gerais ou características de uma classe de destino de dados.
Discriminação: comparação entre as características gerais dos dados dos objetos da classe principal com as características gerais dos objetos de uma ou um conjunto de classes contrastantes.
![Page 23: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/23.jpg)
Funcionalidades Mineração de Padrões Freqüentes,
Associações e Correlações Padrões Freqüentes: são os padrões que ocorrem
com freqüência no conjunto de dados. Associação: indica como os padrões freqüentes
estão relacionados. Correlação: análise estatística para determinar se as
regras de associações encontradas são relevantes.
![Page 24: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/24.jpg)
Funcionalidades Mineração de Padrões Freqüentes,
Associações e Correlações Regras de Associação:
Compra(X, “computador”) Compra(X, “software”) [suporte = 1%, confiança = 50%]
Confiança é a certeza de que a regra irá ocorrer 50% das pessoas que compram computadores compram
softwares. Suporte é a quantidade relativa que a regra
representa 1% das pessoas compraram computadores.
![Page 25: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/25.jpg)
Funcionalidades Mineração de Padrões Freqüentes,
Associações e Correlações Regras de Associação:
Idade(X, “20...29”) ^ Renda(X, “300,00...900,00”) Compra(X, “CD”)[suporte = 2%, confiança = 60%]
60% das pessoas que possuem entre 20 e 29 anos e têm renda entre 300,00 e 900,00 compram CDs.
2% das pessoas analisadas possuem entre 20 e 29 anos e têm renda entre 300,00 e 900,00.
![Page 26: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/26.jpg)
Funcionalidades Classificação e Predição
Classificação é um processo de encontrar um modelo (ou função) que descreve e distingue classes de dados, com a finalidade de ser capaz de usar o modelo para prever a classe de objetos cujo rótulo da classe é desconhecido.
Predição é utilizada para definir um provável valor para uma ou mais variáveis. Ex.: a previsão da cotação de uma ação na bolsa de valores.
![Page 27: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/27.jpg)
Funcionalidades Agrupamento
(clustering) Diferentemente das
técnicas de classificação e predição as técnicas de agrupamento analisam os objetos sem o conhecimento prévio de qual classe cada objeto pertence.
![Page 28: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/28.jpg)
Classificação dos Sistemas de Mineração de Dados Interdisciplinaridade da técnica
A mineração de dados é um campo interdisciplinar, a confluência de um conjunto de disciplinas
Mineração de dados
Inteligência Artificial(Redes Neurais)
Outras Disciplinas
Banco de dados Visualização
Estatística
Biologia
![Page 29: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/29.jpg)
Etapas do Desenvolvimento da Mineração de Dados Permitir a interação entre o usuário e o processo
de mineração de dados
Analisar os resultados sobre ângulos diferentes
Usuário “interfere” no processo de mineração de dados
Permite um desenvolvimento em etapas
![Page 30: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/30.jpg)
Etapas do Desenvolvimento da Mineração de Dados
Conjunto dos dados relevantes na mineração de dados: Parte do banco de dados ou o conjunto de dados de
interesse por parte do usuário Banco de Dados? Data Warehouse? Quais atributos?
![Page 31: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/31.jpg)
Etapas do Desenvolvimento da Mineração de Dados
Tipo de conhecimento a ser extraído: Especifica as funcionalidades da mineração de dados
que serão executadas Caracterização? Regras de Associação? Previsão? Agrupamento ou classificação?
![Page 32: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/32.jpg)
Etapas do Desenvolvimento da Mineração de Dados
Base de conhecimentos previamente extraídos: Auxilia no processo de descoberta de conhecimento e
na análise dos padrões encontrados Hierarquia de Conceitos
![Page 33: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/33.jpg)
Etapas do Desenvolvimento da Mineração de Dados
Medidas mais interessantes ou critérios padrões de avaliação: Auxiliam o processo de mineração ou, após
descoberta de conhecimento, ajudam na avaliação dos padrões encontrados
Regras de associação Suporte e confiança
![Page 34: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/34.jpg)
Etapas do Desenvolvimento da Mineração de Dados
Representação visual dos padrões encontrados: Refere-se à forma em que os padrões descobertos
são exibidos Regras de associação Tabelas Gráficos Diagramas Árvores de Decisão
![Page 35: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/35.jpg)
Integração: Data Mining com Data Warehouse A comunicação das ferramentas de mineração
de dados e as ferramentas de bancos de dados é uma etapa crítica para o processo de extração de conhecimento
Sistema DM autônomo ou incorporado em aplicativos (não utiliza sistemas de bancos de dados ou DW) Desenvolvimento de algoritmos de mineração de
dados, nos quais as informações sobre os dados já são conhecidas e estão embutidas no código fonte.
![Page 36: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/36.jpg)
Integração: Data Mining com Data Warehouse Sistema de Mineração de dados com nenhum
acoplamento Utiliza arquivos para recuperar dados e gravar os
resultados obtidos. Sistemas com acoplamento flexível
Lê os dados de um banco de dados ou DW e armazena os resultados em qualquer outra fonte de dados (Banco de Dados, DW, arquivos).
![Page 37: Mineração de Dados: Introdução Victor Ströele stroele@gmail.com 25/4/2015Business Intelligence.](https://reader035.fdocuments.net/reader035/viewer/2022070507/570638481a28abb8238f408f/html5/thumbnails/37.jpg)
Integração: Data Mining com Data Warehouse Sistema com acoplamento semi-apertado
Os sistemas de Banco de Dados e DW possuem funcionalidades de mineração de dados.
Resultados intermediários são armazenados e auxiliam a Mineração de Dados futura.
Sistemas com acoplamento apertado Sistemas de banco de dados e mineração de dados
estão completamente integrados Sistema de informação que engloba Banco de Dados
ou DW e a mineração de dados