Mineração de Dados - Contextualização -...
Transcript of Mineração de Dados - Contextualização -...
Mineração de Dados - Contextualização
Fonte: Prof. Fabrício J. Barth - http://fbarth.net.br/
Mineração de Dados - Contextualização
Uso da informação Síntese do conhecimento;
Manter, disseminar, organizar, criar conhecimento e tomar decisões mais assertivas com base nos dados;
Sistemas de informação, sistemas especialistas, ...
Mineração de Dados - Contextualização
Fonte: Prof. Fabrício J. Barth - http://fbarth.net.br/
Mineração de Dados - Contextualização
Mineração de Dados - Contextualização
Mudança de cenário
Ficou mais complexo devido as características dos dados, da forma como eles são gerados e das novas necessidades dos usuários.
O volume de dados gerados é muito alto.
A velocidade com que eles são gerados e perdem a validade é muito rápida.
A variedade das fontes é bem diversificada (estruturada + não estruturada)
Mineração de Dados - Contextualização
Sistemas de informação, sistemas especialistas, ...
Foco no registro das transações (passado).
Usuário deseja informações do estado atual (presente) e dos próximos estados (futuro).
Exemplos
Fonte: http://www.predpol.com/
Exemplos
Fonte: U.S. Geological Survey - https://www.usgs.gov/
Exemplos
Fonte: Amazon- https://www.amazon.com/
Exemplos
Entradas: fontes de dados da internet, incluindo redes sociais e blogs Saídas: identificação em tempo real de surtos com alto índice de confiabilidade (85%) Fonte: http://www.observatorio.inweb.org.br
Exemplos
Entradas: Opiniões sobre o mercado de ações nos EUA Saídas: Classificação das tendências (alta/baixa) do preço das ações
Fonte: https://stocktwits.com/
Exemplos
Entradas: Milhares de previsões simultâneas do mercado de ações dos EUA Saídas: Classificação das tendências (alta/baixa) do preço das ações
Fonte: numer.ai/
Mineração de Dados - Contextualização
Características dos exemplos mostrados
Manipulam grandes volumes de informação;
Recebem dados de diversas fontes simultaneamente.
Knowledge Discovery in Databases (KDD)
Descoberta de conhecimento em bancos
de dados - Knowledge Discovery in Databases
(KDD)
Processo que envolve desde a preparação da
base de dados até a apresentação do
conhecimento.
Extração do conhecimento através de técnicas de mineração de dados.
Knowledge Discovery in Databases (KDD)
Exemplo
Pergunta:
É possível classificar espécies do gênero Iris levando em consideração apenas o tamanho das plantas?
Knowledge Discovery in Databases (KDD)
Aquisição e pré-processamento dos dados
Exemplo com a linguagem R
Knowledge Discovery in Databases (KDD)
Análise exploratória
Visualização dos dados
Knowledge Discovery in Databases (KDD)
Modelagem dos dados
Classificação da espécie em função das características da planta
Knowledge Discovery in Databases (KDD)
Avaliação do modelo
Classificação das plantas
Quantos falsos positivos?
Quantos falsos negativos?
Qual a acurácia do modelo?
Acertou 95% das previsões!
Knowledge Discovery in Databases (KDD)
Knowledge Discovery in Databases (KDD)
Problema multidisciplinar
• Integração, consolidação e remodelagem de dados para processamento analítico
• Análise exploratória de dados
• Pré-processamento dos dados
• Aprendizagem computacional
• Inferência
• Avaliação de desempenho
• Ambientes de consulta (OLAP e OLAM)
Knowledge Discovery in Databases (KDD)
Tudo começa com uma (boa) pergunta Que acontecerá com as vendas do produto A se faltar
o produto B nas prateleiras da loja?
Quanto valerão as ações da empresa X daqui a 15 dias?
Quantas equipes de manutenção devo deixar de sobreaviso no carnaval ?
Quantas peças sobressalentes devo disponibilizar para poder atender às necessidades em 95% dos casos ?
Se só temos capacidade para fiscalizar 10% das empresas por ano, quais deveríamos fiscalizar?
Que acontecerá com a arrecadação se for concedido um benefício fiscal de 20% de redução?
...
Knowledge Discovery in Databases (KDD)
• Data WareHouse (DW): oferece os dados com a visão histórica adequada tanto à extração de conhecimento quanto à apresentação de resultados
• Data Mining (DM): agrupa os dados, otimiza classificações, estimativas e previsões faz associações e extrai o conhecimento implícito nos dados (regras do negócio)
• On-Line Analytical Processing (OLAP) / Mining (OLAM): Ambientes de consulta que apresentam os resultados tanto das consultas diretas ao Data WareHouse quanto das respostas da mineração dos dados contidos no Data WareHouse.
KDD é uma atividade
multidisciplinar que se baseia em 3 áreas da computação:
Knowledge Discovery in Databases (KDD)
Adaptado de [Pappa, G. L.,2009]
Mineração de Dados
Extração de conhecimento de grandes volumes de dados
Identificação de padrões úteis
Suporte à decisão
Gerência de negócios
Controle de produção
Análise de mercado
Exploração científica
...
Processo para Mineração de Dados
Processo de KDD com mineração de dados
Análise sistemática dos dados
Metodologias para documentação de processos de KDD
Padrão CRISP-DM (Cross-Industry Standard Process for Data Mining)
Metodologia padrão não proprietária que identifica as diferentes fases na implantação de um projeto de data mining (DMP).
Última versão: http://www.crisp-dm.org/
CRISP-DM
Visão Geral
CRISP-DM
Seis fases cíclicas
Business Understanding
Data Understanding
Data Preparation
Modeling Evaluation Deployment
CRISP-DM
Business Understanding
Essa fase determina:
Os objetivos de negócio (as perguntas!);
Avaliação do modelo atual;
Os objetivos específicos da mineração dos dados;
O desenvolvimento de um plano de projeto.
CRISP-DM
Data Understanding
Levantamento dos requisitos dos dados:
Coleta inicial dos dados;
Descrição dos dados;
Exploração dos dados;
Verificação da qualidade dos dados;
Identificação visual de padrões.
CRISP-DM
Data Preparation
Seleção, limpeza e formatação dos dados:
Extração dos dados selecionados;
“Limpeza” dos ruídos existentes nos dados;
Transformação dos dados;
Identificação visual/estatística de padrões.
CRISP-DM
Modeling Criação do modelo de mineração de dados:
Agrupamento: Identificação de grupos de indivíduos/registros que têm perfis semelhantes;
Regressão: Estimação de valores contínuos na resposta do sistema;
Classificação: Decisão do sistema categorizando cada indivíduo/registro em uma classe pré-definida;
Extração de regras de associação e de classificação: Apresentação de relações entre as variáveis de entrada e as respostas do sistema.
CRISP-DM
Evaluation Avaliação dos resultados gerados a partir do modelo:
Visualização dos resultados em gráficos;
Análise estatística dos resultados;
Validação da generalização dos modelos;
Identificação dos padrões úteis ou inesperados e alinhamento com a Fase I (business understanding)
CRISP-DM
Deployment Modelo incorporado aos processos de negócio:
Previsão de cenários;
Identificação de processos críticos;
Monitoramento dos resultados;
Avaliação de desempenho.
CRISP-DM
Referências Guia da IBM para a plataforma SPSS
ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/UserManual/CRISP-DM.pdf
CRISP-DM
Exercício
Refazer o tutorial de mineração de dados do Titanic – Competição do Kaggle
https://www.kaggle.com/amp1996/an-interactive-data-science-tutorial/code/notebook