INE 5644 – Mineração de DadosAula 1 – O Processo e as Tarefas de DM
Professor:
José Leomar Todesco
Devido a junção de várias disciplinas em mineração de dados e a prática de múltiplo termos para referenciar a mesma coisa é importante ter um sumário.
Algoritmo – refere-se a um procedimento específico usado para implementar uma técnica particular de MD (Ex. Árvore de decisão, agrupamento, …)
Atributo – mesmo que Preditor.
Caso – mesmo que Observação.
Confiança – Tem significado específico em regras de associação do tipo “SE A e B são comprados ENTÃO C também é comprado”. Confiança é a probabilidade condicional que C seja comprado se A e B são comprados. Confiança também pode significar em estatística (intervalo de confiança), ou seja, o grau de erro em estimar os resultados da seleção de uma amostra em oposição a outra.
Variável dependente – mesmo que Resposta.
TERMINOLOGIA E NOTAÇÃO
2
Estimação – mesmo que Predição.
Característica – mesmo que Preditor.
Variável de entrada – mesmo que Preditor.
Modelo – refere-se a um algoritmo aplicado a um conjunto de dados, completo com sua configuração (muitos algoritmos tem seus parâmetros que o usuário pode ajustar).
Observação – é a unidade de análise pela qual a mensuração são feitas (um consumidor, uma transação, etc.) também chamado caso, registro, padrão ou linha. (cada linha tipicamente representa um registro; cada coluna uma variável.)
Variável de saída – mesmo que Resposta.
Padrão - é um conjunto de medidas em uma observação (ex. A altura, o peso, a idade de uma pessoa).
Predição – siginifica a descoberta de um valor de uma variável de saída contínua; também chamada estimação.
Preditor - geralmente denotado por X, é também chamado de caracteristica, variável de entrada, variável independente ou na perspectiva de uma base de dado, um campo.
Registro – mesmo que Observação.
TERMINOLOGIA E NOTAÇÃO
3
Score – refere-se ao valor valor encontrado ou classe. Score de um novo dado significa usar um modelo desenvolvido com dados de treinamento para predizer valores de saída em um novo dado.
Classe sucesso - é a classe de interesse em uma saída binária.
Aprendizado supervisionado – refere-se ao processo de prover um algoritmo com registros em que a variável de interesse é conhecida e o algoritmo aprende como predizer este valor para um novo registro onde a saída é desconhecida.
Dados de teste – refere-se ao conjunto de dados que são utilizados no final do processo de seleção e construção do modelo para verificar o desempenho do modelo com dados adicionais.
Dados de treinamento – refere-se a porção de dados usadas para ajustar o modelo.
Aprendizado não-supervisionado - refere-se a análise de maneira a aprender algo sobre os dados ou predizer um valor de saída de interesse (se percente a um grupo, por exemplo).
Dados de validação – refere-se a porção de dados de dados utilizados para verificar quão bem o modelo se comporta, ajustar algum modelo e selecionar o melhor modelo dentre os que tem sido tentado.
Variável - é alguma medida no registro, incluindo tanto a variável de entrada X quanto a variável de saída Y.
TERMINOLOGIA E NOTAÇÃO
4
Exemplo: um proprietário de uma pequena loja de vinhos conhece tudo sobre vinhos, por exemplo, o tipo de uva, a região onde a uva foi cultivada, o clima, o solo, a altitude dos parreirais, aroma, sabor, cor, o processo de fabricação. Os clientes gostam de visitar sua loja pois, também, aprendem muito sobre vinhos. Porém, só isto não basta, o proprietário precisa conhecê-los, como por exemplo, qual o tipo de vinho que o cliente gosta? Qual o poder aquisitivo? Assim, ele poderá dar um atendimento diferenciado (um a um) aos clientes. Temos, portanto, duas necessidades:
conhecimento e aprendizado
Uma pequena loja poucos clientes atendimento personalizado
Uma grande empresa milhares de clientes dificuldade em dar um atendimento dedicado
OBSERVANDO E APRENDENDO
5
Qual a tendência nos dias atuais?
Ter clientes leais, através de um relacionamento pessoal, um-para-um,
entre a empresa e o cliente.
Dentro desta tendência, as empresas desejam identificar os clientes
cujos valores e necessidades sejam compatíveis com o uso prolongado
de seus produtos, e nos quais é válido o risco de investir em promoções
com descontos, pacotes, brindes e outras formas de criar essa relação
pessoal.
Esta mudança de foco requer mudanças em toda a empresa, mas
principalmente nos setores de marketing, vendas e atendimento ao
cliente.
OBSERVANDO E APRENDENDO
6
Memória e Inteligência
Na pequena empresa, o proprietário com sua inteligência e memória aprende, conhece o cliente.
7
Para criar relações um-para-um em uma grande empresa, o proprietário humano
precisa ser substituído por uma máquina capaz de tratar grandes números, o
computador. A memória do proprietário é substituída por um grande banco de
dados denominado de Data Warehouse, enquanto a capacidade de aprendizado
é substituída por técnicas de inteligência artificial e estatística genericamente
denominadas de Data Mining.
Diariamente gera-se dados, por exemplo, considere que gera-se e armazena-se
atributos tais como: o número do telefone, a duração da chamada telefônica, o
número do cartão de crédito, o endereço da entrega, o produto escolhido, renda
do consumidor, escolaridade do consumidor, gasto com lazer, etc.
Certamente, só armazenar dados não significa aprender sobre o cliente.
Data Warehouse: a memória da empresa
8
Dados armazenados
Fonte de informaçõespreciosas para a empresa
Memória da empresa
9
Para o aprendizado ocorrer, uma série de informações de diferentes
formatos e fontes precisa ser organizada de maneira consistente na
grande memória empresarial. Após isto, métodos de análise estatística e
inteligência artificial precisam ser aplicados sobre esses dados e relações
novas e úteis à empresa devem ser descobertas, ou seja, os dados
devem ser minerados. A mineração dos dados consiste mais
especificamente em descobrir relações entre produtos, classificar
consumidores, prever vendas, localizar áreas geográficas
potencialmente lucrativas para novas filiais, inferir necessidades,
entre outras.
Data Mining: a inteligência da empresa
10
Data Warehouse
Data Mining
Na grande empresa, a memória é o
data warehouse, enquanto a
inteligência é o data mining
Na grande empresa, a memória é o
data warehouse, enquanto a
inteligência é o data mining
11
12
Data Mining and BI
Aumento do potencialPara suportar decisões negócios Usuário Final
Analistade negócios
Analistade dados
DBA
MakingDecisions
Data Presentation
Visualization Techniques
Data MiningInformation Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data SourcesPapel, Arquivos, Provedores de informação, Database Systems, OLTP
O primeiro passo no projeto de Mineração de
Dados deverá sempre ser uma análise rústica
do conjunto de dados usando uma ferramenta
tradicional de consulta, pois antes de aplicar um
algoritmo de análise mais avançado nós
necessitamos conhecer alguns aspectos básicos
e as estruturas do conjunto de dados.
O PROCESSO
13
Uma boa maneira de iniciar o processo é extraindo
algumas informações estatísticas simples do
conjunto de dados.
Estes números são muito importantes, pois eles nos
dão uma norma para julgar o desempenho das
tarefas de mineração utilizadas (algoritmos de
classificação, agrupamentos, associação, etc.).
Análise exploratória de dados
14
As técnicas de visualização são métodos
muito úteis de descoberta de padrões num
conjunto de dados, e devem ser usados no
princípio do processo de mineração, para se ter
um sentimento da qualidade do conjunto de
dados e onde os padrões devem ser
encontrados.
Visualização
15
Exemplo: Visualização
O processo de construir um modelo para
representar um conjunto de dados é comum para
todas as tarefas, técnicas, algoritmos e ferramentas
de Data Mining.
O que não é comum é a maneira na qual os
modelos são construídos, utilizando diferentes
alternativas.
Modelos
17
TIPOS DE DATA MINING
O USUÁRIO DETERMINA UM MODELO (QUESTÕES) E INVESTIGA A BASE DE DADOS
11
O SISTEMA DEVOLVE UMA RESPOSTA AO USUÁRIO, A QUAL CONFIRMA OU NÃO SUA HIPÓTESE ORIGINAL
22
O USUÁRIO SELECIONA VARIÁVEIS RELEVANTES
11
O SISTEMA ACIONA MECANISMOS DE ASSOCIAÇÃO E INVESTIGAA BASE DE DADOS
22
É BASTANTE DIFÍCIL PARAO USUÁRIO DEFINIR,A PRIORI, HIPÓTESESSATISFATÓRIAS
PROBLEMA
ASSOCIAÇÕES IMPORTANTESPODEM NÃO SER DETECTADASEM FUNÇÃO DE VARIÁVEISMAL ESCOLHIDAS
PROBLEMA
CONFIRMATÓRIO EXPLORATÓRIO
18
TAREFAS, TÉCNICAS E ALGORITMOS
19
TAREFAS, TÉCNICAS E ALGORITMOS
20
TAREFAS, TÉCNICAS E ALGORITMOS
ESTATÍSTICA MEMORY - BASED
REASONING LINK ANALYSIS FERRAMENTAS DE MARKET
BASKET ANALYSIS
ESTATÍSTICA MEMORY - BASED
REASONING ALGORÍTIMO
GENÉTICO LINK ANALYSIS REDE NEURAL PARA VARIÁVEIS
NUMÉRICAS ÁRVORE DE
DECISÃO
ESTATÍSTICA MEMORY - BASED
REASONING ALGORÍTIMO
GENÉTICO LINK ANALYSIS REDE NEURAL ÁRVORE DE
DECISÃO
ESTATÍSTICA MEMORY - BASED
REASONING REDE NEURAL ÁRVORE DE
DECISÃO
IDENTIFICA E AGRUPA AS UNIDADES ENVOLVIDAS COM OS EVENTOS OCORRIDOS EM UMA MESMA UNIDADE DE TEMPO
ANALISA CADA UNIDADE E A ENQUADRA EM UMA CLASSE PRÉ-DEFINIDA, ATRIBUINDO UMA ORDEM, DE ACORDO COM A SEQÜÊNCIA DE UMA MEDIDA NUMÉRICA
ANALISA CADA UNIDADE E A ENQUADRA EM UMA CLASSEPRÉ-DEFINIDA
ANALISA O TODO DIVIDINDO-O EM SUB-CONJUNTOS
OCORRÊNCIA DE EVENTOS EM UM PERÍODO DE TEMPO
VARIÁVEISPRÉ-DEFINIDAS
VARIÁVEISPRÉ-DEFINIDAS
VARIÁVEIS NÃOPRÉ-DEFINIDAS
TÉCNICASTÉCNICAS
FORMAFORMA
DE SELEÇÃODE SELEÇÃO
MEIOMEIO
DE SELEÇÃODE SELEÇÃO
AGRUPAMENTOAGRUPAMENTO
POR AFINIDADEPOR AFINIDADE
ESTIMATIVAESTIMATIVA
PREDIÇÃOPREDIÇÃOCLASSIFICAÇÃOCLASSIFICAÇÃOAGRUPAMENTOAGRUPAMENTO
21
Cluster Analysis
Agrupar é simplesmente classificar uma massa de dados em
classes desconhecidas a priori em número ou forma.
Ex. : segmentar os clientes de minha empresa para oferecer
um atendimento diferenciado. Apriori não conheço o número
de classes.
Ferramentas mais utilizadas:
Redes neurais artificiais (Kohonen Networks), Estatística (Análise de conglomerados (Cluster Analysis)) e Algoritmos genéticos.
Tarefas: Agrupamentos
22
23
Uma tarefa é, dadas várias categorias ou classes conhecidas, dizer a qual delas um
certo dado pertence; outra tarefa semelhante em objetivo, porém muito mais
complexa, é, de posse de uma massa de dados, dizer em quantas classes esses
dados se distribuem e como são essas classes. Dada uma massa de dados sobre o
consumo no Brasil, determinar quantas classes ou padrões de comportamento
consumista existem.
x x x
xx x
x
Saldo conta corrente
Em
prés
timo
x xxxx
Cluster 1- Ativo
xx x xxx
Cluster 2 - Moderado
Cluster 3 - Passivo
Exemplo: agrupamento
“ Classificar um objeto é determinar com que grupo de
entidades, já classificadas anteriormente, esse objeto
apresenta mais semelhança”
A tarefa de classificação consiste em construir um modelo
que possa ser aplicado a dados não classificados visando
categorizá-los em classes.
Ferramentas (técnicas) mais utilizadas:
Redes Neurais artificiais, Árvores de decisão(CHAID, CART, C4.5, ID3) Estatística (Análise discriminante, Regressão logística)
Tarefas: Classificação
24
25
Uma base de dados relativa a empréstimos pessoais. O tipo de conhecimento que se deseja extrair desses dados é como identificar os mutuários negligentes. Um especialista considerou que as variáveis (atributos) mais representativos do conhecimento desejado são: salário, débito e regularidade de pagamento. Veja figura composta de 14 mutuários.
x x x
xx
xx
x
Salários
Déb
itos
Débito com pagamentoEm dia
Regressão
Cluster
Rede
neural
Exemplo: classificação
26
Na figura tem-se uma partição simples dos dados em duas regiões distintas de classes. Caso o banco queira usar a região de classificação para uma decisão automática de futuros empréstimos, a decisão linear não é considerada uma perfeita separação das classes.
Classificar um objeto é determinar com que grupo de
entidades, já classificados anteriormente, esse objeto
apresenta mais semelhança
Exemplo: classificação
27
A técnica de previsão resume-se na avaliação do valor futuro de algum índice, baseando-se em dados do comportamento passado deste índice (Modelo de série temporal).
A técnica de predição resume-se na avaliação de um novo registro (para este particular registro), para uma variável de interesse, em função de várias outras variáveis de entrada.
Exemplo: 1) determinar se o índice Bovespa subirá ou descerá amanhã; 2) qual será a população de uma cidade daqui a 5 anos; 3) predição de quais consumidores deixarão (abandonarão) dentro dos próximos seis meses; 4) Predizer a demanda do consumo de um novo produto em função da despesa feita.
A previsão consiste na determinação do futuro de uma grandeza
Ferramentas mais utilizadas:
Redes neurais artificiais para séries temporais, Árvores de decisão, Estatística (Regressão linear múltipla, Regressão logística binária).
Tarefas: Estimação, predição (regressão)
(Market Basket Association Analysis)
O exemplo mais fácil é o do carrinho do supermercado do qual se pode extrair muita informação sobre que produtos os consumidores compram em conjunto com grande chance.
Dos modelos obtidos da análise de afinidade, podem-se extrair “regras” que regem o consumo de alguns itens.
A análise de associação gera redes de interações e conexões presentes nos conjuntos de dados usando as associações item a item. Onde por associação item a item entende-se que a presença de um item implica necessariamente na presença de outro item na mesma transação.
Considere um banco de dados de compras, onde cada compra (transação) consiste de vários artigos (itens) comprados por um consumidor. A aplicação de técnicas de análise de associação neste conjunto de transações pode revelar afinidades entre uma coleção de itens. Estas afinidades entre itens são representadas por regras de associação. Uma regra expõe, em forma textual, quais itens implicam a presença de outros itens.
Tarefas: Análise de Afinidade (Associação)
28
O objetivo da análise de afinidade é encontrar quais produtos ou serviços os consumidores buscam conjuntamente.
Um mercado de vendas à varejo pode dispor os produtos vendidos conjuntamente no mesmo corredor ou em localizações estratégicas;
Um comerciante da web pode usar a análise de afinidade para determinar o layout do seu catálogo;
Bancos e companhias telefônicas podem usar análise de afinidade para determinar quais novos produtos oferecer para seus consumidores preferenciais.
Em um sistema de informações médicas, poderia ser detectado que: determinados procedimentos médicos aparecem sempre associados entre si; determinados procedimentos aparecem associados exclusivamente a pessoas do sexo feminino.
A análise de afinidade preocupa-se em descobrir
que elementos dos eventos têm relações no
tempo Ferramentas mais utilizadas: Regras de associação.
Tarefas: Análise de Afinidade (Associação)
29
Outliers
Quando se detecta anomalias, desvios, definir os
dados que estão fora do padrão.
Ex.: descobrir fraudes (ex. empresa sonegando impostos;
uso do cartão de crédito fora do padrão do usuário).
Tarefas: Detecção de Desvios
30
APLICAÇÕES
IDENTIFICA QUAIS PROSPECTS DEVERIAM SER INCLUÍDOS NA MALA DIRETA PARA OBTENÇÃO DE ALTA TAXA DE RETORNO
MARKETING DIRETO
IDENTIFICA QUAIS TRANSAÇÕES ESTÃO MAIS SUJEITAS A FRAUDEDETECÇÃO DE FRAUDE
PREDIZ QUAIS CLIENTES PROVAVELMENTE DEIXARÃO A EMPRESA PARA UM CONCORRENTEPERDA DE CLIENTES
IDENTIFICA AS CARACTERÍSTICAS COMUNS DE CLIENTES QUE COMPRAM OS MESMOS PRODUTOS DE UMA EMPRESA
SEGMENTAÇÃO DE MERCADO
REVELA AS DIFERENÇAS ENTRE UM TÍPICO CLIENTE DE UM MÊS EM RELAÇÃO AOS MESES ANTERIORESANÁLISE DE TENDÊNCIAS
IDENTIFICA QUAIS PRODUTOS SÃO COMUMENTE COMPRADOS EM CONJUNTOANÁLISE “MARKET BASKET”
PREDIZ O QUE CADA INDIVÍDUO QUE ACESSA O SITE ESTÁ MAIS INTERESSADO EM VERMARKETING INTERATIVO
31
COMPARATIVO DAS TÉCNICAS
32
33
Algumas aplicações de data mining
1. O governo dos EUA se utiliza do data
mining já há bastante tempo para
identificar padrões de transferências de
fundos internacionais que se parecem
com lavagem de dinheiro do narcotráfico.
Data mining usado para identificar
fraudes.
34
Próxima Aula
O Processo KDD.