Mineração de Dados - Aula 15 - Professores...
Transcript of Mineração de Dados - Aula 15 - Professores...
Mineração de Dados - Aula 15
Profa Janniele Aparecida Soares Araujo
CSI462 – Sistemas de Apoio à Decisão
2
Mineração de Dados
● Qual o maior desafio as empresas enfrentam hoje em dia?● Manter uma carteira de clientes lucrativos.● O que você precisa saber fazer é:
● Mediante conhecimento adquirido sobre seus clientes, ser capaz de interpretar seus objetivos, expectativas e desejos.
● A empresa que conhece seus clientes vai servi-los ainda melhor!
3
Mineração de Dados
● Exemplo● O dono de uma loja de vinhos é expert na área: reconhece o tipo de uva
que o vinho é feito, seu sabor, idade, processo de fabricação, etc● Este senhor precisa mais do que isso pra garantir a lealdade dos seus
clientes● Precisa conhecê-los! Saber que tipo de vinho o cliente gosta, sua
capacidade financeira…
● Conhecer o produto é obrigação, o que faz a diferença é o tratamento diferenciado dado aos clientes!
4
Mineração de Dados
● Contextualizando...● Organizações estão eficientes nos processos de captura, organização e
armazenagem de grandes volumes de dados● Porém... não usam adequadamente esses dados para transformá-los em
conhecimento que os auxiliarão na execução das suas atividades● Qual empresa consegue responder: “quanto faturamento podemos
esperar de cada cliente no próximo ano”?
● É necessário: PROJEÇÃO DE NEGÓCIO.
5
Mineração de Dados
● Vinhos...● O dono da loja de
vinhos... aprende pela observação das preferências, suas conversas, o valor das compras, etc.
● E ele possui memória e capacidade de aprendizado (considerando poucos clientes)!
● E nas grandes empresas???
6
Mineração de Dados
● Capacidade analítica● É preciso ter capacidade analítica para identificação de padrões e
predição em dados da organização que não possua a tendenciosidade e a limitação de uma análise baseada meramente na intuição humana.
● Para isso: Mineração de Dados.
7
Mineração de Dados
● DW – a memoria da empresa!● A memória do proprietário é substituída pelo DW.● A capacidade de aprendizado é substituída por técnicas de IA e
estatística – DM.
8
Mineração de Dados
● Alimentando o DW● Pense em uma simples compra pelo telefone
● Número do telefone● Duração da chamada● Número do cartão de crédito● Endereço de entrega● Produto em si● E outros como: nível sociocultural, preferências, hobbies, etc.
9
Mineração de Dados
● Obtendo dados● O que pensa a empresa centrada no cliente?
● Toda interação com o cliente é uma oportunidade de obter dados e aprender sobre o cliente!
● Tá OK! Mas obter dados não significa aprender...
10
Mineração de Dados
● DM – a inteligência da empresa!● Meu DW está completo (“lindo”)... mas não sei o que fazer com esse
monte de dados!● O que fazer?!
11
Mineração de Dados
● DM – a inteligência da empresa!● Vou minerar meus dados!● Ou seja, vou usar métodos de análise estatística e inteligência
artificial sobres esses dados.● Assim vou descobrir relação entre produtos, classificar consumidores,
prever vendas, localizar áreas geográficas potencialmente lucrativas, etc...
12
Mineração de Dados
● Conceito● Processo de descoberta automática de informações úteis em grandes
repositórios de dados.● Faz parte do processo de descoberta de conhecimento em bancos de
dados (KDD). Processo de conversão de dados brutos em informações úteis..
13
Mineração de Dados
● Vantagens● Melhor interação entre empresa e cliente: “como sou especial...”● Aumento de vendas● Dirige estratégias de marketing● Pode ser aplicado a qualquer massa de dados: medicina, economia,
geologia...
14
Mineração de Dados
● Aplicações● Negócio
● Detecção de perfis de clientes.● Vendas direcionadas.● Detecção de fraudes.● Prever o valor de ações.
● Ciência e engenharia● Detectar cancer em pacientes● Identificar doenças de coração● Identificar digitais● Processamento de linguagem natural
15
Mineração de Dados
● Porque o data mining emplacou?● Volume de dados disponível atualmente é enorme
● precisa de grande massa de dados para calibrar seus algoritmos e extrair conclusões confiáveis
● Dados estão sendo organizados● permite que dados de diversas fontes sejam organizados e padronizados.
● Recursos computacionais potentes● precisa de muito recurso para operar seus algoritmos sobre grandes quantidades de
dados
● Competição empresarial exige técnicas mais modernas de decisão
16
Mineração de Dados
● Mas antes do DM, o KDD - Knowledge Discovery in Databases● Descoberta do conhecimento em bancos de dados● Data mining é apenas uma das fases do KDD● O KDD é o processo geral de conversão de dados brutos em
informações úteis.
17
KDD
● Criando o Conhecimento● KDD é utilizado na criação do conhecimento explícito!
18
KDD
● O Processo KDD
19
O processo KDD
● Seleção● Impacto significativo na
qualidade do resultado final
● Escolhe o conjunto de dados que vai fazer a parte da análise
● Complexo! Dados podem vir de diversas fontes, em diverso formatos
20
O processo KDD
● Pré-processamento● Parte crucial do processo● A qualidade dos dados
vai determinar a eficiência dos algoritmos de mineração
● Eliminem dados redundantes e não consistes, recuperem dados incompletos, erros de digitação
21
O processo KDD
● Pré-processamento● Amostragem
● Consiste em selecionar um subconjunto dos dados de entrada para derivar o modelo. (Aleatoriamente)
● Há a perda de precisão, uma vez que não se usa o conjunto completo de dados
● O conjunto de dados pode ser demasiadamente grande e a perda de precisão insignificante
22
O processo KDD
● Pré-processamento● Normalização
● Consiste em colocar os atributos em uma mesma escala, de modo que possuam o mesmo ‘peso’ na derivação do modelo
● Menor valor assumira 0 e o maior assumirá 1, os demais figurarão proporcionalmente no intervalo [0, 1]
● A transformação de atributos discretos em contínuos e vice-versa também faz parte da normalização
●
23
O processo KDD
● Pré-processamento● Normalização
● Renda mensal: 900 0 / 6000 1≈ 0 / 6000 ≈ 1 ≈ 0 / 6000 ≈ 1● Casa própria: não 0 / sim 1≈ 0 / 6000 ≈ 1 ≈ 0 / 6000 ≈ 1● Dependentes: 0 0 / 4 1≈ 0 / 6000 ≈ 1 ≈ 0 / 6000 ≈ 1
24
O processo KDD
● Transformação● Antecede a fase do Data Mining● Dados estão relacionados, limpos
e preprocessados, agora temos que armazená-los e formatá-los adequadamente para que os algoritmos possam ser aplicados
● DW – repositório único!● Nesta fase são tratados os dados
derivados, obtidos através da combinação de outros (idade, valor final, etc.)
25
O processo KDD
● Mineração● “Data Mining é a exploração e
análise, de forma automática ou semiautomática, de grandes bases de dados com o objetivo de descobrir padrões e regras. O objetivo do processo de mineração é fornecer às corporações informações que as possibilitem montar melhores estratégias de marketing, vendas, suporte, melhorando assim os seus negócios.”
26
O processo KDD
● Interpretação● Estatísticos, pesquisadores de IA e
DBA usam técnicas diferentes para interpretar e avaliar os resultados obtidos com a mineração para chegar a um mesmo fim: o conhecimento!
27
Caracterizando o KDD
● Validade● A descoberta de padrões deve ser válida em novos dados com algum grau
de certeza ou probabilidade
● Novidade● Os padrões são novos, ou seja, ainda não foram detectados por nenhuma
abordagem
● Utilidade potencial● Os padrões devem poder ser utilizados para a tomada de decisões úteis,
medidas por alguma função
● Assimiláveis● Um dos objetivos é tornar os padrões assimiláveis ao conhecimento humano
28
Voltando ao DM
● Essa técnica pode fazer, entre outras, uma análise antecipada dos eventos, possibilitando prever tendências e comportamentos futuros, permitindo aos gestores a tomada de decisões baseada em fatos e não em suposições
29
Mineração de Dados
● Localizando padrões● Padrões são unidades de informação que se repetem● A tarefa de localizar padrões não é privilégio só da mineração de
dados. (Cérebro)● Vamos tentar obter alguma expressão genérica para a seguinte
sequência:
”ABCXYABCZKABDKCABCTUABEWLABCWO”
30
Mineração de Dados
● Localizando padrões● Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO● Passo 1: Observe atentamente essa sequência de letras e tente
encontrar alguma coisa relevante.
31
Mineração de Dados
● Localizando padrões● Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO● Passo 1: Observe atentamente essa sequência de letras e tente
encontrar alguma coisa relevante.● ”AB”
32
Mineração de Dados
● Localizando padrões● Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO● Passo 1: Observe atentamente essa sequência de letras e tente
encontrar alguma coisa relevante.● ”AB”● ”ABC
33
Mineração de Dados
● Localizando padrões● Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO● Passo 2: Após determinarmos as sequências ”ABC”e ”AB”, verificamos
que elas segmentam o padrão original em diversas unidades independentes.
34
Mineração de Dados
● Localizando padrões● Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO● Passo 2: Após determinarmos as sequências ”ABC”e ”AB”, verificamos
que elas segmentam o padrão original em diversas unidades independentes.● ”ABCXY”
35
Mineração de Dados
● Localizando padrões● Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO● Passo 2: Após determinarmos as sequências ”ABC”e ”AB”, verificamos
que elas segmentam o padrão original em diversas unidades independentes.● ”ABCXY”● ”ABCZK”
36
Mineração de Dados
● Localizando padrões● Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO● Passo 2: Após determinarmos as sequências ”ABC”e ”AB”, verificamos
que elas segmentam o padrão original em diversas unidades independentes.● ”ABCXY”● ”ABCZK”● ”ABDKC”
37
Mineração de Dados
● Localizando padrões● Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO● Passo 2: Após determinarmos as sequências ”ABC”e ”AB”, verificamos
que elas segmentam o padrão original em diversas unidades independentes.● ”ABCXY”● ”ABCZK”● ”ABDKC”● ”ABCTU”
38
Mineração de Dados
● Localizando padrões● Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO● Passo 2: Após determinarmos as sequências ”ABC”e ”AB”, verificamos
que elas segmentam o padrão original em diversas unidades independentes.● ”ABCXY”● ”ABCZK”● ”ABDKC”● ”ABCTU”● ”ABEWL”
39
Mineração de Dados
● Localizando padrões● Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO● Passo 2: Após determinarmos as sequências ”ABC”e ”AB”, verificamos
que elas segmentam o padrão original em diversas unidades independentes.● ”ABCXY”● ”ABCZK”● ”ABDKC”● ”ABCTU”● ”ABEWL”● ”ABCWO”
40
Mineração de Dados
● Localizando padrões● Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO● Passo 3: fazem-se agora induções, que geram algumas
representações genéricas dessas unidades
41
Mineração de Dados
● Localizando padrões● Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO● Passo 3: fazem-se agora induções, que geram algumas
representações genéricas dessas unidades● ”ABC??”● ”ABD??”● ”ABE??”● ”AB???”
42
Mineração de Dados
● Localizando padrões● No final desse processo toda a sequência original foi substituída por
regras genéricas indutivas, o que simplificou (reduziu) a informação original a algumas expressões simples
● O que fazer para extrair padrões de dados brutos.● Mais importante do que simplesmente obter essa redução de
informação, esse processo nos permite gerar formas de predizer futuras ocorrências de padrões.
43
Mineração de Dados
● Localizando padrões● Imagine o exemplo prático em um comércio com as expressões
abstratas genéricas que obtivemos:● ’A’ representa ”aquisição de pão”● ’B’ representa ”aquisição de leite”● ’C’ é um indicador de que o leite adquirido é do tipo desnatado● ”AB”quer dizer, na prática, que toda vez que alguém comprou pão,
também comprou leite● Esta associação nos faz pensar em colocar ”leite”e ”pão”o mais próximos possível,
para facilitar a aquisição conjunta destes produtos
44
Mineração de Dados
● Localizando padrões● ’X’ representa ”manteiga sem sal”● ’Z’ representa ”manteiga com sal”● ’T’ poderia significar ”margarina”● Através de uma indução orientada a atributos, poderia introduzir a
letra ’V’ para representar ”manteiga/margarina”● Essa perda de informação é fundamental na indução que permite o
aparecimento de padrões mais gerais● Basta codificar a sequência original substituindo a letra ’V’ em todos
os lugares devidos
”ABCVYABCVKABDKCABCVUABEWLABCVO”
45
Mineração de Dados
● Localizando padrões● ”ABCVYABCVKABDKCABCVUABEWLABCVO”● Assim o DM irá extrair a expressão ”ABCV”, que irá revelar algo muito
interessante:● ”A maioria dos usuários que adquiriram pão e leite desnatado também adquiriram
manteiga ou margarina.”
46
Tarefas de Mineração de Dados
● Classificação● Identificar potenciais inadimplentes.
● Agrupamento● Agrupar tipos de doenças semelhantes.
● Associação● Padrões de comportamento de clientes.
● Detecção de anomalias● Detecção de mensagens spam.
47
Exemplo real – Vestibular PUC-RJ
● Utilizando as técnicas da mineração de dados, um programa de obtenção de conhecimento, depois de examinar milhares de alunos, forneceu a seguinte regra:● Se o candidato é do sexo feminino, trabalha e teve aprovação com boas
notas no vestibular, então ele não irá efetivar a matrícula.● Uma reflexão justifica a regra oferecida pelo programa: de acordo com os
costumes do Rio de Janeiro, uma mulher em idade de vestibular, se trabalha é porque precisa, e neste caso deve ter feito inscrição para ingressar na universidade pública gratuita. Se teve boas notas provavelmente foi aprovada na universidade pública onde efetivará matrícula.
● Claro que há exceções: pessoas que moram em frente a PUC, pessoas mais velhas, de alto poder aquisitivo e que voltaram a estudar por outras razões que ter uma profissão, etc.. mas a grande maioria obedece à regra anunciada
48
Exemplo real – Estado Civil x Cargos de Servidores da SEFAZ-AM
● Com o uso de data mining foram verificadas correlações entre o estado civil e salários da Secretaria de Fazenda do Estado do Amazonas. Notava-se que cerca de 80% dos servidores de maior poder aquisitivo deste órgão eram divorciados, enquanto que em outras instituições, como por exemplo na Secretaria de Educação (composta em sua maioria por professores), a média de divorciados era inferior a 30%.
● Longe de parecer coincidência, os dados sugerem que servidores com maior poder aquisitivo se envolvam com relações extraconjugais, resultando geralmente em desfazimento do casamento.
49
Bibliografia
● Tecnologia e Projeto de Data Warehouse. Machado, F.N.R.. São Paulo, Erica, 2010.