Download - Aula1 tarefas

INE 5644 – Mineração de DadosAula 1 – O Processo e as Tarefas de DM

Professor:

José Leomar Todesco

Devido a junção de várias disciplinas em mineração de dados e a prática de múltiplo termos para referenciar a mesma coisa é importante ter um sumário.

Algoritmo – refere-se a um procedimento específico usado para implementar uma técnica particular de MD (Ex. Árvore de decisão, agrupamento, …)

Atributo – mesmo que Preditor.

Caso – mesmo que Observação.

Confiança – Tem significado específico em regras de associação do tipo “SE A e B são comprados ENTÃO C também é comprado”. Confiança é a probabilidade condicional que C seja comprado se A e B são comprados. Confiança também pode significar em estatística (intervalo de confiança), ou seja, o grau de erro em estimar os resultados da seleção de uma amostra em oposição a outra.

Variável dependente – mesmo que Resposta.

TERMINOLOGIA E NOTAÇÃO

2

Estimação – mesmo que Predição.

Característica – mesmo que Preditor.

Variável de entrada – mesmo que Preditor.

Modelo – refere-se a um algoritmo aplicado a um conjunto de dados, completo com sua configuração (muitos algoritmos tem seus parâmetros que o usuário pode ajustar).

Observação – é a unidade de análise pela qual a mensuração são feitas (um consumidor, uma transação, etc.) também chamado caso, registro, padrão ou linha. (cada linha tipicamente representa um registro; cada coluna uma variável.)

Variável de saída – mesmo que Resposta.

Padrão - é um conjunto de medidas em uma observação (ex. A altura, o peso, a idade de uma pessoa).

Predição – siginifica a descoberta de um valor de uma variável de saída contínua; também chamada estimação.

Preditor - geralmente denotado por X, é também chamado de caracteristica, variável de entrada, variável independente ou na perspectiva de uma base de dado, um campo.

Registro – mesmo que Observação.


3

Score – refere-se ao valor valor encontrado ou classe. Score de um novo dado significa usar um modelo desenvolvido com dados de treinamento para predizer valores de saída em um novo dado.

Classe sucesso - é a classe de interesse em uma saída binária.

Aprendizado supervisionado – refere-se ao processo de prover um algoritmo com registros em que a variável de interesse é conhecida e o algoritmo aprende como predizer este valor para um novo registro onde a saída é desconhecida.

Dados de teste – refere-se ao conjunto de dados que são utilizados no final do processo de seleção e construção do modelo para verificar o desempenho do modelo com dados adicionais.

Dados de treinamento – refere-se a porção de dados usadas para ajustar o modelo.

Aprendizado não-supervisionado - refere-se a análise de maneira a aprender algo sobre os dados ou predizer um valor de saída de interesse (se percente a um grupo, por exemplo).

Dados de validação – refere-se a porção de dados de dados utilizados para verificar quão bem o modelo se comporta, ajustar algum modelo e selecionar o melhor modelo dentre os que tem sido tentado.

Variável - é alguma medida no registro, incluindo tanto a variável de entrada X quanto a variável de saída Y.


4

Exemplo: um proprietário de uma pequena loja de vinhos conhece tudo sobre vinhos, por exemplo, o tipo de uva, a região onde a uva foi cultivada, o clima, o solo, a altitude dos parreirais, aroma, sabor, cor, o processo de fabricação. Os clientes gostam de visitar sua loja pois, também, aprendem muito sobre vinhos. Porém, só isto não basta, o proprietário precisa conhecê-los, como por exemplo, qual o tipo de vinho que o cliente gosta? Qual o poder aquisitivo? Assim, ele poderá dar um atendimento diferenciado (um a um) aos clientes. Temos, portanto, duas necessidades:

conhecimento e aprendizado

Uma pequena loja poucos clientes atendimento personalizado

Uma grande empresa milhares de clientes dificuldade em dar um atendimento dedicado

OBSERVANDO E APRENDENDO

5

Qual a tendência nos dias atuais?

Ter clientes leais, através de um relacionamento pessoal, um-para-um,

entre a empresa e o cliente.

Dentro desta tendência, as empresas desejam identificar os clientes

cujos valores e necessidades sejam compatíveis com o uso prolongado

de seus produtos, e nos quais é válido o risco de investir em promoções

com descontos, pacotes, brindes e outras formas de criar essa relação

pessoal.

Esta mudança de foco requer mudanças em toda a empresa, mas

principalmente nos setores de marketing, vendas e atendimento ao

cliente.

OBSERVANDO E APRENDENDO

6

Memória e Inteligência

Na pequena empresa, o proprietário com sua inteligência e memória aprende, conhece o cliente.

7

Para criar relações um-para-um em uma grande empresa, o proprietário humano

precisa ser substituído por uma máquina capaz de tratar grandes números, o

computador. A memória do proprietário é substituída por um grande banco de

dados denominado de Data Warehouse, enquanto a capacidade de aprendizado

é substituída por técnicas de inteligência artificial e estatística genericamente

denominadas de Data Mining.

Diariamente gera-se dados, por exemplo, considere que gera-se e armazena-se

atributos tais como: o número do telefone, a duração da chamada telefônica, o

número do cartão de crédito, o endereço da entrega, o produto escolhido, renda

do consumidor, escolaridade do consumidor, gasto com lazer, etc.

Certamente, só armazenar dados não significa aprender sobre o cliente.

Data Warehouse: a memória da empresa

8

Dados armazenados

Fonte de informaçõespreciosas para a empresa

Memória da empresa

9

Para o aprendizado ocorrer, uma série de informações de diferentes

formatos e fontes precisa ser organizada de maneira consistente na

grande memória empresarial. Após isto, métodos de análise estatística e

inteligência artificial precisam ser aplicados sobre esses dados e relações

novas e úteis à empresa devem ser descobertas, ou seja, os dados

devem ser minerados. A mineração dos dados consiste mais

especificamente em descobrir relações entre produtos, classificar

consumidores, prever vendas, localizar áreas geográficas

potencialmente lucrativas para novas filiais, inferir necessidades,

entre outras.

Data Mining: a inteligência da empresa

10

Data Warehouse

Data Mining

Na grande empresa, a memória é o

data warehouse, enquanto a

inteligência é o data mining

Na grande empresa, a memória é o

data warehouse, enquanto a

inteligência é o data mining

11

12

Data Mining and BI

Aumento do potencialPara suportar decisões negócios Usuário Final

Analistade negócios

Analistade dados

DBA

MakingDecisions

Data Presentation

Visualization Techniques

Data MiningInformation Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts

Data SourcesPapel, Arquivos, Provedores de informação, Database Systems, OLTP

O primeiro passo no projeto de Mineração de

Dados deverá sempre ser uma análise rústica

do conjunto de dados usando uma ferramenta

tradicional de consulta, pois antes de aplicar um

algoritmo de análise mais avançado nós

necessitamos conhecer alguns aspectos básicos

e as estruturas do conjunto de dados.

O PROCESSO

13

Uma boa maneira de iniciar o processo é extraindo

algumas informações estatísticas simples do

conjunto de dados.

Estes números são muito importantes, pois eles nos

dão uma norma para julgar o desempenho das

tarefas de mineração utilizadas (algoritmos de

classificação, agrupamentos, associação, etc.).

Análise exploratória de dados

14

As técnicas de visualização são métodos

muito úteis de descoberta de padrões num

conjunto de dados, e devem ser usados no

princípio do processo de mineração, para se ter

um sentimento da qualidade do conjunto de

dados e onde os padrões devem ser

encontrados.

Visualização

15

Exemplo: Visualização

O processo de construir um modelo para

representar um conjunto de dados é comum para

todas as tarefas, técnicas, algoritmos e ferramentas

de Data Mining.

O que não é comum é a maneira na qual os

modelos são construídos, utilizando diferentes

alternativas.

Modelos

17

TIPOS DE DATA MINING

O USUÁRIO DETERMINA UM MODELO (QUESTÕES) E INVESTIGA A BASE DE DADOS

11

O SISTEMA DEVOLVE UMA RESPOSTA AO USUÁRIO, A QUAL CONFIRMA OU NÃO SUA HIPÓTESE ORIGINAL

22

O USUÁRIO SELECIONA VARIÁVEIS RELEVANTES

11

O SISTEMA ACIONA MECANISMOS DE ASSOCIAÇÃO E INVESTIGAA BASE DE DADOS

22

É BASTANTE DIFÍCIL PARAO USUÁRIO DEFINIR,A PRIORI, HIPÓTESESSATISFATÓRIAS

PROBLEMA

ASSOCIAÇÕES IMPORTANTESPODEM NÃO SER DETECTADASEM FUNÇÃO DE VARIÁVEISMAL ESCOLHIDAS

PROBLEMA

CONFIRMATÓRIO EXPLORATÓRIO

18

TAREFAS, TÉCNICAS E ALGORITMOS

19


20


ESTATÍSTICA MEMORY - BASED

REASONING LINK ANALYSIS FERRAMENTAS DE MARKET

BASKET ANALYSIS


REASONING ALGORÍTIMO

GENÉTICO LINK ANALYSIS REDE NEURAL PARA VARIÁVEIS

NUMÉRICAS ÁRVORE DE

DECISÃO


REASONING ALGORÍTIMO

GENÉTICO LINK ANALYSIS REDE NEURAL ÁRVORE DE

DECISÃO


REASONING REDE NEURAL ÁRVORE DE

DECISÃO

IDENTIFICA E AGRUPA AS UNIDADES ENVOLVIDAS COM OS EVENTOS OCORRIDOS EM UMA MESMA UNIDADE DE TEMPO

ANALISA CADA UNIDADE E A ENQUADRA EM UMA CLASSE PRÉ-DEFINIDA, ATRIBUINDO UMA ORDEM, DE ACORDO COM A SEQÜÊNCIA DE UMA MEDIDA NUMÉRICA

ANALISA CADA UNIDADE E A ENQUADRA EM UMA CLASSEPRÉ-DEFINIDA

ANALISA O TODO DIVIDINDO-O EM SUB-CONJUNTOS

OCORRÊNCIA DE EVENTOS EM UM PERÍODO DE TEMPO

VARIÁVEISPRÉ-DEFINIDAS

VARIÁVEISPRÉ-DEFINIDAS

VARIÁVEIS NÃOPRÉ-DEFINIDAS

TÉCNICASTÉCNICAS

FORMAFORMA

DE SELEÇÃODE SELEÇÃO

MEIOMEIO

DE SELEÇÃODE SELEÇÃO

AGRUPAMENTOAGRUPAMENTO

POR AFINIDADEPOR AFINIDADE

ESTIMATIVAESTIMATIVA

PREDIÇÃOPREDIÇÃOCLASSIFICAÇÃOCLASSIFICAÇÃOAGRUPAMENTOAGRUPAMENTO

21

Cluster Analysis

Agrupar é simplesmente classificar uma massa de dados em

classes desconhecidas a priori em número ou forma.

Ex. : segmentar os clientes de minha empresa para oferecer

um atendimento diferenciado. Apriori não conheço o número

de classes.

Ferramentas mais utilizadas:

Redes neurais artificiais (Kohonen Networks), Estatística (Análise de conglomerados (Cluster Analysis)) e Algoritmos genéticos.

Tarefas: Agrupamentos

22

23

Uma tarefa é, dadas várias categorias ou classes conhecidas, dizer a qual delas um

certo dado pertence; outra tarefa semelhante em objetivo, porém muito mais

complexa, é, de posse de uma massa de dados, dizer em quantas classes esses

dados se distribuem e como são essas classes. Dada uma massa de dados sobre o

consumo no Brasil, determinar quantas classes ou padrões de comportamento

consumista existem.

x x x

xx x

x

Saldo conta corrente

Em

prés

timo

x xxxx

Cluster 1- Ativo

xx x xxx

Cluster 2 - Moderado

Cluster 3 - Passivo

Exemplo: agrupamento

“ Classificar um objeto é determinar com que grupo de

entidades, já classificadas anteriormente, esse objeto

apresenta mais semelhança”

A tarefa de classificação consiste em construir um modelo

que possa ser aplicado a dados não classificados visando

categorizá-los em classes.

Ferramentas (técnicas) mais utilizadas:

Redes Neurais artificiais, Árvores de decisão(CHAID, CART, C4.5, ID3) Estatística (Análise discriminante, Regressão logística)

Tarefas: Classificação

24

25

Uma base de dados relativa a empréstimos pessoais. O tipo de conhecimento que se deseja extrair desses dados é como identificar os mutuários negligentes. Um especialista considerou que as variáveis (atributos) mais representativos do conhecimento desejado são: salário, débito e regularidade de pagamento. Veja figura composta de 14 mutuários.

x x x

xx

xx

x

Salários

Déb

itos

Débito com pagamentoEm dia

Regressão

Cluster

Rede

neural

Exemplo: classificação

26

Na figura tem-se uma partição simples dos dados em duas regiões distintas de classes. Caso o banco queira usar a região de classificação para uma decisão automática de futuros empréstimos, a decisão linear não é considerada uma perfeita separação das classes.

Classificar um objeto é determinar com que grupo de

entidades, já classificados anteriormente, esse objeto

apresenta mais semelhança

Exemplo: classificação

27

A técnica de previsão resume-se na avaliação do valor futuro de algum índice, baseando-se em dados do comportamento passado deste índice (Modelo de série temporal).

A técnica de predição resume-se na avaliação de um novo registro (para este particular registro), para uma variável de interesse, em função de várias outras variáveis de entrada.

Exemplo: 1) determinar se o índice Bovespa subirá ou descerá amanhã; 2) qual será a população de uma cidade daqui a 5 anos; 3) predição de quais consumidores deixarão (abandonarão) dentro dos próximos seis meses; 4) Predizer a demanda do consumo de um novo produto em função da despesa feita.

A previsão consiste na determinação do futuro de uma grandeza

Ferramentas mais utilizadas:

Redes neurais artificiais para séries temporais, Árvores de decisão, Estatística (Regressão linear múltipla, Regressão logística binária).

Tarefas: Estimação, predição (regressão)

(Market Basket Association Analysis)

O exemplo mais fácil é o do carrinho do supermercado do qual se pode extrair muita informação sobre que produtos os consumidores compram em conjunto com grande chance.

Dos modelos obtidos da análise de afinidade, podem-se extrair “regras” que regem o consumo de alguns itens.

A análise de associação gera redes de interações e conexões presentes nos conjuntos de dados usando as associações item a item. Onde por associação item a item entende-se que a presença de um item implica necessariamente na presença de outro item na mesma transação.

Considere um banco de dados de compras, onde cada compra (transação) consiste de vários artigos (itens) comprados por um consumidor. A aplicação de técnicas de análise de associação neste conjunto de transações pode revelar afinidades entre uma coleção de itens. Estas afinidades entre itens são representadas por regras de associação. Uma regra expõe, em forma textual, quais itens implicam a presença de outros itens.

Tarefas: Análise de Afinidade (Associação)

28

O objetivo da análise de afinidade é encontrar quais produtos ou serviços os consumidores buscam conjuntamente.

Um mercado de vendas à varejo pode dispor os produtos vendidos conjuntamente no mesmo corredor ou em localizações estratégicas;

Um comerciante da web pode usar a análise de afinidade para determinar o layout do seu catálogo;

Bancos e companhias telefônicas podem usar análise de afinidade para determinar quais novos produtos oferecer para seus consumidores preferenciais.

Em um sistema de informações médicas, poderia ser detectado que: determinados procedimentos médicos aparecem sempre associados entre si; determinados procedimentos aparecem associados exclusivamente a pessoas do sexo feminino.

A análise de afinidade preocupa-se em descobrir

que elementos dos eventos têm relações no

tempo Ferramentas mais utilizadas: Regras de associação.

Tarefas: Análise de Afinidade (Associação)

29

Outliers

Quando se detecta anomalias, desvios, definir os

dados que estão fora do padrão.

Ex.: descobrir fraudes (ex. empresa sonegando impostos;

uso do cartão de crédito fora do padrão do usuário).

Tarefas: Detecção de Desvios

30

APLICAÇÕES

IDENTIFICA QUAIS PROSPECTS DEVERIAM SER INCLUÍDOS NA MALA DIRETA PARA OBTENÇÃO DE ALTA TAXA DE RETORNO

MARKETING DIRETO

IDENTIFICA QUAIS TRANSAÇÕES ESTÃO MAIS SUJEITAS A FRAUDEDETECÇÃO DE FRAUDE

PREDIZ QUAIS CLIENTES PROVAVELMENTE DEIXARÃO A EMPRESA PARA UM CONCORRENTEPERDA DE CLIENTES

IDENTIFICA AS CARACTERÍSTICAS COMUNS DE CLIENTES QUE COMPRAM OS MESMOS PRODUTOS DE UMA EMPRESA

SEGMENTAÇÃO DE MERCADO

REVELA AS DIFERENÇAS ENTRE UM TÍPICO CLIENTE DE UM MÊS EM RELAÇÃO AOS MESES ANTERIORESANÁLISE DE TENDÊNCIAS

IDENTIFICA QUAIS PRODUTOS SÃO COMUMENTE COMPRADOS EM CONJUNTOANÁLISE “MARKET BASKET”

PREDIZ O QUE CADA INDIVÍDUO QUE ACESSA O SITE ESTÁ MAIS INTERESSADO EM VERMARKETING INTERATIVO

31

COMPARATIVO DAS TÉCNICAS

32

33

Algumas aplicações de data mining

1. O governo dos EUA se utiliza do data

mining já há bastante tempo para

identificar padrões de transferências de

fundos internacionais que se parecem

com lavagem de dinheiro do narcotráfico.

Data mining usado para identificar

fraudes.

34

Próxima Aula

O Processo KDD.