Modelos De Data Mining

Modelos de DataMining

Bernardo A. Robelo Jirón

bernardorobelo.blogspot.com

Agenda

Algoritmos Aplicaciones Practicas de los Algoritmos Guia de Ejercicios

Algoritmos

1. Association Rules 2. Clustering 3. Sequence Clustering 4. Decision Trees 5. Linear Regression 6. Time Series 7. Naive Bayes 8. Neural Network 9. Logistic Regression

Association rules (Reglas de asociación)

Este se suele usar casi exclusivamente para análisis de carro de compra. Detecta asociaciones comunes entre elementos (por ejemplo, quien compra cerveza suele comprar también maní salado).

Usos típicos: Análisis de carro de compra Ofrecer recomendaciones al comprador: ¿has comprado

cerveza, seguro que no quieres maní salado?

Clustering

Sirve sobre todo para buscar elementos afines dentro de un conjunto. Por ejemplo, podemos usarlo para saber que en una

población hay hombres y mujeres jóvenes solteros, hombres mayores solteros, hombres y mujeres mayores casados... pero no mujeres mayores solteras.

Usos Típicos: Segmentar un mercado. Validaciones (las entradas que no pertenecen a un cluster,

pueden ser elementos anómalos).

Sequence clustering

Es bastante específico para detectar secuencias típicas dentro de un conjunto de eventos. Por ejemplo... saber en qué orden hace click la gente

en las noticias de una web, puede ayudarnos a ordenar los titulares de arriba a abajo y de derecha a izquierda.

Usos típicos: Estudio de secuencias de eventos Detección de algunas anomalías de comportamiento

(eventos que llegan fuera de secuencia)

Decision Trees (Árboles de decisión) Los árboles de decisión son clarísimamente una herramienta

potentísima de clasificación... de hecho, son probablemente el mejor algoritmo que podemos utilizar para clasificar.

Básicamente, construyen un árbol del que se pueden extraer reglas, del estilo: "Si eres hombre, tienes unos ingresos superiores a 'X', y eres comprador de revistas de carros... la probabilidad de que tengas carro es del 90%".

Usos Típicos Clasificación en general Validaciones. Podemos detectar elementos anómalos en función de si encajan o no

con las reglas surgidas del árbol Por ejemplo, "si tienes carro y casa, menos de 20 años probablemente mientas…"

Predecir el valor de un atributo con precisión

Time Series (Series temporales)

Este algoritmo es específico para predecir el valor de una magnitud en función del tiempo.

Por ejemplo: Análisis bursátiles... ¿subirá o bajará el petróleo

mañana? Predicción de una magnitud analógica, en general.

Algoritmo Naive Bayes

Este algoritmo es el primero se suele utilizar para explorar datos. Básicamente, este algoritmo busca correlaciones entre atributos.

Cuando no tenemos muy claro qué atributo se puede predecir en función de otros, una técnica muy habitual es tratar de utilizar el algoritmo de Naive Bayes tratando de predecir el valor de todos los atributos en función de todos los atributos (un "todos contra todos").

Otra ventaja de este algoritmo es fácil de implementar... pero su desventaja es que no es muy preciso.

Usos Típicos: Exploración inicial de los datos Tareas de clasificación, en las que el rendimiento sea crítico.

Neural Network (Redes neuronales) Al igual que los árboles de decisión, este algoritmo también

resuelve problemas de clasificación y regresión. Puede ser adecuado para detectar patrones no lineales,

difícilmente descriptibles por medio de reglas. Se usa como alternativa al algoritmo de arboles de decisión:

lo mejor es probar ambos sobre un mismo problema y utilizar el que mayor acierto nos de en sus predicciones.

Usos Típicos: Las mismas tareas que los árboles de decisión, cuando los grupos

en los que se divide la población no son lineales. Regresiones (es similar a la clasificación, pero cuando se trata de

predecir una magnitud continúa).

Guia de Ejercicios

Enfocando su Fuerza de Ventas El departamento de marketing de Adventure Works desea aumentar las

ventas dirigiendo una campaña de correo directo a clientes específicos. Mediante el análisis de los atributos de clientes conocidos, la empresa

espera determinar los patrones que posteriormente se aplicarán a clientes potenciales.

La empresa pretende utilizar los patrones hallados para predecir qué clientes potenciales tienen más probabilidades de comprar un producto.

Además, el departamento de marketing desea encontrar las posibles agrupaciones lógicas de clientes que se encuentran en la base de datos, como, por ejemplo, aquellos que siguen pautas demográficas y de compra similares.

La base de datos de la empresa, Adventure Works DW, contiene una lista de clientes antiguos y una lista de clientes nuevos potenciales.

Necesitamos

- Un conjunto de modelos de minería de datos que sugerirá los clientes que tienen una mayor probabilidad de serlo entre una lista de clientes potenciales.

- Una agrupación de clientes actuales.

bernardorobelo.blogspot.comVer Video de Solución en:

Prevision de Ventas Como analista de ventas de Adventure Works, se le ha solicitado una previsión

de las ventas de modelos individuales de bicicletas para el próximo año.

En concreto, debe obtener los picos en las ventas de bicicletas y determinar qué regiones lideran las ventas y cuáles van por detrás.

Además, debe determinar si las ventas de diferentes modelos varían en función de la época del año.

Para hallar la información solicitada, en esta lección examinará los datos mensuales de la empresa y dividirá las ventas en tres regiones: Europa, Norteamérica y el Pacífico.

- ¿En qué época del año se produce un pico en las ventas?

- ¿Cómo interactúan las ventas de los diferentes modelos de bicicleta a lo largo del año?

- ¿Existe un patrón de ventas para las tres regiones?bernardorobelo.blogspot.comVer Video de Solución en:

Promoviendo Ventas Cruzadas El departamento de marketing de Adventure Works desea mejorar el

sitio Web de la empresa para promover las ventas cruzadas.

Antes de actualizar el sitio, necesitan crear un modelo de minería de datos que pueda predecir los productos cuya adquisición podría interesar a los clientes, basándose en otros productos que ya se encuentran en los carros de compra en línea de los clientes.

Estas predicciones también ayudarán al departamento de marketing a agrupar en el sitio Web aquellos artículos que los clientes suelen comprar juntos.

Se Solicita : Obtener un modelo de minería de datos con el que podrá predecir artículos adicionales

que pueden aparecer en una cesta de la compra o que un cliente podría querer agregar a la cesta de la compra.

Contar con un completo modelo de minería de datos que muestra grupos de artículos de transacciones históricas del cliente. bernardorobelo.blogspot.comVer Video de Solución en:

Mejorando Sitio Web El departamento de marketing de Adventure Works desea saber

cómo se mueven los clientes por el sitio Web de Adventure Works.

La empresa cree que existe un patrón según el cual los clientes incluyen productos en las cestas de la compra.

El algoritmo de clústeres de secuencia de Microsoft permite determinar las secuencias que los clientes siguen para agregar artículos a las cestas.

Posteriormente, esta información se puede utilizar para mejorar el flujo del sitio Web y propiciar que los clientes adquieran productos adicionales.

Se Solicita: Obtener un modelo de minería de datos que le permitirá predecir cuál será

el siguiente artículo que los clientes incluirán en sus cestas de la compra.bernardorobelo.blogspot.comVer Video de Solución en:

Modelos de DataMining

Bernardo A. Robelo Jirón

bernardorobelo.blogspot.com

Modelos De Data Mining

Technology

Transcript of Modelos De Data Mining