Tema 6 Data mining.pdf

Bases de Datos.....Data Mining

M Amparo Grin Garca

DATA MINING ( MINERA DE DATOS)

1

INDICE 1. RELACIN ENTRE DATA MINIG Y LOS SISTEMAS DE BASES DE DATOS.....2 2. UTILIDAD DEL DATA MINING..3 2.1 PROCESO DE DESCUBRIMIENTO DEL CONOCIMIENTO (KDD)...3 2.2 TIPOS DE RESULTADOS4 2.3. TCNICAS DE APLICACIN DE DATA MINING..5 2.4. MODELADO Y DISEO DE DATOS....5 2.5. ARQUITECTURA DE LOS SISTEMAS.6 2.6. FUNCIONES DE LAS BASES DE DATOS Y DEL DATA MINING...6 3. OBJETIVOS DE LA MINERA DE DATOS........6 4. TIPOS DE CONOCIMIENTO DESCUBIERTO DURANTE LA MINERA DE DATOS....7 4.1. REGLAS DE ASOCIACIN...8 4.2. REGLAS DE CLASIFICACIN.....13 4.2.1. REGRESIN.........13 4.2.2. REDES NEURONALES...14 4.2.3. ALGORITMOS GENTICOS......15 4.3. PATRONES SECUENCIALES...15 4.4. PATRONES EN SERIES DE TIEMPO...16 4.5. AGRUPACIN Y SEGMENTACIN....17 5. APLICACIONES DE LA MINERA DE DATOS.....18 6. CONCLUSIONES...18 7. ANEXOS.....19

2

MINERA DE DATOS

1. RELACIN ENTRE DATA MINIG Y LOS SISTEMAS

DE BASES DE DATOS Actualmente, dentro de una organizacin, el apoyo a la decisin se enfrenta a

grandes problemas: Hay almacenadas grandes cantidades de datos. Los datos pueden provenir de fuentes muy distintas. Los dominios de los datos pueden ser muy diversos.

Adems se da la paradoja de que cuanta ms informacin se posee (y ms

variada sea sta) ms difcil es extraer informacin til. Para resolver estas situaciones surge el Data Mining (minera de datos).

Para llevar a cabo el minado de datos se necesitan sistemas de bases de datos.

Estos sistemas pueden ser de dos tipos: Sistemas de bases de datos tradicionales. Sistemas de Data Warehousing.

El Data Mining se basa en tcnicas que han existido desde hace bastante

tiempo. La razn de que ahora se haga uso de ellas para el minado de datos es que ahora existe una gran cantidad de datos recopilados, estructurados y organizados. En gran parte esto es debido a los sistemas de bases de datos, que permiten asegurar caractersticas tales como la integridad y la seguridad.

Las aplicaciones de minera de datos deberan tenerse muy en cuenta desde un principio, durante el diseo de un almacn de datos. Asimismo, las herramientas de minera de datos deberan ser diseadas para facilitar su uso en conjuncin con los almacenes de datos. De hecho, para muchas bases de datos de gran tamao que se convierten en terabytes de datos, el xito de la utilizacin de aplicaciones de minera de bases de datos depender en primer lugar de la construccin de un almacn de datos.

Data Mining es un proceso para extraer informacin til a partir de grandes cantidades de datos. El Data Mining a travs del descubrimiento y cuantificacin de relaciones predictivas en los datos, permite transformar la informacin disponible en conocimiento til de negocio. Es una tecnologa que ayuda a las empresas a concentrarse en la informacin ms importante de sus bases de informacin.

Las herramientas de Data Mining predicen futuras tendencias y comportamientos y pueden responder, de forma rpida, a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas; esta herramientas exploran la base de datos en busca de patrones ocultos encontrando informacin predecible.

Esencialmente el Data Mining consiste en hacer una serie de consultas, cuyo resultado puede depender, a su vez, de de la respuesta de anteriores consultas.

La Minera de datos, con una fuerte base matemtica (sobre todo en

modelizacin) e informtica, involucra a muchas otras disciplinas tales como:

3

Bases de Datos ( Contribuye con las tcnicas deductivas de procesamiento de consultas)

Inteligencia Artificial ( Aprendizaje computerizado, lgica difusa, programacin lgica, redes neuronales, etc.)

Estadstica ( Por medio de tcnicas estadsticas como: Anova, regresiones, ji cuadrado, componentes principales, anlisis cluster, etc.)

Investigacin Operativa ( modelado, algoritmos y toma de decisiones)

Anlisis matemtico ( Por medio de tcnicas matemticas tales como las Series Temporales)

Visualizacin ( Para lograr una minera de datos interactiva). Apoyo a la decisin ( Herramientas de evaluacin del

rendimiento, planificacin, organizacin, rboles de decisin, etc.) Heurstica (Algoritmos genticos, mtodos del vecino ms

cercano, etc.) Paralelismo( Para mejorar el rendimiento de los algoritmos de

Data Mining9. Arquitectura de ordenadores ( Ofreciendo un entorno adecuado

para la aplicacin de las tcnicas de Data Mining).

2. UTILIDAD DEL DATA MINING Detectar patrones habituales tales como los hbitos de compra por

ejemplo. Detectar patrones anormales como puedan ser posibles fraudes, errores,

etc. Predicciones del futuro basadas en el pasado y en las tendencias

actuales como por ejemplo para el pronstico de posibles problemas financieros. Una razn por la que el Data Mining se ha convertido en una tecnologa

demandada por empresas, es porque se han dado cuenta de las oportunidades de negocio que ofrece el conocimiento de sus clientes.

2.1 PROCESO DE DESCUBRIMIENTO DEL CONOCIMIENTO

(KDD) El Data Mining no es un proceso sencillo. Existen seis pasos bsicos para

realizar un proyecto de Data Minig eficaz.: 1. Comprender el problema que se desea resolver y definirlo. Ya que los

proyectos mal definidos tienen pocas probabilidades de dar resultados satisfactorios, adems de tener claros los objetivos que se persiguen debe adaptarse a las caractersticas del entorno donde se desarrolla el problema.

2. Seleccionar los datos. Si queremos que los datos hablen debemos disponer de una muestra amplia y hacer una seleccin adecuada de los datos y adems de las variables pertinentes.

3. Determinar la forma en que deben representarse los elementos de los datos frente al algoritmo de Data Mining. Se deben determinar de forma adecuada las unidades, categoras o clasificacin de los datos ella que de ello depender, en gran medida, el xito o fracaso del proyecto.

4

4. Usar el algoritmo, o la serie de algoritmos, de Data Minig adecuados. 5. Analizar el resultado obtenido. Este resultado debe ajustarse al marco

del mbito del problema que se est tratando. En este paso la visualizacin reviste de gran importancia.

6. Presentacin de los resultados a los responsables de operaciones de forma que los conocimientos obtenidos puedan integrarse en los procesos de la corporacin.

2.2 TIPOS DE RESULTADOS Existen dos planteamientos, uno ms interactivo que otro, para extraer

informacin til con los algoritmos de Data Minig:

El primer planteamiento consiste en iniciar un programa, identificar los patrones, normas o funciones y luego hacer que el analista los revise en busca de su valor.

El segundo planteamiento, ms interactivo que el anterior, se denomina anlisis exploratorio de datos. En l el analista pide que los datos le sean presentados de una forma determinada, los observa, los transforma y los revisa; se mueve hacia delante y hacia detrs, explorando las relaciones que a menudo aparecen, mediante mtodos nicos de visualizacin y por ltimo presenta una respuesta. Los conocimientos as obtenidos pueden utilizarse posteriormente como entrada para otro anlisis y establecer as un ciclo para obtener conclusiones ms complejas.

No existe una clasificacin oficial de los tipos de resultados que se pueden

obtener con los algoritmos de Data Minig. Veamos algunos de ellos a continuacin: Esquemas auto-organizativos o Concentracin anloga: Consiste

en descubrir los patrones que existen el los datos. Por ejemplo responder a preguntas como qu tipo de clientes compran un determinado producto?. Sus usos ms habituales son en planes de Marketing a medida, en comprensin de los objetos de compra en cada visita al supermercado, etc.

Anlisis relacional o Concentracin anloga: Crea una serie de grupos que tienen la mxima similitud y la mxima diferencia entre ellos. Sus usos ms habituales son en anlisis de textos en busca de conceptos, determinacin de los artculos importantes en una investigacin, etc.

Funciones de descubrimiento o Relaciones numricas: Consiste en conseguir las funciones o relaciones numricas (proyecciones a futuro, probabilidad, porcentajes, etc.) existentes entre los datos. Sus usos ms habituales son en prediccin ventas, anlisis de la efectividad de la publicidad, etc.

Normas de asociacin: Bsqueda de patrones asignando probabilidades. Por ejemplo: Si se compra pintura, existe un 20% de probabilidades de que se compre una brocha.Sus usos ms habituales son en anlisis de la cesta del mercado, planificacin de la colocacin de los artculos en las estanteras de los comercios, etc.

Asociaciones secuenciales: Este mtodo de determinacin de normas es una variacin del mtodo de normas de asociacin. El mtodo consiste en buscar secuencias entre los patrones de los datos a travs de la observacin de stos.; por

5

ejemplo: Las personas que van al supermercado del centro comercial, al salir van a la cafetera con un 35% de probabilidades. Sus usos ms frecuentes son en Marketing, en anuncios en los estados de cuenta de las tarjetas de crdito, etc.

Elaboracin de normas para la clasificacin: El objetivo es agrupar loa datos en subclases y para ello se desarrolla un modelo que describe una serie de clases preestablecidas. Sus usos ms habituales son en clasificaciones, extraccin de normas en lengua inglesa a partir de algoritmos complejos de clasificacin, etc.

Clustering: El objetivo es agrupar los datos en subclases; sin embargo la clasificacin no se realiza en base a clases predefinidas. Analizando los datos se establece una clasificacin en diversos grupos (Clusters), en funcin de caractersticas comunes. As por ejemplo al estudiar los datos referentes a los clientes de un concesionario, puede aparecer que un grupo de usuarios de una determinada edad prefiere los coches de color oscuro. Las caractersticas de este grupo ( de edad y preferencias de color comunes), no se han establecido a priori.

2.3. TCNICAS DE APLICACIN DE DATA MINING La aplicacin de Data Mining se puede llevar a cabo desde diferentes

aproximaciones: 1. El enfoque ascendente: No hay una hiptesis inicial, el procedimiento

consiste en examinar los datos para descubrir patrones en ellos. Pude ser: Supervisada: Se tiene una idea de lo que se busca, por ejemplo:

Qu se suele comprar junto al producto x? No supervisada: No se sabe lo que se est buscando. A la

herramienta de Data Mining se le dice que busque algo interesante, por ejemplo: al indicarle que busque algo interesante en el acceso a una red, la herramienta puede descubrir a los usuarios que se conectan fuera de su horario de trabajo.

2. El enfoque descendente: Partiendo de una hiptesis se realizan consultas

a los datos para ver si es cierta. Si se encuentran indicios de que la hiptesis no es cierta se debe verificar y empezar de nuevo. Por ejemplo: comprobar si Las personas que fuman tienen mayor probabilidad de sufrir cncer de pulmn.

3. El enfoque mixto: Es un hbrido entre el ascendente y el descendente; se puede comenzar por una minera ascendente, para hallar algn patrn interesante y luego aplicar la minera descendente para testearlo.

2.4. MODELADO Y DISEO DE DATOS El tipo de modelo de datos usado puede influir en el minado de datos.

Aunque la mayora de las bases de datos actuales son relacionales, est aumentando el uso de bases de datos no relacionales: orientadas a objetos y multimedia. El minado da bases de datos no relacionales es un tema muy reciente del que se dispone poca informacin.

6

2.5. ARQUITECTURA DE LOS SISTEMAS Hay dos enfoques en la arquitectura que debe seguir un sistema de bases de

datos que permita el minado de datos: 1. Aadir una herramienta de minado a un S.G.B.D.- La herramienta

debe tener la interfaz adecuada con el S.G.B.D. para extraer la informacin de la base de datos. La principal ventaja de esta aproximacin es que se tiene una arquitectura abierta: la herramienta no est limitada a un S.G.B.D. concreto. Sin embargo, al usar un S.G.B.D. de propsito general para la minera aparecen problemas de rendimiento.

2. Incluir la herramienta de minado de datos en el S.G.B.D.- Las tcnicas de minado pueden influir en muchas de las funciones de los S.G.B.D.: almacenamiento, ejecucin de consultas, manejo de transacciones, manejo de la metainformacin, integridad, seguridad, algoritmos de optimizacin, etc. Adems en un S.G.B.D. para minera se pueden eliminar funciones de un S.G.B.D. general que no son necesarias para el Data Mining y potenciar as funciones claves como la integridad y la calidad de los datos. Por ejemplo, la mayora de las aplicaciones de minado no necesitan los datos relacionados con transacciones, por lo que se pueden eliminar las funciones que manejan este tipo de informacin.

2.6. FUNCIONES DE LAS BASES DE DATOS Y DEL DATA MINING El minado de datos puede influir en las funciones de los sistemas de bases de

datos, sobre todo en aquellos que siguen el enfoque de una gran integracin con la herramienta de minera. Algunas de las funciones que pueden sufrir cambios considerables son aquellas relacionadas con el procesamiento de consultas o el almacenamiento.

En el caso de tratamiento de transacciones, el minado en general no suele influir mucho ya que ste suele centrarse en los datos de apoyo a la decisin y no en los transaccionales.

La seguridad y privacidad pieden verse amenazadas por el tratamiento que hace el Data Mining de los datos. Por otro lado, la propia minera de datos puede usarse para analizar las amenazas a las que se enfrenta la base de datos.

En el caso de la calidad e integridad de datos, se puede aplicar la minera de datos para detectar informacin incorrecta y mejorar as la calidad de los datos.

3. OBJETIVOS DE LA MINERA DE DATOS . Prediccin: La minera de datos puede mostrar el modo en el que actuarn en

el futuro ciertos atributos dentro de los datos. As, unos ejemplos de minera de datos predictiva serian el volumen de ventas

que generara un comercio en un periodo dado, el anlisis de transacciones de compra para predecir lo que comprarn los consumidores bajos determinados descuentosEn aplicaciones de este tipo, junto a la minera de datos se usa la lgica de negocio.

Identificacin: Los patrones de datos pueden utilizarse para identificar la existencia de un artculo, un evento o una actividad.

7

Por ejemplo en las aplicaciones biolgicas se puede identificar la existencia de un gen mediante determinadas secuencias de smbolos nucletidos en la secuencia de ADN, o unos intrusos que intentan violar un sistema pueden ser identificados por los programas que han sido ejecutados, por los ficheros a los que se ha accedido y por el tiempo de CPU por sesinEl rea conocida como autenticacin es una forma de identificacin. Determina si un usuario es verdaderamente un usuario concreto o si pertenece a una clase autorizada. Ello conlleva una comparacin de parmetros, o de imgenes o de seales con la base de datos.

Clasificacin: La minera de datos pude dividir los datos de modo que las diferentes clases o categoras puedan ser identificadas basndose en combinaciones de parmetros As por ejemplo los clientes de un supermercado pueden clasificarse en compradores que buscan descuentos, compradores con prisa, compradores regulares fieles y compradores ocasionales. A veces, se emplea una clasificacin basada en el conocimiento de dominio comn como una entrada para descomponer el problema de minera y simplificarlo. Por ejemplo, los alimentos dietticos, aperitivos o alimentos para almuerzos escolares constituyen categoras diferentes en el negocio de los supermercados. Resulta lgico analizar las relaciones dentro de y entre las categoras como problemas distintos.

Optimizacin: Un objetivo de la minera de datos puede ser el de optimizar la utilizacin de recursos limitados como el tiempo, el espacio, dinero o materiales y maximizar las variables de salida como las ventas o los beneficios bajo un conjunto de restricciones dadas.

4. TIPOS DE CONOCIMIENTO DESCUBIERTO DURANTE

LA MINERA DE DATOS La minera de datos trata el conocimiento inductivo. El conocimiento

descubierto durante la minera de datos puede describirse de cinco formas: Reglas de asociacin: estas reglas establecen una correlacin entra la presencia

de un conjunto de elementos con otro rango de valores para otro conjunto de variables.

Ejemplos: Cuando una clienta compra un bolso en un comercia, es probable que se

compre zapatos. Una imagen de rayos X que contenga las caractersticas a y b tambin

mostrar con toda probabilidad la caracterstica c. Reglas de clasificacin: el objetivo es el de trabajar partiendo de un conjunto

de eventos o de transacciones ya existentes para crear una jerarqua de clases. Ejemplos:

Se puede desarrollar n modelo para establecer los factores que determinan cmo es de idnea en una escala del 1 al 10 la ubicacin de un comercio,

Se puede dividir una poblacin en cinco niveles de mritos crediticios basados en un historial de transacciones crediticias previas.

Patrones secuenciales: lo que se persigue es una secuencia de acciones o eventos. La deteccin de patrones secuenciales equivale a detectar la asociacin entre eventos con determinadas relaciones temporales.

Ejemplo:

8

Si un paciente sufriese ciruga de bypass cardiovascular por causa de tener las arterias obstruidas y un aneurisma y posteriormente desarrollase un nivel alto de urea en la sangre, durante el ao siguiente a la intervencin de ciruga, es probable que el paciente sufra una insuficiencia renal dentro de los 18 meses siguientes.

Patrones en series de tiempo: Se pueden detectar similitudes en las posiciones de las series de tiempo.

Ejemplos : Dos productos presentan el mismo patrn de venta en verano pero uno

diferente en invierno. Siempre que las tasas de inters de los bonos suben, las cotizaciones

burstiles bajan en un plazo de dos das. Categorizacin y segmentacin: un conjunto de eventos o elementos dados

puede ser dividido (segmentado) en grupos de elementos similares. Ejemplos:

La poblacin adulta de los Estados Unidos puede categorizarse en cinco grupos que van desde los mas propensos a comprar a los menos propensos a comprar un nuevo producto.

Una serie completa de datos sobre el tratamiento de una enfermedad puede dividirse en grupos basados en la similitud de los efectos secundarios que producen.

4.1 REGLAS DE ASOCIACIN Una de las principales tecnologas de la minera de datos conlleva el

descubrimiento de las reglas de asociacin. Una regla de asociacin tiene la forma siguiente:

YX

Donde { }xxx nX ,...,, 21= e { }yyy nY ,...,, 21= son conjuntos de elementos,

siendo xi e y j elementos distintos para toda i y toda j. Veamos el ejemplo de la cesta de la compra. Aqu la cesta de la compra

corresponde a lo que compra el consumidor en un supermercado durante una visita. Consideremos cuatro transacciones de este tipo en una muestra aleatoria:

Id-transaccin Hora Artculos

comprados 101 6:35 Leche, pan, zumo792 7.38 Leche, zumo 1130 8:05 Leche, huevos 1735 8:40 Pan, galletas, caf

9

Aqu la regla de asociacin establece que si un cliente compra X es probable que compre Y. En general, toda regla de asociacin tiene la forma LHS (left-hand side: lado izquierdo) RHS (right-hand side: lado derecho), donde LHS y RHS son conjuntos de elementos.

Las reglas de asociacin deberan proporcionar tanto soporte como confianza. El soporte (o predominio de la regla) de la regla LHS RHS es el

porcentaje de transacciones que mantienen a todos los elementos en su unin, es decir, en el conjunto LHSRHS. Si el soporte es bajo quiere decir que no existe una evidencia abrumadora de que de que los elementos de LHSRHS ocurran conjuntamente, porque la unin tiene lugar nicamente en una pequea fraccin de las transacciones.

As, en nuestro ejemplo: La regla Leche zumo tiene el soporte del 50%. La regla Pan zumo tiene slo un soporte del 25%. La confianza (o fuerza de la regla) para la regla LHS RHS es el porcentaje

de dichas transacciones que tambin incluyen RHS. La regla Leche zumo tiene una confianza de 66,7% ( de las tres

transacciones en las que aparece leche, dos contienen zumo). La regla Pan zumo tiene una confianza del 50%. Como, podemos ver, el soporte y la confianza no van necesariamente unidas.

Por lo tanto, el objetivo de las reglas de asociacin de la minera es el de generar todas las reglas posibles que superen en un mnimo los umbrales de soporte y confianza especificados por el usuario. De este modo, el problema se descompone en dos subproblemas:

1. Generar todos los conjuntos de elementos que tengan un soporte que exceda del umbral. Los llamamos conjuntos de elementos grandes.

2. Para cada conjunto de elementos grande, todas las reglas que tienen un mnimo de confianza se generan de la siguiente manera: para cada conjunto grande de elementos de X, donde Y es un subconjunto de X, sea Z = X Y; entonces, si el soporte(X)/soporte(Y) confianza mnima, la regla Z Y es una regla vlida.

La creacin de reglas mediante el uso de conjuntos de elementos grandes y sus soportes es relativamente sencilla. Sin embargo, descubrir todos los conjuntos grandes de elementos junto con el valor de su soporte es un problema importante si la cardinalidad del conjunto de elementos es muy alta. Un supermercado tpico tiene miles de artculos. El nmero de los diferentes conjuntos de elementos es 2n , donde n es el nmero de elementos, y calcular el soporte para todos los conjuntos de elementos supone una intensa labor de cmputo.

Para reducir el espacio de bsqueda combinatorio, los algoritmos para encontrar reglas de asociacin tienen las siguientes propiedades.

Un subconjunto de un conjunto grande de elementos debe ser tambin grande (es decir, cada subconjunto de un conjunto grande de elementos sobrepasa el soporte mnimo requerido).

Inversamente, una extensin de un conjunto pequeo de elementos es tambin pequea(lo que implica que no tiene el soporte suficiente).

10

Algoritmos bsicos para encontrar reglas de asociacin. Los algoritmos

actuales que encuentran conjuntos de elementos grandes estn diseados para funcionar de la siguiente manera:

1. Comprobar el soporte para los conjuntos de elementos de longitud 1, denominados conjuntos-de-elementos-1, explorando la base de datos. Descartar aquellos que no satisfagan el soporte mnimo requerido.

2. Extender los conjuntos-de-elementos-l que son grandes a conjuntos-de-elementos-2 agregando un elemento cada vez, para generar todos los conjuntos de elemento candidatos de longitud dos. Compruebe el soporte para todos los conjuntos de elementos candidatos examinando la base de datos y eliminando aquellos conjuntos-de-elementos-2 que no satisfagan el soporte mnimo.

3. Repetir los pasos anteriores; en el paso k, los conjuntos encontrados anteriormente (k-1) se amplan a conjuntos de elementos k y se examinan para ver si cumplen el soporte mnimo.

El proceso se repite hasta que no se puedan encontrar conjuntos de elementos grandes. Sin embargo, la versin simplista de este algoritmo es una pesadilla combinatoria. Se han propuesto varios algoritmos para extraer la reglas de asociacin. Estos varan principalmente en cmo se generan los conjuntos de elementos candidatos, y cmo se cuentan los soportes de los conjuntos de elementos candidatos. Hemos propuesto un algoritmo denominado algoritmo de particin que se resume a continuacin:

Si tenemos una base de datos con un nmero reducido de conjuntos potenciales de elementos grandes, digamos, unos pocos miles, el soporte de todos ellos puede examinarse entonces en un escrutinio mediante la utilizacin de una tcnica de particin. La particin divide la base de datos en particiones no solapadas; stas se consideran individualmente como bases de datos separadas y todos los conjuntos de elementos grandes de esa particin se generan en un paso. Al trmino del primer paso, se genera por tanto una lista de conjuntos de elementos grandes procedentes de cada particin. Cuando se fusionan estas listas, contienen algunos positivos falsos. Es decir, puede que algunos de los conjuntos de elementos que son de gran tamao en una particin no cumplan los requisitos en otras particiones y por lo tanto, no puedan sobrepasar el soporte mnimo cuando se tenga en cuenta la base de datos original. Ntese que no existen negativos falsos, es decir, no se perder ningn conjunto de elementos grandes. La unin de todos los conjuntos de elementos grandes identificados en el primer paso constituye la entrada al segundo paso como conjuntos de elementos candidatos y se mide su soporte real para toda la base de datos. Al trmino de la segunda fase, se identifican todos los conjuntos de elementos grandes existentes. Las particiones se eligen de tal manera que cada pude ser alojada en la memoria principal y se lee tan slo una vez en cada fase. El algoritmo de particin se presta a una implementacin en paralelo, en aras de la eficacia. Se han sugerido mejoras adicionales para este algoritmo.

Reglas de asociacin entre jerarquas. Un tipo de asociacin de particular

inters es aquella que se da entre jerarquas de elementos. Generalmente, es posible dividir los elementos entre jerarquas disjuntas basadas en la naturaleza del dominio. Por ejemplo, los alimentos de un supermercado pueden clasificarse en clases y subclases que dan lugar a jerarquas. Veamos la siguiente figura que muestra la taxonoma de los artculos de un supermercado. Tiene dos jerarquas: bebidas y postres:

11

Cabe la posibilidad de que no todos los grupos produzcan asociaciones de la

forma. Bebidas Postres, o Postres Bebidas. Sin embargo las asociaciones

Yogurt helado de marca diettica Agua mineral, o Helado cremoso verm pueden crear la suficiente confianza y soporte para constituir reglas de asociaciones de inters vlidas.

Por lo tanto, si el rea de aplicacin tiene una clasificacin natural de los conjuntos de elementos en jerarquas, el descubrir asociaciones dentro de las jerarquas no tiene un inters especial. Aquellas que tienen un inters especfico son las asociaciones entre jerarquas.

BEBIDAS

GASEOSAS NO GASEOSAS

COLAS BEBIDAS MIXTAS

BEBIDAS SIMPLES

ZUMO EMBOTELLAD

O

VERM AGUA MINERAL

NARANJA

OTROS

MANZANA

PLAIN

CLEAR

POSTRES

HELADOS PASTELES YOGURT HELADO

CREMOSOS GRANIZADOS REDUCE HEALTHY

12

Asociaciones negativas. El problema de descubrir una asociacin negativa es ms arduo que el de descubrir una asociacin positiva. Una asociacin negativa es del tipo: el 60 % de los clientes que compran patatas fritas no compran agua mineral. En una base de datos con 10.000 elementos hay unas 2 000.10 combinaciones de elementos posibles, y la mayora de stas no aparecen ni tan siquiera una vez en la base de datos. Si la ausencia de una combinacin de elementos determinada se toma como una asociacin negativa, entonces tenemos millones y millones de reglas de asociacin negativas con RHS sin ningn tipo de inters. Por lo tanto, el problema es encontrar slo aquellas reglas negativas que sean interesantes. En general, nos interesan los casos en los que dos conjuntos especficos de elementos aparecen muy raramente en la misma transaccin. Pero esto presenta dos problemas:

1. Para un inventario total de 10.000 elementos, la probabilidad de que se

compren juntos dos elementos dados es (1/10.000)*(1/10.000)=10-8. Si el soporte real de que ambos elementos aparezcan juntos es cero, esto no supone una desviacin significativa respecto a lo esperado, y por lo tanto, no resulta una asociacin negativa de inters.

2. El otro problema es ms serio. Buscamos combinaciones de elementos con un soporte muy bajo, y hay millones y millones incluso con soporte nulo. Por ejemplo, si tenemos un conjunto de datos sobre 10 millones de transacciones, la mayor parte de los 2.500 millones de pares posibles de los 10.000 elementos no se encontrarn en dichas transacciones. Esto supondra la creacin de miles de millones de reglas intiles.

Por lo tanto, para que las reglas de asociacin sean interesantes, debemos

utilizar el conocimiento previo sobre los conjuntos de elementos .Para ello usamos jerarquas.

En el ejemplo anterior, en el caso de las agrupaciones yogur y agua mineral, supongamos que la distribucin entre las marcas de yogur helado Reduce y Healthy es 80-20 y entre las marcas de agua Plain y Clear es 60-40. Esto dara una probabilidad conjunta de:

48.060.0*80.0)(*)(Re)(Re === PlainPducePPlainduceP

Es decir, un 48% de las transacciones que contienen yogur helado y agua

mineral implican a las marcas Reduce y Plain. Sin embargo, si se observa que el soporte es de tan slo el 20%, ello indicara que existe una asociacin negativa significativa entre yogur helado Reduce y el agua mineral Plain; lo cual podra ser interesante.

El problema de encontrar una asociacin negativa en la situacin anterior tiene su importancia dado el conocimiento del dominio en forma de jerarquas de generalizacin de elementos, las asociaciones positivas existentes y la distribucin de los elementos.

El campo de descubrimiento de asociaciones negativas es limitado cuando se trata de conocer las jerarquas y distribucin de elementos. El crecimiento exponencial de las asociaciones negativas sigue siendo un reto.

Consideraciones adicionales sobre la reglas de asociacin En lo que respecta a los conjuntos de datos de gran tamao, una forma de

mejorar su eficiencia es mediante el muestreo. Si se puede encontrar una muestra

13

representativa que verdaderamente represente las propiedades de los datos originales, entonces se pueden encontrar la mayora de las reglas. El problema se reduce entonces a concebir un procedimiento de muestreo adecuado. Este procedimiento conlleva el riesgo potencial de descubrir algunos falsos positivos ( conjuntos de elementos grandes que no son realmente de gran tamao) as como encontrarse con falsos negativos al omitir determinados conjuntos de elementos grandes y sus reglas de asociacin correspondientes.

Las reglas de asociacin de la minera en las bases de datos autnticas se complican an ms por los siguientes factores:

La cardinalidad de los conjuntos de elementos en la mayor parte de las situaciones es sumamente extensa y el volumen de las transacciones es tambin elevado.

Las transacciones muestran una variabilidad en factores como la situacin geogrfica y las estaciones, dificultando as el muestreo.

Las clasificaciones de los elementos se dan en varias dimensiones. Por lo tanto, resulta sumamente difcil llevar a cabo el proceso de descubrimiento con conocimiento del dominio, especialmente para las reglas negativas.

La calidad de los datos es variable: en muchas empresas se producen problemas significativos cuando faltan datos, o hay datos errneos, contradictorios o redundantes.

4.2. REGLAS DE CLASIFICACIN Descubrimiento de reglas de clasificacin La clasificacin es el proceso de aprender una funcin que clasifica un

objeto de inters dado en una de las muchas clases posibles. Las clases pueden ser predefinidas, o pueden determinarse durante la tarea de clasificacin. Veamos un ejemplo:

Supongamos que una compaa de tarjetas de crdito quiere decidir si debe conceder una tarjeta a un solicitante.

La compaa tiene amplia informacin de la persona como su edad, su nivel educativo, sus ingresos anuales y sus deudas actuales.

Basndose en esta informacin, la compaa intenta hallar reglas que clasifiquen a sus clientes actuales en excelentes, buenos, medianos y malos.

Si consideramos slo dos atributos: nivel educativo y los ingresos, las reglas pueden ser de la forma siguiente:

Clasificadores de rboles de decisin: Utilizan un rbol donde cada nodo hoja tiene una clase asociada y cada nodo

interno tiene un predicado asociado .Para clasificar un nuevo caso se empieza por la raz y se recorre el rbol hasta alcanzar una hoja, en los nodos internos se evala el predicado para hallar a qu nodo hijo hay que ir. As:

excelentecrditoPingresosPandmstertitulacinPPpersona =>= .75000..,

..)75000.25000.(., buenocrditoPingresosPandingresosPorbachillertitulacinPPpersona ==

14

4.2.1 REGRESIN Es una aplicacin especial de la regla de clasificacin. Si consideramos una

regla de clasificacin como una funcin sobre las variables, que sita dichas variables en una variable de clase objetivo, la regla se denomina regla de regresin. Una aplicacin general de la regresin tiene lugar cuando en lugar de situar una tupla de datos procedente de una relacin en una clase especfica, se predice el valor de esa variable basndose en esa tupla.

Dentro de regresin consideramos la regresin lineal que es una tcnica estadstica comnmente empleada para ajustar un conjunto de observaciones o puntos de n dimensiones con la variable objetivo y.

El anlisis de regresin es una herramienta muy comn en el anlisis de datos en muchos dominios de investigacin. El descubrimiento de una funcin para predecir la variable objetivo es equivalente a una operacin de minera de datos.

4.2.2. REDES NEURONALES La red neuronal es una tcnica derivada de la investigacin en inteligencia

artificial que emplea la regresin generalizada y proporciona un mtodo iterativo para llevarla a cabo.

Las redes neuronales pueden clasificarse en trminos generales en dos categoras: redes supervisadas y no supervisadas. Los mtodos adaptados que intentan reducir el error de salida son los llamados de aprendizaje supervisado mientras que aquellos que desarrollan representaciones internas sin salidas de muestra se denominan mtodos de aprendizaje no supervisado.

Las redes neuronales se adaptan a s mismas; es decir, pueden aprender de la informacin sobre un problema especfico. Actan bien en las tareas de clasificacin y por lo tanto, resultan tiles en la minera de datos. Sin embargo, no estn exentas de problemas:

15

Aunque aprenden, no proporcionan una buena representacin de lo que han aprendido. Sus resultados son sumamente cuantitativos y no tan fciles de entender.

Las representaciones internas desarrolladas por las redes neuronales no son nicas.

Las redes neuronales encuentran dificultades a la hora de modelar los datos de series de tiempo.

A pesar de estos inconvenientes, son de uso frecuente y generalizado por

parte de varias compaas. 4.2.3. ALGORITMOS GENTICOS Son una clase de procedimientos de bsqueda aleatorios. Son capaces de

llevar a cabo una bsqueda adaptada y slida en un amplio espectro de topologas de espacios de bsqueda. Se modelaron a partir de de la observacin de los mecanismos de evolucin y adaptacin de especies biolgicas.

La construccin de un algoritmo gentico conlleva la creacin de un alfabeto que codifique las soluciones al problema de decisin en trminos de cadenas de ese alfabeto.

Las soluciones producidas por los algoritmos genticos se distinguen de la mayora de otras tcnicas de bsqueda por las siguientes caractersticas:

Emplea un conjunto de soluciones durante cada generacin en lugar de una nica solucin.

La bsqueda en el espacio de cadenas representa una bsqueda paralela mucho mayor en el espacio de soluciones codificadas.

La memoria de la bsqueda realizada se representa nicamente por el conjunto de soluciones disponible para una generacin.

Un algoritmo gentico es un algoritmo aleatorio puesto que los mecanismos de bsqueda emplean operadores basados en la probabilidad.

Mientras se progresa de una generacin a la siguiente, un algoritmo gentico encuentra un equilibrio casi ptimo entre la obtencin de conocimiento y la explotacin mediante la manipulacin de soluciones codificadas.

4.3. PATRONES SECUENCIALES Descubrimiento de patrones secuenciales El descubrimiento de patrones secuenciales se basa en el concepto de

secuencia de conjuntos de elementos. Asumimos que las transacciones como las de la cesta de la compra se ordenan por tiempo de compra. Este ordenamiento da lugar a una secuencia de conjuntos de elementos. Por ejemplo, {leche, pan , zumo }, {pan, huevos}, {galletas, leche, caf}pueden constituir una secuencia de conjuntos de elementos basada en tres visitas del mismo cliente al establecimiento. El soporte para una secuencia S de conjuntos de elementos lo constituye el porcentaje de veces que S es subsecuencia de del conjunto de secuencias dado U. En este ejemplo {leche, pan , zumo } y {pan, huevos}, {galletas, leche, caf} se consideran

16

subsecuencias. El problema a la hora de identificar los patrones secuenciales, por lo tanto, es el de encontrar todas las subsecuencias a partir de los conjuntos de secuencias dados, que tienen un soporte mnimo definido por el usuario. LA secuencia S1, S2, S3constituye un previsor de la siguiente situacin: es probable que un cliente que compra un conjunto de elementos S1, tambin compre un conjunto de elementos S2 y luego S3, y as sucesivamente. Este resultado se basa en la frecuencia (soporte) de esta secuencia en el pasado. Se han investigado varios algoritmos para la deteccin de secuencias.

4.4. PATRONES EN SERIES DE TIEMPO Descubrimiento de patrones en series de tiempo Las series de tiempo son secuencias de eventos: cada evento puede ser un tipo

fijado dado de una transaccin. Por ejemplo, el precio al cierre de una accin o de un fondo es 7un evento que tiene lugar cada da de la semana para cada accin y para cada fondo. La secuencia de estos valores por accin o fondo constituye una serie de tiempo.

Para una serie de tiempo, se pueden buscar patrones diversos analizando las secuencias y subsecuencias como hemos hecho anteriormente. El anlisis y la minera de series de tiempo constituyen una funcionalidad extendida de la gestin de datos temporales. Veamos dos ejemplos:

1. Si utilizamos la serie que representa el nmero mensual de muertes en UK

por bronquitis, enfisema y asma desde 1974 hasta 1979 ( se ha contemplado una serie para hombres y otra para mujeres):

Tsplot de hombres, mujeres

Observamos que la serie es estacionaria en media ya que todos los valores

oscilan en torno a un valor y adems presenta un patrn repetitivo ya que si la

17

observamos con detenimiento nos damos cuenta de que los picos pronunciados hacia arriba estn todos en los meses de invierno y los picos bajos en verano, es decir, en invierno mueren ms personas. Adems nos damos cuenta de que en el invierno de 1976 el nmero de muertes se dispar ello es debido a que fue el invierno mas fro en Inglaterra de los ltimos aos.

2. Si analizamos la serie que representa el nmero mensual de pasajeros en

una lnea area internacional desde Enero de 1949 hasta diciembre de 1960 (expresado en miles de pasajeros):

Tsplot de Total mensual de pasajeros en una linea area desde enero 1949 hasta diciembre 1960 (miles)

Observamos que no es estacionaria en media porque presenta una clara

tendencia creciente lo que indica +que el nmero de pasajeros cada vez es mayor y adems presenta un patrn secuencial que nos dice que cada ao se repite un ciclo que comienza con un punto bajo de la grfica. Concluimos que , para esta lnea area, el nmero de pasajeros en invierno es muy bajo y , a medida que se acerca el verano, aumenta. El pequeo pico anmalo que aparece sobre el mes de Abril se corresponde con Semana Santa.

4.5. AGRUPACIN Y SEGMENTACIN La agrupacin (clustering) es una tcnica de la minera de datos cuyos

objetivos estn orientados a hacia la identificacin y clasificacin . La agrupacin intente intenta identificar un conjunto finito de categoras o agrupaciones en los que poder situar dad objeto (tupla) de datos. Las categoras pueden ser o no disjuntas y a veces pueden organizarse en rboles.

Por ejemplo, se podran formar categoras de clientes en forma de rbol para despus situar a cada cliente en una o ms de las categoras.

18

Un problema ntimamente relacionado con ste, es el clculo de las funciones de densidad de probabilidad multivariada, para todas las variables que podran ser atributos de una relacin o de de relaciones diferentes.

5. APLICACIONES DE LA MINERA DE DATOS

Las tecnologas de minera de datos puede aplicarse a una gran variedad de

contextos de toma de decisiones en el mbito empresarial. En concreto, se espera que la reas de rentabilidad significativa incluyan los siguientes aspectos:

Marketing: Aplicaciones que incluyen el anlisis del comportamiento del consumidor basado en patrones de compra. La identificacin de estrategias de marketing entre las que se incluyen la publicidad , ubicacin de productos en el establecimiento y correspondencia publicitaria. La segmentacin de los clientes, establecimientos o productos y el diseo de catlogos.

Finanzas: Aplicaciones que incluyen el anlisis de la solvencia de los clientes, la segmentacin de las cuentas por cobrar, anlisis de rendimientos de las inversiones financieras como acciones, bonos y fondos mutuos, valoracin de las opciones de financiacin y deteccin de fraudes.

Fabricacin: Aplicaciones que incluyen la optimizacin de los recursos como la maquinaria, mano de obra y materiales. El diseo ptimo de los procesos de fabricacin disposicin de los talleres, y diseo de productos como el de automviles basados en las necesidades del cliente.

Sanidad: Aplicaciones que incluyen un anlisis de la eficacia de determinados tratamientos; la optimizacin de procesos en el seno del hospital, estableciendo una relacin entre los datos del bienestar del paciente y las cualidades del mdico; y el anlisis de loe efectos secundarios de los medicamentos.

6. CONCLUSIONES

Nuestra capacidad para almacenar datos ha crecido en los ltimos aos a

velocidades exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha

ido a la par. Por este motivo, el data mining se presenta como una tecnologa de

apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volmenes de datos.

En resumen, el data minig se presenta como una tecnologa emergente con varias ventajas:

Resulta un buen punto de encuentro entre los investigadores y las

personas de negocios. Ahorra grandes cantidades de dinero a las empresas. Abre nuevas oportunidades de negocios.

19

7. ANEXO 1 Me parece interesente incluir es siguiente artculo que encontr buscando en

Internet ms material para desarrollar el trabajo:

Data Mining

Cmo sacar partido con inteligencia de los datos: Data Mining

Implantar un proceso para transformar datos en informacin, informacin en conocimiento y conocimiento en ayuda a la toma de decisiones, no es tan difcil y complejo como tendemos a pensar; mxime si tiene claros los objetivos, las necesidades y, por encima de todo, el presupuesto disponible.

Por Juan Uwaldo Redondo Consejero Editorial de SER EMPRESARIO

Saber hacer buen uso de los datos de su empresa, puede ser la clave del xito, en estos tiempos inciertos, altamente competitivos. Si no dispone de un Director de Sistemas, no se deje abrumar por la amplia oferta y piense siempre, antes de decidir, en el retorno de su Inversin.

Si hubiera que hacer una recomendacin prioritaria en todo lo relativo a las TIC en la empresa, esta es sin duda que no se deje impresionar por el argot. Se mezclan conceptos generalmente admitidos en el mundo de la gestin empresarial, con trminos y procesos de consultoras, junto a productos de proveedores especializados y marcas comerciales.

Con tantos ingredientes y tan heterogneos, no es de extraar que piense que esto es nicamente cosa de expertos. Pero ni es oro todo lo que reluce, ni todas las propuestas son buenas o necesarias para los intereses de su empresa. Lo que s puede descubrir, es que hacer un uso prctico y eficiente de los datos de sus clientes, proveedores, productos, o empleados, con poco ms que las herramientas y recursos de los que ya dispone, es posible.

Integracin de sistemas

Ante la tremenda oferta de programas, debe tener dos cosas claras: primero, no mezclar peras con manzanas, tecnologas con marcas, software con reingeniera de procesos; y segundo, con toda probabilidad si le ofrecen algo de todo esto, no le estn proponiendo nada nuevo, nada que no hiciera antes en su compaa; lo nico que es nuevo (y no siempre bien explicado) es la forma de hacerlo, bsicamente mediante la integracin de sistemas, y mediante la implantacin de nuevo software y el correspondiente servicio de consultora para el diagnstico de los procesos implicados.

Este es el caso del Business Intelligence y del Data Mining. Parece que de repente hemos descubierto algo que no exista: hay que mantener una relacin slida con el cliente. Ya a comienzos de los aos 60, se empleaban las "fichas de cliente" en la mayora de las empresas espaolas. En ellas quedaban recogidas, aparte de los datos comerciales, las aficiones, nivel socio-econmico, preferencias, y por tanto los datos que hacan posible una relacin comercial.

Qu ha cambiado? La tecnologa, no el sistema, ni la intencin, ni el objetivo, ni la naturaleza de la relacin. Data Mining significa literalmente "minera de datos" y hace referencia a las tcnicas de explotacin de los datos recogidos por la empresa, generalmente de clientes, aunque se podra hacer extensivo a cualquier set de datos de inters (competencia, ndices sectoriales, informacin contable, control de inventarios, etc).

20

El Data Mining es por tanto un proceso posterior a la recogida de los datos, consistente en su anlisis sistemtico y peridico, que transforma los datos en informacin til y manejable para la toma de decisiones. Ligado e inseparable del Data Mining est el concepto de Data Warehouse, que hace referencia al almacenamiento fsico de los datos, incluyendo el "modo" en que estos datos se almacenan.

Para almacenar datos, por tanto, necesitamos previamente "donde albergarlos" y "cmo albergarlos"; el dnde puede ser cualquier soporte como un servidor, el PC de la oficina, un disco duro porttil, etc, y el cmo afecta esencialmente a qu de Base de Datos empleamos, como por ejemplo Access o SQL de Microsoft.

Tenemos pues un conjunto de datos, por ejemplo, las compras de nuestros clientes, que recogemos en una Base de Datos y que almacenamos para su uso y explotacin posterior. Qu datos debemos recoger y qu uso posterior hacemos?

Esta pregunta tiene ya una respuesta individualizada.

Cada empresa y los usuarios potenciales de esa informacin, aquellos que han de tomar decisiones en base a la misma, deben responder analizando qu demandas de informacin precisan. Lo que si es importante destacar es el abuso que se hace generalmente en la recogida de datos en relacin a su dbil explotacin; las empresas pecan de recoger ms informacin de la necesaria o de la que en realidad usan.

Pero hay tres factores importantes en la valoracin de los datos recogidos:

con qu frecuencia se generan (a diario, por ejemplo si hablamos de compras de determinado producto en una cadena minorista),

qu influencia tiene esta frecuencia en las decisiones a tomar (o en el anlisis, por ejemplo podramos estar investigando si hay alguna correlacin entre las franjas horarias comerciales de esta cadena minorista y el consumo de ciertas referencias por franjas y por das), lo que condiciona la frecuencia de los informes,

qu cantidad de datos estamos recogiendo, lo que condiciona los sistemas de anlisis y su potencia y por tanto el Data Mining.

Una vez que hemos determinado qu informacin necesitamos, queda el problema de estandarizar los anlisis, que es en si el proceso de Data Mining. Obviamente hay infinitos tipos de anlisis posibles que van desde la segmentacin de clientes, al anlisis de los datos financieros.

Lo importante es hacer que la extraccin de la informacin y los anlisis se conviertan en una operacin rutinaria y automtica, sin la prctica intervencin de ningn empleado.

Sirven las herramientas?

Tiene su empresa menos de 100.000 clientes? Pues probablemente le baste con Access. Sorprendentemente, el aprovechamiento de recursos relativamente simples de ofimtica como Excel, Access, etc, de los que ya disponemos es muy escaso. Por ejemplo, pocos saben que se puede realizar un anlisis de series temporales con Excel, sin necesidad de acudir o contratar otras complejas y caras aplicaciones informticas. Tal vez slo necesita una Intranet, o tener al menos a su empresa en una Red de Area Local. Adems de una muy simple programacin de algunas rutinas con Visual Basic, para dotar a su empresa de un potente Data Mining. El coste? Al menos entre 20 y 50 veces menor que contratar una solucin propietaria con un proyecto llave en mano de consultora. Slo en compaas de grandes dimensiones o en aquellas en las que el volumen y frecuencia de los datos es igual de grande, est probablemente justificada una inversin, casi siempre desorbitada, en un complejo y potente sistema.

21

Pasos para construir un Data Mining

Analice sus necesidades de informacin. Sea realista con ellas y contemple los futuros crecimientos. Evite que en poco tiempo su sistema se quede pequeo o poco operativo.

No tenga complejos tcnicos por no ser un experto. Usted es quien mejor conoce su empresa y a sus clientes.

Pida asesoramiento externo. La visin de alguien experto en procesos y ajeno a la compaa, introducir un soplo de aire fresco y una visin ms rica del problema.

No mate moscas a caonazos. No implante sistemas que no necesita. Adems de caros, sern un obstculo y una hipoteca para futuros crecimientos.

Si pide una valoracin externa de sus sistemas y procesos, elija con cuidado. Si invita a Ferrari, le vendern un Ferrari aunque lo que Ud necesite sea una furgoneta. Contraste opiniones

Utilice la situacin para proponer mejoras en los procesos, en las rutinas, y en la forma de trabajar.

Puede ser un excelente pretexto para revisar procedimientos y recortar costes. En cualquier caso, no informatice el caos.

No implante nada que no necesite de verdad. Si lo implanta mantenga una visin a medio-largo plazo.

Utilice las herramientas y los recursos de los que ya dispone. Contratar un proyecto o un sistema ms caro no va a hacer que aumente su rentabilidad.

Los datos sobre los clientes proceden de diferentes fuentes, pero hay tres tipos de datos principales que necesita la herramienta de Data Mining (DM) integrada en el sistema de Gestin de Relaciones con Clientes (a partir de ahora, CRM). Son los datos que describen:

1. Quin es el cliente. 2. Qu promociones se ofrecieron al cliente. 3. Cmo reaccion el cliente a estas promociones

(las transacciones que realiz con la empresa).

Figura 1 - Tres tipos de datos sobre clientes

22

Si se conociesen estos tres tipos de informaciones sobre el cliente, o sobre un individuo que todava no se ha convertido en cliente, se dispondra de datos suficientes para empezar a hacer predicciones. Se puede empezar a buscar patrones mediante DM o realizar experimentos con el fin de optimizar las interacciones de marketing y ventas con estos clientes (ver Figura 2). Sin saber quines son los clientes, qu se hizo para ellos y cmo reaccionaron es imposible optimizar el sistema.

1. Quin es el cliente Tanto para optimizar y rentabilizar las interacciones con los clientes como para optimizar el rendimiento del sistema de CRM, es necesario poder distinguir entre clientes buenos y malos, rentables y no rentables. Para ello, es imprescindible conocer quines son y cmo se diferencian.

2. Qu promociones se ofrecieron al cliente Para saber si las inversiones en promociones son rentables, hay que tener presente qu se hizo para cada cliente. El departamento de marketing suele llevar a cabo muchas pequeas promociones y necesita poder diferenciarlas, para poder valorar cules funcionan y cules no.

3. Cmo reaccion el cliente a estas promociones Para juzgar el valor real del sistema hay que saber evaluar los resultados. Para ello, es imprescindible saber si el resultado de la promocin fue bueno o malo, informacin que puede utilizarse para mejorar el sistema en el futuro.

Esta manera de agrupar los datos no es casual. Por un lado, suele reflejar las diferencias entre distintos tipos de datos reales almacenados en una base de datos relacional; por otro lado, suele delimitar las distintas fuentes de datos. Adems, este enfoque permite asegurarse de que el sistema esta siendo abastecido con los tipos de datos necesarios para la herramienta de DM, cuyas conclusiones, a su vez, permiten llevar a cabo la optimizacin del sistema de CRM.

Figura 2 - Quin, qu y cmo - informacin suficiente para realizar DM

1.1. Datos Descriptivos

Los datos descriptivos proporcionan informacin sobre el consumidor o cliente. Suele ser algun tipo de datos resumidos. En una base de datos relacional pueden almacenarse en forma de columnas de una sola tabla. La descripcin del cliente no es un tipo de datos que cambie muy a menudo, dado que recoge parmetros como edad, sexo, domicilio, nmero de hijos, beneficios familiares e individuales. Esta informacin suele revisarse una vez al ao, aunque la direccin y el telfono puede actualizarse cada medio ao o, como mucho, cada 3 meses.

23

1.2. Datos Promocionales

Los datos promocionales incluyen informacin sobre las acciones emprendidas para cada cliente. La riqueza de este tipo de datos suele depender de la sofisticacin del sistema de CRM. Puede ser una simple lista de promociones realizadas para el cliente, por ejemplo, envo de catlogos, muestras gratuitas o vales. Puede ser una informacin menos precisa, como emisin de programas de televisin o anuncios televisivos directos que dan un nmero 900 o la direccin en Internet, publicidad en radio, peridicos y revistas. Tambin puede ser una informacin muy precisa e individualizada, como los e-mails enviados y las visitas de clientes a las pginas web sugeridas en estos (datos no annimos).

Resumiendo, se pueden obtener los siguientes tipos de informacin:

Tipo de promocin Ventas, marketing, publicidad impresa, en radio, en Internet.

Descripcin de la promocin Color de tarjeta postal, contenido del anuncio radiofnico.

Media Mercados por los que circula la publicidad, portales en Internet que muestran los banners.

Tiempo Fecha y quiz hora de la promocin.

Descripcin del intento Una breve descripcin del cliente para el que se concibi la promocin y las razones por las que se eligi la msica de fondo utilizada.

Financiero Coste fijo y variable de la promocin.

1.3. Datos Transaccionales

Los datos transaccionales engloban los datos referentes a una interaccin con el cliente. Pueden incluirlo todo, desde una llamada telefnica hasta una servicio de atencin al cliente, pasando por la descripcin de productos adquiridos por el cliente. Estos datos, al igual que los datos promocionales, cambian muy rpidamente. Por ello, se suelen almacenar en estructuras que permiten actualizar y cambiarlos con mucha facilidad. Es un tipo de informacin muy diferente de la descriptiva, en la que el tipo de datos almacenados no cambia casi nunca (ltimamente, se ha aadido el e-mail). La estructura de los datos transaccionales puede variar drsticamente en un corto perodo de tiempo, por ejemplo, la introduccin de nuevos productos para la venta y la baja de productos ms viejos que ya no se venden.

2. Recoleccin de Datos de Cliente

Los datos sobre el cliente pueden recogerse de diferentes fuentes. La divisin de datos en descriptivos, promocionales y transaccionales tiene su atractivo: este agrupamiento tambin refleja en cierto modo de dnde vienen los datos. Los datos descriptivos provienen normalmente de los mismos clientes (por ejemplo, su inters en adquirir un plan de jubilacin o el nmero de nietos que tienen) o de bases de datos adquiridas a grandes proveedores de datos, como Acxiom y otras. Estos datos pueden contener tanto informacin demogrfica, similar a la que proporciona el Instituto Nacional de Estadstica (INE), como datos sobre preferencias personales, procedentes de diferentes fuentes (tarjetas de garanta, suscripciones a revistas, etc.).

24

2.1. Fuentes Internas

Hay varias fuentes internas que pueden utilizarse para encontrar datos. Dado que el sistema de CRM es utilizado mayormente por el departamento de marketing, ser fcil obtener datos promocionales. A menudo, ser slo cuestin de recogerlos en algn proceso formal o de pedrselos directamente al responsable del envo de folletos o vales.

Una fuente interna ms suele ser la lista de clientes procedentes de algn otro proceso existente en la empresa. Obtener esta informacin puede resultar, a veces, mucho ms difcil de lo que parece. Esto se debe principalmente a dos razones:

Rivalidades internas Los datos pueden ser internamente propiedad de un departamento que, a lo mejor, no quiere compartirlos con el sistema de CRM (que, por lo dems, es ventajoso para toda la empresa). En un gran banco, la divisin de cuentas de ahorro puede ser reticente a compartir sus listas de clientes con la divisin de fondos de inversin del mismo banco. Esto se debe a que los responsables de la divisin de ahorro comprenden que cada cliente dispone de unos recursos limitados y el dinero invertido en un fondo suele salir de la cuenta de ahorro. Un departamento acceder a compartir la informacin sobre sus clientes con otro departamento de la misma empresa slo si es ventajoso para los dos. De lo contrario, har falta la orden directa del director general y aun as costara mucho.

Privacidad de datos Otra razn que puede dificultar el intercambio de datos sobre clientes est relacionada con la privacidad del cliente. Si el sistema de CRM operase en una empresa grande, seguramente dispondra de informacin sobre un mismo cliente obtenida por diferentes canales. Por regla general, los clientes no se preocupan si su informacin se mantiene en ciertos lmites y no se comparte entre una gran cantidad de gente. Pero si sienten que la informacin sobre ellos empieza a ir de manos en manos se sentirn incmodos. El problema de esta desconfianza se agrava por el poder de DM. Gracias al DM, los sistemas de CRM pueden extraer ciertos conocimientos sobre un individuo en un mercado y, a continuacin, proporcionar cierta informacin sobre el mismo cliente en otro mercado. Eso era algo del todo impensable hace algn tiempo.

Por ejemplo, un cliente no tendr nada en contra de que su tienda de CDs y libros le enve informacin sobre las ltimas novedades, basndose en sus adquisiciones e intereses. Pero este mismo cliente se sentir muy intranquilo si, de repente, recibe una oferta de suscripcin a una revista literaria procedente de una empresa que no conoce. La privacidad de cliente es un asunto de mxima importancia, no slo para el correcto funcionamiento de la herramienta de DM, sino para todo el sistema de CRM y bienestar total de la empresa.

2.2. Datos de Internet

Los datos relacionados con Internet cada da son ms y ms importantes para DM. Esto se debe a que cada da ms promociones y transacciones ocurren en Internet y porque Inernet, como un entorno totalmente digitalizado para llevar a cabo los negocios, elimina muchos problemas de recogida y almacenaje de informacin. Prcticamente, cualquier cosa que el cliente hace, salvo la parte de la pgina a la que mira, se captura en un fichero log.

Esto genera un rico sistema de informacin en el cual se puede medir cada decisin de compra y cada influencia en esta decisin. Todava no est claro cmo pueden utilizarse estos datos para realizar el DM. Se puede distinguir entre un cliente que compra y uno que no lo hace por la ruta (sucesin de pginas visitadas) que siguen por la tienda virtual? O sus verdaderas motivaciones no se pueden inferir a partir de los datos capturadas por el sitio web?

25

Por ejemplo, no es lo mismo un cliente que visita una tienda virtual de libros para ver si compra algo (indeciso) y un cliente que sabe perfectamente qu libro desea adquirir y slo est buscando el mejor precio (decidido). La ruta que sigue el cliente decidido a travs de la tienda virtual puede terminar en venta o no (acontecimiento transaccional), pero la ruta por s sla es irrelevante como causa de la adquisicin. Existe slo una pgina que realmente afecta a este acontecimiento - la pgina del precio. Por suerte, actualmente existen en el mercado muchas herramientas de anlisis de ficheros log que son capaces de minar estos ficheros y separar los acontecimientos realmente significativos de los que no lo son.

3. Conexin de Datos de Clientes

3.1. Almacenes de Datos

El almacen de datos (Data Warehouse, DW) es el sistema que conecta las distintas fuentes de informacin sobre clientes. El DW alberga en una sola base de datos los datos sobre todos los clientes, que son relevantes para la toma de decisiones. Suele ser un gran servidor de base de datos que es alimentado por sistemas transaccionales. Tcnicamente, se diferencian por la forma de almacenar los datos (estructura de estrella, un simple fichero de texto, etc.) y por la arquitectura de hardware utilizada (cuestiones crticas, dado el descomunal tamao de la base de datos). El DW ayuda a tomar decisiones de negocios basndose en los datos transaccionales que proporcionan una nica visin de la verdad.

Quiz la mayor aportacin de un DW sea la identificacin del cliente, aunque sea simplemente asignndole un nmero de identificacin exclusivo a cada cliente. Parece algo obvio, pero puede ser muy difcil de conseguir, dado que la empresa tiene muchos puntos de contacto con los clientes y distintos clientes pueden llegar por diferentes vas, por ejemplo, a travs de fusiones o adquisiciones corporativas.

En realidad, el DW ser una de tantas fuentes de datos que utilice la herramienta de DM para el sistema de CRM. Esto se debe a que el almacn de datos, siendo tan grande y monoltico, no puede cambiar con rapidez. Mientras que los datos transaccionales y promocionales tienen adaptarse a la velocidad del mercado y de la competencia. Por esta razn, las necesidades de apoyo a la toma de decisiones y los datos disponibles el DW siempre estarn desfasados. El DW es imprescindible, pero quiz sea mejor pensar en l como en un proceso de mantenimiento de una sola versin de la verdad para cada cliente. As, algunas partes del DW sern estticas y otras dinmicas; no se puede almacenarlo todo dentro de una estructura monoltica y actualizarla constantemente.

3.2. Conectores de Datos

Una estructura que permite implantar este enfoque dinmico del DW incluye los conectores, que son aplicaciones de software que aglutinan todo el sistema, conectando fuentes de datos incompatibles para que puedan utilizarse por la herramienta de DM y el sistema de CRM. Estas aplicaciones proporcionan capas de abstraccin entre la forma en la que los datos existen (que nunca es perfecta) y la forma en la que tienen que estar para ser utilizado en el DM y el CRM. Estas capas de abstraccin flexibilizan el sistema y le permiten hacer lo siguiente:

26

Incorporar nuevas y cambiantes fuentes de datos. Adaptarse para incorporar nuevos datos y estructuras de datos en el formato en el que

se recogen en origen, en vez de esperar a que el formato de recogida se adapte a las estructuras del DW.

Realizar de forma consistente tanto el traslado como el procesamiento de los datos, de manera reproducible y con posibilidad de validacin.

Crear una optimizada estructura de datos para apoyar DM y CRM sin forzar estas restricciones de diseo en otras fuentes de datos dentro de la empresa.

Esto supone, por ejemplo, que el diseo del DW puede sufrir modificaciones espectaculares mientras la estructura de datos del sistema de CRM permanece invariable. Tambin, que las estructuras de datos que utiliza el sistema de CRM pueden estar altamente optimizados sin tener que cumplir las exigencias de otras partes de la empresa.

Estos conectores pueden ser unas simples lneas de cdigo SQL que transforman y trasladan los datos entre bases de datos o enteras aplicaciones de software suministradas por terceros. Todo sistema de CRM con DM tiene que incorporar conectores (ver Figura 3) para desconectar los cambios en el origen de datos de los cambios en las exigencias del sistema de CRM.

Figura 3 - Un sistema de CRM con conectores de datos

3.3. Conexiones Remotas de Datos

La tecnologa de hoy tambin permite desarrollar estos conectores de bases de datos fsicamente a travs de largas distancias. Por ejemplo, puede surgir la necesidad de interconectar no slo las fuentes de datos de una misma empresa, sino tambin las fuentes de datos de la empresa con las de sus vendedores o socios. Hoy da, esto se puede hacer utilizando la tecnologa de transferencia segura por Internet, sin necesidad de construir redes propias de transferencia de datos o usar el viejo y poco eficaz proceso manual de transferencia que, a posteriori, requiere un control de calidad adicional.

Las tecnologas de red privada virtual (Virtual Private Network, VPN) proporcionan una extensin virtual segura de la propia red de la empresa, usando

27

tecnologas de codificacin sobre los protocolos de Internet. Estos sistemas utilizan conexiones de gran ancho de banda como lneas T1 o, en caso de necesitar una mayor seguridad, lneas dedicadas punto a punto como Frame Relay (por supuesto, ms caras). En todo caso, hay muchas opciones y formas de hacerlo en comparacin con hace diez aos, cuando enviar cintas por la noche era la forma aceptable de transferir los datos. Hoy en da, los datos pueden transferirse sin prdida alguna de una base de datos a otra a travs de paises y empresas, y estar disponible a todos los efectos como si estuvieran dentro de la base de datos local.

Los conectores de base de datos de larga distancia permiten:

Interconectar muchas bases de datos de una manera coordinada. Transferir los datos de una base de datos a otra, evitando los errores de volcado,

almacenaje y transformacin de datos propios de un soporte extraible (disquetes, cintas, CDs, etc). Incorporar rpidamente los cambios en datos o necesidades de datos que surgen a

causa de cambios de ltima hora en planes de marketing o pblico objetivo de una promocin particular.

La prxima semana, la segunda y ltima entrega del artculo Recoleccin de Datos de Clientes, llamada Seguridad y Privacidad de Datos.

Sinopsis del artculo

En este captulo, el tercero de la serie de cuatro, el autor expone una metodologa para exponer la compra de productos en tiempo real a travs de Internet. A continuacin, se exponen una serie de ideas interesantes para que el vendedor electrnico al por menor pueda realizar de modo ms racional y eficaz la organizacin de su "escaparate" (oferta de productos).

7. Compra en Tiempo Real

Cada vez ms navegantes compran por Internet. A pesar de que la seguridad sigue siendo el principal obstculo para comprar por Internet, esta consideracin no consigue detener el avance del comercio electrnico o frenar el crecimiento de las ventas por Internet. Para los que s compran por Internet, los beneficios, como por ejemplo no tener que ir a la tienda y soportar largas colas en la caja, compensan los problemas de privacidad y seguridad. ltimamente, est surgiendo con fuerza un nuevo modelo de negocio: las subastas on-line. Las estimulantes pujas on-line y la posibilidad de acceder a precios ms bajos y encontrar verdaderas gangas estn propulsando este modelo de venta on-line.

Otro modelo de negocio, la archiconocida venta directa al pblico de pequeos productos como libros y msica, se est consolidando en Internet (vase: Amazon.com, Bol, etc). Los vendedores online continan intentando resolver las cuestiones de seguridad, dado que los consumidores que todava no han hecho ninguna compra por Internet afirman que su principal razn es la reticencia de dar el nmero de su tarjeta de crdito. De todas formas, los consumidores empiezan a darse cuenta de las ventajas del comercio electrnico, es decir, de que cualquier producto est disponible en todas partes.

El intervalo entre el deseo y la compra se est reduciendo. Las barreras artificiales desaparecen y surge la intrigante posibilidad de comprar el producto que uno desea en cualquier momento y en cualquier lugar. Las barreras fsicas y

28

mentales, que se interponen entre el impulso de compra y la compra misma en el comercio tradicional, no existen en Internet. Hoy en da el consumidor puede localizar el producto deseado, hacer click en el botn de comprar y el producto le ser entregado en su casa en un plazo que va desde un par de das hasta una hora! (ver Figura 7). Las distintas etapas de compraventa: marketing, venta y entrega, se mezclan en una sola transaccin electrnica, que es registrada y almacenada para ser analizada con herramientas del DM.

Figura 7 - Tus compras en una hora por Terra y Telepizza

Una original joint venture al 50% entre Terra (socio tecnolgico) y TelePizza (socio logstico) que entrega cualquier producto de su catlogo en el domicilio del cliente en el plazo de una hora. La entrada intimida un poco, pero luego es bastante llevadero :-)

7.1. Herramientas

Existen varias herramientas, que permiten saludar a los clientes fieles con un mensaje u oferta personalizados, como son: ficheros log, cookies del servidor y del cliente y formularios de registro. Estos datos pueden enriquecerse con bases de datos demogrficos y de cabeza de familia, o mediante el uso de software colaborativo y enlaces con datos de otros websites. Por supuesto, para obtener el mximo provecho de toda esta informacin sobre el consumidor, se hace imprescindible el uso de potentes herramientas de reconocimiento de patrones, que permiten al vendedor conocer individualmente a sus clientes.

Cuanto ms personalizado est el website, ms productos y servicios distintos podr vender. Por ejemplo, un banco puede analizar los datos de su website y de su datawarehouse, y descubrir una correlacin entre clientes adinerados y pginas especificas con productos tales como servicios de inversin y otros tipos de cuentas bancarias. Este anlisis tambin puede revelar una tasa clickthrough superior a la media para ciertos anuncios con mensajes tipo "Haga que su dinero trabaje por usted". El anlisis del comportamiento actual y reciente de los visitantes, es decir, de los contenidos que los visitantes buscan y los contenidos que ponen en sus e-mails y formularios de registro, permite hacer ms ajustes en el website. Por ejemplo, utilizan los visitantes algunas palabras clave que indican su inters por inversin, tales como fondos de inversin, fondos de pensiones, letras del tesoro, etc.? El diseador del website de este banco podra proporcionar informacin acerca de planes de pensiones y inversiones, intentando cubrir los intereses especficos de sus clientes.

El anlisis de este tipo de informacin con herramientas de DM ayudar a seleccionar apropiadamente el anuncio, el producto, la oferta, la seccin, el incentivo, el banner, las palabras, etc. Por ejemplo, un anlisis con una herramienta de DM que incorpora un algoritmo de generacin de reglas puede descubrir el siguiente patrn:

29

Figura 8 - Una regla ejemplo

IF palabraclave camping OR palabraclave montaa AND edad 42 AND codigopostal 28016 AND sexo hombre THEN Accesorios vehculos deportivos - 89% Accesorios vehculos familiares - 11%

El anlisis demogrfico de este cdigo postal revela tres tipos de clientes en esta zona:

52,14% son parejas casadas con muy altos ingresos, edad de 40 a 54 aos, con uno o dos hijos, que poseen esqus de nieve, coleccionan monedas, comen fuera de casa, hacen aerbic, votan en las elecciones, leen libros. Tienden a comprar bebidas de importacin, vehculos deportivos/todoterreno, aparatos de gimnasia domsticos, utilizan servicio de copistera y hacen compras por telfono, correo e Internet. Son empresarios, utilizan tarjetas de crdito, tienen seguros de vida, IRAs, son miembros de clubes exclusivos, viven en barrios residenciales de alto standing.

20,67% son parejas casadas con muy altos ingresos, edad de 40 a 54 aos, con dos o ms hijos, que van al cine, zoolgicos, a nadar a la piscina y a la playa, se comprometen con ayudas a fundaciones, y comen en restaurantes de comida rpida, gastan mucho dinero en buenos muebles, en equipamiento de tenis, videojuegos, juguetes, joyas y coches. Tienen fondos de inversin, cuentas de ahorro, seguros de crdito, seguros de vida conjunto y trabajo relacionado con la banca. Leen revistas de negocios, ordenadores y deportes; escuchan emisoras de radio de tendencias centristas, ven los partidos de ftbol del campeonato nacional.

19,64% son parejas casadas con muy altos ingresos, edad de 25 a 54 aos, sin hijos, reciclan productos, llaman a emisoras de radio, hacen fundraising, apoyan causas medioambientales y levantan pesas. Tambin encargan flores por telfono, regalan tarjetas de felicitacin, usan lentes de contacto blandas, utilizan ordenadores porttiles, consumen cerveza sin alcohol. Tienen cuentas de inters fijo, tarjetas visa, seguros de accidentes, consultan a asesores financieros. Leen revistas de consumidores, diarios financieros y escuchan emisoras del tipo 40 Principales.

Una vez determinados los parmetros demogrficos de este cdigo postal, se puede plantear qu otros anuncios y banners deberan mostrarse al visitante. Estos consumidores seguramente estarn interesados en productos financieros como ofertas de viajes y suministros de empresa, tambin equipamiento deportivo y juguetes. La eleccin de todos estos anuncios y banners se basara en la combinacin de palabras clave, edad y otra informacin disponible para el analista de Internet. Informacin tanto de fuentes externas como de ficheros internos de consumidores y el propio datawarehouse de la empresa.

7.2. Servicio al cliente

El DM tambin puede utilizarse para proporcionar un servicio post-venta, que asegure que los consumidores estn satisfechos y se conviertan en clientes fieles a largo plazo. Un fabricante puede utilizar la tecnologa de IA (Inteligencia Artificial) llamada CBR (Razonamiento Basado en Casos) para organizar un SAC (Servicio de Atencin al Cliente) que resuelva los problemas que los consumidores puedan encontrarse al utilizar sus productos. La idea fundamental del CBR es realmente sencilla: adaptar las soluciones que han sido utilizadas para resolver viejos problemas a los nuevos problemas.

El motor de una herramienta de CBR busca en su base de datos aquellas respuestas que hayan solucionado problemas similares al planteado, y adaptan las soluciones previas hasta ajustarlas al problema nuevo, teniendo en cuenta todas las diferencias entre la situacin nueva y las anteriores. La bsqueda de casos relevantes,

30

como la recepcin de billetes problemticos, supone una caracterizacin del problema nuevo mediante la asignacin al mismo de atributos apropiados, recuperacin de la base de datos de casos con estos atributos y seleccin de casos que mejor se ajustan al nuevo problema. El motor de CBR es un sistema de aprendizaje, que utiliza la experiencia para adaptar su comportamiento a las necesidades de una situacin o usuario particular. El comportamiento de un sistema as, por ejemplo, un SAC, no tiene que definirse en todo detalle de antemano por el programador.

Un sistema de CBR puede ser entrenado mediante la presentacin de ejemplos de adaptacin a casos particulares que son esenciales para esa implantacin en particular. La idea es que, siendo un sistema de aprendizaje, un motor de CBR, es mucho ms flexible y puede reaccionar dinmicamente ante los problemas cambiantes. Cada nueva solucin que se aade a la base de datos del motor de CBR es gradualmente comprendida por el mismo. As, por ejemplo, si los clientes se han encontrado con un problema con una impresora X que acaban de comprar, una vez que el sistema consiga solucionar dicho problema, aadir una sesin "problemas con la impresora X" a su base de datos. Las figuras de 9 a 11 muestran como un motor de CBR pregunta a los visitantes sobre los sntomas del problema, con el fin de delimitar las posibles soluciones.

CBR es una tecnologa que proporciona unas amplias capacidades de gestin del conocimiento, junto con una interaccin intuitiva en forma de dilogo. Permite a los consumidores resolver problemas tcnicos como si estuvieran hablando con un experto. La tecnologa proporciona soluciones para el cuidado postventa del consumidor, y puede proporcionar una significativa reduccin de costes en el SAC e incremento de la satisfaccin del consumidor. Este tipo de SAC automatizado puede incrementar la fidelidad del cliente.

El motor de CBR proporciona algunos beneficios extra, puesto que permite descubrir problemas con los productos y servicios en venta que han pasado desapercibidos para los desarrolladores. Los problemas reiterativos que el motor de CBR tiene que resolver una y otra vez, pueden incorporarse como mejoras al producto. El CBR puede conducir a una mejora gradual del producto.

Cuando un motor de CBR no encuentra la solucin a un problema, archiva este problema a su base de datos, permitiendo mejorar gradualmente su capacidad de respuesta, al igual que otras tecnologas de DM. Esto permite construir en Internet una base de datos de respuestas a problemas comunes y, gradualmente, ir perfeccionando el SAC online.

Figura 9 - La seccin SAC del website proporciona a los consumidores una atencin automatizada

31

Figura 10 - Los problemas comunes se resuelven rpida y econmicamente

Figura 11 - El sistema de CBR aprende los problemas y soluciones comunes

8. Organizacin del escaparate

La estrategia de comercio electrnico tiene que incluir una clara visin de los planes de la empresa respecto a la entrada en y la utilizacin del mercado electrnico, dado que el canal electrnico est destinado a convertirse en el principal vehculo del negocio en el futuro, la empresa tiene que aprender a atraer y retener a sus consumidores. Para ello, la empresa tiene que realizar las siguientes actuaciones:

Planificar cmo se procesarn los pedidos y los pagos, de qu manera se distribuirn los productos y servicios y cmo se van a atender a los clientes, proveedores y socios en este nuevo entorno de negocio.

Considerar las transformaciones necesarias en los procesos internos de negocio, para que se adapten a las exigencias impuestas por los nuevos tipos de interacciones electrnicas.

Prever por adelantado (al igual que para datamart y datawarehouse) el tipo de herramienta de apoyo a decisiones que se va a utilizar para analizar los datos y para qu productos finales y procesos.

32

La empresa tiene que plantear y desarrollar una estrategia para hacer negocios en este nuevo mercado virtual. Para ello, tiene que plantear y responder a las siguientes preguntas:

Cmo influir el comercio electrnico en su sector industrial, en sus relaciones con los distribuidores, socios y clientes, y finalmente en el negocio?

Qu oportunidades de negocio crea el comercio electrnico en su sector de mercado? Hay que considerar cmo su empresa puede beneficiarse de un nuevo acceso electrnico a los actuales y nuevos productos y proveedores?

Qu distribuidores y otros intermediarios pueden eliminarse por la accin del comercio electrnico?

Cmo se va a llevar la venta por Internet, cmo se van a organizar los productos en la base de datos para un rpido acceso por los visitantes, dnde se va a posicionar el carrito de la compra, cmo se van a procesar los pagos, y cmo se va a facilitar la venta de uno a uno?

y, finalmente, en relacin con todo lo anterior:

Cmo se va a capturar la informacin sobre los visitantes para formar una fuerte relacin con ellos, y proporcionarles una grata experiencia para cuando regresen?

Para establecer unas relaciones ms estrechas, conviene ofrecer incentivos especiales a los visitantes online. Hay que ofrecerles los ltimos productos o servicios desarrollados, o algn otro nico mtodo de favorecer a los visitantes que no pueda repetirse por otros canales de venta. Hasta qu punto est preparada la empresa para procesar y analizar ms y ms clientes segn va migrando hacia la venta electrnica? Se est prepanrado la empresa para enlazar el website con las otras bases de datos de la empresa, como fichero de informacin de clientes y datawarehouse? Hay que considerar qu beneficios va a proporcionar este enlace.

Si la empresa ya dispone de una base de datos, un CAT (Centro de Atencin Telefnica), un sistema de procesamiento automatizado de pedidos, un sistema de contabilidad, o algn otro sistema, habra que estudiar la viabilidad de integracin de dicho sistema con el website. Por ejemplo, si la empresa ya se ha decidido por una base de datos de IBM, ORACLE o MICROSOFT para esas operaciones, sera interesante considerar los productos de venta online de esos fabricantes para facilitar la integracin del website. Habra que asegurarse que la base de datos que se va a implementar para la tienda virtual sea compatible con la base de datos o datawarehouse de la empresa. Previamente, sera aconsejable discutir con el administrador de la base de datos de la empresa los pros y los contras econmicos de la compatibilidad y de la implantacin de un enlace en caso de una base de datos no compatible. Tambin habra que discutir acerca de los procedimientos de apoyo a decisiones existentes, como datamarts y base de datos de clientes.

Cmo va a afectar la entrada en el comercio electrnico a la naturaleza de los productos y servicios de la empresa? Al igual que se monitorizan las campaas de marketing en el mercado tradicional, habra que planificar cmo se va a medir la eficacia de la tienda virtual. La empresa tiene que estar preparada para minar sus datos online del mismo modo que lo hace con sus datos offline. Si la empresa no est minando o no tiene la intencin de minar los datos de su website, perder tiempo y dinero, especialmente si se dedica a la venta directa por Internet. En este canal de venta, los anuncios, banners, ofertas, incentivos y otras artimaas de marketing proporcionan una retroalimentacin instantnea en formato digitalizado, que puede ser minado directamente, lo que no es posible con otros medios como correo, radio o

33

televisin. Finalmente, habra que considerar cmo la empresa piensa gestionar y medir la evolucin de su estrategia en el comercio electrnico.

8.1. ICS de Microsoft

Microsoft est integrando la tecnologa de DM en su software de servidor de comercio electrnico. Microsoft's Site Server 3.0 Commerce edition, con el componente llamado ICS (Inteligence Cross-Sell - Venta Cruzada Inteligente). ICS incorpora un algoritmo de DM que permite analizar la actividad de los compradores en el website y adaptarlo automticamente a sus preferencias. Es la primera vez que Microsoft convierte el DM en una caracterstica estndar de uno de sus productos. El ICS observa los patrones de los visitantes y utiliza esta informacin para optimizar el website y reorganizar la apariencia de la tienda virtual para servir mejor al consumidor.

El ICS se basa en los carritos de compra de las ventas realizadas, las pautas de navegacin de los consumidores y el contenido de los carritos de compra actuales.

El ICS se ha diseado para intentar predecir el orden de preferencia de los productos en la tienda virtual que mejor se adapta a los gustos que manifiestan los compradores. Se instala mediante un asistente en el NT Site Server. Para hacer que los consumidores online vuelvan una y otra vez, Site Server ofrece posibilidades de personalizacin y promocin que permiten a las empresas crear campaas publicitarias y promociones de acuerdo a las preferencias y patrones de consumidores registrados.

34

ANEXO 2

La Tecnologa Grid, nueva herramienta contra el fraude Fecha: Sbado, 21 de septiembre a las 02:18:55 Tema Computacin distribuida

Juan llega a su casa despus de una tranquila jornada de trabajo. Mientras abre la puerta negra metalizada y deja la chaqueta en el colgador, justo a la izquierda, se fija que Ana y los nios todava no han llegado. Camina hacia la nevera, ojea su interior y se decide por una Heineken que queda escondida detrs de una gran cazuela. Apoya los pies sobre la mesita del comedor y cuando la botella verde traslucido alcanza su posicin horizontal, alcanza a ver la correspondencia del da todava sin abrir. Entre facturas y publicidad varia, como cada mes, tambin esta ah el extracto de su tarjeta Visa. Lo abre, busca rpidamente la suma final y de repente sus pulsaciones se disparan. Repasa de forma precipitada el listado y ah esta. Juan nunca ha puesto los pies en un Casino, pero alguien ha utilizado su tarjeta de crdito en uno situado a mas de 300 Kilmetros de donde l vive, gastando grandes cantidades de dinero. contina... Es solo un ejemplo del fraude al que todos estamos expuestos y que desgraciadamente cada vez resulta ms normal. El fraude est convirtindose en una plaga que cuesta cientos de millones de Euros al ao tanto a particulares como a empresas. Varios son los casos que han salido a la luz en los ltimos tiempos creando un clima de desconfianza, del que no se salvan ni las grandes empresas ni la administracin. Esto es especialmente grave en EEUU, dnde el problema es enorme en su Sistema Sanitario, ya que segn la Oficina General Contable de EEUU, se reciben un 10 % de transacciones que incluyen algn tipo de fraude (cobro por servicios no prestados, importes adulterados, etc). En el mundo del comercio virtual, dnde los usuarios se sienten an ms desprotegidos ante la falta de una estandarizacin de mecanismos eficientes de seguridad, la incertidumbre es an mayor. Es lgico el recelo existente antes de dar el nmero de una tarjeta de crdito para una compra on-line y seguramente ste es el mayor escollo que el comercio electrnico est encontrando antes de su definitiva implantacin en nuestras vidas. Y lo peor es que las dudas estn justificadas: existen informes que indican que el fraude en transacciones electrnicas afecta al 1% de las mismas, 10 veces ms que en el mundo fsico (en el que Visa tiene estimado en un 0.06 %). Las prdidas producidas por estas acciones afectan no slo a las compaas de las tarjetas de crdito sino tambin a los bancos que las emiten y a los comercios que las aceptan. As las cosas, parece que se est volviendo mucho ms fcil cometer una fechora en la nueva economa de Internet de lo que haba sido anteriormente. Ahora el delincuente puede cometer los delitos desde su casa, sin necesidad de aparecer fsicamente en el lugar del crimen, que en este caso no es otro que la red. El dinero, nuestras cuentas corrientes e incluso nuestro yo virtual, no es algo fsico, sino bits de informacin. Tambin lo debern ser los mecanismos de seguridad que se diseen para contrarrestarlos. Actualmente los criminales dedican mucho ms tiempo a encontrar nuevas maneras de romper los sistemas de seguridad que las empresas a encontrar mecanismos para protegerse y es evidente que esto se debe cambiar. Por ello es imprescindible que las empresas dediquen suficientes recursos para poner en funcionamiento mecanismos de proteccin. Afortunadamente la solucin existe y se llama Data Mining. Segn Ralph Kimball, co-autor del libro The Data Webhouse Toolkit: building the Web-enabled Data Warehouse la identificacin de fraude es una de las aplicaciones ms interesantes de estas tcnicas. El Data Mining combina tcnicas de anlisis de datos con tecnologas de alta eficiencia para obtener un conocimiento que las empresas pueden utilizar para descubrir datos ocultos en la informacin

35

almacenada en los grandes s

Tema 6 Data mining.pdf

Documents

Transcript of Tema 6 Data mining.pdf