Camargo 11

download Camargo 11

of 8

description

mineria de datos

Transcript of Camargo 11

  • 11

    Rev. Tecnol. Journal of Technology Volumen 9 No. 1

    RESUMEN

    Este documento discute los resultados de la investigacinanaltica sobre los dos caminos comnmente usados en labsqueda de la mejor gua disponible para lograr llevar acabo un proyecto de minera de datos. Estas dospropuestas son SEMMA (Sample, Explore, Modify, Model,Asses) y CRISP (Cross Industry Standard Process for DataMining). Son las ms aceptadas en la comunidad dedesarrolladores de proyectos de Minera de Datos.

    ndice de Trminos: ndice de Trminos: ndice de Trminos: ndice de Trminos: ndice de Trminos: CRISP, KDD, Inteligencia deNegocios, Minera de datos, SEMMA.

    Dos caminos en la bsqueda de patronespor medio de Minera de Datos: SEMMA yCRISPTwo paths in search of patterns through DataMining: SEMMA and CRISPHernando Camargo1, Mario Silva2.

    1 Universidad El Bosque2 Vehculos del camino Concesionario Mazda

    ABSTRACT

    This paper discusses results of the analytical research ontwo ways commonly used in the search for the best guideavailable to carry out a data mining project. The twoproposals are SEMMA (Sample, Explore, Modify, Model,Asses) and CRISP (Cross Industry Standard Process forData Mining). They are the most widely accepted in thecommunity of developers of data mining projects.

    Index TIndex TIndex TIndex TIndex Terms:erms:erms:erms:erms: CRISP, KDD, Business Intelligence, DataMining, SEMMA

  • 12

    I. INTRODUCCIN

    Un proyecto, sea el que sea, para que pueda lograr elxito en los resultados, debe plantear su camino en unconcepto llamado metodologa. Esta no es la excepcinen el caso de los proyectos de minera de datos.

    Cuando se tiene una gran cantidad de datos estos debenser contenidos en grandes almacenes informticos(bodegas de datos) que estn diseados para contenerenormes cantidades de informacin. Su diseo est, entremuchas otras variables, enfocado a satisfacer una inversina corto plazo pero de larga duracin [1]. En esta grancantidad de informacin la apreciacin visual deja de sersuficiente para analizar todos los datos. Para lograr unresultado que sea interesante para la organizacinpropietaria de la informacin, se deben aplicar tcnicas ymtodos estadsticos, de modo que sea ms fcil apreciarpatrones ocultos en estos datos.

    Debido a que este tipo de anlisis apenas empieza a serinteresante en las organizaciones, la alternativa comnmenteusada para hacer estos estudios es ingresar los datos en lasherramientas disponibles como WEKA (Universidad deWaikato) [2] o Business Intelligence Development Studio(Microsoft) [3], entre otros. Sin embargo, si no se cuentacon una gua que le indique al analista cules pasos debeseguir para obtener un resultado que genere conocimiento,la tarea de ingresar datos en una herramienta informticano tendra mucho sentido. Se debe usar una metodologaque muestre ese camino (no necesariamente la meta).

    Al buscar el mejor camino para resolver este problema,salen a la luz dos metodologas, CRISP y SEMMA. Las dospermiten tomar la informacin, aplicar mtodosestadsticos y lograr un resultado. Pero cul de estas doses mejor, o por lo menos cual es ms conveniente paraaplicar en un proyecto de minera de datos?

    Para visualizar una respuesta a esta inquietud se empiezapor iniciar el entendimiento sobre lo que se busca en unproyecto de minera de datos.

    II. MINERA DE DATOS

    La minera de datos se define como el proceso deexploracin y anlisis, por medios automticos osemiautomticos, de grandes volmenes de informacincon el objetivo de descubrir e identificar patrones y reglassignificativas [4].

    La minera de datos, en un primer acercamiento, aparentaser un tema ya conocido y nada novedoso porimplementar tecnologas ya conocidas en las reas de laProbabilidad y la Estadstica, sin embargo se le reconoceun nuevo potencial: el valor que le asigna a la cantidad dedatos almacenados en los garajes informticos de lasempresas en general. Mediante este esquema los datospasan de ser un producto para convertirse en materiaprima por explotar. Las nuevas necesidades y caractersticasde los datos en volumen y tipologa hacen que las disciplinasque integran y aprovechan la minera de datos seannumerosas y heterogneas.

    El objetivo principal de la minera de datos es el de analizarlos datos para extraer conocimiento, este puedeencontrarse en forma de relaciones, patrones o reglas,que precisamente sern inferidas de los datos, o bien enforma de una descripcin mas concisa.

    Los modelos pueden ser de dos tipos: Predictivos yDescriptivos [5].

    Los modelos predictivos pretenden estimar valores futuroso desconocidos de variables de inters, que se denominanvariables objetivo o dependientes, usando otras variableso campos de las bases de datos que se denominan variablesindependientes o predictivas. Como ejemplo, un modelopredictivo sera aquel que permite estimar la demanda deun nuevo producto en funcin del gasto en publicidad.

    Los modelos descriptivos identifican patrones que explicano resumen los datos, sirven para explorar las propiedadesde los datos examinados, no para predecir nuevos datos.Como ejemplo, una agencia de viajes puede estarinteresada en identificar grupos de personas con unosmismos gustos, con el objeto de organizar diferentesofertas para cada grupo y poder remitirles informacinrelacionada; para ello analiza los viajes que han realizadosus clientes e infiere un modelo descriptivo que caracterizaestos grupos.

    La minera de datos tiene una serie de tareas que puedeninterpretarse como un tipo de problema a ser resueltopor un algoritmo de minera de datos. Esto significa quecada tarea tiene sus propios requisitos, y que el tipo deinformacin obtenida con una tarea puede diferir muchode la obtenida con otra.

    La clasificacin es la tarea ms utilizada. En esta tarea cadainstancia o registro de la base de datos pertenece a unaclase, la cual se indica mediante el valor de un atributo

    Ingeniera de Sistemas Dos caminos en la bsqueda de patrones por medio de Minera de Datos: SEMMA y CRISPTwo paths in search of patterns through Data Mining: SEMMA and CRISP

  • 13

    Rev. Tecnol. Journal of Technology Volumen 9 No. 1

    que se llama clase de la instancia. Este atributo puede tomardiferentes valores discretos, cada uno de los cualescorresponde a una clase. El resto de los atributos de lainstancia (los relevantes a la clase) se utilizan para predecirla clase. El objetivo es predecir la clase de nuevas instanciasde las que se desconoce la clase. En otras palabras, elobjetivo del algoritmo es maximizar la razn de precisinde la clasificacin de las nuevas instancias la cual se calculacomo el cociente entre las predicciones correctas y elnmero total de las predicciones.

    Como ejemplo se puede considerar un oftalmlogo quedesea disponer de un sistema que le sirva para determinarla conveniencia o no de recomendar la ciruga ocular parasus pacientes. Para ello dispone de una base de datos desus antiguos pacientes clasificados en operadossatisfactoriamente y operados no satisfactoriamente enfuncin del tipo de problema que padecan y de su edad. Elmodelo encontrado se utiliza para clasificar nuevos pacientes,es decir, para decidir si es conveniente operarlos o no.

    La regresin es otra tarea, del orden predictivo, queconsiste en aprender una funcin real que asigna a cadainstancia un valor real. Esta es la principal diferenciarespecto a la clasificacin, el valor a predecir es numrico.El objetivo en este caso es minimizar el error(generalmente el error cuadrtico medio) entre el valorpredicho y el valor real.

    A manera de ejemplo, un empresario quiere conocer cules el costo de un nuevo contrato basndose en los datoscorrespondientes a contratos anteriores. Para ello usa unafrmula de regresin lineal, ajustando con los datos pasadosla funcin lineal y usndola para predecir el costo en elfuturo.

    El agrupamiento es la tarea descriptiva por excelencia yconsiste en obtener grupos naturales a partir de los datos.En este caso se habla de grupos y no de clases, porque adiferencia de la clasificacin, en lugar de analizar datosetiquetados con una clase, los analiza para generar estaetiqueta.

    Por ejemplo, una librera que ofrece sus servicios a travsde la red usa el agrupamiento para identificar grupos declientes con base en sus preferencias de compras que lepermita dar un servicio ms personalizado. As, cada vezque un cliente se interesa por un libro, el sistema identificaa qu grupo pertenece y le recomienda otros libroscomprados por clientes de su mismo grupo.

    Las correlaciones son una tarea descriptiva, que se usapara examinar el grado de similitud de los valores de dosvariables numricas. Una formula estndar para medir lacorrelacin lineal es el coeficiente de correlacin r, el cuales un valor comprendido entre -1 y 1. Si r es 1(respectivamente, -1) las variables estn perfectamentecorrelacionadas (perfectamente correlacionadasnegativamente), mientras que si su valor es 0 no haycorrelacin. Esto quiere decir que cuando r es positivo,las variables tienen un comportamiento similar, mientrasque cuando r es negativo, si una variable crece, la otradecrece.

    Como ejemplo de las correlaciones, un inspector deincendios que desea obtener informacin til para laprevencin de ellos, probablemente est interesado enconocer correlaciones negativas entre el empleo dedistintos grosores de proteccin de material elctrico y lafrecuencia de ocurrencia de incendios.

    Las reglas de asociacin son tambin tareas descriptivassimilares a las correlaciones, que tienen como objetoidentificar relaciones no explcitas entre atributoscategricos. Pueden ser de muchas formas aunque laformulacin ms comn es del estilo si el atributo X tomael valor d entonces el atribuyo Y toma el valor b. Lasreglas de asociacin no implican una relacin causa-efecto,es decir, puede no existir una causa para que los datosestn asociados.

    Como ilustracin, una compaa de asistencia sanitariadesea analizar las peticiones de servicios mdicos solicitadospor sus asegurados. Cada peticin contiene informacinsobre las pruebas mdicas que fueron realizadas al pacientedurante una visita. Toda esta informacin se almacena enuna base de datos en la que cada peticin es un registrocuyos atributos expresan si se realiza o no cada una de lasposibles pruebas mdicas que pueden ser realizadas a unpaciente. Mediante reglas de asociacin, un sistemaencontrara aquellas pruebas mdicas que frecuentementese realizan juntas, por ejemplo que un 70 por ciento delas veces que se pide un anlisis de orina tambin se solicitauno de sangre, y esto ocurre en dos de cada diez pacientes.La precisin de esta regla es del 70 por ciento y el soportedel 20 por ciento.

    Como caso especial de estas reglas de asociacin seencuentran las reglas de asociacin secuencial, las cualesse usan para determinar patrones secuenciales en los datos.Estos patrones se basan en secuencias temporales de

  • 14

    acciones y difieren de las reglas de asociacin en que lasrelaciones entre los datos se basan en el tiempo.

    Para mostrar esta tarea, asumamos que una tienda de ventade electrodomsticos y equipos de audio analiza las ventasque ha efectuado usando anlisis secuencial y descubreque el 30 por ciento de los clientes que compraron untelevisor hace seis meses compraron un DVD en lossiguientes dos meses.

    Sin embargo, la minera de datos es solamente una etapade lo que se ha venido llamando el proceso de extraccinde conocimiento a partir de datos. Este proceso se conocecomo KDD.

    III. KDD

    Se define la KDD o Knowledge Discovery in Databasescomo el proceso no trivial de identificar patrones vlidos,novedosos potencialmente tiles y, en ltima instancia,comprensibles a partir de los datos [6].

    La KDD es un trmino que se confunde muy comnmentecon la minera de datos. Como se puede apreciar en laFig. 1, de manera correcta la KDD es un proceso queconsta de una serie de fases [5], mientras que la minerade datos es solo una de esas fases.

    Fig 1. Proceso de KDDFigura 5. Proceso de KDD

    Del conocimiento extrado se desean las siguientespropiedades [5]:

    Vlido: Hace referencia a que los patrones debenseguir siendo precisos para los datos nuevos (conun cierto grado de incertidumbre), y no slo paraaquellos que han sido usados en su obtencin.

    Novedoso: Que aporte algo desconocido tantopara el sistema y preferiblemente para el usuario.

    Potencialmente til: la informacin debe conducira acciones que reporten algn tipo de beneficio parael usuario.

    Comprensible: La extraccin de patrones nocomprensibles dif iculta o imposibil ita suinterpretacin, revisin, validacin y uso en la toma

    de decisiones. De hecho, una informacinincomprensible no proporciona conocimiento (almenos desde el punto de vista de su utilidad).

    El KDD involucra un proceso iterativo e interactivo [7] debsqueda de modelos, patrones o parmetros. Sus metasson procesar grandes cantidades de datos, identificar lospatrones ms significativos y relevantes, y presentarloscomo conocimiento para satisfacer los objetivos delusuario.

    El proceso ya empieza a definir, para alguien que no seencuentra completamente familiarizado con el tema, cmodebera ser el camino para realizar un anlisis por mediode la aplicacin de tcnicas de minera de datos.

    Para resolver la pregunta inicial sobre que metodologadebiera seguirse, se debera mostrar ahora cuales fueronlas metodologas en evaluacin.

    IV. CRISP - DM

    Esta metodologa inicialmente fue desarrollada por tresempresas que iniciaron sus investigaciones en el tema dela Minera de Datos: DaimlerChrysler (luego conocidocomo DaimlerBenz) quien siempre implement principiosy tcnicas de minera de datos en sus negocios, SPSS quienprovee servicios basados en Minera de Datos desde 1990,y NCR.

    La metodologa CRISP DM, como lo muestra la Fig. 2[8], est descrita en trminos de un modelo de procesojerrquico, que consiste en una serie de tareas descritasen cuatro niveles de abstraccin (de lo general a loespecfico): Fases, tareas genricas, tareas especializadase instancias de proceso.

    Fig 2. Modelo Jerrquico de la metodologa CRISP.Figura 1. ModeloJerrquico de la metodologa CRISP

    Las fases que trata la metodologa CRISP DM se resumenen la Tabla1.

    Ingeniera de Sistemas Dos caminos en la bsqueda de patrones por medio de Minera de Datos: SEMMA y CRISPTwo paths in search of patterns through Data Mining: SEMMA and CRISP

  • 15

    Rev. Tecnol. Journal of Technology Volumen 9 No. 1

    Fase Descripcin

    Tabla 1. Fases de la metodologa CRISP

    Entendimiento del negocio Esta fase inicial se centra en el entendimiento de los objetivos del proyecto y los requerimientos desdeuna perspectiva del negocio, para convertir este conocimiento en un problema de definicin de minera dedatos y un plan preliminar diseado para alcanzar los objetivos.

    Entendimiento de los datos Esta fase inicia con una coleccin inicial de datos y procede con actividades para familiarizarse con ellos,identificar problemas de calidad en los mismos, descubrir una primera idea de estos o detectar conjuntosinteresantes que permitan formar hiptesis en la bsqueda de informacin escondida.

    Preparacin de los datos Cubre todas las actividades para construir la base final de datos (datos que sern el alimento de las herramientasde modelado) desde una base en bruto. Es preferible que las tareas de preparacin de datos se realicenvarias veces y no en un orden preestablecido. Estas tareas incluyen tabulacin, documentacin y seleccinde atributos, tambin como transformacin y limpieza de datos para las herramientas de modelado.

    Modelado Se seleccionan y aplican varias tcnicas, y sus parmetros son calibrados a los valores ptimos. Por logeneral hay varias tcnicas para el mismo tipo de problema. Algunas tcnicas tienen requerimientosespecficos en la forma de los datos, por lo tanto ser a menudo necesario devolverse a la fase depreparacin de datos

    Evaluacin Al llegar a esta fase se ha construido un modelo (o modelos) que aparentan tener una alta calidad desdela perspectiva del anlisis de datos. Antes de proceder a la entrega final del modelo es importante evaluarloms a fondo y revisar los pasos ejecutados para construirlo, de tal forma que este lo ms cercano posiblede alcanzar los objetivos del negocio. Un objetivo clave es determinar si hay algn evento importante delnegocio que no haya sido considerado lo suficiente. Al final de esta fase, se debe tener una decisin sobreel uso de los resultados de minera de datos.

    Despliegue La creacin del modelo por lo general no es el final del proyecto. Incluso si el propsito del modelo esincrementar conocimiento sobre los datos, el conocimiento ganado necesitar ser organizado y presentadode una manera que el cliente lo pueda usar. A menudo implica aplicar modelos en vivo dentro del procesode toma de decisiones de una organizacin, por ejemplo, en la personalizacin en tiempo real de laspginas web o la puntuacin repetida en bases de datos de mercadeo. Sin embargo, dependiendo de losrequerimientos, la fase de despliegue puede ser tan simple como generar un reporte o tan compleja comoimplementar un proceso repetible de minera de datos a travs de la empresa. En muchos casos es elcliente, no el analista de datos, quien realiza los pasos de despliegue. Sin embargo, incluso si el analistano carga con el esfuerzo de despliegue, es importante que el cliente entienda que acciones deben serllevadas a cabo para hacer uso de los modelos creados.

    La figura 3 ilustra el comportamiento [8] y la relacin delas fases descritas en la Tabla 1.

    V. SEMMAEl acrnimo SEMMA surge de las iniciales de las palabrasSample (muestra), Explore (explorar), Modify (modificar),Model (modelar) y Assess (evaluar). Es un proceso que sesigue para realizar minera de datos [9].Principalmente SEMMA es una organizacin lgica para elmanejo de una herramienta funcional de SAS llamadaEnterprise Manager para el manejo de tareas de minera dedatos. SEMMA intenta hacer fcil de aplicar la exploracinestadstica y la visualizacin de tcnicas, seleccionando ytransformando las variables predictivas ms relevantes,modelndolas para obtener resultados, y finalmenteconfirmar la precisin del modelo [1].

    SEMMA se enfoca en los aspectos de desarrollo delmodelo de minera de datos: muestreo, explorar, modificar,modelar y evaluar, detallados en la Tabla 2.Fig. 3. Fases y ciclo de la Metodologa CRISP

  • 16

    Tabla 2. Aspectos de desarrollo de SEMMATabla 1. Fases de la metodologa

    Se busca extraer una porcin de datos lo suficientemente grande para contener informacin significativa,pero reducida para manipularla rpidamente. Si los patrones generales aparecen en los datos en suconjunto, estos se pueden distinguir en una muestra representativa. Si un nicho es tan pequeo que noes representable con una muestra y aun as es tan importante que influencia la imagen completa, puedeser descubierto por medio de mtodos de sntesis. Tambin se pueden crear conjuntos de datos as: Entrenamiento Usado para modelos adecuados Validacin Usado para comprobar Prueba Usado para obtener comprobaciones honestas y para mostrar que tan bien puede

    generalizar un modelo.

    Ingeniera de Sistemas Dos caminos en la bsqueda de patrones por medio de Minera de Datos: SEMMA y CRISPTwo paths in search of patterns through Data Mining: SEMMA and CRISP

    Muestreo

    Explorar Se desea explorar los datos buscando tendencias y anomalas imprevistas para obtener una comprensintotal de los mismos. Esta fase ayuda a refinar el proceso de descubrimiento. Si visualmente no hay unresultado claro se pueden tratar los datos por medio de tcnicas estadsticas como el anlisis factorial,de correspondencias y agrupaciones. A manera de ejemplo, en la minera de datos de campaas decorreo directo, el agrupamiento podra revelar grupos de compradores con distintos patrones deordenamiento, y sabiendo esto, se crea la oportunidad de generar correos personalizados o promociones.

    Modificar Se modifican los datos por medio de la creacin, seleccin y transformacin de variables, para centrar elproceso de seleccin del modelo. Basado en los descubrimientos en la fase de exploracin, puedehaber la necesidad de manipular los datos para incluir informacin como la de agrupamiento decompradores y subgrupos significativos, o introducir nuevas variables. Tambin puede ser necesariobuscar valores extremos (bordes) y reducir el nmero de variables, para reducir a los ms significativos.Tambin puede ser necesario modificar datos cuando la informacin minada cambie. Debido a que laminera de datos es un proceso dinmico e iterativo, puede actualizar los mtodos o los modelos cuandoest disponible nueva informacin.

    Modelar Se modelan los datos permitiendo que el software busque automticamente una combinacin de datosque prediga con cierta certeza un resultado deseado. Las tcnicas de modelado en minera de datosincluyen las redes neuronales, modelos de arboles de decisin, modelos lgicos y otros modelosestadsticos (como los anlisis de serie de tiempo, razonamiento basado en memoria y componentesprincipales). Cada uno tiene sus fortalezas, y dependiendo de la informacin se debe aplicar el msadecuado segn las situaciones concretas para el anlisis con la minera de datos. Por ejemplo, lasredes neuronales son muy buenas en la conexin de relaciones no lineales de gran complejidad.

    Evaluar Se califican los datos mediante la evaluacin de la utilidad y fiabilidad de los resultados del proceso deminera de datos. Una forma comn de evaluacin de un modelo es la de aplicar el modelo a unaporcin aparte de resultados obtenidos durante el muestreo. Si el modelo es vlido, debera funcionarpara esta muestra, as como para la muestra utilizada en la construccin del modelo. De manera similar,se puede probar el modelo nuevamente con los datos conocidos. Por ejemplo, si se sabe cuales clientestienen altas tasas de retencin y su modelo predice la retencin, puede probar si el modelo seleccionaestos clientes acertadamente.

    Cuando se haya desarrollado el modelo usandoSEMMA basado en la aproximacin de minera, senecesita desplegar la solucin para calificar los nuevoscasos. El despliegue del modelo es el resultado finalde la minera de datos. La Fig. 4 muestra el flujo delproceso de Minera de Datos mediante la metodologaSEMMA [9].

    Fig 4. Fases de SEMMA

  • 17

    Rev. Tecnol. Journal of Technology Volumen 9 No. 1

    VI. RESULTADOS

    Las metodologas CRISP-DM y SEMMA fueroncomparadas y se obtuvieron los resultados sintetizadosen la Tabla 3 que contrasta los aspectos principales deambos esquemas.

    Se puede ver que ambas metodologas mantienen la mismaesencia al mantener los lineamientos de KDD: son fasesrelacionadas en un orden similar y funcionan de maneraiterativa (por la retroalimentacin).

    Tabla 3. Comparacin CRISP DM y SEMMA

    CRISP - DM SEMMA

    Abierta Cerrada (Abierta en los aspectosgenerales nicamente)

    Funciona en cualquier esquemaque aplique minera de datos.Permite que cualquier sistemainformtico pueda seguir estospasos

    Funciona especficamente enSAS

    Implica retroalimentacin, escclica

    Implica retroalimentacin, escclica

    Fases: Entendimiento delnegocio, Entendimiento de losdatos, Preparacin de losdatos, Modelado, Evaluado,Despliegue

    Fases: Muestreo, Explorar,Modificar, Modelar, Evaluar

    Metodologa Secuencia Lgica

    Permite aplicar cualquier modeloestadstico

    Est obligado a los modelosestadsticos que tengaincorporados la herramientaEnterprise Miner

    Enfocada a resultadosempresariales

    Enfocada a resultadosdel proceso

    Sigue el esquema propuestoen KDD

    Sigue el esquema propuesto enKDD

    Libre distribucin Distribucin en clientes SAS

    Se aprecia una diferencia marcada en CRISP, que tiene encuenta aspectos del negocio (en la fase inicialprincipalmente Entendimiento del negocio). De estemodo, CRISP puede percibir para el proyecto de minerade datos los datos que debe buscar, cules son los objetivosque debe alcanzar y cules podran ser los resultadosesperados.

    Otra diferencia muy importante es que para acceder a lametodologa CRISP se puede hacer directamente desde lapgina web. Para acceder a la metodologa SEMMA solo esposible cuando se tiene una solucin SAS con la cual sepuede trabajar. Solo se permite el acceso a las generalidadesdel proceso como muestra de cul es el camino a seguir.

    VII. CONCLUSINDe los dos caminos, no resulta justo definir cul es el mejoren trminos absolutos. Ambos son bastante slidos, sinembargo en la prctica es la metodologa SEMMA un pocoms reducida en el alcance de resultados que lametodologa CRISP. SEMMA funciona perfectamentecuando se tiene un sistema SAS, el cual es muy popularen empresas grandes. Sin embargo es posible que estesea el Taln de Aquiles de este estndar, ya que los demsesquemas quedan por fuera de la solucin.

    CRISP DM no slo se ajusta un poco ms a losparmetros de la KDD, sino tambin a los procesos queuna empresa realiza en su trabajo con los datos. Tambinse puede percibir cierta similitud en el proceso de CRISPcon otros de desarrollo de proyectos de software comoRUP (Proceso Unificado Racional) en donde las fases deCRISP aparentan ser similares al ciclo de vida de RUP.

    SAS es una empresa que tiene mucha trayectoria en elmercado para el manejo de informacin. Particularmentetienen experiencia en temas de negocios complejos. Inicianactividades en 1976 y hasta hoy en da siempre han sidoconocedores de soluciones de sistemas. El conocimiento decmo abarcar un proyecto de anlisis con minera de datoslo han dejado por escrito en el estndar SEMMA, de modoque no se puede descartar fcilmente esta metodologa.

    La minera de datos es una herramienta desarrollada enprincipio para el anlisis de datos aplicando mtodosestadsticos. La naturaleza de estos mtodos haca quepara que una empresa solicitara este tipo de anlisis a unaentidad experta en la materia, se vera forzosamenteobligada a pagar altos costos por los resultados. Sinembargo la automatizacin de los procesos gener grandescantidades de informacin que incluso estos analizadoresno tenan la capacidad de procesar. Los grandes fabricantesde motores de bases de datos como Microsoft (con SQLServer), Oracle, y dems se han visto obligados a incluiren sus soluciones paquetes que permiten aplicar las tcnicasde minera de datos dentro de sus tareas comunes.

    La minera de datos hace parte de la tendencia BusinessIntelligence (Inteligencia de Negocio) y particularmenteresuelve el rea de prediccin [10], sobre la que lasempresas tienen inters en el desarrollo de soluciones.

  • 18

    La minera de datos no se debe percibir como una solucina todos los problemas ya que en la prctica puede tenervarios inconvenientes, por ejemplo, si la informaciningresada no es correcta, o no es verdica, los resultadospueden conducir a caminos falsos. Adems, los patronesmuestran tendencias, que pueden cambiar por mltiplesmotivos, por ejemplo en el mercado automotrizcolombiano no se esperaba en su momento que sepudiera presentar problemas en temas de negociacin conlos pases vecinos. Esto no encaja en modelos que sevinieran trabajando y cambia radicalmente los resultados.

    Sin embargo, si una empresa registra datos y susoperaciones diarias, podrn relacionarse en tiempo real,y as encontrar informacin de las tendencias para identificarposibles clientes nuevos, nuevos mercados, fraudes,nuevas oportunidades, por ejemplo.

    REFERENCIAS

    [1] D. Olson, D.Delen, Advanced Data Mining Techniques.Berlin: Springer - Verlag, 2008, pp 19.

    [2] The University of Waikato. (25/05/2010). WEKA [Online]Disponible: http://www.cs.waikato.ac.nz/ml/weka/

    [3] Microsoft Corporation. (25/05/2010). Introducing BusinessIntelligence Development Studio [Online] Disponible: http://technet.microsoft.com/es-es/library/ms173767.aspx

    [4] M. Berry, G. Linoff, Mastering data mining: the art andscience of customer relationship management. West Susex:John Wiley & Sons, 1999.

    [5] J. Hernndez, M. Ramirez, C. Ferri, Introduccin a la Minerade Datos. Madrid: Pearson Prentice Hall, 2007, pp 13-14, 25-27.

    [6] U. Fayad, G. Piateski-Shapiro, P. Smyth, From Data Miningto Knowledge Discovery: An Overview. Menlo Park: AmericanAssociation for Artificial Intelligence Press, 1996.

    [7] C. Perez, D. Santin, Data Mining Soluciones con EnterpriseMiner. Madrid: Alfaomega Grupo Editor S.A., 2006, pp 13 - 20.

    [8] P. Chapman, J. Clinton, R. Kerber, T. Khabaza, T. Reinartz,C. Shearer, R. Wirth, CRISP-DM 1.0 Step by step data miningguide. SPSS Inc, 2000, pp 9, 13.

    [9] SAS Institute Inc. (27/04/2010). SAS SEMMA [Online]Disponible: http://www.sas.com/offices/europe/uk/technologies/analytics/datamining/miner/semma.html

    [10] L. Vieira, L. Ortiz, S. Ramirez, Introduccin a la Minerade Datos. Rio de Janeiro: E-Papers Servicios Editoriales, 2009,pp 20.

    Tipo de Artculo: Tipo I: Artculo de Investigacin cientfica y tecnolgica.Los autores declaran que no tienen conflicto de inters.

    Los Autores

    Hernando Camargo MilaHernando Camargo MilaHernando Camargo MilaHernando Camargo MilaHernando Camargo Mila

    Docente del programa Ingeniera de Sistemas de la Universidad El Bosque desde 2002 a la fecha, Distincin de la Universidad El Bosque a la Excelenciaen la Docencia en el ao 2004. Especialista en Informtica y Ciencias de la Computacin, Fundacin Universitaria Konrad Lorenz, Bogot 2006. Ingenierode Sistemas, Universidad Nacional de Colombia, Bogot 1988, Docente del Programa en Ingeniera de Sistemas de la Fundacin Universitaria KonradLorenz desde 2001 a la fecha y desde el 2003 Coordinador Acadmico de las Facultades de Ingeniera y Matemticas.

    Jefe del Departamento de Sistemas de Petrleos Colombianos Limited, Bogot, desde 1990 a 1998. Gerencia de proyectos informticos en Comceldurante 1998. Gerencia de proyectos de Outsourcing informtico en Gestiontek S. A., desde 1999 a 2001.

    Carrera 7 B Bis 132-11, Edificio El Campito, Bogot D.C., Colombia. [email protected]

    Mario Andrs Silva MontoyaMario Andrs Silva MontoyaMario Andrs Silva MontoyaMario Andrs Silva MontoyaMario Andrs Silva Montoya

    Asesor de sistemas de Vehculos del Camino, concesionario Mazda. Ingeniero de Sistemas, Universidad El Bosque, 2.010. Experiencia en implementacinde redes de computadores, con conocimientos en Direccin de Proyectos segn el estndar del Project Management Institute (PMBOK, 3 edicin), conamplio conocimiento de desarrollo de software y manejo de plataformas y programas de desarrollo Visual Studio. NET 2008 (C++, C#), JCreator (Java),SQL Server 2005 (SQL), Oracle 10g, especial inters en el trabajo con Bases de datos.

    [email protected]

    Ingeniera de Sistemas Transferencia de tecnologa informtica: Entorno colombianoInformation Technology Transfer: Colombian environment