INGENIERO DE SISTEMAS UNIVERSIDAD … · 2012-08-12 · ii. Análisis de estratégico ... elementos...

17
TESIS Formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S.A. Por Álvaro Alejandro Alcántara Mori Alumno de Ingeniería de Sistemas de la Facultad de Ingeniería Industrial y Sistemas Para optar el Título Profesional de INGENIERO DE SISTEMAS EN LA UNIVERSIDAD TECNOLOGICA DEL PERU MAYO 2012 Tesis Dirigida por: MBA Ing. Carlos Zorrilla Vargas

Transcript of INGENIERO DE SISTEMAS UNIVERSIDAD … · 2012-08-12 · ii. Análisis de estratégico ... elementos...

TESIS

Formulación de Minería de Datos para la Empresa Distribuidora de

Productos Espinoza Aguilar S.A.

Por

Álvaro Alejandro Alcántara Mori

Alumno de Ingeniería de Sistemas de la

Facultad de Ingeniería Industrial y Sistemas

Para optar el Título Profesional de

INGENIERO DE SISTEMAS

EN LA

UNIVERSIDAD TECNOLOGICA DEL PERU

MAYO 2012

Tesis Dirigida por: MBA Ing. Carlos Zorrilla Vargas

Resumen

El presente trabajo es un estudio de la viabilidad, adaptación y beneficios que puede

ofrecer la metodología de la minería de datos aplicado a la pequeña empresa, que no

cuenta con plan de proyección estructurado de los análisis internos y externos que van

cambiando durante el ciclo de vida de la empresa.

Al final de la investigación se llegará a determinar el beneficio cualitativo y cuantitativo

aproximado de la implementación del sistema, así como estructurar una guía de

implementación.

Resumen

1. Introducción

2. Justificación de la Investigación

a. Objetivos (generales y específicos)

b. Diferenciación con otros proyectos similares.

3. Situación Actual

a. Definición del Problema

b. Volúmenes de Información (del negocio, de los clientes, años anteriores,

mercado local, mercado global, si aplica, información estadística)

4. Marco teórico

5. Solución Propuesta

a. Alcance de la propuesta de Solución

b. Análisis de la solución propuesta

i. Benchmarking

ii. Análisis de estratégico

iii. Análisis funcional

iv. Etapas de la solución

c. EVS

d. Metodología

e. Sistema propuesto

6. Impacto esperado

7. Conclusiones

8. Bibliografía

9. Glosario

10. Anexos

2. JUSTIFICACION

¿Por qué?

Para detectar falencias en las los procesos que generen perdidas por gastos innecesarios

en la logística.

¿Para qué?

Para aumentar la rentabilidad del negocio, eliminado perdidas, y agilizar los procesos

internos de comercialización en todas sus áreas.

Desde sus inicios la rentabilidad en las cuales está orientada la empresa, DIPESA, se

basa en la cantidad de volumen comercializado, dejando de lado la investigación

relacionada con las estadísticas y las proyecciones que puede establecer nuevos

elementos estratégicos al momento de realizar las funciones cotidianas.

Al contar con información orientado a los datos, encontrará elementos que puede

facilitar las operaciones que se realiza para cumplir con los procedimientos del negocio.

a. OBJETIVOS

Objetivo General

Conocer el impacto económico y en la alineación de los posesos al implantar

un sistema de Minería de Datos en la logística de la empresa.

Objetivos Específicos

Calcular la ganancia económica resultante después de la implantación.

Caracterizar los procesos no atendidos adecuadamente, conocer su

influencia.

3. SITUACION ACTUAL

3.1. EL PROBLEMA

3.1.1 Planteamiento del Problema

• Carrera : Informática

• Área : Base de Datos

• Asignatura : Minería de Datos

• Tema : Implantación de un sistema de Minería de Datos.

3.1.2 Formulación del Problema

Medir el beneficio económico y en los procesos con la aplicación de un sistema

de minería de Datos para la empresa DIPESA (Abarrotes-PYMES)

3.1.3 Descripción del Problema

La empresa DIPESA, dedicada a la comercialización de productos de primera

necesidad.

Tiene procesos básicos de comercialización y cuenta con un sistema de

almacenes que solo gestiona parte de sus procesos.

Se ha visto perdidas por el mal ingreso de los datos en algunas de las áreas de

sus procesos y gastos excesivos por el tema de almacenamiento.

También ligeras pérdidas de productos que exceden las fechas de vencimiento y

que aún no han sido distribuidos.

4. MARCO TEORICO REFERENCIAL

4.1. MARCO TEÓRICO

Según CC Steelman de la ACM, el cuerpo de conocimiento de la informática está

compuesto por:

- Estructuras discretas.

- Programación.

- Algoritmos y complejidad.

- Lenguajes de programación.

- Arquitectura y organización de computadores.

- Sistemas operativos.

- Redes de computadoras.

- Interacción humana.

- Gráficos y visualización.

- Sistemas inteligentes e inteligencia artificial.

- Sistemas de información y gestión de información.

- Ingeniería de software.

- Aspectos sociales y profesionales de la informática.

- Ciencia computacional.

Teoría de la computación

Teoría de la computación

Teoría de autómatas

Teoría de la computabilidad.

Teoría de la complejidad computacional

Límites fundamentales (en especial de espacio en memoria y tiempo) de los cómputos.

Algoritmos y estructuras de datos

Análisis de algoritmos

Algoritmos: procesos formales usados para los cómputos, y eficiencia de estos procesos.

Estructuras de datos: organización y manipulación de los datos

Lenguajes de programación y compiladores

Compiladores formas de traducir programas computacionales, usualmente a partir de

lenguajes de alto nivel a lenguajes de bajo nivel.

Teoría de lenguajes de programación, lenguajes formales para expresar algoritmos y las

propiedades de estos lenguajes.

Bases de datos

Minería de datos, estudio de algoritmos para buscar y procesar información en

documentos y bases de datos; muy relacionada con la adquisición de información.

Inteligencia artificial

Inteligencia artificial la implementación y estudio de sistemas que exhiben (ya sea por

su comportamiento o aparentemente) una inteligencia autónoma o comportamiento

propio, a veces inspirado por las características de los seres vivos. Las ciencias de la

computación están relacionadas con la IA, ya que el software y las computadoras son

herramientas básicas para el desarrollo y progreso de la inteligencia artificial.

Razonamiento automatizado Robótica algoritmos para controlar el comportamiento de

los robots.

Visión por computador algoritmos para extraer objetos tridimensionales de una imagen

bidimensional.

Aprendizaje Automático

Ciencias Aplicadas al Negocio

Economía: es la ciencia social que estudia el comportamiento económico de agentes

individuales: producción, intercambio, distribución y consumo de bienes y servicios,

entendidos estos como medios de satisfacer necesidades humanas y resultado individual

o colectivo de la sociedad.

Microeconomía: es una parte de la economía que estudia el comportamiento

económico de agentes económicos individuales, como son los consumidores, las

empresas, los trabajadores y los inversores; así como de los mercados. Considera las

decisiones que toma cada uno para cumplir ciertos objetivos propios. Los elementos

básicos en los que se centra el análisis microeconómico son los bienes, los precios, los

mercados y los agentes económicos. La gran mayoría de los modelos que se exponen en

el presente artículo tienen como base la existencia de un marco económico y social de

economía descentralizada, en el que existe propiedad privada.

Macroeconomía: es la parte de la teoría económica que se encarga del estudio global

de la economía en términos del monto total de bienes y servicios producidos, el total de

los ingresos, el nivel de empleo, de recursos productivos, y el comportamiento general

de los precios. La macroeconomía puede ser utilizada para analizar cuál es la mejor

manera de influir en objetivos políticos como por ejemplo hacer crecer la economía,

conseguir la estabilidad de precios, fomentar el empleo y la obtención de una

sustentable y equilibrada balanza de pagos.

Administración: ciencia social y técnica encargada de la planificación, organización,

dirección y control de los recursos (humanos, financieros, materiales, tecnológicos, el

conocimiento, etc) de la organización, con el fin de obtener el máximo beneficio

posible; este beneficio puede ser económico o social, dependiendo esto de los fines

perseguidos por la organización.

Psicología Social: es la psicología que se encarga del estudio especializado de las

conductas pero a su vez estudia la forma y el por qué el hombre lo hace de una manera o

de otra según sea su sociabilización por medio de los padreso familiares o amigos

estudiándolo desde su forma mental

Relaciones Públicas: Rama de la comunicación que se encarga de crear, modificar y/o

mantener la imagen positiva ya sea de una empresa, organización, ente público o

privado, o persona; y fortalecer los vínculos con todos sus públicos (Internos, externos o

indirectos), utilizando diferentes estrategias, técnicas e instrumentos, su misión es

generar un vínculo entre la organización, la comunicación y los públicos relacionados (

Stakeholder), además de convencer e integrar de manera positiva.

Contabilidad de Costos: es un sistema de información para predeterminar, registrar,

acumular, distribuir, controlar, analizar, interpretar e informar de los costos de

producción, distribución, administración y financiamiento.

Logística: conjunto de medios y métodos necesarios para llevar a cabo la organización

de una empresa, o de un servicio, especialmente de distribución.1 En el ámbito

empresarial existen múltiples definiciones del término logística, que ha evolucionado

desde la logística militar hasta el concepto contemporáneo del arte y la técnica que se

ocupa de la organización de los flujos de mercancías, energía e información.

PYMES

En el Perú, las PYME representan el 99.5% del total de empresas del país, son

responsables del 49% de la producción nacional y producen el 49% del PBI nacional.

Según estadísticas del ENAHO, son las PYME las que concentran el 60% de los

empleos totales, siendo la microempresa la que más empleos genera: 53% de la PEA

ocupada a nivel nacional (el restante 7% pertenece a la pequeña empresa). En la última

década, el sector PYME ha sido el más dinámico en relación a la creación de nuevos

puestos de trabajo creciendo a tasas de 9% anual mientras que la gran empresa creció a

tasas de 2% anual.

- Centro de Documentación para la Innovación de la Cadena de Suministro

Mayo 15, 2011 (15/05/2011)

El costo de la logística en la mayoría de empresas varía entre el

10 y 20% de sus ventas”

Edward Frazelle Ph.D., fundador de The Supply Chain Logistics Institute en

Georgia Tech, y presidente y CEO de Logistics Resources International

- PLANEAN TENER UN INDICADOR PARA EL PERÚ EN DICIEMBRE

Costos logísticos para pymes de la región llegan al 33%

"Según el Centro Logístico para América Latina (LALC, por sus siglas en

inglés) el promedio de los costos logísticos sobre las ventas es de 14,7% en la

región, pero en el Perú no hay un 'benchmark' formal, aunque se habla de un

19% o 20% como referencia", señala Wong.

2.2. MARCO CONCEPTUAL

2.2.1 Data Mining, la extracción de información oculta y predecible de grandes bases

de datos, es una poderosa tecnología nueva con gran potencial para ayudar a las

compañías a concentrarse en la información más importante de sus Bases de

Información (Data Warehouse). Las herramientas de Data Mining predicen futuras

tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas

y conducidas por un conocimiento acabado de la información (knowledge-driven). Los

análisis prospectivos automatizados ofrecidos por un producto así van más allá de los

eventos pasados provistos por herramientas retrospectivas típicas de sistemas de soporte

de decisión. Las herramientas de Data Mining pueden responder a preguntas de

negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas y a

los cuales los usuarios de esta información casi no están dispuestos a aceptar. Estas

herramientas exploran las bases de datos en busca de patrones ocultos, encontrando

información predecible que un experto no puede llegar a encontrar porque se encuentra

fuera de sus expectativas.

Hay cuatro tipos de tareas que normalmente se involucran en la minería de datos:

Clasificación – la tarea de generalizar una estructura familiar para utilizarla en

los nuevos datos

Agrupamiento – la tarea de encontrar grupos y estructuras en los datos que son

de alguna manera u otra lo mismo, sin necesidad de utilizar las estructuras

observadas en los datos.

Aprendizaje de reglas de asociación – Busca relaciones entre las variables.

Regresión – Su objetivo es encontrar una función que modele los datos con el

menor error.

2.2.2 Los Fundamentos del Data Mining

Las técnicas de Data Mining son el resultado de un largo proceso de investigación y

desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron

almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a

los datos, y más recientemente con tecnologías generadas para permitir a los usuarios

navegar a través de los datos en tiempo real. Data Mining toma este proceso de

evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega

de información prospectiva y proactiva. Data Mining está lista para su aplicación en la

comunidad de negocios porque está soportado por tres tecnologías que ya están

suficientemente maduras:

Recolección masiva de datos

Potentes computadoras con multiprocesadores

Algoritmos de Data Mining.

2.2.3 Datos, información, conocimiento

¿En qué se diferencia el conocimiento de los datos y de la información? En una

conversación informal, los tres términos suelen utilizarse indistintamente y esto puede

llevar a una interpretación libre del concepto de conocimiento. Quizás la forma más

sencilla de diferenciar los términos sea pensar que los datos están localizados en el

mundo y el conocimiento está localizado en agentes de cualquier tipo (personas,

empresas, máquinas...), mientras que la información adopta un papel mediador entre

ambos.

Datos

Los datos son la mínima unidad semántica, y se corresponden con elementos primarios

de información que por sí solos son irrelevantes como apoyo a la toma de decisiones.

También se pueden ver como un conjunto discreto de valores, que no dicen nada sobre

el porqué de las cosas y no son orientativos para la acción.

Un número telefónico o un nombre de una persona, por ejemplo, son datos que, sin un

propósito, una utilidad o un contexto no sirven como base para apoyar la toma de una

decisión. Los datos pueden ser una colección de hechos almacenados en algún lugar

físico como un papel, un dispositivo electrónico (CD, DVD, disco duro...), o la mente

de una persona. En este sentido las tecnologías de la información han aportado mucho a

recopilación de datos.

Como cabe suponer, los datos pueden provenir de fuentes externas o internas a la

organización, pudiendo ser de carácter objetivo o subjetivo, o de tipo cualitativo o

cuantitativo, etc.

2.2.4 El Alcance de Data Mining

El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de

negocios en grandes bases de datos - por ej.: encontrar información de la venta de un

producto entre grandes montos de Gigabytes almacenados - y minar una montaña para

encontrar una veta de metales valiosos. Ambos procesos requieren examinar una

inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente

donde residen los valores. Dadas bases de datos de suficiente tamaño y calidad, la

tecnología de Data Mining puede generar nuevas oportunidades de negocios al proveer

estas capacidades:

Predicción automatizada de tendencias y comportamientos. Data Mining

automatiza el proceso de encontrar información predecible en grandes bases de

datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora

pueden ser contestadas directa y rápidamente desde los datos. Un típico ejemplo de

problema predecible es el marketing apuntado a objetivos (targeted marketing). Data

Mining usa datos en mailing promocionales anteriores para identificar posibles

objetivos para maximizar los resultados de la inversión en futuros mailing. Otros

problemas predecibles incluyen pronósticos de problemas financieros futuros y otras

formas de incumplimiento, e identificar segmentos de población que probablemente

respondan similarmente a eventos dados.

Descubrimiento automatizado de modelos previamente desconocidos. Las

herramientas de Data Mining barren las bases de datos e identifican modelos

previamente escondidos en un sólo paso. Otros problemas de descubrimiento de

modelos incluye detectar transacciones fraudulentas de tarjetas de créditos e

identificar datos anormales que pueden representar errores de tipeado en la carga de

datos.

¿QUE PUEDE HACER EL DATA MINING?

Una empresa en posesión de unas bases de datos de calidad y tamaño suficiente puede

emplear el Data Mining para generar nuevas oportunidades de negocio, dada su

capacidad para proporcionar:

� Predicción automática de comportamientos.

Generalmente se trata de problemas de clasificación. Como ejemplo podemos citar el

marketing dirigido. Data Mining usa los resultados de campañas de marketing

realizadas anteriormente para identificar el perfil de los clientes que son más propensos

a comprar el producto y de este modo permitirnos substituir el correo masivo por el

correo dirigido.

� Predicción automática de tendencias.

Basándonos en base de datos históricas, Data Mining creará un modelo para predecirlas

tendencias. Como ejemplos podemos citar la predicción de ventas en el futuro ola

predicción en mercados de capitales.

� Descubrimiento automatice de comportamientos desconocidos anteriormente.

Las herramientas de Data Mining de visualización y clustering, permiten «ver» nuestros

datos desde una perspectiva distinta y por ello descubrir nuevas relaciones entre ellos.

2.2.5. Software

Cinco de las mejores herramientas de software de código abierto para minería de datos

que puedes obtener de forma gratuita:

Orange

Orange es una suite de software para minería de base de datos y

aprendizaje automático basado en componentes que cuenta con un

fácil y potente, rápido y versátil front-end de programación visual

para el análisis exploratorio de datos y visualización, y librerias para Python y

secuencias de comando. Contiene un completo juego de componentes para

preprocesamiento de datos, característica de puntuación y filtrado, modelado,

evaluación del modelo, y técnicas de exploración. Está escrito en C++ y Python, y su

interfaz gráfica de usuario se basa en la plataforma cruzada del frameworkQt.

RapidMiner

RapidMiner, antes llamado YALE (Sin embargo, otro

ambiente de aprendizaje), es un ambiente de

experimentos en aprendizaje automático y minería de

datos que se utiliza para tareas de minería de datos tanto en investigación como en el

mundo real. Permite a los experimentos componerse de un gran número de operadores

anidables arbitrariamente, que se detallan en archivos XML y se hacen con la interfaz

gráfica de usuario de RapidMiner. RapidMiner ofrece más de 500 operadores para todos

los principales procedimientos de máquina de aprendizaje, y también combina

esquemas de aprendizaje y evaluadores de atributos del entorno de aprendizaje Weka.

Está disponible como una herramienta stand-alone para el análisis de datos y como

motor para minería de datos que puede integrarse en tus propios productos.

WEKA

Escrito en Java, Weka (Entorno Waikato para el Análisis del

Conocimiento) es una conocida suite de software para

máquinas de aprendizaje que soporta varias tareas típicas de

minería de datos, especialmente pre procesamiento de datos,

agrupamiento, clasificación, regresión, visualización y características de selección. Sus

técnicas se basan en la hipótesis de que los datos están disponibles en un único archivo

plano o relación, donde cada punto marcado es etiquetado por un número fijo de

atributos. WEKA proporciona acceso a bases de datos SQL utilizando conectividad de

bases de datos Java y puede procesar el resultado devuelto como una consulta de base

de datos. Su interfaz de usuario principal es el Explorer, pero la misma funcionalidad

puede ser accedida desde la línea de comandos o a través de la interfaz de flujo de

conocimientos basada en componentes.

JHepWork

Diseñado para los científicos, ingenieros y estudiantes, jHepWork es

un framework para análisis de datos libre y de código abierto que fue

creado como un intento de hacer un entorno de análisis de datos

usando paquetes de código abierto con una interfaz de usuario

comprensible y para crear una herramienta competitiva a los programas comerciales.

Esto se hace especialmente para las ploteos científicos interactivos en 2D y 3D y

contiene bibliotecas científicas numéricas implementadas en Java para funciones

matemáticas, números aleatorios, y otros algoritmos de minería de datos. jHepWork se

basa en Jython un lenguaje de programación de alto nivel, pero codificación en Java

también puede ser usada para llamar librerías jHepWork numéricas y gráficas.

KNIME

KNIME (Konstanz Information Miner) es una plataforma de

código abierto de fácil uso y comprensible para integración de datos, procesamiento,

análisis, y exploración. Ofrece a los usuarios la capacidad de crear de forma visual

flujos o tuberías de datos, ejecutar selectivamente algunos o todos los pasos de análisis,

y luego estudiar los resultados, modelos y vistas interactivas. KNIME está escrito en

Java y está basado en Eclipse y hace uso de sus métodos de extensión para soportar

plugins proporcionando así una funcionalidad adicional. A través de plugins, los

usuarios pueden añadir módulos de texto, imagen, procesamiento de series de tiempo y

la integración de varios proyectos de código abierto, tales como el lenguaje de

programación R, WEKA, el kit de desarrollo de Química y LIBSVM.

4.3. MARCO REFERENCIAL

a. FOROS

www.dataminingperu.info es una iniciativa para compartir las experiencias de los

autores en la aplicación directa de la estadística en el día a día

Intentaremos centrarnos exclusivamente en temas como:

Minería de Datos

Data Warehouse

Business Intelligence

Herramientas de Análisis de Datos

Aplicaciones diversas en el ámbito privado y gubernamental.

b. Casos de Éxito

Rainforest

Rainforest Expeditions (fundado en 1989) es una empresa de Ecoturismo que opera tres

albergues en la Amazonía ampliamente reconocidos: Posada Amazonas, Refugio

Amazonas y el Centro de Investigaciones de Tambopata.

Objetivo. Ingreso de encuestas sobre el nivel de satisfacción de turistas de forma

mensual.

Poder Judicial Huaura

Ente del Estado perteneciente a la sede Central de Lima del Poder Judicial.

Objetivo. Ingreso de expedientes Judiciales al nuevos Sistema Integrado Judicial.

Instituyo Apoyo

Organización sin fines de lucro, focalizada en la ejecución de proyectos educativos,

dirigidos a mejorar la enseñanza de la Economía, las Matemáticas y la Gestión

Empresarial en el Perú.

Objetivo. Ingreso de fichas del programa Aula Empresa de los años 2009 y 2010 por

doble digitación.

Maestristas Universidad Cesar Vallejo

La universidad César Vallejo – Campus Lima, forma parte del más grande consorcio

universitario del Perú. Se fundó en Trujillo hace 16 años, y hoy tiene sedes en Piura,

Chimbote, Tarapoto y Chiclayo, donde también se encuentra la Universidad Señor de

Sipán y, próximamente en el distrito de Villa el Salvador, con la Universidad Autónoma

del Perú.

Objetivo. Realizar el análisis estadístico de los proyectos de tesis de los alumnos de

maestría en Educación.

2.4. HIPÓTESIS

La implantación de un Sistema de Minería de Datos, en la empresa DIPESA,

logrará reducir en un 20% los costos de logística.

La implantación de Sistemas basados en análisis de Data Minig, implicara la

reingeniería de los procesos en la empresa.

Tipo de Hipótesis:

Hipótesis de correlación - causalidad

Variables:

Costos logísticos.

Tiempo de implantación.

Implantación de Sistema

2.5 LIMITACIONES

Las limitaciones que se encuentran en el estudio e investigación, son con referencia a la

falta de cultura que tienen las empresas en la inversión para conocer sus datos

estadísticos y proyecciones de inversión. Así como en la estructura cerrada de las

compañías que por seguridad y estrategias comerciales limitan a nula la información de

sus logros internos en la implantación de alguna metodología de investigación de

procesos.