Pentaho ETL

14
1ERA PARTE SOBRE LA HERRAMIENTA PENTAHO ANTECEDENTES Pentaho se define a sí mismo como una plataforma de BI “orientada a la solución” y “centrada en procesos” que incluye todos los principales componentes requeridos para implementar soluciones basados en procesos y ha sido concebido desde el principio para estar basada en procesos. Las soluciones que Pentaho pretende ofrecer se componen fundamentalmente de una infraestructura de herramientas de análisis e informes integrados con un motor de workflow de procesos de negocio. La plataforma será capaz de ejecutar las reglas de negocio necesarias, expresadas en forma de procesos y actividades y de presentar y entregar la información adecuada en el momento adecuado. Su modelo de ingresos parece estar orientado a los servicios (soporte, formación, consultoría y soporte a ISVs y distribuciones OEM) aunque en alguno de los documentos y páginas que hemos examinado aparece mencionado algunas funcionalidades “Premium” que hacen pensar en ingresos por futuras versiones o funcionalidades de pago. En su web presenta una organización por productos: Reporting, Analysis, Dahsboards y Data Mining, acompañado por dos introducciones: a la plataforma y a los productos. En dichas introducciones se hace mención

description

Proceso ETL con Pentaho

Transcript of Pentaho ETL

Page 1: Pentaho ETL

1ERA PARTE

SOBRE LA HERRAMIENTA

PENTAHO ANTECEDENTES

Pentaho se define a sí mismo como una plataforma de BI “orientada a la

solución” y “centrada en procesos” que incluye todos los principales

componentes requeridos para implementar soluciones basados en procesos y ha

sido concebido desde el principio para estar basada en procesos. Las soluciones

que Pentaho pretende ofrecer se componen fundamentalmente de una

infraestructura de herramientas de análisis e informes integrados con un motor

de workflow de procesos de negocio. La plataforma será capaz de ejecutar las

reglas de negocio necesarias, expresadas en forma de procesos y actividades y de

presentar y entregar la información adecuada en el momento adecuado.

Su modelo de ingresos parece estar orientado a los servicios (soporte, formación,

consultoría y soporte a ISVs y distribuciones OEM) aunque en alguno de los

documentos y páginas que hemos examinado aparece mencionado algunas

funcionalidades “Premium” que hacen pensar en ingresos por futuras versiones

o funcionalidades de pago.

En su web presenta una organización por productos: Reporting, Analysis,

Dahsboards y Data Mining, acompañado por dos introducciones: a la plataforma

y a los productos. En dichas introducciones se hace mención específica al

workflow como una de las capacidades BI claves de la plataforma.

Productos

Pentaho Reporting:

Las características generales son:

Proporciona funcionalidad crítica para usuarios finales como:

Acceso vía web

Informes parametrizados

Scheduling

Suscripciones

Distribución (bursting)

Proporciona claras ventajas a especialistas en informes:

Page 2: Pentaho ETL

Acceso a fuentes de datos heterogéneos: relacional (vía jdbc), OLAP, XML,

transformaciones de Pentaho Data Integration.

Capacidad de integración en aplicaciones o portales: jsp, portlet, web

service.

Definición modular de informes (distinción entre presentación y

consulta)

Diseño de informes flexible

Entorno de diseño gráfico

Capacidad de uso de templates

Acceso a datos relacionados, OLAP y XML

Desarrollado para:

Ser entendible

Ser fácil de extender

No consumir muchos recursos

100% Java: portabilidad, escalabilidad e integración

Multiplataforma (tanto a nivel de cliente como servidor): MAC, Linux/Unix y

Windows

Pentaho Analysis:

Sus características generales son:

Vista dimensional de datos (por ventas, por periodo)

Navegar y explorar

o Análisis Ad Hoc

o Drill-down

o Seleccionar un especifico miembro para el análisis

Interactuar con alto rendimiento

o Tecnología optimizada para rápida respuesta interactiva

Data Mining:

Sus características son:

Descubrir patrones ocultos y correlaciónales en los datos

Prevenir eventos futuros basados en patrones históricos

Contar con la tecnología de:

o Poderoso motor de Data Mining

1

Page 3: Pentaho ETL

o Herramientas de Diseño Grafico

o Seguridad y conformidad

o Servicios Web, Repositorios y definiciones basadas en XML

o Rendimiento y escalabilidad.

Versiones6.0 2015-10-125.4 2015-06-155.3 2015-02-175.2 2014-10-065.1 2014-06-245.0 2013-11-194.8.0-stable 2012-11-294.5.0-stable 2012-05-073.10.0-stable 2011-10-283.9.0-stable 2011-09-153.8.0-stable 2011-04-043.7.0-stable 2010-12-053.6.0-stable 2010-06-213.5.2-stable 2010-02-253.5.0-stable 2009-10-193.0.0-stable 2009-05-212.0.0-stable 2009-01-061.7.1-stable 2008-08-221.7.0-stable 2008-07-171.6.0-stable 2007-11-121.2.0-stable 2007-02-21

REQUISITOS PREVIOS DE INSTALACIÓN

Para instalar Pentaho se debe cumplir con unos requisitos minimos :

Tener instalado JDK y configurado la variable de entorno JAVA_HOME con

la ruta donde se instaló.

Poseer memoria suficiente en memoria RAM mínimo 8gb

Espacio en Disco Duro 80GB Minimo

2

Page 4: Pentaho ETL

PASOS DE LA INSTALACIÓN

Descargar Pentaho de la suite oficial suite (Pentaho Business Analytics)

Descomprimir el fichero.

Ejecutar el instalador

3

Page 5: Pentaho ETL

2DA PARTE

IMPLEMENTACIÓN DE ETL EMPRESA DE TRABAJO PRÁCTICO ANTERIOR

Extracción de los datos de la fuente del trabajo practico anterior.

Primeramente para extraer los datos ingreso al CRM antes implementado en STEAK

HOUSE

Se exporta el fichero de los cantos creados.

4

Page 6: Pentaho ETL

Creación de los datos de entrada de las diferentes fuentes de datos

Para los datos de entrada definiré de ORO CRM

Tabla: Cuentas Clientes

Datos del Clientes

Fecha del ingreso cliente

5

Page 7: Pentaho ETL

Definición de tablas de dimensiones

La tabla dimensión se define de la siguiente manera

Definición de tablas de hechos

Filtrado de los datos: limpieza, consolidación, etc.

Ingresa a data integración para proceder a limpiar los datos que estén mal.

6

Cuenta Clientes

Nombres

Apellidos

Teléfono

Dirección

Email

Registro Clientes

Datos

Fecha

Page 8: Pentaho ETL

Se escoge entrada CSV

Para la limpiar los valores que estén mal se utiliza Mapear valores que lo utilizare para

agregar información en un campo nulo.

7

Page 9: Pentaho ETL

Carga inicial del almacén: ordenación, agregaciones, etc.

8

Page 10: Pentaho ETL

9

Page 11: Pentaho ETL

Ejecutar

Correcto se comprueba en gestor de base de datos con la trasformación efectuada en

este caso el campo nulo se lo puso nuevo cliente

10

Page 12: Pentaho ETL

11