Manual Pdikettlepentaho 140925193537 Phpapp02

20
MANUAL PARA LA HERRAMIENTA (PDI - KETTLE) Elaborado por: Revisado por: Autorizó: Revisión 1.0 Winter X. Corrales P. Administrador de Base de Datos e inteligencia de negocio. Daniel I. Herrera R. Coordinador de Base de Datos e inteligencia de negocio.

description

manual pdi

Transcript of Manual Pdikettlepentaho 140925193537 Phpapp02

  • MANUAL PARA LA HERRAMIENTA (PDI - KETTLE)

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • HERRAMIENTA (PDI - KETTLE)

    Que es Kettle?

    Es un ambiente de Extraccin, Transformacin, Transporte y Carga Kettle del tipo Open Source.

    Bsicamente la herramienta Pentaho Data Integration (PDI) debe de seguir estas cuatros etapas en todas sus Transformaciones con Kettle (KTR).

    Que es Spoon?

    Spoon es el entorno grfico estndar de PDI, mediante esta Interfase Grfica (UI) podemos disear todas los KTR basados en una tecnologa Rapid application development (RAD). Las tareas son modeladas tipo Workflow flujo de trabajo para coordinar recursos, ejecucin y dependencias de actividades Extract, transform and load (extraccin, transformacin y carga) ETL.

    Existen otras herramientas para migracin de data que se puede abstraer para ser utilizada con PDI pero para efectos de este manual, utilizaremos el Spoon en su forma estndar.

    Caractersticas Generales de PDI.

    Fcil de Usar.100% basado en meta-data.Menos complejidad al no tener que generar cdigos Extras.Instalacin Fcil, Interfase Grfica sencilla y fcil de mantener.

    FlexibilidadNunca obliga a tomar un camino nico.Arquitectura adaptable para extender funcionalidad.

    Arquitectura basadas en estndares modernos.100% Java con amplio soporte de plataforma.Mas de 70 objetos de mapeo pre-definidos (pasos y tareas).Desempeo y escalabilidad empresarial.

    Menores costos de propiedad (TCO)No hay costos de Licencias.Ciclos de implantacin cortos.Costos de mantenimiento Reducidos.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • LOS PRIMEROS PASOS CON PDI.

    Instalacin de PDI.

    Lo primero que se debe hacer es descargar la ultima versin disponible en la siguiente Url:http://www.pentaho.com/download http://sourceforge.net/projects/pentaho/files/latest/download.

    Teniendo finalmente descargado el archivo pdi-ce-4.4.0-stable.tar.gz se debe descomprimir mediante consola bajo root para que herede los permisos necesarios,lo primero se debe comprobar que se tiene instalado la herramienta tar

    luego ubicamos la ruta de la carpeta mediante un cd + ruta

    para descomprimir se coloca el siguiente comando

    de tener problemas con algn permiso para la ejecucin se debe entregar privilegios root de forma recursiva a todo el proyecto, se puede utilizar la instruccin: #chmod -R 777 + la ruta de la carpeta donde se descomprimi el archivo.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • Teniendo ya debidamente descomprimido y con sus respectivos permisos para su ejecucin se recomienda ejecutar el archivo spoon.sh atraves de la consola root por sh spoon.sh, ya que de esta forma se puede visualizar las etapas que esta sufriendo la creacin y ejecucin de los procesos mediante el spoon; debe tenerse en cuenta que se debe instalar previamente openjdk-7-jre ya que el mismo requiere estas dependencias.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • INTRODUCCION A SPOON

    Creacin de entorno de trabajo basado en un repertorio dispuesto en una base de datos.

    Al iniciar por ves primera la aplicacin se tendr la siguiente UI(Fig.1):

    Fig.1 Repositorio de Conexiones

    Hacer clip en add button resaltado con la flecha en la (Fig.1), y emerger la siguiente pantalla(Fig.2):

    Nota: En caso de que se se muestre esta ventana(Fig.1.1), se recomienda dar clip en la opcin resaltada con la flecha azul.

    Fig.1.1 Seleccionar el tipo de Repositorio.

    Fig.2 Informacin del Repositorio.

    Luego dar clip en new, resaltado con la flecha en (Fig.2), pasar a la siguiente pantalla(Fig.3) :

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • Pestaa General:

    Fig.3 Conexin a base de datos.

    En esta pantalla (Fig.3) es donde se configura las informaciones bsicas sobre la conexin en cuestin, tales como:

    1. Nombre de la Conexin.2. Tipo de Conexin.3. Mtodo de Acceso4. Nombre del host Ip.5. Nombre de la base de datos.6. Puerto de conexin.7. Usuario y contrasea.8. Pestaa Advanced

    Lo primero a realizar, es darle un nombre a la conexin ("Connection Name").Luego debe seleccionarse en el listado "Connection Type" el tipo de base de datos que utilizaremos. De acuerdo a lo que se elija, las opciones disponibles en "Setting" y "Access" variaran.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • Una vez que se han completado los datos de "Connection Name" , "Connection Type", "Connection Access" y "Connection Setting" es recomendable presionar el botn "Test" para verificar la correcta configuracin de la conexin.

    El botn "Lista de" (Lista de funciones) muestra una tabla con variables y valores relacionados a la conexin actual.

    El botn "Explorar" permite navegar interactivamente en la base de datos en cuestin, visualizar tablas, vistas y datos, generar DDL, etc.

    Nota: Si al realizar el "Test" se obtiene el siguiente mensaje:

    Fig.3.1 Conexin a base de datos. Fig.3.2 Conexin a base de datos.

    Lo ocurrido en la (Fig.3.1) es que el usuario o la contrasea utilizada para la conexin es incorrecto, en cambio lo sealado en la (Fig.3.2) refiere a que la base de datos, no existe en la conexin.

    De ser exitosa la conexin se mostrara el siguiente mensaje (Fig 3.3):

    Fig.3.3 Conexin a base de datos Test.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • Pestaa Advanced

    En esta pestaa (Fig.4) es donde se configura la informacin avanzada sobre la conexin. Las opciones disponibles son las siguientes:

    1. Soporte de tipo de datos booleanos. 2. Encomillado. 3. Forzar a mayscula. 4. Forzar a minscula. 5. Esquema por defecto. 6. Sentencias SQL a ejecutarse luego de realizada la conexin

    Fig.4 Conexin a base de datos(Advanced).

    Nota: Se recomienda habilitar Soporte de tipo de datos booleanos ya que extiende la operatividad de la herramienta.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • Ya teniendo la conexin exitosa con la base de datos se procede a dar clip en ok luego se coloca el Id y el name del repositorio tal como se muestra en (Fig.5).

    Fig.5 Informacin del Repositorio.

    Nota: Previo a la nueva conexin debe tenerse presente que se debe crear la bese de dato para que luego la herramienta para la migracin cree las tablas necesarias siguiendo los pasos descrito a continuacin.

    Por ser la primera ves que se crea el repositorio, es necesario establecer la estructura e insertar los datos de inicializacin del mismo, esto se logra con el botn de Create or Upgrade que se muestra en la (Fig.5 ), seguido a esto se mostrar el mensaje siguiente (Fig 5.1), Cliquear S, luego en el mensaje (Fig 5.2) Cliquear S, de tal forma que en la ventana (Fig 6), se de un clip en Execute, ejecutando de esta manera el scrip, generando as una clave por defecto de user name: admin y password: admin, para poder ingresar al repositorio.

    Fig.5.1 Informacin del Repositorio. Fig.5.2 Informacin del Repositorio.

    Fig.6 SQL Editor.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • Culminado el proceso antes descrito cerramos la ventana en el botn Ok entrando as satisfactoriamente al repositorio en la base de dato, ver (Fig 7).

    Fig.7 Pantalla de Bienvenida al Spoon.

    Nota: Es recomendable cambiar de forma inmediata la contrasea admin. A continuacin se indican la ruta para el cambio de la misma.

    Se ubican en la barra de men y seleccionan la herramienta Tools. Ingresan al sub-men repositorio Repository y ubica la opcin Explore. Seguidamente aparece un cuadro de dialogo donde, se escoge la pestaa de seguridad [1].Security y selecciona el User [2].admin y el botn [3].editar como se observa en las (Fig.8) y se cambia el password (Fig.8.1).

    Fig.8 Explorador del Repositorio. Fig.8.1 Editor de Usuario.

    Teniendo ya la contrasea ya se est preparado par realizar las primeras transformaciones.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • Mi primer KTR.

    Antes de comenzar con la explicacin de algunos objetos de la herramienta, se hace necesario conocer definiciones muy utilizadas en lo referente a PDI.

    Transformacin Transformation

    La siguiente tabla contiene una lista de definiciones de Transformacin, se sugiere ver la (Fig 9):

    Transformacin Descripcin Valor Valores que forman parte de una fila y que

    pueden contener cualquier tipo de datos: cadenas, nmeros de punto flotante, nmeros grandes de precisin ilimitada, enteros, fechas o valores booleanos.

    Fila Una fila consiste de 0 o ms valores procesados mediante una sola entrada.

    Flujo de Entrada Conjunto de filas que ingresan a un paso.

    Salto Representacin grfica de uno o ms flujos de datos entre 2 pasos; un salto siempre representa el flujo de salida de un paso y el flujo de entrada de otro (la cantidad de flujos es igual a las copias del paso destino, una o ms).

    Nota Texto descriptivo que se puede agregar a la Transformacin.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

    Nota

    Salto

    Paso

  • Trabajo Job

    La siguiente tabla contiene una lista de definiciones de Trabajo:

    Trabajo Job Descripcin Entrada de Trabajo Representa una parte de un trabajo que realiza

    una tarea especfica.

    Salto Representacin grfica de uno o ms flujos de datos entre 2 pasos; un salto siempre representa el flujo de salida de un paso y el flujo de entrada de otro (la cantidad de flujos es igual a las copias del paso destino, uno o ms)

    Nota Texto descriptivo que se puede agregar a un Trabajo

    Barra de Herramienta.

    La barra de tarea de PDI consta de una serie de iconos que pueden variar segn lo que se este realizando, a continuacin se detallan cada uno de estos iconos.

    Iconos Generales

    Iconos disponibles para las transformaciones.

    Iconos disponibles para los Job.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

    Nota

    Salto

    Entrada de trabajo

  • Icono Descripcin

    Crea un nuevo Trabajo o Transformacin

    Abre una Transformacin/Trabajo desde un archivo si no est conectado a un Catlogo o desde el Catlogo si se est conectado a uno.

    Guarda la Transformacin/Trabajo en un archivo o en el Catlogo.

    Guarda la Transformacin/Trabajo con un nombre diferente y/o en diferente lugar.

    Ejecuta la Transformacin/Trabajo actual desde el archivo XML o Catlogo.

    Pone en pausa la ejecucin de la actual Transformacin.

    Detiene la ejecucin de la actual Transformacin/Trabajo.

    Vista previa de la Transformacin: ejecuta la Transformacin actual desde la memoria. Puede obtener una vista previa de las filas generadas por los pasos seleccionados.

    Ejecuta la Transformacin en el modo de depuracin, lo cual permite detectar problemas y/o errores en la ejecucin.

    Repite el procesamiento de una Transformacin para una determinada fecha y hora. Esto har que algunos pasos (entrada archivo de texto y entrada Excel) slo procesen las filas que no fueron interpretadas correctamente durante la ejecucin en una fecha y hora en particular.

    Verifica la Transformacin: Spoon ejecuta varias pruebas para cada paso para ver si todo va a funcionar como debera.

    Ejecuta un anlisis de impacto: analiza qu impacto tendr la Transformacin sobre las bases de datos utilizadas.

    Genera el SQL necesario para ejecutar la actual Transformacin/Trabajo.

    Abre el explorador de bases de datos y permite realizar una vista previa de los datos, ejecutar las consultas SQL, generar DDL (Lenguaje de Definicin de Datos), etc.

    Muestra u oculta el panel de resultados de la ejecucin de la Transformacin/Trabajo.

    Representa el tamao de visualizacin (en porcentaje) del rea de trabajo.

    Para comenzar a trabajar se recomienda organizar los repositorios mediante directorios creando para ello carpetas en el Explore. La ruta de acceso es barra de men botn herramientas Tools, Ingresa al sub-men repositorio Repository y ubica la opcin Explore, CTRL+E. Ver Fig.10 y Fig.11.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • Fig,10 Organizar Repositorios

    Fig.11 Crear Nuevo Carpeta

    Para crear un KTR se debe ingresar la siguiente ruta File/New/transformation

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • CTRL+N; Seguidamente dar cumplimiento al principio de leer, transformar y cargar los datos en el data-receptor.

    Para leer los datos se utiliza generalmente Table input, Ver Fig.12, ya que mediante este se leen base de datos, siguiendo la UI mostrada al principio, que describe la conexin General(1).

    Luego de haber conectado con xito se da un clip en (2) all se genera el scrip de consulta, otra forma es generar el scrip previamente y pegarlo en el interprete de sql dispuesto para ello teniendo as un control mayor par la lectura de los datos(3).

    Fig.12 Objeto Table input.

    Se recomienda darle un preview (4) a la data para visualizar si los datos consultados son los correctos, luego se le debe dar ok.

    Generalmente luego de esto se incluye una transformacin segn se requiera, y esta se encuentra en el tree Trasform

    Para conectar un objeto con el otro se hace mediante un flujo de direccin y este se controla mediante la pulsacin de la tecla shift seguida de un clip con el mouse y desplazarlo hasta el objeto que se desea conectar.

    Para terminar se necesita cargar la transformacin en el receptor, para ello se utiliza los objetos dispuestos en el tree Output, generalmente se utiliza el Table output para migrar

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • finalmente la data al receptor. En este objeto se debe conectar la base de datos receptora mediante la interfase de conexin general que fue descrita al principio de este manual. Luego de tener conectada la base de dato, se debe apuntar al schema y la tabla que se quiere cargar.

    PRINCIPALES HERRAMIENTAS EN PENTAHO

    Table input

    Lee informacin de una base de datos, utilizando una conexin y SQL, Ver Fig. 13.

    Opciones de Entrada de Tablas

    1. Step Name: el nombre debe ser nico en una misma transformacin.

    2. Connection: es la conexin de la base de datos de la cual se lee la data.

    3. SQL: La sentencia usada para leer la informacin de la base de datos.

    4. Insert data from step:El paso de donde vienen los parmetros para la sentencia

    SQL.

    5. Limit: El nmero de lneas a leer de la base de datos.

    Fig.13 Objeto Table input.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • Add constants

    Aade constantes a un flujo.

    Elementos ms relevantes:

    1. Especifica un nombre

    2. El tipo de dato.

    3. Especificar el formato para convertir el valor.

    4. Especifica la Longitud.

    5. Introducir el valor como una cadena de caracteres

    Nota: Si la representacin en cadena de caracteres de un campo es igual al valor

    especificado, entonces el valor de salida es cambiado a nulo (vaco).

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • Select values

    Este paso es usado para

    Seleccionar/Remover campos del flujo del proceso

    Renombrar campos

    Especificar/Cambiar la longitud y o precisin de los campos

    Se proveen 3 Pestaas:

    1. Select & Alter (Seleccionar y Alterar): Especifica el nombre y el orden exacto

    en que los campos deben ser colocados en la fila de salida.

    2. Remove (Remover): Especifica los campos que deben ser removidos de la fila

    de salida.

    3. Meta-data: Cambia el nombre, tipo, longitud y precisin (la meta-data) de

    uno o mas campos.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • Table Output

    Insertar (nicamente) informacin en una tabla de base de datos.

    Opciones

    1. Step name: Esta casilla se coloca el nombre referencial de la insercin.

    2. Conection: Se elige la conexin para la insercin de la data.

    3. Target schema: Muestra o elige el esquema donde se insertara los datos.

    4. Target table : Esta opcin es para ubicar la tabla dentro de un schema conectado

    previamente.

    5. Commit size : Bucle de registros pre-procesados para su insercin.

    6. Truncate table : Opcional para truncar la tabla antes de su la insercin.

    7. Ignore insert errors : Evita una interrupcin si ocurre un error al insertar.

    8. Specify database fields : Esta se debe tildar para realizar el mapeo de los datos en

    la pestaa Database fields.

    9. Enter field mapping: Se debe tildar la opcin: Specify database fields, para

    realizar el mapeo de la data.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.

  • Replace in string

    Reemplaza cadenas de caracteres (string) por otro valor de tipo string.

    Opciones Disponibles:

    1. In stream field: En esta casilla se indica cual es el campo, en donde se

    reemplazara el valor afn.

    2. Out stream field: Esta casilla permite cambiar el nombre del campo resultante.

    3. Search: Es en esta casilla donde se coloca cual es el carcter que se va ha buscar

    para que posteriormente sea re-emplazado.

    4. Replace with: Aqu se coloca el carcter que reemplazara el carcter buscado.

    5. Replace with field: En esta casilla se configura si se necesita reemplazar el

    contenido con los registros de otro campo.

    Nota: se debe combinar esta herramienta con Select values en los casos donde se

    valla a reemplazar tipos de datos diferentes a String, haciendo entonces un

    cambio a tipo de datos String.

    Elaborado por: Revisado por: Autoriz: Revisin 1.0

    Winter X. Corrales P.Administrador de Base de Datos

    e inteligencia de negocio.

    Daniel I. Herrera R.Coordinador de Base de Datos

    e inteligencia de negocio.