Gestión de La Disponibilidad

30
GESTIÓN DE DISPONIBILIDAD .

description

Analisis de Disponibilidad en Proyectos

Transcript of Gestión de La Disponibilidad

Gestin de la Disponibilidad

GESTIN DE DISPONIBILIDAD.1Algunas investigaciones muestran que fallas en la gente y/o los procesos son causa directa del 80% de los tiempos de cadas de los sistemas de aplicacin.El restante 20% es causado por fallas en la tecnologa, fallas en el medio ambiente o los desastres.2La complejidad de la infraestructura y las aplicaciones de TI hoy da, hacen difcil la gestin de sistemas con alta disponibilidad.Las aplicaciones de alta disponibilidad deben ser manejadas con disciplinas operacionales incluyendo monitoreo de la actividad de la red, actividades de gestin de sistemas, etc. para evitar apagones y cadas potencialmente devastadoras.3Availability Management (Gestin de la disponibilidad) es una disciplina proactiva de gestin de operaciones, la cual tiene altas recompensas de forma directa.Esta disciplina involucra el uso de herramientas automatizadas para prevenir problemas (ej. incremento automtico en el espacio disponible para archivos cuando se alcanza un umbral) y un calendario de trabajo para reducir errores del operador y mejorar la disponibilidad de datos y aplicaciones en lote (batch).4OBJETIVOOptimizar la capacidad de la infraestructura de TI, servicios y soporte de la organizacin para entregar un nivel de disponibilidad a un costo efectivo, que habilite al negocio para satisfacer sus objetivos de negocio.5Gestin de la DisponibilidadNuestras vidas, tanto personales como profesionales, dependen cada vez ms de la tecnologa. sta nos permite acceder a la informacin y a los servicios a una velocidad que ni siquiera podramos haber soado hace unos pocos aos.Nuestro ritmo de vida se acelera y exigimos como clientes unadisponibilidadabsoluta de nuestros proveedores tecnolgicos. Con frecuencia una oferta diferente slo se encuentra a un par de clics de distancia.Por otro lado, el rpido desarrollo tecnolgico implica una constante renovacin de equipos y servicios. Como proveedores nos enfrentamos al reto de evolucionar sin apenas margen para el error pues nuestros sistemas han de encontrarse a disposicin del cliente prcticamente24/7.LaGestin de la Disponibilidades responsable de optimizar y monitorizar los servicios TI para que estos funcionen ininterrumpidamente y de manera fiable, cumpliendo losSLAsy todo ello a un coste razonable. La satisfaccin del cliente y la rentabilidad de los servicios TI dependen en gran medida de su xito.La gestin de disponibilid hace una Optimizacin del uso de los recursos de TI, anticipa fallos esperados, mientras asegura los requerimientos necesarios por el negocio.La Gestin de Disponibilidad es esencial para asegurar la provisin de los Niveles de Servicio correctos, y as impactar positivamente en los objetivos del negocio.La Gestin efectiva de la Disponibilidad impacta directamente en la satisfaccin del Cliente y en la reputacin del Negocio

ResponsabilidadesLas responsabilidades de laGestin de la Disponibilidadincluyen:Determinar los requisitos de disponibilidad en estrecha colaboracin con los clientes.Garantizar el nivel de disponibilidad establecido para los servicios TI.Monitorizar la disponibilidad de los sistemas TI.Proponer mejoras en la infraestructura y servicios TI con el objetivo de aumentar los niveles de disponibilidad.Supervisar el cumplimiento de losOLAsyUCsacordados con proveedores internos y externos.

Las interacciones y funciones de laGestin de la Disponibilidadse resumen en el siguiente grfico:

ACTIVIDADESDeterminar los requerimientos de disponibilidadLa entrada proviene del Nivel de Gestin de ServicioDeterminar las funciones vitales para el negocio (VBFs)Entrada para la Gestin de la Continuidad del Servicio.Anlisis de impacto para el negocioGestin del Anlisis de Riesgo (entrada para la Gestin de la Continuidad del Servicio)Definicin de objetivos de disponibilidad, confiabilidad y sustentabilidadEntrada para los Service Level Agreements(SLAs) y otros contratos.Monitoreo y anlisis de tendenciasMTBF (Tiempio medio entre fallos)MTBSI (Tiempo medio entre incidencias de sistemas)10ACTIVIDADESAnlisis de las causas de la baja disponibilidadRelacin con el proceso de Gestin de ProblemasEl control reactivo de problemas tiene que ver con la identificacin de las causas reales subyacentes en un incidente a fin de prevenir futuras recurrencias.Las 3 fases involucradas en el control (reactivo) de problemas son:Identificacin y registro del problemaClasificacin del problema en trminos del impacto sobre el negocioInvestigacin del problema y diagnsticoProduccin y mantenimiento de un Plan de Disponibilidad11TERMINOLOGA

Disponibilidad (Availability): Indicador clave del servicio provisto. Debe ser definido en el Acuerdo del Nivel de Servicio (SLA)Confiabilidad (Reliability): La Confiabilidad del servicio est conformada de la confiabilidad de los componentes y de la resistencia o elasticidad de la infraestructura de TI.Utilidad del Servicio (Service ability): Acuerdos y arreglos contractuales con terceras partes en consideracin al mantenimiento.Sustentabilidad (Maintain ability): La habilidad del grupo de TI para mantener la infraestructura de TI en un estado operacional de conforme a los niveles de servicio acordados la Certeza de: capacidad de un componente en regresar a un estado en el que se proporcione la funcionalidad estndar.

12TERMINOLOGA

Seguridad (Security): Confidencialidad, Integridad y Disponibilidad (CIA) de los DATOS.

Funcin Vital para el Negocio (Vital Business Function): funcin crtico del negocio que es soportado por el servicio de TI.

Resistencia/Elasticidad (Resilience) habilidad de seguir funcionando despus de que uno o mas de sus componentes han falladoCapacidad de Servicio: determina la disponibilidad de los servicios internos y externos contratados y su adecuacin a losOLAsyUCsen vigor. Cuando un servicio TI es subcontratado en su totalidad la disponibilidad y la capacidad de servicio son trminos equivalentes.Mantenimiento: las actividades necesarias para mantener el servicio en operacin y para restituirlo cuando falla.La Gestin de Disponibilidad definir las funciones vitales del negocio y medir la disponibilidad y el comportamiento de la infraestructura TI para crear un Plan de Disponibilidad e implementar una estrategia para la disponibilidad.

13OTRAS RELACIONES DE PROCESOSLa siguientes son las mtricas comnmente usadas en Availability Management:Tiempo promedio de reparacin MTTR: tiempo promedio entre la ocurrencia de una falla y la recuperacin del servicio (o el downtime)Tiempo medio entre fallas MTBF: tiempo promedio entre la recuperacin de un incidente y la ocurrencia del siguiente incidente.Tiempo medio entre incidencias de Sistemas MTBSI: tiempo promedio entre la ocurrencia de dos incidentes consecutivos. MTBSI = MTTR + MTBF

14OTRAS RELACIONES DE PROCESOSLa proporcin del MTBF para el MTBSI muestra si hay muchas fallas menores o slo unas pocas fallas mayores.

Los reportes de disponibilidad pueden incluir las siguientes mtricas:Tasa de disponibilidad (o no disponibilidad) en trminos de MTTR, MTBF y MTBSITiempo total tanto arriba (uptime) como abajo (downtime), nmero de fallas o cadasInformacin adicional acerca de cadas o fallas las cuales resulten en un nivel real o potencial mayor que la no disponibilidad acordada.15

Los principales beneficios de una correctaGestin de la Disponibilidadson:Cumplimiento de los niveles de disponibilidad acordados.Se reducen los costes asociados a un alto nivel de disponibilidad.El cliente percibe una mayor calidad de servicio.Se aumentan progresivamente los niveles de disponibilidad.Se reduce el nmero de incidentes.Las principales dificultades con las que topa laGestin de la Disponibilidadson:No se monitoriza correctamente la disponibilidad real del servicio.No existe compromiso con el proceso dentro de la organizacin TI.No se dispone de las herramientas de software y personal adecuado.Los objetivos de disponibilidad no estn alineados con las necesidades del cliente.Falta de coordinacin con los otros procesos.Los proveedores internos y externos no reconocen la autoridad delGestor de la Disponibilidadpor falta de apoyo de la direccin.

RESULTADOS

Objetivos de Disponibilidad Acordados (incluyendo criterio de Disponibilidad para nuevos servicios)

Reportes de Disponibilidad (Availability): Conocimiento de la disponibilidad del SERVICIO End-to-End.

Plan de Disponibilidad 18PROCESO

Entre las actividades de laGestin de la Disponibilidadse encuentran:Determinar cuales son los requisitos de disponibilidad reales del negocio.Desarrollar un plan de disponibilidad donde se estimen las necesidades de disponibilidad futura a corto y medio plazo.Mantenimiento del servicio en operacin y recuperacin del mismo en caso de fallo.Realizar diagnsticos peridicos sobre la disponibilidad de los sistemas y servicios.Evaluar la capacidad de servicio de los proveedores internos y externos.Monitorizar la disponibilidad de los servicios TI.Elaborar informes de seguimiento con la informacin recopilada sobre disponibilidad, fiabilidad, matenibilidad y cumplimiento deOLAsyUCs.Evaluar el impacto de las polticas de seguridad en la disponibilidad.Asesorar a laGestin del Cambiosobre el posible impacto de un cambio en la disponibilidad.

El proceso ITIL de Gestin de la disponibilidad abarca los siguientes subprocesos.Diseo del Servicio para Disponibilidad Objetivo Procesal: Configurar tcnicas y procedimientos para cumplir con los objetivos de disponibilidad propuestos.Pruebas de la Disponibilidad Objetivo Procesal: Asegurar que todos los mecanismos de disponibilidad, resistencia y recuperacin sean objeto de pruebas frecuentes.Monitorizacin e Informes de la Disponibilidad Objetivo Procesal: Proveer otros procesos de Gestin de Servicios y la direccin de TI con informacin relacionada con la disponibilidad de servicios y componentes. Esto implica comparar logros de disponibilidad con las metas iniciales e identificar aquellas reas donde la disponibilidad necesita mejorar.REQUISITOSEs indispensable cuantificar los requisitos de disponibilidad para la correcta elaboracin de losSLAs.La disponibilidad propuesta debe encontrase en lnea tanto con las necesidades reales del negocio como con las posibilidades de la organizacin TI.Aunque en principio todos los clientes estarn de acuerdo con unas elevadas cotas de disponibilidad es importante hacerles ver que una alta disponibilidad puede generar unos costes injustificados dadas sus necesidades reales. Quiz unas pocas horas sin un determinado servicio pueden representar poco ms all de una pequea inconveniencia mientras que la certeza de un servicio prcticamente continuo y sin interrupciones puede requerir la replicacin de sistemas u otras medidas igualmente costosas que no van a tener una repercusin real en la rentabilidad del negocio.Para llevar a cabo eficientemente est tarea es necesario que laGestin de la Disponibilidad:Identifique las actividades clave del negocio.Cuantifique los intervalos razonables de interrupcin de los diferentes servicios dependiendo de sus respectivos impactos.Establezca los protocolos de mantenimiento y revisin de los servicios TI.Determine las franjas horaria de disponibilidad de los servicios TI (24/7,12/5,

PLANIFICACION

La correcta planificacin de la disponibilidad permite establecer unos niveles de disponibilidad adecuados tanto en lo que respecta a las necesidades reales del negocio como a las posibilidades de la organizacin TI.El documento que debe recoger los objetivos de disponibilidad presentes y futuros y que medidas son necesarias para su cumplimiento es elPlan de Disponibilidad.Este plan debe recoger:La situacin actual de disponibilidad de los servicios TI. Obviamente esta informacin debe ser actualizada peridicamente.Herramientas para la monitorizacin de la disponibilidad.Mtodos y tcnicas de anlisis a utilizar.Definiciones relevantes y precisas de las mtricas a utilizar.Planes de mejora de la disponibilidad.Expectativas futuras de disponibilidad.Es imprescindible que este plan proponga los cambios necesarios para que se cumplan los estndares previstos y colabore con laGestin de Cambiosy laGestin de Versionesen su implementacin (en caso de ser aprobados, claro est).Para que este plan sea realista debe contar con la colaboracin de los otros procesos TI involucrados.Diseo para la DisponibilidadEs crucial para una correctaGestin de la Disponibilidadparticipar desde el inicio en el desarrollo de los nuevos servicios TI de forma que estos cumplan los estndares plasmados en elPlan de Disponibilidad.Un diferente nivel de disponibilidad puede requerir cambios drsticos en los recursos utilizados o en las actividades necesarias para suministrar un determinado servicio TI. Si ste se disea sin tener en cuenta futuras necesidades de disponibilidad puede ser necesario un completo rediseo al cabo de poco tiempo, incurriendo en costes adicionales innecesarios.MANTENIMIENTO Y SEGURIDAD

Aunque hayamos realizado un correcto diseo de los servicios segn elPlan de Disponibilidady se hayan tomado todas las medidas preventivas necesarias, tarde o temprano, nos habremos de enfrentar a interrupciones del servicio.En esos casos es necesario recuperar el servicio lo antes posible para que no tenga un efecto indeseado sobre los niveles de disponibilidad acordados.Aunque la responsabilidad de restaurar el servicio corresponde a laGestin de Incidentesy las actividades de recuperacin han de ser coordinadas por elService Desk, laGestin de la Disponibilidaddebe prestar su asesoramiento mediante planes de recuperacin que tengan en cuenta:Las necesidades de disponibilidad del negocio.Las implicaciones del incidente en la infraestructura TI y los procesos necesarios para restaurar el servicio.Gestin de las Interrupciones de MantenimientoIndependientemente de las interrupciones del servicio causadas por incidencias es habitualmente necesario interrumpir el servicio para realizar labores de mantenimiento y/o actualizacin.Estas interrupciones programadas pueden afectar a la disponibilidad del servicio y por lo tanto han de ser cuidadosamente planificadas para minimizar su impacto.En aquellos casos en que los servicios no son24/7es obvio que, siempre que ello sea posible, deben aprovecharse las franjas horarias de inactividad para realizar las tareas que implican una degradacin o interrupcin del servicio.Si el servicio es24/7y la interrupcin es necesaria se debe:Consultar con el cliente en que franja horaria la interrupcin del servicio afectar menos a sus actividades de negocio.Informar con la antelacin suficiente a todos los agentes implicados.Incorporar dicha informacin a losSLAs.Uno de los aspectos esenciales para obtener altos niveles de fiabilidad y disponibilidad es una correctaGestin de la Seguridad.Los aspectos relativos a la seguridad deben ser tomados en cuenta en todas las etapas del proceso.Es tan importante determinar cundo el servicio estar disponible como el "quin y cmo" va a utilizarlo. Ladisponibilidadyseguridadson interdependientes y cualquier fallo en una de ellas afectar gravemente a la otra.

MONITORIZACION

La monitorizacin de la disponibilidad del servicio y la elaboracin de los informes correspondientes son dos de las principales actividades de laGestin de la Disponibilidad.Desde el momento de la interrupcin del servicio hasta su restitucin o "tiempo de parada" el incidente pasa por distintas fases que deben ser individualizadamente analizadas:Tiempo de deteccin: es el tiempo que transcurre desde que ocurre el fallo hasta que la organizacin TI tiene constancia del mismo.Tiempo de respuesta: es el tiempo que transcurre desde la deteccin del problema hasta que se realiza un registro y diagnstico del incidente.Tiempo de reparacin/recuperacin: periodo de tiempo utilizado para reparar el fallo o encontrar un "workaround" o solucin temporal al mismo y devolver el sistema a la situacin anterior a la interrupcin del servicio.

Es importante determinar mtricas que permitan medir con precisin las diferentes fases del ciclo de vida de la interrupcin del servicio. El cliente debe conocer estas mtricas y dar su conformidad a las mismas para evitar malentendidos. En algunos casos es difcil determinar si el sistema est "cado o en funcionamiento" y la interpretacin puede diferir entre proveedores y clientes, por lo tanto, ests mtricas deben de poder expresarse en trminos que el cliente pueda entender.Algunos de los parmetros que suele utilizar laGestin de la Disponibilidady que debe poner a disposicin del cliente en los informes de disponibilidad correspondientes incluyen:Tiempo Medio de Parada(Downtime) : que es el tiempo promedio de duracin de una interrupcin de servicio, e incluye el tiempo de deteccin, respuesta y resolucin.Tiempo Medio entre Fallos(Uptime): es el tiempo medio durante el cual el servicio esta disponible sin interrupciones.Tiempo Medio entre Incidentes: es el tiempo medio transcurrido entre incidentes que es igual a la suma del Tiempo Medio de Parada y el Tiempo Medio entre Fallos. El Tiempo Medio entre Incidentes es una medida de la fiabilidad del sistema.

CONTROL DEL PROCESOLaGestin de la Disponibilidaddebe elaborar peridicamente informes sobre su gestin que incluyan informacin relevante tanto para los clientes como para el resto de la organizacin TI.Estos informes deben incluir:Tcnicas y mtodos utilizados para la prevencin y el anlisis de fallos.Informacin estadstica sobre:Tiempos de deteccin y respuesta a los fallos.Tiempos de reparacin y recuperacin del servicio.Tiempo medio de servicio entre fallos.Disponibilidad real de los diferentes servicios.Cumplimiento de losSLAsen todo lo referente a la disponibilidad y fiabilidad del servicio.Cumplimiento de losOLAsyUCsen todo lo referente a la capacidad de servicio prestada por los proveedores internos y externos.Para que toda esta informacin sea fcil y correctamente analizada es imprescindible el establecimiento de mtricas precisas que permitan determinar de forma inequvoca parmetros tales como tiempos de parada y funcionamiento. Por ejemplo, en el caso de un servicio online de comercio electrnico se puede considerar que tiempos de respuesta superiores a 10 segundos son equivalentes a que el sistema esta cado, aunque estrictamente hablando el sistema termine respondiendo.

ASTse corresponde con el tiempo acordado de servicio,DTes el tiempo de interrupcin del servicio durante las franjas horarias de disponibilidad acordadas.Por ejemplo, si el servicio es24/7y en el ltimo mes el sistema ha estado cado durante 4 horas por tareas de mantenimiento .LaGestin de la Disponibilidadtiene a su disposicin un buen nmero de mtodos y tcnicas que le permiten determinar que factores intervienen en la disponibilidad del servicio y que le permiten consecuentemente prever que tipo de recursos se deben asignar para las labores de prevencin, mantenimiento y recuperacin, as como elaborar planes de mejora a partir de dichos anlisis.Entre dichas tcnicas se cuentan:CFIAQue son las siglas de(Anlisis del Impacto de Fallo de Componentes).Mediante est metodo se identifica el impacto que tiene en la disponibilidad de los servicios TI el fallo de cada elemento de configuracin involucrado. Es evidente que este mtodo requiere unaCMDBcorrectamente actualizada.FTAQue son las siglas de (Anlisis del rbol de Fallos).Su objetivo es estudiar como se "propagan" los fallos a travs de la infraestructura TI para comprender mejor su impacto en la disponibilidad del servicio.CRAMMQue son las siglas de(Mtodo de Gestin y Anlisis de Riesgos de la CCTA).Su objetivo es identificar los riesgos y vulnerabilidades a los que se haya expuesta la infraestructura TI con el objetivo de adoptar contramedidas que los reduzcan o que permitan recuperar rpidamente el servicio en caso de interrupcin del mismo.SOAQue son las siglas de (Anlisis de Interrupcin del Servicio).sta tcnica tiene como objetivo analizar las causas de los fallos detectados y proponer soluciones a los mismos.Se diferencia de los anteriores mtodos en que realiza el anlisis desde el punto de vista del cliente haciendo especial nfasis en aspectos no exclusivamente tcnicos ligados directamente a la infraestructura TI.

METODOS TECNICASCaso PrcticoLa disponibilidad12/7es algo a lo que los clientes de "Cater Matters" otorgan una gran importancia.Los servicios TI slo juegan una pequea, aunque importante, parte en los servicios prestados por la organizacin a sus clientes y los problemas de disponibilidad suelen proceder de procesos no directamente ligados con la tecnologa. Sin embargo, una interrupcin de los servicios online pueden presuponer un grave problema dado el alto volumen de pedidos que se reciben por dicho canal, la prctica totalidad, as como su importancia en el apartado de la gestin de stocks de materia prima.LaGestin de la Disponibilidad, en colaboracin con los responsables de otros procesos TI ha sido encargada de elaborar nuevos planes de disponibilidad que tengan en cuenta un rpido crecimiento del negocio que puede implicar una disponibilidad24/7para diferentes lneas de negocio.La elaboracin de este nuevo plan requiere:La revisin de losUCsen vigor con los proveedores de servicios de Internet.Definicin de niveles de disponibilidad para los nuevos servicios.Diseo para la disponibilidad24/7de los servicios TI ofrecidos.Nuevos planes de gestin del mantenimiento que ahora requerirn una interrupcin real del servicio.Por otro lado, la gestin de "Cater Matters" ha decidido informar peridicamente a sus clientes sobre los niveles de rendimiento y disponibilidad de los diferentes servicios prestados. Para ello ha encargado a laGestin de la Disponibilidadque implante los procedimientos necesarios para la medicin del:Tiempo transcurrido entre incidentes.Tiempo de parada del servicio.Tiempo de respuesta para cada incidente.Retraso en el la entrega del servicio.Que se complementarn con un mdulo de clculo estadstico y de generacin automtica de informes sobre el cumplimiento de los niveles de disponibilidad acordados para cada cliente.De esta forma "Cater Matters" busca entablar una relacin de confianza con sus clientes y mantener a la organizacin TI alerta sobre posibles degradaciones de los niveles de calidad del servicio.