Piti 09-manajemen ketersediaan-infrastruktur_ti
Transcript of Piti 09-manajemen ketersediaan-infrastruktur_ti
1
Manajemen Ketersediaan
(Availability Management)
Infrastruktur TI
Perencanaan Infrastruktur Teknologi Informasi
Program Magister Teknologi InformasiUniversitas Indonesia
2
Pertanyaan
Apakah itu ketersediaan layanan TI? Komponen infrastruktur apa yang
menentukan ketersediaan layanan TI? Faktor apakah yang mempengaruhi
ketersediaan infrastruktur TI? Bagaimana strategi pencapaian tingkat
ketersediaan infrastruktur TI? Bagaimana caranya menyempurnakan
ketersediaan infrastruktur TI?
3
Kebutuhan Bisnis
Ketergantungan bisnis modern pada TI menuntut ketersediaan layanan TI yang tinggi. Terhentinya layanan dapat berakibat
kerugian yang sebanding dengan lamanya gangguan.
Fleksibilitas bisnis berkat teknologi internet (transaksi kapan saja dimana saja) menuntut ketersediaan layanan TI setiap saat (24jam x 7hari).
4
Ketersediaan
Availability adalah kemampuan fasilitas TI untuk menjalankan fungsi pada saat dibutuhkan atau untuk menjalankan fungsi selama suatu periode waktu tertentu.
Ketersediaan umumnya diikat dengan service level agreement (SLA) Dalam bentuk target prosentase waktu
dimana layanan tersedia. Contoh: 99,9% (dalam waktu satu tahun,
total waktu mati tidak boleh melebihi 0.1% ≈ 8.75 jam).
6
Tujuan Manajemen Ketersediaan Tujuan dari proses manajemen
ketersediaan adalah untuk memastikan bahwa tingkat ketersediaan layanan yang diberikan sesuai dengan atau melebihi kebutuhan bisnis yang telah disepakati saat ini dan masa depan, dengan biaya yang efektif
7
Pengukuran Ketersediaan
Ketersediaan layanan TI dapat diukur dari: Log transaksi client: (total_requests –
total_requests_gagal) / total_requests
Log aktivitas server: (total_jam_layanan – total_jam_tak_beroperasi) / total_jam_layanan
Ukuran menurut client dan server dapat berbeda, cara pengukuran harus disepakati.
Tingkatan Ketersediaan Service availability Component availability
8
Prinsip Manajemen Ketersediaan (1)
Prinsip 1: Ketersediaan adalah inti dari (persepsi) kepuasan pengguna dan bisnis.
9
Prinsip Manajemen Ketersediaan (2)
Prinsip 2: Kecepatan menanggulangi gangguan ketersediaan berdampak besar pada kepuasan bisnis dan pengguna. Menuntut adanya proses, prosedur, dan
mekanisme penanggulangan gangguan.
Prinsip 3: Manajemen Ketersediaan yang efektif menuntut pemahaman tentang peran layanan TI dalam proses-proses bisnis. Dapat memprioritaskan ketersediaan
layanan-layanan TI.
Aktifitas Proses Manajemen Ketersediaan Aktifitas Reaktif: aspek reaktif Ketersediaan
Manajemen melibatkan pemantauan, pengukuran, analisis dan pengelolaan semua kejadian, insiden, dan masalah yang melibatkan unavailability. Aktifitas ini merupakan aktifitas dalam peran operasional
Aktifitas Proaktif: kegiatan proaktif Ketersediaan Manajemen melibatkan perencanaan, desain proaktif dan peningkatan ketersediaan. Aktifitas ini merupakan aktifitas dalam peran desain dan perencanaan
11
12
Pertanyaan
Apakah itu ketersediaan layanan TI? Komponen infrastruktur apa yang
menentukan ketersediaan layanan TI? Faktor apakah yang mempengaruhi
ketersediaan infrastruktur TI? Bagaimana strategi pencapaian tingkat
ketersediaan infrastruktur TI? Bagaimana caranya menyempurnakan
ketersediaan infrastruktur TI?
13
Identifikasi Komponen Kritis
Pengelolaan ketersediaan layanan TI melibatkan pengelolaan ketersediaan infrastruktur pendukungnya.
Membutuhkan analisa keterkaitan antar komponen infrastruktur Fault Tree Analysis, Component Failure
Impact Analysis, dsb. Arsitektur TI modern sifatnya terpartisi
(multi-tier) dengan shared-use komponen infrastruktur oleh beberapa sistem aplikasi.
14
Fault Tree Analysis Pemetaan struktur rantai penyebab ketidak-
tersediaan layanan TI:
basic events
resulting eventsOR gate
conditional event
conditional gate
15
Component Failure Impact Analysis
Analisa komponen “rawan” dengan CFIA: Tabulasi layanan dan komponen-komponen
infrastruktur atau CI (configuration item). Tandai ketergantungan layanan terhadap
tiap CI: Kosong jika tidak tergantung pada CI tsb. X jika tergantung sepenuhnya pada CI tsb. A jika tergantung tapi dapat dialihkan ke
CI lain. M jika dapat dialihkan ke CI lain tapi
melalui intervensi secara manual
17
CFIA (3)
CI dengan banyak X adalah komponen kritis.
Layanan dengan banyak X adalah layanan kompleks: potensi keandalannya rendah.
CI yang kritis harus: Memiliki cadangan atau alternatif. Memiliki prosedur pemulihan (recovery).
18
CFIA (4)
Dapat juga ditambahkan kolom-kolom: Probabilitas kerusakan atau dengan label
kualitatif: rendah/sedang/tinggi. Berdasarkan statistik MTBF (mean time
between failures). Berdasarkan data MTBF dari vendor
atau pembuatnya. Perkiraan waktu perbaikan:
Dari data perbaikan masa lalu: MTRS (mean time to restore service).
19
CFIA (5)
1 / MTBF MTRS
0.010.010.010.010.100.010.800.300.300.10
0.21.00.21.02.01.03.0
12.012.0
2.0
• MTBF = (total jam beroperasi)/(jumlah kerusakan).• MTRS = (total jam tak beroperasi)/(jumlah kerusakan)
20
CFIA (6)
Teknik lain: orientasi pada jumlah user yang terkena dampak.
CI VBF Total Users
Power Semua 1000
Application Server Semua 1000
Aplikasi ERP Semua 1000
Disk 1 Pembayaran 50
Disk 2 Pemesanan 100
Utility X Pelaporan 25
VBF: vital business function (proses bisnis vital)
Komponen yang kritis adalah yang memiliki total jumlah user terbesar.
21
Pertanyaan
Apakah itu ketersediaan layanan TI? Komponen infrastruktur apa yang
menentukan ketersediaan layanan TI? Faktor apakah yang mempengaruhi
ketersediaan infrastruktur TI? Bagaimana strategi pencapaian tingkat
ketersediaan infrastruktur TI? Bagaimana caranya menyempurnakan
ketersediaan infrastruktur TI?
22
Faktor Penentu
Faktor-faktor ketersediaan infrastruktur TI: Keandalan (reliability)
Keandalan komponen terhadap gangguan. Kemudahan pemeliharaan
(maintainability) Pemeliharaan untuk mencegah terjadinya
gangguan. Termasuk deteksi tanda-tanda kerusakan.
Kemudahan perbaikan (serviceability) Adanya perjanjian/kontrak dukungan
perbaikan dengan vendor atau pihak ketiga.
Perhitungan Availability, Reliability, dan Mantainability
25
MTBSI (Mean Time Between Service Incidents)MTBF (Mean Time Between Failures)MTRS (Mean Time to Restore Service)
(Agreed Service Time (AST) – downtime)
Agreed Service Time (AST)X 100 %Availability (%) =
Available time in hours
Number of breaksReliability (MTBSI in hours) =
Available time in hours – Total downtime in hours
Number of breaksReliability (MTBF in hours) =
Total downtime in hours
Number of breaksMaintainability (MTRS in hours) =
Perhitungan Availability, Reliability, dan Mantainability Contoh: Sebuah situasi dimana layanan 24 x 7 telah
beroperasi selama 5,020 jam dengan dua kali terhenti (yang masing-masingnya 6 jam dan 14 jam)
Availability = (5,020–(6+14)) / 5,020 x 100 = 99.60%Reliability (MTBSI) = 5,020 / 2 = 2,510 hoursReliability (MTBF) = 5,020–(6+14) / 2 = 2,500 hoursMaintainability (MTRS) = (6+14) / 2 = 10 hours
26
MTBSI (Mean Time Between Service Incidents)MTBF (Mean Time Between Failures)MTRS (Mean Time to Restore Service)
Daur Hidup Insiden
Incident detectionWaktu di mana penyedia layanan TI organisasi dibuat sadar akan adanya insiden
Incident diagnosisWaktu dimana diagnosis untuk menentukan penyebab diselesaikan
Incident repairWaktu dimana kegagalan telah diperbaiki
Incident recoveryWaktu dimana pemulihan komponen telah selesai
Incident restorationWaktu dimana layanan bisnis normal kembali.
Gasal 2008 © 2008-2009 MTI-UI 29
30
Pertanyaan
Apakah itu ketersediaan layanan TI? Komponen infrastruktur apa yang
menentukan ketersediaan layanan TI? Faktor apakah yang mempengaruhi
ketersediaan infrastruktur TI? Bagaimana strategi pencapaian tingkat
ketersediaan infrastruktur TI? Bagaimana caranya menyempurnakan
ketersediaan infrastruktur TI?
31
Pengelolaan Ketersediaan
Tingkat ketersediaan dinegosiasikan dengan user berdasarkan anggaran dan potensi kerugian yang berimbang.
Perhitungan biaya untuk memenuhi kebutuhan ketersediaan berdasarkan: Identifikasi persyaratan keandalan
(reliability) dan kemudahan pemeliharaan (maintainability) komponen-komponen yang terlibat.
Identifikasi kemudahan perbaikan (serviceability) komponen-komponen dari vendor eksternal.
32
Biaya Ketidak-tersediaan (1)
Mengetahui biaya kerugian akibat ketidak-tersediaan penting dalam memutuskan tingkat investasi TI untuk memenuhi persyaratan ketersediaan.
Perkiraan dampak ketidak-tersediaan:1. Jumlah layanan bisnis yang terkena
dampak. Mudah dihitung tapi kurang akurat.
2. Perkiraan nilai kerugian moneter akibat terhentinya layanan bisnis. Kerugian tangible dan intangible.
33
Biaya Ketidak-tersediaan (2)
Biaya Tangible Biaya IntangiblePenurunan produktivitas pengguna Kehilangan kepercayaan konsumenPenurunan produktivitas staf TI Kehilangan konsumenKehilangan pendapatan Kehilangan peluang bisnisBiaya lembur dukungan teknis Jatuhnya reputasi perusahaanPasokan yang tidak terpakai Kehilangan kepercayaan penggunaDenda atau penalti Kerusakan moril staf TI
Permasalahan: Banyaknya faktor yang harus masuk dalam
perhitungan. Sulit mengkuantifikasi biaya intangible. Data sulit diperoleh.
34
Tingkat Ketersediaan Optimal
Cara lebih mudah: tingkat optimal berdasarkan total biaya untuk pemeliharaan preventif dan korektif minimum.
Kebutuhan akan ketersediaan yang melebihi tingkat ketersediaan optimal infrastruktur dapat melambungkan biaya.
Biaya redesign infrastruktur (termasuk dukungan teknis).
© 2009-2011 MTI-UI`
35
Tingkatan Investasi Ketersediaan
© 2009-2011 MTI-UI
Paling mendasar: komponen-komponen yang memenuhi persyaratan keandalan.
Mekanisme monitoring, deteksi, dan pemulihan gangguan otomatis (preventive measures)
Terselenggaranya Manajemen Insiden/Problem, dan Manajemen Perbaikan (corrective measures)
Fasilitas dual/mirror siteEliminasi SPOF (titik rawan), penyediaan komponen alternatif/cadangan, dan mekanisme untuk mempersingkat downtime akibat kerusakan
36
Rancangan Korektif (1)
Elemen kunci: Manajemen Insiden yang mapan
Definisi peran dan tanggung-jawab dari tim penanggulangan gangguan yang jelas.
Prosedur eskalasi yang ketat. Adanya prosedur komunikasi yang jelas
jika terjadi gangguan besar.
© 2009-2011 MTI-UI
37
Pengelolaan Infrastruktur
Kerangka kerja IT Infrastructure Library: Service Strategy
Menetapkan service yang perlu dibuka/dilayankan Service Design
Mengumpulkan requirement dan membuat design service baru maupun modifikasi service yang lama
Service Transition Pengembangan/pembuatan service
Service Operation Service beroperasi
Continual Service Improvement Review dan penyesuaian
39
Rancangan Korektif (2)
… elemen kunci: Fasilitas diagnosa sistem
Tersedianya tools untuk mendiagnosa penyebab gangguan sistem.
Tersedianya rekaman data aktivitas (log) untuk melakukan diagnosa.
Penerapan backup & recovery Untuk data, software, maupun hardware
(spare). Melibatkan pengembangan dan testing
prosedur backup & recovery. Waktu pemulihan (recovery) yang terukur
dan sesuai target.
© 2009-2011 MTI-UI
40
Rancangan Preventif
Availability Management melakukan: Analisis dan spesifikasi reliability dan
serviceability komponen infrastruktur (hardware & software).
Evaluasi tingkat keandalan komponen infrastruktur TI dalam memenuhi persyaratan ketersediaan.
Menyusun prosedur dan jadwal pemeliharaan sistem yang sesuai.
© 2009-2011 MTI-UI
41
Pertanyaan
Apakah itu ketersediaan layanan TI? Komponen infrastruktur apa yang
menentukan ketersediaan layanan TI? Faktor apakah yang mempengaruhi
ketersediaan infrastruktur TI? Bagaimana strategi pencapaian tingkat
ketersediaan infrastruktur TI? Bagaimana caranya menyempurnakan
ketersediaan infrastruktur TI?
© 2009-2011 MTI-UI
42
Perencanaan Ketersediaan (1)
Secara periodik perlu ada review untuk merencanakan ketersediaan infrastruktur TI, berdasarkan: Seringnya pelanggaran SLA ketersediaan. Seringnya downtime untuk perbaikan atau
lamanya downtime melebihi batas toleransi. Hasil pengukuran ketersediaan
menunjukkan trend penurunan. Permintaan pengguna/bisnis untuk
meningkatkan ketersediaan akibat pertumbuhan bisnis.
43
System Outage Analysis
SOA: kegiatan analisa dengan melibatkan berbagai data dari log-log proses (termasuk aktifitas dukungan teknis) untuk mencari penyebab gangguan ketersediaan.
Pelaksanaanya melibatkan administrator sistem & jaringan, staf dukungan teknis, user/ operator, analis sistem, vendor, manajemen bisnis.
Hasilnya dilaporkan beserta rekomendasi langkah-langkah perbaikan.
44
Rencana Ketersediaan (1)
Garis besar isi rencana: Tingkat ketersediaan aktual saat ini (dalam
bahasa pengguna/bisnis) dan tingkat ketersediaan ideal menurut SLA.
Rangkuman hasil analisa pencarian penyebab gangguan-gangguan ketersediaan atau SOA (system outage analysis).
Aktivitas-aktivitas perbaikan yang sedang dilaksanakan dengan pertimbangan biaya/manfaat masing-masing.