BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

100
BAHAN AJAR BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411) Disusun oleh: Dr. Danardono, MPH. PROGRAM STUDI STATISTIKA JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS GADJAH MADA 2011

Transcript of BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

Page 1: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

BAHAN AJAR

BIOSTATISTIKA DAN EPIDEMIOLOGI(MMS-4411)

Disusun oleh:Dr. Danardono, MPH.

PROGRAM STUDI STATISTIKAJURUSAN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAMUNIVERSITAS GADJAH MADA

2011

Page 2: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

Daftar Isi

1 Pendahuluan 21.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Biostatistika dan Epidemiologi . . . . . . . . . . . . . . . . . . . 21.3 Profesi Biostatistisi dan Epidemiolog . . . . . . . . . . . . . . .. 31.4 Metode dan Proses Pembelajaran . . . . . . . . . . . . . . . . . . 31.5 Latihan dan Tugas . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Desain Penelitian 52.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 52.2 Penelitian dalam Bidang Ilmu Hayati, Kedokteran, dan Epidemiologi 52.3 Penelitian observasional . . . . . . . . . . . . . . . . . . . . . . 72.4 PenelitianCross-sectional dan Longitudinal. . . . . . . . . . . . 72.5 PenelitianFollow-up . . . . . . . . . . . . . . . . . . . . . . . . 82.6 PenelitianCase-control. . . . . . . . . . . . . . . . . . . . . . . 82.7 Penelitian Klinis . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.8 Model Statistik dan Kausalitas . . . . . . . . . . . . . . . . . . . 92.9 Latihan dan Tugas . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3 Statistik dan Ukuran dalam Epidemiologi 153.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 153.2 Prevalensi dan insidensi . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.1 Model untuk Prevalensi . . . . . . . . . . . . . . . . . . 173.2.2 Model untuk Insidensi . . . . . . . . . . . . . . . . . . . 20

3.3 Faktor Resiko . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.4 Inferensi untuk RD, RR dan OR . . . . . . . . . . . . . . . . . . 253.5 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4 Perancuan dan Interaksi 314.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 314.2 Konsep dan Identifikasi Perancuan . . . . . . . . . . . . . . . . . 31

ii

Page 3: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

Daftar Isi iii

4.3 Metode Standarisasi dan Mantel-Haenszel . . . . . . . . . . . .. 344.3.1 Standarisasi Langsung . . . . . . . . . . . . . . . . . . . 344.3.2 Standarisasi Tidak Langsung . . . . . . . . . . . . . . . . 354.3.3 Mantel-Haenszel . . . . . . . . . . . . . . . . . . . . . . 36

4.4 Interaksi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.5 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5 Model Linear Tergeneralisasi 415.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 415.2 Generalisasi Model Linear . . . . . . . . . . . . . . . . . . . . . 415.3 Regresi Logistik . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.3.1 Model dan Estimasi Parameter . . . . . . . . . . . . . . . 435.3.2 Interpretasi Parameter Model . . . . . . . . . . . . . . . . 44

5.4 Regresi Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.4.1 Model dan Estimasi Parameter . . . . . . . . . . . . . . . 485.4.2 Interpretasi Parameter Model . . . . . . . . . . . . . . . . 49

5.5 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

6 Uji Diagnostik 586.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 586.2 Sensitivitas, Spesifisitas dan Nilai Prediksi . . . . . . . .. . . . . 586.3 Kurva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616.4 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

7 Analisis Data Longitudinal 657.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 657.2 Deskripsi Data longitudinal . . . . . . . . . . . . . . . . . . . . . 657.3 Model Regresi Data longitudinal . . . . . . . . . . . . . . . . . . 70

7.3.1 Naive Model . . . . . . . . . . . . . . . . . . . . . . . . 727.3.2 Model Linear Umum untuk Data Longitudinal . . . . . . 73

7.4 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

8 Analisis Data Survival 778.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 778.2 Fungsi Survival dan Hazard . . . . . . . . . . . . . . . . . . . . . 778.3 Kaplan-Meier danLife Table . . . . . . . . . . . . . . . . . . . . 818.4 Membandingkan Distribusi Survival . . . . . . . . . . . . . . . . 848.5 Model Regresi Data Survival . . . . . . . . . . . . . . . . . . . . 868.6 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

Page 4: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

Daftar Isi 1

9 Konsultasi Statistika 919.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 919.2 Konsultan Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 919.3 Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi . 929.4 Ringkasan Metode dan Topik Lanjut . . . . . . . . . . . . . . . . 949.5 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

Page 5: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

1Pendahuluan

1.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

1. Menjelaskan pengertian biostatistika dan epidemiologidan penekananmatakuliah ini

2. Memberi contoh profesi yang berkaitan dengan biostatistika dan epidemio-logi

3. Mengidentifikasi bagian-bagian pada RPKPS yang berkaitandengan Tu-juan umum pembelajaran, metode dan proses pembelajaran, penilaian dansumber referensi

1.2 Biostatistika dan Epidemiologi

Biostatistika adalah statistika yang diterapkan pada ilmu hayati, kedokteran danepidemiologi. Armitage and Colton (1998) mendefinisikan Biostatistika lebihsempit lagi, yaitu metode statistika dalam kedokteran dan ilmu kesehatan, ataudikenal juga sebagaimedical statistics. Sedangkan ilmu statistika dalam bidangbiologi, lingkungan dan pertanian sering disebut sebagai biometrika (biometrics).

Definisi Epidemiologi menurut (Last, 1995) adalah

The study of distribution and determinants of health-related states orevents in specified population, and the application of this study tocontrol of health problems.

2

Page 6: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

1.3. Profesi Biostatistisi dan Epidemiolog 3

MMS-4411 mempunyai penekanan agar lulusan bisa bertindak sepertilayaknya konsultan dalam bidang Biostatistika. Untuk itu, materi yang diberikantidak hanya berupa metode saja namun juga aspek komunikasi,konsultasi danpengetahuan terkait seperti epidemiologi dan terminologidalam bidang kese-hatan. Matakuliah ini diharapkan akan membuka wawasan lanjut mahasiswakarena banyak pengembangan teori statistika yang berawal dari permasalahandalam bidang Biostatistika dan Epidemiologi. Selain itu melalui matakuliah inimahasiswa diharapkan untuk mulai berpikir dan bertindak bukan hanya sebagaistatistisi saja, tapi juga sebagai orang yang mempelajari bidang lain dan dengansudut pandang yang berbeda dari seorang statistisi.

Matakuliah ini dapat diambil setelah mahasiswa mengetahuidan memahamidasar serta teknik metode statistik secara umum dan mampu melakukan analisisstatistik dengan beberapa metode tertentu. Matakuliah MMS-4411 diharapkandapat mendukung kompetensi lulusan program studi statistika, khususnya untuklulusan yang mempunyai minat dan konsentrasi pada bidang Biostatistika.

1.3 Profesi Biostatistisi dan Epidemiolog

Profesi biostatistisi dan epidemiolog banyak diperlukan di bidang-bidang sepertitersebut di bawah ini,

• Lembaga penelitian

• Akademik atau lembaga pendidikan

• Lembaga pemerintah bidang kesehatan atau rumah sakit

• Industri obat dan farmasi

• Konsultan

Di Indonesia profesi seperti tersebut belum sepopuler profesi seperti dokter,apoteker atau dosen, namun di negara maju dan di negara ASEANseperti Singa-pura profesi ini sudah cukup dikenal. Lembaga penelitian asing yang melakukanpenelitian di bidang penyakit tropis biasanya juga membutuhkan tenaga biostatis-tisi dan epidemiolog lokal. Perencanaan aspek kesehatan, termasuk di dalamnyaasuransi kesehatan dan kematian, yang baik dan terukur akansangat memerlukanahli di bidang biostatistik dan epidemiologi.

1.4 Metode dan Proses Pembelajaran

Metode dan proses pembelajaran untuk matakuliah ini dapat dilihat pada RPKPS(Rencana Program Kegiatan Pembelajaran Semester) MMS-4411.

Page 7: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

1.5. Latihan dan Tugas 4

1.5 Latihan dan Tugas

1.1. Sebutkan matakuliah apa saja di program studi Statistika UGM yang terkaitmatakuliah MMS-4411.

1.2. Carilah kuliah (course) sejenis MMS-4411 di internet atau sumber lain yangmudah diakses (misalnya handbook suatu program studi) baikyang berba-hasa Indonesia maupun Inggris. Tuliskan alamat situs internet kuliah terse-but tersebut atau dapatkanhardcopy/softcopydarihandbooksuatu programstudi, kemudian tuliskan materi atau kompetensi yang diajarkan serta meto-de pembelajarannya.

1.3. Sebutkan metode apa saja yang pernah saudara pelajari sebelum mengam-bil matakuliah ini. Berilah satu contoh analisis data terkait penelitian dibidang epidemiologi, kesehatan atau ilmu hayati untuk masing-masing me-tode yang telah saudara pelajari tersebut.

1.4. Lewat jejaring sosial yang mungkin saudara punyai, carilah lulusan ataualumnus program studi Statistika (dari perguruan tinggi manapun di Indone-sia) yang mempunyai profesi terkait konsultan biostatistika, epidemiologiatau pekerjaan lain yang memerlukan kompetensi seorang biostatistisi atauepidemiolog.

Page 8: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

2Desain Penelitian

2.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

1. Menjelaskan tujuan penelitian dalam bidang epidemiologi

2. Menjelaskan tipe-tipe penelitian

3. Mengidentifikasi desain penelitian yang digunakan dalamsuatu penelitian

4. Mengusulkan desain penelitian yang tepat untuk suatu permasalahan

5. Menjelaskan peran statistika dalam penelitian di bidangilmu hayati, kedok-teran dan epidemiologi

6. Menjelaskan proses pembangkitan data dikaitkan dengan desain dan modelstatistik

7. Menyebutkan matakuliah lain yang terkait dengan topik desain penelitian

2.2 Penelitian dalam Bidang Ilmu Hayati, Kedok-teran, dan Epidemiologi

Menurut Kleinbaum, Kupper and Morgenstern (1982), ada 4 kata kunci tujuanpenelitian di bidang epidemiologi, yaitu:describe, explain, predict dancontrol.Selengkapnya dapat dijelaskan sebagai berikut:

5

Page 9: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

2.2. Penelitian dalam Bidang Ilmu Hayati, Kedokteran, dan Epidemiologi 6

populasi

A B

sampel data

Gambar 2.1: Skema penelitian secara umum dimulai dari pendefinisian popu-lasi dan unit populasi, tahap A: pengambilan unit sampel dari populasi; tahap B:pengambilan informasi dari sampel.

1. Mendeskripsikanstatus kesehatan populasi dengan cara melakukan enu-merasi kejadian sakit, menghitung frekuensi relatif dan mendapatkan ke-cenderungan atau trend penyakit;

2. Menjelaskanpenyebab penyakit dengan cara menentukan faktor yang men-jadi sebab dari suatu penyakit tertentu dan cara transmisinya;

3. Melakukan prediksikejadian sakit dan distribusi status kesehatan dalampopulasi;

4. Melakukan pengendalianpenyebaran penyakit dalam populasi denganpencegahan kejadian sakit, penyembuhan kasus sakit, menambah lamahidup bersama dengan suatu penyakit, atau meningkatkan status kesehatan-nya

Penelitian dalam bidang kedokteran dan epidemiologi secara garis besarsama dengan penelitian lain, seperti misalnya bidang pertanian, biologi dan ilmurekayasa (teknik). Namun karena penelitian ini banyak melibatkan manusia seba-gai subyek, maka banyak teknik atau metode yang dapat diterapkan pada bidanglain yang tidak dapat diterapkan dalam bidang ini karena permasalahan etika. Mi-salnya, tidak mungkin akan diberikan suatu jenis perlakuanyang membahayakanatau merugikan subyek penelitian.

Gambar 2.1 merepresentasikan skema penelitian secara umum. Suatu peneli-tian dimulai dengan mendefinisikan populasi untuk mana kesimpulan atau hasil

Page 10: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

2.3. Penelitian observasional 7

dari penelitian akan dikenakan. Pada tahap ini unit populasi dan variabel peneli-tian harus ditentukan. Unit populasi adalah bagian terkecil dari populasi yangakan digunakan dalam pengambilan sampel. Sedangkan variabel adalah karakter-istik atau informasi yang ingin diperoleh dari unit tersebut.

Bagian A pada Gambar 2.1 adalah bagian pengambilan sampel atau penyam-pelan. Tujuan utama penyampelan adalah untuk mendapatkan wakil yang repre-sentatif dari populasi, tanpa harus melihat atau meneliti keseluruhan anggota pop-ulasi. Pengambilan sampel dapat dilakukan secara non-random ataupun random.Pengambilan sampel non-random biasanya lebih mudah dibandingkan denganpengambilan sampel random. Namun, pengambilan random menjamin obyek-tivitas dan sampel yang representatif, dan banyak analisisstatistik yang disusunberdasarkan asumsi sampel random. Dikenal beberapa macam metode pengam-bilan sampel random yang pada hakekatnya bertujuan untuk mengatasi hetero-genitas populasi, seperti misalnya: sampel random sederhana, stratifikasi, kluster,sistematik, dan lainnya.

Setelah sampel diperoleh dilanjutkan dengan tahap pengambilan informasidari unit sampel berdasarkan variabel penelitian yang telah ditentukan (bagian Bpada Gambar 2.1). Cara pengambilan informasi dapat dilakukan dengan penguku-ran, pencacahan, wawancara, dan sebagainya. Jenis penelitian dapat dibedakandari apakah ada perlakuan, manipulasi, intervensi atau tindakan yang dinenakanpada unit penelitian sebelum dilakukan tahap B atau tidak. Selain itu, elemenutama yang selalu menyertai penelitian adalah waktu. Penelitian juga dapatdibedakan berdasarkan saat pelaksanaan tahap A maupun B. Lebih jelasnya jenis-jenis penelitian tersebut akan diterangkan pada bagian-bagian selanjutnya setelahbagian ini.

2.3 Penelitian observasional

Dalam penelitian jenis ini tidak dilakukan manipulasi atauperlakuan pada faktor-faktor yang diteliti. Data diperoleh apa adanya dari populasi. Dalam penelitian ini,tidak dilakukan manipulasi, perlakuan ataupun intervensipada tahap B (Gambar2.1).

2.4 PenelitianCross-sectional dan Longitudinal

Dalam penelitian ini, sampel atau data hanya dikumpulkan pada satu titik wak-tu tertentu saja. Jenis penelitian ini dikontraskan denganpenelitian longitudinal,yaitu penelitian yang dilakukan dalam periode tertentu. Dalam prakteknya peneli-tian longitudinal dicirikan dengan dikumpulkannya beberapa pengukuran atau ob-

Page 11: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

2.5. PenelitianFollow-up 8

servasi untuk satu unit sampel, sedangkan penelitiancross-sectionaldicirikan de-ngan satu pengukuran atau observasi untuk satu unit.

2.5 PenelitianFollow-up

Sering juga disebut penelitian prospektif. Dalam penelitian ini subyek diikuti se-lama jangka waktu tertentu atau sampai suatu kejadian (event), nilai pengukuranatauend-pointtertentu diperoleh. PenelitianFollow-updapat berupa observasion-al maupun eksperimental.

2.6 PenelitianCase-control

Penelitian case-controlmerupakan salah satu contoh penelitian retrospektif.Penelitian retrospektif yaitu jenis penelitian yang berawal dari suatueventatauend-point. Unit sampel yang memilikieventatauend-pointtersebut kemudianditeliti. Penelitiancase-controldimulai dari unit yang mendapatkan kasus (pe-nyakit misalnya), kemudian dipilih sekelompok pembandingatau kontrol (yaituunit yang tidak mendapatkan atau mempunyai kasus). Faktor atau variabel penje-las yang lain juga dikumpulkan untuk masing-masing kasus dan kontrol.

2.7 Penelitian Klinis

Penelitian klinis (clinical trial ) menurut (Chow, 2000, hal 110) adalah

” ... an experiment performed by a health care organization or profes-sional to evaluate the effect of an intervention or treatment against acontrol in a clinical environment. It is a prospective studyto identifyoutcome measures that are influenced by the intervention. A clini-cal trial is designed to maintain health, prevent diseases,or treat dis-eased subjects. The safety, efficacy, pharmacological, pharmacokinet-ic, quality-of-life, health economics, or biochemical effects are mea-sured in a clinical trial.”

Dalam penelitian ini dilakukan manipulasi, pemberian perlakuan (treatment) atauintervensi pada tahap B (Gambar 2.1)

Tahapan penelitian klinis (Le, 2003):

• Fase I: Memfokuskan pada keamanan obat baru, fase ini adalahuji cobapertama obat pada manusia setelah sukses dengan uji coba pada binatang

Page 12: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

2.8. Model Statistik dan Kausalitas 9

• Fase II: Uji coba skala kecil untuk menilai efektivitas obatdan lebih fokuskepada keamanannya

• Fase III: Uji coba klinis lebih lanjut untuk menilai efektivitasnya sebelumdidaftarkan pada pihak yang berwenang

• Fase IV: Penelitian setelah obat dipasarkan untuk memberikan informasiyang lebih detail tentang efektivitas obat dan keamanannya

2.8 Model Statistik dan Kausalitas

Dalam terminologi dan notasi statistika, variabel sering dituliskan dengan hurufX untuk variabel penjelas, variabel independen, faktor; danY untuk variabel de-penden atau variabel respon. Dalam Epidemiologi dikenal juga istilah variabelpaparan (exposure) dan perancu (confounder) yang termasuk dalam kelompokX,danoutcomeyang termasuk dalam kelompokY .

Umumnya setiap penelitian bertujuan untuk mencari tahu apakahX menye-babkanY , atau seberapa besar pengaruhX terhadapY . Model statistik, sepertimisalnya model regresi sederhana

E(Y | X) = β0 + β1X (2.1)

merupakan representasi untuk mencapai tujuan itu.Statistisi memikirkan model seperti (2.1) sebagai suatu ”pembangkit data”

(data generating-process). Realisasi dari model itu adalah data yang diperoleh(sering dituliskan sebagai huruf kecilx dany). Apabila model dan estimasi pa-rameternya dinyatakan cukup tepat untuk menjelaskan data,dapat dilakukan infe-rensi atau pengambilan kesimpulan dari model tersebut. Termasuk dalam inferen-si itu adalah penggunaan model untuk prediksi dan kausalitas.

Perlu diperhatikan bahwa sangat mungkin terdapat lebih dari satu model yangcukup tepat untuk menjelaskan suatu set data. Untuk itu harus diingat pendap-at yang mengatakan bahwa ada banyak model yang baik tapi pilihlah satu yangberguna. Dikaitkan dengan penelitian di bidang Epidemiologi dan kedokteran,model yang berguna di sini adalah model yang terdiri dari variabel yang ni-lainya dapat atau mudah dimodifikasi dalam praktek dan modelyang sesederhanamungkin.

Desain penelitian, atau cara memperoleh data penelitian, sangat mempen-garuhi asumsi model statistik yang pada akhirnya mempengaruhi penjelasan daninterpretasi dari hubunganX denganY . Ambil contoh model sederhana seperti(2.1). Misalkan untuk mendapatkanx (realisasi dari variabelX) digunakan cara

Page 13: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

2.9. Latihan dan Tugas 10

observasi tanpa perlakuan pada unit sampel (penelitian observasional) maka mo-del ini kurang kuat untuk menjelaskan kausalitasX terhadapY . Namun bilaxdiperoleh dengan kaidah desain eksperimental maka model dapat digunakan un-tuk menjelaskan hubungan kausal

Dalam penelitian epidemiologi dikenal prinsip-prinsip untuk mendapatkanbukti adanya kausalitas yang dikenal sebagaiHill’s Criteria for Causality(Armitage and Colton, 1998; Kleinbaum et al., 1982) sebagai berikut:

1. Hubungan (association) yang kuat antaraX (variabel independen,faktor re-siko atau paparan) denganY (variabel dependen, respon atauoutcome).

2. Hubungan yang diperoleh harus spesifik dalam arti suatu faktor atau pa-paran hanya berhubungan dengan satu jenis penyakit saja.

3. Paparan atau faktor (X) harus mendahului respon (Y ), atau sebab harusmendahului akibat.

4. Harus ada penjelasan secara biologis mengapa suatu paparan atau faktorresiko menyebabkan suatu penyakit.

5. Harus dapat ditunjukkan adanyadose-response effectataubiologic gradientyaitu semakin besar tingkat paparan semakin besar kemungkinan terjadinyapenyakit

6. Terkait kriteria 5, jika paparan dihilangkan, penyakit juga seharusnya tidakmuncul

7. Adanya konsistensi hasil atau kesimpulan yang diperolehdari beberapa stu-di.

2.9 Latihan dan Tugas

Untuk soal pilihan ganda, pilihlah satu jawaban yang tepat (a, b, c atau d); untuksoal esai tuliskan jawabannya dengan singkat dan jelas!

2.1. Keuntungan desain penelitiancase-controlterhadap desain penelitian co-hort salah satunya adalah:a. dengan desaincase-controldapat dihitung ORb. case-controldapat mengatasi masalah etik penelitian terhadap

manusia yang mungkin terjadi pada desaincohortc. ukuran sampel untukcase-controlrelatif lebih kecil dibandingkan

cohortd. dapat digunakan untuk menunjukkan hubungan sebab-akibat

(cause-effect)

Page 14: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

2.9. Latihan dan Tugas 11

2.2. Keuntungan desain penelitian longitudinal terhadap cross-sectional salahsatunya adalah:a. lebih mudah dilaksanakanb. ada variabel kontrol yang dapat digunakan sebagai perbandinganc. ukuran sampel relatif lebih kecild. dapat digunakan untuk menunjukkan hubungan sebab-akibat

(cause-effect)

2.3. Suatu penelitian yang bertujuan untuk membandingkan dua perlakuan Adan B dilakukan dengan cara sebagai berikut: subyek secara random diberiperlakuan A atau B; setelah periode waktu tertentu subyek berganti men-dapat perlakuan yang lain, untuk subyek yang pada awalnya mendapat per-lakuan A kemudian mendapat B, dan sebaliknya. Desain yang digunakandisebut:a. cross-over trial b. cross-sectionalc. cohort d. randomized block

2.4. Desain penelitian yang sesuai dan layak (dapat dilaksanakan) untuk menge-tahui faktor resiko suatu penyakit dengan insidensi yang sangat rendah(seperti misalnya kanker) adalah:a. cross-sectional b. cohortc. case-control d. clinical-trial

2.5. Dalam penelitian tentang program atau kebijakan yang berkaitan dengankesehatan masyarakat, randomisasi pada unit penelitian biasanya sulit untukdilakukan, meskipun demikian pengaruh faktor (pemberian program ataupenerapan kebijakan) tetap dapat diteliti efeknya. Desainpenelitian yangtepat untuk permasalahan ini adalah:a. cross-sectional b. cohortc. observational d. quasi-experimental

2.6. Misalkan dari teori dan penelitian sebelumnya dapat diasumsikan bahwaperlakuan A, B dan C akan menghasilkan respon individual seperti padagambar di bawah ini.

A

B

C

waktuT

resp

onY

Page 15: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

2.9. Latihan dan Tugas 12

Untuk meneliti fenomena tersebut di atas desain yang palingtepat adalah:a. longitudinal b.cross-sectional c. multiple cross-sectional d. survival

2.7. Pada tahun 1985 dilakukan penelitian di Inggris untuk mengetahui apakahwanita yang minum pil kontrasepsi akan mengalami menopause(tidakmengalami siklus menstruasi lagi) lebih awal atau lebih akhir dibandingkanwanita yang tidak minum pil kontrasepsi. Untuk itu diambil satu kelompokwanita yang lahir pada tahun 1930, dengan alasan pada tahun 1985 merekasudah cukup tua untuk mendapatkan menopause. Berdasarkan catatan disebuah klinik umum diperoleh 132 wanita. Sebanyak 101 wanita tidakdiambil sebagai subyek karena alasan tidak dapat dihubungi, menolaksebagai subyek, belum menopause dan alasan kesehatan. Diperoleh datasebagai berikut:

Umur saat menopause (tahun)n Mean SD

minum pil 12 47,2 2,1tdk. minum 19 47,5 2,1

(a) Apa desain studi ini? Jelaskan!

(b) Apakah ada kesalahan fatal dalam studi ini? Jelaskan!

2.8. Sebuah penelitian dilakukan untuk mengetahui keefektivan helm dalammencegah kerusakan di kepala akibat kecelakaan kendaraan bermotor.Diperoleh data 793 kecelakaan dalam periode 3 bulan sebagaiberikut:

Menggunakan helmkerusakan di kepala Ya Tidak TotalYa 17 218 235Tidak 130 428 558Total 147 646 793

Apa desain studi ini? Jelaskan!

2.9. Jelaskan perbedaan utama antara penelitian prospektif dengan retrospektifdan keuntungan kerugian masing-masing!

2.10. Jelaskan perbedaan utama antara penelitian observasional dengan denganeksperimental dan keuntungan kerugian masing-masing!

2.11. Sebuah lembaga riset kesehatan akan melakukan penelitian tentang programatau aktivitas yang dapat menghentikan kebiasaan merokok.

(a) Ajukan satu pertanyaan ilmiah (research question) yang relevan menu-rut saudara.

Page 16: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

2.9. Latihan dan Tugas 13

10 20 30 40 50 60

12

34

56

konsumsi gula (kg/orang/tahun)

DM

FT

Gambar 2.2: Plot antara banyaknya gigi yang rusak dengan konsumsi gula

(b) Apa variabel independen atau paparan (exposure) utama penelitian ter-sebut?

(c) Desain penelitian apa yang sesuai dengan tujuan penelitian di atas?Jelaskan!

(d) Bagaimana seharusnya saudara memilih subyek dan mengukur(mengambil informasi) dari mereka sehingga tidak terjadi bias?

2.12. Gambar 2.2 menunjukkan hasil penelitian epidemiologi hubungan antarabanyaknya gigi yang rusak dengan konsumsi gula pada 20 negara. Gigiyang rusak dinyatakan dengan skor DMFT (decayed, missing and filledteeth) yang diperoleh dari mean dari survei di masing-masing negara de-ngan responden anak usia 12 tahun. konsumsi gula diperoleh dari laporantahunan pemerintah dibagi estimasi total populasi berdasarkan sensus.

(a) Apakah dapat ditunjukkan dari gambar bahwa konsumsi gula meng-akibatkan tingginya DMFT? Jelaskan!

(b) Apa kelemahan studi seperti di atas dan berikan alternatif desain yanglebih tepat

2.13. Dalam suatu studi tentang faktor resiko untuk angina (terkait penyakit jan-tung) subyek diminta menjawab pertanyaan,’Apakah anda merokok’. Jawa-

Page 17: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

2.9. Latihan dan Tugas 14

ban diklasifikasikan untuk setiap responden sebagai prokokdan bukan pe-rokok. Kemudian subyek diklasifikasikan apakah pernah mengalami angi-na atau tidak. Setelah data dianalisis, tidak diperoleh hubungan antaramerokok dengan pernah tidaknya mengalami angina.

(a) Dari banyak studi yang telah dilakukan sebelumnya dapatditunjukkanadanya bukti bahwa resiko mendapatkan angina meningkat seiringdengan naiknya konsumsi rokok seseorang. Jelaskan apa sajayangmungkin menyebabkan studi di atas gagal menunjukkan hubungan an-tara angina dengan merokok?

(b) Apa alternatif desain studi yang lebih tepat? Jelaskan!

2.14. Untuk meneliti suatu permasalahan epidemiologi sering dilakukan lebihdari satu studi yang mana variabel utamanya sama namun populasi dan set-ting studinya mungkin berbeda. Apakah ada keuntungan yang diperolehdari banyak studi tersebut untuk menjawab satu permasalahan yang samadalam epidemiologi? Jelaskan!

Page 18: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3Statistik dan Ukuran dalam

Epidemiologi

3.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

1. Menggunakan ukuran statistik yang tepat untuk suatu permasalahan dalamepidemiologi

2. Menginterpretasikan hasil hitungan ukuran statistik

3. Menjelaskan model yang mendasari prevalensi dan insidensi

4. Menggunakanlikelihood ratio testsebagai alternatif inferensi untuk modelprevalensi dan insidensi

5. Menggunakan ukuran faktor yang tepat untuk suatu permasalahan dengandatanya

6. Menginterpretasikan hasil hitungan ukuran faktor

3.2 Prevalensi dan insidensi

Definisi sehat menurut WHO adalah:health is a state of complete physical,mental, and social well-being and not merely the absence of disease or infir-mity. Definisi ini cukup sulit direalisasikan terutama pada definisi dan ukuran

15

Page 19: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.2. Prevalensi dan insidensi 16

well-being. Definisi yang lebih praktis yang banyak digunakan oleh epidemiologadalah ”ada” atau ”tidak ada” penyakit1.

Statistik atau ukuran paling dasar yang sering digunakan untuk melihat be-sarnya permasalahan dalam epidemiologi adalah banyaknya kejadian atau fre-kuensi kejadian (sakit, meninggal, dsb.). Namun ukuran inisangat bergantungpada besar populasi dan lama periode pengamatan. Ukuran yang tidak bergan-tung pada besar populasi dan lama periode pengamatan yang banyak digunakanadalah prevalensi (prevalence) dan insidensi (incidence)

Prevalensiadalah banyaknya subyek yang mengalami kejadian tertentu ataumenderita penyakit tertentu pada suatu waktu tertentu. Prevalensi dirumuskansebagai:

P =d

N, (3.1)

denganP adalah prevalensi;d adalah banyaknya subyek yang mengalami kejadi-an tertentu atau menderita penyakit tertentu pada suatu waktu tertentu;N adalahbanyaknya subyek pada suatu waktu tersebut.

Insidensiadalah banyaknya subyek yang mengalami kejadian baru atau men-dapatkan penyakit baru dalam suatu interval waktu tertentu. Jenis ukuran insi-densi yang sering dipakai adalah insidensi kumulatifIK dan tingkat insidensi(incidence rate)I.IK dirumuskan sebagai:

IK =d

N0

, (3.2)

denganIK adalah insidensi kumulatif;d adalah banyaknya subyek yang mengala-mi kejadian tertentu atau menderita penyakit tertentu dalam suatu interval waktutertentu;N0 adalah banyaknya subyek yang belum mengalami kejadian tertentuatau menderita penyakit tertentu pada awal interval waktu tersebut.

Jenis insidensi yang lain berdasarkan pada pengertian tingkat (rate), yaitu ba-nyaknya perubahan kuantitatif yang terjadi yang terkait dengan waktu.

Insidensi (Incidence rate) dirumuskan sebagai:

I =d

NT, (3.3)

denganI adalah insidensi;d adalah banyaknya subyek yang mengalami kejadiantertentu atau menderita penyakit tertentu dalam suatu interval waktu tertentu;NT

1Meskipun demikian penelitian dalam bidang Biostatistika dan Epidemiologi saat ini mengarahpada pengukuran hal-hal yang lebihsoftdaripada hanya sakit dan tidak sakit sepertiwell-beingdanquality of life, dan seterusnya.

Page 20: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.2. Prevalensi dan insidensi 17

naik karena turun karena

durasi penyakit yg panjangpasien hidup lamainsidensi meningkatin-migrasi kasusout-migrasi penduduk sehatin-migrasi orang yg rentanmeningkatnya diagnosis

durasi penyakit yg pendekpasien hidup singkatinsidensi menurunin-migrasi penduduk sehatout-migrasi kasusout-migrasi orang yg rentanmeningkatnya kesembuhan

Gambar 3.1: Faktor-faktor yang mempengaruhi estimasi prevalensi (Beagleholeet al., 2000).

adalah total waktu subyek yang belum mengalami kejadian tertentu atau menderi-ta penyakit tertentu dalam interval waktu tersebut (seringjuga disebut sebagaiperson-timeataurisk-time)

Istilah lain yang sering digunakan untuk insidensi adalahperson-time inci-dence rate, instantaneous incidence rate, force of morbidity, incidence-density,hazard).

Prevalensi sangat dipengaruhi oleh banyak faktor yang tidak berhubunganlangsung dengan penyebab penyakit, misalnya in-migrasi dan out-migrasi danperbaikan cara diagnosis (lihat Gambar 3.1). Oleh karena itu prevalensi tidak di-anjurkan untuk menunjukkan kausalitas. Tapi prevalensi sangat membantu untukmenunjukkan besarnya masalah kesehatan.

Prevalensi dan insidensi saling berkaitan, secara umum hubungannya dapatditunjukkan seperti persamaan (3.4), asalkan prevalensi kecil dan tidak berubahmenurut waktu.

prevalensi≈ insidensi× durasi (3.4)

3.2.1 Model untuk Prevalensi

Dasar analisis untuk prevalensi adalah Model Bernoulli (Lihat Gambar 3.2) yangmempunyai asumsi sebagai berikut :

Page 21: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.2. Prevalensi dan insidensi 18

S

G

π

1 − π

Gambar 3.2: Model Bernoulli.

• tiap usaha (trial ) menghasilkan satu dari dua hasil yang mungkin, dina-makan sukses (S) dan gagal (G);

• peluang sukses,P (S) = π dan peluang gagalP (G) = 1 − π

• usaha-usaha tersebut independen

Fungsi probabilitas Bernoulli adalah

P (X = x; π) = πx(1 − π)1−x, (3.5)

denganπ adalah probabilitas sukses danx = 0, 1 (gagal, sukses). Dalam konteksEpidemiologi, definisi sukses misalnya terkena penyakit tertentu atau meninggal.Untuk melakukan inferensi berdasarkan model ini dapat digunakan fungsilikeli-hoodberdasarkan data yang diperoleh.

Contoh 3.1Darin = 10 orang diketahui outcome sukses (S) dan gagal (G) SSGSGGGSGG (misalnyasukses adalah terkena penyakit tertentu dan gagal adalah tidak terkenapenyakit tertentu).Seberapa mungkin data ini berasal dari model binomial dengan (i)π = 0,1; (ii) π = 0,5?Jawab:

(i) π = 0,1:

L(π | data) = ππ(1 − π)π(1 − π)(1 − π)(1 − π)π(1 − π)(1 − π)

= 0,14 × 0,96

= 5,31× 10−5

(ii) π = 0,5

L(π | data) = ππ(1 − π)π(1 − π)(1 − π)(1 − π)π(1 − π)(1 − π)

= 0,54 × 0,56

= 9,77× 10−4

Page 22: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.2. Prevalensi dan insidensi 19

0.0 0.2 0.4 0.6 0.8 1.0

0.00

000.

0004

0.00

080.

0012

π

Like

lihoo

d

L(0.1)

L(0.5)

Gambar 3.3: Fungsilikelihooduntuk data biner SSGSGGGSGG denganπ = 0,1danπ = 0,5.

Terlihat bahwa likelihood untukπ = 0,5 lebih besar daripadaπ = 0,1 sehingga dapatdisimpulkan bahwa data lebih mungkin berasal dari model Bernoulli denganπ = 0,5daripadaπ = 0,1 (Lihat Gambar 3.3).

Nilai maksimum likelihood untuk data ini diperoleh padaπ = 0,4 (Gambar 3.4).Nilai inilah yang sebenarnya paling didukung oleh data. Cara seperti ini dikenaldalam Statistika sebagai cara untuk mencari estimator dengan MetodeMaximum Like-lihood.

Inferensi untuk prevalensi dapat dilakukan berdasarkan tiga prinsip yaitu in-terval konfidensi (confidence interval), menurut teorifrequentist; supported rangeuntuk parameter berdasarkanlikelihood ratiomenurut teori likelihood; dancred-ible interval menurut teoriBayesian(Clayton and Hills, 1993). Metode yangpaling sering digunakan dan diterima di komunitas penelitidi bidang epidemio-logi adalah interval konfidensi menggunakan pendekatan Teorema Limit Sentral.Dalam perkembangannya kedua metode yang lain mulai berkembang dan menda-patkan perhatian.

Page 23: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.2. Prevalensi dan insidensi 20

0.0 0.2 0.4 0.6 0.8 1.0

0.00

000.

0004

0.00

080.

0012

π

Like

lihoo

d

0.00119

Gambar 3.4:Maksimum Likelihooduntuk data biner SSGSGGGSGG adalah padaπ = 0,4.

3.2.2 Model untuk Insidensi

Model untuk insidensi kumulatif pada prinsipnya sama seperti prevalensi, yaituberdasarkan pada model Bernoulli. Di sini akan dibahas modeluntuk insidensi,khususnyaincidence rate(3.3).

Pada bagian sebelumnya, prevalensi dapat dipandang sebagai eksperimenBernoulli, dengan sukses adalah kejadian yang menjadi perhatian, seperti sakitdan lainnya. Model ini dapat dikembangkan untuk insidensi.Dalam insiden-si, khususnyaincidence rate(3.3), seorang individu diamati dalam suatu periodewaktu tertentu. yang dapat dibagi dalam beberapa interval.Misalnya, seseorangyang diamati selama 3 tahun dapat dibagi menjadi 3 satu tahuninterval waktupengamatan.

Pada Gambar 3.5 seseorang diamati sampai M (meninggal) yangjuga meru-pakan titik akhir (end-point) pengamatan, selama 3 tahun. Apabila dalam 3 tahuntersebut probabilitas meninggal sama, misalnyaπ, maka model yang dapat digu-nakan adalah Bernoulli seperti yang telah dibahas di muka. Namun apabila dalamsetiap interval waktu probabilitas meninggal berbeda, misalnyaπ1, π2, π3 sepertiterlihat pada Gambar, maka probabilitas M untuk tiap akhir interval akan berbedadan merupakan probabilitas bersyarat.

Sebagai contoh pada Gambar 3.6 diketahui nilaiπ1, π2, π3. Probabilitas

Page 24: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.2. Prevalensi dan insidensi 21

1 3 5

π1

M

H

1− π1

π2

M

H

1− π2

π3

M

H

1− π3

Gambar 3.5: Insidensi sebagai satu urutan beberapa model probabilitas biner, de-ngan sukses M (mati) dan gagal H (hidup).

meninggal pada akhir tahun pertama adalah 0,3. Probabilitas meninggal padaakhir tahun kedua merupakan probabilitas bersyarat, karena untuk meninggal pa-da akhir tahun kedua individu ini harus hidup pada akhir tahun pertama, sehing-ga probabilitasnya adalah 0,7× 0,2 = 0,14. Demikian pula untuk probabilitasmeninggal pada akhir tahun ketiga, 0,7× 0,8× 0,1= 0,056.

Selanjutnya, untuk interval yang semakin sempit, probabilitas kondisional(untuk M) menjadi semakin kecil pula, dan konvergen kehazard rate(force ofmortality)

λ = limh→0

P (t ≤ T < t + h | T ≥ t)

h(3.6)

Likelihood untukλ dapat diturunkan dari likelihood binomial dengan men-ganggap bahwa probabilitas sukses adalahλh denganh kecil,

L(λ) = λD exp(−λY ) (3.7)

denganD adalah banyaknya kejadian,Y adalah total waktu observasi.Log-likelihood untukλ

ℓ(λ) = D log(λ) − λY (3.8)

Persamaan (3.7) dan (3.8) adalah fungsi likelihood dan log-likelihood untukdistribusi Poisson. Dapat dengan mudah ditunjukkan bahwa penduga untukλadalah

λ =D

Y(3.9)

Page 25: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.2. Prevalensi dan insidensi 22

1 3 5

0,3M

H

0,7

0,2M

H

0,8

0,1M

H

0,9

Gambar 3.6: Contoh satu urutan beberapa model probabilitas biner dan penghi-tungan probabilitas bersyarat).

Contoh 3.2Misalkan ada 7 observasi dengan total waktu observasi 500 orang-tahun (person-years).Log-likelihood untukλ

ℓ(λ) = 7 log(λ) − 500λ

Nilai maksimum untuk fungsi Log-likelihood ini diperoleh padaλ = 0,014 (Gambar3.7)

0.005 0.010 0.015 0.020 0.025 0.030

−39

.5−

38.5

−37

.5

λ

log

likel

ihoo

d

Gambar 3.7: Log-likelihood untukλ dan nilai maksimumnya

Page 26: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.3. Faktor Resiko 23

Contoh 3.3Sebuah studi tentang akibat buruk merokok bagi kesehatan dilakukan di Inggris padatahun 1951. Diperoleh data berupa kematian akibat penyakit jantung koroner dikate-gorikan menurut umur dan status merokok (Tabel 3.1).

Tabel 3.1:Kematian akibat jantung koroner menurut umur dan status merokok

Kel. perokok bukan perokokUmur kematian person-years kematian person-years

35 – 44 32 52407 2 1879045 – 54 104 43248 12 1067355 – 64 206 28612 28 571065 – 74 186 12663 28 258575 – 84 102 5317 31 1462

Insidensi untuk kematian akibat penyakit jantung koroner dapat dihitungmenggu-nakan rumus (3.9). Insidensi keseluruhan tanpa melihat status merokok dan usia adalah

λ =32 + 104 + 206 + . . . + 31

52407 + 43248 + 28612 + . . . + 1462

=731

181467= 0,004

karena bilangan insidensi biasanya kecil, nilai estimasinya dikalikan bilangan yang agakbesar misalnya 1000. Jadi insidensi kematian di atas adalah 4 kematian per 1000 orang.

Dengan cara yang sama insidensi untuk tiap tingkat faktor resiko dapat dihitung. Mi-salnya insidensi dalam kelompok perokok adalah

λ1 =32 + 104 + 206 + 186 + 102

52407 + 43248 + 28612 + 12663 + 5317

=630

142247= 4,43 per 1000 orang,

dan untuk kelompok bukan perokokλ0 =101/39220= 2,58 per 1000 orang. Kematiandalam kelompok perokok terlihat lebih tinggi.

3.3 Faktor Resiko

Bagian di muka membahas statistik dan ukuran tanpa memandangadanya fak-tor atau variabel yang mempengaruhi statistik atau ukuran tersebut. Dengan katalain dalam notasi statistika di muka, sementara hanya dilihat variabelY saja tan-pa melihat adanyaX (variabel independen, penjelas, paparan). Dalam bagianini akan dibahas statistik dan ukuran yang melibatkan pengaruh faktor. Ukuran

Page 27: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.3. Faktor Resiko 24

ini, seperti yang akan dijelaskan lebih lanjut, sangat bergantung pada pada desainpenelitian yang digunakan.

Beberapa ukuran yang dapat digunakan untuk melihat faktor resiko di-antaranya:

• Selisih resiko (risk difference)

• Rasio resiko (risk ratio)

• Odds ratio

Misalkanπ1 adalah probabilitas atau resiko untuk subyek yang terpapardanπ2

untuk subyek yang tidak terpapar. Sebagai contoh,π1 adalah probabilitas subyekterkena kanker paru jika diketahui subyek merokok, danπ1 adalah probabilitassubyek terkena kanker paru jika diketahui subyek tidak merokok. Selisih resiko,rasio resiko danodds ratioakan dijelaskan berdasarkanπ1 danπ2 di atas.

Selisih resiko didefinisikan sebagai

RD = π1 − π2. (3.10)

yaitu selisih antara dua probabilitasπ1 danπ2. Karenaπ1 = RD + π2, selisihresiko mengukur perubahan pada skala aditif. JikaRD > 0, paparan berkaitandengan kenaikan probabilitas terkena penyakit. Sebaliknya jikaRD < 0, paparanberkaitan dengan penurunan probabilitas terkena penyakit; dan jika RD = 0,paparan tidak berkaitan dengan penyakit tersebut.

Rasio resiko didefinisikan sebagai rasio antara dua probabilitas, yaitu

RR = π1/π2. (3.11)

Karenaπ1 = RRπ2, rasio resiko mengukur perubahan pada skala multiplikatif.JikaRR > 1, paparan berkaitan dengan kenaikan probabilitas terkena penyakit.JikaRR < 1, paparan berkaitan dengan penurunan probabilitas terkenapenyakit;dan jikaRR = 1, paparan tidak berkaitan dengan penyakit tersebut.

Oddsmerupakan representasi alternatif untuk probabilitas. Untuk probabilitasπ 6= 1, oddsω didefinisikan sebagai

ω =π

1 − π. (3.12)

Pernyataanodds dalam penggunaan sehari-hari biasanya digunakan untukmengekspresikan kebolehjadian, misalnya dalam suatu pertandingan olahra-ga: ”peluang saya menang melawan dia 60:40”, artinya peluang saya menangadalah 0,6.

Meskipun probabilitas danoddsmerepresentasikan informasi yang sama, ni-lai rentangω tidak sama denganπ, yaitu 0 ≤ π ≤ 1 sedangkanω > 0. Bila

Page 28: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.4. Inferensi untuk RD, RR dan OR 25

Tabel 3.2: Data dan Model Probabilitas untuk Desain Cohort

(a) Data pada tabel2 × 2D

E 1 21 n11 n12 N1

2 n21 n22 N2

(b) Model probabilitasD

E 1 21 π1 1 − π1 12 π2 1 − π2 1

didefinisikanω1 = π1/(1 − π1) danω2 = π2/(1 − π2), Odds ratioadalah rasioantara dua oddsω1 danω2

OR =ω1

ω2

=π1(1 − π2)

π2(1 − π1). (3.13)

Odds ratiomirip dengan rasio resikoRR dalam hal perubahannya yang diukursecara multiplikatif. Interpretasi nilaiOR juga ekivalen denganRR.

3.4 Inferensi untuk RD, RR dan OR

Untuk desain cohort, semua ukuran faktor resiko RD, RR dan OR dapat diesti-masi dari data dan dapat diinterpretasikan. Data dan model probabilitasnya dapatdigambarkan seperti pada Table 3.2.

Pada tabel tersebutE adalah variabel paparan (exposure) atau faktor resikoyang diteliti danD adalahoutcome. Nilai E = 1 menunjukkan adanya paparan(exposed) danE = 2 menunjukkan tidak adanya paparan (non-exposed). Mi-salkan variabel paparan yang akan diteliti adalah status merokok, E = 1 adalahmerokok danE = 2 tidak merokok. NilaiD = 1 menunjukkan adanyadiseaseatauoutcomeyang menjadi perhatian, danD = 2 menunjukkan tidak adanyadisease. MisalnyaD = 1 adalah terdiagnosis kanker paru, danD = 2 tidakterdiagnosis kanker paru.

Untuk desain cohortπ1 adalah probabilitas mendapatkan disease untuk kelom-pok yang diketahui sebelumnya sudah mendapatkan paparan, atau dengan notasiprobabilitasπ1 = P (E = 1 | D = 1). Sedangkanπ2 adalah probabilitas men-dapatkan disease untuk kelompok yang diketahui sebelumnyatidak mendapatkanpaparan, atauπ2 = P (E = 1 | D = 2). Total baris untuk model probabilitasadalah satu karena kelompok paparan diambil dari dua populasi yang berbeda,yaitu kelompokexposedE = 1, dan kelompoknon-exposedE = 2.

Estimasi titik untukπ1 danπ2 adalah

π1 = n11/N1 (3.14)

π2 = n21/N2 (3.15)

Page 29: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.4. Inferensi untuk RD, RR dan OR 26

Estimasi titik untukRD, RR danOR dapat diperoleh dengan menggantiπ1 danπ2 pada persamaan (3.10), (3.11) dan (3.13) denganπ1 danπ2.

Selisih resikoRD pada dasarnya adalah selisih dua sampel independen yangberdistribusi Binomial. Proporsi sampelπi mempunyai harga harapanπi dan va-riansiπi(1 − πi)/Ni, dengani = 1, 2. Sehingga estimasi titik untukRD adalah

RD = π1 − π2 (3.16)

yang mempunyai galat standar (standard error)

σ(RD

)=

[π1(1 − π1)

N1

+π2(1 − π2)

N2

]1/2

(3.17)

Interval konfidensi(1 − α)100% untukRD dapat dihitung dengan menggunakanpendekatan Normal sebagai berikut:

RD ± Zα/2σ(RD

), (3.18)

denganσ(RD

)adalahσ

(RD

)namun denganπi digantiπi.

Estimasi titik untukRR dapat diturunkan dari (3.11), (3.14) dan (3.15) yaitu

RR =π1

π2

Distribusi untukRR sangat menceng (skewed), sehingga pendekatan Nor-mal lebih baik jika menggunakan transformasilog dari RR. Galat standar untuklog RR adalah

σ(log RR

)=

(1 − π1

π1N1

+1 − π2

π2N2

)1/2

(3.19)

Diperoleh interval konfidensi(1 − α)100% untuk log RR

log RR ± Zα/2σ(log RR

)(3.20)

Karena interval ini pada skala transformasilog, untuk interpretasinya harusdikembalikan pada skala asal dariRR dengan mengambil eksponensial, baik un-tuk batas interval bawah maupun atas.

Seperti halnyaRR, estimasi titik untukOR dapat diturunkan dari (3.13),(3.14) dan (3.15) yaitu

OR =π1(1 − π2)

π2(1 − π1)

=n11n22

n12n21

, (3.21)

Page 30: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.4. Inferensi untuk RD, RR dan OR 27

Untuk menghindari masalah bila adanij = 0 dapat digunakan allternatif untuk(3.21),

OR =(n11 + 0,5)(n22 + 0,5)(n12 + 0,5)(n21 + 0,5)

(3.22)

Distribusi untukOR ini juga sangat menceng sepertiRR, sehingga diperlukantransformasilog untuk membentuk interval konfidensiOR.

Estimasi galat standar untuklog OR adalah

σ(log OR

)=

(1

n11

+1

n12

+1

n21

+1

n22

)1/2

, (3.23)

Sehingga interval konfidensi(1 − α)100% untuk log OR adalah

log OR ± Zα/2σ(log OR

)(3.24)

Interpretasinya harus dikembalikan pada skala asal dariOR dengan mengambileksponensial baik untuk batas bawah maupun batas atas dari interval konfidensiOR.Contoh 3.4Diperoleh data tentang hubungan antara penyakit jantung koroner dengan tekanan peker-jaan seperti pada Tabel 3.3.

Tabel 3.3: Data studi tentang hubungan penyakit jantung koronerdengan tekanan pekerjaan

Tertekan krn. Penyakit jantung koronerPekerjaan Ya Tidak TotalYa 97 307 404Tidak 200 1409 1609

Estimasi titik resiko terkena penyakit jantung koroner untuk masing-masing kelompokorang yang tertekan karena pekerjaan dan yang tidak tertekan adalah

π1 = 97/404 = 0,240 dan π2 = 200/1609 = 0,124

Estimasi titik untukRR danstandard errordari log RR dapat dihitung menggunakanπ1

danπ2, yaitu:

RR = π1/π2

= 0,240/0,124

= 1,932

σ(log RR

)=

(1 − π1

π1N1+

1 − π2

π2N2

)1/2

=

(1 − 0,240

0,240(404)+

1 − 0,124

0,124(1609)

)1/2

= 0,1105

Page 31: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.4. Inferensi untuk RD, RR dan OR 28

Batas bawah interval konfidensi 95% adalahexp{

log(RR) − 1,96 × σ(log RR

)}=

1,555; dan batas atas intervalexp{

log(RR) + 1,96 × σ(log RR

)}= 2,399. Diperoleh

estimasiRR dan interval konfidensinya adalah : 1,932 (1,555 — 2,399 ).

Estimasi titik untukOR danσ(log OR

):

OR =π1/(1 − π1)

π2/(1 − π2)

= 0,316/0,142

= 2,225

σ(log OR

)=

(1

n11+

1

n12+

1

n21+

1

n22

)1/2

=

(1

97+

1

307+

1

200+

1

1409

)1/2

= 0,1388

Batas bawah interval konfidensi 95% adalahexp{

log(OR) − 1,96 × σ(log OR

)}=

1,696; dan batas atas intervalexp{

log(OR) + 1,96 × σ(log OR

)}= 2,922. Diperoleh

estimasiOR dan interval konfidensinya adalah : 2,225 (1,696 — 2,922 ).

Estimasi titik untukRD adalahRD = π1 − π2

= 0,240 − 0,124

= 0,116

σ(RD

)=

[π1(1 − π1)

N1+

π2(1 − π2)

N2

]1/2

= 0,0228

Batas bawah interval konfidensi 95%(π1− π2)−1,96×σ(RD

)= 0,071; dan batas atas

intervalnya(π1 − π2) + 1,96 × σ(RD

)= 0,161. Diperoleh estimasiRD dan interval

konfidensinya adalah : 0,116 (0,071 — 0,161 ).

Pada desain case-control, Data dan model probabilitasnya dapat digambarkanseperti pada Tabel 3.4. Dalam tabel iniM1 danM2 adalah banyaknya sampel yangdiperoleh dari kelompok sampel yang mendapatkan disease (D = 1) dan darikelompok yang tidak mendapatkan disease (D = 2). Dari masing-masing kelom-pok diambil informasi secara retrospektif apakah sampel telah terpapar (E = 1atau tidakE = 2. Model probabilitasnya juga berbeda dengan desain Cohort kare-na probabilitas kondisionalnya adalah terhadap diseaseD bukan terhadap paparanE, yaitu probabilitasφ1 = P (E = 1 | D = 1) danφ2 = P (E = 1 | D = 2).

Berdasarkan model ini, tidak mungkin diperoleh estimasi untuk πi, i = 1, 2seperti pada desain Cohort. Sehingga estimasi untukRD danRR tidak dapatdiperoleh. Bagaimana denganOR? Apabila estimasiOR dihitung untukoddspaparan dalam kelompokdiseaseddibagi oddspaparan dalam kelompoknon-

Page 32: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.5. Latihan 29

Tabel 3.4: Data dan Model Probabilitas untuk Desain Case-Control.

(a) Data pada tabel2 × 2D

E 1 21 n11 n12

2 n21 n22

M1 M2

(b) Model probabilitasD

E 1 21 φ1 φ2

2 1 − φ1 1 − φ2

1 1

diseasedmaka dapat diperoleh

OR =φ1(1 − φ2)

φ2(1 − φ1)

=n11n22

n12n21

, (3.25)

denganφ1 = n11/M1 danφ2 = n12/M2. TernyataOR = OR, yang implikasinyaadalahOR dapat diestimasi untuk desain Case-Control.

Pada desain cross-sectional statistik yang dapat diinterpretasikan dengan validhanyalah prevalensi, oleh karena itu desain cross-sectional sering disebut studiprevalensi. MeskipunRD, RR danOR dapat dihitung dari data yang diperolehdari studi cross-sectional, kesimpulan atau interpretasiyang diperoleh kemung-kinan akan tidak valid.

3.5 Latihan

3.1. HitunglahoddsS (Sukses) terhadapG (Gagal), dengan sukses misalnyaadalah terkena suatu penyakit dan gagal adalah tidak terkena suatu penya-kit), bila probabilitasSdiketahui adalah:(a) 0,75 (b) 0,50 (c) 0,25

3.2. Hitunglah probabilitas suksesS bila diketahuioddsS terhadap gagalGadalah:(a) 0,3 (b) 3,0

3.3. Diketahui dari 8 orang pasien kanker rahim, 2 pasien meninggal dunia. Bilakita tertarik pada parameterπ, yaitu probabilitas pasien meninggal, nilaimanakah yang lebih didukung oleh data,π = 0,2 atauπ = 0,6? Jelaskan!Carilah estimator untuk parameterπ!

3.4. Diketahui data penderita tuberkulosis (tb) di suatu sekolah sebagai berikut:

Page 33: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

3.5. Latihan 30

Paparan banyaknya siswa banyaknya siswayang diperiksa yang posisif tb

tinggi 129 63rendah 325 36

Hitungrisk difference, risk ratio danodds ratiountuk paparan tinggi besertainterval interval konfidensinya. Interpretasikan hasilnya.

3.5. Merujuk soal no 2.8 (halaman 12), hitungrisk difference, risk ratio danoddsratio untuk paparan tinggi beserta interval interval konfidensinya. Interpre-tasikan hasilnya.

3.6. Suatu studi dilakukan untuk menguji hipotesis yang menyatakan bahwa adahubungan antara konsumsi teh dan sindroma pra-menstruasi.Satu grupyang terdiri dari 120 pelajar dan 80 pekerja pabrik menjadi subyek peneli-tian dan mengisi kuesioner tentang sindroma pra-menstruasi. Prevalensisindroma pra-menstruasi di antara pelajar adalah 40% dan diantara pekerjapabrik adalah 75%. Berapa subyek dalam studi ini yang mengalami sindro-ma pra-menstruasi?

3.7. Buktikan persamaan (3.21) pada halaman 26 dan (3.25) pada halaman 29!

Page 34: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

4Perancuan dan Interaksi

4.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

1. Menjelaskan pengertian perancuan (confounder) dan interaksi dan menye-butkan contohnya dalam penelitian epidemiologi

2. Mengidentifikasi adanya perancuan dalam suatu permasalahan atau datapenelitian epidemiologi

3. Mengidentifikasi adanya interaksi dalam suatu permasalahan atau datapenelitian epidemiologi

4.2 Konsep dan Identifikasi Perancuan

Variable perancu adalah variabel yang memenuhi dua kondisi:

• merupakan faktor resiko

• mempunyai hubungan dengan variabel paparan tapi bukan merupakan kon-sekuensi dari variabel paparan

Secara konseptual perancuan dapat digambarkan seperti pada Gambar 4.1 dan4.2. Pada gambar pertama variabel F mempengaruhi baik variabel D maupun E,sedangkan pada gambar kedua F tidak mempengaruhi D dan E sekaligus.

Contoh 4.1Manula yang mengalami kecelakaan, seperti terjatuh, seringkali menjadi tidak dapat ban-gun dan bergerak dalam waktu lama. Hal ini dapat mengakibatkanbedsores, yaitu luka

31

Page 35: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

4.2. Konsep dan Identifikasi Perancuan 32

Tabel 4.1: DataBedsores study

Meninggal hidup TotalBedsore 79 745 824tidak Bedsore 286 8.290 8.576Total 365 9.035 9.400

F

E

D

F

E

D

F

E

D

Gambar 4.1: Variabel F adalah perancu antara D (variabel respon) dengan E (vari-abel paparan). Tanda→ pengaruh satu arah;↔ pengaruh dua arah

F

E

D

F

E

D

F

E

D

F

E

D

Gambar 4.2: Variabel F bukan perancu antara D dengan E (variabel respon) de-ngan E (variabel paparan). Tanda→ pengaruh satu arah;↔ pengaruh dua arah

Page 36: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

4.2. Konsep dan Identifikasi Perancuan 33

Tabel 4.2: DataBedsores studydistratifikasi menurut tingkat keparahan

Tingkat keparahan tinggi akibat penyakit lain:Meninggal hidup Total

Bedsore 55 51 106tidak Bedsore 5 5 10Total 60 56 116

Tingkat keparahan rendah akibat penyakit lain:Meninggal hidup Total

Bedsore 24 694 718tidak Bedsore 281 8.285 8.566Total 305 8.979 9.284

pada kulit yang dapat berlanjut ke otot dan tulang dan dapat berakibatfatal. Diperolehdata seperti pada Tabel 4.1. Rasio resiko dari data ini adalah

RR =79/824

286/8576= 2,9

Nilai RR tersebut cukup tinggi menunjukkan bahwabedsoremungkin dapat meng-akibatkan kematian. Untuk melihat apakah ada variabel perancu pada dataini diperolehdata seperti pada Tabel 4.2. Data distratifikasi menurut tingkat keparahan penyakit lain.

Dari stratifikasi ini diperoleh RR untuk masing-masing tingkat adalah

RR =55/106

5/10= 1,04

untuk tingkat keparahan tinggi dan

RR =24/718

281/8566= 1,02

untuk tingkat keparahan rendah. Dari hasil stratifikasi ini terlihat bahwa bedsoretidakterlalu berpengaruh terhadap kematian karena nilai RR cukup dekat dengan satu. Artinyabahwa tingkat keparahan merupakan variabel perancu dalam hubungan antarabedsoredengan kematian.

Contoh 4.2Contoh ini berkebalikan dengan contoh sebelumnya. Ketika tidak ada confounder, ter-lihat tidak ada pengaruh faktor resiko (Tabel 4.3). Namun ketika di-stratifikasi menurutconfounder, terlihat ada pengaruh faktor resiko terhadap disease.

Page 37: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

4.3. Metode Standarisasi dan Mantel-Haenszel 34

Tabel 4.3: Data faktor resiko dengan disease

D+ D− TotalE+ 240 420 660 π1 = 0,3636E− 200 350 550 π2 = 0,3636

RR = π1/π2 = 1

Tabel 4.4: Data faktor resiko dengan disease distratifikasimenurut variabel lain(confounder)

VariabelF = 0:D+ D− Total

E+ 135 415 550 π1 = 0,2455E− 5 45 50π2 = 0,1000

RR = π1/π2 = 2,45

VariabelF = 1:D+ D− Total

E+ 105 5 110 π1 = 0,9545E− 195 305 500 π2 = 0,3900

RR = π1/π2 = 2,45

4.3 Metode Standarisasi dan Mantel-Haenszel

Metode standarisasi digunakan untuk mengatasiconfoundingdengan cara mem-bandingkan atau melakukan standarisasi dengan suatu populasi pembanding(standar). Metode ini biasa digunakan dalam Demografi. Variabel atau faktoryang biasanya digunakan dalam standarisasi adalah usia danjenis kelamin. Dike-nal dua jenis standarisasi yaitu (1) standarisasi langsung(direct standardization);dan (2) standarisasi tidak langsung (indirect standardization)

4.3.1 Standarisasi Langsung

Standarisasi langsung dibentuk dari hasil estimasi banyaknya kejadian (event)yang diperoleh dari model (distribusi) populasi studi (study population), dike-nakan pada populasi standar (standard/reference population). Variabel yang biasadigunakan untuk standarisasi adalah kelompok umur. Data yang diperlukan untukpenghitungan standarisasi dapat disusun seperti pada Tabel 4.5, denganni adalahbanyaknya kejadian (misalnya kematian) dalam interval (kelompok umur)i untukpopulasi studi;Ni adalah ukuran (banyaknya) populasi studi dalam intervali danMi : ukuran populasi pembanding.

Standarisasi langsung untukratebanyaknya kejadian adalah

Page 38: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

4.3. Metode Standarisasi dan Mantel-Haenszel 35

Tabel 4.5: Data untuk Standarisasi

Kel. Populasi Populasiumur studi pembanding

1 n1

N1

M1

2 n2

N2

M2

......

...i ni

Ni

Mi

......

...k nk

Nk

Mk

r = C

∑ki=1

ni

Ni

Mi∑k

i=1 Mi

, (4.1)

denganC suatu konstanta yang digunakan agar bilangan yang diperoleh tidakterlalu kecil. BiasanyaC = 1000, sehingga satuan untukr adalah banyaknyakejadian per 1000 orang.

Deviasi standar untukr adalah

SE(r) =C∑k

i=1 Mi

k∑

i=1

√ni

(Mi

Ni

)2

(4.2)

yang dapat digunakan untuk menghitung interval konfidensi 95%, yaitu:r±1,96×SE(r).

4.3.2 Standarisasi Tidak Langsung

Metode ini menggunakan dua tahapan proses. Pertama model dari populasi pem-banding yang biasanya berupa ASDR (Age Specific Deaths Rate) dikenakan padastudi populasi. Untuk penghitungan ini diperlukan informasi banyaknya kejadi-an (kematian) di populasi pembanding (dinotasikan sebagaimi) karena ASDR= mi/Mi. Harga harapan banyaknya kematian dalam populasi studi berdasarkanmodel populasi pembanding adalahE =

∑ki=1 Ni(mi/Mi). Diperolehstandard-

ized event ratio(ser) ataustandardized mortality ratio(smr) jika event yang men-jadi perhatian adalah mortalitas sebagai berikut,

smr =

∑ki=1 ni

E, (4.3)

Page 39: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

4.3. Metode Standarisasi dan Mantel-Haenszel 36

Tabel 4.6: Data Tabel2 × 2 untuk strata ke-i

Status Sakit/Event TotalD+ D−

E+ ai bi ai + bi

E− ci di ci + di

Total ai + ci bi + di ni

dengan standard error

SE(smr) =

√(∑k

i=1 ni)

E(4.4)

Pada tahapan kedua dapat dihitung standarisasi tidak langsung sebagai berikut

rindirect = C × smr ×

∑ki=1 mi∑ki=1 Mi

, (4.5)

dengan standard error

SE(rindirect) = C ×

√(∑k

i=1 ni)

∑ki=1 mi∑ki=1 Mi

(4.6)

4.3.3 Mantel-Haenszel

Untuk data yang distratifikasi menurut variabel perancu, dapat dihitungodds ratiogabungan dari masing-masing strata. Estimator ini disebutMantel-Haenszel oddsratio yang

ΨMH =

(∑ki=1 aidi/ni∑ki=1 bici/ni

)(4.7)

dengan standar error untuklog(ΨMH) adalah

SE(log(ΨMH)) =

√ ∑PiRi

2(∑

Ri)2+

∑PiSi +

∑QiRi

2∑

Ri

∑Si

+

∑QiSi

2(∑

Si)2(4.8)

untuk setiap stratumi,

Pi = (ai + di)/ni, Qi = (bi + ci)/ni,

Ri = aidi/ni, Si = bici/ni,

Page 40: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

4.4. Interaksi 37

(a) tidak ada interaksipe

luan

gdis

ea

se

A = E− A = E+

B = E−

B = E+

(b) interaksi unilateral

pelu

angd

ise

ase

A = E− A = E+

B = E−

B = E+

(c) interaksi sinergis

pelu

angd

ise

ase

A = E− A = E+

B = E−

B=

E+

(d) interaksi antagonis

pelu

angd

ise

ase

A = E− A = E+

B = E −

B=

E+

Gambar 4.3: Jenis Interaksi untuk Dua Faktor ResikoA danB

Interval konfidensi 95% untuklog(ΨMH) adalah

log(ΨMH) ± 1,96 SE(log(ΨMH)), (4.9)

Interval konfidensi 95% untukΨMH sendiri dapat dihitung dengan mengambil ni-lai eksponensial dari masing-masing batas interval tersebut.

4.4 Interaksi

Dua faktor dikatakan berinteraksi bila efek satu faktor terhadap suatu kejadianpenyakit berbeda tingkatnya untuk beberapa strata atau nilai yang berbeda darifaktor yang lain. Istilah lain untuk interaksi yang lebih dikenal dalam epidemio-logi adalah modifikasi efek (effect modification). Bila tidak ada interaksi, seti-ap faktor resiko akan mempunyai efek yang tetap (homogen) pada tingkat yangberbeda-beda dari faktor yang lain.

Interaksi dan jenisnya dapat digambarkan seperti pada Gambar 4.3. Misalkanada dua faktorA danB yang menjadi perhatian dan masing-masing mempunyaidua tingkat faktor yaitu terpapar (exposedE+) dan tidak terpapar (non-exposedE−).

Bila tidak ada interaksi antara faktorA dan B, peluang terjadinya disease(efek dari faktor) darinon-exposedke exposedakan sama tingkat kenaikannya(Gambar 4.3 (a)). Untuk faktorB tidak terpapar (B = E−), pengaruh faktorAakan naik dari ketikaA = E− ke A = E+ yang mana tingkat kenaikannya sama

Page 41: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

4.4. Interaksi 38

(kemiringannya) untuk faktorB terpapar (B = E+). Untuk interaksi unilateral(Gambar 4.3 (b)), efek dari faktorA ada jika faktorB terpapar (B = E+). Namunbila B tidak terpapar faktorA tidak berpengaruh.Interaksi sinergis terjadi bilapengaruh faktorA searah atau sama-sama naik dariA = E− ke A = E+, tapikenaikan akan makin besar bila adaB terpapar (B = E+). Interaksi antago-nis berlawanan dengan interaksi sinergis. Jenis interaksi variabel ini terjadi bilapengaruh faktorA menjadi berkebalikan ketikaB berubah. JikaB tidak terpapar(B = E−), pengaruhA akan menurun dari ketika tidak terpapar (A = E−) keterpapar (A = E+). Sebaliknya jikaB terpapar (B = E+), pengaruhA akannaik.

Untuk mengidentifikasi adanya interaksi, perlu dilakukan analisis baik secaradeskriptif berupa diagram interaksi maupun dengan uji statistik. Pengetahuan ten-tang substansi variabel atau faktor yang diteliti sudah tentu diperlukan untuk iden-tifikasi awal variabel atau faktor apa saja yang mungkin berinteraksi.

Untuk menguji interaksi dapat digunakan statistik berdasarkan risk rasio(RR), risk difference(RD) maupunodds ratio(OR). Misalkan ada dua faktorA danB seperti digunakan di atas. Untuk menyederhanakan notasi, terpapar olehfaktor A atauA = E+ dituliskan sebagaiA1, tidak terpapar oleh faktorA atauA = E− dituliskan sebagaiA0, demikian pula untuk faktorB. Kemudian dide-finisikan kombinasi dari faktorA danB sebagai berikutA1B1, A1B0, A0B1 danA0B0. NotasiA1B1 adalah terpapar baik oleh faktorA maupunB, kombinasiyang lain dapat diartikan dengan cara yang sama.

Didefinisikan pula probabilitas kondisional mendapatkan penyakit (D+) de-ngan diberikan kombinasi faktorA danB sebagai berikut:

π11 = P (D+ | A1B1) π10 = P (D+ | A1B0)

π01 = P (D+ | A0B1) π00 = P (D+ | A0B0)

Empat macam resiko terkena penyakit dinyatakan sebagai probabilitas bersyaratterhadap kombinasi antara faktorA danB ini dapat dilihat seperti pada Tabel 4.7(a).

MenggunakanRR (Tabel 4.7 (b)), faktorA danB dikatakantidak ada inter-aksi bila

RRAB = RRARRB, (4.10)

denganRRAB adalahrisk ratio antara resiko mendapatkan penyakit jika terpaparolehA dan terpaparB, dengan resiko mendapat penyakit jika tidak terpapar olehA maupunB; atauRRAB = π11/π00. Dengan interpretasi yang sama didefinisi-kan pulaRRA = π10/π00 danRRB = π01/π00. Pernyataan (??) dinamakan in-teraksi pada skala multiplikatif (interaction on multiplicative scale). Berdasarkanskala multiplikatif, tidak ada interaksi berarti rasio resiko paparan bersamaA danB sama dengan hasil kali rasio resiko masing-masing faktor.

Page 42: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

4.5. Latihan 39

Tabel 4.7: Interaksi menurut RR, OR dan RD

(a) Resiko, diketahui faktorA danBfaktor B

faktorA B = E− B = E+

A = E− π00 π01

A = E+ π10 π11

(b) MenggunakanRRfaktor B

faktorA B = E− B = E+

A = E− 1 RRB

A = E+ RRA RRAB

tdk ada interaksi:RRAB = RRARRB

(c) MenggunakanORfaktor B

faktorA B = E− B = E+

A = E− 1 ORB

A = E+ ORA ORAB

tdk ada interaksi:ORAB = ORAORB

(c) MenggunakanRDfaktor B

faktorA B = E− B = E+

A = E− 0 RDB

A = E+ RDA RDAB

tdk ada interaksi:RDAB = RDA + RDB

Pengujian interaksi secara multiplikatif dapat pula dilakukan menggunakanOR (Tabel 4.7 (c)) sebagai berikut

ORAB = ORAORB, (4.11)

denganORAB, ORA danORB didefinisikan dan diinterpretasikan serupa sepertiRR di atas. MisalnyaORA = [π10/(1 − π10)]/[π00/(1 − π00)] adalahodds ra-tio antaraoddsmendapatkan penyakit jika terpapar olehA dan tidak terpaparB,denganoddsmendapatkan penyakit jika tidak terpapar olehA maupunB.

Interaksi dapat pula terjadi pada skala aditif (interaction on additive scale)dengan menggunakanRD (Tabel 4.7 (d)). Dengan cara ini, faktorA dan Bdikatakantidak ada interaksi bila

RDAB = RDA + RDB (4.12)

(π11 − π00) = (π10 − π00) + (π01 − π00)

yaitu selisih resiko antara paparan bersamaA danB sama dengan total selisihresiko antara masing-masing faktor.

Apabila faktor yang menjadi perhatian lebih dari dua maka diperlukan model-model regresi yang akan dibahas pada Bab-Bab selanjutnya.

4.5 Latihan

1. Diberikan tabel2 × 2 seperti di bawah yang diperoleh dari studi prospektifdengan variabel paparanE dan variabel penyakitD.

Page 43: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

4.5. Latihan 40

D+ D−

E+ 205 76E− 65 116

(a) Stratifikasilah tabel di atas menjadi dua buah tabel2 × 2 sedemikiansehingga variabel ketiga yang men-stratifikasi tabel di atas merupakanvariabel confounder (berikan nama variabelnyaF dan kategorinyaF0

danF1)

(b) Hitunglah OR Mantel-Haenszel dari data tabel yang saudara buat diatas

2. Dalam suatu studi tentang faktor resiko suatu penyakit, variabel statusmerokok dan konsumsi lemak menjadi perhatian. Misalkan diperoleh da-ta resiko relatif (RR) untuk kombinasi status merokok dan tingkat konsumsilemak adalah sebagai berikut:

konsumi status merokoklemak tidak pernah mantan ringan beratrendah 1 1.5 2.0 3.0medium 1.2 1.8 2.4 3.6tinggi 1.5 2.3 3.0 4.5sangat tinggi 2.0 3.5 4.0 6.0

Dalam penelitian ini yang dianggap sebagai tingkat paparanyang terendahadalah tidak pernah merokok dan mengkonsumsi makanan rendah lemak,dan yang tertinggi adalah perokok berat dan menkonsumsi lemak sangattinggi. Terlihat bahwa resiko semakin naik seiring dengan kenaikan tingkatpaparan. Apakah data ini menunjukkan adanya perancuan (confounding)?Apakah data ini menunjukkan adanya interaksi antara konsumsi lemak de-ngan merokok kaitannya dalam mengakibatkan penyakit?

Page 44: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5Model Linear Tergeneralisasi

5.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

1. Menjelaskan konsep Model Linear Tergeneralisasi (Generalized Linear Mo-del) dan kaitannya dengan model statistika lain seperti RegresiLinear,ANAVA, Regresi Logistik dan Regresi Poisson.

2. Melakukan inferensi Regresi Logistik.

3. Melakukan inferensi Regresi Poisson.

4. Mengidentifikasi model yang tepat untuk permasalahan dalam epidemiologidan penelitian kesehatan.

5. Memberi contoh model GLM yang lain selain Regresi Linear, ANAVA, Re-gresi Logistik dan Regresi Poisson.

5.2 Generalisasi Model Linear

Model Linear yang sudah dikenal seperi Regresi Linear dan ANAVA juga bebe-rapa metode regresi lain yang cukup populer seperti regresilogistik sebenarnyamerupakan satu keluarga model regresi yang lebih luas yang dinamakan ModelLinear Terumumkan (GLM :Generalized Linear Model).

Ada tiga komponen utama yang membentuk GLM yaitu

• Variabel randomY1, Y2, . . . , Yn denganE(Yi) = µi dengan fungsi densitasdari keluarga eksponensial (exponential family)

41

Page 45: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.2. Generalisasi Model Linear 42

• Prediktor linear

ηi = x iβ = β0 + β1xi1 + . . . + βpxip

• Fungsi penghubung (link function), yang menghubungkanE(Yi) = µi de-nganxiβ

g(µi) = xiβ

• Fungsi variansiVi

Fungsi densitasf(y; θ) disebut sebagai Keluarga eksponensial (exponentialfamily) bila:

f(y; θ) = s(y)t(θ)ea(y)b(θ)

= exp(a(y)b(θ) + c(θ) + d(y))

dengans(y) = exp(d(y)) dant(θ) = exp(c(θ)).

• jika a(y) = y, f(y; θ) disebut bentuk standar (canonical, standard form)

• b(θ) sering disebut parameter natural

Beberapa contoh keluarga eksponensialDistribusi parameter natural c dPoisson log θ −θ − log y!

Normal µσ2 − µ2

2σ2 −12log(2πσ2) − y2

2σ2

Binomial log( π1−π

) n log(1 − π) log(

ny

)

Beberapa contoh GLM:Model Jenis responY distribusi fungsi penghubungModel linear Normal kontinu Normal identitas:g(µ) = µRegresi Logistik proporsi binomial logit:g(µ) = log µ

1−µ

Regresi Poisson cacah Poisson log :g(µ) = log µModel Gamma kontinu, positif Gamma log:g(µ) = log µ

Beberapa contoh fungsi penghubung:

• identitas :g(µ) = µ

• logit: g(µ) = log µ1−µ

• probit: g(µ) = Φ−1(µ), Φ distribusi kumulatif Normal standar

• power:g(µ) =

{µλ jika λ 6= 0

log(µ) jika λ = 0

• log: g(µ) = log µ

• complementary log log:g(µ) = log(− log(1 − µ))

Page 46: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.3. Regresi Logistik 43

5.3 Regresi Logistik

Pada Bagian 3.3 dipelajari analisis untuk tabel2 × 2. Dalam tabel2 × 2 inibaik responY maupun variabel penjelas atau faktorX hanya terdiri atas dua je-nis kategori. Penelitian dalam bidang kesehatan maupun epidemiologi biasanyamempunyai lebih dari satu variabel penjelas atau faktorX. Untuk data penelitiansemacam ini dapat digunakan regresi logistik.

5.3.1 Model dan Estimasi Parameter

MisalkanYi adalah variabel random Bernoulli untuk individui, distribusi proba-bilitasYI adalah

P (Yi = yi) = πyi

i (1 − πi)1−yi , yi = 0, 1 (5.1)

Setiap individui mempunyai karakteristik berupa variabelxi yang mempengaruhiπi dalam bentuk

πi =1

1 + exp(−(β0 + β1xi))(5.2)

Fungsi sepertiπi dalam persamaan (5.2) dinamakan fungsi logistik. Untuk vari-abel independen atau faktor yang lebih dari satu, fungsi untuk πi dapat diperluasmenjadi

πi =1

1 + e−Z, atau πi =

eZ

1 + eZ(5.3)

denganZ = β0 + β1x1 + β1x1 + · · · + βp adalah fungsi linear darip variabelpenjelas.

Model (5.3) dapat dituliskan sebagai kombinasi linear darivariabel indepen-den seperti halnya pada model linear sebagai berikut

logπi

1 − πi

= β0 + β1x1i + β2x2i + · · · + βpxpi (5.4)

atau

logit(πi) = β0 + β1x1i + β2x2i + · · · + βpxpi (5.5)

denganx1i, x2i, . . . , xpi adalah variabel independen, faktor atau kovariat; danβ0, β1, . . . , βp adalah parameter model.

Page 47: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.3. Regresi Logistik 44

Estimasi untukβ = (β0, β1, . . . , βp) dapat diperoleh dengan MLE untukfungsi likelihood berikut ini

L(β) =n∏

i=1

P (Yi = yi)

=[exp(β0 + β1x1i + β2x2i + · · · + βpi)]

yi

1 + exp(β0 + β1x1i + β2x2i + · · · + βpi)(5.6)

Program statistika seperti R, SPSS, Epi-Info, STATA menyediakan fasilitas untukestimasiβ dan kesalahan standarnya SE(β).

5.3.2 Interpretasi Parameter Model

Untuk model regresi logistik sederhana

logit(πi) = β0 + β1xi (5.7)

dengan

xi =

{0 i tdk terpapar

1 i terpapar

dapat dituliskan

log

(πi

1 − πi

)= β0 + β1xi

πi

1 − πi

= exp [β0 + β1xi]

atau

oddsxi= exp [β0 + β1xi] ,

yang diinterpretasikan sebagaioddsseseorang yang mempunyai karakteristikxi.Untuk orang yang terpapar (exposed), nilai xi = 1 danodds-nya ditulis sebagaioddsxi=1. Demikian juga untuk orang yang tidak terpapar,odds-nya ditulis seba-gaioddsxi=0.

Sehinggaodds ratioantara orang yang terpapar (xi = 1) dengan yang tidakterpapar (xi = 0) adalah

OR =oddsxi=1

oddsxi=0

=eβ0+β1×1

eβ0+β1×0=

eβ0+β1

eβ0

= eβ1. (5.8)

Page 48: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.3. Regresi Logistik 45

Atau dapat disimpulkan bahwa eksponen dari parameter modelregresi logistiksederhana adalahOR. Jika variabelX kontinu, kenaikanm-unit untuk satu vari-abel penjelasX, misalnyaX = x + m dibandingkan denganX = x mempunyaiORsama denganexp(mβ1).

Estimasi titik dan interval konfidensi(1 − α)100% untukOR dapat dihitungasalkan estimasiβ1 dan standar error-nyaσ(β1) diperoleh.

OR= exp(β1) (5.9)

exp(β1 ± Zα/2σ(β1)) (5.10)

Interpretasi ini dapat diperluas untuk model regresi logistik ganda dengan vari-abel penjelas bertipe kontinu maupun kategori. Secara umumORantara individuatau kelompok yang mempunyai karakteristikx1 dengan individu atau kelompokyang mempunyai karakteristikx0 adalah sebagai berikut:

OR =odds(πx1

)

odds(πx0)

=exp(β0 + β1x11 + β2x12 + . . . + βpx1p)

exp(β0 + β1x01 + β2x02 + . . . + βpx0p)

= exp

{p∑

j=1

βj(x1j − x0j)

}. (5.11)

Untuk menyederhanakan penulisan, indeksi yang biasa digunakan untuk me-nunjukkan suatu individu dihilangkan. Karakteristikx1 adalah vektor yangbernilai (x11, x12, . . . , x1p) dan karakteristikx0 adalah vektor yang bernilai(x01, x02, . . . , x0p).

Untuk menghitung interval konfidensi(1−α)100% ORdiperlukan nilaistan-dard error dari log(OR) yang mempunyai bentuk umum

SE[log(OR)] =

√√√√Var

{p∑

j=1

βj(x1j − x0j)

}. (5.12)

Sehingga interval konfidensi 95% nya adalah

exp(log(OR) ± 1,96 × SE[log(OR)]

)(5.13)

Bentuk umum di atas dapat juga digunakan untuk menyusun interval kon-fidensi suatu model regresi logistik yang memuat interaksi.Dalam Bagian 4.4telah dibahas pengertian interaksi dan metode inferensinya. Namun metode yang

Page 49: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.3. Regresi Logistik 46

dibahas mempunyai keterbatasan hanya dua faktor atau variabel saja yang terli-bat dalam model interaksi. Dengan menggunakan model regresi, termasuk modelregresi logistik, masalah tersebut dapat diatasi.

Misalkan variabel atau faktor yang terlibat lebih dari dua yaitu X1, X2, X3.Model yang menjadi perhatian adalah

logit(π) = β0 + β1X1 + β2X1 + β3X3 (5.14)

denganX1 bernilai (0 = tidak terpapar, 1 = terpapar) dan merupakan variabelyang menjadi perhatian,X2 danX3 dianggap sebagaiconfounder. VariabelX2

danX3 dapat bertipe kontinu maupun kategori, misalX2 adalah usia dalam tahun,danX3 adalah jenis kelamin denganX3 = 0 jika perempuan,X3 = 1 jika laki-laki. VariabelX1 kemungkinan berinteraksi dengan salah satuX2 atauX3.

Misal ingin dihitungORantara seorang laki-laki yang terpapar dan berusia 40tahun dengan seorang laki-laki yang tidak terpapar dan berusia 40 tahun. Dalamhal ini nilai x1 = (X11 = 1, X12 = 40, X13 = 1) danx0 = (X01 = 0, X02 =40, X03 = 1). Menggunakan (5.11)ORx1 terhadapx0 adalah:

OR = exp

{3∑

j=1

βj(X1j − X0j)

}

= exp {β1(X11 − X01) + β2(X12 − X02) + β3(X13 − X03)}

= exp {β1(1 − 0) + β2(40 − 40) + β3(1 − 1)}

= exp {β1} (5.15)

Meskipun rumusanORyang diperoleh pada regresi logistik ganda (5.15) sama de-ngan yang diperoleh pada regresi logistik sederhana (5.8) namun nilainya berbe-da. Dalam (5.15) nilaiOR dikatakan sudah diselaraskan (adjusted, controlled)dengan variabelX2 danX3 sedangkan pada (5.8) tidak diselaraskan, perhitunganhanya dari variabel utamaX1 saja. Interval konfidensi 95% dapat menggunakanstandard erroruntuk log(OR) atau SE(β1), yaituexp(log(OR) ± 1,96 × σ(β1)).

Misalkan model yang menjadi perhatian sekarang adalah model dengan inter-aksi

logit(π) = β0 + β1X1 + β2X1 + β3X3 + β4X1X2 + β5X1X3. (5.16)

RumusanORantara seorang laki-laki yang terpapar dan berusia 40 tahundenganseorang laki-laki yang tidak terpapar dan berusia 40 tahun menjadi:

OR = exp

{3∑

j=1

βj(X1j − X0j)

}

= exp{β1(X11 − X01) + β2(X12 − X02) + β3(X13 − X03) +

β4(X11X12 − X01X02) + β4(X11X13 − X01X03)}

Page 50: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.3. Regresi Logistik 47

= exp{β1(1 − 0) + β2(40 − 40) + β3(1 − 1) +

β4(1 × 40 − 0 × 40) + β5(1 × 1 − 0 × 1)}

= exp{β1 + 40β4 + β5} (5.17)

EstimasiORuntuk model regresi logistik dengan interaksi ini tidak sama denganORuntuk model regresi logistik tanpa interaksi. Estimasistandard errorlog(OR)juga berbeda dan lebih rumit.

Var[log(OR)] = Var (β1 + 40β4 + β5)

= Var(β1) + 402Var(β4) + Var(β5) + 2(40)Kov(β1, β4) +

2Kov(β1, β5), (5.18)

jadi SE[log(OR)] =√

Var[log(OR)] memerlukan nilai Variansi estimatorβ1, β4,β5 dan Kovariannya.

Program statistik standar biasanya mampu menghitungβ maupunKov(β)yang diperlukan untuk interval konfidensi. Beberapa programsudah dilengkapipula dengan output batas interval konfidensi untukOR-nya.

Contoh 5.1Merujuk data pada Tabel 3.4 tentang hubungan antara penyakit jantung koroner dengantekanan pekerjaan, telah dihitung estimasi untukRR, OR danRD sebagai berikut:

Estimasi titik Interval Konfidensi 95%Risk ratio(RR) 1,932 1,555 — 2,399Odds ratio(RR) 2,225 1,696 — 2,922Risk difference(RD) 0,116 0,071 — 0,161

Estimasi seperti tabel di atas juga dapat diperoleh dengan model regresi logistik seder-hanalogit(πi) = β0 + β1xi, i = 1, . . . , 2013 (ada97 + 307 + 200 + 1409 = 2013subyek dalam studi tersebut). Variabel responYi bernilai 1 jikai terkena penyakit jan-tung koroner, bernilai 0 jika tidak; variabel dependen (faktor)Xi bernilai 1 jikai tertekankarena pekerjaan, bernilai 0 jika tidak. Estimasiβ0 danβ1 dapat dilakukan dengan meng-gunakan alat bantu paket statistik.Output regresi logistik suatu paket statistik minimalmenampilkan hasil estimasiβ danstandard errornya. Untuk data di atas diperoleh hasilsebagai berikut:

Estimasi titik standard errorInsersep β0 = −1,952 σ(β0) = 0,0756

Tertekan karena pekerjaanβ1 = 0,800 σ(β1) = 0,1388

Untuk menghitungRR antara subyek atau kelompok yang tertekan karena pekerjaan de-ngan subyek yang tidak tertekan karena pekerjaan dapat digunakan estimasiπi dari modellogistik logit(πi) = −1,952 + 0,800xi.

Page 51: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.4. Regresi Poisson 48

Resiko atau probabilitas kondisional subyek terkena jantung koroner jikadia tertekankarena pekerjaan adalah

πxi=1 = P (yi = 1 | xi = 1)

= alogit(−1,952 + 0,800xi)

= alogit(−1,952 + 0,800 × 1)

= alogit(−1,152)

= 0,240

denganalogit adalah fungsi invers darilogit

alogit(u) =exp(u)

1 + exp(u)(5.19)

Dengan cara yang sama dapat dihitung resiko subyek terkena jantung koroner jika diatidak tertekan karena pekerjaan, yaituπxi=0 = 0,124. Estimasi titik untukrisk ratio,odds ratiodanrisk differencedapat dihitung menggunakanπxi=1 danπxi=0.

Estimasiodds ratiojuga dapat dihitung menggunakan persamaan (5.8) atau secara umum(5.11). Dalam contoh iniOR = exp(0,800) = 2,225. Interval konfidensi untukOR dapatdihitung menggunakanσ(β1) karena dalam model iniOR = exp(β1), ataulog(OR) =β1. Diperoleh interval konfidensi untukOR dengan batas bawahexp(0,800 − 1,96 ×0,1388) dan batas atasexp(0,800 + 1,96 × 0,1388) atau (1,696 – 2,292), yang samadengan hasil yang diperoleh pada contoh 3.4 di muka.

Standard erroruntukRR danRD tidak mudah dihitung berdasarkanπxi=1 danπxi=0 se-hingga dalam praktek estimasi dan interval konfidensi untukRR danRD dengan meng-gunakan regresi logistik tidak banyak digunakan.

5.4 Regresi Poisson

5.4.1 Model dan Estimasi Parameter

Distribusi Poisson biasanya digunakan untuk memodelkan cacah kejadian dalamsuatu unit interval waktu, atau daerah tertentu. Distribusi probabilitas Poissonmempunyai fungsi probabilitas sebagai berikut

P (Y = y | µ) =θxe−µ

y!, y = 0, 1, 2, . . . (5.20)

yang mempunyai mean dan variansi sama yaituµ.Banyaknya pasien yang datang di unit gawat darurat per hari, banyaknya ke-

matian akibat kanker per orang-tahun (person-years), banyaknya kematian bayiper 1000 kelahiran merupakan contoh fenomena yang dapat dimodelkan dengan

Page 52: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.4. Regresi Poisson 49

distribusi Poisson. Dalam contoh tersebut ada dua komponenyang mencirikandistribusi Poisson, yaitu banyaknya sukses atau cacah kejadian (events) dan unitdimana banyaknya sukses tersebut terjadi. Meanµ dari distribusi Poisson adalahratebanyaknya sukses dibagi total unit.

Regresi Poisson memodelkan meanµ sebagai fungsi dari variabel independendan besarnya unit. Regresi Poisson dengan satu variabel independen dituliskansebagai berikut:

E(Yi | Xi) = µi = siλ(xi) (5.21)

= si exp(β0 + β1xi), atau

log µi = log si + β0 + β1xi (5.22)

denganYi adalah banyaknya sukses pada uniti, si adalah ukuran besarnyatiap unit i, λ(xi) dinamakan resiko uniti dan xi adalah variabel independen,i = 1, 2, . . . , n. Ukuran unitsi dapat berupa banyaknya anggota populasi, in-terval waktu, luasan,exposure timedan sebagainya. Dalam model regresi Poissonini karakteristik suatu unit yang dinyatakan dengan variabel independenxi mem-pengaruhiµ melalui probabilitas resikoλ.

Dengan asumsiYi berdistribusi Poisson, diperoleh fungsi likelihood:

L(β) =n∏

i=1

P (Yi = yi)

=n∏

i=1

[siλ(xi)]yi exp[−siλ(xi)]

yi!

=n∏

i=1

[si exp(β0 + β1xi)]yi exp[−si exp(β0 + β1xi)]

yi!(5.23)

Untuk mengestimasiβ dan kesalahan standarnya SE(β) dapat digunakan bebe-rapa program statistika seperti R, STATA, SPSS atau SAS.

5.4.2 Interpretasi Parameter Model

Untuk model regresi Poisson sederhana

log µi = log si + β0 + β1xi (5.24)

dengan

xi =

{0 i tdk terpapar

1 i terpapar

Page 53: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.4. Regresi Poisson 50

Dapat dihitung rasio antara mean antara uniti yang terpapar dengan yang tidakterpapar sebagai berikut

RR =E(Yi | Xi = 1)

E(Yi | Xi = 0)

=si exp(β0 + β1)

si exp(β0)

= eβ1 (5.25)

Dengan menggunakan pendekatan Poisson untuk Binomial, rasio di atas dapatdiinterpretasikan sebagairelative risk atau risk ratio RR. Pendekatan ini akancukup baik jika probabilitas atau resiko kejadian kecil (rare events) dengan ukuranunit yang cukup besar.

Contoh 5.2Merujuk pada Contoh 3.3 tentang pengaruh rokok pada kematian, telah dihitung insidensiuntuk kelompok perokok dan bukan perokok dalam satuan per 1000 orang, yaitu untukperokok adalah 4,43 dan untuk bukan perokok adalah 2,58. Rasio resiko untuk meninggalantara perokok dan bukan perokok adalahRR = 4,43/2,58 = 1,72. Regresi Poissonsederhana dapat digunakan untuk menghitungRRbeserta interval konfidensinya. Denganmenggunakan paket program statistik diperoleh estimasi untukβ0 danβ1 besertastandarderror nya sebagai berikutβ0 = −5,9618, SE(β0) = 0,0995 danβ1 = 0,5422, SE(β1) =0,1072.

RR= exp(β1) = exp(0,5422) = 1,72

Interval konfidensi 95% untukRRadalah eksponensial darilog(RR) ± 1,96SE(β1) atau(1,4 – 2,1).

Seperti model regresi logistik, regresi Poisson dapat diperluas untuk banyakvariabel (regresi Poisson ganda) sebagai berikut:

log µi = log si + β0 + β1xi + . . . + βpxp (5.26)

denganx1, x2, . . . , xp adalah variabel dependen danβ1, β2, . . . , βp adalah koe-fisien regresi Poisson. Model regresi Poisson juga dapat digunakan untuk men-ganalisis interaksi seperti halnya pada model regresi logistik. Cara penghitunganRRdan interval konfidensi pada regresi Poisson juga mengikutiprinsip penghi-tunganORdan interval konfidensinya pada regresi logistik.

Contoh 5.3Merujuk kembali pada Contoh 3.3, insidensi untuk tiap kelompok umur dan statusmerokok pada Tabel 3.1 dapat dihitung menggunakan rumus (3.9). Misalnya untuk pe-rokok dalam kelompok umur35 − 44, estimasi insidensi kematian adalah32/52407 =

Page 54: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.4. Regresi Poisson 51

0,00061061 atau karena bilangan insidensi kecil biasanya dikalikan dengan suatu konstanbesar misalnya 100.000, jadi insidensinya adalah61,06 kematian per seratus ribu orang.Dengan cara yang sama dapat dihitung nilai insidensi yang lain seperti pada Tabel 5.1.Untuk membandingkan insidensi dapat dihitungRRperokok dan bukan perokok dalamkelompok umur yang sama. MisalnyaRRuntuk perokok dibanding bukan perokok dalamkelompok umur35 − 44 adalah61,06/10,64 = 5,74. Nilai RRyang lain dapat dilihatpada Tabel. Plot insidensi menurut status merokok dan usia dapat dilihat pada Gambar5.1. Dapat dilihat pada Tabel 5.1 dan Gambar 5.1 bahwa tingkat kematian untuk perokoklebih tinggi dibandingkan dengan tingkat kematian bukan perokok, kecuali untuk kelom-pok usia lanjut.

Tabel 5.1: Insidensi danRRkematian akibat jantung koroner menurut umurdan status merokok

Kel. Insidensi Rasio ResikoUmur perokok bukan perokok (RR)

35 – 44 61,06 10,64 5,7445 – 54 240,47 112,43 2,1455 – 64 719,98 490,37 1,4765 – 74 1468,85 1083,17 1,3675 – 84 1918,38 2120,38 0,90

050

010

0015

0020

00

kelompok umur

kem

atia

n pe

r 10

0.00

0 pe

r ta

hun

35−44 45−54 55−64 65−74 75−84

Gambar 5.1: Tingkat kematian akibat penyakit jantung koroner per 100.000person-yearsuntuk perokokN dan bukan perokok•

Page 55: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.4. Regresi Poisson 52

Tabel 5.2: Estimasi parameter model (5.27)

Parameter Estimasiβ SEβ0 -9,15 0,71β1 1,75 0,73β2 2,36 0,76β3 3,83 0,73β4 4,62 0,73β5 5,29 0,73β6 -0,99 0,79β7 -1,36 0,76β8 -1,44 0,76β9 -1,85 0,76

Untuk menganalisis data ini dapat digunakan beberapa alternatif model regresi Poissonganda. Model pertama memuat semua kombinasi tingkat faktor dari status merokok mau-pun kelompok umur. model ini disebut sebagaisaturated modelkarena banyaknya datasama dengan banyaknya parameter. Model dibentuk dengan membuat variabel-variabelboneka (dummy) untuk kelompok umur dengan interaksi variabel-variabel tersebut de-ngan status merokok. Modelnya adalah sebagai berikut:

log µi = log(si) + β0 + β1x1i + β2x2i + β3x3i + β4x4i + β5x5i +

β6x1ix2i + β7x1ix3i + β8x1ix4i + β9x1ix5i

i = 1, 2, . . . , 10 (5.27)

dengan

• µi : mean dari kematian

• si: person-years

• x1i: perokok atau bukan;

• xki, k = 2, 3, . . . , 5: kelompok umur35 − 44, 45 − 54, . . ., 75 − 84

• x1ixki, h = 2, 3, . . . , 5: interaksi (hasil kali) antarax1i dengan kelompok umurxki

Diperoleh estimasi seperti pada Tabel 5.2. Untuk mengestimasi insidensi untuk tiap-tiap kombinasi status merokok dan kelompok umur dapat digunakan nilai estimasi(β0, . . . , β9) dan nilai variabelnya. Misalnya untuk perokok dalam kelompok umur 35– 44 akan dihitung estimasinya menggunakan model (5.27). Dalam kelompok inix1 = 1(perokok),x2 = 0 (kelompok usia 35 – 44) dan interaksinyax1x2 = 0, nilai variabel

Page 56: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.4. Regresi Poisson 53

yang lain adalah 0, jadi estimasinya adalah

µ = exp(β0 + β1xi + . . . + β9x1x5)

= exp(−9,15 + (1,75)(1) + (2,36)(0) + (3,83)(0) + (4,62)(0) + (5,29)(0) +

(−0, 99)(0) + (−1, 36)(0) + (−1, 44)(0) + (−1, 85)(0))

= exp(−7,40) = 0,0006106

atau 61,06 per 100.000 orang seperti pada Tabel 5.1. Untuk mengestimasibanyak-nya kematian, nilai estimasi ini dikalikan dengansi (person years) pada kelompok ter-sebut. Untuk perokok dalam kelompok umur 35 – 44 diketahuisi = 52407, atau0,0006106(52407) = 32 yang nilainya sama dengan data pada Tabel 3.1. Nilai insid-ensi pada kombinasi tingkat faktor yang lain dapat dihitung dengan caraserupa.

Resiko relatif antara perokok dan bukan perokok (RR) untuk setiap kelompok dapat puladihitung berdasarkan model regresi Poisson (5.27) dengan hasil estimasi pada Tabel 5.2.Misalnya untuk kelompok usia 45 – 54,

RR=estimasi insidensi untuk kelompok perokok usia 45 – 54

estimasi insidensi untuk kelompok bukan perokok usia 45 – 54

Estimasi insidensi untuk kelompok perokok usia 45 – 54 adalah

exp{

β0 + β1(1) + β2(1) + β3(0) + β4(0) + β5(0)+

β6(1)(1) + β7(1)(0) + β8(1)(0) + β9(1)(0)}

= exp(β0 + β1 + β2 + β6)

Sedangkan untuk kelompok bukan perokok usia 45 – 54 adalah

exp{

β0 + β1(0) + β2(1) + β3(0) + β4(0) + β5(0)+

β6(0)(1) + β7(0)(0) + β8(0)(0) + β9(0)(0)}

= exp(β0 + β2)

Menggunakan nilai estimasiβ1 danβ6 diperoleh

RR =exp(β0 + β1 + β2 + β6)

exp(β0 + β2)

= exp(β1 + β6)

= exp(1,75 + (−0,99)) = exp(0,76) = 2,14.

Nilai RR ini sama seperti pada Tabel 5.1 untuk kelompok umur 45 – 54. Interval konfi-densinya dapat dihitung dengan terlebih dahulu menghitungstandard errordari log RRyaitu

SE(log RR) =

√Var(β1 + β6)

=

√Var(β1) + Var(β6) + 2Kov(β1, β6)

Page 57: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.4. Regresi Poisson 54

Program statistik standar biasanya menghitung matriks variansi dan kovariansi dariestimator β selain nilai estimasiβ nya sendiri. DiperolehVar(β1) = 0,5313,Var(β6) = 0,6242 danKov(β1, β6) = −0,5313, jadi SE(log RR) = 0,5313 + 0,6242 +2(−0,5313) = 0,0930. Interval konfidensi 95% untukRRpada kelompok usia 45 – 54adalahexp(log RR± 1,96SE(log RR)) atauexp(log(2,14)± 1,96(0,0930)), yaitu (1,782– 2.566). Cara penghitunganRRdan interval konfidensi nya untuk kelompok usia yanglain dapat dilakukan dengan cara yang sama.

Contoh 5.4Alternatif model regresi Poisson (5.27) adalah menganggap kelompok usiasebagai vari-abel kontinu, misalnya dengan mengambil nilai median interval masing-masing kelom-pok umur, sehingga dapat dimodelkan pula kuadrat dari umur dan interaksinya de-ngan status merokok. Asumsi ini masuk akal karena usia seperti terlihat pada Gambar5.1 menampilkan bentuk kuadratik dan bersilangan pada usia lanjut yang menunjukkanadanya interaksi.

log µi = log(si) + β0 + β1x1i + β2x2i + β3x1i × x2i + β4x21i, i = 1, . . . , 10 (5.28)

dengan

• µi : mean dari kematian

• si: person-years

• x1i: perokok atau bukan;

• x2i: usia1, 2, 3, 4, 5 ;

• x1i × x2i: interaksi (hasil kali) antarax1i denganx2i;

• x21i: kuadrat umur

Diperoleh hasil estimasiβ danstandard errornya seperti pada Tabel 5.3. Model (5.28)

Tabel 5.3: Estimasi parameter model (5.28)

Parameter Estimasiβ SEβ0 -19,700 1,2530β1 2,364 0,6562β2 0,356 0,0363β3 -0,002 0,0003β4 -0,0308 0,0097

memiliki lebih sedikit parameter dibandingkan model (5.27) dan kecocokan yang lebihbaik dilihat dari nilai AIC (Akaike Information Criterion) yaitu nilai AIC 66,70, lebihkecil dibanding model (5.27) yaitu 75.07. Namun memberi nilai numerik pada variabel

Page 58: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.5. Latihan 55

kelompok umur terkadang dapat menyesatkan, karena pengubahan skala pengukuran dariinterval ke rasio. Apabila umur sebenarnya dari setiap individu diketahui, lebih baik di-gunakan nilai variabel umur ini dalam model.

Resiko relatif dapat dihitung dengan cara yang sama seperti contoh 5.3. Misalkaningin diestimasiRRantara perokok dan bukan perokok untuk usia 50 tahun, maka

RR =estimasi insidensi untuk kelompok perokok usia 50

estimasi insidensi untuk kelompok bukan perokok usia 50

=exp(β0 + β1(1) + β2(50) + β3(1)(50) + β4502)

exp(β0 + β1(0) + β2(50) + β3(0)(50) + β4502)

= exp(β1(1) + β3(1)(50))

= exp(2,364 + (−0,002)(50))

= 9,622

Interval konfidensi untukRR dihitung dengan terlebih dahulu menghitung nilaiSE(log RR), yaitu

SE(log RR) =

√Var(β1) + 502Var(β3) + 2Kov(β1D, β3)

Batas bawah dan atas interval konfidensi 95% adalah(exp(log RR± 1,96SE(log RR))),yang dapat dihitung asalkan nilai matrik variansi-kovariansiβ diketahui.

5.5 Latihan

5.1. Mengacu soal nomor 2.8, misalkan digunakan regresi logistik logit(π) =β0 + β1X, denganX bernilai 1, jika menggunakan helm, 0 jika tidak;

(a) Hitung nilai estimasiβ0

(b) Hitung nilai estimasiβ1

5.2. Diberikan model regresi logistik logit(πi) = β0 + β1xi, dengan

Xi =

{−1 jika subyeki tidak terpapar

1 jika subyeki terpapar

Berapakah OR antara individu yang terpapar dengan yang tidakterpapar?

5.3. Respiratory Distress Syndrome(RDS) merupakan salah satu penyakitpenyebab utama kematian bayi. Gangguan fisiologis seperti kekurangan ok-sigen dan tingkat keasaman tinggi dalam darah diperkirakanmenjadi penye-bab RDS. Suatu penelitiancross-sectionaltentang RDS dilakukan pada 50bayi dengan variabel respon adalahSURVIVAL (1: mati, 0: hidup) dan vari-abel penjelas TREATMNT (tipe tritmen untuk menetralisasi asam dalam

Page 59: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.5. Latihan 56

darah, 1: THAM, 0:sodium carbonate); TIME (lama waktu yang diper-lukan bayi untuk bernapas kembali, dalam menit),WEIGHT (Berat lahir,kilogram),RESP (Terapi pernafasan, 1: Ya, 0:Tidak),AGE (usia gestasionalatau lama bayi/janin dalam kandungan, minggu). Diperoleh output regresilogistik dari sebuah paket statistik sebagai berikut:

Variable B S.E. Wald df Sig R Exp(B)TREATMNT .94 .78 1.44 1 .22 .00 2.56TIME .04 .10 .14 1 .70 .00 1.04WEIGHT 3.94 1.62 5.85 1 .91 .24 51.50RESP -1.88 .82 5.26 1 .02 -.22 .15AGE -.35 .24 2.05 1 .15 -.02 .69Constant 4.10 5.80 .50 1 .47

(a) Hitung estimasi probabilitas untuk bayi yang mendapatkan tritmen 1,lama waktu bernafas kembali 2 menit, berat lahir 1,05 kg, tidak men-dapat terapi pernafasan dan usia gestasional 28 minggu!

(b) Hitung interval konfidensi 95% untuk OR (odds ratio) antara tritmen(TREATMNT) 1: THAM dengan 0:sodium carbonate!

(c) Hitung estimasi RR (risk ratio) antara tritmen (TREATMNT) 1: THAMdengan 0:sodium carbonatedan nilai variabel yang lain sama un-tuk masing-masing tritmen, yaituTIME=2, WEIGHT=1,05 ,RESP=0AGE=28!

5.4. Ingin diteliti apakah status sosial (variabel SOC, 1= kelas sosial tinggi,0=kelas sosial rendah) berpengaruh terhadap mortalitas akibat penyakit jan-tung (variabel CVD, 1=meninggal karena penyakit jantung, 0=meninggalbukan karena penyakit jantung). Variabel lain yang dipandang pentingadalah status merokok (variabel SMK, 0=tidak merokok, 1=merokok) dantekanan darah sistolik (SBP, variabel kontinu). Dari follow-up study sela-ma 12 tahun terhadap 200 pria yang berusia 50 tahun atau lebihdiperolehestimasi parameter model logistik sebagai berikut:Model 1:Variable EstimasiβIntersep −1,1800SOC −0,5200SBP 0,0400SMK −0,5600SOC× SBP −0,0330SOC× SMK 0,1750

Model 2:Variable EstimasiβIntersep −1,1900SOC −0,5000SBP 0,0100SMK −0,4200

(a) Tuliskan formulasi model logistik untuk Model 1 dan Model 2!

Page 60: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

5.5. Latihan 57

(b) Hitung Risk Ratiomeninggal karena CVD untuk status sosial tinggiterhadap status sosial rendah berdasarkan Model 1 dan Model2, untukperokok yang tekanan darah sistoliknya 150!

(c) BerapakahOdds Ratiomeninggal karena CVD untuk status sosialtinggi terhadap status sosial rendah setelah diselaraskanoleh variabelyang lain (adjusted for other variables) berdasarkan Model 1 dan Mo-del 2?

5.5. Diberikan model regresi Poissonlog(µi) = log si + −6,757+ 0,304xi,dengansi adalah ukuran tiap uniti, µi adalah unit ke-i dan

Xi =

{−1 jika subyeki tidak terpapar

1 jika subyeki terpapar

Hitung estimasi RR antara individu yang terpapar dengan yangtidak terpa-par!

5.6. Diperoleh data banyak kasus (N) kanker kulit untuk dua daerah A dan Bdan untuk kelompok umur sebagai berikut:

Daerah A Daerah BKel. umur N populasi N populasi15 – 24 1 172 675 4 181 34325 – 34 16 123 065 38 146 20735 – 44 30 96 216 119 121 374

Lakukan analisis dengan menggunakan regresi Poisson untukdata di atas(gunakan paket statistik)!

Page 61: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

6Uji Diagnostik

6.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

1. Menjelaskan Sensitivitas, Spesifisitas dan Nilai Prediksi beserta teori yangmendasarinya

2. Menghitung dan menginterpretasikan kurva ROC, untuk suatu data diagno-sis

6.2 Sensitivitas, Spesifisitas dan Nilai Prediksi

Untuk menentukan sakit atau tidaknya seseorang diperlukandiagnosa medis yangtepat. Dapat dikatakan diagnosis adalah langkah awal yang penting dalam pengo-batan. Kesalahan diagnosa dapat berakibat kesalahan pengobatan dan tidak mus-tahil berakibat fatal. Diagnosa juga merupakan tahap yang penting dalam programpreventif penyakit. Dalam hal ini diagnosis sering disebutsebagaiscreening, yaitumenjaring orang yang mungkin berpotensi untuk menderita suatu penyakit terten-tu.

Dalam diagnosis ataupunscreeningdigunakan suatu prosedur atau tes untukmelihat apakah seseorang menderita penyakit tertentu atautidak. Kegiatan diag-nostik dapat dipandang sebagai probabilitas peristiwa-peristiwa sebagai berikut:T+ : diagnosa atauscreeningmenunjukkan tes positifT− : diagnosa atauscreeningmenunjukkan tes negatifD+ : kenyataannya positif ada penyakitD− : kenyataannya tidak ada penyakit (negatif)

Baik atau tidaknya suatu prosedur atau tes diagnostik dapat dilihat berdasarkanprobabilitas-probabilitas bersyarat di bawah ini:

58

Page 62: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

6.2. Sensitivitas, Spesifisitas dan Nilai Prediksi 59

Sensitivitas (sensitivity): Yaitu probabilitas tes akan positif jika seseorang padakenyataannya memang sakit, Sens= P (T+ | D+)

Spesifisitas(specificity): Yaitu probabilitas tes akan negatif jika seseorang padakenyataannya memang tidak sakit, Spec= P (T− | D−)

Nilai Prediksi + (Predictive Value+): Yaitu probabilitas seseorang sakit jikahasil tes menunjukkan hasil positif, PV+ = P (D+ | T+)

Nilai Prediksi - (Predictive Value-): Yaitu probabilitas seseorang tidak sakit jikahasil tes menunjukkan hasil negatif, PV− = P (D− | T−)

Suatu alat yang ideal seharusnya mempunyai nilai sensitivitas dan spesifisi-tas yang cukup tinggi (mendekati 1). Namun pada prakteknya nilai sensitivitasdan spesifisitas tidak dapat diestimasi, karena memerlukanpengetahuan apakahkenyataannya seseorang menderita penyakit atau tidak. Sedangkan jika sudahdiketahui ada tidaknya suatu penyakit tentu saja tidak lagidiperlukan adanya tesdiagnostik! Nilai sensitivitas dan spesifisitas hanya dapat diestimasi dengan caradibandingkan dengan tes lain yang dianggap paling tepat (gold standar test).

Dalam praktek yang ingin diketahui melalui suatu prosedur diagnostik adalah,apakah suatu tes yang diketahui positif akan dapat memprediksi adanya suatu pe-nyakit, yaitu PV+ prosedur diagnostik tersebut; dan juga PV- dari prosedur diag-nostik tersebut.

Nilai prediksi positif dapat diturunkan menggunakan Teorema Bayes:

PV+ = P (D+ | T+) (6.1)

=P (D+ ∩ T+)

P (T+)(6.2)

=P (D+)P (T+ | D+)

P (D+)P (T+ | D+) + P (D−)P (T+ | D−)(6.3)

=Prevalence× Sensitivity

prev.× sens.+ (1 − prev.) × (1 − spec.). (6.4)

Demikian pula untuk Nilai prediksi negatif,

PV− = P (D− | T−) (6.5)

=P (D− ∩ T−)

P (T−)(6.6)

=P (D−)P (T− | D−)

P (D−)P (T− | D−) + P (D+)P (T− | D+)(6.7)

=(1 − Prevalence) × Specificity

(1 − prev.) × spec.+ prev.× (1 − sens.). (6.8)

Page 63: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

6.2. Sensitivitas, Spesifisitas dan Nilai Prediksi 60

Tabel 6.1: Hasilcytological test

T− T+ TotalD− 23.362 362 23.724D+ 225 154 379

Contoh 6.1Suatu tes sitologi (cytological test) dilakukan untukscreeningkanker rahim pada wanita.Diperoleh data 24.103 wanita yang terdiri atas 379 wanita yang diketahui sudah menderitakanker rahim (dengan tes yang dianggap sebagaigold standar). Diperoleh data sepertipada Tabel 6.1. Hitungsensitivitydanspecificitytes tersebut!Jawab:

sens =154

379= 0,406

= 40,6%

spec =23,362

23,724= 0,985

= 98,5%

Hasil estimasisensdanspectersebut dapat diinterpretasikan sebagai berikut:

• Jika tes digunakan untuk wanita yang tidak menderita kanker rahim, tes hampirpasti akan negatif (specificity= 98,5% cukup besar)

• Jika tes digunakan untuk wanita yang menderita kanker rahim, peluang tidak ter-deteksi besar (sensitivity= 40,6 % rendah;false negatif59,4%)

Suatu alat atau prosedur diagnostik biasnya sudah dilengkapi dengan nilai sen-sitivitas dan spesifisitas sehingga ketika digunakan untukdiagnosis, nilai predik-tivitas positif (PV+) maupun nilai prediktivitas negatif (PV−) dapat dihitungasalkan nilai prevalensi juga diketahui. Untuk nilai sensitivitas dan spesifisitasyang tertentu dan tetap, semakin besar prevalensi nilaiPV+ akan semakin besarsedangkanPV− akan semakin kecil.

Contoh 6.2Table 6.2 menyajikanPV+ dan PV− yang dihitung berdasarkan persamaan (6.1) dan(6.5) untuk berbagai nilai prevalensi denganspec=98,5% dansens=40,6%. Terlihat bahwaPV+ danPV− nilainya terpengaruh oleh prevalensi, semakin besar prevalensiPV+ akansemakin besar sedangkanPV− akan semakin kecil.

Page 64: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

6.3. Kurva ROC 61

Tabel 6.2: NilaiPV+ danPV- untuk berbagai nilai prevalensi

prevalensi PV+ PV-0,0010 0,0264 0,9990,0157 0,3015 0,9900,0500 0,5876 0,9690,1000 0,7505 0,9370,5000 0,9644 0,624

6.3 Kurva ROC

Kurva ROC (receiver operating characteristic) digunakan apabila respon diagno-sis atau (screening test) lebih dari dua jenis respon atau berupa bilangan kontinu.Kurva ini pada awalnya digunakan di dunia militer untuk penyelidikan tentangdeteksi sinyal oleh radar.

Kurva ini menghubungkan nilaisensitivitasdengan 1-spesifisitas, dimana titikpada kurva bersesuaian dengan batascut-off pointyang digunakan untuk menen-tukan tes positif. Area di bawah kurva ROC dapat digunakan untuk menilai keaku-ratan suatu diagnosis. Semakin besar luasan di bawah kurva ROC, semakin akuratsuatu diagnosis.

Contoh 6.3Dari 109 pasien syaraf diperoleh skor hasil interpretasi CTimage(computed tomographicimage) oleh seorang radiolog seperti pada Tabel 6.3. Status penyakit untuk setiap pasientelah diketahui berdasarkan diagnosis yang dianggap paling benar (gold standard). Tidak

Tabel 6.3: Skor dari radiolog untuk hasilCT imagepasien syaraf

Status Skor dari radiolog∗

Penyakit (D) (1) (2) (3) (4) (5) TotalNormal (D−) 33 6 6 11 2 58Abnormal (D+) 3 2 2 11 33 51Abnormal (D+) 36 8 8 22 35 109

∗(1) hampir pasti normal; (2) mungkin normal; (3) tidak dapatditentukan (4) mungkin abnormal;

(5) hampir pasti abnormal

seperti contoh sebelumnya, dalam data ini tidak diberikan kriteria untuk menentukan tespositif atau negatif. Sehingga untuk menentukan sensitivitas maupun spesifitasnya digu-nakan titik batas (cut-off point) yang berbeda-beda. Misalnya jika digunakan titik batassuatu pasien dikatakan positif sakit adalah skor 4 ke atas (skor 4 atau 5) maka sensitivitastes adalah(11+33)/51 = 0,86, sedangkan spesifitasnya adalah(33+6+6)/58 = 0,78.Dengan cara yang sama dapat dihitung sensitivitas maupun spesifitas untuktitik batasyang lain seperti pada Tabel 6.4. Plot antara sensitivitas dengan 1− spesifisitas adalahkurva ROC untuk skor radiolog ini (Gambar 6.1).

Page 65: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

6.3. Kurva ROC 62

Tabel 6.4: Sensitivitasdan Specifisitasberdasarkan beberapa kriteria tespositif

Kriteria tes positif sensitivitas spesifitas 1-spesifitas1≤ skor 1,00 0,00 1,002≤ skor 0,94 0,57 0,433≤ skor 0,90 0,67 0,334≤ skor 0,86 0,78 0,225≤ skor 0,65 0,97 0,035 < skor 0,00 1,00 0,00

b

bb

b

b

b

(1.00, 1.00)(0.43, 0.94)

(0.33, 0.90)

(0.22, 0.86)

(0.00, 0.00)

(0.03, 0.65)

1-specifisitas

sens

itivi

tas

Gambar 6.1: Kurva ROC untuk skor radiolog.

Hasil suatu tes atau prosedur diagnostikyang berupa data ordinal, interval ataukontinu dapat dianalisis sensitivitas dan sepesifitasnya dengan kurva ROC sepertipada contoh 6.3. Kurva ROC juga dapat digunakan untuk membandingkan bebe-rapa prosedur diagnostik. Prosedur yang paling baik adalahyang mempunyai luasarea di bawah kurva ROC yang paling besar. Sebagai contoh pada Gambar 6.2,prosedur diagnostik yang lebih baik adalah yang berupa kurva ROC garis penuh.Luas di bawah kurva ROC dapat dihitung dengan aturan trapezoid.

Contoh 6.4Merujuk contoh 6.3, hitung luas area di bawah kurva ROC dan interpretasinya!Jawab:Luas areaLROC di bawah kurva ROC adalah

LROC = 0,5(0 + 0,65)0,03 + 0,5(0,65 + 0,86)(0,22 − 0,03) + 0,5(0,86 + 0,90)(0,33 − 0,22)

+0,5(0,90 + 0,94)(0,43 − 0,33) + 0,5(0,94 + 1,0)(1,0 − 0,43)

= 0,895

Page 66: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

6.4. Latihan 63

1-specifisitas

sens

itivi

tas

Gambar 6.2: Perbandingan Kurva ROC.

Dapat disimpulkan bahwa radiolog tersebut dapat membedakan individu yang nor-mal dengan yang abnormal berdasarkan skor CT nya dengan probabilitas sebesar89,5%.

6.4 Latihan

6.1. Dalamdiagnostikatau screeningukuran apakah yang terpengaruh olehprevalensi? Jelaskan!

6.2. Cara pembandingan apakah yang paling tepat untuk dua macam tes diag-nostik yang hasilnya berupa suatu bilangan kontinu nonnegatif (seperti mi-salnya serum kolesterol, tekanan darah, dst)? Jelaskan!

6.3. Tabel di bawah menunjukkan hasil penggunaanx-ray sebagai tesscreeninguntuk tuberkulosis:

TuberkulosisX-ray Tidak YaNegatif 1739 8Positif 51 22

Hitung sensitivitas, spesifisitas dan prevalensi berdasarkan tabel di atas!

6.4. Suatu tes digunakan untuk mendiagnosis pasien Alzheimer’s dan demen-

Page 67: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

6.4. Latihan 64

tia. Disease atauD+ pada tabel di bawah ini adalah dementia (kepikunan).skor Tes D− D+

0–5 0 26–10 0 111–15 3 416–20 9 521–25 16 326–30 18 1

46 16

(a) Jika digunakan titik batas skor≤ 20 untuk mengidentifikasi dementia,hitung sensitivitas dan spesifitas tes ini!

(b) Buatlah kurva ROC dari tabel data di atas!

(c) Hitung area di bawah kurva ROC dan interpretasikan hasilnya!

Page 68: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

7Analisis Data Longitudinal

7.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

1. Mengidentifikasi data longitudinal dalam permasalahan epidemiologi danpenelitian kesehatan

2. Melakukan statistika deskriptif (ringkasan statistik dan grafik) untuk datalongitudinal

3. Melakukan inferensi menggunakan model regresi untuk data longitudinal

7.2 Deskripsi Data longitudinal

Banyak penelitian dalam bidang kedokteran, kesehatan dan epidemiologi yangmenggunakan desain pengumpulan data longitudinal.

Yang dimaksud dengan data longitudinal adalah

• Individu (subyek, unit sampel) diamati dalam suatu periodewaktu tertentulebih dari satu kali

• Pengukuran berulang pada suatu individu (subyek, unit sampel)

Data longitudinal mempunyai kelebihan dibandingkan data yang hanyadikumpulkan satu kali saja (cross-sectional). Keuntungan ini dapat diilustrasikanseperti pada Gambar 7.1. Akan lebih mudah melihat informasibahwa kemam-puan membaca semakin naik atau semakin menurun seiring dengan umur bilaindividu diamati lebih dari satu kali.

Jenis data yang berkaitan dengan data longitudinal diantaranya adalah:

65

Page 69: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

7.2. Deskripsi Data longitudinal 66

Umur

Kem

ampu

anM

emba

ca

b

b

b

b

b

b

b

b

b

b

Umur

Kem

ampu

anM

emba

ca

b

b

b

b

b

b

b

b

b

b

Gambar 7.1: Data longitudinal

• Data Panel

• Data Survival, Antar Kejadian (Event History)

• Data Runtun Waktu

Beberapa keuntungan menggunakan data longitudinal dibandingkan dengandatacross-sectional:

• Dapat digunakan untuk mengetahui pola perubahan

• Setiap individu dapat menjadi kontrol bagi dirinya sendiri

• Dapat membedakan efek dari umur dengan efek dari cohort maupun efekdari periode

• Memungkinkan untuk meneliti kausalitas

Secara umum data longitudinal mempunyai struktur seperti pada Tabel 7.1.Seperti halnya dalam semua metode statistika, sebelum melakukan analisis

perlu dilakukan eksplorasi data. Prinsip eksplorasi data longitudinal di antaranyaadalah:

• tampilkan sebanyak mungkin data mentah daripada hanya ringkasannya

• tonjolkan pola atau ringkasannya

• identifikasilah baik polacross-sectionalmaupun longitudinal

• identifikasilah individu atau observasi yang tidak biasa (outliers)

Page 70: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

7.2. Deskripsi Data longitudinal 67

Tabel 7.1: Bentuk umum data longitudinal

subyek observasi waktu response kovariat

1 1 t11 y11 x111 . . . x11p

1 2 t12 y12 x121 . . . x12p...

......

......

......

1 n1 t1n1y1n1

x1n11 . . . x1n1p

2 1 t21 y21 x211 . . . x21p

2 2 t22 y22 x221 . . . x22p...

......

......

......

2 n1 t2n1y2n1

x2n11 . . . x2n1p

......

......

......

...m 1 t21 ym1 xm11 . . . xm1p

m 2 t22 ym2 xm21 . . . xm2p...

......

......

......

m nm t2n1ymn1

x2m11 . . . xmn1p

Paket statistik standard biasanya menyediakan fasilitas untuk data eksplorasisepertiscatter plot matrixdan lowess plot. Dalam bagian ini penggunaan daninterpretasi eksplorasi data longitudinal akan dijelaskan dalam contoh namun tek-nis pengerjaannya tidak dibahas secara khusus.

Contoh 7.1Suatu studi dilakukan untuk merehabilitasi pasien stroke. Ada 3 perlakuandalam studiini, yaitu:

A Terapi yang baru

B Program rehabilitasi yang sekarang digunakan dalam rumah sakit yang sama

C Program perawatan biasa yang dilakukan dalam rumah sakit yang lain

Setiap kelompok perlakuan terdiri dari 8 pasien yang diamati selama 8 minggu.Responyang diperoleh adalahBartel index, yaitu skor yang menunjukkan kemampuan fungsionalpasien, nilai yang tinggi menunjukkan kemampuan yang baik (maksimum 100).

Data longitudinal dapat disusun seperti dalam bentuk melebar, yaitu satu baris datamenunjukkan satu individu yang dapat diobservasi beberapa kali seperti pada Tabel 7.2.Data longitudinal dapat pula disusun memanjang yang mana satu baris menunjukkan satuobservasi pada suatu individu (Tabel 7.3). Bentuk data memanjang ini merupakan bentukyang biasa digunakan dalam komputasi data longitudinal yang notasi secara umum adalahseperti pada Tabel 7.1.

Page 71: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

7.2. Deskripsi Data longitudinal 68

Tabel 7.2: Data longitudinal bentuk melebar satu baris per-individu

subyek kovariat respon (pada minggu ke-)(perlakuan) 1 2 3 4 5 6 7 8

1 A 45 45 45 45 80 80 80 902 A 20 25 25 25 30 35 30 503 A 50 50 55 70 70 75 90 904 A 25 25 35 40 60 60 70 805 A 100 100 100 100 100 100 100 1006 A 20 20 30 50 50 60 85 957 A 30 35 35 40 50 60 75 858 A 30 35 45 50 55 65 65 709 B 40 55 60 70 80 85 90 9010 B 65 65 70 70 80 80 80 8011 B 30 30 40 45 65 85 85 8512 B 25 35 35 35 40 45 45 4513 B 45 45 80 80 80 80 80 8014 B 15 15 10 10 10 20 20 2015 B 35 35 35 45 45 45 50 5016 B 40 40 40 55 55 55 60 6517 C 20 20 30 30 30 30 30 3018 C 35 35 35 40 40 40 40 4019 C 35 35 35 40 40 40 45 4520 C 45 65 65 65 80 85 95 10021 C 45 65 70 90 90 95 95 10022 C 25 30 30 35 40 40 40 4023 C 25 25 30 30 30 30 35 4024 C 15 35 35 35 40 50 65 65

2 4 6 8

2040

6080

100

minggu

skor

A

B

C

Gambar 7.2: Profile plot Bartel Indexselama waktu penelitian danlowess plotsetiap kelompok terapi

Page 72: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

7.2. Deskripsi Data longitudinal 69

Tabel 7.3: Data longitudinal bentuk memanjang satu baris satu observasi

subyek observasi respon kovariat(minggu ke-) (perlakuan)

1 1 45 A1 2 45 A1 3 45 A1 4 45 A1 5 80 A1 6 80 A1 7 80 A1 8 90 A... . . .9 1 40 B9 2 55 B9 3 60 B9 4 70 B9 5 80 B9 6 85 B9 7 90 B9 8 90 B... . . .

Respon dari data longitudinal yang berupaBartel indexini dapat ditampilkan berupaprofile plot yaitu plot nilai respon untuk tiap-tiap individu. Untuk melihat kecenderun-gan kelompok-kelompok dalam data, yang dalam contoh ini adalah jenis terapi A, B danC, dapat ditampilkan plot yang mewakili masing-masing kelompok menggunakan fungsipenghalusan (smoothing) nonparametriklowess. Gambar 7.2 adalah profile plot dari res-pon Bartel index dengan lowess plot untuk kelompok terapi A, B dan C. Terlihat bahwaterapi A mempunyai kemiringan yang paling menonjol dibandingkan terapi yang lain.

Untuk melihat korelasi antar minggu pengamatan dihitung korelasi bivariat untuk8 minggu danscatterplot matrixnya seperti pada Gambar 7.3. Terlihat bahwa padaminggu pengamatan yang berdekatan korelasi linear antara nilaiBartel indexcukup be-sar.

Untuk data yang berukuran cukup besar, baik banyaknya individu maupunobservasi berulangnya dapat digunakanprofile plot untuk semua individu danplot beberapa individu yang dipilih secara random. Sebagaicontoh, Gambar 7.4adalah plot antara banyaknya sel CD4+ dengan waktu sejakzeroconversionun-tuk penderita AIDS. Karena individu cukup banyak (369 individu dengan totalobservasi 2376) dalam plot itu selain plot untuk keseluruhan individu, plot untukbeberapa individu yang dipilih secara random juga ditampilkan. Lowess plotke-seluruhan individu untuk melihat kecenderungan banyaknyadel CD4 juga ditam-

Page 73: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

7.3. Model Regresi Data longitudinal 70

m1

20 80

0,93 0,88

20 80

0,83 0,79

20 80

0,71 0,62

20 80

2010

0

0,55

2010

0

m2 0,92 0,88 0,85 0,79 0,70 0,64

m3 0,95 0,91 0,85 0,77

20

0,70

20

m4 0,92 0,88 0,83 0,77

m5 0,97 0,91

20

0,88

2010

0

m6 0,96 0,93

m7

2010

0

0,98

20 80

2010

0

20 80 20 80 20 80

m8

Gambar 7.3: Scatterplot matrix Bartel Indexuntuk pasangan 8 minggupengamatan dan nilai korelasinya

pilkan. Terlihat bahwa banyaknya sel CD4+ menurun sejak pertama kali pasienAIDS didiagnosis menderita penyakit tersebut.

7.3 Model Regresi Data longitudinal

Seperti halnya model regresi biasa, permasalahan ilmiah diformulasikan sebagaimodel regresi yang terdiri dari variabel respon dan variabel penjelas. Dua halpenting yang perlu diperhatikan, secara alamiah dalam datalongitudinal terdapatvariabel yang berubah sepanjang waktu (time-varying explanatory variables) dankorelasi (asosiasi) karena pengukuran berulang pada individu yang sama, atauobservasi berulang. Dua hal ini harus dimasukkan dalam pemodelan.

Berikut adalah notasi yang digunakan dalam analisis data longitudinal meru-juk pada bentuk umum data longitudinal (Tabel 7.1):

Page 74: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

7.3. Model Regresi Data longitudinal 71

−2 0 2 4

050

015

0025

00

Lama (tahun) sejak seroconversion

Ban

yakn

ya s

el C

D4+

Gambar 7.4: Contoh eksplorasi data dengan plot

• Individu: i = 1, . . . ,m

• Observasi pada individui: jh = 1, . . . , ni

• Total observasi:N =∑m

i=1 ni

• Waktu observasi aktual:tij

• Variabel respon:variabel random respon observasiYij yij

Yi = (Yi1, . . . , Yini) yi = (yi1, . . . , yini

)Y = (Y1, . . . ,Ym) y = (y1, . . . ,ym)

• Variabel independen:xij = (xij1, . . . , xijp)

T , vektor berukuranp × 1Xi = (xi1, . . . , xini

), matriks berukuranni × p

• MeanYi untuk individui: E(Yi) = µi

Page 75: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

7.3. Model Regresi Data longitudinal 72

• VariansiYi ; Matriks Kovariansini × ni untuk individui:

Var(Yi) =

vi11 . . . vi1ni

. . . vijk . . .vini1 . . . vinini

denganvijk = Cov(Yij, Yik)

7.3.1 Naive Model

Model ini mengasumsikan semua observasi independen, kemudian model dianali-sis seperti regresi linear ganda biasa. Model ini sering disebut pula sebagaipooledanalysis,

Contoh 7.2Merujuk ke contoh 7.1,naive modeluntuk data Bartel index dari hasil terapi pasien strokeadalah sebagai berikut

E(Yi | Xi) = β0 + β1X1i + β2X2i + β3X3i, i = 1, . . . , N (7.1)

dengan

X1i =

{1 i mendapat perlakuanB

0 i mendapat perlakuan selainB

X2i =

{1 i mendapat perlakuanC

0 i mendapat perlakuan selainC

danX3i = 1, 2, . . . , 8 adalah minggu pengamatan; banyaknya observasiN = 24 × 8 =192, yang diperoleh dari 24 pasien (terbagi dalam 3 grup perlakuan) dandiamati selama8 minggu. Struktur data yang digunakan adalah seperti pada Tabel 7.1 atau 7.3.

Karena terapi kemungkinan berinteraksi dengan lamanya minggu pengamatan, modelyang memuat interaksi antara terapi dengan waktu menjadi alternatifnaive modelyanglain seperti di bawah ini:

E(Yi | Xi) = β0 + β1X1i + β2X2i + β3X3i + (7.2)

β4(X1i × X3i) + β5(X2i × X3i), i = 1, . . . , N

dengan(X1i × X3i) dan(X2i × X3i) adalah interaksi antara perlakuan dengan waktu.Tabel 7.4 adalah hasil estimasi parameter kedua model tersebut di atas.

Page 76: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

7.3. Model Regresi Data longitudinal 73

Tabel 7.4: Hasil estimasi naive model (7.1) dan model (7.2)

Parameter Estimasi SEModel (7.1):

β0 36,84 3,971β1 -5,63 3,715β2 -12,11 3,715β3 4,76 0,662

Model (7.2):β0 29,82 5,774β1 3,35 8,166β2 -0,02 8,166β3 6,32 1,143β4 -1,99 1,617β5 -2,69 1,617

7.3.2 Model Linear Umum untuk Data Longitudinal

Model linear umum merupakan perluasan dari model linear (ANAVA, Regresi,ANACOVA) dengan bentuk variansi-kovariansi yang lebih umum. Estimasi pa-rameter untuk model ini dapat dilakukan dengan GeneralizedLeast-Squares ataudengan Maximum Likelihood Estimation atau perluasan dari kedua metode terse-but, terutama dalam memodelkan matriks variansi-kovariansinya.

Dalam model linear umum ini, data observasiyi merupakan realisasi dari vari-abel randomYi yang dimodelkan sebagaimana berikut

Yi = Xiβ + ǫi (7.3)

denganXi adalahni × p matriks variabel independenβ adalah vektor-p koefisienregresi,ǫi adalah vektorni sesatan (error) yang berdistribusiN(0, Vi) denganVi

adalahni × ni matriks kovariansi untuk individui.Model (7.3) dapat ditulis sebagai satu model (tidak menunjuk ke i tertentu)

dengan menggabungkan semua observasi menurut kolom (variabel independendan respon) menjadi

Y = Xβ + ǫ (7.4)

denganǫ ∼ N(0,V). Karena antar subyek dianggap independen makaσ2V

adalah blok diagonal matriks yang terdiri atasn × n blok σ2Vi (matriks variansivektor observasi pada suatu subyek).

Dikenal banyak bentuk korelasi antar dua observasi pada satu subyek misalnyakorelasi uniform dan eksponensial. Korelasi Uniform mempunyai bentuk

Vi = (1 − ρ)I + ρI (7.5)

Page 77: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

7.3. Model Regresi Data longitudinal 74

denganρ adalah korelasiI adalah matrik identitas,Jb adalah matriksni × ni

dengan anggota semuanya 1. Dalam model korelasi ini ini antar observasi pa-da satu individu dianggap tidak independen namun besar korelasinya sama yangdiekspresikan sebagaiρ. Korelasi Eksponensial mempunyai bentuk

vjk = σ2 exp(−φ(| tj − tk |)) (7.6)

denganvjk = Cov(Yij, Yik). Korelasi eksponensial mengasumsikan bahwa kore-lasi antar dua pengukuran akan menurun menuju nol seiring dengan membesarnyajarak antar observasi.

Contoh 7.3Merujuk ke contoh 7.1 dan 7.2, dalam contoh ini digunakan model (7.4) untuk menganal-isis data Bartel index pada pasien stroke. Model yang digunakan sama seperti (7.1) dan(7.2) namun model korlasinya ditentukan uniform dan eksponensial bukan model korelasiindependen Hasil estimasinya dapat dilihat pada Tabel 7.5 ditampilkan bersama denganestimasi naive model contoh 7.2. Nilai AIC model (7.2) dengan korelasi eksponensial

Tabel 7.5: Hasil estimasinaive modeldan model linear umum dengan bentukkorelasi uniform dan eksponensial

Parameter Estimasi (SE)Naive korelasi uniform korelasi eksponensial

Model (7.1):β0 36,84 (3,971) 36,84( 7,308) 39,96 (7,363)β1 -5,63 (3,715) -5,63(10,177) -9,75 (9,935)β2 -12,11 (3,715) -12,11(10,177) -16,30 (9,935)β3 4,76 (0,662) 4,76( 0,282) 4,62 (0,490)

(AIC=1707,897) (AIC=1467,559) (AIC=1324,897)Model (7.2):

β0 29,82 (5,774) 29,82( 7,497) 33,39( 7,937)β1 3,35 (8,166) 3,35(10,603) -0,12(11,225)β2 -0,02 (8,166) -0,02(10,603) -6,23(11,225)β3 6,32 (1,143) 6,32( 0,467) 6,08( 0,844)β4 -1,99 (1,617) -1,99( 0,661) -2,14( 1,193)β5 -2,69 (1,617) -2,69( 0,661) -2,24( 1,193)

(AIC=1703,614) (AIC=1452,715) (AIC=1320,321)

adalah yang terkecil dibandingkan yang lain. Jadi model dengan interaksi antara terapidengan lama minggun pengamatan dan dengan korelasi antar pengamatan yang semakinmengecil (korelasi eksponensial) adalah yang terbaik.

Data dengan distribusi respon yang lain, misalnya respon biner, cacah dapatdianalisis dengam metode GLM untuk data berkorelasi (data longitudinal) mi-

Page 78: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

7.4. Latihan 75

salnyaGeneralized Estimating Equation(GEE). Alternatif pemodelan yang lainsepertirandom effects modeljuga dimungkinkan.

7.4 Latihan

7.1. Mengacu soal nomor 2.6 pada halaman 11, dengan anggapanada interaksiantara perlakuan dengan waktu, tuliskan model regresi datalongitudinalyang perlu untuk dianalisis!

7.2. Tinjau model

Yij = β0 + βxij + ǫij, j = 1, . . . , n; i = 1, . . . ,m

dengan variabel randomǫij mempunyai mean 0.

(a) Carilahβ, yaitu estimasi kuadrat terkecil untukβ

(b) Tunjukkan bahwaβ merupakan estimasi yang bias bila model yangbenar adalah

Yij = β0 + βCxi1 + βL(xij − xi1) + ǫij

7.3. Diketahui data 30 tikus percobaan yang diberi perlakuan secara random kedalam tiga grup perlakuan (Tabel 7.6). Grup 1 adalah kontrolberupa airminum biasa, grup 2 adalah thiouracil dalam air minum tikus,grup 3 adalahthyroxin dalam air minum tikus. Thyroxin berpengaruh meningkatkanmetabolisme tubuh. Sebailknya thiouracil akan menurunkanmetabolismetubuh. Berat badan tikus diukur dalam interval waktu mingguan sampaimingggu ke-empat. Variabelgrup adalah perlakuan,tikus adalah nomoridentitas tikus dalam grupbb0, bb1, bb2, bb3, bb4 adalah berat badantikus mulai awal penelitian samapi minggu ke-empat.

(a) Lakukan eksplorasi pada data longitudinal tersebut!

(b) Lakukan analisis data longitudinal dan ambil kesimpulan analisisnya!

Page 79: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

7.4. Latihan 76

Tabel 7.6: Data berat badan tikus

grup tikus bb0 bb1 bb2 bb3 bb41 1 57 86 114 139 1721 2 60 93 123 146 1771 3 52 77 111 144 1851 4 49 67 100 129 1641 5 56 81 104 121 1511 6 46 70 102 131 1531 7 51 71 94 110 1411 8 63 91 112 130 1541 9 49 67 90 112 1401 10 57 82 110 139 1692 1 61 86 109 120 1292 2 59 80 101 111 1222 3 53 79 100 106 1332 4 59 88 100 111 1222 5 51 75 101 123 1402 6 51 75 92 100 1192 7 56 78 95 103 1082 8 58 69 93 114 1382 9 46 61 78 90 1072 10 53 72 89 104 1223 1 59 85 121 146 1813 2 54 71 90 110 1383 3 56 75 108 151 1893 4 59 85 116 148 1773 5 57 72 97 120 1443 6 52 73 97 116 1403 7 52 70 105 138 171

Page 80: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8Analisis Data Survival

8.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

1. Mengidentifikasi data survival dalam permasalahan epidemiologi danpenelitian kesehatan

2. Menjelaskan fungsi-fungsi yang digunakan dalam data survival

3. Melakukan inferensi untuk fungsi survival menggunakan metode Kaplan-Meier

4. Melakukan analisis data menggunakan regresi parametrikuntuk data sur-vival misalnya dengan model regresi Weibull

5. Melakukan analisis data menggunakan regresi Cox untuk data survival

8.2 Fungsi Survival dan Hazard

Fungsi Survival adalah probabilitas satu individu hidup (tinggal dalam suatusta-tus) lebih lama daripadat

S(t) = P (T > t) (8.1)

S(t) adalah fungsinon-increasingterhadap waktut dengan sifat

S(t) =

{1 untuk t = 0

0 untuk t = ∞(8.1)

77

Page 81: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8.2. Fungsi Survival dan Hazard 78

0.0 0.5 1.0 1.5 2.0

0.0

0.2

0.4

0.6

0.8

1.0

t

S(t

)

Gambar 8.1: Grafik dua fungsi survival

Fungsi survivalS(t) mempunyai hubungan dengan distribusi kumulatifF (t)sebagai berikut

S(t) = 1 − F (t) (8.1)

Penduga untukS(t) bila data tidak tersensor

S(t) =s

N(8.2)

dimanas adalah banyaknya individu yang masih hidup lebih lama darit ; Nadalah total banyaknya individu

FungsiHazardmenunjukkan tingkat (rate) terjadinya suatueventyang dide-finisikan sebagai

h(t) = lim∆t→0

P (t ≤ T < t + ∆t | T ≥ t)

∆t(8.2)

Tidak seperti probabilitas yang nilainya antara 0 sampai dengan 1, fungsi hazarddapat bernilai berapa saja asalkan non-negative,h(t) ≥ 0. Gambar 8.2, 8.3, 8.4dan 8.5 adalah contoh beberapa macam fungsi hazard.

Page 82: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8.2. Fungsi Survival dan Hazard 79

0.0 0.5 1.0 1.5 2.0

01

23

45

t

h(t)

Gambar 8.2: Fungsi hazard konstan

0.0 0.5 1.0 1.5 2.0

01

23

45

t

h(t)

Gambar 8.3: Fungsi hazard naik

Page 83: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8.2. Fungsi Survival dan Hazard 80

0.0 0.5 1.0 1.5 2.0

01

23

45

t

h(t)

Gambar 8.4: Fungsi hazard naik-turun

0.0 0.5 1.0 1.5 2.0

01

23

45

t

h(t)

Gambar 8.5: Fungsi hazardbathtub

Fungsi hazardh(t), survival S(t) dan fungsi densitasf(t) mempunyai hu-bungan sebagai berikut

h(t) =f(t)

S(t)(8.2)

Page 84: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8.3. Kaplan-Meier danLife Table 81

Kumulatif integral dari fungsi hazards disebut sebagaiHazardKumulatif

H(t) =

∫ t

0

h(x)dx (8.2)

Fungsi ini mempunyai hubungan denganS(t) sebagai berikut

H(t) = − log S(t) (8.2)

8.3 Kaplan-Meier dan Life Table

Kaplan-Meier merupakan estimator non-parametrik untukS(t) (sering disebut ju-ga sebagai Product-Limit estimator)

S(t) =

{1 jika t < t1∏

ti≤t(1 − di

Yi

) jika ti ≤ t

dimanadi adalah banyaknyaeventdanYi adalah banyaknya individu yang bere-siko (number at risk)

Variansi dari KM estimator, sering disebut sebagai Greenwood’s formula,adalah

var[S(t)] = S(t)2∑

ti≤t

di

Yi(Yi − di)(8.3)

Sebagai alternatif (8.3), var[S(t)] dapat diestimasi dari formulasi berikut

var[S(t)] = S(t)2 [1 − S(t)]

Y (t)(8.4)

Nelson-Aalen merupakan estimator untuk fungsi hazard kumulatif H(t) yangmerupakan kumulatif dari tingkat kejadian (hazard) sampaiperiode ke-t:

H(t) =

{0 jika t < t1∑

ti≤tdi

Yi

jika ti ≤ t

yang mempunyai variansi

Var(H(t)) =∑

ti≤t

di

Y 2i

(8.5)

Page 85: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8.3. Kaplan-Meier danLife Table 82

Contoh 8.1Diketahui data survival yang dihitung mulai dari awal pemberian perlakuan sampai pasienmeninggal sebagai berikut:

10,12,13,15,16,20,20,24,24,26,26,27,39,42,45,45,48,52,58,60,61,62,73,75,77,104,120

Hitung estimasi Kaplan-Meier dan Nelson-Aalen!Jawab:Hasil hitungan estimasi Kaplan-Meier dan Nelson-Aalen untuk data di atas ada pada Tabel8.1. Kolomt, d danY pada Tabel adalah seperti yang didefinisikan pada rumus Kaplan-Meier (8.3) maupun Nelson-Aalen (8.5).

Tabel 8.1: Estimasi Kaplan-Meier (KM) dan Nelson-Aalen (NA)

No. t Y d 1 − d/Y S(t) (KM) H(t) S(t) (NA)1 0 27 0 1 1 02 10 27 1 0,963 0,963 0,037 0,9633 12 26 1 0,962 0,926 0,075 0,9274 13 25 1 0,960 0,889 0,115 0,8905 15 24 1 0,958 0,852 0,157 0,8546 16 23 1 0,957 0,815 0,201 0,8187 20 22 2 0,909 0,741 0,292 0,7478 24 20 2 0,900 0,667 0,392 0,6769 26 18 2 0,889 0,593 0,503 0,60410 27 16 1 0,938 0,556 0,565 0,56811 39 15 1 0,933 0,519 0,632 0,53112 42 14 1 0,929 0,481 0,703 0,49513 45 13 2 0,846 0,407 0,857 0,42414 48 11 1 0,909 0,370 0,948 0,38715 52 10 1 0,900 0,333 1,048 0,35016 58 9 1 0,889 0,296 1,159 0,31317 60 8 1 0,875 0,259 1,284 0,27618 61 7 1 0,857 0,222 1,427 0,24019 62 6 1 0,833 0,185 1,594 0,20320 73 5 1 0,800 0,148 1,794 0,16621 75 4 1 0,750 0,111 2,044 0,12922 77 3 1 0,667 0,074 2,377 0,09223 104 2 1 0,500 0,037 2,877 0,05624 120 1 1 0,000 0,000 3,877 0,020

Pertama data survival diurutkan, kemudian diambil hanya nilai tunggalnya saja(unique values). Misalnya 20 yang muncul dua kali, hanya diambil satu saja. Sebagai con-toh perhitungan, diambil baris kedua dari Tabel 8.1. Pada saatt = 10 masih ada 27 pasienyang belum mendapatkan kejadian dan hanya ada satu saja yang meninggal,jadi Y = 27dand = 1. Estimasi Kaplan-Meier saatt = 10 adalahS(10) = 1 × 0, 963 = 0, 963.Nilai estimasi hazard kumulatif saatt = 10 adalahH(10) = 1/27 = 0,037, estimasi

Page 86: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8.3. Kaplan-Meier danLife Table 83

0 20 60 100

0.0

0.4

0.8

t

S(t

)

0 20 60 100

01

23

4

t

H(t

)

Gambar 8.6: Plot Estimasi Kaplan-Meier dan Nelson-Aalen.

nilai survival dengan Nelson-Aalen menggunakan hubungan antaraS(t) danH(t), yaituS(t) = exp(−H(t)), atauS(t) = exp(−0,037) = 0,9636. Plot Kaplan-Meier danNelson-Aalen dapat dilihat pada Gambar 8.6.

Salah satu permasalahan dalam analisis data survival adalah adanya observasiyang tidak lengkap yang dinamakan tersensor (censored) dan terpotong (truncat-ed). Permasalahan yang sering muncul dalam penelitian prospektif atau cohortbiasanya adalah tersensor kanan (right censored), yaitu pada saat akhir penelitian,subyek belum mendapatkan kejadian. Estimasi Kaplan-Meiermaupun Nelson-Aalen dapat digunakan untuk data yang tidak lengkap sepertiini tanpa perlumengestimasi terlebih dahulu data yang tersensor.

Contoh 8.2Dipunyai data survival pasien untuk dua kelompok perlakuan sebagaiberikut:

Grup 1 (n = 21) perlakuan Grup 2 (n = 21) placebo6, 6, 6, 7, 10, 13, 16, 22, 23,6+, 9+, 10+, 11+, 17+, 19+, 20+,25+, 32+, 32+, 34+, 35+

1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8,11, 11, 12, 12, 15, 17, 22, 23

tanda+ menunjukkan tersensor kanan

Dapat dihitung estimasi Kaplan-Meier untuk kelompok terapi adalah sepertipadaTabel 8.2. Pada data yang tersensor kanan, nilait diambil untuk yang mendapatkan keja-dian saja, dengan kata lain nilait yang diberi tanda+ tidak dipakai dalam penghitunganKaplan-Meier (kecuali ada nilai yang sama yang tidak tersensor, misalnya6 dan 10 dalamcontoh ini).

Page 87: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8.4. Membandingkan Distribusi Survival 84

Tabel 8.2: Estimasi Kaplan-Meier untuk grup terapi

t Y d S(t)

6 21 3 0.8577 17 1 0.807

10 15 1 0.75313 12 1 0.69016 11 1 0.62722 7 1 0.53823 6 1 0.448

0 5 10 15 20

0.0

0.2

0.4

0.6

0.8

1.0

t

S(t

)

placebo

terapi

Gambar 8.7: Plot Estimasi Kaplan-Meier untuk terapi dan placebo datatersensor kanan.

Plot kurva Kaplan-Meier untuk terapi maupun placebo dapat dilihat padaGambar8.7. Grup terapi terlihat lebih baik, atau mempunyai peluang survival yang lebih ting-gi,dibandingkan grup placebo.

8.4 Membandingkan Distribusi Survival

Membandingkan dua populasi yang masing-masing mempunyai fungsi survivalS1(t) danS2(t). Hipotesis nol untuk uji ini adalahH0 : S1(t) = S2(t) dengan

Page 88: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8.4. Membandingkan Distribusi Survival 85

hipotesis alternatif

H1 : S1(t) > S2(t)

H1 : S1(t) < S2(t)

H1 : S1(t) 6= S2(t)

Untuk menguji hipotesis tersebut beberapa Metode Non-parametrik untuk datayang tidak tersensor seperti metodeWilcoxon, Mann-WhitneydanSign testdapatdigunakan. Sedangkan untuk data tersensor prosedur yang dapat digunakan di-antaranya:Gehan’s generalized Wilcoxon test, the Cox-Mantel test, the logranktest,Peto and Peto’s generalized Wilcoxon test, Cox’s F-test, Gehan’s generalizedWilcoxon test, the Cox-Mantel test, the logrank test (1972), Peto and Peto’s gen-eralized Wilcoxon test, danCox’s F-test. Satu metode yang akan dibahas dalambagian ini adalahLog-rank Test.

Log-rank Test

Prosedur ini didasarkan pada banyaknyaobserveddanexpectedevent pada setiapevent-time. Untuk log-rank test dengan 2 grup yang ingin dibandingkan statistikpengujinya adalah:

W =(O1 − E1)

2

E1

+(O2 − E2)

2

E2

(8.6)

denganW ∼ χ2(df = 1). H0 ditolak dengan tingkat signifikasniα bila W >χ2(1 − α, df = 1).

Contoh 8.3Merujuk ke Contoh 8.2, akan diuji apakah fungsi survival grup terapi berbeda dengangrup placebo. Disusun terlebih dahulu tabel seperti pada Tabel 8.3 untuk digunakan dalampenghitungan 8.6. Ekspektasie1 dane2 diperoleh dengan cara mengalikan probabilitaskematian pada tiap-tiap grup (Y1/(Y1 + Y2) danY2/(Y1 + Y2) ) dikalikan total kejadian(d1 + d2), untuk masing-masing waktu kejadian (masing-masing baris). Kemudian padabaris terakhir diperoleh total observasi dan total ekspektasi untuk masing-masing grup.Diperoleh statistik

W =(O1 − E1)

2

E1+

(O2 − E2)2

E2

=(9 − 19, 26)2

19, 26+

(21 − 10, 74)2

10, 74= 15,267

yang jauh lebih besar dari nilai daerah kritik3,8414 atau mempunyaip-value yang cukupkecil. jadi dapat disimpulkanH0 ditolak atau dua kurva survival tersebut berbeda.

Page 89: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8.5. Model Regresi Data Survival 86

Tabel 8.3: Penghitungan untuk Uji log-rank

t d1 d2 Y1 Y2 e1 e2

1 0 2 21 21 (21/42) × 2 (21/42) × 22 0 2 21 19 (21/40) × 2 (19/40) × 23 0 1 21 17 (21/38) × 1 (17/38) × 14 0 2 21 16 (21/37) × 2 (16/37) × 25 0 2 21 14 (21/35) × 2 (14/35) × 26 3 0 21 12 (21/33) × 3 (12/33) × 37 1 0 17 12 (17/29) × 1 (12/29) × 18 0 4 16 12 (16/28) × 4 (12/28) × 4

10 1 0 15 8 (15/23) × 1 (8/23) × 111 0 2 13 8 (13/21) × 2 (8/21) × 212 0 2 12 6 (12/18) × 2 (6/18) × 213 1 0 12 4 (12/16) × 1 (4/16) × 115 0 1 11 4 (11/15) × 1 (4/15) × 116 1 0 11 3 (11/14) × 1 (3/14) × 117 0 1 10 3 (10/13) × 1 (3/13) × 122 1 1 7 2 (7/9) × 2 (2/9) × 223 1 1 6 1 (6/7) × 2 (1/7) × 2

Total 9 21 19,26 10,74

8.5 Model Regresi Data Survival

Permasalahan dalam biostatistika dan epidemiologi biasanya melibatkan lebihdari satu variabel atau faktor. Demikian pula untuk data survival, diperlukan mo-del regresi untuk data survival yang dapat digunakan untuk permasalahan yanglebih luas dari hanya pembandingan kurva survival saja. Model regresi data sur-vival tersebut di antaranya

• AFT (accelerated failure-time model)

• model hazard proporsional

• model hazard aditif

Dalam bagian ini akan dibahas dua model regresi survival yaitu AFT dan modelhazard proporsional, khususnya model regresi Cox.

Setiap model regresi survival dapat direpresentasikan sebagai fungsi hazard,fungsi survival maupun fungsi hazard kumulatif. Berikut iniberturut-turut adalahfungsi hazard, survival dan hazard kumulatif untuk model AFT.

h(t | X) = h0(exp(Xβ)t) exp(Xβ), (8.7)

S(t | X) = S0(exp(Xβ)t), (8.8)

Page 90: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8.5. Model Regresi Data Survival 87

H(t | X) = H0(exp(Xβ)t) (8.9)

denganX adalah matriks (n × p) dari variabel penjelas;βT = (β1 . . . βp) adalahvektor (p × 1) parameter regresi;h0 adalah baseline hazard,H0 adalah baselinehazard kumulatif danS0 adalah baseline survival.

Model AFT juga dapat direpresentasikan sebagailog T sebagai berikut

log T = µ + Xα + σǫ (8.10)

denganαT = (α1 . . . αp) danµ adalah parameter regresi;ǫ adalah sukuerrorberdistribusi tertentu danσ > 0 adalah suatu parameter skala.

Model hazard proporsional didasarkan pada asumsi bahwa proporsi antara duakelompok atau dua orang mempunyai hazard yang tetap dan independen terhadapwaktu. Misalkan ada dua orang yang masing-masing mempunyaihazardλ1 = 0, 1danλ2 = 0, 3, makahazard ratioantara dua orang tersebut adalah:

HR =λ2

λ1

=0, 3

0, 1= 3

Model hazard proporsional dapat dimodelkan secara paramterik maupun nontau semi-parametrik. Model hazard proporsional semi-parametrik sering dina-makan sebagai Model regresi Cox. Berikut ini berturut-turut adalah fungsi hazard,survival dan hazard kumulatif untuk model regresi Cox.

h(t | X) = h0(t)exp(Xβ) (8.11)

S(t | X) = S0(t)exp(Xβ) (8.12)

H(t | X) = H0(t) exp(Xβ) (8.13)

denganX,β, h0, S0 danH0 sama seperti yang didefinisikan pada model AFT.Parameter dalam regresi Cox dapat diinterpretasikan sebagai hazard ratio. Mi-

salkan diberikan model regresi Cox dengan satu variabel independen

h(t | x) = h0(t) exp(xβ)

dengan

x =

{0 placebo

1 obat baru

Page 91: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8.6. Latihan 88

makahazard ratio(HR) untuk hazard obat baru terhadap placebo adalah

HR =h(t | x = 1)

h(t | x = 0)

=h0(t) exp(1 × β)

h0(t) exp(0 × β)

= exp(β)

Interpretasinya, jikaβ = 0 maka obat baru dan placebo sama efeknya. Namunjika β < 0 maka obat baru memberikan efek yang lebih baik daripada placebo(resiko kematian lebih rendah). Kemudian jikaβ > 0 obat baru memberikan efekyang lebih buruk daripada placebo (resiko kematian lebih tinggi)

Secara umum nilai estimasiβ dapat digunakan untuk mengidentifikasi faktorresiko (risk factors, prognostic factors) yang berkaitan dengan variabel dependentime-to-eventT .

Kebanyakan program statistik standar seperti SPSS, R, STATA, SAS danMinitab dapat mengestimasi nilaiβ danstandard errornya.

8.6 Latihan

8.1. DiketahuiT berdistribusi Uniform

f(t) =

{1/θ untuk0 ≤ t ≤ θ

0 t yang lain

Carilah: (i) fungsi survivalS(t); dan(ii) fungsi hazardh(t)

untuk variabel random tersebut!

8.2. Diketahui data survival sebagai berikut:grup 1 : 5 1 2 2 7 6grup 2 : 8+ 10 4+ 4 3+

dengan ”+” adalah tanda untuk data tersensor kanan.

(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier danNelson-Aalen untuk masing-masing grup

(b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 denganmenggunakanlogrank test(α = 0,025)

8.3. Diperoleh studi tentang mortalitas akibat penyakit kronis di suatu klinik.Dari masing-masing grup yaitu grup yang mempunyai riwayat penyakit kro-nis (grup 2) dan grup yang tidak mempunyai riwayat riwayat penyakit kro-nis (grup 1) diperoleh data

Page 92: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8.6. Latihan 89

Grup 1 (n = 25) Grup 2 (n = 25)12,3+, 5,4, 8,2, 12,2+, 11,7,10,0, 5,7, 9,8, 2,6, 11,0, 9,2,12,1+, 6,6, 2,2, 1,8, 10,2, 10,7,11,1, 5,3, 3,5, 9,2, 2,5, 8,7, 3,8,3,0

5,8, 2,9, 8,4, 8,3, 9,1, 4,2, 4,1,1,8, 3,1, 11,4, 2,4, 1,4, 5,9, 1,6,2,8, 4,9, 3,5, 6,5, 9,9, 3,6, 5,2,8,8, 7,8, 4,7, 3,9

tanda+ menunjukkan tersensor kanan

(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dangambarlah estimasi fungsinya

(b) Ujilah bahwa survival kedua grup tersebut berbeda dengan menggu-nakanlogrank test(α = 0,025)

(c) Gunakan regresi Cox untuk menganalisis data tersebut, dan band-ingkan hasilnya dengan uji log-rank

8.4. Data di bawah ini adalah lama hidup 42 pasien leukemia yang mana seten-gah di antaranya mendapatkan terapi baru dan yang lainnya mendapatkanterapi standar. VariabelID adalah nomor identitas pasien;lama adalahlama survival dalam minggu;relapseadalah indikator meninggal atau tidak(1=meninggal, 0=tidak);jk adalah jenis kelamin (1=laki-laki, 0=perem-puan); log WBC adalah nilai log dari banyaknya sel darah putih;dan Rxadalah terapi (1=terapi standar, 0=terapi baru).

(a) Lakukan analisis KM untuk variabel terapi!

(b) Kategorikan variable log WBC menjadi: rendah jika(02,30), sedangjika (2,313,00) atau tinggi jika(> 3,00). Lakukan analisis KM untukvariabel bentukan dari log WBC ini!

(c) Gunakan regresi untuk data survival (regresi Cox atau yang lain) untukmenganalisis pengaruh terapi, log WBC dan jenis kelamin!

Page 93: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

8.6. Latihan 90

Tabel 8.4: Data lama survival pasien lekuemia

ID lama relapse jk log WBC Rx1 35 0 1 1.45 02 34 0 1 1.47 03 32 0 1 2.20 04 32 0 1 2.53 05 25 0 1 1.78 06 23 1 1 2.57 07 22 1 1 2.32 08 20 0 1 2.01 09 19 0 0 2.05 0

10 17 0 0 2.16 011 16 1 1 3.60 012 13 1 0 2.88 013 11 0 0 2.60 014 10 0 0 2.70 015 10 1 0 2.96 016 9 0 0 2.80 017 7 1 0 4.43 018 6 0 0 3.20 019 6 1 0 2.31 020 6 1 1 4.06 021 6 1 0 3.28 022 23 1 1 1.97 123 22 1 0 2.73 124 17 1 0 2.95 125 15 1 0 2.30 126 12 1 0 1.50 127 12 1 0 3.06 128 11 1 0 3.49 129 11 1 0 2.12 130 8 1 0 3.52 131 8 1 0 3.05 132 8 1 0 2.32 133 8 1 1 3.26 134 5 1 1 3.49 135 5 1 0 3.97 136 4 1 1 4.36 137 4 1 1 2.42 138 3 1 1 4.01 139 2 1 1 4.91 140 2 1 1 4.48 141 1 1 1 2.80 142 1 1 1 5.00 1

Page 94: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

9Konsultasi Statistika

9.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

1. Menjelaskan aktivitas konsultasi statistik

2. Melakukan konsultasi statistik dengan klien adalah pelaku penelitian dibidang epidemiologi, kesehatan dan ilmu hayati

3. Melakukan analisis data dengan menggunakan suatu paket statistik

4. Memanfaatkan teknologi informasi dalam kegiatan konsultasi statistik

5. Mengidentikasi metode yang tepat untuk suatu permasalahan atau datadalam bidang epidemiologi, kesehatan dan ilmu hayati, melakukan anali-sis data dan mengkomunikasikannya hasilnya

9.2 Konsultan Statistik

Konsultan Statistik merupakan profesi yang mungkin akan menjadi pilihan lulu-san program studi Statistika. Permasalahan yang dikonsultasikan oleh klien bi-asanya adalah:

• Desain penelitian dan ukuran sampel

• Prosedur analisis statistik yang tepat

• Penggunaan program komputer

• Interpretasi hasil analisis statistik

91

Page 95: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

9.3. Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi 92

Selain konsultasi (consulting) dikenal juga istilah kolaborasi (collaboration). Per-masalahan dalam pekerjaan kolaborasi hampir sama dengan konsultasi tetapidalam kolaborasi biasanya statistisi lebih terlibat dan bertanggung-jawab secarapenuh. Dalam suatu proyek penelitian sebagai kolaborator,statistisi biasanyaberhak mendapatkanauthorshipdalam penulisan laporan atau artikel ilmiah. Darisemua aktivitas konsultasi, komunikasi informasi statistik ke bidang lain meru-pakan tantangan bagi statistisi.

9.3 Penggunaan Perangkat Lunak Statistika danTeknologi Informasi

Dalam pekerjaan konsultasi, statistisi sering memerlukanalat bantu sepertiperangkat lunak (software) statistik dan teknologi informasi. Banyak perangkatlunak statistik yang dapat membantu seperti SPSS, Minitab,STATA, SPLUS,SAS, R yang lebih merupakan perangkat lunak untuk keperluananalisis data se-cara umum, termasuk untuk biostatistika dan epidemiologi.Ada pula perangkatlunak yang khusus untuk pekerjaan di bidang biostatistika dan epidemiologi seper-ti misalnya EPI-INFO. Tentang penggunakan perangkat lunakini, ada komentaryang perlu mendapat perhatian

The good news is that statistical analysis is becoming easier andcheaper. The bad news is that statistical analysis is becoming easi-er and cheaper. (Hofacker, 1983)

Yang memberi peringatan kepada pengguna perangkat lunak statistik bahwaperangkat lunak hanyalah alat, bisa berguna dan bisa justruberbahaya. Oleh kare-na itu statistisi seharusnya benar-benar menguasai alat dan metode yang digu-nakan.

Keuntungan menggunakan perangkat lunak statistik dibandingkan melakukansecara manual di antaranya:

• Akurasi dan kecepatan

• Fasilitas dan metode yang digunakan lebih banyak

• Grafik

• Fleksibel

• Manipulasi variabel mudah

• Volume data besar

Page 96: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

9.3. Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi 93

Presentasi

OlahAkses

Analisis

Data

Gambar 9.1: Fasilitas atau Kemampuan yang diperlukan dari Perangkat LunakStatistik

• Transfer data mudah

Secara umum perangkat lunak statistik setidaknya mempunyai kemampuan

Akses: Memasukkan data (entry data), mengambil data (dari format data yanglain)

Olah: Mengurutkan, menyeleksi, mentransformasi, mengambil subset data,menambah data

Presentasi: Membuat deskripsi data, tabel, grafik, ringkasan-ringkasan statistik

Analisis: Melakukan analisis data berdasarkan teori, metode-metodestatistikatertentu atau metode-metode kuantitatif yang lain

yang dapat digambarkan seperti pada Gambar refgb:alatTahapan analisis data menggunakan komputer meliputi:

1. Data collection

2. Data entry

3. Data checking

4. Data screening

5. Data analysis

Page 97: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

9.4. Ringkasan Metode dan Topik Lanjut 94

6. Checking results

7. Interpretation

Selain itu sebagai konsultan statistik di bidang epidemiologi, kedokter-an dan ilmu hayati, statistisi setidaknya mengenal berbagai sumber infor-masi di bidang tersebut, misalnya berupa online-referencedari interner sepertihttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed

Informasi lain pada jaman teknologi informasi ini lebih mudah dan dapat di-akses melalui berbagai fasilitas pencarian di internet.

9.4 Ringkasan Metode dan Topik Lanjut

Sebagian besar metode statistik yang digunakan sebagai alat analisis dalampenelitian di bidang kedokteran, ilmu hayati dan epidemiologi dan sebagian di-antaranya sudah dibahas dalam diktat ini dapat diringkas seperti pada Tabel 9.1.

Masih banyak metode lain yang tidak semuanya disebutkan dalam ringkasan.Misalnya metode-metode nonparametrik padanan metode parametrik di atas. Se-lain itu, masih banyak masalah yang memerlukan pengembangan metode baruatau modifikasi metode. Misalnya beberapa desain seperticase-cohort, case-controlmemerlukan modifikasi metode regresi logistik dan regresi Cox.

9.5 Latihan

9.1. Apakah saudara pernah melakukan kegiatan semacam konsultasi statistika(profit maupun non-profit)? Bila pernah, sebutkan dalam bidang masalahapa (epidemologi, pertanian, teknik, dst.) dan metode statistik yang digu-nakan (Pilih satu saja bila pernah melakukan lebih dari satukali kegiatankonsultasi).

9.2. Carilah klien yang mempunyai permasalahan penelitian atau pekerjaan dibidang epidemiologi, kedokteran atau ilmu hayati. Untuk lingkungan diperguruan tinggi klien dapat berasal dari fakultas kedokteran, kesehatanmasyarakat, keperawatan, farmasi, kedokteran gigi, biologi dan kedokteranhewan. Dapat juga dari instansi atau lembaga penelitian di bidang kesehat-an. Lakukan konsultasi dengan klien, tuliskan laporan dan presentasikan.

9.3. Sebuah studi akan dilakukan untuk mengetahui apakah manajemen (penan-ganan) terpadu untuk anak balita sakit memang efektif meningkatkan caku-pan banyaknya anak yang tertangani di puskesmas, meningkatkan kepuasan

Page 98: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

9.5. Latihan 95

pasien terhadap pelayanan kesehatan di puskesmas dan mengurangi morta-litas balita. Apabila saudara diminta menjadi konsultan statistik studi iniapa saja yang direncanakan mulai dari desain studi sampai dengan kemung-kinan analisis yang dapat digunakan

9.4. Dari hasil pencarian dipubmed central1, metode statistik apa yang saudaratemukan paling populer? Menurut saudara mengapa metode tersebut pop-uler digunakan di bidang epidemiologi dan penelitian kesehatan?

1http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed

Page 99: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

9.5. Latihan 96

Tabel 9.1: Ringkasan Metode

Respon Variabel penjelas MetodeKontinu Biner t-test, z-test

Nominal, 2 kategori ataulebih

ANAVA

Ordinal ANAVAKontinu Regresi GandaNominal dan kontinu Analisis KovariansiKategorik dan kontinu Regresi Ganda

Biner Kategorik Tabel kontingensiRegresi Logistik

Kontinu Regresi Logistik, probitataumodel dose-response

Kategorik dan kontinu Regresi LogistikNominal, 2kategori

Nominal Tabel kontingensi

atau lebih Kategorik dan kontinu Regresi Logistik NominalOrdinal Kategorik dan kontinu Regresi Logistik OrdinalCacah Kategorik Model Log-linear,

Regresi PoissonKategorik dan kontinu Regresi Poisson

Durasi (survival) Biner Log-rank testKategorik dan kontinu Survival analysis

Respon berkorelasi Kategorik dan kontinu Generalized EstimatingequationMultilevels modelAnalisis DataLongitudinalAnalisis Data Panel

Page 100: BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

Bibliografi

Armitage, P. and Colton, T. (1998).Encyclopedia of Biostatistics, John Wiley and Sons,Inc.

Beaglehole, R., Bonita, R. and Kjellstrom, T. (2000).Basic Epidemiology, World HealthOrganization.

Chow, S. C. (2000).Encyclopedia of Biopharmaceutical Statistics., John Wiley and Sons,Inc.

Clayton, D. and Hills, M. (1993).Statistical Models in Epidemiology, Oxford universityPress.

Hofacker, C, F. (1983). Abuse of statistical packages: the case of the general linear model,Am J Physiol Regul Integr Comp Physiol245: R299–R302.

Kleinbaum, D. G., Kupper, L. L. and Morgenstern, H. (1982).Epidemiologic Research:Principles and Quantitative Methods., Wadsworth, Inc.

Last, J. (1995).A Dictionary of Epidemiology, 3rd edn., Oxford University Press.

Le, C. T. (2003).Introductory Biostatistics, John Wiley and Sons, Inc.

97