STK511 Analisis Statistika - stat.ipb.ac.id · • Kaidah peluang yang berlaku sangat rumit...
Transcript of STK511 Analisis Statistika - stat.ipb.ac.id · • Kaidah peluang yang berlaku sangat rumit...
STK511 Analisis Statistika
Pertemuan – 13
Peubah Ganda
• Menggambarkan suatu objek tidak cukup menggunakan satu peubah saja
• Kasus pengamatan peubah ganda dijumpai di seluruh bidang terapan
• Perlu analisis lebih canggih dibandingkan analisis pada peubah tunggal (univariate) perlu ‘sumberdaya’ lebih, dalam analisis
13. Peubah Ganda: Pengantar
Pengamatan Peubah Ganda
anang kurnia ([email protected]) 2
• Kaidah peluang yang berlaku sangat rumit penurunannya joint distribution, sehingga yang banyak berkembang hanya pada teknik eksplorasi
• Peubah yang sangat banyak menjadikan data berukuran lebih besar, sehingga muncul berbagai teknik pereduksian
• Peubah yang diamati tidak saling bebas (ada overlapping informasi antar peubah), sehingga diperlukan teknik-teknik penyusunan peubah baru seperti komponen utama dan peubah kanonik
13. Peubah Ganda: Pengantar
Pengamatan Peubah Ganda
anang kurnia ([email protected]) 3
px
x
x
2
1
x = E(x) = = =
)(
)( 1
pxE
xE
p
1
1 1 2 1
2 1 2 2
1 2
var( ) cov( , ) cov( , )
cov( , ) var( ) cov( , )
cov( , ) cov( , ) var( )
p
p
p p p
x x x x x
x x x x x
x x x x x
11 12 1
21 22 2
1 2
p
p
p p pp
13. Peubah Ganda: Pengantar
Pengamatan Peubah Ganda Struktur Data
anang kurnia ([email protected]) 4
Analisis Komponen Utama
Gugus peubah asal
{X1, X2, …, Xp}
Gugus KU
{KU1, KU2, …, KUp}
Hanya dipilih k < p KU
saja, namun mampu
memuat sebagian besar
informasi
13. Analisis Komponen Utama
Analisis Komponen Utama
anang kurnia ([email protected]) 6
Untuk menceritakan bagaimana wajah pacar kita waktu SMA, tidak perlu disebutkan hidungnya mancung, kulitnya halus,
rambutnya indah tergerai dan sebagainya. Tapi cukup katakan ‘Pacar saya waktu SMA orangnya cantik’.
Kata ‘cantik’ sudah mampu menggambarkan uraian sebelumnya.
Analisis Komponen Utama: Ilustrasi
13. Analisis Komponen Utama
anang kurnia ([email protected]) 7
KU1 = a1x = a11x1 + … + a1pxp
Jika gugus peubah asal {X1, X2, …, Xp} memiliki matriks ragam peragam maka ragam dari komponen utama adalah
= a1’a1 =
Tugas kita adalah bagaimana mendapatkan vektor a1 sehingga ragam di atas maksimum (vektor ini disebut
vektor koefisien)
p
i
p
j
ijjiaa1 1
11 2
1KU
Analisis Komponen Utama
Gugus peubah asal {X1, X2, …, Xp}
Gugus Komponen Utama {KU1, KU2, …, KUp}
13. Analisis Komponen Utama
anang kurnia ([email protected]) 8
• Vektor a1 merupakan vektor ciri matriks yang berpadanan dengan akar ciri paling besar.
• Kombinasi linear dari {X1, X2, …, Xp} berupa
KU1 = a1x = a11x1 + … + a1pxp
dikenal sebagai KU pertama dan memiliki ragam sebesar 1 = akar ciri terbesar
• KU2 , KU3 , …. Disusun sedemikian sehingga terbesar berurut dan saling bebas dengan KU lainnya.
Analisis Komponen Utama
13. Analisis Komponen Utama
anang kurnia ([email protected]) 9
Ilustrasi berikut menggunakan catatan waktu pada olimpiade Los Angeles tahun 1984 untuk berbagai nomor lari putri di cabang atletik. Ada tujuh nomor yang dicatat, yaitu lari 100 meter, 200 meter, 400 meter, 800 meter, 1500 meter, 3000 meter, dan marathon. Tiga nomor pertama catatan waktu dalam satuan detik, sedangkan empat nomor yang lain dalam menit. Data yang tersedia ada 55 negara peserta.
Ilustrasi
13. Analisis Komponen Utama
anang kurnia ([email protected]) 10
m100 m200 m400 m800 m1500 m3000 marathon
m100 1.0000 0.9528 0.8350 0.7277 0.7163 0.7417 0.5423
m200 0.9528 1.0000 0.8572 0.7241 0.7029 0.7099 0.5444
m400 0.8350 0.8572 1.0000 0.8981 0.7757 0.7776 0.5507
m800 0.7277 0.7241 0.8981 1.0000 0.8260 0.8636 0.6545
m1500 0.7163 0.7029 0.7757 0.8260 1.0000 0.9031 0.6996
m3000 0.7417 0.7099 0.7776 0.8636 0.9031 1.0000 0.7966
marathon 0.5423 0.5444 0.5507 0.6545 0.6996 0.7966 1.0000
Ilustrasi: Matriks korelasi
13. Analisis Komponen Utama
anang kurnia ([email protected]) 11
Eigenvalue Difference Proportion Cumulative
1 5.53319890 4.81746883 0.7905 0.7905
2 0.71573007 0.35411502 0.1022 0.8927
3 0.36161505 0.15335511 0.0517 0.9444
4 0.20825995 0.11607781 0.0298 0.9741
5 0.09218213 0.04086896 0.0132 0.9873
6 0.05131317 0.01361245 0.0073 0.9946
7 0.03770072 0.0054 1.0000
Ilustrasi: Akar ciri
0
1
2
3
4
5
6
1 2 3 4 5 6 7
13. Analisis Komponen Utama
anang kurnia ([email protected]) 12
• Metode 1: Menggunakan 2 KU sudah mencapai proporsi keragaman 89.27%
• Metode 2: Hanya 2 KU yang memiliki akarciri lebih besar dari 0.7
• Metode 3: Pada k = 2 terlihat gambar scree plot sangat curam di kiri tapi landai di kanan. Jadi 2 KU yang digunakan sudah mencukupi.
Ilustrasi: Berapa KU?
13. Analisis Komponen Utama
anang kurnia ([email protected]) 13
Ilustrasi: Vektor ciri
Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7
m100 0.378202 -.426104 0.359297 -.165099 -.331229 0.225902 0.598584
m200 0.376416 -.452874 0.363819 -.011005 0.175249 0.037974 -.698982
m400 0.391311 -.272232 -.325636 0.378804 0.371464 -.556664 0.274544
m800 0.390624 0.067673 -.512111 0.402954 -.250932 0.579870 -.137794
m1500 0.385043 0.230072 -.245359 -.680608 0.481480 0.195655 0.072641
m3000 0.395890 0.308242 -.074146 -.249112 -.615938 -.509888 -.203317
marathon 0.323383 0.621855 0.551857 0.376128 0.217762 0.056004 0.110204
13. Analisis Komponen Utama
anang kurnia ([email protected]) 14
• Analisis Hub antar Peubah
• Pemeriksaan Multikolinearitas
• Analisis KU
• Regresi KU dengan Peubah Respon Y
• Transformasi Regresi KU ke Peubah Baku Z
• Transformasi Regresi Z ke Peubah Asal X
Contoh Aplikasi KU: Regresi Komponen Utama
13. Analisis Komponen Utama
anang kurnia ([email protected]) 15
Analisis Geromnbol (Cluster)
• Tujuan analisis gerombol :
Menggabungkan beberapa objek ke dalam kelompok-kelompok berdasarkan sifat kemiripan atau sifat ketidakmiripan antar objek
Objek dalam kelompok lebih mirip dibandingkan dengan objek antar kelompok
Ketakmiripan antar objek diukur dengan jarak tertentu : jarak Euclid, Mahalanobis dll
13. Cluster Analysis
Pengantar
anang kurnia ([email protected]) 17
• Tujuan dari penggerombolan
• Kemiripan atau ketakmiripan seperti apa yang diharapkan berhubungan dengan pemilihan peubah
• Mengkuantifikasi ukuran kemiripan antar objek
13. Cluster Analysis
Pengantar
anang kurnia ([email protected]) 18
• Metode Grafik – Plot Profil – lot Andrew – Plot Andrew termodifikasi
• Metode Penggerombolan Berhirarki • Metode Penggerombolan tak Berhirarki
13. Cluster Analysis
Metode
anang kurnia ([email protected]) 19
• Plot profil dari setiap pengamatan
• Pembakuan data sangat membantu
• Kelemahan :
tidak efektif untuk data yang terlalu banyak pengamatan.
• Ilustrasi :
Diperoleh hasil ujian untuk 7 mata ajaran yaitu Matematika, Fisika, Biologi, Sejarah Nasional, Pendidikan kewiraan, dan Kesenian. Ada 6 mahasiswa yang terlibat.
13. Cluster Analysis
Plot Profil
anang kurnia ([email protected]) 20
5
6
7
8
9
Mat Fis Bio Sej Kew Sos SeniMata Ajaran
Nil
ai
Andi Benny Budi Ika Maya Ana
13. Cluster Analysis
Plot Profil
anang kurnia ([email protected]) 22
1. Metode aglomeratif
2. Metode berhirarki divisif (pemisahan)
Beberapa ukuran ketakmiripan antar gerombol :
• Pautan Tunggal
• Pautan Lengkap
• Pautan Centroid
• Pautan Median
• Pautan Rataan
13. Cluster Analysis
Penggerombolan Berhirarki
anang kurnia ([email protected]) 24
• Pautan Tunggal (Single Linkage = Nearest Neighbor)
Jarak antar dua gerombol diukur dengan jarak terdekat antara sebuah objek dalam gerombol yang satu dengan sebuah objek dalam gerombol yang lain.
h(Br, Bs) = min { d(xi, xj); xi anggota Br, dan xj anggota Bs }
13. Cluster Analysis
Penggerombolan Berhirarki
anang kurnia ([email protected]) 25
• Pautan Lengkap (Complete Linkage = Farthest Neighbor)
Jarak antar dua gerombol diukur dengan jarak terjauh antara sebuah objek dalam gerombol yang satu dengan sebuah objek dalam gerombol yang lain.
h(Br, Bs) = max { d(xi, xj); xi anggota Br, dan xj anggota Bs }
13. Cluster Analysis
Penggerombolan Berhirarki
anang kurnia ([email protected]) 26
• Pautan Centroid (Centroid Linkage) Jarak antara dua buah gerombol diukur sebagai jarak
Euclidean antara kedua rataan (centroid) gerombol. Jika dan adalah vektor rataan (centroid) dari
gerombol Br dan Bs, maka jarak kedua gerombol tersebut didefinisikan sebagai :
Jarak yang baru didefinisikan sebagai :
rxsx
sr
ssrr
nn
nn
xx
13. Cluster Analysis
Penggerombolan Berhirarki
anang kurnia ([email protected]) 27
• Pautan Median (Median Linkage)
Jarak antar gerombol didefinisikan sebagai jarak antar
median, dan gerombol-gerombol dengan jarak terkecil akan digabungkan.
Median untuk gerombol yang baru adalah Mbaru = 2
srmm
13. Cluster Analysis
Penggerombolan Berhirarki
anang kurnia ([email protected]) 28
• Pautan Rataan (Average Linkage)
Jarak antara dua buah gerombol, Br dan Bs didefinisikan sebagai rataan dari nrns jarak yang dihitung antara xi anggota Br dan xj anggota Bs
13. Cluster Analysis
Penggerombolan Berhirarki
anang kurnia ([email protected]) 29
• Dari ilustrasi sebelumnya, digunakan konsep jarak Euclidian dan diperoleh matriks jarak sbb :
13. Cluster Analysis
Penggerombolan Berhirarki: Ilustrasi
anang kurnia ([email protected]) 30
Dengan menggunakan konsep Single lingkage diperoleh hasil dalam bentuk dendogram sebagai berikut :
13. Cluster Analysis
Penggerombolan Berhirarki: Ilustrasi
anang kurnia ([email protected]) 31
Metode K rataan (k-means)
Algoritmanya sbb :
1. Tentukan besarnya k, yaitu banyaknya gerombol, dan tentukan juga centroid di tiap gerombol.
2. Hitung jarak antara setiap objek dengan setiap centroid.
3. Hitung kembali rataan (centroid) untuk gerombol yang baru terbentuk.
4. Ulangi langkah 2 sampai tidak ada lagi pemindahan objek antar gerombol.
13. Cluster Analysis
Penggerombolan Tak Berhirarki
anang kurnia ([email protected]) 32
• Misalkan ada dua peubah X1 dan X2 yang tiap objeknya diberi nama A, B, C dan D. Datanya sebagai berikut:
13. Cluster Analysis
Penggerombolan Tak Berhirarki: Ilustrasi
anang kurnia ([email protected]) 33
1. Dikelompokkan ke dalam 2 kelompok. Centroid dipilih secara acak : c1 = (2, 2) dan c2 = (-1, -2).
2. Jarak yang digunakan jarak Euclidian. Memasukkan objek ke gerombol berpatokan pada jarak terdekat
Diperoleh matriks jarak sbb :
13. Cluster Analysis
Penggerombolan Tak Berhirarki: Ilustrasi
anang kurnia ([email protected]) 34
3. Hitung centroid baru, rataan dari vektor masing-masing unsur.
c1 = (5, 3)
c2 = [(-1, 1) + (1, -2) + (-3, -2)]/3 = (-1, -1)
Diperoleh matriks yang sbb :
Diperoleh 2 gerombol : G1 = {A} dan G2 = {B, C, D}.
13. Cluster Analysis
Penggerombolan Tak Berhirarki: Ilustrasi
anang kurnia ([email protected]) 35
Biplot
• Biplot diperkenalkan pertama kali oleh Gabriel (1971) sehingga sering disebut sebagai Gabriel’s biplot.
• Metode ini tergolong dalam analisis eksplorasi peubah ganda yang ditujukan untuk menyajikan data peubah ganda dalam peta dua dimensi, sehingga perilaku data mudah dilihat dan diinterpretasikan.
13. Biplot
Pengantar
anang kurnia ([email protected]) 37
Biplot adalah teknik statistika deskriptif yang dapat disajikan secara visual guna menyajikan secara simultan n obyek pengamatan dan p peubah dalam ruang bidang datar, sehingga ciri-ciri peubah dan obyek pengamatan serta posisi relatif antar obyek pengamatan dengan peubah dapat dianalisis. (Jollife, 1986 & Rawlings 1988).
13. Biplot
Definisi
anang kurnia ([email protected]) 38
1. Hubungan antar peubah
2. Kemiripan relatif antar obyek pengamatan
3. Posisi relatif antar obyek pengamatan dengan peubah
4. Nilai peubah pada suatu objek
13. Biplot
Informasi yang Bisa Diambil
anang kurnia ([email protected]) 39
Biplot merupakan teknik statistika deskriptif dimensi ganda yang mendasarkan pada penguraian nilai singular (PNS) atau Singular Value Decomposition (SVD).
Misalkan suatu matriks data X berukuran nxp yang berisi n pengamatan dan p peubah yang dikoreksi terhadap nilai rata-ratanya dan berpangkat r, dapat dituliskan menjadi
X = U L A’
13. Biplot
Konsep Dasar
anang kurnia ([email protected]) 40
Keterangan :
matriks U dan A masing-masing berukuran (nxr) dan (pxr) sehingga U’U = A’A = Ir
L adalah matrik diagonal berukuran (rxr) dengan unsur-unsur diagonalnya adalah akar kuadrat dari akar ciri X’X atau XX’ sehingga
1 2 .... r
13. Biplot
Konsep Dasar
anang kurnia ([email protected]) 41
Kolom matris A adalah vektor ciri yang berpadanan dengan akar ciri dari matrik X’X atau XX’.
Lajur-lajur matrik U dapat dihitung melalui :
Dengan i adalah akar ciri ke-i dari matrik X’X dan ai adalah lajur ke-i matrik A.
i
i
a
1U i
13. Biplot
Konsep Dasar
anang kurnia ([email protected]) 42
nXr = nUr rLr rAp
A = [a1, a2, …,ar]
r
2
1
00
00
00
L
r
r
aaa
1,...,
1,
1U 2
2
1
1
13. Biplot
Konsep Dasar: SVD
anang kurnia ([email protected]) 43
• X = U L L1- A’
= G H’
• Misalkan G = U L serta H’ = L1- A’
Unsur ke-(i,j) matriks X dapat dituliskan sbb :
X ij = gi’hj
dimana: i = 1,2,3,...,n j = 1,2,3,...,p
dengan gi’ dan hj’ masing-masing merupakan baris-baris matriks G dan H
Jika r(X)=2 maka gi dan hj digambarkan dalam ruang berdimensi 2
13. Biplot
Konsep Dasar: SVD
anang kurnia ([email protected]) 44
• Jika = 1, maka G = UL dan H = A, sehingga diperoleh hubungan:
X’X = (GH’)(GH’)’
= GH’ HG’
= GA’ AG’
= GG’
• Jika = 0 maka G = U dan H = AL, sehingga diperoleh
X’X = (GH’)’(GH’)
= HG’ GH’
= HU’ UH’
= HH’
13. Biplot
Konsep Dasar: SVD
anang kurnia ([email protected]) 45
1. Kedekatan antar obyek.
Dua obyek dengan karakteristik sama akan digambarkan sebagai dua faktor yang posisi-nya berdekatan.
2. Keragaman peubah.
Peubah dengan keragaman kecil digambarkan sebagai vektor yang pendek. Begitu pula sebaliknya.
13. Biplot
Informasi yang Bisa Diperoleh
anang kurnia ([email protected]) 46
3. Hubungan antar peubah :
Jika sudut dua peubah < 900 maka korelasi bersifat positif
Jika sudut dua peubah > 900 maka korelasi bersifat negatif
Semakin kecil sudutnya, maka semakin kuat korelasinya.
4. Nilai peubah pada suatu obyek.
Karakteristik suatu obyek bisa disimpulkan dari posisi relatifnya yang paling dekat dengan suatu peubah.
13. Biplot
Informasi yang Bisa Diperoleh
anang kurnia ([email protected]) 47
• Ilustrasi berikut memberikan penerapan BIPLOT untuk menilai posisi relatif sembilan negara ASEAN menurut indikator pembangunan berkelanjutan (sustatinable development indicators).
Ada 9 variabel yang dimasukkan.
13. Biplot
Ilustrasi
anang kurnia ([email protected]) 48
Perusahaan penyedia jasa layanan kartu kredit harus mampu membuat fungsi diskriminan yang mampu memisahkan calon pemegang kartu yang potensial melakukan transaksi dan yang tidak (idle) berdasarkan data dalam formulir aplikasi.
X mampu menjadi
pembeda, tetapi Y tidak Y mampu menjadi
pembeda, tetapi X tidak
13. Diskriminan
Prinsip Dasar
anang kurnia ([email protected]) 52
X dan Y saja tidak mampu
menjadi pembeda, tetapi
kombinasi linearnya bisa
Membutuhkan fungsi non-linear
dari X dan Y untuk bisa
membedakan
13. Diskriminan
Prinsip Dasar
anang kurnia ([email protected]) 53
Bersambung …….
anang kurnia ([email protected]) 54