PRINCIPAL COMPONENT ANALYSIS
Click here to load reader
-
Upload
riskyanakyu-hyun -
Category
Documents
-
view
254 -
download
22
description
Transcript of PRINCIPAL COMPONENT ANALYSIS
1.1 SEJARAH PCA
Metode Principal Component Analysis (PCA) dibuat pertama kali oleh para ahli statistik
dan ditemukan oleh Karl Pearson pada tahun 1901 yang memakainya pada bidang biologi.
Pada tahun 1947 teori ini ditemukan kembali oleh Karhunen, dan kemudian dikembangkan
oleh Loeve pada tahun l963, sehingga teori ini juga dinamakan Karhunen-Loeve transform
pada bidang ilmu telekomunikasi. [1]
1.2 DEFINISI PCA
Ada beberapa definisi yang menjelaskan PCA, Principal Component Analysis (PCA)
merupakan suatu metode yang melibatkan prosedur matematika yang mengubah dan
mentransformasikan sejumlah besar variabel yang berkorelasi menjadi sejumlah kecil
variabel yang tidak berkorelasi, tanpa menghilangkan informasi penting di dalamnya” [2] .
Selain itu PCA juga disebut sebagai Teknik Statistik yang dapat digunakan untuk
menjelaskan struktur variansi-kovariansi dari sekumpulan variabel melalui variabel baru
dimana variabel baru ini saling bebas, dan merupakan kombinasi linier dari variabel asal [3]
Sebagai contoh kasus Sebuah analis keuangan ingin menentukan sehat tidaknya sebuah
departemen keuangan pada sebuah industri. Dalam penelitian awal telah diidentifikasi
terdapat sejumlah rasio keuangan sekitar 120 variabel yang dapat digunakan untuk analisa di
atas. Tentu saja, tidaklah mudah untuk menginterpretasikan 120 buah informasi untuk
menentukan apakah departemen keuangan tersebut dalam keadaan sehat atau tidak. Maka
tugas pertama dari analis tersebut adalah menyederhanakan/ mereduksi ke-120 rasio menjadi
beberapa index saja (misalnya 3), yang mana index tersebut merupakan kombinasi linnier
dari seluruh rasio awal sedemikian hingga rasio baru tersebut tidak saling berkorelasi.
1.3 PENGENALAN WAJAH
Setiap wajah terlihat mirip satu dengan yang lain. Semua memiliki dua mata, satu hidung,
satu mulut dan lain-lain, yang berada pada tempat yang sama, sehingga semua vektor wajah
terletak pada kumpulan yang sempit pada ruang gambar. Sebuah wajah dalam bentuk gambar
dua dimensi dapat dilihat sebagai vektor satu dimensi. Jika panjang gambar adalah w dan
lebar gambar adalah h, maka jumlah komponen dari vektor 1 dimensinya adalah w x h .
Vektor wajah tersebut berada dalam suatu ruang, yaitu ruang wajah yang merupakan
ruang dari semua gambar yang memiliki ukuran w x h pixel. Tetapi keseluruhan ruang
gambar bukanlah ruang yang optimal untuk menggambarkan wajah. Dimensi dari ruang
gambar adalah w * h, dimana semua pixel dari sebuah wajah tidak berhubungan, dan setiap
pixel bergantung pada pixel lain didekatnya. Jadi, dimensi dari ruang wajah lebih kecil
daripada dimensi ruang gambar. Sehingga dibentuk sebuah ruang wajah yang dapat
menggambarkan wajah dengan lebih baik. Vektor basis dari ruang wajah ini disebut principal
components.
2. Mampu menjelaskan algoritma PCA
Langkah umum penyelesaian PCA dapat dilihat pada diagram berikut :
1. Input Data
Data awal dipersiapkan dalam sebuah matriks ukuran mxn. Nantinya jumlah variable n akan
berkurang menjadi k jumlah principal component yang dipertahankan. Misal terdapat matrik
dengan ukuran 6x6 sebagai berikut :
2. Mean Centering
Mean Centering adalah mencari nilai rata-rata masing-masing dimensi (kolom) dan
mengurangkan setiap nilai data sampel dengan nilai rata0rata sesuai dengan kolomnya, 𝑋𝑖 −
�̅�, dimana i = 1, 2, ..., m . Pada matriks sebelumnya maka diperoleh
3. Hitung Matriks Covarian
Persamaan mencari covarian adalah :
Sedangkan bentuk Matriks Covarian adalah
Sehingga dari matriks mean centering diperoleh matriks covarian :
[ 186 194198 192
206 171204 159
125 148121 174
190 188202 190
202 188195 194
139 140175 173
186 201188 187
195 193197 199
214 173200 198]
[ 186 194198 192
206 171204 159
125 148121 174
190 188202 190
202 188195 194
139 140175 173
186 201188 187
195 193197 199
214 173200 198]
Mean = 191.67 192 199.83 182.33 162.33 167.66 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
Kurangi nilai setiap kolom dengan mean
[
−5.67 26.33 0
6.17 −11.334.17 −23.33
−37.33 −19.66−41.33 6.34
−1.67 −410.33 −2
2.17 5.67−4.83 11.67
−23.33 −27.6612.67 5.34
−5.67 9−3.67 −5
−4.83 10.67−2.83 16.67
51.67 5.3437.67 30.34 ]
𝑐𝑜𝑣 (𝑋, 𝑌) =∑ (𝑋𝑖 − �̅�)(𝑌𝑖 − �̅�)𝑛
𝑖=1
(𝑛 − 1)
𝐶 = (
𝑐𝑜𝑣(𝑥. 𝑥) 𝑐𝑜𝑣(𝑥, 𝑦) 𝑐𝑜𝑣(𝑥, 𝑧)𝑐𝑜𝑣(𝑦, 𝑥) 𝑐𝑜𝑣(𝑦, 𝑦) 𝑐𝑜𝑣(𝑦, 𝑧)𝑐𝑜𝑣(𝑧, 𝑥) 𝑐𝑜𝑣(𝑧, 𝑦) 𝑐𝑜𝑣(𝑧, 𝑧)
)
𝐶 =
(
45.46 −11.6 −4.866 −6.33 −62.26 433.8−11.6−4.866
26−3.2
−3.222.96
−15.6−75.56
54−174.1
−8.6−58.46
−6.33−62.26433.8
−15.654
−8.6
−75.66−174.1−58.46
320.5598.5151.8
598.51579520.7
151.8520.7433.8 )
4. Proses PCA
Proses PCA terdapat 2 macam cara, yaitu EVD (Eigen Value Decomposition) dan SVD
(Singular Value Decomposition).
4.1 EVD (Eigen Value Decomposition)
Proses PCA dengan cara EVD menggunakan eigen function dari covarian-nya, sehingga
setelah didapat matriks covarian maka langkah selanjutnya adalah dengan mencari Nilai
Eigen dan Vektor Eigen dari Matriks Covarian
Sehingga diperoleh Nilai Eigen sebagai berikut :
Jika 𝜆 adalah nilai eigen maka vektor eigen yang bersesuaian dengan 𝜆 dapat dicari dengan
persamaan :
(𝐴 − 𝜆𝐼) ∙ 𝑉 = 0
Dan didapat vektor eigen sebagai berikut
𝜆1 = 2028.1, dengan V1=
[
44.519.4
−98.4339.5872.8333 ]
𝜆2 = 589.2, dengan V2= =
[ −614.543.4
−16.2154.5247.5
−731.5]
𝜆3 = −302.1 dengan V3=
[ −776.3
24−4.244.9
−205.4593.7 ]
Lalu tahapan selanjutnya adalah dengan mengurutkan vektor eigen berdasarkan nilai eigen
terbesar ke nilai eigen terkecil, sehingga membentuk Matriks Ciri :
Determinant (𝐶 − 𝜆I) = 0
𝜆1 = 202.81
𝜆2 = 589.2
𝜆3 = −302.1
𝜆4 = 101.3
𝜆5 = 9.1
𝜆6 = 2.1
𝜆4 = 101.3 dengan V4 =
[ −95.7412.269.1
−844.4319.433 ]
𝜆5 = 9.1 dengan V5=
[ −88.8−876.8291.5
−325.3180.28.4 ]
𝜆6 = 2.1 dengan V5 =
[ 25.5246.4947.220214
19.6 ]
𝑋 =
[
44.519.4
−98.4339.5872.8333
−614.543.4
−16.2154.5247.5
−731.5
−95.7412.269.1
−844.4319.433
−88.8−876.8291.5
−325.3180.28.4
25.5246.4947.220214
19.6
−776.324
−4.244.9
−205.4593.7 ]
Dari hasil EVD, vektor eigen dengan nilai eigen tertinggi meng-capture variasi data tertinggi,
sehingga dipilih nilai principal component dengan k % dari jumlah nilai eigen. Misal dalam
kasus ini dipilih 1 principal component dengan 1 nilai eigen tertinggi yang meng-capture
83.5 % dari nilai keseluruhan , maka dipilih
Dan selanjutnya hasil matriks di atas diproyeksikan ke data yang telah dinormalkan (mean
centering) dengan mengalikan X dengan matriks mean centering sebelumnya .Sehingga
ukuran data yang awalnya 6 x 6 direduksi menjadi 1 x 6 saja.
4.2 SVD (Singular Value Decomposition)
Singular Value Decomposition adalah seuatu teknik untuk mendekomposisi matriks
berukuran apa saja (biasanya diaplikasikan untuk matriks dengan ukuran sangat besar), untuk
mempermudah pengolahan data. Hasil dari SVD ini adalah singular value yang disimpan
dalam sebuah matriks diagonal, D, dalam urutan yang sesuai dengan koresponding singular
vector-ya. Dimana, nilai singular value menyimpan informasi yang sangat penting tentang
data, yaitu data yang berkontribusi paling besar terhadap variasi data secara keseluruhan,
yang disimpan pada singular value yang pertama.
Pada EVD, data awal berupa matriks bujur sangkar (n x n), sehingga untuk data dengan
matriks berukuran m x n (tidak memiliki nilai eigen) digunakan metode SVD. Contoh kasus
matriks berukuran 4 x 5
Langkah pertama dalam SVD adalah mencari Ku dan Kv dimana
dan
Sehingga diperoleh Ku dan Kv dari matriks A
Selanjutnya dicari masing-masing Nilai Eigen dan Vektor Eigen dari Ku dan Kv
Nilai Eigen dari Ku
𝑋 =
[
44.519.4
−98.4339.5872.8333 ]
A = [
8 711 273 152 19
20 714 522 515 4
12121617
]
𝐾𝑢 = 𝐴 𝐴𝑇 𝐾𝑣 = 𝐴𝑇𝐴
𝐾𝑢 = [
569821648981337
2164155328993222
898899555627
133732226273595
] 𝐾𝑣 =
[ 289813441050
13441140555
10505551125
8467131610
232936801111
8462329
7133680
16101111
51071555
155515110]
𝜆1 = 346
𝜆2 = 2578
𝜆3 = 5494
𝜆4 = 1696.2
𝐷𝑢 = (
√346000
0
√257800
00
√54940
000
√1696.2
)
Du sendiri adalah matriks diagonal yang diperoleh dari akar Nilai Eigen Ku
Vektor Eigen dari Ku
Nilai Eigen dari Kv
Vektor Eigen dari Kv
Terlihat bahwa Du dan Dv mempunyai nilai yang sama, sehingga kita bisa membuat matriks
D dari Du dan Dv dengan ukuran 4 x 5 dan urutkan dari yang terbesar ke yang terkecil . Pada
matriks D di bawah ini , masing2 elemen telah diakar dan diurutkan
Langkah terakhir yaitu dengan mengalikan Matriks U (Vektor Eigen dari Ku) , Matriks D
dan Matriks V (Vektor Eigen dari Kv) yang telah ditranspose, sehingga diperoleh Matriks
SVD
Dan untuk memproyeksikan ke data awal maka caranya sama dengan EVD sebelumnya yaitu
dengan mengalikan k % dari D dengan Matriks Mean Centering.
3. Mampu menjelaskan perbedaan PCA dan Transformasi Wavelet
PCA Wavelet
Hubungan antar pola dalam satu kelas ada Tidak ada hubungan antar pola dalam satu
𝑈 = (
0.12870.0137
−0.98390.1233
0.29130.1891
−0.0764−0.9346
−0.92290.2821
−0.1442−0.2188
0.21640.94050.07300.2518
)
𝜆2 = 0
𝜆2 = 346
𝜆3 = 2578
𝜆4 = 5494
𝜆5 = 1696.2
𝐷𝑣 =
(
00
0
√346000
000
00
00
00
√257800
0
√54940
00
√1696.2)
𝑉 =
(
−0.29540.93510.0575
−0.0444−0.1819
0.24930.1414
−0.92240.2570
−0.0322
−0.8749−0.2106−0.17960.34480.1976
−0.2171−0.0424−0.3209−0.88660.2492
0.19490.24390.10340.16460.9299)
𝐷 = (
74.1215000
050.774
00
00
41.18490
000
18.6011
0000
)
𝑆𝑉𝐷 = 𝑈 ∙ 𝐷 ∙ 𝑉𝑇
𝑆𝑉𝐷 = (
33.2506−11.8696
18.8459−0.8786
−7.5602−16.4975
−13.2977−9.0805
−8.71776.1608
25.4768−7.6632
−67.54913.5353
0.016644.4123
−1.0136−19.8597
12.5533−0.7458
)
yaitu untuk menghasilkan nilai principal
component
kelas
Fitur yang disimpan dalam database adalah
nilai principal component
Fitur yang disimpan dalam database adalah
koefisien approksimasi hasil dekomposisi
wavelet
Transformasi yang dilakukan adalah dengan
menghitung matriks kovarian untuk
menghasilkan nilai eigen dan principal
component
Transformasi yang dilakukan ke dalam
domain sekaligus frekuensi pada tingkat
resolusi yang berbeda
Bersifat Lossy (jika dikembalikan maka akan
ada data yang hilang)
Bersifat Lossless (Jika dikembalikan maka
data kembali seperti semula, tidak ada yang
hilang)
Daftar Pustaka :
[1] Wikipedia, Analisis Komponen Utama https://id.wikipedia.org/wiki/Analisis_komponen_
utama diakses pada tanggal Juli 2015
[2] Wibowo, Bangun Budi. 2011. Pengenalan Wajah Menggunakan Analisis Komponen
Utama. Skripsi, Program Sarjana Universitas Diponegoro, Semarang.
[3] Principal-component-analysis—pca----konsep-dan-aplikasi-dalam-teknik-industri.pdf
Rencana Pertemuan Mendatang :
Melakukan Percobaan Implementasi PCA pada Matlab dan Melengkapi Definisi dan
Algoritma dari Transformasi Wavelet