Komputasi Statistika dengan Software R · pengukuran yang digunakan oleh data. ... Pendidikan 2 5 1...
Transcript of Komputasi Statistika dengan Software R · pengukuran yang digunakan oleh data. ... Pendidikan 2 5 1...
Analisis Korelasi(Sesi 13)
Komputasi Statistikadengan Software R
Analisis Korelasi(Sesi 13)
Zulhanif
Analisis Korelasi
Korelasi menyatakan keeratanhubungan antara suatu variabeldengan variabel lainnya.Korelasi dalam populasi biasadisimbolkan dengan ρ (rho)sedangkan dalam sampel disimbolkandengan r.
Korelasi menyatakan keeratanhubungan antara suatu variabeldengan variabel lainnya.Korelasi dalam populasi biasadisimbolkan dengan ρ (rho)sedangkan dalam sampel disimbolkandengan r.
Nilai Korelasi• Nilai korelasi -1 < r < 1• Nilai positif menyatakan hubungan yang
berbanding lurus• Nilai negatif menyatakan hubungan yang
berbanding terbalik• Nilai nol (0) berarti tidak ada hubungan• Semakin mendekati 1 (atau -1) berarti
semakin erat
• Nilai korelasi -1 < r < 1• Nilai positif menyatakan hubungan yang
berbanding lurus• Nilai negatif menyatakan hubungan yang
berbanding terbalik• Nilai nol (0) berarti tidak ada hubungan• Semakin mendekati 1 (atau -1) berarti
semakin erat
Jenis Korelasi• Korelasi sangat bergantung pada skala
pengukuran yang digunakan oleh data.• Korelasi Pearson digunakan untuk data
kontinu berskala minimal interval• Korelasi Spearman digunakan untuk data
diskrit atau kontinu• Korelasi Tau Kendall digunakan untuk data
berskala minimal ordinal
• Korelasi sangat bergantung pada skalapengukuran yang digunakan oleh data.
• Korelasi Pearson digunakan untuk datakontinu berskala minimal interval
• Korelasi Spearman digunakan untuk datadiskrit atau kontinu
• Korelasi Tau Kendall digunakan untuk databerskala minimal ordinal
Korelasi dalam R• cor(x, use=..., method=...)
– x adalah data yang akan dikorelasikan(berupa matriks atau data frame)
– use= (optional) adalah penanganan apabilaada data hilang
– method= (optional) menyatakan jeniskorelasi yang digunakan (pearson, spearmanatau kendall)
• cor(x, use=..., method=...)– x adalah data yang akan dikorelasikan
(berupa matriks atau data frame)– use= (optional) adalah penanganan apabila
ada data hilang– method= (optional) menyatakan jenis
korelasi yang digunakan (pearson, spearmanatau kendall)
Korelasi dalam R• cor(x, use=..., method=...)
– x adalah data yang akan dikorelasikan(berupa matriks atau data frame)
– use= (optional) adalah penanganan apabilaada data hilang
– method= (optional) menyatakan jeniskorelasi yang digunakan (pearson, spearmanatau kendall)
• cor(x, use=..., method=...)– x adalah data yang akan dikorelasikan
(berupa matriks atau data frame)– use= (optional) adalah penanganan apabila
ada data hilang– method= (optional) menyatakan jenis
korelasi yang digunakan (pearson, spearmanatau kendall)
Jenis Korelasi Lainnya• Polychoric digunakan apabila semua
variabel berskala ordinal• Polyserial digunakan apabila salah satu
variabel berskala ordinal sedangkanvariabel lainnya berskala interval
• Dalam R digunakan paket polychor.
• Polychoric digunakan apabila semuavariabel berskala ordinal
• Polyserial digunakan apabila salah satuvariabel berskala ordinal sedangkanvariabel lainnya berskala interval
• Dalam R digunakan paket polychor.
Pengujian Korelasi• Adakalanya nilai korelasi sampel perlu
diuji keberartiannya• Pengujian koefisien korelasi dalam R
menggunakan paket Hmisc dengan syntax:– rcorr(x, type=....)– x adalah matrix atau data frame– type= hanya untuk Pearson dan Spearman
• Adakalanya nilai korelasi sampel perludiuji keberartiannya
• Pengujian koefisien korelasi dalam Rmenggunakan paket Hmisc dengan syntax:
– rcorr(x, type=....)– x adalah matrix atau data frame– type= hanya untuk Pearson dan Spearman
Contoh 1Suatu studi dilakukan untuk melihathubungan waktu bangun (X) dengan tingkatkekeliruan dalam pekerjaan (Y). Diambilsampel sebanyak 10 orang dan diukurlamanya waktu bangun dan banyaknyamelakukan kesalahan, yang hasilnya sebagaiberikut
Suatu studi dilakukan untuk melihathubungan waktu bangun (X) dengan tingkatkekeliruan dalam pekerjaan (Y). Diambilsampel sebanyak 10 orang dan diukurlamanya waktu bangun dan banyaknyamelakukan kesalahan, yang hasilnya sebagaiberikut
Data Contoh 1X 8 8 12 12 16 16 20 20 24 24Y 8 6 6 10 8 14 14 12 16 12Berapa koefisien korelasinya?
X 8 8 12 12 16 16 20 20 24 24Y 8 6 6 10 8 14 14 12 16 12Berapa koefisien korelasinya?
n
ii
n
ii
n
iii
yyxx
yyxxr
1
2
1
2
1
)()(
))((
Penyelesaian• > x <- c(8, 8, 12, 12, 16, 16, 20, 20, 24, 24)• > y <- c(8, 6, 6, 10, 8, 14, 14, 12, 16, 12)• > plot (x,y)• > abline(lm(y~x), col=”red”)• > cor(x,y, method=”pearson”)• > library(Hmisc)• > rcorr(x,y, type=”pearson”)
• > x <- c(8, 8, 12, 12, 16, 16, 20, 20, 24, 24)• > y <- c(8, 6, 6, 10, 8, 14, 14, 12, 16, 12)• > plot (x,y)• > abline(lm(y~x), col=”red”)• > cor(x,y, method=”pearson”)• > library(Hmisc)• > rcorr(x,y, type=”pearson”)
Pengujian Koef Korelasi
Spearman
• X=c(106,86,100,101,99,103,97,113,112,110)• Y=c(7,0,27,50,28,29,20,12,6,17)
Contoh 2Seorang peneliti ingin melihat hubungan antara
tingkat pendidikan dengan status jabatanseseorang, yang hasilnya sebagai berikut:
Pendidikan 2 5 1 7 9 10 3 8Jabatan 5 7 8 1 3 6 2 4Berapa koefisien korelasinya?
Seorang peneliti ingin melihat hubungan antaratingkat pendidikan dengan status jabatanseseorang, yang hasilnya sebagai berikut:
Pendidikan 2 5 1 7 9 10 3 8Jabatan 5 7 8 1 3 6 2 4Berapa koefisien korelasinya?
Penyelesaian• > x <- c(2, 5, 1, 7, 9, 10, 3, 8)• > y <- c(5, 7, 8, 1, 3, 6, 2, 4)• > cor(x,y, method=”spearman”)• > cor(x,y, method=”kendall”)• > library(Hmisc)• > rcorr(x,y,type=”spearman”)
• > x <- c(2, 5, 1, 7, 9, 10, 3, 8)• > y <- c(5, 7, 8, 1, 3, 6, 2, 4)• > cor(x,y, method=”spearman”)• > cor(x,y, method=”kendall”)• > library(Hmisc)• > rcorr(x,y,type=”spearman”)
• x <- c(2, 5, 1, 7, 9, 10, 3, 8)• y <- c(5, 7, 8, 1, 3, 6, 2, 4)• cor(x,y, method="spearman")• cor(x,y, method="kendall")• library(Hmisc)• rcorr(x,y,type="pearson")• tsta=(−0.175757575)*(8^(0.5))/(1-
(−0.175757575)^2)^(0.5)• 2*pt(tsta,8)• qt(0.95,18)
• x <- c(2, 5, 1, 7, 9, 10, 3, 8)• y <- c(5, 7, 8, 1, 3, 6, 2, 4)• cor(x,y, method="spearman")• cor(x,y, method="kendall")• library(Hmisc)• rcorr(x,y,type="pearson")• tsta=(−0.175757575)*(8^(0.5))/(1-
(−0.175757575)^2)^(0.5)• 2*pt(tsta,8)• qt(0.95,18)
Tugas• Seorang peneliti tengah meneliti hubungan antara
biaya yang dikeluarkan untuk iklan (x) dengan nilaipenjualan (y), dikumpulkan data biaya iklan danhasil penjualan (halaman berikut)
– Bagaimanakah tingkat hubungan antarabiaya iklan dengan penjualan
– Apakah hubungan kedua variabel tersebutnyata.
• Seorang peneliti tengah meneliti hubungan antarabiaya yang dikeluarkan untuk iklan (x) dengan nilaipenjualan (y), dikumpulkan data biaya iklan danhasil penjualan (halaman berikut)
– Bagaimanakah tingkat hubungan antarabiaya iklan dengan penjualan
– Apakah hubungan kedua variabel tersebutnyata.
Data
No Biaya Hasil No Biaya Hasil
1 50 85 7 60 902 40 40 8 30 422 40 40 8 30 423 25 35 9 52 604 50 65 10 40 525 40 75 11 52 806 20 44 12 35 51
Analisis Regresi
Analisis Regresi adalah suatu analisisyang menyatakan hubungan
fungsional antara sebuah variabeltak bebas dengan satu atau lebih
variabel bebas
Analisis Regresi adalah suatu analisisyang menyatakan hubungan
fungsional antara sebuah variabeltak bebas dengan satu atau lebih
variabel bebas
Model Regresi
Yi = β0 + β1Xi + εi ; i = 1,2, ..., n
Yi adalah variabel tak bebasXi adalah variabel bebasβ0 adalah koefisien intersepβ1 adalah koefisien slopeεi adalah galat
Yi = β0 + β1Xi + εi ; i = 1,2, ..., n
Yi adalah variabel tak bebasXi adalah variabel bebasβ0 adalah koefisien intersepβ1 adalah koefisien slopeεi adalah galat
Contoh• Data berikut menggambarkan hasil
pengamatan mengenai banyak orang yangdatang (X) dan banyak orang yang berbelanja(Y) disebuah toko selama 30 hari. (Sudjana,2002)
• Asumsi antar pengamatan saling bebas• Data dapat diunduh pada e-learning statistika
dengan nama file “toko.csv”
• Data berikut menggambarkan hasilpengamatan mengenai banyak orang yangdatang (X) dan banyak orang yang berbelanja(Y) disebuah toko selama 30 hari. (Sudjana,2002)
• Asumsi antar pengamatan saling bebas• Data dapat diunduh pada e-learning statistika
dengan nama file “toko.csv”
Plot Data
Plot data untuk model regresimenggunakan diagram pencar(scatterplot) antara variabel bebas(X) pada sumbu horizontal danvariabel tak bebas (Y) pada sumbuvertikal.
Plot data untuk model regresimenggunakan diagram pencar(scatterplot) antara variabel bebas(X) pada sumbu horizontal danvariabel tak bebas (Y) pada sumbuvertikal.
Plot Data dalam R• Gunakan perintah “plot”
> plot(x,y, pch=20)• Tambahkan baris berikut untuk membuat
garis regresinya• > abline(lm(y~x),col="red")
• Gunakan perintah “plot”> plot(x,y, pch=20)
• Tambahkan baris berikut untuk membuatgaris regresinya
• > abline(lm(y~x),col="red")
Plot Data
Statistik Deskriptif• Beberapa statistik yang diperlukan dalam
analisis regresi adalah• Jumlah X dan Y• Jumlah kuadrat X dan Y• Jumlah XY• Rata-rata X dan Y
• Beberapa statistik yang diperlukan dalamanalisis regresi adalah
• Jumlah X dan Y• Jumlah kuadrat X dan Y• Jumlah XY• Rata-rata X dan Y
Statistik Deskriptif dalam R• > sum(x);sum(y)
[1] 1105[1] 1001
• > sum(x^2);sum(y^2)[1] 41029[1] 33599
• > sum(x*y)[1] 37094
• > mean(x);mean(y)[1] 36.83333
• [1] 33.36667
• > sum(x);sum(y)[1] 1105[1] 1001
• > sum(x^2);sum(y^2)[1] 41029[1] 33599
• > sum(x*y)[1] 37094
• > mean(x);mean(y)[1] 36.83333
• [1] 33.36667
• b1=(sum(X*Y)-(sum(X)*sum(Y)/length(X)))/(sum(X^2)-(sum(X))^2/length(X))
• b0=mean(Y)-b1*mean(X)
• b1=(sum(X*Y)-(sum(X)*sum(Y)/length(X)))/(sum(X^2)-(sum(X))^2/length(X))
• b0=mean(Y)-b1*mean(X)
Taksiran Koefisien Regresi• Koefisien Regresi dapat ditaksir menggunakan
rumus sehingga diperoleh nilai koefisienintersep dan arah (slope)
• Nilai taksiran ini dapat digunakan untukmenghitung nilai prediksi bagi Y.
• Koefisien intersep menyatakan nilai Y pada X= 0 (rata-rata Y)
• Koefisien arah (slope) menyatakanpenambahan (+) atau penurunan (-) nilai Y
• Koefisien Regresi dapat ditaksir menggunakanrumus sehingga diperoleh nilai koefisienintersep dan arah (slope)
• Nilai taksiran ini dapat digunakan untukmenghitung nilai prediksi bagi Y.
• Koefisien intersep menyatakan nilai Y pada X= 0 (rata-rata Y)
• Koefisien arah (slope) menyatakanpenambahan (+) atau penurunan (-) nilai Y
Menghitung Taksiran Regresi• > lm(y~x, toko)• Call:• lm(formula = y ~ x, data = toko)
• Coefficients:• (Intercept) x• 8.2437 0.6821
• > lm(y~x, toko)• Call:• lm(formula = y ~ x, data = toko)
• Coefficients:• (Intercept) x• 8.2437 0.6821
Galat Baku Penaksir• Galat baku penaksir (standard error)
adalah akar kuadrat varians sampling daripenaksir koefisien regresi
• Galat baku ini digunakan untuk pengujianhipotesis keberartian koefisien regresi
• Galat baku penaksir (standard error)adalah akar kuadrat varians sampling daripenaksir koefisien regresi
• Galat baku ini digunakan untuk pengujianhipotesis keberartian koefisien regresi
Pengujian Koefisien Regresi• Koefisien regresi yang sudah ditaksir perlu
diuji keberartiannya• Untuk koefisien intersep pengujian
memberikan arti apakah garis regresi melewatititik pusat (0,0)
• Untuk koefisien arah (slope) pengujian untukmelihat apakah variabel bebas mempunyaipengaruh terhadap variabel tak bebas
• Koefisien regresi yang sudah ditaksir perludiuji keberartiannya
• Untuk koefisien intersep pengujianmemberikan arti apakah garis regresi melewatititik pusat (0,0)
• Untuk koefisien arah (slope) pengujian untukmelihat apakah variabel bebas mempunyaipengaruh terhadap variabel tak bebas
Hasil Pengujian• > fit<-lm(y~x, toko)• > summary(fit)• Call:• lm(formula = y ~ x, data = toko)• Residuals:• Min 1Q Median 3Q Max• -2.7983 -0.7303 0.2017 0.8954 2.4734
• > fit<-lm(y~x, toko)• > summary(fit)• Call:• lm(formula = y ~ x, data = toko)• Residuals:• Min 1Q Median 3Q Max• -2.7983 -0.7303 0.2017 0.8954 2.4734
Hasil Pengujian• Coefficients:• Estimate Std. Error t value Pr(>|t|)• (Intercept) 8.24368 2.62501 3.140 0.00396 **• x 0.68207 0.07098 9.609 2.30e-10 ***
• Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1• Residual standard error: 1.286 on 28 degrees of freedom• Multiple R-squared: 0.7673, Adjusted R-squared: 0.759• F-statistic: 92.34 on 1 and 28 DF, p
• Coefficients:• Estimate Std. Error t value Pr(>|t|)• (Intercept) 8.24368 2.62501 3.140 0.00396 **• x 0.68207 0.07098 9.609 2.30e-10 ***
• Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1• Residual standard error: 1.286 on 28 degrees of freedom• Multiple R-squared: 0.7673, Adjusted R-squared: 0.759• F-statistic: 92.34 on 1 and 28 DF, p
Analisis Varians• Digunakan untuk menguji independensi
antara variabel bebas (X) denganVariabel tak bebas (Y)
• Dari Analisis varians dapat puladihitung koefisien determinasi yangmenyatakan fit tidaknya model yangditentukan.
• Digunakan untuk menguji independensiantara variabel bebas (X) denganVariabel tak bebas (Y)
• Dari Analisis varians dapat puladihitung koefisien determinasi yangmenyatakan fit tidaknya model yangditentukan.
Analisis Varians• > anova(fit)• Analysis of Variance Table
• Response: y• Df Sum Sq Mean Sq F value Pr(>F)• x 1 152.670 152.670 92.335 2.304e-10 ***• Res 28 46.296 1.653• ---• Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
• > anova(fit)• Analysis of Variance Table
• Response: y• Df Sum Sq Mean Sq F value Pr(>F)• x 1 152.670 152.670 92.335 2.304e-10 ***• Res 28 46.296 1.653• ---• Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Latihan• Suatu telaah dilakukan untuk mengevaluasi
sejauh mana pengaruh biaya yang dikeluarkanuntuk iklan terhadap hasil penjualan, dikumpulkandata biaya iklan dan hasil penjualan (halamanberikut)
• Jika diasumsikan hubungan antara biaya iklandengan hasil penjualan dapat dinyatakan sebagaipersamaan linier sederhana, dugalah persamaangaris tersebut apakah biaya iklan memberikanpengaruh yang nyata terhadap hasil penjualan
• Suatu telaah dilakukan untuk mengevaluasisejauh mana pengaruh biaya yang dikeluarkanuntuk iklan terhadap hasil penjualan, dikumpulkandata biaya iklan dan hasil penjualan (halamanberikut)
• Jika diasumsikan hubungan antara biaya iklandengan hasil penjualan dapat dinyatakan sebagaipersamaan linier sederhana, dugalah persamaangaris tersebut apakah biaya iklan memberikanpengaruh yang nyata terhadap hasil penjualan