Bab 5_ Analisis Diskriminan Analisis Diskriminan Adalah Teknik Statistik Yang Tepat Ketika

24/9/2015 Bab 5: Analisis Diskriminan Analisis Diskriminan Adalah teknik statistik Yang Tepat ketika

https://translate.googleusercontent.com/translate_f 1/30

Halaman 1

Bab 5: Analisis diskriminan

Analisis diskriminan adalah teknik statistik yang tepat ketika

variabel dependen adalah kategori dan variabel independen

adalah kuantitatif. Dalam banyak kasus, variabel dependen terdiri dari

dua kelompok atau klasifikasi, misalnya, lakilaki dibandingkan perempuan,

risiko kredit tinggi dibandingkan rendah atau baik versus risiko kredit yang buruk. Di lain

contoh, lebih dari dua kelompok yang terlibat, seperti tiga sebuah

kelompok klasifikasi yang melibatkan rendah, sedang dan tinggi

klasifikasi.

T

u

j

u

a

n

d

a

s

a

r

d

a

r

i

a

n

a

l

i

s

i

s

d

i

s

k

r

i

m

i

n

a

n

a

d

a

l

a

h

u

n

t

u

k

m

e

m

p

e

r

k

i

r

a

k

a

n

h

u

b

u

n

g

a

n

a

n

t

a

r

a

s

a

t

u

v

a

r

i

a

b

e

l

d

e

p

e

n

d

e

n

d

a

n

k

a

t

e

g

o

r

i

s

seperangkat variabel independen kuantitatif.

A

n

a

l

i

s

i

s

d

i

s

k

r

i

m

i

n

a

n

m

e

m

i

l

i

k

i

a

p

l

i

k

a

s

i

l

u

a

s

d

a

l

a

m

s

i

t

u

a

s

i

d

i

m

a

n

a

t

u

j

u

a

n

u

t

a

m

a

a

d

a

l

a

h

m

e

n

g

i

d

e

n

t

i

f

i

k

a

s

i

k

e

l

o

m

p

o

k

m

a

n

a

y

a

n

g

o

b

j

e

k

(

m

i

s

a

l

n

y

a

.

o

r

a

n

g

,

p

e

r

u

s

a

h

a

a

n

a

t

a

u

p

r

o

d

u

k

)

m

i

l

i

k

.

P

o

t

e

n

s

i

a

p

l

i

k

a

s

i

t

e

r

m

a

s

u

k

m

e

m

p

r

e

d

i

k

s

i

k

e

b

e

r

h

a

s

i

l

a

n

a

t

a

u

k

e

g

a

g

a

l

a

n

p

r

o

d

u

k

b

a

r

u

,

m

e

m

u

t

u

s

k

a

n

a

p

a

k

a

h

s

e

o

r

a

n

g

s

i

s

w

a

h

a

r

u

s

d

i

r

a

w

a

t

l

u

l

u

s

s

e

k

o

l

a

h

,

m

e

n

g

k

l

a

s

i

f

i

k

a

s

i

k

a

n

s

i

s

w

a

u

n

t

u

k

k

e

p

e

n

t

i

n

g

a

n

k

e

j

u

r

u

a

n

,

m

e

n

e

n

t

u

k

a

n

a

p

a

k

a

t

e

g

o

r

i

r

i

s

i

k

o

k

r

e

d

i

t

s

e

s

e

o

r

a

n

g

j

a

t

u

h

k

e

d

a

l

a

m

a

t

a

u

m

e

m

p

r

e

d

i

k

s

i

a

p

a

k

a

h

p

e

r

u

s

a

h

a

a

n

a

k

a

n

s

u

k

s

e

s

a

t

a

u

t

i

d

a

k

.

A

n

a

l

i

s

i

s

d

i

s

k

r

i

m

i

n

a

n

m

a

m

p

u

m

e

n

a

n

g

a

n

i

b

a

i

k

d

u

a

k

e

l

o

m

p

o

k

a

t

a

u

b

e

b

e

r

a

p

a

k

e

l

o

m

p

o

k

.

K

e

t

i

k

a

t

i

g

a

a

t

a

u

l

e

b

i

h

k

l

a

s

i

f

i

k

a

s

i

d

i

i

d

e

n

t

i

f

i

k

a

s

i

,

T

e

k

n

i

k

i

n

i

d

i

s

e

b

u

t

a

n

a

l

i

s

i

s

d

i

s

k

r

i

m

i

n

a

n

s

e

b

a

g

a

i

b

e

b

e

r

a

p

a



(MDA).

Analisis diskriminan melibatkan berasal variate sebuah, linier

kombinasi dari dua (atau lebih) variabel independen yang akan

diskriminasi terbaik antara kelompok didefinisikan. Kombinasi linear

untuk analisis diskriminan, juga dikenal sebagai diskriminan yang

fungsi, berasal dari sebuah persamaan yang mengambil berikut untuk

m:

7 5

Halaman 2

Z = W 1x 1 + W 2x 2 + W 3x 3 + ... + W nxn

di mana:

Z = nilai diskriminan

W i = Berat diskriminan untuk variabel i

x i = Independen variabel i

Analisis diskriminan adalah teknik statistik yang sesuai untuk

menguji hipotesis bahwa kelompok berarti dari satu set independen

variabel untuk dua atau lebih kelompok yang sama. Berarti kelompok ini adalah

disebut sebagai pusat massa a. Centroids menunjukkan paling khas

lokasi dari setiap individu dari kelompok tertentu, dan

perbandingan centroid kelompok menunjukkan seberapa jauh kelompok

di sepanjang dimensi yang diuji.

Sebuah situasi di mana ada tiga kelompok (1, 2 dan 3) dan dua

variabel independen (X 1, Dan X 2) Diplot di bawah ini.



Tes untuk signifikansi statistik dari fungsi diskriminan

adalah ukuran umum dari jarak antara kelompok

centroid. Jika tumpang tindih dalam distribusi kecil,

7 6

Halaman 3

Fungsi diskriminan memisahkan kelompok dengan baik. Jika tumpang tindih adalah

besar, fungsi adalah diskriminator miskin antara kelompok.

Beberapa analisis diskriminan adalah unik dalam satu karakteristik

antara hubungan ketergantungan kita akan mempelajari. jika ada

lebih dari dua kelompok dalam variabel dependen, diskriminan

analisis akan menghitung lebih dari satu fungsi diskriminan.

Faktanya, itu akan menghitung NG1 fungsi, di mana NG adalah

jumlah kelompok.

Langkah 1: Tujuan Of Analisis diskriminan

Analisis diskriminan dapat mengatasi salah satu penelitian berikut

pertanyaan:



· Menentukan apakah perbedaan yang signifikan secara statistik

ada antara profil Ratarata pada set variabel untuk dua (atau

lebih) didefinisikan kelompok.

· Menentukan mana dari variabel independen account

kebanyakan untuk perbedaan dalam profil Ratarata dari

dua atau lebih kelompok.

· Menetapkan prosedur untuk mengklasifikasikan unit

statistik (individu atau objek) ke dalam kelompok atas

dasar mereka skor pada satu set variabel independen.

· Menetapkan jumlah dan komposisi dimensi

diskriminasi antara kelompok yang terbentuk dari himpunan

variabel independen.

HATCO Contoh

Salah satu karakteristik pelanggan yang diperoleh HATCO di dalamnya

survei adalah variabel kategoris (X 11) Yang menunjukkan

membeli mendekati sebuah perusahaan yang digunakan: Jumlah analisis nilai (X 11 = 1)

dibandingkan spesifikasi pembelian (X 11 = 0). Tim manajemen HATCO

7 7

Halaman 4

mengharapkan bahwa perusahaan menggunakan dua pendekatan ini akan

menekankan karakteristik yang berbeda dari pemasok dalam keputusan pemilihan

mereka.

Tujuannya adalah untuk mengidentifikasi persepsi HATCO (X 1 untuk X7)

yang berbeda secara signifikan antara perusahaan dengan menggunakan dua

pembelian metode. Perusahaan kemudian akan mampu menyesuaikan penjualan

presentasi dan keuntungan yang ditawarkan untuk mencocokkan terbaik

pembeli persepsi.



Langkah 2: Desain Penelitian untuk Analisis diskriminan

Jumlah kelompok variabel dependen (kategori) bisa dua

atau lebih, tetapi kelompokkelompok ini harus saling eksklusif dan

lengkap.

Ketika tiga atau lebih kategori diciptakan, kemungkinan timbul dari

memeriksa hanya kelompok ekstrim dalam diskriminan dua

kelompok analisis. Prosedur ini disebut pendekatan polarekstrem.

Hal ini melibatkan membandingkan hanya dua kelompok ekstrim

dan termasuk kelompok menengah dari analisis diskriminan.

Pendekatan polarekstrem mungkin berguna jika kita memiliki tiga kelompok

peminum cola: ringan, sedang dan berat dan ada

tumpang tindih antara tiga kategori. Kami mungkin tidak

dapat dengan jelas membedakan antara tiga kelompok, tetapi

perbedaan antara pengguna ringan dan berat mungkin lebih

diucapkan.

Variabel independen biasanya dipilih dalam dua cara: baik dari penelitian atau

dari intuisi sebelumnya memilih variabel yang ada penelitian sebelumnya atau

teori ada tapi itu mungkin secara logis menjadi terkait dengan memprediksi

kelompok untuk variabel dependen.

Analisis diskriminan cukup sensitif terhadap rasio ukuran sampel

untuk jumlah variabel prediktor. Banyak studi menunjukkan rasio

7 8

Halaman 5

dari 20 observasi untuk setiap variabel prediktor, meskipun kehendak ini

sering menjadi tidak bisa diraih. Minimal sekalipun, kelompok terkecil

Ukuran harus melebihi jumlah variabel independen.



Banyak kali sampel dibagi menjadi dua Subsamples, yang

digunakan untuk estimasi fungsi diskriminan (sampel analisis) dan

satu lagi untuk keperluan validasi (sampel ketidaksepakatan). Ini

metode memvalidasi fungsi ini disebut sebagai splitsampel atau

pendekatan crossvalidasi.

Tidak ada pedoman yang pasti telah dibentuk untuk membagi

sampel dalam analisis dan ketidaksepakatan kelompok. Yang paling populer

Prosedur adalah untuk membagi total kelompok sehingga satusetengah dari

responden ditempatkan dalam sampel analisis dan setengah lainnya adalah

ditempatkan dalam sampel ketidaksepakatan. Beberapa peneliti lebih memilih 6040 atau

7525 membagi namun.

Ketika memilih individu untuk analisis dan ketidaksepakatan kelompok,

satu biasanya mengikuti sampling secara proporsional stratified prosedur,

yaitu. jika sampel terdiri dari 40 lakilaki dan 60 perempuan, sampel

ketidaksepakatan harus terdiri dari 20 lakilaki dan 30 perempuan.

Jika ukuran sampel tidak cukup besar untuk membagi dengan cara ini (jika n <100)

maka salah satu kompromi akan mengembangkan fungsi pada

seluruh sampel dan kemudian gunakan fungsi untuk mengklasifikasikan kelompok yang sama

digunakan untuk mengembangkan fungsi. Hal ini memberikan gambaran meningkat dari

akurasi prediksi fungsi meskipun.

Contoh (HATCO, lanjutan)

Analisis diskriminan akan menggunakan pertama tujuh variabel dari

database (X untuk X ) Untuk membedakan antara perusahaan menerapkan1 7

setiap metode pembelian (X 11). Juga, sampel 100

pengamatan memenuhi ukuran minimum yang disarankan dan menyediakan 15-

to1 rasio pengamatan untuk variabel independen.

7 9



Halaman 6

K

i

t

a

d

a

p

a

t

m

e

m

b

a

g

i

u

k

u

r

a

n

s

a

m

p

e

l

d

a

r

i

1

0

0

m

e

n

j

a

d

i

s

a

m

p

e

l

a

n

a

l

i

s

i

s

6

0

o

b

j

e

k

d

a

n

s

a

m

p

e

l

k

e

t

i

d

a

k

s

e

p

a

k

a

t

a

n

d

a

r

i

4

0

o

b

j

e

k

.

K

a

m

i

j

u

g

a

h

a

r

u

s

m

e

m

b

u

a

t

y

a

k

i

n

b

a

h

w

a

k

i

t

a

m

e

m

b

a

g

i

t

o

t

a

l

s

a

m

p

e

l

m

e

n

g

g

u

n

a

k

a

n

p

r

o

p

o

r

s

i

o

n

a

l

s

t

r

a

t

i

f

i

e

d

s

a

m

p

e

l

p

r

o

s

e

d

u

r

,

m

e

s

k

i

p

u

n

k

a

m

i

h

a

r

u

s

m

e

m

a

s

t

i

k

a

n

b

a

h

w

a

p

e

r

p

e

c

a

h

a

n

a

d

a

l

a

h

d

i

l

a

k

u

k

a

n

s

e

c

a

r

a

a

c

a

k

u

n

t

u

k

m

e

n

i

a

d

a

k

a

n

b

i

a

s

m

u

n

g

k

i

n

d

a

l

a

m

p

e

m

e

s

a

n

a

n

d

a

t

a

k

a

m

i

.

Langkah 3: Asumsi Analisis

diskriminan

Asumsi utama untuk menurunkan fungsi diskriminan yang

normalitas multivariat dari variabel independen dan tidak diketahui

(tapi sama) dispersi dan

kovarians matriks untuk kelompok. Data

tidak memenuhi asumsi normalitas multivariat yang dapat menyebabkan

masalah dalam estimasi fungsi diskriminan. Oleh karena itu,

disarankan agar regresi logistik digunakan sebagai alternatif

teknik, jika memungkinkan.

Matriks kovarians yang tidak sama dapat mempengaruhi klasifikasi

proses.

Jika ukuran sampel kecil dan matriks kovarians

tidak sama, maka signifikansi statistik dari estimasi

proses terpengaruh. Tapi yang lebih mungkin adalah kasus

covariance

s tidak setara antara kelompok ukuran sampel yang memadai,

dimana pengamatan "overclassified" ke dalam kelompok-kelompok dengan

matriks kovarians yang lebih besar.

K

a

r

a

k

t

e

r

i

s

t

i

k

l

a

i

n

d

a

r

i

d

a

t

a

y

a

n

g

d

a

p

a

t

m

e

m

p

e

n

g

a

r

u

h

i

h

a

s

i

l

a

d

a

l

a

h

m

u

l

t

i

k

o

l

i

n

e

a

r

i

t

a

s

a

n

t

a

r

a

v

a

r

i

a

b

e

l

i

n

d

e

p

e

n

d

e

n

.

A

k

h

i

r

n

y

a

,

a

s

u

m

s

i

i

m

p

l

i

s

i

t

a

d

a

l

a

h

b

a

h

w

a

s

e

m

u

a

h

u

b

u

n

g

a

n

y

a

n

g

l

i

n

i

e

r

.

N

o

n

l

i

n

i

e

r

h

u

b

u

n

g

a

n

t

i

d

a

k

t

e

r

c

e

r

m

i

n

d

a

l

a

m

f

u

n

g

s

i

d

i

s

k

r

i

m

i

n

a

n

k

e

c

u

a

l

i

t

r

a

n

s

f

o

r

m

a

s

i

v

a

r

i

a

b

e

l

t

e

r

t

e

n

t

u

y

a

n

g

d

i

b

u

a

t

u

n

t

u

k

m

e

w

a

k

i

l

i

n

o

n

l

i

n

e

a

r

e

f

e

k

.

Contoh (HATCO lanjutan)


80


Halaman 7

P

e

m

e

r

i

k

s

a

a

n

k

a

m

i

s

e

b

e

l

u

m

n

y

a

d

a

r

i

k

u

m

p

u

l

a

n

d

a

t

a

H

A

T

C

O

m

e

n

u

n

j

u

k

k

a

n

t

i

d

a

k

a

d

a

m

a

s

a

l

a

h

d

e

n

g

a

n

m

u

l

t

i

k

o

l

i

n

e

a

r

i

t

a

s

,

d

a

n

t

e

s

p

a

d

a

a

s

u

m

s

i

normalitas juga dilakukan pada Bab 2. Tidak ada

bukti yang cukup untuk menghentik

an kita melanjutkan dengan analisis kami.

L

a

n

g

k

a

h

4

:

E

s

t

i

m

a

s

i

O

f

T

h

e

d

i

s

k

r

i

m

i

n

a

n

F

u

n

g

s

i

d

a

n

P

e

n

i

l

a

i

a

n

O

f

K

e

s

e

l

u

r

u

h

a

n

F

i

t

Estimasi simultan melibatkan komputasi diskriminan yang

fungsi sehingga semua variabel independen dianggap

bersamaan. Dengan demikian fungsi diskriminan dihitung berdasarkan

seluruh

himpunan variabel independen, terlepas dari

membedakan kekuatan masing-masing variabel independen. The

Metode simultan sesuai ketika, untuk alasan teoritis,

analis ingin memasukkan semua variabel independen dalam

analisis dan tidak tertarik melihat

hasil antara berdasarkan

hanya pada variabel paling diskriminatif.

Estimasi bertahap adalah sebuah alternatif untuk simultan

Pendekatan. Ini melibatkan memasukkan variabel independen ke dalam

Fungsi diskriminan satu per satu atas dasar mereka

daya diskriminatif. Prosedur bertahap dimulai dengan memilih

yang terbaik variabel diskriminatif tunggal. Variabel awal kemudian

dipasangkan dengan masing-masing variabel independen lainnya satu per satu,

dan variabel yang paling mampu meningkatk

an diskriminatif yang

kekuatan fungsi dalam kombinasi dengan variabel pertama adalah

dipilih. Akhirnya, baik semua variabel independen akan menjadi

termasuk dalam fungsi atau variabel dikeluarkan akan menjadi



dinilai sebagai tidak memberikan kontribusi signifikan terhadap diskriminasi lanjut.

Mengurangi set variabel biasanya hampir sama baiknya, dan

kadangkadang lebih baik daripada, set lengkap variabel. Wilks '

lambda, Hotelling jejak dan kriteria Pilliai sepanjang mengevaluasi

signifikansi statistik dari kekuatan diskriminatif dari

8 1

Halaman 8

fungsi diskriminan (s). Roy karakteristik akar terbesar

mengevaluasi hanya fungsi diskriminan pertama.

Menilai keseluruhan Fit

Seperti dibahas sebelumnya, Z skor diskriminan dari diskriminan

setiap Fungsi dapat dihitung untuk setiap pengamatan oleh berikut

rumus:

Z jk = A + W 1x 1k + W 2x 2k + ... + W xn n k

dimana

Z jk = Z skor diskriminan dari

diskriminan fungsi j untuk objek

k a = intercept

W i = Koefisien diskriminan untuk independen

variabel i

x ik = Variabel independen i untuk objek k

Skor ini menyediakan sarana langsung membandingkan pengamatan pada

masingmasing fungsi. Uji statistik untuk menilai signifikansi

fungsi diskriminan tidak memberitahu seberapa baik fungsi

memprediksi. Kami mungkin memiliki kelompok sarana yang hampir identik,

tapi menemukan hasil yang signifikan karena ukuran sampel itu besar. Untuk

menentukan akurasi prediksi dari fungsi diskriminan, yang



Analis harus membangun matriks klasifikasi.

Sebuah matriks klasifikasi adalah matriks yang berisi nomor yang mengungkapkan

kemampuan prediksi dari fungsi diskriminan. Angkaangka pada

diagonal dari matriks merupakan jumlah yang benar

klasifikasi, dengan nomor offdiagonal mewakili

misclassifications.

Sebelum matriks klasifikasi dapat dibangun, namun,

Analis harus menentukan kelompok untuk menetapkan masingmasing individu. Jika

kita memiliki dua kelompok (A dan B) dan fungsi diskriminan untuk setiap

8 2

Halaman 9

kelompok (ZSEBUAHdan Z B) Kami akan menetapkan setiap individu ke dalam kelompok pada

yang memiliki skor diskriminan lebih tinggi.

Solusi optimal juga harus mempertimbangkan biaya misclassifying

seorang individu ke dalam kelompok yang salah. Jika biaya misclassifying

seorang individu yang kurang lebih sama, solusi optimal akan

salah satu yang akan misclassify jumlah paling sedikit individu dalam

masingmasing kelompok. Jika biaya kesalahan klasifikasi tidak sama, yang optimum

solusi akan menjadi salah satu yang meminimalkan biaya

kesalahan klasifikasi.

Jika analis tidak yakin jika proporsi diamati dalam sampel

adalah wakil dari proporsi populasi, maka sama

probabilitas harus digunakan. Namun, jika sampel adalah

acak diambil dari populasi sehingga kelompok yang memperkirakan

proporsi penduduk di masingmasing kelompok, maka perkiraan terbaik

Kelompok yang sebenarnya ukuran dan probabilitas sebelumnya tidak nilai yang sama



tapi, sebaliknya, proporsi sampel.

Untuk memvalidasi fungsi diskriminan melalui penggunaan

matriks klasifikasi, sampel seharusnya secara acak

dibagi menjadi dua kelompok. Salah satu kelompok (sampel analisis) adalah

digunakan untuk menghitung fungsi diskriminan. Kelompok yang lain (yang

ketidaksepakatan, atau sampel validasi) dipertahankan untuk digunakan dalam mengembangkan

matriks klasifikasi. Prosedur ini melibatkan mengalikan

bobot yang dihasilkan oleh analisis sampel dengan variabel baku

pengukuran sampel ketidaksepakatan. Kemudian individu

skor diskriminan untuk sampel ketidaksepakatan dihitung dan setiap

individu ditugaskan untuk kelompok yang memiliki lebih tinggi

skor diskriminan.

Sebuah uji statistik untuk kekuatan diskriminatif klasifikasi

matriks Press Q statistik. Ukuran sederhana ini membandingkan

jumlah klasifikasi yang benar dengan total ukuran sampel dan

jumlah kelompok. Nilai dihitung kemudian dibandingkan dengan

8 3

Halaman 10

nilai kritis dari distribusi ChiSquare dengan 1 derajat

kebebasan. Jika nilai ini melebihi nilai kritis ini, klasifikasi

matriks dapat dianggap statistik lebih baik dari kesempatan. Q

statistik dihitung dengan rumus berikut:

Press Q = [N (nK)] 2

N (K 1)

di mana N = ukuran total sampel

n = jumlah observasi diklasifikasikan dengan

benar K = jumlah kelompok


Variabel x = 0 X11

x 1, Kecepatan Pengiriman 2,712 4,3343

x 2, Tingkat Harga 3,108 1,7686

x 3, Harga Fleksibilitas 6.800 8,8429

x 4, Mnufctrer Gambar 5,168 5,2829

x 5, Jasa 2,884 3,0143

x 6, Salesforce Gambar 2,564 2,7200

= 1 Fnilai Signifikansi11

36,53 <0,0001

22.95 <0,0001

76,99 <0,0001

0,15 0,7044

0.41 0,5226

0.52 0,4730


Satu harus berhatihati dalam penarikan kesimpulan hanya berdasarkan ini

statistik, namun, karena sebagai ukuran sampel menjadi lebih besar,

tingkat klasifikasi yang lebih rendah akan dianggap signifikan.

Contoh (HATCO lanjutan)

Pertama kita akan memeriksa kelompok berarti untuk masingmasing

variabel independen berdasarkan 60 pengamatan yang merupakan

analisis sampel. Perbandingan kelompok berarti dilakukan di

tabel di bawah ini:

x 7, Kualitas Produk 8,276 6,0172 51.95 <0,0001

Karena tujuan dari analisis ini adalah untuk menentukan

variabel yang paling efisien dalam membedakan antara perusahaan

menggunakan dua pendekatan pembelian, prosedur stepwise digunakan.

8 4

Halaman 11

Langkah pertama yang direkomendasikan adalah untuk menganalisis perbedaan dalam kelompok

berarti, antara berbagai tingkat variabel dependen, dan

menentukan apakah setiap variabel dapat dikecualikan di awal. ini

direkomendasikan bahwa variabel setiap yang memiliki nilai F kurang dari 1

harus turun dari pertimbangan segera. Sepertinya



variabel X 4, X 5 dan X 6 tidak memiliki dampak pada X 11 dan menggunakanmereka hanya akan memperumit analisis kami tidak perlu.

Langkah selanjutnya adalah dengan menggunakan variabel kita yang tersisa (1, X 2, X 3 dan X 7)

dalam prosedur bertahap. SAS tidak melakukan prosedur ini di

analisis diskriminan, meskipun tidak butuh waktu lama untuk melakukan

iterasi secara terpisah di SAS. Setelah memasukkan semua empat dari kami

variabel penjelas secara individual, X 3 melakukan pekerjaan terbaik dari setiap

variabel tunggal dalam diskriminatif. Pencocokan X 3 dengan X 1, X 2 dan X 7

individual, kita menemukan bahwa kombinasi dari X 3 dan X 7 karya

terbaik. Kami tidak dapat menemukan perbaikan substansial setelah itu.

Tampak bahwa solusi yang menggunakan hanya X 3 dan X 7 sebagai penjelas

variabel akan menawarkan diskriminasi terbaik antara kelompok.

Dalam sampel analisis 60 pengamatan, kita tahu bahwa

variabel dependen terdiri dari dua kelompok, 25 perusahaan mengikuti

Pendekatan membeli spesifikasi dan 35 perusahaan yang tersisa menggunakan

metode analisis total nilai. Sejak sampel kami perusahaan adalah

secara acak, kita dapat yakin bahwa sampel ini tidak

mencerminkan proporsi populasi. Dengan demikian, analisis diskriminan ini

menggunakan proporsi sampel untuk menentukan probabilitas sebelumnya

untuk tujuan klasifikasi.

Nilainilai X 3 dan X 7 bagi individu 1 yang dipasang ke

fungsi klasifikasi untuk masingmasing (2) kelompok, dan

individu diklasifikasikan ke dalam kelompok yang menghasilkan lebih

tinggi nilai. Prosedur ini diulang untuk semua 60 pengamatan.

8 5

Halaman 12



Matriks klasifikasi kami untuk sampel analisis kami diwakili

bawah:

Tergolong 0

Kelompok yang sebenarnya

0 1 Total

23 2 25

ke 1 2 33 35

Total 25 35 60

Press Q = [60sampel analisis

(56 x 2)] 2 = 45,067

60 x (2 1)

yang lebih besar dari nilai kritis kami 6.63. Oleh karena itu kami

Hasil melebihi akurasi klasifikasi diharapkan secara kebetulan

pada tingkat signifikan secara statistik. Karena ini dihitung dari

kami sampel analisis meskipun, kita akan diharapkan ini menjadi

kasus.

Langkah berikutnya adalah untuk melihat apakah sampel ketidaksepakatan kami melakukan juga.

The matriks klasifikasi untuk sampel ini diwakili berikut:

Kelompok yang sebenarnya

0 1 Total

Tergolong 0 13 6 19

ke 1 2 19 21

Total 15 25 40

Press Q = [40 (32 x 2)] 2 = 14,4sampel ketidaksepakatan

40 x (2 1)

yang juga lebih besar dari nilai kritis kami 6.63. Oleh karena itu kami

hasil masih melebihi akurasi klasifikasi diharapkan secara kebetulan

pada tingkat signifikan secara statistik.


86


Halaman 13

Peneliti harus ingat untuk selalu berhati-hati dalam

p

e

n

e

r

a

p

a

n

s

a

m

p

e

l

k

e

t

i

d

a

k

s

e

p

a

k

a

t

a

n

d

e

n

g

a

n

s

e

t

d

a

t

a

k

e

c

i

l

.

P

a

d

a

k

a

s

u

s

i

n

i

u

k

u

r

a

n

s

a

m

p

e

l

k

e

c

i

l

d

a

r

i

4

0

u

n

t

u

k

s

a

m

p

e

l

k

e

t

i

d

a

k

s

e

p

a

k

a

t

a

n

m

e

m

a

d

a

i

,

t

e

t

a

p

i

u

k

u

r

a

n

y

a

n

g

l

e

b

i

h

b

e

s

a

r

s

e

l

a

l

u

l

e

b

i

h

d

i

i

n

g

i

n

k

a

n

.

Misclassifications

Salah satu langkah penting setelah menyelesaikan klasifikasi

Prosedur adalah untuk memeriksa setiap misclassifications. Dari pemeriksaan

output, kita dapat melihat bahwa pengamatan 7 dan 13 benar-benar di

Kelompok 0 (spesifikasi beli) tetapi diperkirakan

berada di grup 1

(Total analisis nilai). Sebaliknya berlaku untuk pengamatan 35 dan

58, yang diperkirakan berada di kelompok 0 tapi benarbenar di

kelompok 1.

Setelah kasus kesalahan klasifikasi diidentifikasi, analisis lebih lanjut dapat

dilakukan untuk memahami alasan untuk kesalahan klasifikasi mereka. Kita

dapat menggabungkan kasus kami kesalahan klasifikasi dari kedua analisis dan

sampel ketidaksepakatan dan kemudian dibandingkan dengan kasus diklasifikasikan dengan benar.

Upaya ini adalah untuk mengidentifikasi perbedaan tertentu pada independen

variabel yang dapat mengidentifikasi baik variabel baru yang akan ditambahkan atau

karakteristik umum yang harus dipertimbangkan

Langkah 5: Interpretasi Hasil

U

n

t

u

k

m

e

n

g

i

n

t

e

r

p

r

e

t

a

s

i

k

a

n

h

a

s

i

l

k

a

m

i

k

i

t

a

p

e

r

l

u

m

e

m

e

r

i

k

s

a

k

l

a

s

i

f

i

k

a

s

i

f

u

n

g

s

i

:

Variabel Label 0 1

Konstan-51,66546

60,42779


Halaman 14


x 3, Harga Fleksibilitas 8,25616 10,94608 x 7, Kualitas Produk 5,49035 3,81958

Untuk menafsirkan efek yang masingmasing variabel memiliki pada yang berbeda

kelompok kita benarbenar harus fokus pada perbedaan antara

8 7

koefisien. Sebagai contoh, koefisien X 3 lebih besar di Grup 1

dari Grup 0 yang berarti bahwa pengamatan dengan persepsi tinggi

fleksibilitas harga lebih mungkin untuk berada di Grup 1. Atau,

koefisien X 7 lebih rendah di Grup 1 dari Grup 0 yang berarti

semakin tinggi persepsi suatu pengamatan 'dari kualitas produk, yang sedikit kemungkinan mereka berada di Grup 1.

Langkah 6: Validasi Hasil

Tahap akhir dari analisis diskriminan melibatkan memvalidasi

Hasil diskriminan untuk memberikan jaminan bahwa hasil memiliki

eksternal serta validitas internal. Dengan kecenderungan

analisis diskriminan untuk mengembang rasio hit jika dievaluasi hanya pada

sampel analisis, crossvalidasi merupakan langkah penting. Kita bisa

crossmemvalidasi dengan menggunakan sampel tambahan sebagai ketidaksepakatan sebuah

sampel, seperti telah kita lihat, atau dengan profil kelompok pada

set tambahan variabel.

SplitContoh Prosedur atau CrossValidation

Pembenaran untuk membagi sampel menjadi dua kelompok adalah bahwa

bias ke atas akan terjadi dalam akurasi prediksi

fungsi diskriminan jika individu digunakan dalam mengembangkan

matriks klasifikasi yang sama dengan yang digunakan dalam menghitung



fungsi. Implikasi dari bias ke atas ini sangatpenting ketika peneliti berkaitan dengan eksternal

validitas temuan.

Peneliti lain telah menyarankan, bagaimanapun, bahwa keyakinan yang lebih besar

bisa ditempatkan di keabsahan fungsi dengan mengikuti ini

Prosedur beberapa kali. Peneliti secara acak akan membagi

sampel dalam analisis dan ketidaksepakatan sampel beberapa kali, setiap kali

pengujian validitas fungsi melalui pengembangan

matriks klasifikasi dan rasio hit. Kemudian beberapa rasio hit

akan dirataratakan untuk mendapatkan ukuran tunggal.

8 8

Halaman 15

Pilihan lain adalah Umetode, yang didasarkan pada "meninggalkan

satuout "prinsip, di mana fungsi diskriminan dilengkapi untuk

berulang kali ditarik sampel dari populasi asli. Sebuah dataset

dengan 100 observasi akan melibatkan 100 diskriminan yang berbeda

analisis yang dilakukan, masingmasing pada 99 dari 100 observasi.

Setiap kali fungsi diskriminan dihitung, itu akan digunakan

untuk mengklasifikasikan pengamatan yang tersisa yang tidak terlibat dalam

perhitungan fungsi. Ini adalah metode CROSSVALIDATE

dilakukan di SAS.

Perbedaan profil Grup

Pendekatan lain adalah untuk profil kelompok pada satu set terpisah

variabel yang harus mencerminkan perbedaan kelompok diamati. Ini

profil yang terpisah menyediakan penilaian validitas eksternal dalam

kelompok bervariasi pada kedua variabel independen dan set

variabel yang terkait. Hal ini mirip dalam karakter dengan proses kami



digunakan untuk memvalidasi cluster dalam Analisis

Cluster. Contoh (HATCO lanjutan)

Tahap akhir membahas validitas internal dan eksternal dari

fungsi diskriminan. Cara utama validasi adalah melalui

penggunaan sampel ketidaksepakatan dan penilaian yang prediktif

validitas. Dengan cara ini, validitas didirikan jika diskriminan yang

Fungsi tampil di tingkat yang dapat diterima dalam mengklasifikasikan pengamatan

yang tidak digunakan dalam proses estimasi. Kami rasio hit

93,3% (analisis sampel) dan 80% (sampel ketidaksepakatan) pasti

muncul untuk memvalidasi hasil kami dengan baik.

8 9

Halaman 16

Regresi logistik

Sebagaimana telah kita bahas, analisis diskriminan adalah tepat

ketika variabel dependen adalah kategoris. Namun, ketika

variabel dependen hanya memiliki dua kelompok, regresi logistik

mungkin disukai karena beberapa alasan.

Pertama, analisis diskriminan mengandalkan ketat memenuhi

asumsi normalitas multivariat dan variance sama

matriks kovarians seluruh kelompok asumsi yang tidak terpenuhi

dalam banyak situasi. Regresi logistik tidak menghadapi ini ketat

asumsi dan jauh lebih kuat ketika asumsi ini



tidak terpenuhi, membuat aplikasi yang sesuai di banyak lagi situasi.

Alasan kedua adalah bahwa, bahkan jika asumsi terpenuhi, banyak

peneliti lebih memilih regresi logistik karena mirip dengan

regresi. Keduanya memiliki uji statistik sederhana dan

kemampuan untuk menggabungkan efek nonlinear. Untuk ini dan banyak lagi

alasan teknis, regresi logistik adalah setara dengan dua kelompok

analisis diskriminan dan mungkin lebih cocok dalam banyak situasi.

Diskusi kita regresi logistik tidak mencakup masingmasing dari enam

langkah dari proses pengambilan keputusan, melainkan menyoroti perbedaan

dan persamaan antara regresi logistik dan diskriminan

analisis.

Dalam analisis diskriminan, karakter kategoris dari dependent

variabel ditampung dengan membuat prediksi kelompok

keanggotaan, berdasarkan skor klasifikasi. Regresi logistik

pendekatan tugas ini dengan cara yang lebih mirip dengan yang ditemukan di

regresi berganda. Ini berbeda dari regresi ganda, bagaimanapun,

dalam hal itu langsung memprediksi probabilitas dari suatu peristiwa terjadi.

9 0

Halaman 17

Sejak probabilitas ini harus antara 0 dan 1, nilai kita prediksi

harus dibatasi untuk jatuh dalam kisaran nol dan satu. Untuk melakukan ini,

regresi logistik menggunakan hubungan diasumsikan antara

variabel independen dan dependen yang menyerupai Sberbentuk

kurva.



Kita bisa melihat dengan model regresi logistik diwakili di atas, bahwa

dengan tingkat yang sangat rendah dari variabel independen, probabilitas

mendekati nol. Sebagai variabel meningkat independen, probabilitas

meningkat hingga kurva, cenderung ke arah, tetapi tidak pernah melebihi

satu.

Model regresi biasa tidak dapat menampung hubungan

seperti ini, karena secara inheren nonlinier. Selain itu, situasi seperti

tidak dapat dipelajari dengan regresi biasa, karena hal itu

akan melanggar beberapa asumsi, termasuk normalitas kesalahan

Istilah dan varians konstan. Regresi logistik dikembangkan untuk

khusus menangani masalah ini. Ini hubungan yang unik antara

variabel dependen dan independen memerlukan agak berbeda

Pendekatan dalam memperkirakan, menilai goodness of fit dan menafsirkan

koefisien.

9 1

Halaman 18



Memperkirakan Logistic Regression Model

Sifat nonlinier dari transformasi logistik mengharuskan

Prosedur kemungkinan maksimum digunakan secara berulang untuk

menemukan "paling mungkin" perkiraan untuk koefisien. Hal ini menyebabkan

penggunaan nilai kemungkinan bukan jumlah kuadrat ketika

menghitung ukuran keseluruhan fit.

Untuk mengestimasi model regresi logistik, kurva logistik dilengkapi

dengan data yang sebenarnya. Berikut adalah dua contoh pas logistik sebuah

hubungan. Dalam kasus pertama, regresi logistik tidak dapat memasukkan

Data juga karena ada tumpang tindih antara dua

kelompok dalam hal variabel penjelas. Dalam kasus kedua

ada banyak lagi dari hubungan yang jelas.

92



Halaman 19

Contoh sederhana ini dapat diperluas untuk mencakup beberapa

variabel independen, seperti dalam regresi.

Menafsirkan The Koefisien

Salah satu keuntungan dari regresi logistik adalah bahwa kita perlu

hanya tahu apakah suatu peristiwa terjadi (ya atau tidak, risiko kredit atau tidak)

menggunakan variabel biner sebagai variabel dependen kami. Dari biner ini variabel,

prosedur memprediksi probabilitas bahwa acara akan atau tidak akan terjadi. Sebuah

probabilitas diprediksi lebih dari 0,5 hasil di prediksi ya, jika tidak ada.

Regresi logistik namanya berasal dari logistik

transformasi digunakan dengan variabel dependen. Ketika ini

transformasi digunakan, namun, regresi logistik dan yang koefisien

mengambil makna yang agak berbeda dari orangorang ditemukan

dalam regresi biasa.


93


n n

Halaman 20

Prosedur yang menghitung koefisien logistik membandingkan probabilitas dari

suatu peristiwa yang terjadi dengan probabilitas tidak terjadi. Rasio odds ini

dapat dinyatakan sebagai

Prob (event) = Exp {13 0 + B 1x 1 + ... + B x }Prob

(tidak ada acara)

K o e f i s i e n e s t i m a s i ( 1 3 20, 1, ; B13 .., B n) Sebenarnya tindakan

dari perubahan rasio probabilitas, disebut peluang

rasio. Penggunaan prosedur ini tidak mengubah cara apapun jalan kita

menafsirkan tanda koefisien. Sebuah koefisien positif meningkatkan

probabilitas, sedangkan tanda negatif menurunkan diprediksi probabilitas.

Jika kita ingin menemukan probabilitas dari suatu peristiwa terjadi, yang akan

menjadi:

Prob (event) = Exp {13 0 + B 1x 1 + ... + B nx n}

1 + exp {13 0 + B 1x 1 + ... + B nx n}

Menilai The Goodness Of Fit

Regresi logistik mirip dengan regresi berganda dalam banyak nya hasil,

tetapi berbeda dalam metode memperkirakan koefisien. Alihalih

meminimalkan penyimpangan kuadrat, regresi logistik



memaksimalkan "kemungkinan" bahwa suatu peristiwa akan terjadi. Menggunakan ini

Teknik estimasi alternatif juga mensyaratkan bahwa kita menilai Model

cocok dengan cara yang berbeda.

Ukuran keseluruhan seberapa baik model cocok diberikan oleh

nilai kemungkinan. Kita sering mendasarkan keputusan kami meskipun pada

2 * Log (nilai kemungkinan), yang sering disebut sebagai 2LL. SEBUAH

juga model yang pas akan memiliki nilai kecil untuk 2LL, dengan

9 4

Halaman 21

nilai minimum 2LL = 0 yang berhubungan dengan

kemungkinan 1 dan cocok.

Peneliti juga dapat membangun sebuah "pseudoR 2"Nilai untuk logistik

regresi, mirip dengan R 2 nilai dalam analisis regresi. R 2

nilai untuk model regresi logistik dapat dihitung sebagai:

R 2 logit = 2LL batal (2LL model)

2LLbatal

mana 2LL bataldihitung dari model regresi logistik

dengan semua parameter nonintercept diatur ke nol. Nilai

ini juga disediakan oleh output SAS.

Pengujian Signifikansi dari Koefisien

Regresi logistik juga dapat menguji hipotesis bahwa

koefisien adalah berbeda dari nol. Dalam regresi, nilai t

digunakan untuk

menilai signifikansi masingmasing koefisien, di regresi

logistik meskipun kami menggunakan statistik Wald. Ini

memberikan statistik


95


signifikansi untuk setiap koefisien diperkirakan sehingga hipotesis bahwa

pengujian dapat terjadi.

Dihadapkan dengan variabel biner, peneliti tidak perlu resor untuk

metode yang dirancang untuk mengakomodasi keterbatasan beberapa

regresi, atau dipaksa untuk mempekerjakan analisis diskriminan,

terutama jika asumsi statistik yang dilanggar. Logistik

regresi membahas masalah ini dan menyediakan metode

dikembangkan untuk berhubungan langsung dengan situasi ini di paling efisien

cara yang mungkin.

HATCO Contoh

Halaman 22

Contoh berikut adalah identik dengan dua kelompok diskriminan

analisis dibahas sebelumnya, dengan regresi logistik digunakan saat

ini untuk estimasi model.

Langkah 1, 2 dan 3: Tujuan Penelitian, Penelitian Desain dan

Asumsi statistik

Isu yang dibahas dalam tiga langkah pertama dari proses keputusan

identik untuk analisis diskriminan dua kelompok dan logistik

regresi. Masalah penelitian ini masih untuk menentukan apakah perbedaan

persepsi dari HATCO dapat membedakan antara pelanggan yang menggunakan

Spesifikasi membeli dibandingkan total analisis nilai, Sampel 100

pelanggan dibagi menjadi sampel analisis 60 pengamatan,

dengan sisa 40 pengamatan merupakan ketidaksepakatan atau



sampel validasi.

Kita sekarang dapat fokus pada hasil yang berasal dari penggunaan logistik

regresi untuk memperkirakan dan memahami perbedaan antara

kedua jenis pelanggan.

Langkah 4: Estimasi Regresi Logistik Model dan

Menilai keseluruhan Fit

Seperti analisis diskriminan, di mana kami tidak ingin menggunakan semua

tujuh variabel persepsi untuk membedakan antara kelompok, tetapi

hanya menggunakan variabel yang memiliki perbedaan terbesar dalam cara

antara dua tingkat X 11, Kami memiliki tujuan yang sama dalam

regresi logistik.

Kami akan menggunakan prosedur LOGISTIK di SAS untuk memberikan kami

Model, dengan prosedur seleksi bertahap yang akan mempersempit bawah

pilihan kami untuk variabel dengan yang paling diskriminatif. The Prosedur

bertahap adalah teknik pembentukan model dimana

variabel dapat dimasukkan ke dalam atau dikeluarkan dari model setiap

titik berdasarkan pentingnya kekuatan diskriminatif mereka.

9 6

Halaman 23

Sejak regresi logistik menggunakan prosedur iterasi untuk memperkirakan

koefisien, penting untuk memeriksa solusi Anda untuk memastikan Model

konvergen. Kadangkadang tidak ada satu solusi yang unik sebagai

beberapa set yang berbeda dari koefisien akan memberikan solusi dari

kualitas yang sama. Ini akan sering terjadi jika ada pemisahan lengkap

antara 0 dan 1s, yang berarti bahwa SAS akan tidak tahu bagaimana curam

kurva logistik harus mendaki.


Prob(event)

= Exp {3,5904 + 1.9719X 1.5973X }3 7

Jika model kita gagal untuk berkumpul, kita mungkin masih ingin

melaporkan solusi, meskipun kita harus menyadari bahwa solusi akan sering

tidak stabil.

Prosedur bertahap dimulai dengan menambahkan X 3 untuk model null,

diikuti oleh X 7 dan pada kedua tahap model kami menyatu. Pada

Tahap berikutnya X6 adalah menambahkan, bagaimanapun ini menyebabkan masalah

dengan konvergensi. Hal ini kemudian dihapus dari model, meninggalkan kami dengan

hanya X 3 dan X 7 fungsi logistik kami.

Rasio odds kami kemudian diberikan oleh:

Prob (tidak ada acara)

Probabilitas peristiwa tertentu juga dapat diberikan oleh:

Prob (event) = Exp {3,5904 + 1.9719X 3 1.5973X

7}1 + exp {3,5904 + 1.9719X 1.5973X }

3 7

Dan kebaikan kami fit dapat diukur dengan:

R 2 logit = 2LL batal (2LL model) = 81,50321,322

2LLnull 81,503

9 7

Halaman 24


= 60,181 = 0,73839

81,503



Tabel klasifikasi kami adalah sebagai berikut:

Diklasifikasikan ke dalam

0 1 Total

X11 0 23 2 25

1 2 33 35

Total 25 35 60

Sejak tabel klasifikasi ini adalah dari sampel analisis kami, kami akan berharap

untuk memberikan pendapat meningkat dari kami "rasio hit," yang

dalam hal ini adalah 56/60 = 93,3%. Tabel klasifikasi dari kami

sampel ketidaksepakatan terlihat seperti ini:

Diklasifikasikan ke dalam

0 1 Total

X11 0 13 2 15

1 6 19 25

Total 19 21 40

Yang tidak mengesankan, tapi masih menghasilkan hitrasio 80%. Ini

model dua variabel, termasuk X dan X 7, Menunjukkan baik3

Model fit dan signifikansi statistik pada tingkat model keseluruhan, sebagai

serta untuk variabel termasuk dalam model.

Langkah 5: Interpretasi Hasil

Model regresi logistik menghasilkan variate sangat mirip dengan

bahwa dari analisis diskriminan dua kelompok. Dalam kedua kasus X 3 dan

x 7 adalah satusatunya variabel yang termasuk dalam solusi akhir kami. The

implikasi dari kedua analisis serupa: fleksibilitas harga (X 3)memiliki hubungan positif dan kualitas produk (X ) Memiliki negatif

7hubungan dengan variabel dependen. Mengingat bahwa bergantung

9 8



Halaman 25

variabel (X

11)

Memiliki

dua

kelompok

spesifikasi

pembelian

(X 11 = 0)

dan

T

o

t

a

l

a

n

a

l

i

s

i

s

n

i

l

a

i

(

X

11 = 1)

-

k

o

e

f

i

s

i

e

n

m

e

n

y

i

r

a

t

k

a

n

b

a

h

w

a

p

e

r

u

s

a

h

a

a

n

m

e

n

g

g

u

n

a

k

a

n

a

n

a

l

i

s

i

s

t

o

t

a

l

n

i

l

a

i

m

e

m

i

l

i

k

i

p

e

r

s

e

p

s

i

y

a

n

g

l

e

b

i

h

r

e

n

d

a

h

d

a

r

i

p

r

o

d

u

k

k

u

a

l

i

t

a

s

s

e

m

e

n

t

a

r

a

m

e

m

i

l

i

k

i

p

e

r

s

e

p

s

i

y

a

n

g

l

e

b

i

h

t

i

n

g

g

i

d

a

r

i

f

l

e

k

s

i

b

i

l

i

t

a

s

h

a

r

g

a

.

Langkah 6: Validasi Hasil

Validasi regresi logistik dilakukan di sini

m

e

l

a

l

u

i

m

e

t

o

d

e

y

a

n

g

s

a

m

a

d

i

g

u

n

a

k

a

n

d

a

l

a

m

a

n

a

l

i

s

i

s

d

i

s

k

r

i

m

i

n

a

n

:

p

e

n

c

i

p

t

a

a

n

a

n

a

l

i

s

i

s

d

a

n

k

e

t

i

d

a

k

s

e

p

a

k

a

t

a

n

s

a

m

p

e

l

.

K

e

d

u

a

m

e

t

o

d

e

m

e

n

g

h

a

s

i

l

k

a

n

h

i

t

i

d

e

n

t

i

k

r

a

s

i

o

-

9

3

,

3

%

u

n

t

u

k

s

a

m

p

e

l

a

n

a

l

i

s

i

s

,

8

0

%

u

n

t

u

k

s

a

m

p

e

l

k

e

t

i

d

a

k

s

e

p

a

k

a

t

a

n

-

y

a

n

g

m

e

n

g

a

r

a

h

k

e

k

e

s

i

m

p

u

l

a

n

b

a

h

w

a

k

e

d

u

a

m

e

t

o

d

e

m

e

m

i

l

i

k

i

y

a

n

g

k

u

a

t

e

m

p

i

r

i

s

d

u

k

u

n

g

a

n

.



9 9

Bab 5_ Analisis Diskriminan Analisis Diskriminan Adalah Teknik Statistik Yang Tepat Ketika

Documents

Transcript of Bab 5_ Analisis Diskriminan Analisis Diskriminan Adalah Teknik Statistik Yang Tepat Ketika