Korelasyon tabanlı nitelik seçimi

32
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi Korelasyon Tabanlı Nitelik Seçimi F.Özgür ÇATAK İstanbul Üniversitesi Enformatik Doktora Programı

Transcript of Korelasyon tabanlı nitelik seçimi

Page 1: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

Korelasyon Tabanlı Nitelik Seçimi

F.Özgür ÇATAK

İstanbul Üniversitesi

Enformatik Doktora Programı

Page 2: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Konular

1. Giriş

2. Nitelik Seçim Algoritmaları

1. Sezgisel Aramalar

2. Filtreleme Algoritmaları

3. Sarmal Algoritmalar

3. Korelasyon Tabanlı Nitelik Seçimi

4. Uygulama Örnekleri

Page 3: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Giriş

• Veri madenciliğinde Nitelikler Üzerinde ki Sorunlar

• Hesaplama Karmaşıklığında Artış

Yüksek Sayıda

• Model Hassasiyetinde Düşüş

İlişkisiz

Kirli

Korelasyon

Page 4: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Giriş

Nitelik Azaltımında HedefYüksek Boyutlu Verilerde Zorluğun Azaltılması

Verinin anlaşılması ve görselleştirilmesinin sağlanması

Öğrenme Algoritmasının Hız artışı

Modelin Birlikte Çalışabilirliği

Page 5: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Örnek Veriseti

Nitelikler

• HAVA

• ISI

• NEM

• RÜZGAR

Page 6: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Örnek Veriseti Nitelik Alt Küme Uzayı

Page 7: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Nitelik Seçim Algoritmalarının Özellikleri

Başlangıç Noktası

Arama Düzeni

Ölçüm Yöntemi

Duruş Kriteri

Page 8: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Nitelik Seçim Algoritmalarının Özellikleri

Başlangıç Noktası

• Nitelik Küme uzayında seçilecek olan bir nokta aramanın yönüne belirlemektedir.

• Kümeye Nitelik Ekleme

• Kümeden Nitelik Çıkarma

Page 9: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Nitelik Seçim Algoritmalarının Özellikleri

Arama Düzeni

• Tüm Nitelik Alt kümesini aramak yüksek maliyetli

• N tane nitelik için 2^n adet alt küme

• Sezgisel arama yöntemleri kullanılabilinir.

• Her zaman en iyi sonuç çıkmaz

Page 10: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Nitelik Seçim Algoritmalarının Özellikleri

Ölçüm Yöntemi

• Nitelik Alt Kümeleri Nasıl Doğrulanacak

• Filtreleme Yöntemi ile istenmeyen özellikleri kaldır işleme devam et

• Sarmal(Wrapper) Yöntemlerle çarpraz doğrulama(CrossValidation)

Page 11: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Nitelik Seçim Algoritmalarının Özellikleri

Duruş Kriteri

• Nitelik Alt küme uzayında arama yaparken nerede duracağız.

• Genellikle yeni bir nitelik eklendiğinde yada çıkarıldığında ölçümde iyileşme yoksa durulmalıdır.

Page 12: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Sezgisel Arama Algoritmaları

• Kullanılan Yöntemler

– Algoritma nitelik kümesine sadece ekleme yapıyorsa ileri yönelimli seçim(forward selection)

– Algoritma nitelik kümesine sadece çıkarma yapıyorsa geri yönelimli seçim(backward selection)

– Hem ekleme hem de çıkarma işlemi yapılıyorsa çift yönlü arama(stepwise bi-directional search)

Page 13: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Sezgisel Arama Algoritmaları

• Hırslı Seçim Algoritması(Greedy Hill Climbing)

• En iyi ilk algoritması(Best First)

• Genetik Algoritmalar(Genetic Algorithms)

Page 14: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Sürekli Niteliklerin Ayrıklaştırılması

• Korelasyon tabanlı nitelik seçimi ayrık giriş değerlerine sahip nitelikler için uygulanabilir.

• Çeşitli Yöntemler mevcut

– Eğitimli-Eğitimsiz

– Genel-Yerel

– Statik-Dinamik

• Korelasyon Tabanlı Nitelik Seçiminde kullanılan yöntem “Minimum Entropi Sezgisi” dir.

Page 15: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Minimum Entropi Sezgisi

• Bir S kümesi için, A niteliği T kesim noktasında oluşan sınıf entopi değeri

• Kesim noktaları son bulma kriteri ise

Page 16: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Korelasyon Tabanlı Nitelik Seçimi

Eğer iki niteliğin sahip olduğu değerler birbirleri ile simetrik olarak değişmekteyse, bu iki nitelik birbiri ile ilişkilidir.

Korelasyon, olasılık kuramı ve istatistikte iki rassal değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir.

Page 17: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Değerleri Sürekli Değişkenlerin Korelasyonu

Korelasyon katsayısı, bağımsız değişkenler arasındaki ilişkinin yönü ve büyüklüğünü belirten katsayıdır. Bu katsayı, (-1) ile (+1) arasında bir değer alır.

Page 18: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

NOMİNAL DEĞERLERE SAHİP ÖZELLİKLERİN KORELASYONU

Simetrik Belirsizlik(SymmetricalUncertainty)

RELIEF

MDL(En düşük Tanımlama Uzaklığı)

Page 19: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

1. Simetrik Belirsizlik

• Entropi kullanılarak yapılmaktadır

• X niteliğinin gözlemine göre Y niteliğinin entropi değeri hesaplanmaktadır.

Page 20: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

1. Simetrik Belirsizlik

Page 21: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

2. RELIEF

• Relief algoritması veri setinde yer alan niteliklerin ağırlıklandırmasındakullanılmaktadır.

• En yakın k komşuluğu kullanılmaktadır.

• Iterasyona dayalı bir algoritmadır

Page 22: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

2. RELIEF

• Denklem

• Wx = X niteliğinin ağırlığı

• Diff(X,R,H) (HIT): Veri seti kümesinde ki X örneklemine en yakın aynı sınıfta yer alan niteliklerin m ortalama uzaklığı

• Diff(X,R,M) (MISS): Veri seti kümesinde ki X örneklemine en yakın farklı sınıfta yer alan niteliklerin m ortalama uzaklığı

• m rassal olarak seçilen örneklerin sayısı

Page 23: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

2. RELIEF

set all W[A] = 0.0

for i=1 to m do begin

randomly select instance Ri

find nearest hit H and nearest miss M

for A=1 to all attribute do

W(A) = W(A) – diff(A,Ri,H) + diff(A,Ri,M)

end

Page 24: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

3. MDL(En Küçük Tanımlama Uzaklığı)

• Enformasyon Teorisinde Veri Sıkıştırma kullanılan kuraldır.

• Nitelik seçiminde nominal değişkenlerin korelasyonu için kullanılmaktadır

Page 25: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

3. MDL(En düşük Tanımlama Uzaklığı)

• n eğitim verisinin sayısı, C sınıf değerlerinin sayısı, ni, Ci’ye ait olan eğitim setinin sayısı, nj j. Elemanın sahip olduğu değerin eğitim seti sayısı, nij ise Ci sınıf değerine ait olan eğitim setinin sayısı

Page 26: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Korelasyon Tabanlı Nitelik Seçimi

• Ana hedef, hedef nitelik ile yüksek korelasyonlu birbirleri ile düşük korelasyonlu niteliklerin seçilmesi

• Veri seti “MERİT” değeri

• Burada , k farklı nitelik içeren S nitelik alt kümesinin merit değeri, ortalama sınıf-nitelik korelasyonu, ortalama nitelik-nitelik korelasyonu

Page 27: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Korelasyon Tabanlı Nitelik Seçimi

Page 28: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Oyun Veri Seti

Nitelik Kümesi k Merit

[] 0 N/A N/A 0

[HAVA] 1 0,13 1 0,13

[ISI] 1 0,25 1 0,025

[NEM] 1 0,185 1 0,185

[RUZGAR] 1 0,081 1 0,081

[HAVA NEM] 2 0,158 0,022 0,22

[ISI NEM] 2 0,105 0,258 0,133

[NEM RUZGAR] 2 0,133 0 0,188

[HAVA ISI NEM] 3 0,133 0,132 0,175

[HAVA NEM RUZGAR] 3 0,132 0,0096 0,226

[HAVA ISI NEM RUZGAR] 4 0,105 0,0718 0,191

Nitelikler ve Hedef değişken korelasyon değerleri

Veri seti nitelik MERIT değerleri

Page 29: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Örnek Uygulama

• UCI Machine Learning Database

– California Üniversitesi’nin Enformatik ve Bilgisayar Bilimleri bölümü tarafından yayınlanmakta

– Kullanılan veri setleri

Page 30: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Örnek Uygulama – Weka Modeli

Page 31: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Örnek Uygulama

KNS Tüm Nitelikler KNS Tüm Nitelikler KNS Tüm Nitelikler KNS Tüm Nitelikler

C4.5 Naive Bayes Random Forest Instance Based Learning(knn)

vo DOĞRU 96.77 97.23 95.39 91.24 97.67 98.16 97.7 94.47

86

88

90

92

94

96

98

100

Test

ve

ri s

eti

do

ğru

luk

ora

Voting data seti Algoritma Hassasiyeti

Page 32: Korelasyon tabanlı nitelik seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Sonuç

• Her veri seti için kullanılabilecek tek bir nitelik seçim algoritması yoktur.

• Genellikle, KNS sınıflandırma algoritmasının performansını artırmaktadır.(zaman ve sonuç)

• Fakat birbiri ile yüksek ilişki bulunan niteliklerde hatalı sonuçlar üretebilir.