Korelasyon tabanlı nitelik seçimi
-
Upload
dr-ferhat-ozgur-catak -
Category
Education
-
view
433 -
download
3
Transcript of Korelasyon tabanlı nitelik seçimi
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
Korelasyon Tabanlı Nitelik Seçimi
F.Özgür ÇATAK
İstanbul Üniversitesi
Enformatik Doktora Programı
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Konular
1. Giriş
2. Nitelik Seçim Algoritmaları
1. Sezgisel Aramalar
2. Filtreleme Algoritmaları
3. Sarmal Algoritmalar
3. Korelasyon Tabanlı Nitelik Seçimi
4. Uygulama Örnekleri
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Giriş
• Veri madenciliğinde Nitelikler Üzerinde ki Sorunlar
• Hesaplama Karmaşıklığında Artış
Yüksek Sayıda
• Model Hassasiyetinde Düşüş
İlişkisiz
Kirli
Korelasyon
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Giriş
Nitelik Azaltımında HedefYüksek Boyutlu Verilerde Zorluğun Azaltılması
Verinin anlaşılması ve görselleştirilmesinin sağlanması
Öğrenme Algoritmasının Hız artışı
Modelin Birlikte Çalışabilirliği
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Örnek Veriseti
Nitelikler
• HAVA
• ISI
• NEM
• RÜZGAR
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Örnek Veriseti Nitelik Alt Küme Uzayı
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Nitelik Seçim Algoritmalarının Özellikleri
Başlangıç Noktası
Arama Düzeni
Ölçüm Yöntemi
Duruş Kriteri
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Nitelik Seçim Algoritmalarının Özellikleri
Başlangıç Noktası
• Nitelik Küme uzayında seçilecek olan bir nokta aramanın yönüne belirlemektedir.
• Kümeye Nitelik Ekleme
• Kümeden Nitelik Çıkarma
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Nitelik Seçim Algoritmalarının Özellikleri
Arama Düzeni
• Tüm Nitelik Alt kümesini aramak yüksek maliyetli
• N tane nitelik için 2^n adet alt küme
• Sezgisel arama yöntemleri kullanılabilinir.
• Her zaman en iyi sonuç çıkmaz
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Nitelik Seçim Algoritmalarının Özellikleri
Ölçüm Yöntemi
• Nitelik Alt Kümeleri Nasıl Doğrulanacak
• Filtreleme Yöntemi ile istenmeyen özellikleri kaldır işleme devam et
• Sarmal(Wrapper) Yöntemlerle çarpraz doğrulama(CrossValidation)
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Nitelik Seçim Algoritmalarının Özellikleri
Duruş Kriteri
• Nitelik Alt küme uzayında arama yaparken nerede duracağız.
• Genellikle yeni bir nitelik eklendiğinde yada çıkarıldığında ölçümde iyileşme yoksa durulmalıdır.
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Sezgisel Arama Algoritmaları
• Kullanılan Yöntemler
– Algoritma nitelik kümesine sadece ekleme yapıyorsa ileri yönelimli seçim(forward selection)
– Algoritma nitelik kümesine sadece çıkarma yapıyorsa geri yönelimli seçim(backward selection)
– Hem ekleme hem de çıkarma işlemi yapılıyorsa çift yönlü arama(stepwise bi-directional search)
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Sezgisel Arama Algoritmaları
• Hırslı Seçim Algoritması(Greedy Hill Climbing)
• En iyi ilk algoritması(Best First)
• Genetik Algoritmalar(Genetic Algorithms)
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Sürekli Niteliklerin Ayrıklaştırılması
• Korelasyon tabanlı nitelik seçimi ayrık giriş değerlerine sahip nitelikler için uygulanabilir.
• Çeşitli Yöntemler mevcut
– Eğitimli-Eğitimsiz
– Genel-Yerel
– Statik-Dinamik
• Korelasyon Tabanlı Nitelik Seçiminde kullanılan yöntem “Minimum Entropi Sezgisi” dir.
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Minimum Entropi Sezgisi
• Bir S kümesi için, A niteliği T kesim noktasında oluşan sınıf entopi değeri
• Kesim noktaları son bulma kriteri ise
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Korelasyon Tabanlı Nitelik Seçimi
Eğer iki niteliğin sahip olduğu değerler birbirleri ile simetrik olarak değişmekteyse, bu iki nitelik birbiri ile ilişkilidir.
Korelasyon, olasılık kuramı ve istatistikte iki rassal değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir.
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Değerleri Sürekli Değişkenlerin Korelasyonu
Korelasyon katsayısı, bağımsız değişkenler arasındaki ilişkinin yönü ve büyüklüğünü belirten katsayıdır. Bu katsayı, (-1) ile (+1) arasında bir değer alır.
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
NOMİNAL DEĞERLERE SAHİP ÖZELLİKLERİN KORELASYONU
Simetrik Belirsizlik(SymmetricalUncertainty)
RELIEF
MDL(En düşük Tanımlama Uzaklığı)
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
1. Simetrik Belirsizlik
• Entropi kullanılarak yapılmaktadır
• X niteliğinin gözlemine göre Y niteliğinin entropi değeri hesaplanmaktadır.
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
1. Simetrik Belirsizlik
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
2. RELIEF
• Relief algoritması veri setinde yer alan niteliklerin ağırlıklandırmasındakullanılmaktadır.
• En yakın k komşuluğu kullanılmaktadır.
• Iterasyona dayalı bir algoritmadır
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
2. RELIEF
• Denklem
• Wx = X niteliğinin ağırlığı
• Diff(X,R,H) (HIT): Veri seti kümesinde ki X örneklemine en yakın aynı sınıfta yer alan niteliklerin m ortalama uzaklığı
• Diff(X,R,M) (MISS): Veri seti kümesinde ki X örneklemine en yakın farklı sınıfta yer alan niteliklerin m ortalama uzaklığı
• m rassal olarak seçilen örneklerin sayısı
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
2. RELIEF
set all W[A] = 0.0
for i=1 to m do begin
randomly select instance Ri
find nearest hit H and nearest miss M
for A=1 to all attribute do
W(A) = W(A) – diff(A,Ri,H) + diff(A,Ri,M)
end
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
3. MDL(En Küçük Tanımlama Uzaklığı)
• Enformasyon Teorisinde Veri Sıkıştırma kullanılan kuraldır.
• Nitelik seçiminde nominal değişkenlerin korelasyonu için kullanılmaktadır
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
3. MDL(En düşük Tanımlama Uzaklığı)
• n eğitim verisinin sayısı, C sınıf değerlerinin sayısı, ni, Ci’ye ait olan eğitim setinin sayısı, nj j. Elemanın sahip olduğu değerin eğitim seti sayısı, nij ise Ci sınıf değerine ait olan eğitim setinin sayısı
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Korelasyon Tabanlı Nitelik Seçimi
• Ana hedef, hedef nitelik ile yüksek korelasyonlu birbirleri ile düşük korelasyonlu niteliklerin seçilmesi
• Veri seti “MERİT” değeri
• Burada , k farklı nitelik içeren S nitelik alt kümesinin merit değeri, ortalama sınıf-nitelik korelasyonu, ortalama nitelik-nitelik korelasyonu
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Korelasyon Tabanlı Nitelik Seçimi
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Oyun Veri Seti
Nitelik Kümesi k Merit
[] 0 N/A N/A 0
[HAVA] 1 0,13 1 0,13
[ISI] 1 0,25 1 0,025
[NEM] 1 0,185 1 0,185
[RUZGAR] 1 0,081 1 0,081
[HAVA NEM] 2 0,158 0,022 0,22
[ISI NEM] 2 0,105 0,258 0,133
[NEM RUZGAR] 2 0,133 0 0,188
[HAVA ISI NEM] 3 0,133 0,132 0,175
[HAVA NEM RUZGAR] 3 0,132 0,0096 0,226
[HAVA ISI NEM RUZGAR] 4 0,105 0,0718 0,191
Nitelikler ve Hedef değişken korelasyon değerleri
Veri seti nitelik MERIT değerleri
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Örnek Uygulama
• UCI Machine Learning Database
– California Üniversitesi’nin Enformatik ve Bilgisayar Bilimleri bölümü tarafından yayınlanmakta
– Kullanılan veri setleri
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Örnek Uygulama – Weka Modeli
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Örnek Uygulama
KNS Tüm Nitelikler KNS Tüm Nitelikler KNS Tüm Nitelikler KNS Tüm Nitelikler
C4.5 Naive Bayes Random Forest Instance Based Learning(knn)
vo DOĞRU 96.77 97.23 95.39 91.24 97.67 98.16 97.7 94.47
86
88
90
92
94
96
98
100
Test
ve
ri s
eti
do
ğru
luk
ora
nı
Voting data seti Algoritma Hassasiyeti
VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi
İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK
Sonuç
• Her veri seti için kullanılabilecek tek bir nitelik seçim algoritması yoktur.
• Genellikle, KNS sınıflandırma algoritmasının performansını artırmaktadır.(zaman ve sonuç)
• Fakat birbiri ile yüksek ilişki bulunan niteliklerde hatalı sonuçlar üretebilir.