VERİ MADENCİLİĞİ

17
VERİ MADENCİLİĞİNDE TEMEL BİLEŞENLER ANALİZİ VE NEGATİFSİZ MATRİS ÇARPANLARINA AYIRMA TEKNİKLERİNİN KARŞILAŞTIRMALI ANALİZİ A COMPERATIVE ANALYSIS OF PRINCIPAL COMPONENT ANALYSIS ANS NON-NEGATIVE MATRIX FACTORIZATION TECHNIQUES IN DATA MINING Kazım YILDIZ 1 , Yılmaz ÇAMURCU 2 , Buket DOĞAN 3 1,2,3 Marmara Universitesi, Teknik Eğitim Fakültesi, Elektronik-Bilgisayar Eğt. Bölümü Kadikoy /Istanbul, TURKIYE, [email protected], [email protected], [email protected],

description

VERİ MADENCİLİĞİNDE TEMEL BİLEŞENLER ANALİZİ VE NEGATİFSİZ MATRİS ÇARPANLARINA AYIRMA TEKNİKLERİNİN KARŞILAŞTIRMALI ANALİZİ A COMPERATIVE ANALYSIS OF PRINCIPAL COMPONENT ANALYSIS ANS NON-NEGATIVE MATRIX FACTORIZATION TECHNIQUES IN DATA MINING Kazım YILDIZ 1 , Yılmaz ÇAMURCU 2 , Buket DOĞAN 3 - PowerPoint PPT Presentation

Transcript of VERİ MADENCİLİĞİ

Page 1: VERİ  MADENCİLİĞİ

VERİ MADENCİLİĞİNDE TEMEL BİLEŞENLER ANALİZİ VE NEGATİFSİZ MATRİS ÇARPANLARINA AYIRMA TEKNİKLERİNİN

KARŞILAŞTIRMALI ANALİZİ

A COMPERATIVE ANALYSIS OF PRINCIPAL COMPONENT ANALYSIS ANS NON-NEGATIVE MATRIX FACTORIZATION TECHNIQUES IN

DATA MINING

Kazım YILDIZ1, Yılmaz ÇAMURCU2, Buket DOĞAN3

1,2,3 Marmara Universitesi, Teknik Eğitim Fakültesi, Elektronik-Bilgisayar Eğt. Bölümü

Kadikoy /Istanbul, TURKIYE,[email protected], [email protected], [email protected],

Page 2: VERİ  MADENCİLİĞİ

VERİ VERİ MADENCİLİĞİMADENCİLİĞİ Veri madenciliği, diğer bir adla veritabanında bilgi keşfi; çok

büyük veri hacimleri arasında tutulan,

◦ Anlamı daha önce keşfedilmemiş potansiyel olarak faydalı ve anlaşılır bilgilerin çıkarıldığı

◦ Arka planda veritabanı yönetim sistemleri, istatistik, yapay zekâ, makine öğrenme, paralel ve dağıtık işlemlerin bulunduğu

◦ Veri analiz tekniklerine veri madenciliği adı verilir

24.04.23 2

Page 3: VERİ  MADENCİLİĞİ

KÜMELEME ANALİZİ KÜMELEME ANALİZİ NEDİR?NEDİR?Soyut ve somut benzer objelerin

bir grupta toplanması kümeleme olarak adlandırılır.

24.04.23 3

Page 4: VERİ  MADENCİLİĞİ

K-MEANSK-MEANS K-Means algoritması, veritabanındaki n tane

nesnenin k adet kümeye bölümlenmesini sağlar.

E: veritabanındaki bütün nesnelerin “square error” iki vektör arasındaki uzaklıklarının toplamıdır.

p: uzayda bir nesneye verilen noktayı gösterir. mi: Ci kümesinin orta noktasını gösterir.(küme

merkezi) Girdi (Input):

◦ k: küme sayısı◦ D: n tane nesne içeren veritabanı

Çıktı (output): ◦ k kümesi

24.04.23 4

Page 5: VERİ  MADENCİLİĞİ

FUZZY C-MEANSFUZZY C-MEANS Fuzzy c-means (FCM) algoritması, bulanık bölünmeli kümeleme

tekniklerinden en iyi bilinen ve yaygın kullanılan yöntemdir. Algoritma, en küçük kareler yönteminin genellemesi olan aşağıdaki amaç

fonksiyonunu öteleyerek. minimize etmek için çalışır

U üyelik matrisi rastgele atanarak algoritma başlatılır. İkinci adımda ise merkez vektörleri hesaplanır. Merkezler aşağıdaki eşitlik ile hesaplanır

24.04.23 5

Page 6: VERİ  MADENCİLİĞİ

Boyut Azaltma İşlemiBoyut Azaltma İşlemi Verinin sahip olduğu boyut sayısı arttıkça,

◦ Genellikle çok az sayıda boyut doğrudan kümelerle ilgili olur. ◦ İlgisiz boyutlardaki veri, çok fazla gürültüye sebep olabilir.◦ Keşfedilecek kümelerin gizlenmesine sebep olabilir.

◦ Bu yüzden ;Verinin boyut sayısı arttıkça kümeleme işleminin zorlaşmasıKümeleme süresinin uzamasıYüksek saflıkta kümelerin elde edilememesi yüzünden boyut

azaltma işlemine başvurulur.

24.04.23 6

Page 7: VERİ  MADENCİLİĞİ

Temel Bileşen Temel Bileşen Analizi(PCA)Analizi(PCA) Temel bileşenler yaklaşımı bağımlılık yapısını yok etme ve boyut

indirgeme amaçları için kullanılmaktadır Tanıma, Sınıflandırma boyut indirgenmesi ve yorumlanmasını sağlayan, çok değişkenli bir

istatistik yöntemidir. Verinin içindeki en güçlü örüntüyü bulmaya çalışır. Bu yüzden örüntü

bulma tekniği olarak kullanılabilir. Çoğunlukla verinin sahip olduğu çeşitlilik, tüm boyut takımından seçilen

küçük bir boyut setiyle yakalanabilir. Verideki gürültüler, örüntülerden daha güçsüz olduklarından, boyut

küçültme sonucunda bu gürültüler temizlenebilir.

24.04.23 7

Page 8: VERİ  MADENCİLİĞİ

Temel Bileşen Temel Bileşen Analizi(PCA)Analizi(PCA) Tpxp dönüşüm matrisi olmak üzere,

biçiminde ifade edilir.

Bu bilgiler kullanılarak öz değerler bağıntısından yararlanarak önemli bileşenler elde edilir. Bu temel bileşen sayısının belirlenmesi için birçok yöntem geliştirilmiştir. Kullanılan en basit yönteme göre, birden büyük öz değerlerin sayısı m’dir ve

koşulunun sağlandığı en küçük m değeri önemli görülen temel bileşen sayısı belirlemektedir.

24.04.23 8

Page 9: VERİ  MADENCİLİĞİ

Negatifsiz Matris Negatifsiz Matris Çarpanlara Ayırma Çarpanlara Ayırma (NNMF)(NNMF) Bir çok veri seti, örneğin görüntü ve metin, orijinal veri seti negatif

olmayan değerler içermektedir. Bu yüzden kullanılan yöntemlerde negatif değerler oluşmaktadır ve

bu verinin yorumlanmasında zorluklar oluşturmaktadır. Non-negative Matrix Factorization(NNMF) verinin negatif

olmayan bir şekilde lineer olarak temsil edilmesini sağlayan bir tekniktir.

V≈WH pozitif elemanlardan oluşan V matrisini, geri çatma hatasına yaklaşık bir

çözüm oluşturacak şekilde, yine pozitif elemanlara sahip iki matrisin çapımı halinde ayrıştırır.

Buradaki ij indisi, bağlı olduğu matrisin o indise sahip elemanını göstermektedir.

24.04.23 9

Page 10: VERİ  MADENCİLİĞİ

UYGULAMAUYGULAMA2.83 GHZ 32 bit işletim sistemi

ve 3 GB RAM sahip bilgisayarda gerçekleştirilmiştir.

Yazılım ortamı olarak MATLAB programı kullanılmıştır.

24.04.23 10

Page 11: VERİ  MADENCİLİĞİ

UYGULAMA YAPILAN VERİ UYGULAMA YAPILAN VERİ SETLERİSETLERİİRİS (150 ÖRNEK, 4 ÖZNİTELİK)VEHİCLE ( 846 ÖRNEK, 18

ÖZNİTELİK)İris veri setinde 3 farklı sınıf,

vehicle veri setinde ise 4 farklı sınıf bulunmaktadır.

24.04.23 11

Page 12: VERİ  MADENCİLİĞİ

24.04.23 12

İRİS VERİ SETİ PURİTY ORTAK BİLGİ ZAMAN

KMEANS 0.96 0.7515 0.01670.721

FUZZY CMEANS 1 0.8360 0.17950.81

BOYUT AZALTMA İŞLEMİ YAPILMADANBOYUT AZALTMA İŞLEMİ YAPILMADAN

VEHİCLE VERİ SETİ PURİTY ORTAK BİLGİ ZAMANKMEANS 0.4266 0.1005 0.0289

0.47170.22120.3518

FUZZY CMEANS 0.8028 0.7159 0.30980.77360.80181

Page 13: VERİ  MADENCİLİĞİ

TEMEL BİLEŞEN ANALİZİ İLE BOYUT AZALTMA İŞLEMİTEMEL BİLEŞEN ANALİZİ İLE BOYUT AZALTMA İŞLEMİ

24.04.23 13

İRİS VERİ SETİ PURİTY ORTAK BİLGİ ZAMAN

KMEANS 1 0.7419 0.01270.940.72

FUZZY CMEANS 1 0.8315 0.103110.78

VEHİCLE VERİ SETİ PURİTY ORTAK BİLGİ ZAMANKMEANS 0.3618 0.1001 0.0184

0.23040.44500.4670

FUZZY CMEANS 1 0.8947 0.20940.900910.9447

Page 14: VERİ  MADENCİLİĞİ

Negatifsiz Matris Çarpanlara Ayırma İle Boyut Azaltma Negatifsiz Matris Çarpanlara Ayırma İle Boyut Azaltma İşlemiİşlemi

24.04.23 14

VEHİCLE VERİ SETİ PURİTY ORTAK BİLGİ ZAMANKMEANS 0.5025 0.1201 0.0256

0.33020.22800.6239 0.1795

FUZZY CMEANS 0.9266 0.7930 0.220.514210.9899

İRİS VERİ SETİ PURİTY ORTAK BİLGİ ZAMANKMEANS 1 0.8642 0.0165

0.960.92

FUZZY CMEANS 1 0.9488 0.121310.96

Page 15: VERİ  MADENCİLİĞİ

SONUÇLARSONUÇLAR Veri setlerinde boyut sayısı arttıkça geleneksel algoritmaların etkisi

azaltmakta ve yapılan uygulamalar için çok fazla süre gerekmektedir.

Bu yüzden veri madenciliğinde yüksek boyutlu veri setleri indirgendikten sonra geleneksel kümeleme algoritmaları elde edilen bu veri setleri üzerinde daha etkili oldukları gözlenmiştir.

Geleneksel kümeleme metotlarının yüksek boyutlu veri setlerinde uygulaması yapılmış ardından boyut azaltma işlemi yapılarak elde edilen sonuçlar ile karşılaştırılmıştır.

Temel Bileşenler Analizi) yüksek boyutlu veri setlerinin indirgenmesinde ilgili ve gerekli noktaları boyut azaltma işlemi sırasında koruduğundan kümeleme sonuçlarının yeni veri seti üzerinde daha etkili olduğu gözlenmektedir.

24.04.23 15

Page 16: VERİ  MADENCİLİĞİ

Böylece algoritmalar ile yapılan deneylerde büyük veri setleri üzerinde kümeleme işlemi için çok fazla süre kaybedip yüksek boyutlu veri setlerindeki kümelerin doğru bir şekilde tespit edilememesi gibi sorunlar ortadan kaldırılmıştır.

Fuzzy Cmeans algoritması Kmeans’e nazaran kümelemede daha etkili bir algoritmadır.

24.04.23 16

Page 17: VERİ  MADENCİLİĞİ

24.04.23 17

İlginize teşekkürler

Sorular