Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi
description
Transcript of Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi
1
Görsel Veri Madenciliği’nde bir Vaka Çalışması:
ÖSS Verilerinin Analizi
Gürdal Ertek, Fethi M. Özdöl, Barış Değirmencioğlu Sabancı Üniversitesi
Mühendislik ve Doğa Bilimleri Fakültesi Orhanlı, Tuzla, Istanbul, 34956
2
Sunum Planı
• Veri Madenciliği ve Bilgi Görselleştirmesi • “Boyutlandırılabilir Simgeler” yaklaşımı • Literatür • Eniyileme Modeli • Yazılım Uygulaması • Vaka Çalışması: ÖSS Verilerinin Analizi • Gelecekteki Çalışmalar
3
• Günümüzde her sahada üretilen veri miktarı bilişim sistemlerinin gelişmesiyle birlikte katlanarak artmaktadır.
• Geçmişte – Veri toplamak önemli miktarda vakit gerektiren bir çalışma iken
• Günümüzde – Otomatik olarak toplanmakta olan verilerin incelenmesi daha çok önem kazanmaktadır.
4
Veri Madenciliği (Data Mining)
• Temel hedef: – Üretilmekte olan verilerin anlaşılmasını, yorumlanmasını ve ilgili kuruma (iş dünyası, eğitim, askeriye gibi) faydalı çıkarımlar yapılmasını sağlamaktır.
5
Veri Madenciliği • Algoritma ağırlıklı matematiksel ve istatistiksel metodlar içeren çalışmalar oldukça geniş bir literatür oluşturmaktadırlar.
• Ne yazık ki bu çalışmalar –özellikle iş dünyasında istenen uygulanma seviyesine ulaşmamıştır.
• Bu metodların bir eksikliği sadece önceden belirlenebilecek tarzda öngörüler oluşturulmasıdır.
• Bir başka eksikliği ise son kullanıcıların anlamasının imkansız olduğu karmaşık algoritmalar kullanıyor olmalarıdır.
6
Görsel Veri Madenciliği (Visual Data Mining)
(Bilgi Görselleştirmesi) (Information Visualization)
• Bilgisayar biliminin özellikle son 15 yılda önem kazanmış bir sahasıdır.
• 1990 öncesinde verilerin grafiksel olarak incelenmesi dönük yapılan çalışmalar...
• 1990 sonrasında – Bilgisayarların hafıza, bilgi işleme ve
grafiksel ara birim (GUI) boyutunda gelişmeleri
– Verilerin daha kolay toplanabilir hale gelmesi ile
• daha da olgunlaşmış ve bugünkü seviyesine ulaşmıştır.
7
Görsel Veri Madenciliği
• Amaç: – Özellikle çokboyutlu verilerin görsel olarak grafiklerle sunulması yoluyla • Eldeki verilerden bilgiye ulaşmak • Bu bilgilerde saklı duran önemli noktaları açığa çıkarmaktır.
• Bu analiz sürecinde insan algılaması ve insanbilgisayar etkileşimi önem kazanmaktadır.
8
Görsel Veri Madenciliği • Verilerin görüntüsünü algılayan ve ilginç öngörüler bulmaya çalışan analist karmaşık algoritmaları anlamak zorunda değildir.
• Kendisine sunulan görsel etkileşim imkanları ile dilediği grafikleri dilediği parametrelerle dinamik olarak çizdirerek görsel sorgular yapabilir.
9
Bu Sunumda... • Görsel Veri Madenciliği’nde sıkça rastlanan bir yaklaşımı, simge (ikon) bazlı görselleştirmeyi esas alarak geliştirilen bir görselleştirme yaklaşımı ve bunun gerçek bir veri üzerinde uygulaması sunulacaktır.
10
“Boyutlandırılabilir Simgeler” (Sizeable Icons)
• Kategorik bir grup alan içeren ve sayısal bir ya da daha çok alan içeren veriler için uygulanabilmektir.
11
• Bu yaklaşımda kategorik değişkenin farklı değerlerinin her biri bir kutu (box) olarak gösterilmekte,
• Her bir kutunun içi o değeri taşıyan elemanları simgeleyen renkli kare simgelerle (icons) doldurulmaktadır.
• Kare simgelerin rengi sayısal bir değişkenin değerini göstermektedir.
12
Literatür • Keim (2002): Bilgi görselleştirmesi için sınıflandırma: – Görselleştirilecek veri tipi – Görselleştirme metodu – Etkileşim (interaction) ve çarpıtma (distortion) tekniği
• Web Kaynakları http://iv.homeunix.org/ http://otal.umd.edu/Olive/
13
Literatür: Simge Bazlı Görselleştirme
(Iconbased Visualization)
• Sun (2003): Üretim verilerinin görselleştirilmesi – Standart bir görsel tasarımın yan yana kutularda kullanılması
• Beddow (1990): Gezegenlerin manyetik etkinliklerinin 13 boyutlu verisi
• Hearst (1995): Arama terimlerinin dokümanlar içinde dağılımı
• Ward (2002): Simge bazlı görselleştirme literatürünün taraması
14
Literatür: Boşluk Dolduran Görselleştirme
(Spacefilling Visualization)
• Mozaik gösterim (Mosaic display) (Spence, 2001, s2023, s4849) – Kutu boyutları her bir değere sahip kayıt sayısını gösterir.
• Ağaçharitası (Treemap) (Johnson ve Shneiderman, 1991) – Hiyerarşik veriler tüm ekranı kaplayacak şekilde görüntülenebilir.
• Piksel bazlı görselleştirme (Pixelbased visualization) (Keim, 2002) – Ekrandaki herbir piksel veritabanındaki bir kaydı görüntüleyebilir. Böylece 1 milyona yakın kayıt görüntülenebilir.
15
Literatür: İnsan Gruplarının Görselleştirilmesi • Bir insan grubunun gösterimi (Spence, 2001, s2023, s4849)
• Sosyal bir ağ (social network) oluşturan bir insan grubunun gösterimi (Xiong ve Donath, 1999)
• Hiyerarşik bir yapı gösteren bir insan grubunun gösterimi (Robertson vd., 1991)
16
• Her bir küme bir kutu olarak gösterilmekte... • Her bir eleman renkli bir simge olarak gösterilmektedir.
• Kutular gruplandıran değişkenin (partitioning attribute) farklı değerlerini taşır.
• Kare simgelerin rengi sayısal renklendiren değişkenin (coloring attribute) değerini gösterir. – Sarı: En büyük değer – Siyah: En küçük değer
17
s = 50 piksel
x (h) = 4
18
Eniyileme Modeli (Optimization Model)
En önemli değişkenler: s : her bir simgenin kenar uzunluğu x (h) : her bir kutudaki yatay simge sayısı
19
Yazılım Uygulaması • Java programlama dili, • Eclipse Bütünleşik Geliştirme Ortamı ( http://www.eclipse.org ) kullanılmıştır.
• Veriler bir MS Access dosyasında yer almakta, ODBC bağlantısı ile SQL sorguları yapılmaktadır.
• Kullanıcı Java, SQL ya da MS Access bilmeden grafikler çizdirebilmektedir.
20
Vaka Çalışması
• 2004 Öğrenci Seçme Sınavı’nda (ÖSS) EA ve SAY ilk 5000’e giren 5965 öğrencinin verileri: –Lise İsmi –Lise Tipi –Yerleştirildiği Üniversite –Yerleştirildiği Bölüm –Sayısal Puanı –Eşit Ağırlıklı Puanı
21
Genel Öngörüler (General Insights)
22
Lise Kıyaslaması (Benchmarking)
23
İlişki Yönetimi (Relationship Management)
24
Gelecekteki Çalışmalar
• Şu anda yapılamayan analizleri yapmaya olanak tanıyacak gösterimlerin geliştirilmesi ve uygulanması – Örn: ÖSS verilerinde yıldan yıla değişimlerin analizi
• Kullanıcının etkileşimli sorgular yapabilmesi
25
Teşekkürler... Sorular?