Metin Madenciliği ile Cümleleri Kategorilendirme

35
VERİ MADENCİLİĞİ DÖNEM PROJESİ

Transcript of Metin Madenciliği ile Cümleleri Kategorilendirme

Page 1: Metin Madenciliği ile Cümleleri Kategorilendirme

VERİ MADENCİLİĞİ DÖNEM PROJESİ

Page 2: Metin Madenciliği ile Cümleleri Kategorilendirme

Merhaba!Oğuzcan [email protected]

Page 3: Metin Madenciliği ile Cümleleri Kategorilendirme

İÇERİK

▸ Projenin Tanımı▸ Proje Tasarımı▸ Kullanılan

Teknolojiler▸ Literatür Araştırması▸ İşlem Basamakları▸ Proje

Değerlendirmesi

Page 4: Metin Madenciliği ile Cümleleri Kategorilendirme

1.Projenin Tanımı Proje hakkında

kısa bilgiler

Page 5: Metin Madenciliği ile Cümleleri Kategorilendirme

Proje Tanımı

▸ Cümlelerin belirli kategorilere göre sınıflandırılması

▸ Twitter verileri kullanılabilir

▸ Gazete , dergi , blog verileri kullanılabilinir

Page 6: Metin Madenciliği ile Cümleleri Kategorilendirme

2.Projenin Tasarımı Projenin

basamakları

Page 7: Metin Madenciliği ile Cümleleri Kategorilendirme

Öğrenme Datası

Oluşturma

Datayı Öğrenme

Verilerin Kaydedilmesi

Test Datası

OluşturmaTest Sonuç

Page 8: Metin Madenciliği ile Cümleleri Kategorilendirme

KDD Process

Page 9: Metin Madenciliği ile Cümleleri Kategorilendirme

İş Planıİş Tanımı Projedeki Yüzdesi Durumu

Literatür Taraması %10 Tamamlandı

Proje Tasarımı %5 Tamamlandı

Twitter Bağlantısı ve Data Oluşturma %5 Tamamlandı

Data Temizleme %20 Tamamlandı

Database Bağlantısı ve Dataları

Ekleme%10 Tamamlandı

Veri Madenciliği Teknik Seçimi %5 Tamamlandı

Veri Madenciliği Tekniğini Kodlama %15 Tamamlandı

Tahmin Üretme %10 Tamamlandı

Başarı ve Hata Oranı Hesaplama %10 Tamamlandı

Literatürdeki Algoritmayla Karşılaştırma %10 Tamamlanmadı

Page 10: Metin Madenciliği ile Cümleleri Kategorilendirme

3.Kullanılan Teknolojiler

Programlama dili, versiyon

kontrol sistemi vb.

Page 11: Metin Madenciliği ile Cümleleri Kategorilendirme

▸ Projede Java Programlama Dili kullanılmıştır

▸ Twitter4j - Twitter verilerini kullanabilmek için

▸ MySQL – Veri saklamak için

▸ Zemberek – Türkçe kelime köklerini bulmak için

▸ «Git» versiyon kontrol sistemi

Page 12: Metin Madenciliği ile Cümleleri Kategorilendirme

4.Benzer Çalışmalar

Kullanılan teknolojiler ve

yapılar

Page 13: Metin Madenciliği ile Cümleleri Kategorilendirme

▸ Frekans analizi en çok kullanılan yöntem

▸ Makine öğrenmesinin çeşitli teknikleri kullanılmış

▸ Türkiye’de yapılan çalışmalarda Zemberek popüler

▸ Hata oranı hesaplamalarında «Accuracy» ve «Error Rate» tekniklerinden faydalanılmış

Page 14: Metin Madenciliği ile Cümleleri Kategorilendirme

Literatür - 1

▸ Kocaeli Üniversitesi▸ Metin Madenciliği ile soru

cevaplama sistemi▸ Kullanıcıdan alınan soru ön

işlemeye tabi tutulur ve anahtar sözcükler belirlenir.

▸ Anahtar sözcüklerin önemine göre uygun cevap aranır.

Page 15: Metin Madenciliği ile Cümleleri Kategorilendirme

Literatür - 1

▸ Ön işleme ; edat, bağlaç, ünlem çıkarılmış

▸ XML dosyasında tutulan istenmeyen sözcükler metinde aranmış ve çıkarılmış

▸ Sözcüklerin anahtar cümlede az geçmesi o cümle için belirleyici olduklarını gösterir

Page 16: Metin Madenciliği ile Cümleleri Kategorilendirme

Literatür - 1

▸ Cevaplar veri tabanında hazır halde

▸ Burada kosinüs benzerliği ile cevap aranır

Page 17: Metin Madenciliği ile Cümleleri Kategorilendirme

Literatür - 2

▸ Sosyal Ağlarda Akan Veri Madenciliği

▸ Temel olarak veri madenciliği aşamaları açıklanmıştır.

▸ Örnek olarak; boy, kilo bilgilerine göre cinsiyet belirleme tekniği anlatılmış

Page 18: Metin Madenciliği ile Cümleleri Kategorilendirme

Literatür - 2

▸ KNN Algoritması kullanılmış.

▸ Burada Kilo, Boy ve cinsiyete göre tablo oluşturulmuş.

▸ Oluşturulan tabloya yeni gelen verinin cinsiyeti hesaplanırken en yakın 3 komşuya bakılmış ve karar verilmiştir.

Page 19: Metin Madenciliği ile Cümleleri Kategorilendirme

Literatür - 3

▸ Sosyal Ağlarda Veri Madenciliği

▸ Amaç; sosyal medyanın veri kaynağı olarak kullanılmasını anlatmak.

Page 20: Metin Madenciliği ile Cümleleri Kategorilendirme

Literatür - 3

▸ Çizge teoremi ; graph yaklaşımı , Facebook kim kimle arkadaş ?

▸ Kümeleme yöntemi -Küme merkezlerinin belirlenmesi -Merkez dışındakilerin mesafeye göre sınıflandırılması -Sınıflandırma sonuçlarına göre merkezin değişmesi -Kararlı hal

Page 21: Metin Madenciliği ile Cümleleri Kategorilendirme

Literatür - 3

▸ Fikir madenciliği; - Olumlu, olumsuz yorum - Duygu analizi - Uzun yıllardır yapılan, mail spam mi? çalışmaları.

Page 22: Metin Madenciliği ile Cümleleri Kategorilendirme

5.İşlem Basamakları

Data toplama, temizleme ,

öğrenme..

Page 23: Metin Madenciliği ile Cümleleri Kategorilendirme

Data oluşturma

▸ Kategoriler oluşturulurken en çok okunan gazeteler kullanılmıştır (öğrenme)

▸ Test Dataları-Twitter-Gazete

Page 24: Metin Madenciliği ile Cümleleri Kategorilendirme

Kategoriler

▸ Spor , Sağlık , Teknoloji , Magazin , Ekonomi

▸ Unknown

▸ Sampling random olarak alınmıştır

Page 25: Metin Madenciliği ile Cümleleri Kategorilendirme

Data Temizleme

▸ Gazetelerden alınanlar – noktalama işaretleri

▸ Twitterdan alınanlar-

{"@","RT","http",")","(","#",":","/","*","=","- ","<",">","'"} (temizlendi)

- {"RT","?"} (çıkarıldı)

▸ Tüm datalar lowercase halinde

Page 26: Metin Madenciliği ile Cümleleri Kategorilendirme

Sistem Öğrenmesi

▸ Gazete verileri

▸ Gazetelerden alınan kategori örnekleri içerisinde geçen kelimelerin frekansları hesaplanır.

▸ Frekans değerleri kelimelerin ağırlığı olacaktır.

Page 27: Metin Madenciliği ile Cümleleri Kategorilendirme

Sistem Öğrenmesi

▸ Gelen test verileri için her kategori üzerinde değeri hesaplanır. (Ağırlıklar çarpımı)

▸ Çıkan sonuçlar büyük olduğundan normalizasyon yapılır.

▸ Değeri en yüksek kategori belirlenir.

▸ «0» olan sonuçlar dahil edilmez.

Page 28: Metin Madenciliği ile Cümleleri Kategorilendirme

Test Asaması

▸ Test dataları ile öğrenme dataları birbirinden farklı

▸ Test dataları hem twitter hem de gazetelerden alınmıştır

▸ Hata oranı hesaplanırken gazetelerden alınan 45 cümle örneği kullanılmıştır

▸ Bu cümleler rastgele seçilmiştir

Page 29: Metin Madenciliği ile Cümleleri Kategorilendirme

Hata Oranı ve Model Değerlendirmesi

0,733 accuracy0,267 error rate

Page 30: Metin Madenciliği ile Cümleleri Kategorilendirme

Basarı OranlarıToplam Başarılı Başarısız

Magazin 10 8 2

Spor 11 7 4

Teknoloji 8 6 2

Ekonomi 8 6 2

Sağlık 8 6 2

Page 31: Metin Madenciliği ile Cümleleri Kategorilendirme

73,3%Total success!

Page 32: Metin Madenciliği ile Cümleleri Kategorilendirme

Daha Neler Yapılabilir ?

Page 33: Metin Madenciliği ile Cümleleri Kategorilendirme

Neler Eklenebilir / Değiştirilebilir ?

▸ Öğrenme datası arttırılmalı

▸ Öğrenme datasına Twitter’dan veri eklenebilir

▸ Literatür uygulamalarıyla karşılaştırma (Başarı oranları)

▸ Veri toplamak için otomasyon yazılabilinir

Page 34: Metin Madenciliği ile Cümleleri Kategorilendirme

Tesekkürler !Sorularınız [email protected] / oguzpamuk

Page 35: Metin Madenciliği ile Cümleleri Kategorilendirme

KAYNAKLAR

▸ Seker,S. E. (2015). Sosyal Ağlarda Veri

Madenciliği,YBS Ansiklopedi ▸ Seker,S. E. (2014). Sosyal Ağlarda Akan Veri

Madenciliği,YBS Ansiklopedi ▸ Sevinç I, Duru,N, Karagöz Ş, Sağır M. Metin

Madenciliği ile Soru Cevaplama Sistem, Kocaeli Üniversitesi

▸ Bilgisayar Kavramları , Sadi Evren Şeker