Data extraction

18
Information Extraction, Automatic (Hamish Cunningham-2004) Canan GİRGİN Yıldız Teknik Üniversitesi Bilgisayar Mühendisliği 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 1

description

Data Extraction Bilgi çıkarımı

Transcript of Data extraction

Page 1: Data extraction

Information Extraction, Automatic(Hamish Cunningham-2004)

Canan GİRGİNYıldız Teknik Üniversitesi

Bilgisayar Mühendisliği

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 1

Page 2: Data extraction

.

Çıkarım ve Getirim Farkı Anlamadan Dil İşleme Uygulama Senaryoları 5 IE Turu MUC dan Sonra IE

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 2

Program

Page 3: Data extraction

Çıkarım ve Getirim Farkı

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 3

IR sistemi alakalı metinleri bulur  bunları kullanıcıya sunar

IE uygulaması metinleri analiz eder ve  kullanıcıya sadece ilgisini çeken belirli bir bilgi sunar.

Page 4: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 4

Anlamadan Dil İşleme

1990 Message Understanding Conferences (MUCs )

Standartlar

Yarışma

Page 5: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 5

Uygulama Senaryoları

Finansal Analiz Market Stratejileri Halkla İlişkiler Çalışanları Medya Analistleri

Page 6: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 6

Finansal Analiz

“Şirketimizle aynı konuda çalışan guçlu bir performansa sahip olacağı tahmin edilen kaç tane şirket var?”

“Geçtiğimiz yıl bu şirket için tahminlerin profilleri nasıl değişti?”

“Şirket için kaç tane olumlu/olumsuz duşunce ifade edildi?”

Page 7: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 7

Market Stratejileri

• “Bu sabah IT yazılarının %7 sinde şirketinizden bahsetti. Sizin şirketinizle doğrudan ilgili olanlarının avaraj oranı 33%. Sizin sektörünüzdeki diğer şirketlerin özet olarak goruntusu ekteki tablodadır.”

• «Şirket Y Comdex de sergilendi. Bir sonraki hafta Comdex sergisi ile ilgili yazıların %20 si Y şirketi ile ilgiliydi.»

Page 8: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 8

Halkla İlişkiler Çalışanları

‘Aşağıdaki tablo IT haberlerinde ki şirketiniz hakkında son 24 saatte çıkan 12 negatif raporlanacak olayı özetliyor.”

Page 9: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 9

Medya Analistleri

“Sizin şirketiniz ve XML konusundaki medya uzaklığı 0.09; IBM için bu değer 0.2”

Page 10: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 10

5 IE Turu

Named Entity recognition (NE) Coreference resolution (CO) Template Element construction (TE) Template Relation construction (TR) Scenario Template production (ST)

Page 11: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 11

Örnek:

Salı günü parlak kırmızı roket atıldı. Bu Dr. Big Head ‘in parlak bir buluşu. Dr. Head We Build Rockets şirketinde bilim adamı olarak çalışmakta.

NE “roket, Salı, Dr. Head ve We Build Rockets Inc” varlıklarını bulur.

CO rokete başvuracağını bulur.

TE roketin parlak kırmızı olduğunu ve Head’in buluşu olduğunu bulur.

TR Dr. Head’in “We Build Rockets Inc.” İçin çalıştığını bulur.

ST birçok varlığı barındıran bir roket fırlatma olayının olduğunu bulur.

Page 12: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 12

Named Entity recognition (NE) “Named Entity Extraction”

NE sistemi tum kişi isimlerini, yerleri, organizasyonları, tarihleri, para miktarlarını vs. tanımlar

NE varlık tanıması 95% oranda başarılı olmuştur

Page 13: Data extraction

Coreference resolution (CO)

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 13

Kimlik ilişkileri tanımları

“Ne yazık, zavallı Yorick, ben onu Horatio olarak bilirdim.”

Yoric => onu

Problemler: Zamir Çözumleme( anaphoric resolution)

Örneğin: ‘Ben’ ile “Ahmet”. Özel isim çözumleme(proper-noun resolution)

Örneğin: ‘IBM’, ‘IBM Europe’, ‘International Business Machines Ltd.’. .

Başarı: %50-60

Page 14: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 14

Template Element construction (TE)

Açıklayıcı bilgiler ile varlıkları ilişkilendirir.

En iyi başarı oranı %80

Page 15: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 15

Template Relation construction (TR)

Template elemenler arasında ki az sayıdaki olası ilişkiyi tanımlar

Örneğin bir kişi ve şirket arasındaki çalışan ilişkisi iki kişi arasındaki akrabalık ilişkisi, ya da iki şirket arasındaki ortaklık ilişkisi.

En iyi başarı oranı %75

Page 16: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 16

Scenario Template production (ST)

Scenario templates (STs) IE sistemleri için prototip çıktılardır.

Başarı oranı %60

Page 17: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 17

MUC dan Sonra IE

Taşınabilir IE Otomatik İçerik Çıkarımı ( Automatic Content Extraction ACE) Ontoloji Tabanlı IE

Page 18: Data extraction

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 18

Teşekurler