Kesamaan dan Keterkaitan Semantik
Click here to load reader
-
Upload
vuongthuan -
Category
Documents
-
view
300 -
download
19
Transcript of Kesamaan dan Keterkaitan Semantik
1
Kesamaan dan keterkaitan semantik antar teks
Moch Arif BijaksanaTutorial di INACL, UIN Jkt
19 Mei 2016
2
Outline
1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi
3
Outline
1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi
4
Kesamaan dan keterkaitan semantik
• Kesamaan• Keterkaitan• Simetris, transitif• Pengertian kata (sense) • Interpretability
1. Kesamaan dan keterkaitan semantik
5
Kesamaan (similarity)
• Kesamaan = kemiripan ≈ keserupaan
1. Kesamaan dan keterkaitan semantik
resourceful-parenting.blogspot.com
6
Kesamaan1. Kesamaan dan keterkaitan semantik
7
Kesamaan (cont)1. Kesamaan dan keterkaitan semantik
8
Kesamaan (cont)
• Dari kesamaan tinggi hingga rendah– Sepeda (bike) – sepeda motor (motorbike)– Sepeda (bike) – mobil (car)– ...– Sepeda (bike) – helikopter (helicopter)– ...– Sepeda (bike) – polusi (pollution)
1. Kesamaan dan keterkaitan semantik
9
Kesamaan (cont)
• SimLex999
1. Kesamaan dan keterkaitan semantik
10
Keterkaitan (relatedness)1. Kesamaan dan keterkaitan semantik
11
Keterkaitan (cont)
• anak-anak – playground• rambut – shampo• mobil – bensin• kertas – printer• sepatu – kaki• ikan – air• Sopir – mobil• mulut (kata benda) – makan (kata kerja)
1. Kesamaan dan keterkaitan semantik
12
Kesamaan dan keterkaitan
• WordSim353, range skor 0-10– Keterkaitan tinggi, kesamaan rendah• soap - opera 7.94• law - lawyer 8.38• Maradona - football 8.62
– Kesamaan tinggi• midday - noon 9.03• journey - voyage 9.29• professor - cucumber 0.31
1. Kesamaan dan keterkaitan semantik
13
Kesamaan dan keterkaitan (cont)
• Istilah umum kesamaan dan keterkaitan: kedekatan/closeness (istilah yg blm populer). Yg kadang digunakan distance/jarak.
• Kesamaan merupakan bagian dari keterkaitan. • Sepasang kata yg sama/mirip pasti terkait erat.
1. Kesamaan dan keterkaitan semantik
14
Kesamaan dan keterkaitan (cont)
• Hubungan antar kata benda pada WordNet
• Kesamaan: hypernym & hyponym.Sumber: Stanford NLP course
1. Kesamaan dan keterkaitan semantik
Kesamaan dan keterkaitan (cont) • Contoh kesamaan yg lbh kompleks: kucing di
taman.
15
1. Kesamaan dan keterkaitan semantik
16
Kesamaan dan keterkaitan (cont)
• Contoh kesamaan teks yang lebih panjang: Persib menang melawan Bali United.– Persib Bandung Bungkam Bali United– Persib Rebut Kemenangan Pertama Usai Hajar Bali
United.– Tekuk Bali United, Persib Naik ke Posisi 3 Klasemen TSC
2016– Laporan Pertandingan: Persib Bandung 2–0 Bali United
FC.– Persib Bandung Raih Kemenangan atas Bali United.
1. Kesamaan dan keterkaitan semantik
17
Simetris
• rambut - shampoo = shampoo – rambut?– Shampoo is a hair care product, typically in the
form of a viscous liquid, that is used for cleaning hair. [wikipedia]
– Hair is a protein filament that grows from follicles found in the dermis, or skin [wikipedia]
• Unt kesamaan dan keterkaitan bisa asimetri.
1. Kesamaan dan keterkaitan semantik
18
Transitif
• sepeda motor - mobil: keterkaitan tinggi• mobil - sabuk pengaman: keterkaitan tinggi• sepeda motor - sabuk pengaman: keterkaitan
tinggi?
• Unt kesamaan dan keterkaitan bisa intransitif.
1. Kesamaan dan keterkaitan semantik
19
Simetris, transitif
• Contoh unt spatial (Goodwin, 2005)
• Unt penelitian kesamaan dan keterkaitan teks hingga saat ini, tdk memperhatikan kedua hal tsb.
1. Kesamaan dan keterkaitan semantik
20
Pengertian kata (word sense)
• Bat
1. Kesamaan dan keterkaitan semantik
21
Pengertian kata (cont)1. Kesamaan dan keterkaitan semantik
22
Pengertian kata (cont)
• Cat:
1. Kesamaan dan keterkaitan semantik
23
1. Kesamaan dan keterkaitan semantik
24
Pengertian kata (cont)
• Bat : kelelawar, pemukul, ....• Cat : kucing, ....
• Kesamaan(cat,bat)=?• Kesamaan(bat#n#1, bat#n#2)=?
• Mayoritas lexical gold standard tdk menuliskan sensenya.
1. Kesamaan dan keterkaitan semantik
25
Interpretability
• Disamping skor, dalam banyak hal perlu penjelasan tentang kesamaan dan keterkaitan antar sepadang teks.
• Salah satu rintisan di SemEval 2016. Contoh– 12 killed in bus accident in Pakistan dengan
10 killed in road accident in NW Pakistan
1. Kesamaan dan keterkaitan semantik
26
Outline
1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi
2. Jenis-jenis (granularity/panjang) teks
27
Granularity
• Kata, frase, term, leksikal, konsep, synset• Kalimat pendek• Teks lebih panjang: paragraf, dokumen pendek • Teks panjang: bab, dst
2. Jenis-jenis (granularity/panjang) teks
28
Granularity (cont)
• Dlm menghitung kedekatan semantik, unt teks pendek perlu bantuan informasi (background information) termasuk konsep semantik, (misal. info sinonim).
• Contoh, unt mengitung kesamaan antara– kuda dengan ikan, perlu info apa itu kuda dan ikan.– Persib Bandung Bungkam Bali United, dengan
Persib Bandung Raih Kemenangan atas Bali United.
2. Jenis-jenis (granularity/panjang) teks
29
Granularity (cont)
• Unt teks cukup panjang, misalnya artikel berita, informasi pada teks itu sendiri umumnya sdh cukup unt penghitungan kesamaan semantik.
2. Jenis-jenis (granularity/panjang) teks
30
Outline
1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi
31
Penerapan• Kesamaan dan keterkaitan semantik digunakan unt
berbagai jenis pemrosesan bahasa alami (NLP), al:– Pengelompokan/clustering teks. – Klasifikasi teks– Deteksi plagiat– Question answering– Pembangunan tesaurus– Peringkasan teks– Penilaian esai scr otomatis (automatic essay grading)> Kesamaan dan keterkaitan teks Al Qur’an
3. Penerapan
32
Outline
1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi
2. Proses penghitungan
33
Proses penghitungan
• Unt teks berupa konsep/leksikal, dpt dibedakan atas:– Memanfaatkan backgroud information resources
yang sdh disiapkan, khususnya lexical database (taksonomi, tesaurus, ontologi). Misalnya WordNet.
– Memanfaat korpus yang ada, misalnya basisdata artikel berita.
– Gabungan atas keduanya.• Unt teks pendek (kalimat pendek), salah satu
peran penting adalah pensejajaran/alignment.
34
WordNet
35
WordNet (cont)
36
Struktur pohon
• Menggunakan struktur pohon (is-a: hypernym hyponym)
• Path-based: kesamaan berbanding terbalik dengan panjang jalur
37
WordNet: Struktur pohon
38
WordNet: Struktur pohon (cont)
39
WordNet: Struktur pohon (cont)
• Relasi dlm WordNet (Miller, 1995)
40
Path-based
• Contoh: – car dan truck mempunyai kesamaan tinggi.
41
Path-based (cont)
– car dan bicycle lebih jauh shg kurang mirip dibandingkan car - truck
• wheeled_vehicle#n#1 < self-propelled_vehicle#n#1 < motor_vehicle#n#1 < car#n#1
• wheeled_vehicle#n#1 < bicycle#n#1
42
Path-based (cont)
• Kesamaan tandem vehicle-mountain bike lebih dekat dibandingkan dengan wheel vehicel-rocket.
Path-based: permasalahan
• Jarak hubungan dari konsep dengan hiponimnya tidak seragam.– Hiponim weapon lbh beragam
Path-based: permasalahan (cont)
Path-based: permasalahan (cont)Military vehicle Offroad car
Path-based: permasalahan (cont)Military vehicle Offroad car
Path-based: permasalahan (cont)Military vehicle Car
Permasalahan dg thesaurus-based
• Tidak setiap bahasa mempunyai tesaurus yg lengkap
• Jikapun ada, ada mempunyai permasalahan dg recall– Banyak kata, apalagi frase, yang belum ada– Hubungan antar kata, terutama antar POS blm lengkap
• Salah satu solusi dengan distributional similarity
49
Permasalahan dg thesaurus-based
• Ada kata (apalagi frase dan proper noun) yg tdk terdapat pada tesaurus; shg recall rendah. – Contoh di WordNet
• Ada: “day of judgment”, tidak ada: “the righteous” ([orang] yang bertakwa, قين (المت
• Di tesaurus spt WordNet hubungan antar POS tdk ada.– Misal: “dokter” (kb), dengan “mendiagnosa” (kk) tdk – Kata kerja, kata sifat, kata keterangan tdk mempunyai
taksonomi is-a.• Banyak bahasa, termasuk bahasa Indonesia yg blm
memiliki tesaurus yg lengkap.
50
Apa itu pendekatan distribusional?
• Input: – Korpus, misalnya korpus artikel berita.– Pasangan kata yang hendak diukur (w1, w2)– Unt pendekatan supervised learning: perlu data
latih berupa pasangan2 kata dan label kelasnya (misalnya sinonim/parafrase atau bukan).
• Output:– Skor atau kelas kedekatan
51
Distributional similarity
• Disebut juga “distributional model of meaning” atau “vector space model of meaning”.
52
Distributional similarity: Intuisi• Dari [ref]
A bottle of tesgüino is on the tableEverybody likes tesgüinoTesgüino makes you drunkWe make tesgüino out of corn.
• Apa itu tesgüino?• Dari konteks di atas, kita tebak bahwa tesgüino adalah
satu jenis minuman keras.• Dua benda (atau scr umum: konsep) mirip jika
mempunyai konteks yang mirip. Semakin mirip konteksnya, maka dua benda tsb semakin mirip.
53
Distributional similarity (cont)
• A bottle of tesgüino is on the tableEverybody likes tesgüinoTesgüino makes you drunkWe make tesgüino out of corn.
• A bottle of chicha is on the tableEverybody likes chichaChicha makes you drunkWe make chicha out of corn.
54
Distributional similarity
• A bottle of togwa is on the tableEverybody likes togwaWe make togwa out of corn.
55
Distributional similarity (cont)
• Zellig Harris (1954): “oculist (optometrist) dan dokter mata berada pada lingkungan yang hampir sama..”. Jika dua hal berada pada lingkungan yang sangat mirip, mereka dapat dikatakan sinonim.
• L. Wittgenstein (1953): “For a large class of cases — though not for all — in which we employ the word ‘meaning’ it can be defined thus: the meaning of a word is its use in the language “.
56
Distributional similarity (cont)
• Hipotesa distribusional: kata-kata yang berada pada konteks yang serupa mempunyai makna (secara semantik) sama.
57
Kelemahan pendekatan distribusional
• Presisi bisa lebih rendah (dibandingkan dengan pendekatan tesaurus). – Perlu
• Pengertian kata (word sense) harus ditanggulangi.
Mengapa perlu pendekatan distribusional?
58
Proses penghitungan pendekatan distribusional
• Ada 2 komponen utama:– Penggunaan/pemilihan konteks• Himpunan konteks/lingkungan• Bobot konteks
– Penghitungan kedekatan (kesamaan, keterkaitan)• Proses bisa unsupervised atau supervised– Unsupervised lebih umum
59
Himpunan konteks
• Matriks /tabel kata-konteks– Analogi dengan matriks dokumen-fitur
60
• Kata sebagai sebuah vektor (vector semantics)
61
• Fitur disamping konteks ada kemungkinan ditambah jenis lain, misalnya kelas dokumen.
62
• Distributional models of meaning= vector-space models of meaning = vector semantics
63
Matriks kata-konteks
information storage clinical cancer ...
computation 2 1 0 0
algorithm 1 3 0 0
drug 0 0 2 3
tumor 0 0 3 1
information and the computation are generally less intensivethis informational difference algorithms for perfect informationof transformative anticancer drugs including clinical investigators, institutional
Clinical activity, tumor associated lymphocytes, PD-L1
• Dimensi bisa sangat tinggi (kosa kata untuk konteks sangat banyak)
• Matriks yang jarang (sparse matrix)
64
• Penggunaan/pemilihan konteks– Himpunan konteks/lingkungan– Bobot konteks
• Himpunan konteks/lingkungan, misal– Dokumen– Paragraf– Bbrp kata– Sintaktik
• Yang lebih populer sebagai konteks adalah kata.
65
Word context, concordance
66
Matriks kata-kata
information storage clinical cancer ...
computation
algorithm
drug
tumor
information and the computation are generally less intensivethis informational difference algorithms for perfect informationof transformative anticancer drugs including clinical investigators, institutional
Clinical activity, tumor associated lymphocytes, PD-L1
kata
kata (sbg konteks)
67
• Penggunaan/pemilihan konteks– Himpunan konteks/lingkungan– Bobot konteks
information storage clinical cancer ...
computation
algorithm
drug
tumor
68
Word context, concordance
69
• Bobot, al:– TF-IDF– Pointwise Mutual Information (PMI)
• PMI lebih populer dan dianggap lebih tepat krn berdasarkan co-occurrence antar kata.
70
word-word matrix
information storage clinical cancer ...
computation 2 1 0 0
algorithm 1 3 0 0
drug 0 0 2 3
tumor 0 0 3 1
information and the computation are generally less intensivethis informational difference algorithms for perfect informationof transformative anticancer drugs including clinical investigators, institutional
Clinical activity, tumor associated lymphocytes, PD-L1
71
Poinwise Mutual Information (PMI)
• Ada event x dan y. PMI menghitung tingkat seberapa lebih sering muncul bersama (co-occur) dibandingkan mereka muncul sendiri-sendiri (indepent).
• PMI antara dua kata w1 dan w2
72
Positive PMI
• PMI bisa bernilai -∞ hingga + ∞• Nilai PMI negatif, maka PMI = 0, krn nilai PMI
negatif mempunyai pengertian yg tdk jelas.
73
• Misal, matriks dengan entri adalah jml kata.• Total jumlah kata dalam matrix = 15
• P(computation,storage) = 1/15 = 0,067• P(computation) = 3/15 = 0,2• P (storage) = 4/15 = 0,267• PMI (computation,storage) = log2 (0,067 / (0,2 * 0,267) = 0,321
information storage clinical cancercomputation 2 1 0 0 3algorithm 1 3 0 0drug 0 0 2 3tumor 0 0 3 1
4 15
74
• Misal, matriks dengan entri adalah jml kata.• Total jumlah kata dalam matrix = 15
information storage clinical cancercomputation 0,321algorithmdrugtumor
75
Penghitungan kedekatan
• Ada 2 komponen utama:– Penggunaan/pemilihan konteks• Himpunan konteks/lingkungan• Bobot konteks
– Penghitungan kedekatan (kesamaan, keterkaitan)• Penghitungan kedekatan antar dua vektor, yg
paling populer dg cosine similarity.
76
Cosine similarity
c1
c2
w1
w2
θ
1
1
77
Penghitungan kedekatan yg lain
• Antara lain,
78
Outline
1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi
Evaluasi
• Evaluasi intrinsik (in-vitro), dibandingkan dengan gold standard penilaian manusia.– Dilakukan dg menghitung korelasi (bila hasil skor) atau F1
(bila hasil kelas/kelompok).• Pearson (r): korelasi atas nilai skor.• Spearman (ρ): korelasi atas ranking.
– Zesch and Gurevych (2010) berpendapat Spearman lbh tepat krn Pearson punya kelemahan: sensitif thd outlier dan tdk tepat unt data non-linear.
• Evaluasi ekstrinsik (task-based, end-to-end, in-vivo), al:– WSD, Essay grading, TOEFL multiple-choice vocabulary tests.
• Unt spearman, nilai diganti dg ranking.
In-vitro (intrinsik) vs in-vivo (ekstrinsik)
Dataset
• Dataset kata bhs Inggris unt domain umum
Dataset (cont)
• Dataset kata bhs Inggris unt domain medis
• Dataset kata bhs Inggris unt domain keislaman
Similarity-relatedness?
• Dataset yang populer seperti WordSim353 menggunakan istilah “similarity”, meskipun banyak diantara bagian dataset tsb adalah relatedness.
• Demikian juga QurSim, yang utamanya merupakan pasangan keterkaitan ayat.
Contoh dataset
• Contoh pasangan kata keterangan Simlex999
Contoh dataset (cont)
• Contoh pasangan kata benda Simlex999
Contoh dataset (cont)
• Contoh pasangan kata kerja Simlex999
QurSim
• سرابا فكانت الجبال رت وسيdan dijalankanlah gunung-gunung maka menjadi fatamorganalah ia. QS 78:20
• المنفوش كالعهن الجبال وتكونdan gunung-gunung adalah seperti bulu yang dihambur-hamburkan. QS 101:5
• Kedua ayat tentang gunung2 pada hari kiamat.
Hasil Evaluasi