Part-Of-Speech Tagging
Irene Ully (0606101515)Laras Anggun B (0606101603)
Apa itu POS tagging?
•Part-of-speech tag (POS tag)▫Suatu label yang mengidentifikasi kategori
linguistik atau kelas kata dari suatu kata atau token pada suatu teks
•Tagging▫Proses asosiasi setiap token yang ada pada
teks dengan tag atau label yang bersesuaian dengannya
•POS tag dapat memberikan berbagai informasi tentang kelas kata dari suatu kata dan kata-kata lain yang terdapat di sekitar kata tersebut dalam suatu teks.▫Informasi ini berguna untuk kegiatan-
kegiatan yang berhubungan dengan bidang linguistik.
▫Contoh: ‘bisa’ -> tag: kata benda -> arti:racun‘bisa’ -> tag: verba modal -> arti:kemampuan melakukan sesuatu
•Kegunaan dan tujuan lain:▫Menentukan imbuhan apa saja yang bias
ditambahkan pada suatu kata.▫Menentukan kata-kata apa saja yang biasa
muncul di sekitar suatu kata.•Bidang pemrosesan bahasa natural:
▫Speech recognition▫Information retrieval▫Question answering
Tagset
•Tagset▫Kumpulan atau koleksi tag untuk tujuan
dan keperluan tertentu.•Contoh:
▫Penn Treebank tagset dengan 45 jenis tag▫Brown Corpus tagset dengan 87 jenis tag▫Lancaster UCREL C5 dengan 61 jenis tag▫Lancaster C7 dengan 145 jenis tag
•Tagset bahasa Indonesia?▫Hingga saat ini belum ada suatu tagset
yang baku dan formal yang dapat digunakan sebagai suatu standar.
▫Sering dibuat tagset-tagset baru yang mengacu pada suatu tagset bahasa Inggris yang sudah umum dan disesuaikan dengan aturan bahasa Indonesia
Metode-Metode POS Tagger• Statistikal : ”probabilitas”
▫Generative Model : joint probability▫Conditional Model : conditional probability
Hidden Markov Model Maximum Entropy Markov Model Conditional Random Fields
• Rule-Based : ”aturan baku”
• Transformation Based Learning : ”belajar sendiri”
Hidden Markov Model Tagger
•Pemodelan statistik •Sistem menghasilkan urutan symbol
tertentu yang dapat diamati berdasarkan sebuah proses probabilistik yang parameternya tersembunyi
•Digambarkan sebagai sebuah Finite State Automata (FSA)
•HMM tagger tidak hanya akan memilih tag terbaik untuk suatu kata namun juga sebarisan tag terbaik untuk kata-kata dalam suatu kalimat▫Ť = argmax Tϵτ P(T|W)
•Dapat diselesaikan dengan algoritma forward dan Viterbi
Conditional Random Fields
•Tipe conditional model▫“Probabilitas tag NN jika diketahui kata
payung”
•Berdasarkan konsep maximum entropy▫Mengefisienkan model generatif HMM
•Memperhitungkan seluruh rangkaian status, tidak hanya satu status sebelumnya▫Mengatasi masalah label bias MEMM
•Menggunakan fitur sisi dan fitur titik▫Fitur sisi : “true jika kata yang diamati adalah
‘payung’ dan dua kata selanjutnya adalah ‘hujan’”
▫Fitur titik : “true jika kata yang diamati adalah ‘payung’ dan tag yang berasosiasi adalah ‘kata benda’”
• Juga konstanta untuk kedua fitur▫‘Seberapa benar’ fitur tersebut▫Diperbaharui hingga konvergen
Transformation Based Learning
•Mempelajari aturan sintaktis dan posisional dari korpus
•Lexical Learning▫“kata berawalan ’me-’ adalah kata kerja”
•Contextual Learning▫“tag ’kata kerja’ diikuti oleh tag ’kata
benda’”
Pengembangan POS Tagger untuk Bahasa Indonesia
•Chandrawati, Triastuti•Perbandingan berbagai metode POS
Tagger untuk Bahasa Indonesia•CRF || TBL || CRF-TBL•49 artikel surat kabar•4 jenis dokumen fitur CRF
CRF-TBL• Pembelajaran
▫CRF : learning Korpus Pembelajaran I + fitur Model Leksikal
▫CRF : tagging Korpus Pembelajaran II▫TBL : compare Korpus Pemb II + Korpus Pemb
II ‘asli’ Contextual Rule
• Pengujian▫CRF -> Lexical Tagging▫TBL -> Contextual Tagging
Kesimpulan Penelitian
•TBL : metode yang paling akurat (90%)▫Persentase kesalahan tagging lebih kecil
dibanding metode CRF dan CRF-TBL
•Mistag oleh CRF terutama disebabkan oleh tidak ditemukannya regularitas dalam tata Bahasa Indonesia▫“Saya membeli sebuah payung”▫“Saya membeli payung”
Kritik
•Penentuan fitur-fitur untuk CRF tidak dijelaskan asal-usul linguistiknya
•Beberapa kesalahan analisa mistag
Saran
•Perbanyak korpus untuk data pelatihan
•Ikutsertakan linguist Bahasa Indonesia
Unsupervised Multilingual Learning for POS Tagging
•Synder, Naseem, Jacob, dan Barzilay•Membuktikan keefektifan multilingual
learning ketika diaplikasiakn ke pasangan dua bahasa baik yang berelasi dekat maupun yang berelasi jauh
•Didasari dari pola ambiguitas dalam pemberian POS tagging antar bahasa yang berbeda
•Kenapa multilingual learning?▫Membuat struktur suatu bahasa menjadi
lebih jelas dengan mengkombinasikan isyarat-isyarat dari berbagai bahasa lainnya
•Model▫Dapat mempelajari fitur-fitur dari bahasa
tertentu sekaligus menangkap pola-pola yang ada antar bahasa dalam distrubusi tag
▫Hierarki Bayesian
•Dievaluasi dalam korpus parallel▫bahasa Inggris, bahasa Bulgaria, bahasa
Serbia, dan bahasa Slovania•Dilatih menggunakan model bilingual
dalam korpus•Dievaluasi dengan tes monolingual
Kesimpulan Penelitian
•Peningkatan dibandingkan dengan model monolingual untuk semua bahasa dan semua pasangan
•Untuk bahasa Serbia dan Slovania▫Error turun hingga 53%
•Mengurangi gap antara proses tagging yang unsupervised dan yang supervised
•Untuk bahasa Slovania ▫gap turun hingga 71%
Kesimpulan
• POS tagging dapat memberi informasi mengenai kelas kata
• Informasi mengenai kelas kata berguna untuk proses linguistik
• Salah satu dasar pemrosesan bahasa natural adalah penggunaan POS tagging
• Ada empat metode POS tagger▫Statistikal (HMM, Maximum Entropy,
Conditional Random Fields)▫Rule-Based▫Transformation Based Learning
Top Related