Download - Pos Tagging Review Paper

Part-Of-Speech Tagging

Irene Ully (0606101515)Laras Anggun B (0606101603)

Apa itu POS tagging?

•Part-of-speech tag (POS tag)▫Suatu label yang mengidentifikasi kategori

linguistik atau kelas kata dari suatu kata atau token pada suatu teks

•Tagging▫Proses asosiasi setiap token yang ada pada

teks dengan tag atau label yang bersesuaian dengannya

•POS tag dapat memberikan berbagai informasi tentang kelas kata dari suatu kata dan kata-kata lain yang terdapat di sekitar kata tersebut dalam suatu teks.▫Informasi ini berguna untuk kegiatan-

kegiatan yang berhubungan dengan bidang linguistik.

▫Contoh: ‘bisa’ -> tag: kata benda -> arti:racun‘bisa’ -> tag: verba modal -> arti:kemampuan melakukan sesuatu

•Kegunaan dan tujuan lain:▫Menentukan imbuhan apa saja yang bias

ditambahkan pada suatu kata.▫Menentukan kata-kata apa saja yang biasa

muncul di sekitar suatu kata.•Bidang pemrosesan bahasa natural:

▫Speech recognition▫Information retrieval▫Question answering

Tagset

•Tagset▫Kumpulan atau koleksi tag untuk tujuan

dan keperluan tertentu.•Contoh:

▫Penn Treebank tagset dengan 45 jenis tag▫Brown Corpus tagset dengan 87 jenis tag▫Lancaster UCREL C5 dengan 61 jenis tag▫Lancaster C7 dengan 145 jenis tag

•Tagset bahasa Indonesia?▫Hingga saat ini belum ada suatu tagset

yang baku dan formal yang dapat digunakan sebagai suatu standar.

▫Sering dibuat tagset-tagset baru yang mengacu pada suatu tagset bahasa Inggris yang sudah umum dan disesuaikan dengan aturan bahasa Indonesia

Metode-Metode POS Tagger• Statistikal : ”probabilitas”

▫Generative Model : joint probability▫Conditional Model : conditional probability

Hidden Markov Model Maximum Entropy Markov Model Conditional Random Fields

• Rule-Based : ”aturan baku”

• Transformation Based Learning : ”belajar sendiri”

Hidden Markov Model Tagger

•Pemodelan statistik •Sistem menghasilkan urutan symbol

tertentu yang dapat diamati berdasarkan sebuah proses probabilistik yang parameternya tersembunyi

•Digambarkan sebagai sebuah Finite State Automata (FSA)

•HMM tagger tidak hanya akan memilih tag terbaik untuk suatu kata namun juga sebarisan tag terbaik untuk kata-kata dalam suatu kalimat▫Ť = argmax Tϵτ P(T|W)

•Dapat diselesaikan dengan algoritma forward dan Viterbi

Conditional Random Fields

•Tipe conditional model▫“Probabilitas tag NN jika diketahui kata

payung”

•Berdasarkan konsep maximum entropy▫Mengefisienkan model generatif HMM

•Memperhitungkan seluruh rangkaian status, tidak hanya satu status sebelumnya▫Mengatasi masalah label bias MEMM

•Menggunakan fitur sisi dan fitur titik▫Fitur sisi : “true jika kata yang diamati adalah

‘payung’ dan dua kata selanjutnya adalah ‘hujan’”

▫Fitur titik : “true jika kata yang diamati adalah ‘payung’ dan tag yang berasosiasi adalah ‘kata benda’”

• Juga konstanta untuk kedua fitur▫‘Seberapa benar’ fitur tersebut▫Diperbaharui hingga konvergen

Transformation Based Learning

•Mempelajari aturan sintaktis dan posisional dari korpus

•Lexical Learning▫“kata berawalan ’me-’ adalah kata kerja”

•Contextual Learning▫“tag ’kata kerja’ diikuti oleh tag ’kata

benda’”

Pengembangan POS Tagger untuk Bahasa Indonesia

•Chandrawati, Triastuti•Perbandingan berbagai metode POS

Tagger untuk Bahasa Indonesia•CRF || TBL || CRF-TBL•49 artikel surat kabar•4 jenis dokumen fitur CRF

CRF-TBL• Pembelajaran

▫CRF : learning Korpus Pembelajaran I + fitur Model Leksikal

▫CRF : tagging Korpus Pembelajaran II▫TBL : compare Korpus Pemb II + Korpus Pemb

II ‘asli’ Contextual Rule

• Pengujian▫CRF -> Lexical Tagging▫TBL -> Contextual Tagging

Kesimpulan Penelitian

•TBL : metode yang paling akurat (90%)▫Persentase kesalahan tagging lebih kecil

dibanding metode CRF dan CRF-TBL

•Mistag oleh CRF terutama disebabkan oleh tidak ditemukannya regularitas dalam tata Bahasa Indonesia▫“Saya membeli sebuah payung”▫“Saya membeli payung”

Kritik

•Penentuan fitur-fitur untuk CRF tidak dijelaskan asal-usul linguistiknya

•Beberapa kesalahan analisa mistag

Saran

•Perbanyak korpus untuk data pelatihan

•Ikutsertakan linguist Bahasa Indonesia

Unsupervised Multilingual Learning for POS Tagging

•Synder, Naseem, Jacob, dan Barzilay•Membuktikan keefektifan multilingual

learning ketika diaplikasiakn ke pasangan dua bahasa baik yang berelasi dekat maupun yang berelasi jauh

•Didasari dari pola ambiguitas dalam pemberian POS tagging antar bahasa yang berbeda

•Kenapa multilingual learning?▫Membuat struktur suatu bahasa menjadi

lebih jelas dengan mengkombinasikan isyarat-isyarat dari berbagai bahasa lainnya

•Model▫Dapat mempelajari fitur-fitur dari bahasa

tertentu sekaligus menangkap pola-pola yang ada antar bahasa dalam distrubusi tag

▫Hierarki Bayesian

•Dievaluasi dalam korpus parallel▫bahasa Inggris, bahasa Bulgaria, bahasa

Serbia, dan bahasa Slovania•Dilatih menggunakan model bilingual

dalam korpus•Dievaluasi dengan tes monolingual

Kesimpulan Penelitian

•Peningkatan dibandingkan dengan model monolingual untuk semua bahasa dan semua pasangan

•Untuk bahasa Serbia dan Slovania▫Error turun hingga 53%

•Mengurangi gap antara proses tagging yang unsupervised dan yang supervised

•Untuk bahasa Slovania ▫gap turun hingga 71%

Kesimpulan

• POS tagging dapat memberi informasi mengenai kelas kata

• Informasi mengenai kelas kata berguna untuk proses linguistik

• Salah satu dasar pemrosesan bahasa natural adalah penggunaan POS tagging

• Ada empat metode POS tagger▫Statistikal (HMM, Maximum Entropy,

Conditional Random Fields)▫Rule-Based▫Transformation Based Learning