حضرت علی علیه السلام: هرگاه خداوند بنده ای را پست و ذلیل...
description
Transcript of حضرت علی علیه السلام: هرگاه خداوند بنده ای را پست و ذلیل...
ساختار ارائه
معرفی برچسب گذار•کاربردها–روشها–
شرح مراحل انجام پروژه پیاده سازی برچسب •گذار زبان فارسی
ایجاد دیکشنری–ایجاد و ارزیابی قواعد–کلمات ناشناخته–شناسایی فعل–ارزیابی–
نمونه ابزار انگلیسی
ورودی:•
خروجی•
)ادامه( نمونه ابزار انگلیسی
کاربردها
مدل سازی زبانی )در بازشناسی گفتار و ...(: مقوله نحوی یک •کلمه می تواند در پیش بینی کلمه بعدی کمک کند.
مثال: انگلیسی: ضمایر ملکی+ اسم –فارسی: حرف اضافه )اسم یا ضمیر( –
سنتز گفتار: مقوله نحوی یک کلمه می تواند اطالعاتی در مورد •نحوه تلفظ صحیح یک کلمه به ما بدهد.
obJECT (verb) و OBject (noun)مثال: تلفظ –تلفظ”مPرد“ )اسم(، ”مMرد“ )فعل(–
بازیابی اطالعات: دانستن مقوله نحوی کلمات می تواند به •استخراج کلمات مهم در متن کمک کند.
رفع ابهام معنایی: دانستن مقوله نحوی کلمات می تواند به رفع •ابهام معنایی کلمه کمک کند.
در انگلیسی و کلمه ”در“ در فارسیwatchمثال: کلمه –
پایین به باال در ابتدا نیاز به parsing(: برای parsingتجزیه نحوی )•تعیین مقوله نحوی کلمات داریم.
روشها
:POS taggingروش های کلی •(rule based POS taggingروش های مبتنی بر قاعده )–
tags----< دیکشنری •tag ----< مجاور+قواعد •
(probabilistic/stochastic POS taggingروش های آماری )–
(transformation-based POS taggingروش های ترکیبی )–
ارزیابی
پيكره متني به دو بخش تقسيم مي شود:•(train از پيكره براي آموزش )80-90%–(test از پيكره براي آزمون )10-20%–
با استفاده از داده آموزش آمارهاي الزم استخراج مي گردد • برروي داده آزمون تست مي شود.POS taggingو سپس
قسمتي:5تكنيك اعتبارسنجي متقابل • قسمت مساوي تقسيم مي شود.Kپيكره متني به – بخش ديگر K-1در هر مرحله از ارزيابي، يك بخش براي آزمون و –
براي آموزش به كار مي رود. مرحله K بار تكرار مي گردد و درنهايت از نتايج ارزيابي Kاين روند –
ميانگين گرفته مي شود.
:POS taggingدقت •100
كلمات كل تعدادصحيح برچسب با كلمات تعداد
Acc
بخش دوم
پیاده سازی برچسب گذار زبان فارسی
ایجاد دیکشنری
ترکیب هر سه پیکره )آموزش ، تست و •ارزیابی(
نرمالسازی متن•شمارش تگهای هر کلمه•
ADJوارد167 –Nوارد12 –
پر تکرار ترین برچسب به عنوان تگ پیشفرض•
قواعد
انواع قوانین •TAG-1 TAG-2 TAG-3
TAG-3 TAG-X when TAG-2 @ (-1) TAG-1 @ (-2)TAG-1 TAG-X when TAG-2 @ (+1) TAG-3 @ (+2)TAG-2 TAG-X when TAG-3 @ (+1)
استفاده از قواعد قبلی•ساخت قواعد جدید•
ایجاد قواعد جدید
استخراج سه گانه های داخل متن•
محاسبه مجموع دفعات ظهور هر سه گانه•
مهردرگرگان،براساسخبرنگا
رگزاربهش
NPREPPUNCNPREPNNNPREP
دراینروزبرایپیامبراکرمترکمن
دینیهاباورهای
ADJNPREPNPREMPREPNADJN
PREP N NN N NN N PREPN PREP NPREP N PUNCN PUNC PREPPUNC PREP NPREP N NN N ADJN ADJ NADJ N PREP...
ایجاد قواعد جدید )ادامه(
دسته بندی و محاسبه درصد وقوع در هر دسته•• DJ ADV N 32.75%• DJ ADV PREP 26.95%• DJ ADV V 15.37%• DJ ADV DJ 10.33%• DJ ADV PRENUM 4.03%• DJ ADV ADV 3.27%• DJ ADV PUNC 2.27%• DJ ADV SUBR 2.02%• DJ ADV PREM 1.76%• DJ ADV PR 1.26%
تبدیل سه گانه های کم تکرار به سه گانه های •پر تکرار
PR N when ADV @ (-1) DJ @ (-2)PR PREP when ADV @ (-1) DJ @ (-2)
تست قواعد•
20سه گانه های بیشتر از درصد
10سه گانه های کمتر از درصد
دسته بندی قواعد
کلمه »سراسر«•
PRENUMNPOSNUMPREMدو
POSNUMNADJPRENUMدوم
POSTPPARTNPREPرا
NPREPIDENADJسر
NADJPREMADVسراسر
NIDENADJNعالمه
ADJNADJNعلمیه
ADJ به Nکالس تبدیل ADJ به Nکالس تبدیل
به Nکالس تبدیل PREM
به Nکالس تبدیل PREM
به Nکالس تبدیل ADV
به Nکالس تبدیل ADV
N -> ADJ if POSNUM @ [-1] PR @ [-2]
N -> ADJ if PSUS @ [-1] PREM @ [-2]
N -> ADJ if POSTP @ [-1] PRENUM @ [-
2]
. . .
بهبود عملکرد
افعال چند بخشی• شناسایی فعل کمکی و ترکیب با فعل اصلی–
شناسایی کلمات ناشناخته= توجه به وندها•وندهای سازنده صفات نظیر: انگیز، گیر ، مند و ...–وندهای صرف افعال: اند ، اید ، ایم و ...–وندهای اسامی جمع: ان ، گان، ها––...تگ پیشفرض = اسم مفرد–
ارزیابی
کارهای آتی
تست قواعد و بهبود آنها•توسعه برچسب گذار در الیه دوم•ایجاد پارسر زبان فارسی•
با سپاس از توجهتانبا سپاس از توجهتان