C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n...
Transcript of C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n...
��I HÅC QUÈC GIA H� NËI
TR×ÍNG ��I HÅC CÆNG NGH�
�������
TR�N HÇNG VI�T
C�I TI�N CH�T L×ÑNG DÀCH M�Y THÈNG K�
CHO C�P NGÆN NGÚ ANH-VI�T
DÜA V�O C�Y PH�N T�CH CÓ PH�P PHÖ THUËC
Chuy¶n ng nh: Khoa håc m¡y t½nhM¢ sè: 62 48 01 01
TÂM T�T LU�N �N
H Nëi - 2018
Cæng tr¼nh �÷ñc ho n th nh t¤i: Tr÷íng �¤i håc Cæng ngh», �¤i håc
Quèc Gia H Nëi.
Ng÷íi h÷îng d¨n khoa håc:
1. TS.Nguy¹n V«n Vinh
2. PGS.TS. Nguy¹n L¶ Minh
Mð �¦u
1. T½nh c§p thi¸t cõa luªn ¡n
V§n �· quan trång cõa dàch m¡y li¶n quan �¸n vi»c l m th¸ n o �º sinh ra thù
tü c¡c tø (cöm) ch½nh x¡c trong ngæn ngú �½ch. Trong h» dàch m¡y thèng k¶
düa tr¶n cöm tø (PBSMT), vi»c �£o cöm tø v¨n cán �ìn gi£n v ch§t l÷ñng
ch÷a cao. B¶n c¤nh �â, do c¡c ngæn ngú câ nhi·u �°c �iºm kh¡c nhau d¨n tîi
khæng thº mæ h¼nh hâa ch½nh x¡c trong qu¡ tr¼nh dàch.
Ph÷ìng ph¡p ti·n xû lþ vîi c¡ch ti¸p cªn tê hñp câ ÷u �iºm l giú �÷ñc
�iºm m¤nh cõa h» thèng dàch m¡y düa tr¶n cöm tø, gi£m thiºu thíi gian gi£i
m¢, công nh÷ giú �iºm m¤nh cõa dàch m¡y theo có ph¡p trong b i to¡n �£o
trªt tü tø. Nhúng v§n �· th¡ch thùc �°t ra:
- Mët sè nghi¶n cùu �¢ ¡p döng �£o trªt tü tø düa tr¶n c¥y có ph¡p phö
thuëc cho chi·u Anh-Vi»t. Tuy nhi¶n nhúng nghi¶n cùu n y chõ y¸u dòng
c¡c luªt b¬ng tay, ch÷a ¡p döng c¡c luªt tü �ëng trong b i to¡n dàch.
- �t nghi¶n cùu sû döng ti·n xû lþ düa v o c¥y có ph¡p phö thuëc, tçn t¤i
nhi·u h¤n ch¸ c¦n c£i ti¸n �º n¥ng cao ch§t l÷ñng.
Vîi ÷u �iºm cõa c§u tróc c¥y ph¥n t½ch phö thuëc trong vi»c thº hi»n quan h»
phö thuëc tø, tèc �ë nhanh, phò hñp vîi v§n �· sp x¸p l¤i trªt tü tø, luªn ¡n
tªp trung nghi¶n cùu �· t i: "C£i ti¸n ch§t l÷ñng dàch m¡y thèng k¶ cho c°p
ngæn ngú Anh-Vi»t düa v o c¥y ph¥n t½ch có ph¡p phö thuëc�.
2. Möc ti¶u cõa luªn ¡n
• Nghi¶n cùu c¡c ph÷ìng ph¡p gi£i quy¸t b i to¡n �£o cöm tø trong dàch
m¡y thèng k¶ düa v o cöm theo h÷îng ti¸p cªn ti·n xû lþ.
• X¥y düng, mð rëng c¡c luªt thõ cæng v ph¡t triºn c¡c luªt tü �ëng ¡p
döng �º c£i thi»n ch§t l÷ñng dàch m¡y thèng k¶.
• Nghi¶n cùu h» thèng dàch thèng k¶ Moses, t½ch hñp tri thùc ngæn ngú, �·
xu§t ph÷ìng ph¡p mîi, thüc nghi»m.
3. �âng gâp cõa luªn ¡n
• Nghi¶n cùu c¡c hi»n t÷ñng ngæn ngú, �· xu§t c¡c luªt �£o trªt tü tø thõ
cæng tø vi»c lüa chån �°c tr÷ng v· ngæn ngú tr¶n c¥y có ph¡p phö thuëc.
• �· xu§t ph÷ìng ph¡p sû döng �a ph¥n lîp trong håc m¡y �º gi£i quy¸t
b i to¡n sp x¸p l¤i trªt tü tø. C¡c luªt �÷ñc håc tü �ëng tø ngú li»u.
• �· xu§t ph÷ìng ph¡p sû döng m¤ng nì-ron �º gi£i quy¸t b i to¡n sp
x¸p l¤i c¥u nguçn theo thù tü tø c¥u �½ch.
• Ph¥n t½ch £nh h÷ðng cõa c¡c léi ph¥n t½ch có ph¡p �¸n ch§t l÷ñng dàch
qua vi»c ¡p döng c¡c luªt sp x¸p l¤i trªt tü tø ph½a c¥u nguçn.
K¸t qu£ nghi¶n cùu �÷ñc cæng bè trong 10 cæng tr¼nh: 08 b¡o c¡o trong k� y¸u
cõa hëi nghà quèc t¸ câ ph£n bi»n; 01 b¡o c¡o trong k� y¸u cõa hëi th£o quèc
gia câ ph£n bi»n; 01 b i b¡o ð t¤p ch½ trong n÷îc câ ph£n bi»n.
4. Bè cöc cõa luªn ¡n
• Ch÷ìng 1 Têng quan c¡c v§n �· li¶n quan luªn ¡n.
• Ch÷ìng 2 Ph÷ìng ph¡p düa v o luªt thõ cæng cho b i to¡n �£o trªt tü
tø trong dàch m¡y thèng k¶.
• Ch÷ìng 3 Ph÷ìng ph¡p sû döng c¡c luªt tü �ëng b¬ng håc m¡y vîi �a
ph¥n lîp.
• Ch÷ìng 4 Ph÷ìng ph¡p sû döng m¤ng nì-ron k¸t hñp c¡c thæng tin ngú
c£nh.
• Ch÷ìng 5 �nh h÷ðng cõa c¥y ph¥n t½ch có ph¡p phö thuëc v x¥y düng
h» thèng thû nghi»m.
Ch֓ng 1
Têng quan c¡c v§n �· li¶n quan
luªn ¡n
Ch÷ìng n y tr¼nh b y têng quan v· c¡c v§n �· nghi¶n cùu trong luªn ¡n,
bao gçm: dàch m¡y (Machine Translation - MT), dàch m¡y thèng k¶ (Statistical
Machine Translation - SMT), mæ h¼nh dàch m¡y düa tr¶n cöm tø, ph¥n t½ch
có ph¡p, có ph¡p phö thuëc, c¡c nghi¶n cùu li¶n quan, �÷a ra v§n �· cán tçn
t¤i m luªn ¡n s³ tªp trung gi£i quy¸t.
1.1 Làch sû dàch m¡y
Dàch l mët qu¡ tr¼nh chuyºn ngh¾a cõa c¡c tø hay v«n b£n sang ngæn ngú
kh¡c, li¶n quan �¸n vi»c gi£i m¢ ngh¾a cõa ngæn ngú nguçn v sau �â m¢ hâa
l¤i theo ngh¾a v o ngæn ngú �½ch. Qu¡ tr¼nh �ái häi ki¸n thùc �¦y �õ v· ngæn
ngú bao gçm: h¼nh th¡i håc, có ph¡p, ngú ngh¾a...
1
(a) Th¡p chuyºn �êi thº hi»n qu¡ tr¼nh dàch
theo c¡c ph÷ìng ph¡p kh¡c nhau
(b) Th¡p chuyºn �êi thº hi»n c¡c kiºu ph¥n
t½ch trong sì �ç h¼nh th¡p
H¼nh 1.1: Sì �ç h¼nh th¡p thº hi»n c¡c h» thèng dàch m¡y kh¡c nhau.
1.2 Têng quan v· dàch m¡y
1.3 Dàch m¡y thèng k¶
Dàch m¡y thèng k¶ (SMT) l mët ph÷ìng ph¡p ti¸p cªn cõa dàch m¡y düa
tr¶n ph¥n t½ch thèng k¶ tªp dú li»u c¡c c°p c¥u tø hai ngæn ngú, ngú li»u song
ngú.
H¼nh 1.2: Ki¸n tróc cì b£n cõa h» thèng dàch m¡y thèng k¶
2
1.4 Dàch m¡y m¤ng nì-ron
H¼nh 1.3: H» thèng dàch m¡y düa tr¶n m¤ng nì-ron
1.5 Ph¥n t½ch có ph¡p phö thuëc
1.6 V§n �· �£o trªt tü tø trong dàch m¡y
1.6.1 Sü kh¡c nhau v· thù tü tø giúa c¡c ngæn ngú
1.6.2 B i to¡n sp x¸p l¤i trªt tü tø
B i to¡n dàch m¡y thèng k¶ gçm hai b i to¡n con: �o¡n �ành tªp hñp tø
trong b£n dàch v x¡c �ành thù tü cõa c¡c tø dàch (b i to¡n sp x¸p l¤i).
1.7 Mæ h¼nh dàch m¡y düa tr¶n cöm tø
Ki¸n tróc cõa mæ h¼nh dàch düa tr¶n cöm tø trong h¼nh 1.4
3
11
Cách tiếp cận thành công nhất trong hệ dịch máy là dịch dựa vào cụm từ,
nghĩa là sử dụng cụm từ làm đơn vị nguyên tử. Các cụm từ trong phương pháp
này không theo nghĩa của ngôn ngữ học mà là trình tự tiếp giáp của nhiều từ
trong một câu. Trong phương pháp này, câu đầu vào của ngôn ngữ nguồn
được chia thành một chuỗi các cụm từ, những cụm từ này được ánh xạ một –
một để cho ra được các cụm từ của ngôn ngữ đích, thứ tự của các cụm từ trong
ngôn ngữ đích có thể được sắp xếp lại. Thông thường các mô hình cụm từ
được ước lượng từ các tập từ song song với sự liên kết của từ. Tất cả các cặp
cụm từ phù hợp với sự liên kết của từ đều được trích xuất. Xác suất được đưa
ra dựa trên số lượng tương đối hoặc xác suất dịch từ vựng.
),(1 fehM« h×nh ng«n ng÷
),(2 fehM« h×nh dÞch
ThuËt to¸n t×m kiÕm BEAM
M
mmm
e
fehe1
* ),(maxarg
Ng«n ng÷ nguån
Ng«n ng÷ dÞch
C¸c ®Æc trung cña dÞch m¸y dùa trªn côm tõ
...
Kiến trúc của mô hình dịch dựa trên cụm từ
Mô hình dịch dựa trên cụm từ thường không thực hiện đúng theo trình tự
của phương pháp dựa trên cơ sở từ, mà sử dụng khuôn dạng của bản ghi tuyến
tính. Các thành phần như là mô hình ngôn ngữ, mô hình dịch cụm từ, mô hình
dịch từ vựng hoặc mô hình đảo cụm đều được sử dụng một cách thích hợp.
Khuôn dạng này cho phép tích hợp các tính năng bổ sung như số lượng các từ
được tạo ra hoặc số các bản dịch cụm từ được sử dụng.
Mô hình đảo cụm thường được mô hình hóa bởi một khoảng cách cơ sở.
Đảo cụm thường bị giới hạn bởi sự dịch chuyển số lượng tối đa các từ. Các
mô hình đảo cụm thường tuân theo ngữ pháp của ngôn ngữ đích (ví dụ như
H¼nh 1.4: Ki¸n tróc cõa mæ h¼nh dàch düa tr¶n cöm tø
1.8 C¡c nghi¶n cùu li¶n quan
1.8.1 Sû döng c¡c luªt thõ cæng cho v§n �· ti·n xû lþ
1.8.2 Sû döng c¡c luªt tü �ëng cho v§n �· ti·n xû lþ
1.9 K¸t luªn ch÷ìng
4
Ch֓ng 2
Ph÷ìng ph¡p düa v o luªt thõ
cæng cho b i to¡n �£o trªt tü tø
trong dàch m¡y thèng k¶
Tr¼nh b y c¡ch gi£i quy¸t v§n �· sp x¸p l¤i trªt tü tø (�£o trªt tü tø) düa
tr¶n ti·n xû lþ cho b i to¡n dàch vîi kho ngú li»u song ngú Anh � Vi»t. Tø
ph¥n t½ch c¡c thæng tin tr¶n c¥y có ph¡p phö thuëc v c¡c hi»n t÷ñng ngæn
ngú, sû döng c¡c luªt thõ cæng �º gi£i quy¸t v§n �· �£o trªt tü tø nh÷ b÷îc
ti·n xû lþ h» thèng dàch m¡y.
2.1 V§n �· �£o trªt tü tø trong dàch m¡y
Vi»c �£o trªt tø tø düa v o c¥y ph¥n t½ch phö thuëc v ¡p döng c¡c luªt
sp x¸p l¤i �º ti¸n h nh thay �êi thù tü c¡c tø.
5
2.2 C¡c nghi¶n cùu li¶n quan
2.3 Dàch m¡y thèng k¶ düa tr¶n cöm tø
Thüc hi»n dàch c¥u nguçn sang c¥u �½ch b¬ng c¡ch chia c¥u nguçn th nh
c¡c chuéi cöm tø, méi cöm �÷ñc dàch sang ngæn ngú �½ch. Biºu di¹n cõa qu¡
tr¼nh qua cæng thùc:
t = argmaxt,a
n∑i=1
λifj(s, t, a) (2.3.1)
2.4 Ti·n xû lþ có ph¡p phö thuëc cho dàch m¡y
thèng k¶
H¼nh 2.1: V½ dö v· ti·n xû lþ cho dàch Anh-Vi»t.
2.4.1 Ph¥n t½ch hi»n t÷ñng ngæn ngú v v§n �· sp x¸p l¤i
Tªp trung v o vi»c ph¥n t½ch c¡c c§u tróc thæng döng nh§t cõa ti¸ng Anh
khi dàch sang ti¸ng Vi»t nh÷ trong h¼nh 2.2 v h¼nh 2.3.
6
H¼nh 2.2: V½ dö v· hi»n t÷ñng ngæn ngú trong cöm danh tø vîi amod v det. Trong
v½ dö n y, danh tø �computer� �÷ñc �£o vîi t½nh tø �personal�
H¼nh 2.3: V½ dö v· hi»n t÷ñng ngæn ngú trong cöm t½nh tø vîi advmod v det
2.4.2 Luªt chuyºn �êi trªt tü tø
�nh x¤: T → (L,W,O)
• T l tø lo¤i cõa tø ch½nh (nót cha) trong cöm tr¶n c¥y có ph¡p phö thuëc.
• L l nh¢n phö thuëc (hay quan h» phö thuëc) cõa c¡c nót con.
• W l trång sè �º x¡c �ành thù tü cõa nót con.
• O l d¤ng �£o (Normal: khæng �£o, Reverse: �£o).
7
H¼nh 2.4: C¡c luªt b¬ng tay cho vi»c sp x¸p l¤i tø ti¸ng Anh sang ti¸ng Vi»t sû döng
ti·n xû lþ có ph¡p phö thuëc.
2.4.3 Tªp c¡c luªt �£o trªt tü tø thõ cæng
2.5 Thüc nghi»m v· sû döng c¡c luªt thõ cæng düa
tr¶n ti·n xû lþ trong dàch m¡y
2.5.1 Tªp dú li»u v c i �°t thüc nghi»m
2.5.2 K¸t qu£ thüc nghi»m
2.6 K¸t luªn ch÷ìng
Sû döng c¡c luªt thõ cæng �º gi£i quy¸t v§n �· �£o trªt tü tø. �p döng
ph÷ìng ph¡p ti·n xû lþ �em l¤i c¥n b¬ng giúa tèc �ë, thíi gian thüc hi»n v
�ë ch½nh x¡c trong qu¡ tr¼nh gi£i m¢, n¥ng cao ch§t l÷ñng dàch.
8
H¼nh 2.5: Mët kh£o s¡t v· và tr½ tø lo¤i v c¡c nh¢n trong vi»c sp x¸p l¤i thù tü tø
B£ng 2.1: Thüc nghi»m sû döng c¡c luªt thõ cæng cho kho ngú li»u song ngú Anh-Vi»t
H» thèng BLEU(%) Mæ t£
System I 26.95 �p döng c¡c luªt vîi nhâm danh tø
System II 26.71 �p döng c¡c luªt vîi nhâm �ëng tø
System III 27.15 �p döng c¡c luªt vîi nhâm t½nh tø v giîi tø
System IV 27.26 �p döng c¡c luªt thõ cæng vîi to n bë c¡c nhâm
Baseline 26.52 H» thèng dàch tr¶n cöm tø trong cæng cö Moses
9
Ch֓ng 3
Ph÷ìng ph¡p sû döng c¡c luªt tü
�ëng b¬ng håc m¡y vîi �a ph¥n lîp
Trong ch÷ìng n y, tr¼nh b y c¡ch gi£i quy¸t b i to¡n �£o trªt tü tø nh÷
b÷îc ti·n xû lþ cho b i to¡n dàch b¬ng c¡ch mæ h¼nh hâa b i to¡n �£o trªt tü
tø vîi c¡c ph¥n lîp quan h» thù tü (v§n �· ti·n xû lþ düa tr¶n ph¥n lîp): c¡c
luªt �£o trªt tü tø �÷ñc sinh tü �ëng tø dú li»u, �÷ñc n²n thæng tin tri thùc,
c¡c �°c tr÷ng ngæn ngú v o mæ h¼nh håc m¡y.
3.1 Ti·n xû lþ düa tr¶n ph¥n lîp cho dàch m¡y düa
theo cöm
Tø nhúng ÷u �iºm cõa håc m¡y, chóng tæi �· xu§t sû döng kÿ thuªt håc
m¡y trong vi»c gi£i quy¸t v§n �· �£o trªt tü tø v ¡p döng nh÷ qu¡ tr¼nh ti·n
xû lþ cho h» thèng dàch m¡y.
3.1.1 V§n �· ti·n xû lþ düa tr¶n ph¥n lîp
X¥y düng mæ h¼nh håc m¡y câ thº tü �ëng thay �êi thù tü c¡c tø trong
c¥u ngæn ngú nguçn sang thù tü t÷ìng ùng vîi c¥u ngæn ngú �½ch.
10
3.1.2 �°c tr÷ng
H¼nh 3.1: V½ dö v· ti·n xû lþ cho ngú li»u song ngú Anh-Vi»t.
3.1.3 Mæ h¼nh ph¥n lîp
-Thuªt to¡n 2.1 : Tr½ch xu§t tü �ëng c¡c luªt vîi �¦u v o bao gçm c¡c c¥y
phö thuëc cõa c¡c c¥u nguçn v c°p giâng h ng tø.
-Thuªt to¡n 2.2 : Ti¸n h nh b¬ng c¡ch x²t t§t c£ c¡c luªt sau khi ho n th nh
theo thuªt to¡n 1 v c¡c c¥y phö thuëc ph½a nguçn �º sinh c¥u mîi.
H¼nh 3.2: Thèng k¶ v· quan h» giúa nót cha vîi nót con tr¶n ngú li»u song ngú.
11
3.2 Thüc nghi»m v· ph÷ìng ph¡p sû döng ph¥n
lîp cho vi»c ti·n xû lþ trong dàch m¡y
3.2.1 Tªp dú li»u v c i �°t thüc nghi»m
3.2.2 K¸t qu£ thüc nghi»m
H¼nh 3.3: Thèng k¶ v· quan h» giúa nót cha vîi hai nót con tr¶n ngú li»u song ngú.
B£ng 3.1: Hi»u n«ng cho t¡c vö dàch Anh- Vi»t
H» thèng BLEU (%)
Baseline 26.52
Manual Rules 27.26
Auto Rules 27.09
Auto Rules + Manual Rules 27.34
3.3 K¸t luªn ch÷ìng
12
Ch֓ng 4
Ph÷ìng ph¡p sû döng m¤ng nì-ron
k¸t hñp c¡c thæng tin ngú c£nh
Trong ch÷ìng n y, tr¼nh b y nëi dung, k¸t qu£ nghi¶n cùu v· ti·n xû lþ
có ph¡p phö thuëc cho b i to¡n dàch m¡y thèng k¶ Anh-Vi»t sû döng ph÷ìng
ph¡p håc m¡y trong �â m¤ng nì-ron dòng c¡c thæng tin ngú c£nh tø word
embedding.
4.1 Mæ h¼nh �£o düa tr¶n m¤ng nì-ron sû döng
c¥y có ph¡p phö thuëc cho dàch m¡y thèng k¶
H¼nh 4.1 mæ t£ ki¸n tróc v c¡c dú li»u hu§n luy»n, tr½ch xu§t �°c tr÷ng
trong mæ h¼nh.
4.1.1 �°c tr÷ng cho ph¥n lîp v hu§n luy»n mæ h¼nh
Ph¥n lîp head-child
Ph¥n lîp sibling
C¡c �°c tr÷ng cho hai ph¥n lîp nh÷ trong h¼nh 4.2 v h¼nh 4.3.
Lîp truy·n th¯ng
13
Méi �°c tr÷ng �÷ñc ¡nh x¤ bði vi»c tham chi¸u b£ng vîi biºu di¹n v²c tì
v c¡c v²c tì k¸t qu£ �÷ñc nèi v �÷a v o méi chuéi c¡c lîp ©n (c¡c ma trªn
trång sè) dòng h m k½ch ho¤t sigmoid :
σ(z) =1
1 + e−x(4.1.1)
(a) (b)
Pair Head child Punctuation
Label xh T(xh) L(xh) xc T(xc) L(xc) w(xh,xc)
(3,2) (3,5) (2,1) (5,4)
changed changed moment
life
VBD VBD NN NN
root root
nsubj dobj
moment Null That my
NN Null DT
PRP
Nsubj Null det
poss
0 0 0 0
(-1; 0) (0 ; 1) (0 ; 1) (-1; 0)
(c)
Pair Left child Right child Head Punctuation
Label xl T(xl) L(xl) xr T(xr) L(xr) xh T(xh) w(xl,xr)
(2,5) moment NN nsubj life V dobj changed VBD 0 (0 ; 1)
(d)
H¼nh 4.1: Mæ h¼nh �£o cho dàch m¡y thèng k¶ Anh-Vi»t sû döng m¤ng nì-ron vîi c¥y
ph¥n t½ch phö thuëc: (a) Ki¸n tróc ph¥n lîp m¤ng nì-ron (b) Mët giâng h ng c¥u tø
ngú li»u song ngú Anh-Vi»t vîi c¡c dú li»u hu§n luy»n v �°c tr÷ng �÷ñc tr½ch xu§t
cho: (c) ph¥n lîp cha-con v (d) ph¥n lîp anh-em.
Lîp ©n �¢ cho chuyºn �êi vîi v²c tì embedding x, v²c tì trång sè W v mët
gi¡ trà bias b, �¦u ra dü �o¡n δ x¡c �ành bði:
z = W.x+ b (4.1.2)
δ = tanh(z ) (4.1.3)
Hu§n luy»n m¤ng nì-ron
L = − 1
T
T∑i=1
yi log yi + (1− yi) log (1− yi) (4.1.4)
14
Đặc trưng Mô tả Đặc trưng Mô tả Pair xh
T(xh) L(xh) xc T(xc) L(xc) ω (xh, xc) Label
Cặp từ với quan hệ nút cha-con Từ nút cha xh
Part-of-speech (POS) tag của nút cha xh Nhãn phụ thuộc L(xh) giữa xh với nút cha của xh
Từ của nút con xc Part-of-speech (POS) tag của nút con xc Nhãn phụ thuộc L(xh) giữa xh với nút con xc
Giá trị logic ω(xh, xc) để chỉ nếu có dấu câu là con của nút cha xh, tồn tại giữa nút cha xh và nút con xc Nhãn có giá trị trong khoảng -1 đến 1 để cho biết nút con ở bên trái hay bên phải hoặc giữ nguyên vị trí với nút cha.
Pair xl
T(xl) L(xl) xr
T(xr) L(xr) xh T(xh) ω(xl, xr) Label
Cặp từ với quan hệ anh-em Từ của nút bên trái xl
Part-of-speech (POS) tag của nút xl Nhãn phụ thuộc L(xl) giữa nút xl và xh Từ của nút bên phải xr
Part-of-speech (POS) tag của nút xr Nhãn phụ thuộc L(xr) giữa nút xr và xh Từ của nút cha xh
Part-of-speech (POS) tag của xh Giá trị logic ω(xl, xr) để chỉ nếu có dấu câu là con của nút cha xh, tồn tại giữa nút xl và nút xr Nhãn có giá trị trong khoảng -1 đến 1 cho biết nút con phải ở bên trái hay bên phải hoặc giữ nguyên vị trí so với nút con trái.
(a) The feature of Head-child classifier
(b) The feature of sibling classifier
H¼nh 4.2: C¡c �°c tr÷ng cho quan h» head-chlid trong mæ h¼nh ph¥n lîp
Đặc trưng Mô tả Đặc trưng Mô tả Pair xh
T(xh) L(xh) xc T(xc) L(xc) ω (xh, xc) Label
Cặp từ với quan hệ nút cha-con Từ nút cha xh
Part-of-speech (POS) tag của nút cha xh Nhãn phụ thuộc L(xh) giữa xh với nút cha của xh
Từ của nút con xc Part-of-speech (POS) tag của nút con xc Nhãn phụ thuộc L(xh) giữa xh với nút con xc
Giá trị logic ω(xh, xc) để chỉ nếu có dấu câu là con của nút cha xh, tồn tại giữa nút cha xh và nút con xc Nhãn có giá trị trong khoảng -1 đến 1 để cho biết nút con ở bên trái hay bên phải hoặc giữ nguyên vị trí với nút cha.
Pair xl
T(xl) L(xl) xr
T(xr) L(xr) xh T(xh) ω(xl, xr) Label
Cặp từ với quan hệ anh-em Từ của nút bên trái xl
Part-of-speech (POS) tag của nút xl Nhãn phụ thuộc L(xl) giữa nút xl và xh Từ của nút bên phải xr
Part-of-speech (POS) tag của nút xr Nhãn phụ thuộc L(xr) giữa nút xr và xh Từ của nút cha xh
Part-of-speech (POS) tag của xh Giá trị logic ω(xl, xr) để chỉ nếu có dấu câu là con của nút cha xh, tồn tại giữa nút xl và nút xr Nhãn có giá trị trong khoảng -1 đến 1 cho biết nút con phải ở bên trái hay bên phải hoặc giữ nguyên vị trí so với nút con trái.
(a) The feature of Head-child classifier
(b) The feature of sibling classifier
H¼nh 4.3: C¡c �°c tr÷ng cho quan h» sibling trong mæ h¼nh ph¥n lîp
4.1.2 Khung l m vi»c cho �£o trªt tü tø
Khung l m vi»c mæ t£ trong h¼nh 4.4. Chóng tæi ¡p döng thuªt to¡n 4.1
(X¥y düng mæ h¼nh hu§n luy»n) v thuªt to¡n 4.2 (Sp x¸p l¤i) trong khung
l m vi»c cõa chóng tæi.
15
Input sentence
Conll format
Representation
feature
PAC Model SIB Model
Head-Child
relation Sibling
relation
New representation
feature
Prediction
sibling order Prediction
child-head order
New sentence
Rebuild
H¼nh 4.4: Khung l m vi»c cho qu¡ tr¼nh ti·n xû lþ c¥u nguçn tø dú li»u song ngú
Anh-Vi»t.
4.2 Thüc nghi»m v· ph÷ìng ph¡p sû döng m¤ng
nì-ron k¸t hñp thæng tin ngú c£nh
4.2.1 Tªp dú li»u v c i �°t thüc nghi»m
4.2.2 �iºm BLEU
4.3 Ph¥n t½ch v th£o luªn
4.4 K¸t luªn ch÷ìng
16
B£ng 4.1: Thèng k¶ ngú li»u
Corpus Sentence pairs Training Set Development Set Test Set
General 133403 131019 1304 1080
Vietnamese English
Training Sentences 131019
Average Length 18.91 17.98
Word 2481762 2360727
Vocabulary 39071 54086
Development Sentences 1304
Average Length 22.73 21.41
Word 9092 8567
Vocabulary 1537 1920
Test Sentences 1080
Average Length 22.70 21.42
Word 22707 21428
Vocabulary 2882 3816
B£ng 4.2: Hi»u n«ng cho t¡c vö dàch Anh- Vi»t
H» thèng BLEU (%)
Baseline 26.5
Manual Rules 27.12
Auto Rules 27.07
DPNN Classifier 27.16
17
Ch֓ng 5
�nh h÷ðng cõa c¥y ph¥n t½ch có
ph¡p phö thuëc v x¥y düng h»
thèng thû nghi»m
Trong ch÷ìng n y, thüc hi»n ph¥n t½ch so s¡nh �º quan s¡t hi»u qu£ cõa
c¡c léi ph¥n t½ch có ph¡p kh¡c nhau �èi vîi vi»c sp x¸p l¤i b¬ng c¡ch k¸t hñp
c¡c ph÷ìng ph¡p thüc nghi»m v mæ t£.
5.1 Ph¥n t½ch có ph¡p phö thuëc
H¼nh 5.1: Biºu di¹n �ç thà c¥y ph¥n t½ch phö thuëc vîi c¡c nh¢n quan h».
Theo quy ÷îc phê bi¸n trong c¡c t i li»u v· có ph¡p phö thuëc th¼ möc tø
n¬m ð gèc cõa môi t¶n l tø ch½nh � gåi l head, möc tø n¬m ð �¦u môi t¶n l
tø phö - gåi l dependent.
18
5.1.1 B i to¡n ph¥n t½ch có ph¡p phö thuëc
B i to¡n têng qu¡t: Cho mët c¥u, ph¥n t½ch có ph¡p �÷a ra mæ t£ v·
quan h» v vai trá ngú ph¡p cõa c¡c tø, cöm tø v h¼nh th¡i cõa c¥u �â.
15
5.2.2 Bài toán phân tích cú pháp
Bài toán tổng quát: Cho một câu, phân tích cú pháp đưa ra mô tả về
quan hệ và vai trò ngữ pháp của các từ, cụm từ và hình thái của câu đó.
Hình 1.4: Mô hình bài toán tổng quát về phân tích cú pháp phụ thuộc
Đầu vào: câu đã được phân tách từ và gán nhãn từ loại trong đó, mỗi từ
lại có một đặc điểm hình thái xác định. Quá trình kiểm tra và phân tích, tổ hợp
đầu vào dựa trên các luật cú pháp để loại bỏ các trường hợp bất quy tắc và
từng bước xây dựng nên cấu trúc cú pháp. Kết quả cần đạt được hình thái của
câu đó.
Input: o Câu x = w1, w2 …wn đã được tiền xử lý, tách từ và gán nhãn từ loại.
o Kho ngữ liệu gồm các câu đã được gán nhãn phụ thuộc.
Out put: Là đồ thị phụ thuộc của câu x.
Đồ thị phụ thuộc là: cho một tập L = {r1, …r|L|} các loại phụ thuộc
(các nhãn cung), đồ thị phụ thuộc của một câu x = (w1,w2, …wn) là một đồ thị
có hướng được gán nhãn G =(V, E, R), trong đó:
o V = Zn+1.
o E∈ {�. �}.
o R là một hàm xác định cung.
Tập đỉnh V la một tập Zn+1 = {0, 1, 2…n}, n∈ Z+ là tập số nguyên
không âm tăng dần. Điều này có nghĩa tất cả các từ trong câu là một đỉnh
(1 ≤ i ≤ n) và có một đỉnh đặc biệt là 0, không tương ứng với bất kỳ từ nào
của câu và luôn là gốc đồ thị phụ thuộc. Sử dụng V+ là tập hợp tất cả các
H¼nh 5.2: Mæ h¼nh b i to¡n têng qu¡t v· ph¥n t½ch có ph¡p phö thuëc
5.1.2 �ành d¤ng dú li»u theo chu©n CoNLL
5.1.3 Sû döng tªp nh¢n cho có ph¡p phö thuëc
5.2 �nh h÷ðng cõa léi ph¥n t½ch có ph¡p phö thuëc
tîi ch§t l÷ñng dàch m¡y
5.2.1 Ph÷ìng ph¡p ph¥n t½ch léi
- �o sü t÷ìng tü tø mèc chu©n v c¥u �÷ñc sp x¸p l¤i düa tr¶n Gold-Tree,
công nh÷ giúa mèc chu©n v c¥u �÷ñc sp x¸p l¤i düa tr¶n tøng c¥y có ph¡p.
- X¡c �ành mùc �ë léi ph¥n t½ch có ph¡p £nh h÷ðng �¸n sp x¸p l¤i.
5.2.2 �¡nh gi¡
Sû döng �ë �o Kendall's tau (τ) x¸p h¤ng �ë t÷ìng quan �º �o �ë t÷ìng
tü thù tü tø trong c¡c c°p c¥u gçm dú li»u chu©n v dú li»u �÷ñc sp x¸p l¤i.
τ =#of concordant pairs
#of all pairs× 2− 1 (5.2.1)
19
H¼nh 5.3: Mæ t£ ph÷ìng ph¡p ph¥n t½ch léi.
H¼nh 5.4: V½ dö v· léi do x¡c �ành sai lo¤i phö thuëc nót gèc khi so s¡nh dú li»u
thèng k¶ giúa c¥y �÷ñc sinh ra vîi c¥y �÷ñc sinh tø dú li»u chu©n.
H¼nh 5.5: V½ dö v· léi tø lo¤i khi so s¡nh dú li»u thèng k¶ giúa c¥y �÷ñc sinh ra vîi
c¥y �÷ñc sinh tø dú li»u chu©n.
20
84
Đánh giá qua độ đo
Đánh giá 1: sử dụng tập các tiếng Anhđược sắp xếp lại thủ công như điểm chuẩnvà so sánh nó với tập các câu tiếng Anhđược sắp xếp lại tự động.
(a)85
Đánh giá qua độ đo
Đánh giá 2: sử dụng tập các câu thamchiếu tiếng Việt đóng vai trò điểm chuẩn vàso sánh với tập các câu tiếng Anh đượcsắp xếp lại tự động.
(b)
5.2.3 Ph¥n t½ch nguy¶n nh¥n g¥y léi �£o trªt tü tø
• Léi phö thuëc: tø lo¤i khæng ph£i l mët phö thuëc �ëc lªp vîi nót cha.
• Léi nót cha: tø lo¤i sai khi �÷ñc nhªn bi¸t nh÷ nót cha.
5.3 K¸t luªn ch÷ìng
21
K¸t luªn
Sp x¸p l¤i trªt tü tø trong b÷îc ti·n xû lþ nh÷ mët ph÷ìng ph¡p bê sung câ
hi»u qu£ �èi vîi c¡c h» thèng dàch m¡y truy·n thèng, �âng vai trá quan trång trong
b£n dàch.
1. Tâm l÷ñc c¡c k¸t qu£ v �âng gâp cõa luªn ¡n
C¡c k¸t qu£ v �âng gâp bao gçm:
• �· xu§t c¡c luªt �£o trªt tü tø thõ cæng b¬ng vi»c lüa chån c¡c �°c tr÷ng v·
ngæn ngú tr¶n c¥y ph¥n t½ch có ph¡p phö thuëc.
• Chóng tæi �· xu§t luªt �£o trªt tü tø tü �ëng. Vîi hai �· xu§t gçm:
� Khai th¡c c¡c �°c tr÷ng v· ngæn ngú v �· xu§t ph÷ìng ph¡p sû döng �a
ph¥n lîp trong kÿ thuªt håc m¡y �º gi£i quy¸t b i to¡n �£o trªt tü tø nh÷
vi»c �o¡n nhªn thù tü �óng cõa ngæn ngú cõa c¥u �¦u v o t÷ìng ùng vîi
thù tü trong ngæn ngú �½ch.
� �· xu§t ph÷ìng ph¡p sû döng m¤ng nì-ron �º gi£i quy¸t b i to¡n sp x¸p
l¤i c¥u nguçn theo thù tü tø c¥u �½ch tr÷îc khi �÷a v o h» dàch �º n¥ng
cao ch§t l÷ñng b£n dàch.
• �· xu§t ph¥n t½ch £nh h÷ðng cõa c¡c léi ph¥n t½ch có ph¡p �¸n ch§t l÷ñng dàch
qua vi»c ¡p döng c¡c luªt sp x¸p l¤i trªt tü tø ph½a c¥u nguçn.
2. H¤n ch¸ v h÷îng ph¡t triºn cõa luªn ¡n
Mð rëng nghi¶n cùu cõa chóng tæi �¸n c¡c c°p ngæn ngú ho°c tøng ngæn ngú kh¡c.
Thû nghi»m ph÷ìng ph¡p håc tü �ëng vîi kho ngú li»u lîn, câ �ë phõ tèt �º câ thº
x¥y düng c¡c luªt b¬ng tay câ ch§t l÷ñng tèt công nh÷ håc tü �ëng �º câ c¡c luªt
sp x¸p l¤i trªt tü tø tèt hìn. Ngo i ra chóng tæi s³ ti¸n h nh sû döng c¡ch ti¸p cªn
t½ch hñp v o h» dàch m¡y m¤ng nì-ron �º câ thº x¥y düng h» thèng dàch tèt cho c£
hai chi·u dàch Anh-Vi»t, Vi»t-Anh.
22
Danh möc cæng tr¼nh khoa håc cõa
t¡c gi£ li¶n quan �¸n luªn ¡n
[1] Viet Hong Tran, Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen,
"Dependency-based Pre-ordering For English-Vietnamese Statistical Machine
Translation", In VNU Journal of Science: Computer Science and Communication
Engineering, 2017, pages 175-179.
[2] Viet Hong Tran, Quan Hoang Nguyen and Vinh Van Nguyen "A Neural Net-
work Classifier Based on Dependency Tree English-Vietnamese Statistical Ma-
chine Translation", In Proceedings of the 19th International Conference on
Intelligent Text Processing and Computational Linguistics, 2018. Available:
http://site.cicling.org/2018/accepted.html
[3] Viet Hong Tran, Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen,
"A Classifier-based Preordering Approach for English-Vietnamese Statistical Ma-
chine Translation", In Proceedings of the 17th International Conference on In-
telligent Text Processing and Computational Linguistics.
[4] Viet Hong Tran, Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen,
"A Reordering Model For Vietnamese-English Statistical Machine Translation
Using Dependency Information", In Computing and Communication Technolo-
gies, Research, Innovation, and Vision for the Future (RIVF), 2016 IEEE RIVF
International Conference on, pages 175-179.
[5] Viet Hong Tran, Vinh Van Nguyen and Minh Le Nguyen, "Improving English-
Vietnamese Statistical Machine Translation Using Pre-processing Dependency
23
Syntactic", In Proceedings of the Pacific Association for Computational Linguis-
tics 2015, pages 115-121.
[6] Viet Hong Tran, Huyen Vu Thuong, Vinh Nguyen Van and Trung Le Tien, "The
English-Vietnamese Machine Translation System for IWSLT 2015", In Proceed-
ing of the 12th International Workshop on Spoken Language Translation, 2015,
pages 80-84. Available: http://workshop2015.iwslt.org.
[7] Viet Hong Tran, Anh Tuan Pham, Vinh Van Nguyen, Hoai Xuan Nguyen, Huy
Quang Nguyen, "Parameter Learning for Statistical Machine Translation using
CMA-ES", In Proceedings of the Sixth International Conference KSE 2014, Se-
ries: Advances in Intelligent Systems and Computing, Vol. 326, pages 251-259.
[8] Luan Nghia Pham, Viet Hong Tran, Vinh Van Nguyen, "Vietnamese Text Ac-
cent Restoration with Statistical Machine Translation ", Proceeding of 27th Pa-
cific Asia Conference on Language, Information and Computation. Available:
http://aclweb.org/anthology/Y13-1044
[9] Hoai Thu Vuong, Vinh Van Nguyen, Viet Hong Tran and Akira Shimazu, "Im-
proving Statistical Machine Translation with Processing Shallow Parsing", Pro-
ceeding of 26th Pacific Asia Conference on Language, Information and Compu-
tation. Available: http://www.aclweb.org/anthology/Y/Y12/Y12-1043.pdf
[10] Tr¦n Hçng Vi»t, V÷ìng Ho i Thu, Nguy¹n V«n Vinh,Tr¦n L¥m Qu¥n, "�p döng
ti·n xû lþ có ph¡p næng trong dàch m¡y thèng k¶", K� y¸u hëi th£o Quèc gia l¦n
thù XV "Mët sè v§n �· chån låc cõa Cæng ngh» thæng tin v Truy·n thæng",
trang 410-416.
24