C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n...

28

Transcript of C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n...

Page 1: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

��I HÅC QUÈC GIA H� NËI

TR×ÍNG ��I HÅC CÆNG NGH�

�������

TR�N HÇNG VI�T

C�I TI�N CH�T L×ÑNG DÀCH M�Y THÈNG K�

CHO C�P NGÆN NGÚ ANH-VI�T

DÜA V�O C�Y PH�N T�CH CÓ PH�P PHÖ THUËC

Chuy¶n ng nh: Khoa håc m¡y t½nhM¢ sè: 62 48 01 01

TÂM T�T LU�N �N

H  Nëi - 2018

Page 2: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

Cæng tr¼nh �÷ñc ho n th nh t¤i: Tr÷íng �¤i håc Cæng ngh», �¤i håc

Quèc Gia H  Nëi.

Ng÷íi h÷îng d¨n khoa håc:

1. TS.Nguy¹n V«n Vinh

2. PGS.TS. Nguy¹n L¶ Minh

Page 3: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

Mð �¦u

1. T½nh c§p thi¸t cõa luªn ¡n

V§n �· quan trång cõa dàch m¡y li¶n quan �¸n vi»c l m th¸ n o �º sinh ra thù

tü c¡c tø (cöm) ch½nh x¡c trong ngæn ngú �½ch. Trong h» dàch m¡y thèng k¶

düa tr¶n cöm tø (PBSMT), vi»c �£o cöm tø v¨n cán �ìn gi£n v  ch§t l÷ñng

ch÷a cao. B¶n c¤nh �â, do c¡c ngæn ngú câ nhi·u �°c �iºm kh¡c nhau d¨n tîi

khæng thº mæ h¼nh hâa ch½nh x¡c trong qu¡ tr¼nh dàch.

Ph÷ìng ph¡p ti·n xû lþ vîi c¡ch ti¸p cªn tê hñp câ ÷u �iºm l  giú �÷ñc

�iºm m¤nh cõa h» thèng dàch m¡y düa tr¶n cöm tø, gi£m thiºu thíi gian gi£i

m¢, công nh÷ giú �iºm m¤nh cõa dàch m¡y theo có ph¡p trong b i to¡n �£o

trªt tü tø. Nhúng v§n �· th¡ch thùc �°t ra:

- Mët sè nghi¶n cùu �¢ ¡p döng �£o trªt tü tø düa tr¶n c¥y có ph¡p phö

thuëc cho chi·u Anh-Vi»t. Tuy nhi¶n nhúng nghi¶n cùu n y chõ y¸u dòng

c¡c luªt b¬ng tay, ch÷a ¡p döng c¡c luªt tü �ëng trong b i to¡n dàch.

- �t nghi¶n cùu sû döng ti·n xû lþ düa v o c¥y có ph¡p phö thuëc, tçn t¤i

nhi·u h¤n ch¸ c¦n c£i ti¸n �º n¥ng cao ch§t l÷ñng.

Vîi ÷u �iºm cõa c§u tróc c¥y ph¥n t½ch phö thuëc trong vi»c thº hi»n quan h»

phö thuëc tø, tèc �ë nhanh, phò hñp vîi v§n �· s­p x¸p l¤i trªt tü tø, luªn ¡n

tªp trung nghi¶n cùu �· t i: "C£i ti¸n ch§t l÷ñng dàch m¡y thèng k¶ cho c°p

ngæn ngú Anh-Vi»t düa v o c¥y ph¥n t½ch có ph¡p phö thuëc�.

2. Möc ti¶u cõa luªn ¡n

• Nghi¶n cùu c¡c ph÷ìng ph¡p gi£i quy¸t b i to¡n �£o cöm tø trong dàch

m¡y thèng k¶ düa v o cöm theo h÷îng ti¸p cªn ti·n xû lþ.

• X¥y düng, mð rëng c¡c luªt thõ cæng v  ph¡t triºn c¡c luªt tü �ëng ¡p

döng �º c£i thi»n ch§t l÷ñng dàch m¡y thèng k¶.

Page 4: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

• Nghi¶n cùu h» thèng dàch thèng k¶ Moses, t½ch hñp tri thùc ngæn ngú, �·

xu§t ph÷ìng ph¡p mîi, thüc nghi»m.

3. �âng gâp cõa luªn ¡n

• Nghi¶n cùu c¡c hi»n t÷ñng ngæn ngú, �· xu§t c¡c luªt �£o trªt tü tø thõ

cæng tø vi»c lüa chån �°c tr÷ng v· ngæn ngú tr¶n c¥y có ph¡p phö thuëc.

• �· xu§t ph÷ìng ph¡p sû döng �a ph¥n lîp trong håc m¡y �º gi£i quy¸t

b i to¡n s­p x¸p l¤i trªt tü tø. C¡c luªt �÷ñc håc tü �ëng tø ngú li»u.

• �· xu§t ph÷ìng ph¡p sû döng m¤ng nì-ron �º gi£i quy¸t b i to¡n s­p

x¸p l¤i c¥u nguçn theo thù tü tø c¥u �½ch.

• Ph¥n t½ch £nh h÷ðng cõa c¡c léi ph¥n t½ch có ph¡p �¸n ch§t l÷ñng dàch

qua vi»c ¡p döng c¡c luªt s­p x¸p l¤i trªt tü tø ph½a c¥u nguçn.

K¸t qu£ nghi¶n cùu �÷ñc cæng bè trong 10 cæng tr¼nh: 08 b¡o c¡o trong k� y¸u

cõa hëi nghà quèc t¸ câ ph£n bi»n; 01 b¡o c¡o trong k� y¸u cõa hëi th£o quèc

gia câ ph£n bi»n; 01 b i b¡o ð t¤p ch½ trong n÷îc câ ph£n bi»n.

4. Bè cöc cõa luªn ¡n

• Ch÷ìng 1 Têng quan c¡c v§n �· li¶n quan luªn ¡n.

• Ch÷ìng 2 Ph÷ìng ph¡p düa v o luªt thõ cæng cho b i to¡n �£o trªt tü

tø trong dàch m¡y thèng k¶.

• Ch÷ìng 3 Ph÷ìng ph¡p sû döng c¡c luªt tü �ëng b¬ng håc m¡y vîi �a

ph¥n lîp.

• Ch÷ìng 4 Ph÷ìng ph¡p sû döng m¤ng nì-ron k¸t hñp c¡c thæng tin ngú

c£nh.

• Ch÷ìng 5 �nh h÷ðng cõa c¥y ph¥n t½ch có ph¡p phö thuëc v  x¥y düng

h» thèng thû nghi»m.

Page 5: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

Ch֓ng 1

Têng quan c¡c v§n �· li¶n quan

luªn ¡n

Ch÷ìng n y tr¼nh b y têng quan v· c¡c v§n �· nghi¶n cùu trong luªn ¡n,

bao gçm: dàch m¡y (Machine Translation - MT), dàch m¡y thèng k¶ (Statistical

Machine Translation - SMT), mæ h¼nh dàch m¡y düa tr¶n cöm tø, ph¥n t½ch

có ph¡p, có ph¡p phö thuëc, c¡c nghi¶n cùu li¶n quan, �÷a ra v§n �· cán tçn

t¤i m  luªn ¡n s³ tªp trung gi£i quy¸t.

1.1 Làch sû dàch m¡y

Dàch l  mët qu¡ tr¼nh chuyºn ngh¾a cõa c¡c tø hay v«n b£n sang ngæn ngú

kh¡c, li¶n quan �¸n vi»c gi£i m¢ ngh¾a cõa ngæn ngú nguçn v  sau �â m¢ hâa

l¤i theo ngh¾a v o ngæn ngú �½ch. Qu¡ tr¼nh �ái häi ki¸n thùc �¦y �õ v· ngæn

ngú bao gçm: h¼nh th¡i håc, có ph¡p, ngú ngh¾a...

1

Page 6: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

(a) Th¡p chuyºn �êi thº hi»n qu¡ tr¼nh dàch

theo c¡c ph÷ìng ph¡p kh¡c nhau

(b) Th¡p chuyºn �êi thº hi»n c¡c kiºu ph¥n

t½ch trong sì �ç h¼nh th¡p

H¼nh 1.1: Sì �ç h¼nh th¡p thº hi»n c¡c h» thèng dàch m¡y kh¡c nhau.

1.2 Têng quan v· dàch m¡y

1.3 Dàch m¡y thèng k¶

Dàch m¡y thèng k¶ (SMT) l  mët ph÷ìng ph¡p ti¸p cªn cõa dàch m¡y düa

tr¶n ph¥n t½ch thèng k¶ tªp dú li»u c¡c c°p c¥u tø hai ngæn ngú, ngú li»u song

ngú.

H¼nh 1.2: Ki¸n tróc cì b£n cõa h» thèng dàch m¡y thèng k¶

2

Page 7: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

1.4 Dàch m¡y m¤ng nì-ron

H¼nh 1.3: H» thèng dàch m¡y düa tr¶n m¤ng nì-ron

1.5 Ph¥n t½ch có ph¡p phö thuëc

1.6 V§n �· �£o trªt tü tø trong dàch m¡y

1.6.1 Sü kh¡c nhau v· thù tü tø giúa c¡c ngæn ngú

1.6.2 B i to¡n s­p x¸p l¤i trªt tü tø

B i to¡n dàch m¡y thèng k¶ gçm hai b i to¡n con: �o¡n �ành tªp hñp tø

trong b£n dàch v  x¡c �ành thù tü cõa c¡c tø dàch (b i to¡n s­p x¸p l¤i).

1.7 Mæ h¼nh dàch m¡y düa tr¶n cöm tø

Ki¸n tróc cõa mæ h¼nh dàch düa tr¶n cöm tø trong h¼nh 1.4

3

Page 8: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

11

Cách tiếp cận thành công nhất trong hệ dịch máy là dịch dựa vào cụm từ,

nghĩa là sử dụng cụm từ làm đơn vị nguyên tử. Các cụm từ trong phương pháp

này không theo nghĩa của ngôn ngữ học mà là trình tự tiếp giáp của nhiều từ

trong một câu. Trong phương pháp này, câu đầu vào của ngôn ngữ nguồn

được chia thành một chuỗi các cụm từ, những cụm từ này được ánh xạ một –

một để cho ra được các cụm từ của ngôn ngữ đích, thứ tự của các cụm từ trong

ngôn ngữ đích có thể được sắp xếp lại. Thông thường các mô hình cụm từ

được ước lượng từ các tập từ song song với sự liên kết của từ. Tất cả các cặp

cụm từ phù hợp với sự liên kết của từ đều được trích xuất. Xác suất được đưa

ra dựa trên số lượng tương đối hoặc xác suất dịch từ vựng.

),(1 fehM« h×nh ng«n ng÷

),(2 fehM« h×nh dÞch

ThuËt to¸n t×m kiÕm BEAM

M

mmm

e

fehe1

* ),(maxarg

Ng«n ng÷ nguån

Ng«n ng÷ dÞch

C¸c ®Æc trung cña dÞch m¸y dùa trªn côm tõ

...

Kiến trúc của mô hình dịch dựa trên cụm từ

Mô hình dịch dựa trên cụm từ thường không thực hiện đúng theo trình tự

của phương pháp dựa trên cơ sở từ, mà sử dụng khuôn dạng của bản ghi tuyến

tính. Các thành phần như là mô hình ngôn ngữ, mô hình dịch cụm từ, mô hình

dịch từ vựng hoặc mô hình đảo cụm đều được sử dụng một cách thích hợp.

Khuôn dạng này cho phép tích hợp các tính năng bổ sung như số lượng các từ

được tạo ra hoặc số các bản dịch cụm từ được sử dụng.

Mô hình đảo cụm thường được mô hình hóa bởi một khoảng cách cơ sở.

Đảo cụm thường bị giới hạn bởi sự dịch chuyển số lượng tối đa các từ. Các

mô hình đảo cụm thường tuân theo ngữ pháp của ngôn ngữ đích (ví dụ như

H¼nh 1.4: Ki¸n tróc cõa mæ h¼nh dàch düa tr¶n cöm tø

1.8 C¡c nghi¶n cùu li¶n quan

1.8.1 Sû döng c¡c luªt thõ cæng cho v§n �· ti·n xû lþ

1.8.2 Sû döng c¡c luªt tü �ëng cho v§n �· ti·n xû lþ

1.9 K¸t luªn ch÷ìng

4

Page 9: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

Ch֓ng 2

Ph÷ìng ph¡p düa v o luªt thõ

cæng cho b i to¡n �£o trªt tü tø

trong dàch m¡y thèng k¶

Tr¼nh b y c¡ch gi£i quy¸t v§n �· s­p x¸p l¤i trªt tü tø (�£o trªt tü tø) düa

tr¶n ti·n xû lþ cho b i to¡n dàch vîi kho ngú li»u song ngú Anh � Vi»t. Tø

ph¥n t½ch c¡c thæng tin tr¶n c¥y có ph¡p phö thuëc v  c¡c hi»n t÷ñng ngæn

ngú, sû döng c¡c luªt thõ cæng �º gi£i quy¸t v§n �· �£o trªt tü tø nh÷ b÷îc

ti·n xû lþ h» thèng dàch m¡y.

2.1 V§n �· �£o trªt tü tø trong dàch m¡y

Vi»c �£o trªt tø tø düa v o c¥y ph¥n t½ch phö thuëc v  ¡p döng c¡c luªt

s­p x¸p l¤i �º ti¸n h nh thay �êi thù tü c¡c tø.

5

Page 10: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

2.2 C¡c nghi¶n cùu li¶n quan

2.3 Dàch m¡y thèng k¶ düa tr¶n cöm tø

Thüc hi»n dàch c¥u nguçn sang c¥u �½ch b¬ng c¡ch chia c¥u nguçn th nh

c¡c chuéi cöm tø, méi cöm �÷ñc dàch sang ngæn ngú �½ch. Biºu di¹n cõa qu¡

tr¼nh qua cæng thùc:

t = argmaxt,a

n∑i=1

λifj(s, t, a) (2.3.1)

2.4 Ti·n xû lþ có ph¡p phö thuëc cho dàch m¡y

thèng k¶

H¼nh 2.1: V½ dö v· ti·n xû lþ cho dàch Anh-Vi»t.

2.4.1 Ph¥n t½ch hi»n t÷ñng ngæn ngú v  v§n �· s­p x¸p l¤i

Tªp trung v o vi»c ph¥n t½ch c¡c c§u tróc thæng döng nh§t cõa ti¸ng Anh

khi dàch sang ti¸ng Vi»t nh÷ trong h¼nh 2.2 v  h¼nh 2.3.

6

Page 11: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

H¼nh 2.2: V½ dö v· hi»n t÷ñng ngæn ngú trong cöm danh tø vîi amod v  det. Trong

v½ dö n y, danh tø �computer� �÷ñc �£o vîi t½nh tø �personal�

H¼nh 2.3: V½ dö v· hi»n t÷ñng ngæn ngú trong cöm t½nh tø vîi advmod v  det

2.4.2 Luªt chuyºn �êi trªt tü tø

�nh x¤: T → (L,W,O)

• T l  tø lo¤i cõa tø ch½nh (nót cha) trong cöm tr¶n c¥y có ph¡p phö thuëc.

• L l  nh¢n phö thuëc (hay quan h» phö thuëc) cõa c¡c nót con.

• W l  trång sè �º x¡c �ành thù tü cõa nót con.

• O l  d¤ng �£o (Normal: khæng �£o, Reverse: �£o).

7

Page 12: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

H¼nh 2.4: C¡c luªt b¬ng tay cho vi»c s­p x¸p l¤i tø ti¸ng Anh sang ti¸ng Vi»t sû döng

ti·n xû lþ có ph¡p phö thuëc.

2.4.3 Tªp c¡c luªt �£o trªt tü tø thõ cæng

2.5 Thüc nghi»m v· sû döng c¡c luªt thõ cæng düa

tr¶n ti·n xû lþ trong dàch m¡y

2.5.1 Tªp dú li»u v  c i �°t thüc nghi»m

2.5.2 K¸t qu£ thüc nghi»m

2.6 K¸t luªn ch÷ìng

Sû döng c¡c luªt thõ cæng �º gi£i quy¸t v§n �· �£o trªt tü tø. �p döng

ph÷ìng ph¡p ti·n xû lþ �em l¤i c¥n b¬ng giúa tèc �ë, thíi gian thüc hi»n v 

�ë ch½nh x¡c trong qu¡ tr¼nh gi£i m¢, n¥ng cao ch§t l÷ñng dàch.

8

Page 13: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

H¼nh 2.5: Mët kh£o s¡t v· và tr½ tø lo¤i v  c¡c nh¢n trong vi»c s­p x¸p l¤i thù tü tø

B£ng 2.1: Thüc nghi»m sû döng c¡c luªt thõ cæng cho kho ngú li»u song ngú Anh-Vi»t

H» thèng BLEU(%) Mæ t£

System I 26.95 �p döng c¡c luªt vîi nhâm danh tø

System II 26.71 �p döng c¡c luªt vîi nhâm �ëng tø

System III 27.15 �p döng c¡c luªt vîi nhâm t½nh tø v  giîi tø

System IV 27.26 �p döng c¡c luªt thõ cæng vîi to n bë c¡c nhâm

Baseline 26.52 H» thèng dàch tr¶n cöm tø trong cæng cö Moses

9

Page 14: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

Ch֓ng 3

Ph÷ìng ph¡p sû döng c¡c luªt tü

�ëng b¬ng håc m¡y vîi �a ph¥n lîp

Trong ch÷ìng n y, tr¼nh b y c¡ch gi£i quy¸t b i to¡n �£o trªt tü tø nh÷

b÷îc ti·n xû lþ cho b i to¡n dàch b¬ng c¡ch mæ h¼nh hâa b i to¡n �£o trªt tü

tø vîi c¡c ph¥n lîp quan h» thù tü (v§n �· ti·n xû lþ düa tr¶n ph¥n lîp): c¡c

luªt �£o trªt tü tø �÷ñc sinh tü �ëng tø dú li»u, �÷ñc n²n thæng tin tri thùc,

c¡c �°c tr÷ng ngæn ngú v o mæ h¼nh håc m¡y.

3.1 Ti·n xû lþ düa tr¶n ph¥n lîp cho dàch m¡y düa

theo cöm

Tø nhúng ÷u �iºm cõa håc m¡y, chóng tæi �· xu§t sû döng kÿ thuªt håc

m¡y trong vi»c gi£i quy¸t v§n �· �£o trªt tü tø v  ¡p döng nh÷ qu¡ tr¼nh ti·n

xû lþ cho h» thèng dàch m¡y.

3.1.1 V§n �· ti·n xû lþ düa tr¶n ph¥n lîp

X¥y düng mæ h¼nh håc m¡y câ thº tü �ëng thay �êi thù tü c¡c tø trong

c¥u ngæn ngú nguçn sang thù tü t÷ìng ùng vîi c¥u ngæn ngú �½ch.

10

Page 15: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

3.1.2 �°c tr÷ng

H¼nh 3.1: V½ dö v· ti·n xû lþ cho ngú li»u song ngú Anh-Vi»t.

3.1.3 Mæ h¼nh ph¥n lîp

-Thuªt to¡n 2.1 : Tr½ch xu§t tü �ëng c¡c luªt vîi �¦u v o bao gçm c¡c c¥y

phö thuëc cõa c¡c c¥u nguçn v  c°p giâng h ng tø.

-Thuªt to¡n 2.2 : Ti¸n h nh b¬ng c¡ch x²t t§t c£ c¡c luªt sau khi ho n th nh

theo thuªt to¡n 1 v  c¡c c¥y phö thuëc ph½a nguçn �º sinh c¥u mîi.

H¼nh 3.2: Thèng k¶ v· quan h» giúa nót cha vîi nót con tr¶n ngú li»u song ngú.

11

Page 16: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

3.2 Thüc nghi»m v· ph÷ìng ph¡p sû döng ph¥n

lîp cho vi»c ti·n xû lþ trong dàch m¡y

3.2.1 Tªp dú li»u v  c i �°t thüc nghi»m

3.2.2 K¸t qu£ thüc nghi»m

H¼nh 3.3: Thèng k¶ v· quan h» giúa nót cha vîi hai nót con tr¶n ngú li»u song ngú.

B£ng 3.1: Hi»u n«ng cho t¡c vö dàch Anh- Vi»t

H» thèng BLEU (%)

Baseline 26.52

Manual Rules 27.26

Auto Rules 27.09

Auto Rules + Manual Rules 27.34

3.3 K¸t luªn ch÷ìng

12

Page 17: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

Ch֓ng 4

Ph÷ìng ph¡p sû döng m¤ng nì-ron

k¸t hñp c¡c thæng tin ngú c£nh

Trong ch÷ìng n y, tr¼nh b y nëi dung, k¸t qu£ nghi¶n cùu v· ti·n xû lþ

có ph¡p phö thuëc cho b i to¡n dàch m¡y thèng k¶ Anh-Vi»t sû döng ph÷ìng

ph¡p håc m¡y trong �â m¤ng nì-ron dòng c¡c thæng tin ngú c£nh tø word

embedding.

4.1 Mæ h¼nh �£o düa tr¶n m¤ng nì-ron sû döng

c¥y có ph¡p phö thuëc cho dàch m¡y thèng k¶

H¼nh 4.1 mæ t£ ki¸n tróc v  c¡c dú li»u hu§n luy»n, tr½ch xu§t �°c tr÷ng

trong mæ h¼nh.

4.1.1 �°c tr÷ng cho ph¥n lîp v  hu§n luy»n mæ h¼nh

Ph¥n lîp head-child

Ph¥n lîp sibling

C¡c �°c tr÷ng cho hai ph¥n lîp nh÷ trong h¼nh 4.2 v  h¼nh 4.3.

Lîp truy·n th¯ng

13

Page 18: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

Méi �°c tr÷ng �÷ñc ¡nh x¤ bði vi»c tham chi¸u b£ng vîi biºu di¹n v²c tì

v  c¡c v²c tì k¸t qu£ �÷ñc nèi v  �÷a v o méi chuéi c¡c lîp ©n (c¡c ma trªn

trång sè) dòng h m k½ch ho¤t sigmoid :

σ(z) =1

1 + e−x(4.1.1)

(a) (b)

Pair Head child Punctuation

Label xh T(xh) L(xh) xc T(xc) L(xc) w(xh,xc)

(3,2) (3,5) (2,1) (5,4)

changed changed moment

life

VBD VBD NN NN

root root

nsubj dobj

moment Null That my

NN Null DT

PRP

Nsubj Null det

poss

0 0 0 0

(-1; 0) (0 ; 1) (0 ; 1) (-1; 0)

(c)

Pair Left child Right child Head Punctuation

Label xl T(xl) L(xl) xr T(xr) L(xr) xh T(xh) w(xl,xr)

(2,5) moment NN nsubj life V dobj changed VBD 0 (0 ; 1)

(d)

H¼nh 4.1: Mæ h¼nh �£o cho dàch m¡y thèng k¶ Anh-Vi»t sû döng m¤ng nì-ron vîi c¥y

ph¥n t½ch phö thuëc: (a) Ki¸n tróc ph¥n lîp m¤ng nì-ron (b) Mët giâng h ng c¥u tø

ngú li»u song ngú Anh-Vi»t vîi c¡c dú li»u hu§n luy»n v  �°c tr÷ng �÷ñc tr½ch xu§t

cho: (c) ph¥n lîp cha-con v  (d) ph¥n lîp anh-em.

Lîp ©n �¢ cho chuyºn �êi vîi v²c tì embedding x, v²c tì trång sè W v  mët

gi¡ trà bias b, �¦u ra dü �o¡n δ x¡c �ành bði:

z = W.x+ b (4.1.2)

δ = tanh(z ) (4.1.3)

Hu§n luy»n m¤ng nì-ron

L = − 1

T

T∑i=1

yi log yi + (1− yi) log (1− yi) (4.1.4)

14

Page 19: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

Đặc trưng Mô tả Đặc trưng Mô tả Pair xh

T(xh) L(xh) xc T(xc) L(xc) ω (xh, xc) Label

Cặp từ với quan hệ nút cha-con Từ nút cha xh

Part-of-speech (POS) tag của nút cha xh Nhãn phụ thuộc L(xh) giữa xh với nút cha của xh

Từ của nút con xc Part-of-speech (POS) tag của nút con xc Nhãn phụ thuộc L(xh) giữa xh với nút con xc

Giá trị logic ω(xh, xc) để chỉ nếu có dấu câu là con của nút cha xh, tồn tại giữa nút cha xh và nút con xc Nhãn có giá trị trong khoảng -1 đến 1 để cho biết nút con ở bên trái hay bên phải hoặc giữ nguyên vị trí với nút cha.

Pair xl

T(xl) L(xl) xr

T(xr) L(xr) xh T(xh) ω(xl, xr) Label

Cặp từ với quan hệ anh-em Từ của nút bên trái xl

Part-of-speech (POS) tag của nút xl Nhãn phụ thuộc L(xl) giữa nút xl và xh Từ của nút bên phải xr

Part-of-speech (POS) tag của nút xr Nhãn phụ thuộc L(xr) giữa nút xr và xh Từ của nút cha xh

Part-of-speech (POS) tag của xh Giá trị logic ω(xl, xr) để chỉ nếu có dấu câu là con của nút cha xh, tồn tại giữa nút xl và nút xr Nhãn có giá trị trong khoảng -1 đến 1 cho biết nút con phải ở bên trái hay bên phải hoặc giữ nguyên vị trí so với nút con trái.

(a) The feature of Head-child classifier

(b) The feature of sibling classifier

H¼nh 4.2: C¡c �°c tr÷ng cho quan h» head-chlid trong mæ h¼nh ph¥n lîp

Đặc trưng Mô tả Đặc trưng Mô tả Pair xh

T(xh) L(xh) xc T(xc) L(xc) ω (xh, xc) Label

Cặp từ với quan hệ nút cha-con Từ nút cha xh

Part-of-speech (POS) tag của nút cha xh Nhãn phụ thuộc L(xh) giữa xh với nút cha của xh

Từ của nút con xc Part-of-speech (POS) tag của nút con xc Nhãn phụ thuộc L(xh) giữa xh với nút con xc

Giá trị logic ω(xh, xc) để chỉ nếu có dấu câu là con của nút cha xh, tồn tại giữa nút cha xh và nút con xc Nhãn có giá trị trong khoảng -1 đến 1 để cho biết nút con ở bên trái hay bên phải hoặc giữ nguyên vị trí với nút cha.

Pair xl

T(xl) L(xl) xr

T(xr) L(xr) xh T(xh) ω(xl, xr) Label

Cặp từ với quan hệ anh-em Từ của nút bên trái xl

Part-of-speech (POS) tag của nút xl Nhãn phụ thuộc L(xl) giữa nút xl và xh Từ của nút bên phải xr

Part-of-speech (POS) tag của nút xr Nhãn phụ thuộc L(xr) giữa nút xr và xh Từ của nút cha xh

Part-of-speech (POS) tag của xh Giá trị logic ω(xl, xr) để chỉ nếu có dấu câu là con của nút cha xh, tồn tại giữa nút xl và nút xr Nhãn có giá trị trong khoảng -1 đến 1 cho biết nút con phải ở bên trái hay bên phải hoặc giữ nguyên vị trí so với nút con trái.

(a) The feature of Head-child classifier

(b) The feature of sibling classifier

H¼nh 4.3: C¡c �°c tr÷ng cho quan h» sibling trong mæ h¼nh ph¥n lîp

4.1.2 Khung l m vi»c cho �£o trªt tü tø

Khung l m vi»c mæ t£ trong h¼nh 4.4. Chóng tæi ¡p döng thuªt to¡n 4.1

(X¥y düng mæ h¼nh hu§n luy»n) v  thuªt to¡n 4.2 (S­p x¸p l¤i) trong khung

l m vi»c cõa chóng tæi.

15

Page 20: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

Input sentence

Conll format

Representation

feature

PAC Model SIB Model

Head-Child

relation Sibling

relation

New representation

feature

Prediction

sibling order Prediction

child-head order

New sentence

Rebuild

H¼nh 4.4: Khung l m vi»c cho qu¡ tr¼nh ti·n xû lþ c¥u nguçn tø dú li»u song ngú

Anh-Vi»t.

4.2 Thüc nghi»m v· ph÷ìng ph¡p sû döng m¤ng

nì-ron k¸t hñp thæng tin ngú c£nh

4.2.1 Tªp dú li»u v  c i �°t thüc nghi»m

4.2.2 �iºm BLEU

4.3 Ph¥n t½ch v  th£o luªn

4.4 K¸t luªn ch÷ìng

16

Page 21: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

B£ng 4.1: Thèng k¶ ngú li»u

Corpus Sentence pairs Training Set Development Set Test Set

General 133403 131019 1304 1080

Vietnamese English

Training Sentences 131019

Average Length 18.91 17.98

Word 2481762 2360727

Vocabulary 39071 54086

Development Sentences 1304

Average Length 22.73 21.41

Word 9092 8567

Vocabulary 1537 1920

Test Sentences 1080

Average Length 22.70 21.42

Word 22707 21428

Vocabulary 2882 3816

B£ng 4.2: Hi»u n«ng cho t¡c vö dàch Anh- Vi»t

H» thèng BLEU (%)

Baseline 26.5

Manual Rules 27.12

Auto Rules 27.07

DPNN Classifier 27.16

17

Page 22: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

Ch֓ng 5

�nh h÷ðng cõa c¥y ph¥n t½ch có

ph¡p phö thuëc v  x¥y düng h»

thèng thû nghi»m

Trong ch÷ìng n y, thüc hi»n ph¥n t½ch so s¡nh �º quan s¡t hi»u qu£ cõa

c¡c léi ph¥n t½ch có ph¡p kh¡c nhau �èi vîi vi»c s­p x¸p l¤i b¬ng c¡ch k¸t hñp

c¡c ph÷ìng ph¡p thüc nghi»m v  mæ t£.

5.1 Ph¥n t½ch có ph¡p phö thuëc

H¼nh 5.1: Biºu di¹n �ç thà c¥y ph¥n t½ch phö thuëc vîi c¡c nh¢n quan h».

Theo quy ÷îc phê bi¸n trong c¡c t i li»u v· có ph¡p phö thuëc th¼ möc tø

n¬m ð gèc cõa môi t¶n l  tø ch½nh � gåi l  head, möc tø n¬m ð �¦u môi t¶n l 

tø phö - gåi l  dependent.

18

Page 23: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

5.1.1 B i to¡n ph¥n t½ch có ph¡p phö thuëc

B i to¡n têng qu¡t: Cho mët c¥u, ph¥n t½ch có ph¡p �÷a ra mæ t£ v·

quan h» v  vai trá ngú ph¡p cõa c¡c tø, cöm tø v  h¼nh th¡i cõa c¥u �â.

15

5.2.2 Bài toán phân tích cú pháp

Bài toán tổng quát: Cho một câu, phân tích cú pháp đưa ra mô tả về

quan hệ và vai trò ngữ pháp của các từ, cụm từ và hình thái của câu đó.

Hình 1.4: Mô hình bài toán tổng quát về phân tích cú pháp phụ thuộc

Đầu vào: câu đã được phân tách từ và gán nhãn từ loại trong đó, mỗi từ

lại có một đặc điểm hình thái xác định. Quá trình kiểm tra và phân tích, tổ hợp

đầu vào dựa trên các luật cú pháp để loại bỏ các trường hợp bất quy tắc và

từng bước xây dựng nên cấu trúc cú pháp. Kết quả cần đạt được hình thái của

câu đó.

Input: o Câu x = w1, w2 …wn đã được tiền xử lý, tách từ và gán nhãn từ loại.

o Kho ngữ liệu gồm các câu đã được gán nhãn phụ thuộc.

Out put: Là đồ thị phụ thuộc của câu x.

Đồ thị phụ thuộc là: cho một tập L = {r1, …r|L|} các loại phụ thuộc

(các nhãn cung), đồ thị phụ thuộc của một câu x = (w1,w2, …wn) là một đồ thị

có hướng được gán nhãn G =(V, E, R), trong đó:

o V = Zn+1.

o E∈ {�. �}.

o R là một hàm xác định cung.

Tập đỉnh V la một tập Zn+1 = {0, 1, 2…n}, n∈ Z+ là tập số nguyên

không âm tăng dần. Điều này có nghĩa tất cả các từ trong câu là một đỉnh

(1 ≤ i ≤ n) và có một đỉnh đặc biệt là 0, không tương ứng với bất kỳ từ nào

của câu và luôn là gốc đồ thị phụ thuộc. Sử dụng V+ là tập hợp tất cả các

H¼nh 5.2: Mæ h¼nh b i to¡n têng qu¡t v· ph¥n t½ch có ph¡p phö thuëc

5.1.2 �ành d¤ng dú li»u theo chu©n CoNLL

5.1.3 Sû döng tªp nh¢n cho có ph¡p phö thuëc

5.2 �nh h÷ðng cõa léi ph¥n t½ch có ph¡p phö thuëc

tîi ch§t l÷ñng dàch m¡y

5.2.1 Ph÷ìng ph¡p ph¥n t½ch léi

- �o sü t÷ìng tü tø mèc chu©n v  c¥u �÷ñc s­p x¸p l¤i düa tr¶n Gold-Tree,

công nh÷ giúa mèc chu©n v  c¥u �÷ñc s­p x¸p l¤i düa tr¶n tøng c¥y có ph¡p.

- X¡c �ành mùc �ë léi ph¥n t½ch có ph¡p £nh h÷ðng �¸n s­p x¸p l¤i.

5.2.2 �¡nh gi¡

Sû döng �ë �o Kendall's tau (τ) x¸p h¤ng �ë t÷ìng quan �º �o �ë t÷ìng

tü thù tü tø trong c¡c c°p c¥u gçm dú li»u chu©n v  dú li»u �÷ñc s­p x¸p l¤i.

τ =#of concordant pairs

#of all pairs× 2− 1 (5.2.1)

19

Page 24: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

H¼nh 5.3: Mæ t£ ph÷ìng ph¡p ph¥n t½ch léi.

H¼nh 5.4: V½ dö v· léi do x¡c �ành sai lo¤i phö thuëc nót gèc khi so s¡nh dú li»u

thèng k¶ giúa c¥y �÷ñc sinh ra vîi c¥y �÷ñc sinh tø dú li»u chu©n.

H¼nh 5.5: V½ dö v· léi tø lo¤i khi so s¡nh dú li»u thèng k¶ giúa c¥y �÷ñc sinh ra vîi

c¥y �÷ñc sinh tø dú li»u chu©n.

20

Page 25: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

84

Đánh giá qua độ đo

Đánh giá 1: sử dụng tập các tiếng Anhđược sắp xếp lại thủ công như điểm chuẩnvà so sánh nó với tập các câu tiếng Anhđược sắp xếp lại tự động.

(a)85

Đánh giá qua độ đo

Đánh giá 2: sử dụng tập các câu thamchiếu tiếng Việt đóng vai trò điểm chuẩn vàso sánh với tập các câu tiếng Anh đượcsắp xếp lại tự động.

(b)

5.2.3 Ph¥n t½ch nguy¶n nh¥n g¥y léi �£o trªt tü tø

• Léi phö thuëc: tø lo¤i khæng ph£i l  mët phö thuëc �ëc lªp vîi nót cha.

• Léi nót cha: tø lo¤i sai khi �÷ñc nhªn bi¸t nh÷ nót cha.

5.3 K¸t luªn ch÷ìng

21

Page 26: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

K¸t luªn

S­p x¸p l¤i trªt tü tø trong b÷îc ti·n xû lþ nh÷ mët ph÷ìng ph¡p bê sung câ

hi»u qu£ �èi vîi c¡c h» thèng dàch m¡y truy·n thèng, �âng vai trá quan trång trong

b£n dàch.

1. Tâm l÷ñc c¡c k¸t qu£ v  �âng gâp cõa luªn ¡n

C¡c k¸t qu£ v  �âng gâp bao gçm:

• �· xu§t c¡c luªt �£o trªt tü tø thõ cæng b¬ng vi»c lüa chån c¡c �°c tr÷ng v·

ngæn ngú tr¶n c¥y ph¥n t½ch có ph¡p phö thuëc.

• Chóng tæi �· xu§t luªt �£o trªt tü tø tü �ëng. Vîi hai �· xu§t gçm:

� Khai th¡c c¡c �°c tr÷ng v· ngæn ngú v  �· xu§t ph÷ìng ph¡p sû döng �a

ph¥n lîp trong kÿ thuªt håc m¡y �º gi£i quy¸t b i to¡n �£o trªt tü tø nh÷

vi»c �o¡n nhªn thù tü �óng cõa ngæn ngú cõa c¥u �¦u v o t÷ìng ùng vîi

thù tü trong ngæn ngú �½ch.

� �· xu§t ph÷ìng ph¡p sû döng m¤ng nì-ron �º gi£i quy¸t b i to¡n s­p x¸p

l¤i c¥u nguçn theo thù tü tø c¥u �½ch tr÷îc khi �÷a v o h» dàch �º n¥ng

cao ch§t l÷ñng b£n dàch.

• �· xu§t ph¥n t½ch £nh h÷ðng cõa c¡c léi ph¥n t½ch có ph¡p �¸n ch§t l÷ñng dàch

qua vi»c ¡p döng c¡c luªt s­p x¸p l¤i trªt tü tø ph½a c¥u nguçn.

2. H¤n ch¸ v  h÷îng ph¡t triºn cõa luªn ¡n

Mð rëng nghi¶n cùu cõa chóng tæi �¸n c¡c c°p ngæn ngú ho°c tøng ngæn ngú kh¡c.

Thû nghi»m ph÷ìng ph¡p håc tü �ëng vîi kho ngú li»u lîn, câ �ë phõ tèt �º câ thº

x¥y düng c¡c luªt b¬ng tay câ ch§t l÷ñng tèt công nh÷ håc tü �ëng �º câ c¡c luªt

s­p x¸p l¤i trªt tü tø tèt hìn. Ngo i ra chóng tæi s³ ti¸n h nh sû döng c¡ch ti¸p cªn

t½ch hñp v o h» dàch m¡y m¤ng nì-ron �º câ thº x¥y düng h» thèng dàch tèt cho c£

hai chi·u dàch Anh-Vi»t, Vi»t-Anh.

22

Page 27: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

Danh möc cæng tr¼nh khoa håc cõa

t¡c gi£ li¶n quan �¸n luªn ¡n

[1] Viet Hong Tran, Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen,

"Dependency-based Pre-ordering For English-Vietnamese Statistical Machine

Translation", In VNU Journal of Science: Computer Science and Communication

Engineering, 2017, pages 175-179.

[2] Viet Hong Tran, Quan Hoang Nguyen and Vinh Van Nguyen "A Neural Net-

work Classifier Based on Dependency Tree English-Vietnamese Statistical Ma-

chine Translation", In Proceedings of the 19th International Conference on

Intelligent Text Processing and Computational Linguistics, 2018. Available:

http://site.cicling.org/2018/accepted.html

[3] Viet Hong Tran, Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen,

"A Classifier-based Preordering Approach for English-Vietnamese Statistical Ma-

chine Translation", In Proceedings of the 17th International Conference on In-

telligent Text Processing and Computational Linguistics.

[4] Viet Hong Tran, Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen,

"A Reordering Model For Vietnamese-English Statistical Machine Translation

Using Dependency Information", In Computing and Communication Technolo-

gies, Research, Innovation, and Vision for the Future (RIVF), 2016 IEEE RIVF

International Conference on, pages 175-179.

[5] Viet Hong Tran, Vinh Van Nguyen and Minh Le Nguyen, "Improving English-

Vietnamese Statistical Machine Translation Using Pre-processing Dependency

23

Page 28: C I TI N CH T L×ÑNG DÀCH M Y THÈNG K CHO C P NGÆN NGÚ … · nhi·u h¤n ch¸ c¦n c£i ti¸n º n¥ng cao ch§t l÷ñng. îiV ÷u iºm cõa c§u tróc c¥y ph¥n t½ch phö

Syntactic", In Proceedings of the Pacific Association for Computational Linguis-

tics 2015, pages 115-121.

[6] Viet Hong Tran, Huyen Vu Thuong, Vinh Nguyen Van and Trung Le Tien, "The

English-Vietnamese Machine Translation System for IWSLT 2015", In Proceed-

ing of the 12th International Workshop on Spoken Language Translation, 2015,

pages 80-84. Available: http://workshop2015.iwslt.org.

[7] Viet Hong Tran, Anh Tuan Pham, Vinh Van Nguyen, Hoai Xuan Nguyen, Huy

Quang Nguyen, "Parameter Learning for Statistical Machine Translation using

CMA-ES", In Proceedings of the Sixth International Conference KSE 2014, Se-

ries: Advances in Intelligent Systems and Computing, Vol. 326, pages 251-259.

[8] Luan Nghia Pham, Viet Hong Tran, Vinh Van Nguyen, "Vietnamese Text Ac-

cent Restoration with Statistical Machine Translation ", Proceeding of 27th Pa-

cific Asia Conference on Language, Information and Computation. Available:

http://aclweb.org/anthology/Y13-1044

[9] Hoai Thu Vuong, Vinh Van Nguyen, Viet Hong Tran and Akira Shimazu, "Im-

proving Statistical Machine Translation with Processing Shallow Parsing", Pro-

ceeding of 26th Pacific Asia Conference on Language, Information and Compu-

tation. Available: http://www.aclweb.org/anthology/Y/Y12/Y12-1043.pdf

[10] Tr¦n Hçng Vi»t, V÷ìng Ho i Thu, Nguy¹n V«n Vinh,Tr¦n L¥m Qu¥n, "�p döng

ti·n xû lþ có ph¡p næng trong dàch m¡y thèng k¶", K� y¸u hëi th£o Quèc gia l¦n

thù XV "Mët sè v§n �· chån låc cõa Cæng ngh» thæng tin v  Truy·n thæng",

trang 410-416.

24