THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên...

70
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ------------------- NGUYỄN VĂN TÂN THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRẦN MẠNH CƯỜNG Hà Nội - 2015

Transcript of THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên...

Page 1: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-------------------

NGUYỄN VĂN TÂN

THUẬT TOÁN MÔ PHỎNG MCMC THÍCH

NGHI VÀ ỨNG DỤNG

Chuyên ngành: Lý thuyết xác suất và thống kê toán học

Mã số: 60460106

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS. TRẦN MẠNH CƯỜNG

Hà Nội - 2015

Page 2: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Mục lục

Lời nói đầu 3

1 Kiến thức chuẩn bị 5

1.1 Sự hội tụ của dãy đại lượng ngẫu nhiên . . . . . . . . . . . 5

1.2 Dãy mixingale . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Các thuật toán mô phỏng cơ bản . . . . . . . . . . . . . . . 7

1.3.1 Phương pháp biến đổi nghịch đảo . . . . . . . . . . 8

1.3.2 Phương pháp loại bỏ . . . . . . . . . . . . . . . . . 9

1.3.3 Phương pháp lấy mẫu quan trọng . . . . . . . . . . 13

1.4 Xích Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Phương pháp MCMC 22

2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2 Mẫu Metropolis - Hastings . . . . . . . . . . . . . . . . . . 23

2.3 Một số thuật toán MCMC . . . . . . . . . . . . . . . . . . 29

2.3.1 Mẫu Gibbs . . . . . . . . . . . . . . . . . . . . . . . 29

2.3.2 Mẫu độc lập . . . . . . . . . . . . . . . . . . . . . . 30

2.3.3 Mẫu Metropolis - Hastings du động ngẫu nhiên . . 32

2.3.4 Mẫu Metropolis (thành phần đơn) . . . . . . . . . . 33

3 MCMC thích nghi 34

3.1 Thuật toán Metropolis du động ngẫu nhiên thích nghi . . . 35

3.1.1 Mô tả thuật toán . . . . . . . . . . . . . . . . . . . 35

3.1.2 Tính chất ergodic . . . . . . . . . . . . . . . . . . . 37

3.1.3 So sánh các thuật toán Metropolis với thuật toán AP 38

1

Page 3: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

3.2 Thuật toán Metropolis thích nghi . . . . . . . . . . . . . . 42

3.2.1 Mô tả thuật toán . . . . . . . . . . . . . . . . . . . 45

3.2.2 Tính Ergodic . . . . . . . . . . . . . . . . . . . . . . 47

3.2.3 So sánh các thuật toán Metropolis với thuật toán AM 59

3.3 Một số ứng dụng của MCMC thích nghi . . . . . . . . . . . 59

3.3.1 Mô hình mô phỏng GOMOS . . . . . . . . . . . . . 60

3.3.2 Mô hình suy giảm oxy . . . . . . . . . . . . . . . . . 65

Kết quả chính 67

Tài liệu tham khảo 68

2

Page 4: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Lời nói đầu

Để tìm hiểu về MC, ta xét bài toán sau: Giả sử ta cần tính tích phân∫ 10 h(x)dx. Theo định lý Newton - Leibnitz, nếu F (x) là một nguyên hàm

của h(x) thì

I = F (x)∣∣∣10

= F (1)− F (0).

Tuy nhiên, trong nhiều trường hợp, ta không thể tìm được F(x). Giả sử

f(x) là hàm mật độ trên [0, 1] sao cho nếu h(x) 6= 0 thì f(x) > 0. Ta viết

lại I =∫ 1

0h(x)f(x)f(x)dx. Khi đó, chúng ta lấy mẫu độc lập cùng phân phối

(x(1), ..., x(n)) từ phân phối xác định bởi mật độ f và xét:

In =1

n

n∑i=1

h(x(i))/f(x(i)).

Luật số lớn cho ta thấy rằng In hội tụ với xác suất 1 tới tích phân I khi n

tiến tới ∞ nghĩa là In → I(h.c.c). Như vậy để tính xấp xỉ I, ta phải thực

hiện n mô phỏng cho biến ngẫu nhiên X.

Các mô phỏng MC cơ bản này có ưu điểm là dễ thực hiện. Tuy nhiên,

nó chỉ mô phỏng được đối với các trường hợp đơn giản.

Trong nhiều trường hợp phức tạp như số chiều tăng lên (phân phối

nhiều chiều) ... thì các MC cơ bản không thể thực hiện được. Đề giải quyết

vấn đề này, chúng ta đưa ra một phương pháp gọi là phương pháp MCMC.

Ý tưởng chính của phương pháp MCMC là đi xây dựng một xích Markov

có tính ergodic mà phân phối dừng là π. Khi đó, chúng ta chạy X lên đến

thời gian dài N và ước lượng E(h(Y )) bởi 1N

∑Nn=1 h(Xn). Định lý ergodic

cho ta biết với N đủ lớn, ước lượng trên sẽ gần đến E(h(Y )).

Chúng ta thấy rằng việc chọn lựa phân phối đề xuất là quan trọng cho

3

Page 5: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

sự hội tụ của thuật toán MCMC. Việc chọn lựa được phân phối đề xuất

tốt thường khó thực hiện vì thông tin về mật độ mục tiêu là không có

hoặc rất ít. Hơn nữa, trong thuật toán MCMC, phân phối đề xuất được

chọn cho mọi bước mô phỏng. Để sử dụng các thông tin đã thu được trong

các bước mô phỏng trước để mô phỏng cho bước tiếp theo, chúng ta đưa

ra thuật toán MCMC thích nghi. Ở đó, phân phối đề xuất được cập nhật

cùng quá trình sử dụng thông tin đầy đủ tích lũy cho đến thời điểm hiện

tại. Mỗi lựa chọn phân phối đề xuất thích nghi sẽ cho chúng ta một dạng

MCMC thích nghi.

Mục đích chính của luận văn này là trình bày các phương pháp MCMC

cơ bản và hai thuật toán MCMC thích nghi từ bài báo [6], [7]. Đồng thời

đưa ra các so sánh giữa các thuật toán MCMC và chứng minh chi tiết các

định lý trong bài báo cũng như đưa ra một số ứng dụng của thuật toán.

Luận văn gồm 3 chương.

• Chương 1 nhắc lại một số kiến thức bổ trợ về sự hội tụ của dãy đại

lượng ngẫu nhiên, dãy mixingale, các thuật toán mô phỏng MC cơ

bản và xích Markov.

• Chương 2 trình bày về các phương pháp MCMC cơ bản.

• Chương 3 trình bày chi tiết về hai phương pháp MCMC thích nghi từ

hai bài báo [6] và [7]. Đó là thuật toán Metropolis du động ngẫu nhiên

thích nghi ([6]) và thuật toán Metropolis thích nghi ([7]). Chỉ ra tính

hội tụ của hai thuật toán và chứng minh tính ergodic của thuật toán

Metropolis thích nghi. Sau mỗi thuật toán đều đưa ra sự so sánh giữa

các thuật toán MCMC. Đồng thời đưa ra một số ứng dụng thực tế

của mô hình MCMC thích nghi.

Lời đầu tiên, xin chân thành cảm ơn thầy TS. Trần Mạnh Cường đã

nhận hướng dẫn và tận tình giúp đỡ tôi hoàn thành luận văn này. Lòng biết

ơn sâu sắc tôi cũng xin được gửi đến các thầy cô trong Trường ĐHKHTN

- ĐHQGHN, Khoa Toán - Cơ - Tin đã giúp đỡ tôi hoàn thành khóa học.

Hà Nội tháng 12 năm 2015

4

Page 6: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Chương 1

Kiến thức chuẩn bị

1.1 Sự hội tụ của dãy đại lượng ngẫu nhiên

Giả sử (Ω,F , P ) là không gian xác suất.

Định nghĩa 1.1. Một dãy các đại lượng ngẫu nhiên hay biến ngẫu nhiên

(Xn) được gọi là hội tụ hầu chắc chắn đến biến ngẫu nhiên X nếu:

Pω ∈ Ω : limn→∞

Xn(ω) 6= X(ω) = 0.

Ký hiệu là limn→∞Xn = X(h.c.c).

Định nghĩa 1.2. Cho dãy (Xn) các biến ngẫu nhiên. Fn(x), F (x) tương

ứng là hàm phân phối của Xn, X. Gọi C(F ) là tập các điểm liên tục của

hàm F . Ta nói dãy (Xn) hội tụ theo phân phối đến X nếu ∀x ∈ C(F ), ta

có:

limn→∞

Fn(x) = F (x).

Ký hiệu là Xnd−→ X.

Định nghĩa 1.3. Một dãy các biến ngẫu nhiên (Xn) được gọi là hội tụ

theo xác suất đến biến ngẫu nhiên X nếu ∀ε > 0 ta có :

Pω ∈ Ω : |Xn(ω)−X(ω)| > ε = 0.

Ký hiệu là XnP−→ X.

5

Page 7: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Định nghĩa 1.4. Một dãy các biến ngẫu nhiên (Xn) được gọi là hội tụ theo

trung bình bậc r đến biến ngẫu nhiên X nếu r ≥ 1, E|Xn|r < ∞ ∀n,E|X|r <∞ và :

limn→∞

E|Xn −X|r = 0.

Ký hiệu là XnLr

−→ X.

Định nghĩa 1.5. (luật số lớn) Cho dãy (Xn) các biến ngẫu nhiên độc

lập cùng phân phối, có cùng kỳ vọng EXi = µ (i = 1, 2, ...). Đặt Sn =X1+...+Xn

n . Ta nói dãy (Xn) tuân theo luật số lớn nếu Sn sẽ hội tụ theo xác

suất đến µ.

Định lí 1.6. (định lý giới hạn trung tâm) Cho dãy (Xn) các biến ngẫu

nhiên độc lập cùng phân phối, có cùng kỳ vọng EXi = µ và phương sai

DXi = σ2 (i = 1, 2, ...). Đặt Zn = X1+...+Xn−nµσ√n

. Khi đó Zn sẽ hội tụ

theo phân phối đến biến ngẫu nhiên Z có phân phối chuẩn tắc.

1.2 Dãy mixingale

Định nghĩa 1.7. Cho dãy (Xn)n≥1 các biến ngẫu nhiên bình phương khả

tích trong không gian xác suất (Ω,F , P ) và dãy (Fn)+∞n=−∞ là dãy tăng các

σ- đại số con của F . Khi đó, (Xn,Fn) được gọi là dãy mixingale nếu với

mọi dãy hằng không âm cn và ψm, trong đó ψm → 0 khi m→∞, ta có:

||E(Xn|Fn−m)||2 ≤ ψmcn và ||Xn − E(Xn|Fn+m)||2 ≤ ψm+1cn,

với mọi n ≥ 1 và m ≥ 0.

Định lí 1.8. [4, tr. 41] Nếu Xn,Fn là một mixingale và bn là một

dãy hằng dương tăng đến ∞ sao cho

∞∑n=1

b−2n c2

n <∞ và ψn = O(n−1/2(logn)−2) khi n→∞

thì b−1n

∑ni=1Xi → 0(h.c.c).

6

Page 8: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

1.3 Các thuật toán mô phỏng cơ bản

Các kết quả thống kê thường liên quan đến tích phân. Nhắc lại rằng cả

kỳ vọng và xác suất đều nhận được từ tích phân (hoặc tổng). Vì vậy, xét

tích phân sau:

I =

∫ 1

0h(x)dx

Thông thường, người ta tiếp cận dạng tổng Riemann. Chúng ta đánh

giá hàm h(x) tại n điểm (x(1), ..., x(n)) trong một lưới chính quy và sau đó

tính:

I ≈ 1

n

n∑i=1

h(x(i)).

Tuy nhiên, trong nhiều trường hợp, việc xác định lấy các điểm (x(1), ..., x(n))

là không thể hoặc chi phí quá tốn kém, người ta đã đưa ra một cách tiếp

cận khác. Đó là quá trình Monte Carlo. Chúng ta bắt đầu bằng việc viết

lại tích phân như sau:

I =

∫ 1

0

h(x)

f(x)f(x)dx

trong đó f(x) là một mật độ trên [0, 1] sao cho nếu h(x) 6= 0 thì f(x) > 0.

Nhưng điều này nghĩa là:

I = Ef(h(X)/f(X)),

trong đó Ef là ký hiệu của kỳ vọng đối với phân phối xác định bởi f . Bây

giờ, chúng ta lấy mẫu độc lập cùng phân phối (x(1), ..., x(n)) từ phân phối

xác định bởi mật độ f và xét:

In =1

n

n∑i=1

h(x(i))/f(x(i)).

Luật số lớn cho ta thấy rằng In hội tụ với xác suất 1 tới tích phân I khi

n tiến tới ∞ nghĩa là In → I(h.c.c). Hơn nữa, định lý giới hạn trung tâm

chỉ ra rằng

(In − I)/

√V ar(In)

7

Page 9: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

xấp xỉ phân phối chuẩn. Vì vậy phương sai V ar(In) cho ta biết về độ chính

xác ước lượng của chúng ta và nó có thể được ước lượng như sau:

vn =1

n(n− 1)

n∑j=1

(h(xj)/f(xj)− In)2.

1.3.1 Phương pháp biến đổi nghịch đảo

Định lí 1.9. Xét hàm phân phối lũy tích (cdf) F (x). Gọi F−1 là nghịch

đảo mở rộng của F , tức là:

F−1(u) = minx ∈ S : F (x) ≥ u u ∈ (0, 1]

Gọi U là một biến ngẫu nhiên phân phối đều (0, 1) và đặt X = F−1(U),

khi đó phân phối của X có cdf F (x). (Chú ý rằng đối với hàm phân phối

liên tục thì nghịch đảo mở rộng là nghịch đảo thông thường).

Bằng định nghĩa của nghịch đảo mở rộng và tính đơn điệu của F , ta

có:

P (X ≤ x) = P(F−1(U) ≤ x) = P (U ≤ F (x)) = F (x).

Ví dụ 1.1. Mô phỏng một biến ngẫu nhiên phân phối mũ với

tham số λ .

Một biến ngẫu nhiên có phân phối mũ với tham số λ có hàm phân phối là:

F (x) = 1− exp(−λx) với x ≥ 0.

Gọi U ∼ U(0, 1) (phân phối đều trên (0, 1)) và đặt

Y = −1

λlog(1− U).

Khi đó Y có phân phối mũ với tham số λ. Điều này có thể đơn giản hóa

hơn bằng cách thừa nhận rằng 1− U cũng là phân phối đều trên (0, 1) và

vì thế

Y = −1

λlog(U)

có phân phối mũ với tham số λ.

8

Page 10: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Ví dụ 1.2. Mô phỏng biến ngẫu nhiên có phân phối Bernoulli (p)

và biến ngẫu nhiên có phân phối nhị thức B(n, p)

Cho U là một biến ngẫu nhiên phân phối đều (0, 1). Nếu ta xét

X =

1 nếu U < p

0 ngược lại

thì X là biến ngẫu nhiên có phân phối Bernoulli với xác suất thành công

p.

Cho X1, ..., Xn là một mẫu độc lập cùng phân phối Bernoulli(p). Khi

đó Y =∑n

i=1Xi có phân phối nhị thức B(n, p).

Ví dụ 1.3. Mô phỏng biến ngẫu nhiên tuân theo phân phối hình

học (p)

Giả sử X nhận giá trị trong N và P(X = j) = pj. Khi đó:

F−1(u) = minj ∈ N : u ≤j∑i=1

pi.

Bây giờ, nếu X ∼ G(p) thì P(X > j) = (1− p)j. Do đó

j∑i=1

pi = 1− (1− p)j ≥ u

nếu và chỉ nếu

j ≥ log(1− u)

log(1− p).

Ký hiệu [a] là phần nguyên của a thì X =[

log(U)log(1−p)

]tuân theo phân phối

hình học G(p).

1.3.2 Phương pháp loại bỏ

Giả sử chúng ta muốn lấy mẫu X là một biến ngẫu nhiên liên tục với

hàm mật độ f(x). Chúng ta không biết cách lấy mẫu từ X nhưng chúng ta

biết cách lấy mẫu từ một biến ngẫu nhiên Y tương tự với hàm mật độ g(y).

Gọi giá của f là supp(f) = x : f(x) > 0. Nếu ta có supp(f) ⊆ supp(g)

9

Page 11: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

và f(x)/g(x) ≤ M ∀x thì ta có thể lấy mẫu từ Y để tạo ra mẫu cho X.

Chúng ta lặp lại các bước sau cho đến khi một mẫu được trả về.

• Bước 1: Lấy mẫu Y = y từ g(y) và U = u từ phân phối đều U(0, 1).

Sang bước 2.

• Bước 2: Nếu u ≤ f(y)Mg(y) thì đặt X = y. Ngược lại, quay lại bước 1.

Mệnh đề 1.10. Phân phối của biến ngẫu nhiên X được lấy mẫu trong

phương pháp loại bỏ như trên có mật độ f(x).

Thật vây, ta có

P(X ≤ x) = P(Y ≤ x|U ≤ f(Y )

Mg(Y )

)

=P(Y ≤ x, U ≤ f(Y )

Mg(Y )

)P(U ≤ f(Y )

Mg(Y )

) .

Để tính được xác suất trên, ta cần biết mật độ chung của Y và U . Bởi

tính độc lập nên:

h(y, u) = g(y)1[0≤u≤1].

Vì vậy:

P(Y ≤ x, U ≤ f(Y )

Mg(Y )

)=

∫ x

−∞g(y)

∫ f(y)/Mg(y)

01dudy

=

∫ x

−∞g(y)

f(y)

Mg(y)dy =

1

M

∫ x

−∞f(y)dy

P(U ≤ f(Y )

Mg(y)

)=

1

M

∫ ∞−∞

f(y)dy =1

M.

Dẫn đến:

P(X ≤ x) =P(Y ≤ x, U ≤ f(Y )

Mg(Y )

)P(U ≤ f(Y )

Mg(Y )

) =

∫ x

−∞f(y)dy.

Có bao nhiêu lần lặp trong thuật toán chúng ta dùng đến? Trong mỗi lần

10

Page 12: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

lặp, chúng ta tạo ra một mẫu với xác suất P(U ≤ f(Y )Mg(Y )) = 1

M nên tổng

số lần lặp tuân theo phân phối hình học với tham số 1/M . Do vậy trung

bình cần số lần lặp là M . Chú ý sau đây:

1. Cận M nhỏ hơn thì thuật toán hiệu quả hơn trong tổng số lần lặp.

Vì vậy chúng ta nên tìm kiếm một mật độ g gần f .

2. Nếu giá của f không bị chặn thì để có thể tìm thấy cận M , mật độ

g cần có đuôi lớn hơn f .

Ví dụ 1.4. Giả sử chúng ta muốn lấy mẫu |X| trong đó X là biến ngẫu

nhiên phân phối chuẩn tắc. Mật độ của |X| được cho bởi

f(x) =

√2

πexp

(−x

2

2

)với x ∈ R+.

Ta đã biết cách lấy mẫu một biến ngẫu nhiên phân phối mũ vì thế chúng

ta chọn mật độ g là mật độ của một phân phối mũ với tham số 1. Khi đó:

f(x)

g(x)=

√2

πexp

(−x

2 − 2x

2

)=

√2e

πexp

(−(x− 1)2

2

)≤√

2e

π.

Từ đó, đặt M =√

2eπ dẫn đến

f(x)

Mg(x)= exp

(−(x− 1)2

2

).

Thuật toán lấy mẫu loại bỏ tiến hành như sau:

• Bước 1: Lấy mẫu Y = y từ phân phối mũ E(1) và U = u từ phân

phối đều U(0, 1). Đến bước 2.

• Bước 2: Nếu u ≤ exp(− (y−1)2

2

)thì đặt X = y. Ngược lại, trở lại

bước 1.

Ví dụ 1.5. Xét một biến ngẫu nhiên Y với mật độ g(x) được xác định

trên không gian trạng thái S. Bây giờ, giả sử A ⊂ S và chúng ta muốn lấy

11

Page 13: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

mẫu biến ngẫu nhiên có điều kiện X = (Y |Y ∈ A) với không gian trạng

thái A. Trong trường hợp này mẫu loại bỏ có thể hoàn thành bởi lấy mẫu

lặp đi lặp lại X cho đến khi mẫu của chúng ta nằm trong A. Cụ thể hơn,

X có mật độ f(x) = g(x)P(Y ∈A) với x ∈ A. Do đó

f(x)

g(x)≤ 1

P(Y ∈ A)= M và

f(x)

Mg(x)= 1[x∈A] với x ∈ S.

Giả sử U có phân phối đều trên khoảng đơn vị. Khi đó

P(U ≤ f(Y )/Mg(y)) =

1 nếu Y ∈ A

0 nếu Y /∈ A

Vì vậy, trong thuật toán lấy mẫu loại bỏ tiêu chuẩn, chúng ta chấp nhận

nếu Y ∈ A và ngược lại, chúng ta loại bỏ. Chúng ta không cần lấy mẫu U

để đưa ra quyết định này.

Nếu đánh giá mật độ mục tiêu f là tốn kém thì phương pháp loại bỏ có

thể dùng máy điện toán ít tốn kém hơn. Nếu thêm cận trên Mg(x) trên

mật độ mục tiêu f(x) thì chúng ta cũng có thể dễ dàng ước lượng cận dưới

h(x). Vì thế gọi là thuật toán lấy mẫu loại bỏ hình bao, tiến hành như

sau:

1. Giả sử Y = y từ g(y) và U = u từ phần phối đều U(0, 1).

2. Chấp nhận nếu u ≤ h(y)/Mg(y) và đặt X = y là một mẫu. Ngược

lại, đi đến bước 3.

3. Chấp nhận nếu u ≤ f(y)/Mg(y) và trả lại X = y là một mẫu. Ngược

lại đi đến bước 1.

Điều này hiệu quả hơn vì trung bình ta cần 1/M∫h(x)dx lần lặp đánh

giá của f được thay thế bởi đánh giá của h. Hàm h có thể được tìm thấy

trong ví dụ bởi khai triển Taylor.

12

Page 14: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

1.3.3 Phương pháp lấy mẫu quan trọng

Trong đoạn trước ta đã đưa ra lấy mẫu loại bỏ, sử dụng mật độ đề xuất

để tạo ra mẫu từ mật độ mục tiêu. Trong đoạn này, chúng ta vấn tiếp tục

lấy mẫu của mật độ mục tiêu nhưng thay đổi cách đánh giá tạo ra ước

lượng không chệch của các đặc tính của mật độ mục tiêu.

Nhắc lại cái mà ta đang quan tâm khi thảo luận về phương pháp Monte

Carlo là tích phân

I = Ef(h(X)) =

∫Sh(x)f(x)dx

với f là một mật độ. Khi đó, ta viết lại tích phân dưới dạng

I =

∫S

f(x)

g(x)h(x)g(x)dx

trong đó, g là một mật độ sao cho g(x) > 0 với f(x)h(x) 6= 0. Bây giờ,

chúng ta tạo ra một mẫu độc lập cùng phân phối (x1, ..., xn) từ g và ước

lượng I bởi:

I =1

n

n∑i=1

f(xi)

g(xi)h(xi) =

1

n

n∑i=1

w(xi)h(xi)

Ta gọi cách lấy mẫu này là lấy mẫu quan trọng. Mật độ g được gọi là

mật độ đề xuất hoặc mật độ công cụ và trọng số w(xi) = f(xi)g(xi)

được gọi là

trọng số quan trọng. Chú ý rằng I là một ước lượng không chệch của I.

Có hai lý do tại sao chúng ta quan tâm đến biểu diễn mẫu quan trọng:

1. Lấy mẫu từ f(x) là không thể hoặc quá đắt đỏ.

2. h(x), trong đó X ∼ f , có phương sai lớn, vì thế ước lượng không

chệch theo quy ước có sai số Monte Carlo (MC) lớn.

Phương sai của một ước lượng quan trọng sẽ chỉ hữu hạn nếu ước lượng

là bình phương khả tích, tức là

Eg(h2(X)

f 2(X)

g2(X)

)= Ef

(h2(X)

f(X)

g(X)

)<∞.

13

Page 15: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Do đó, phương sai sẽ thường vô hạn nếu tỷ số f(x)/g(x) không bị chặn.

Dẫn đến, nếu có thể, chúng ta nên chọn mật độ đề xuất g có đuôi dày hơn

f . Tóm lại, nếu f(x)/g(x) không bị chặn thì thậm chí nếu phương sai của

ước lượng thống kê là hữu hạn, thủ tục lấy mẫu là không hiệu quả cũng

như phương sai của trọng số quan trọng là lớn.

Thay vì ước lượng quan trọng I = 1n

∑ni=1w(xi)h(xi), ước lượng tỷ lệ

sau đây thường được sử dụng

I =

∑nj=1 h(xj)w(xj)∑n

j=1w(xj).

Ước lượng này có hai lợi thế:

1. Nó là ước lượng không chệch, thường có phương sai nhỏ hơn ước lượng

quan trọng, đưa vào dễ dàng hơn. Nhưng chú ý rằng ước lượng này

vẫn phù hợp đối với x1, ..., xn độc lập cùng phân phối với mật độ g,

ta có1

n

n∑j=1

f(xj)/g(xj)n→∞−−−−→ 1.

2. Chúng ta có thể áp dụng lấy mẫu quan trọng ngay cả khi chúng ta

biết f(x) và vì thế w(x) chỉ đến một hằng số tỷ lệ.

Nếu ta không thể tìm thấy một mật độ quan trọng dẫn đến phương sai

nhỏ hợp lý của trọng số quan trọng thì có vài phương pháp lấy mẫu có thể

áp dụng để làm giảm phương sai:

1. Phép tính gần đúng đầu tiên được gọi là lấy lại mẫu quan trọng liên

tiếp và quá trình này như sau:

(a) Lấy một mẫu quan trọng Y (1), ..., Y (n) với các trọng số quan trọng

wi = f(Y (i))/g(Y (i)), i = 1, ..., n.

(b) Tạo một mẫu mớiX(1), ..., X(n) bằng cách lấy mẫu từ Y (1), ..., Y (n)

trong đó Y j được lấy mẫu với xác suất wj/∑n

i=1wi.

2. Phương pháp lấy mẫu thứ hai được gọi là kiểm soát loại bỏ và xem xét

loại bỏ bất kỳ điểm mẫu mà có trọng số quan trọng dưới một ngưỡng

14

Page 16: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

c cho trước. Loại bỏ những điểm mẫu sẽ đưa ra một độ lệch, nhưng

bằng sự thay đổi các trọng số quan trọng thích hợp, độ lệch này có

thể tránh được. Cho mẫu quan trọng Y (1), ..., Y (n) với các trọng số

quan trọng w1, ..., wn, quá trình kiểm soát loại bỏ như sau:

(a) Với j = 1, ..., n chấp nhận Y (j) với xác suất pj = min1, wj/c.Ngược lại, loại bỏ Y (j).

(b) Nếu Y (j) được chấp nhận tính toán lại thì trọng số quan trọng là

wj = qwj/pj, trong đó q =∫

min1, w(x)/cg(x)dx.

Chú ý vì q như nhau đối với tất cả các điểm mẫu nên ta không cần

tính nó rõ ràng nếu ta sử dụng ước lượng tỷ lệ. Hơn nữa, kiểm soát

loại bỏ tạo ra một mẫu quan trọng theo mật độ đề xuất

g∗ =ming(x), f(x)/c

q.

1.4 Xích Markov

Trong đoạn này, chúng ta đưa ra một số định lý về xích Markov quan

trọng cho phương pháp MCMC.

Định nghĩa 1.11. Xích Markov. Một dãy đại lượng ngẫu nhiên X =

Xn, n = 0, 1, 2, 3, ... nhận các giá trị trên tập S được gọi là xích Markov

nếu:

P(Xn+1 ∈ A|Xn = xn,Xn−1 = xn−1, ..., X0 = x0)

= P(Xn+1 ∈ A|Xn = xn)

với mọi n > 0, A ⊆ S, x0, x1, ..., xn ∈ S.

Đôi khi tính Markov của xích còn được phát biểu dưới dạng: Nếu biết

trạng thái hiện tại (tại thời điểm n) của xích thì quá khứ và tương lai (tại

thời điểm n+1) độc lập với nhau.

15

Page 17: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Ví dụ 1.6. Giả sử Xn là thời tiết ngày thứ n. Ta đặt:

Xn =

0 nếu trời nắng vào ngày thứ n

1 nếu trời có mây vào ngày thứ n

2 nếu trời mưa vào ngày thứ n

Hình sau chỉ ra các xác suất chuyển cho sự thay đổi thời tiết.

Bằng việc lấy mô hình thời tiết như xích Markov, chúng ta giả sử rằng

Hình 1.1: Xác suất chuyển của xích thời tiết

thời tiết ngày mai được tính theo thời tiết hôm nay, không phụ thuộc vào

ngày hôm qua hay bất kỳ ngày trước nào.

Định nghĩa 1.12. Xác suất chuyển, Xích thời gian thuần nhất.

Một xích Markov X được gọi là xích thuần nhất nếu xác suất chuyển của

nó:

P(Xn+1 ∈ A|Xn = x) = P (x,A) =

∫Ap(x, y)dy

không phụ thuộc vào n. Ta gọi P(x, A) là nhân chuyển. Trong phạm vi ở

đây, chúng ta giả sử rằng nhân chuyển là liên tục tuyệt đối với mọi x ∈ S,tức là nó có một mật độ liên quan hoặc hàm khối xác suất. Vì vấy, cố định

x ∈ S, hàm p(x, y) là một mật độ hoặc hàm khối xác suất (pmf).

Xác suất chuyển sau n bước của X được định nghĩa bởi

P(Xn ∈ A|X0 = x) = P (n)(x,A) =

∫Ap(n)(x, y)dy.

16

Page 18: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Nếu không gian trạng thái S của X là hữu hạn thì ta có thể gom các

xác suất chuyển thành một ma trận xác suất chuyển như sau.

Định nghĩa 1.13. Ma trận chuyển. Đặt P(Xn+1 = j|Xn = i) = pij

(i, j ∈ S). Ma trận xác suất chuyển của X là

P = (pij)i,j∈S .

Khi đó xác suất chuyển sau n bước là p(n)ij = Pn(i, j).

Ví dụ 1.7. Ma trận xác suất chuyển của xích Markov thời tiết và Ma trận

xác suất chuyển sau 2 - lần của xích Markov thời tiết là

P =

0, 4 0, 6 0

0, 25 0, 25 0, 5

0 0, 4 0, 6

, P2 =

0, 31 0, 39 0, 3

0, 1625 0, 4125 0, 425

0, 1 0, 34 0, 56

.

Bổ đề 1.14. Phân phối tại thời điểm n. Giả sử đã biết phân phối ban

đầu của X, tức là phân phối của X0 được cho bởi hàm mật độ q(0)(x). Khi

đó, ta có thể tính được hàm mật độ của X tại thời điểm n như sau:

q(n)(x) =

∫Sq(0)(y)p(n)(y, x)dy.

Nếu q(n) là véctơ của phân phối tại thời điểm n và Pn là ma trận xác suất

chuyển sau n bước thì ta có:

q(n) = q(0)Pn.

Ví dụ 1.8. Giả sử trong ngày thứ 0, trời nắng. Do đó q(0) = (1, 0, 0).

Khi đó, phân phối của thời tiết trong ngày thứ 2 là

q(2) = q(0)P2

= (1, 0, 0)

0, 31 0, 39 0, 3

0, 1625 0, 4125 0, 425

0, 1 0, 34 0, 56

= (0, 31; 0, 39; 0, 3).

Vì vậy nếu ngày thứ 0 trời nắng thì chúng ta có 31% khả năng trời nắng

vào ngày thứ 2.

17

Page 19: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Nếu một xích Markov thỏa mãn điều kiện hợp lý nhất định thì phân

phối của xích hội tụ đến một phân phối giới hạn mà cũng được gọi là phân

phối cân bằng hoặc cân bằng hoặc bất biến. Xích như thế được gọi là một

xích Markov ergodic.

Một xích Markov thời gian rời rạc trên một không gian trạng thái rời

rạc là ergodic nếu nó là tối giản, không chu kỳ và hồi quy dương. Đầu tiên,

ta đưa ra các khái niệm cho không gian trạng thái (rời rạc) đếm được và

định nghĩa tương tự cho không gian trạng thái tổng quát.

Định nghĩa 1.15. Tối giản: Xích Markov X được gọi là tối giản nếu tất

cả các trạng thái đều liên lạc được, tức là với mọi i, j ∈ S, có một số n ≥ 0

sao cho:

P(Xn = i|X0 = j) > 0.

Định nghĩa 1.16. Hồi quy Một xích Markov X được gọi là hồi quy nếu

xác suất để xích xuất phát từ trạng thái i quay trở lại i sau hữu hạn bước

bằng 1, tức là:

P(Xtrở lại trạng thái i sau hữu hạn bước |X0 = i) = 1 ∀i ∈ S.

Định nghĩa 1.17. Hồi quy dương : Một xích hồi quy được gọi là hồi

quy dương nếu E(Tii) <∞ với mọi i ∈ S, trong đó Tii là khoảng thời gian

lần đầu tiên trở về trạng thái i. Nếu xích Markov là ergodic với phân phối

dừng π thì

π(i) = 1/E(Tii).

Ở đây, phân phối dừng π = (π(1), π(2), ...) còn được gọi là phân phối giới

hạn.

Định lí 1.18. Trạng thái i là hồi quy khi và chỉ khi∑∞

n=1 p(n)ii =∞.

Định nghĩa 1.19. Tính không chu kỳ:

Một xích Markov được gọi là không có chu kỳ nếu không tồn tại d > 2 và

các tập con rời nhau S1,S2, ...,Sd ⊂ S sao cho:

P (x,Si+1) = P(Xn+1 ∈ Si+1|Xn = x) = 1 ∀x ∈ Si, i ∈ 1, 2, 3, ..., d−1

P (x,S1) = 1 ∀x ∈ Sd.

18

Page 20: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Ví dụ 1.9.

Hình 1.2: Xác suất chuyển của xích thời tiết

Bây giờ ta xét một không gian trạng thái liên tục X . Bởi vì xác suất

của một biến ngẫu nhiên liên tục nhận giá trị tại một điểm bằng 0 nên ta

cần xem lại định nghĩa về tính tối giản.

Định nghĩa 1.20. φ - tối giản. Một xích Markov được gọi là φ - tối giản

nếu tồn tại một độ đo không tầm thường φ trong X sao cho ∀A ⊆ X với

φ(A) > 0 và ∀x ∈ X , tồn tại số nguyên dương n = n(x) sao cho:

P (n)(x,A)(= P(Xn ∈ A|X0 = x)) > 0.

Ví dụ như φ(A) = δx0 thì điều này đòi hỏi trạng thái x0 có thể đạt

được (liên lạc) từ bất kỳ trạng thái khác với xác suất dương. Vì vậy, tính

tối giản là điều kiện chặt hơn so với φ - tối giản. Với không gian trạng thái

liên tục, φ(·) có thể là độ đo Lebesgue.

Khái niệm về tính không chu kỳ như định nghĩa trước đó cũng được áp

dụng cho xích Markov liên tục.

Một xích Markov là φ - tối gian và không có chu kỳ thì có phân phối

giới hạn. Để đo khoảng cách giữa hai độ đo xác suất ta sử dụng khoảng

cách biến thiên hoàn toàn.

Định nghĩa 1.21. Khoảng cách biến phân giữa hai độ đo xác suất P1 và

P2 được định nghĩa bởi:

‖P1(·)− P2(·)‖ = supA|P1(A)− P2(A)|.

19

Page 21: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Định lí 1.22. Phân phối trạng thái cân bằng. Phân phối của xích

Markov không có chu kỳ, φ - tối giản hội tụ đến một phân phối giới hạn

π, tức là:

limn→∞‖P n(x, ·)− π(·)‖ = 0 với π − hầu hết x ∈ X .

Ta gọi phân phối giới hạn π là phân phối trạng thái cân bằng hay phân

phối dừng.

Định nghĩa 1.23. Hồi quy Harris: Một xích Markov X là hồi quy Harris

nếu ∀B ⊆ X với π(B) > 0 và ∀x ∈ X ta có:

P(Xn ∈ B với n > 0 | X0 = x) = 1.

Định lí 1.24. Phân phối của một xích Markov không có chu kỳ, hồi quy

Harris hội tụ đến phân phối giới hạn π, tức là:

limn→∞‖P n(x, ·)− π(·)‖ = 0 ∀x ∈ X .

Chú ý rằng vì:

q(n)(A) = P(Xn ∈ A) =

∫q(0)(x)P n(x,A)dx

nên ta có limn→∞

P(Xn ∈ A) = π(A) ∀A ⊆ X và với mọi phân phối ban đầu

q(0).

Vì định lý trên đúng cho bất kỳ phân phối ban đầu q(0) nào nên dẫn

đến ta có phương trình cân bằng tổng quát

π(x) =

∫Sπ(y)p(y, x)dy.

Bổ đề 1. Trạng thái cân bằng chi tiết. Giả sử π là phân phối trên

S thỏa mãn: π(x)p(x, y) = π(y)p(y, x) với mọi x, y ∈ S, trong đó p(x, y)

là mật độ chuyển hoặc hàm khối xác suất của một xích Markov X có tính

ergodic. Khi đó π là một phân phối dừng của X.

20

Page 22: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Thật vậy, phân phối π thỏa mãn phương trình trạng thái cân bằng tổng

quát vì:∫Sπ(x)p(x, y)dx =

∫Sπ(y)p(y, x)dx = π(y)

∫Sp(y, x)dy = π(y).

Sự hữu ích của MCMC là dựa trên định lý quan trọng đối với xích Markov

có tính ergodic sau.

Định lí 1.25. Định lý ergodic: Cho h là một hàm thực nào đó và X là

một xích Markov có tính ergodic với phân phối dừng π. Xét ergodic trung

bình:

hN =1

N

N∑n=1

h(Xn).

Bây giờ giả sử Y có phân phối π. Nếu Eπ(|h(Y )|) < ∞ thì khi N → ∞,

ergodic trung bình hN hội tụ đến Eπ(h(Y )) với xác suất 1.

Chúng ta cũng có định lý giới hạn trung tâm. Nó đòi hỏi điều kiện nhất

định là tốc độ hội tụ được biết đến là hội tụ hình học. Chúng ta cũng sử

dụng các ký hiệu như định lý trên.

Định lí 1.26. Định lý giới hạn trung tâm Nếu X là ergodic hình học

([3])và Eπ(h(Y )2+ε) <∞ với ε > 0 thì

hNd−→ N (Eπ(h(X)),

τ 2

N)

với τ 2 là đại lượng có liên quan đến thời gian tự tương quan đầy đủ của X.

21

Page 23: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Chương 2

Phương pháp MCMC

2.1 Giới thiệu

Trong chương đầu, chúng ta đã giới thiệu một số phương pháp MC cơ

bản. Các mô phỏng này có ưu điểm là dễ thực hiện. Tuy nhiên, nó chỉ mô

phỏng được đối với các trường hợp đơn giản. Trong nhiều trường hợp phức

tạp như số chiều tăng lên (phân phối nhiều chiều) ... thì các mô phỏng cơ

bản không thể thực hiện được. Hơn nữa, bây giờ, giả sử chúng ta muốn

biết kỳ vọng của biến ngẫu nhiên h(Y) với Y có phân phối nhiều chiều

được cho bởi hàm mật độ (hoặc hàm khối xác suất) π. Tuy nhiên, chúng

ta không thể tính E(h(Y )) =∫h(y)π(y)dy và các phương pháp mô phỏng

cơ bản cũng không thực hiện được. Đề giải quyết vấn đề này, chúng ta đưa

ra một phương pháp gọi là phương pháp MCMC.

Chúng ta biết rằng một xích Markov X có tính ergodic thì phân phối

của xích hội tụ đến phân phối dừng. Vì vậy, ý tưởng chính của phương

pháp MCMC là đi xây dựng một xích Markov có tính ergodic mà phân

phối dừng là π. Khi đó, chúng ta chạy X lên đến thời gian dài N và ước

lượng E(h(Y )) bởi 1N

∑Nn=1 h(Xn). Định lý ergodic cho ta biết với N đủ

lớn, ước lượng trên sẽ gần đến E(h(Y )).

Xích Markov quan tâm thường bắt đầu tại một trạng thái mà không có

phân phối dừng (ngược lại chúng ta không làm việc với MCMC). Ta có thể

khám phá hiệu quả trạng thái ban đầu có thể có trên các trạng thái được

truy cập bởi xích Markov. Để giảm khả năng của độ chệch, cái được gọi

22

Page 24: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

là độ chệch khởi đầu do ảnh hưởng của kết quả của giá trị khởi động, một

M bước ban đầu của xích bị loại bỏ và ước lượng dựa trên trạng thái được

truy cập sau thời gian M, tức là chúng ta sử dụng ergodic trung bình:

hN =1

N −M

N∑n=M+1

h(Xn).

Giai đoạn đầu đến thời điểm M được gọi là giai đoạn tạm thời (ngắn

ngủi) hoặc là thời kỳ burn-in. Làm thế nào chúng ta quyết định thời độ

dài của thời kỳ burn-in? Bước đầu tiên kiểm tra đầu ra của xích là quan

sát thông thường bằng mắt. Đây là một phương pháp rất thô nhưng rất

nhanh chóng và rẻ tiền. Tuy nhiên, điều này nên được theo dõi bằng các

phương pháp phức tạp hơn.

Như vậy, chúng ta bắt đầu với phân phối π và cố gắng tìm xích Markov

có tính ergodic mà phân phối dừng là π. Với bất kỳ cách cho phân phối,

thường là có nhiều xích Markov phù hợp. Vì vậy, có nhiều cách khác nhau

trong việc xây dựng một xích Markov mà phân phối hội tụ đến phân phối

mục tiêu.

Thực sự không phải quá khó để tìm một xích Markov có phân phối

dừng là phân phối mong muốn. Có một số các phương pháp, được gọi là

"lấy mẫu", mà chúng ta có thể sử dụng để tìm một xích Markov như vậy.

Nếu xích được xây dựng là ergodic thì chúng ta có thể tiến hành bằng cách

mô phỏng xích đó và ước tính số lượng quan tâm.

2.2 Mẫu Metropolis - Hastings

Cho S là không gian trạng thái của phân phối mục tiêu. Quá trình

chuyển đổi của một xích Metropolis-Hastings được tạo ra như sau. Đầu

tiên, chúng ta chọn với mỗi x ∈ S một mật độ q(x, ·) trong S (hoặc hàm

khối xác suất nếu S là rời rạc). Vì vậy, q(x, ·), x ∈ S, xác định các xác

suất/mật độ chuyển của một xích Markov trong không gian trạng thái S,cho biết trạng thái hiện tại là x. Các xác suất/ mật độ chuyển q(x, ·) nên

được chọn sao cho việc lấy mẫu được dễ dàng.

23

Page 25: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Giả sử trạng thái hiện tại của xích Markov là Xn = x. Khi đó, chúng

ta lấy mẫu một trạng thái z theo q(x, ·). Chúng ta đề xuất trạng thái z

này như là trạng thái mới của xích và chấp nhận nó với xác suất

α(x, z) = min

1,π(z)q(z, x)

π(x)q(x, z)

.

Nếu trạng thái đề xuất z được chấp nhận thì xích Markov chuyển đến

trạng thái z, nghĩa là Xn+1 = z. Nếu không thì xích vẫn còn ở trạng thái

x, nghĩa là Xn+1 = x. Chúng ta tóm tắt quá trình này trong định nghĩa

sau:

Định nghĩa 2.1. Mẫu Metropolis - Hastings. Chọn các xác suất/mật

độ chuyển q(x, y), x, y ∈ S. Chúng được gọi là các phân phối đề xuất. Bây

giờ, giả sử Xn = x ∈ S.Tiến hành như sau:

1. Lấy mẫu Z= z dựa vào q(x, z), z ∈ S

2. Chấp nhận Z= z với xác suất

α(x, z) = min

1,π(z)q(z, x)

π(x)q(x, z)

.

Nếu Z= z được chấp nhận thì Xn+1 = z. Ngược lại, nếu Z= z không

được chấp nhận thì Xn+1 = x.

Chúng ta xem xét một vài ví dụ sau. Ví dụ đầu tiên về phân phối hỗn

hợp: phân phối hỗn hợp liên tục với hai thành phần có mật độ dạng

f(x) = pf1(x) + (1− p)f2(x)

với 0<p<1, fi là các mật độ. Chúng ta có thể lấy mẫu hỗn hợp bởi mẫu x

từ f1(·) với xác suất p và từ f2(·) với xác suất 1-p. Ví dụ sau chỉ ra cách

lấy mẫu từ một phân phối hỗn hợp bằng cách sử dụng mẫu Metropolis -

Hastings. Mật độ trong ví dụ này có thể được lấy mẫu trực tiếp.

Ví dụ 2.1. Mô phỏng phân phối hỗn hợp của hai phân phối chuẩn

24

Page 26: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

• Mật độ mục tiêu là:

π(x) = p1√

2πσ1

exp− 1

2σ21

(x−µ1)2+(1−p) 1√

2πσ2

exp− 1

2σ22

(x−µ2)2

với 0<p<1.

• Mật độ đề xuất:

Lấy mẫu ω từ một mật độ dạng chuẩn tắc và đề xuất z = x + ω là

trạng thái mới. Khi đó z ∼ N (x, 1) và mật độ đề xuất là:

q(x, z) =1√2πexp−1

2(z − x)2.

• Xác suất chấp nhận:

α(x, z) = min

1,π(z)q(z, x)

π(x)q(x, z)

= min

1,π(z) 1√

2πexp−1

2(x− z)2π(x) 1√

2πexp−1

2(z − x)2

= min

1,π(z)

π(x)

.

• Quá trình mẫu Metropolis - Hastings như sau:

1. Chọn X0 = x0 ∈ R.

2. Giả sử Xn = x. Lấy mẫu z ∼ N (0, 1) và đặ y = x +z. Chấp nhận

y với xác suất min

1, π(y)π(x)

. Nếu chấp nhận thì đặt Xn+1 = y,

ngược lại thì đặt Xn+1 = x.

Ví dụ 2.2. Điểm trên đường tròn đơn vị

Giả sử x = (x(1), ..., x(m)) là vị trí của m điểm trên đường tròn đơn vị.

Đặt π(x(1), ..., x(m)) là mật độ mà phân phối m điểm độc lập cùng phân

phối đều trên đường tròn đơn vị với điều kiện không có điểm nào nằm trong

khoảng cách d của mỗi điểm khác (phân phối kiểu này thường xảy ra trong

các thiết lập hóa học ở đó các điểm là tâm của phần tử dạng hình cầu có

đường kính d). Gọi A là biến cố khoảng cách nhỏ nhất giữa m điểm độc lập

25

Page 27: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

cùng phần phối đều trên đường tròn đơn vị lớn hơn d và đặt p =P(A). Gọi

S là trạng thái của bất kỳ hình dạng m điểm trên (0, 2π) sao cho khoảng

cách nhỏ nhất giữa các điểm lớn hơn d. Khi đó phân phối mục tiêu của

chúng ta là:

π(x) =1

2πp1[x∈S]

Trong một chiều, ta có thể tính được p nhưng trong 2 chiều, điều này là

không thể. Cũng như ví dụ trước ta có một dạng đơn giản cho phân phối

mục tiêu.

Có cách dễ dàng chuyển từ một x ∈ S đến một trạng thái khác x′ ∈ S.Một cách như thế là chọn x ∈ x ngẫu nhiên và xóa nó đi và lấy một mẫu vị

trí mới z theo phân phối đều trên (0, 2π). Rồi thiết lập x′ = x∪ z\x.(Điều này có thể tạo ra hình dạng x′ không nằm trong S nhưng như sau

này ta thấy, điều này không thật sự là vấn đề). Phương pháp này được mô

tả bởi mật độ chuyển:

q(x, x′) =1

2πm1z∈(0,2π) trong đó x′ = x ∪ z\x.

Vì x ∈ S và x′ = x ∪ z\x nên ta có:

α(x, x′) = min

1,π(x′)q(x′, x)

π(x)q(x, x′)

= min

1,

1x′∈S1[x∈(0,2π)]

1x∈S1[z∈(0,2π)]

=

1 nếu x′ ∈ S,

0 ngược lại.

Do đó miễn là chúng ta bắt đầu trong S bất kỳ trạng thái mà chúng ta

chuyển đến trạng thái cũng nằm trong S. Tóm lại, thuật toán Metropolis

như sau: Chọn X0 ∈ S chẳng hạn bằng cách đặt các điểm kế tiếp một

khoảng cách d+ ε riêng biệt từ mỗi điểm khác (Ở đây, ε là đủ nhỏ). Bây

giờ, giả sử Xn = x. Quá trình như sau:

1. Chọn i ∈ 1, 2, ...,m ngẫu nhiên và lấy mẫu z từ phân phối chuẩn

trên (0, 2π). Đặt z = x ∪ z\x(i).

26

Page 28: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

2. Nếu z ∈ S thì chấp nhận z và đặt Xn+1 = z. Nếu z /∈ S thì bác bỏ z

và đặt Xn+1 = x.

Chúng ta xem xét một vài tính chất lý thuyết của thuật toán Metropolis

- Hastings (MH). Đầu tiên, có nhiều tự do trong việc chọn đề xuất kỹ thuật

q(x, y). Điều kiện cần là giá của mật độ mục tiêu π là tập con của giá của

các mật độ đề xuất thích hợp. Chi tiết hơn, chúng ta cần:

S = supp(π) ⊆⋃x∈S

supp(q(x, ·)).

Có thể thấy trong các ví dụ trước, xác suất chấp nhận α(x, y) cơ bản tỷ

lệ với π(·), vì vậy, chúng ta không cần biết hằng số tiêu chuẩn của π(·) để

có thể tính xác suất này. Cũng có thể thấy rằng xác suất chấp nhận chứa

dạng giống với dạng trong các phương trình cân bằng chi tiết. Điều này

không phải là trùng hợp ngẫu nhiên, xác suất chấp nhận được chọn sao

cho phương trình cân bằng chi tiết thỏa mãn. Chúng ta xem xét phương

trình cân bằng chi tiết của xích MH. Đầu tiên, chúng ta cần xác định nhân

chuyển của xích MH.

Bổ đề 2. Nhân chuyển p(x, y) của mẫu Metropolis - Hastings được cho

bởi:

p(x, y) = q(x, y)α(x, y) + 1x=yr(x),

Với

r(x) =

Σy∈Sq(x, y)(1− α(x, y)) Nếu S rời rạc,∫S q(x, y)(1− α(x, y))dy Nếu S liên tục.

(Chú ý rằng nhân chuyển không liên tục đối với độ đo Lebesgue.)

Chứng minh. Giả sử S là rời rạc (trong trường hợp S liên tục, chứng

minh tương tự). Nhắc lại rằng, xích chuyển đến trạng thái mới nếu trạng

thái mới này được đề xuất và chấp nhận. Điều này xảy ra với xác suất

q(x, y)α(x, y). Đây là xác suất chuyển từ trạng thái x đến y khi y 6= x.

Bây giờ, ta xét xác suất chuyển từ x đến x. Điều này có thể xảy ra theo

hai trường hợp. Thứ nhất, ta có thể đề xuất x như là một trạng thái mới

27

Page 29: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

và chấp nhận nó, với xác suất là q(x, x)α(x, x). Thứ hai, chúng ta đề xuất

trạng thái y nào đó và bác bỏ nó, khi đó xích trở lại trạng thái x. Xác suất

xảy ra trường hợp này là:

r(x) = Σy∈Sq(x, y)(1− α(x, y))

Tóm lại, xác suất chuyển của xích Metropolis - Hastings được cho bởi:

p(x, y) = q(x, y)α(x, y) + 1x=yr(x).

Bây giờ, chúng ta kiểm tra phương trình trạng thái cân bằng chi tiết.

Bổ đề 3. Xích Metropolis - Hastings thỏa mãn phương trình trạng thái

cân bằng đối với π.

Chứng minh. Với x 6= y, ta có:

π(x)p(x, y) = π(x)q(x, y)α(x, y)

= π(x)q(x, y)min

1,π(y)q(y, x)

π(x)q(x, y)

= minπ(x)q(x, y), π(y)q(y, x))

= π(y)q(y, x)min

1,π(x)q(x, y)

π(y)q(y, x)

= π(y)q(y, x)α(y, x) = π(y)p(y, x).

Phương trình trạng thái cân bằng cũng đúng cho trường hợp tầm thường

x = y.

Dựa vào cách chọn phân phối đề xuất mà chúng ta có một số phương

pháp MCMC sau.

28

Page 30: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

2.3 Một số thuật toán MCMC

2.3.1 Mẫu Gibbs

Mẫu Gibbs là một dạng lựa chọn phổ biến sử dụng phân phối có điều

kiện đầy đủ như là phân phối đề xuất. Cho xt = (x(1)t , ..., x

(d)t ) và

x(−i)t = (x1, ..., x(i−1), x(i+1), ..., x(d)).

Chúng ta chọn một thành phần i ∈ 1, ..., d và đề xuất như một trạng thái

mới

z = (x1, ..., x(i−1), y, x(i+1), ..., x(d)),

với y được lấy mẫu từ mật độ có điều kiện đầy đủ

π(y|x(−i)t ) =

π(z)∫π(x1, ..., x(i−1), w, x(i+1), ..., x(d))dw

.

Người ta có thể chỉ ra rằng đối với lựa chọn phân phối đề xuất này, xác

suất chấp nhận là gần bằng 1. Nếu phân phối có điều kiện đầy đủ là chuẩn

tắc và dễ lấy mẫu thì mẫu Gibbs là một lựa chọn rất phổ dụng. Ta xem

xét một ví dụ đơn giản:

Ví dụ 2.3. Phân phối chuẩn hai chiều. Đây là một ví dụ nhỏ mà chúng

ta có thể lấy mẫu phân phối chuẩn hai chiều trực tiếp. Nhưng nó minh họa

rất tốt cách làm việc của mẫu Gibbs. Chúng ta muốn mẫu X và Y với mật

độ:

π(x, y) =1

2π√

1− ρ2exp

(− 1

2(1− ρ2)(x2 − 2ρxy + y2)

).

Mật độ này chỉ ra một phân phối chuẩn hai chiều với kỳ vọng (0, 0)

và ma trận hiệp phương sai: Σ =

(1 ρ

ρ 1

). Ta thấy (X|Y = y) có phân

phối N (ρy, 1 − ρ2) và (Y |X = x) có phân phối N (ρx, 1 − ρ2). Giả sử

Xn = (xn, yn) thì ta tiến hành như sau. Đầu tiên, ta lấy mẫu X = x từ

phân phối có điều kiện của (X|Y = yn) và tiếp theo lấy mẫu Y = y từ

phân phối có điều kiện của (Y |X = x). Khi đó ta đặt Xn+1 = (x, y).

29

Page 31: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

2.3.2 Mẫu độc lập

Như tên gọi chỉ trạng thái mẫu độc lập đề suất không phụ thuộc vào

trạng thái hiện tại của xích, tức là q(x, y) = f(y) với mọi x ∈ S, trong đó

f là một hàm khối xác suất hoặc mật độ. Xác suất chấp nhận cho mẫu

độc lập quy về:

α(x, y) = min

1,π(y)f(x)

π(x)f(y)

.

Ví dụ 2.4. Xét hàm mật độ mục tiêu:

π(x) =1

π(1 + x2).

Nếu ta sử dụng các đề xuất chuẩn tắc với kỳ vọng 0 và độ lệch chuẩn 4 thì

mật độ đề xuất là

q(x, y) ∝ exp(−y2/32),

và vì thế xác suất chấp nhận được cho bởi:

α(x, y) = min

1,exp(−x2/32)(1 + x2)

exp(−y2/32)(1 + y2)

.

Trong khi mẫu độc lập có thể không làm việc nên tốt hơn trong thực

hành, các tính chất lý thuyết của nó được hiểu ngầm là thỏa mãn. Đối với

ví dụ này, chúng ta có thể chỉ ra rằng mẫu độc lập là ergodic miễn là giá

của π là một tập con của giá của f .

Mẫu độc lập cũng tương tự như mẫu loại bỏ. Hãy so sánh xác suất chấp

nhận đối với mẫu loại bỏ với xác suất chấp nhận dự kiến của mẫu độc lập

trong trạng thái dừng. Đối với mẫu loại bỏ để áp dụng, chúng ta giả thiết

rằng π(x) ≤Mf(x). Khi đó, nếu Y có phân phối f và X có phân phối π

thì ta có :

E(min1, π(Y )f(X)

π(X)f(Y ))

=

∫ ∫1[π(y)f(x)≥π(x)f(y)]π(x)f(y)dxdy

+

∫ ∫π(y)f(x)

π(x)f(y)1[π(y)f(x)<π(x)f(y)]π(x)f(y)dxdy

30

Page 32: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

E(min1, π(Y )f(X)

π(X)f(Y ))

= 2

∫ ∫1[π(y)/f(y)≥π(x)/f(x)]π(x)f(y)dxdy

≥ 2

∫ ∫1[π(y)/f(y)≥π(x)/f(x)]π(x)

π(y)

Mdxdy

=2

MP(π(X1)/f(X1) ≥ π(X2)/f(X2)) =

1

Mtrong đó X1 và X2 là các mẫu độc lập cùng phân phối π. Do đó, trong

trạng thái dừng, xác suất chấp nhận của mẫu độc lập lớn hơn xác suất

chấp nhận của thuật toán lấy mẫu loại bỏ. Điều này là dĩ nhiên đi kèm

với chi phí tạo ra một mẫu độc lập với chỉ tiệm cận phân phối chính xác.

Tương tự với mẫu loại bỏ tạo cảm giác chọn một mẫu độc lập với phân

phối đề xuất f là gần đến mức có thể mục tiêu π. (Chú ý nếu f = π thì

xích ngay lập tức đạt trạng thái dừng). Trong thực hành, phân phối đề

xuất fθ thường xuyên phụ thuộc vào tham số θ nào đó và chúng ta điều

chỉnh tham số theo kinh nghiệm để có được tỷ lệ chấp nhận trung bình

tốt. Ta có thể sử dụng thử nghiệm để ước lượng tỷ lệ chấp nhận dự kiến.

Nếu π(x) ≤ Mf(x) thì ta thậm chí có thể tính toán tốc độ hội tụ của

nhân chuyển đến phân phối dừng như sau. Với y 6= x:

p(x, y) = f(y) min

π(y)f(x)

π(x)f(y), 1

= min

π(y)f(x)

π(y), f(y)

≥ π(y)

M. (1)

||P (x, ·)− π|| = supA|∫A

(p(x, y)− π(y))dy|

=

∫y:π(y)>p(x,y)

(π(y)− p(x, y))dy

≤ (1− 1

M)

∫y:π(y)>p(x,y)

π(y)dy ≤ (1− 1

M),

trong đó, bất đẳng thức đầu tiên có được từ phương trình (1) trên. Tương

tự như vậy, ta có:∫A

(p2(x, y)− π(y))dy =

∫A

(∫A

(p(u, y)− π(y))dy

)(p(x, u)− π(u))du

≤ (1− 1

M)2.

31

Page 33: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Sử dụng quy nạp, bây giờ, ta có thể chỉ ra:

||P n(x, ·)− π|| ≤ (1− 1

M)n.

Điều này có nghĩa là mẫu độc lập là ergodic đều nếu π(x) ≤Mf(x), xem

định nghĩa sau.

Định nghĩa 2.2. Một xích Markov ergodic với phân phối không đổi π là

ergodic hình học nếu tồn tại một hàm không âm M sao cho Eπ(M(X)) <

∞ và một hằng số dương r < 1 sao cho

||P n(x, ·)− π(·)|| ≤M(x)rn,

với mọi x và mọi n. Nếu hàm M bị chặn trên tức là tồn tại K > 0 sao

cho M(x) < K với mọi x thì xích được gọi là ergodic đều.

2.3.3 Mẫu Metropolis - Hastings du động ngẫu nhiên

Ở đây, chúng ta chọn q(x, y) = f(y − x) với hàm khối xác suất hoặc

mật độ f nào đó. Mẫu Metropolis - Hastings du động ngẫu nhiên có tên

như vậy từ thực tế rằng sự đề xuất là được tạo ra theo một cách du động

ngẫu nhiên, tức là:

y = x+ z

trong đó z được đưa ra từ f . Xác suất chấp nhận cho phân phối đề xuất

này là:

α(x, y) = min

1,π(y)f(x− y)

π(x)f(y − x)

.

Chú ý rằng nếu f là đối xứng qua 0 thì đây là một mẫu Metropolis. Ví

dụ cho mẫu Metropolis cũng như mẫu du động ngẫu nhiên MH là phân

phối trộn.

Lựa chọn chung cho f là mật độ chuẩn đa biến, t- mật độ hoặc mật độ

đều.

32

Page 34: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

2.3.4 Mẫu Metropolis (thành phần đơn)

Đây là một đề xuất sáng tạo sử dụng hàm khối xác suất hoặc mật độ đề

xuất đối xứng, tức là q(x, y) = q(y, x). Khi đó, xác suất chấp nhận được

đơn giản hóa:

α(x, y) = min

1,π(x)

π(y)

.

Để cung cấp một mô tả chính xác hơn, chúng ta giả sử chia không

gian tham số thành hai thành phần và trạng thái hiện tại X t = (X t1, X

t2).

Thành phần thứ nhất Y1 bây giờ được lấy mẫu từ phân phối đề xuất đối

xứng có điều kiện q1(·|(X t1, X

t2)), và được chấp nhận là thành phần mới

X t+11 = Y1 với xác suất:

α = min

(1,π(Y1|X t

2)

π(X t1|X t

2)

).

Ngược lại,X t+11 = X t

1. Chú ý rằng, ở đây π(·|·) dùng để chỉ mật độ xác suất

có điều điện đầy đủ (tiến đến một hằng số tiêu chuẩn) và q1(Y1|(X t1, X

t2))

là xác suất chuyển từ điểm X t1 đến Y1 với điều kiện thành phần thứ hai là

X t2.

Thành phần thứ hai được lấy mẫu từ phân phối đề xuất q2(·|(X t1, X

t2))

và tương tự được chấp nhận với xác suất:

α = min

(1,π(Y2|X t+1

1 )

pi(X t2|X t+1

1 )

).

Ngược lại X t+12 = X t

2. Trạng thái mới X t+1 bây giờ được xác định đầy đủ.

33

Page 35: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Chương 3

MCMC thích nghi

Trong chương trước, chúng ta thấy rằng việc chọn lựa phân phối đề

xuất là quan trọng cho sự hội tụ của thuật toán MCMC. Tuy nhiên, việc

chọn lựa được phân phối đề xuất tốt thường khó thực hiện vì thông tin

về mật độ mục tiêu là không có hoặc rất ít. Hơn nữa, trong thuật toán

MCMC, phân phối đề xuất được chọn cho mọi bước mô phỏng. Để sử dụng

các thông tin đã thu được trong các bước mô phỏng trước để mô phỏng

cho bước tiếp theo, chúng ta đưa ra thuật toán MCMC thích nghi. Ở đó,

phân phối đề xuất được cập nhật cùng quá trình sử dụng thông tin đầy

đủ tích lũy cho đến thời điểm hiện tại.

Mỗi lựa chọn phân phối đề xuất thích nghi sẽ cho chúng ta một dạng

MCMC thích nghi. Trong chương này, chúng ta giới thiệu hai thuật toán

MCMC thích nghi mà phân phối đề xuất thích nghi là phân phối chuẩn

trên trạng thái hiện tại. Đó là "Thuật toán Metropolis du động ngẫu nhiên

thích nghi (Adaptive proposal distribution for random walk Metropolis

algorithm (AP))" và "Thuật toán Metropolis thích nghi (An adaptive

Metropolis algorithm (AM))". Đối với thuật toán AP, hiệp phương sai

của phân phối đề xuất Gauss được tính toán từ một số hữu hạn cố định

của các trạng thái trước đó. Đối với thuật toán AM, hiệp phương sai của

phân phối đề xuất được tính toán sử dụng tất cả các trạng thái trước.

Chương này bao gồm hai phần chính. Phần thứ nhất trình bày "Thuật

toán Metropolis du động ngẫu nhiên thích nghi", được trích dẫn chủ yếu

từ bài báo [6]. Trong đó cũng đưa ra sự so sánh thuật toán này với một số

34

Page 36: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

thuật toán MCMC trong chương 2. Phần thứ hai trình bày "Thuật toán

Metropolis thích nghi" cùng với chứng minh tính ergodic của thuật toán,

chủ yếu sử dụng bài báo [7]. Đồng thời cũng đưa ra so sánh thuật toán

AM với các thuật toán MCMC khác. Ngoài ra chương này cũng đưa ra

một số ứng dụng thực tế của thuật toán MCMC thích nghi.

3.1 Thuật toán Metropolis du động ngẫu nhiên thích

nghi

3.1.1 Mô tả thuật toán

Bây giờ, chúng ta đưa ra một mô tả chi tiết cho phương pháp đề xuất

thích nghi. Ý tưởng cơ bản là cập nhật phân phối đề xuất với những thông

tin đã biết từ trước đến nay về phân phối mục tiêu. Mặt khác, thuật toán

có thể được xem như một quá trình Metropolis với phân phối đề xuất

q phụ thuộc vào thời gian. Giả sử rằng các điểm X1, X2, ..., Xk đã được

lấy mẫu. Khi đó một điểm ứng viên Y được lấy mẫu từ phân phối đề

xuất qk(·|X1, X2, ..., Xk) mà bây giờ phụ thuộc vào lịch sử (X1, X2, ..., Xk)

(hoặc là một phần của lịch sử). Điểm ứng viên được chấp nhận với xác

suất:

α(Y,Xk) = min

(1,π(Y )

π(Xk)

),

trong đó, π(·) biểu thị mật độ xác suất của phân phối mục tiêu. Trong

trường hợp chấp nhận thì ta đặt Xk+1 = Y , ngược lại, Xk+1 = Xk. Phân

phối đề xuất qk(·|X1, X2, ..., Xk) là phân phối Gauss với kỳ vọng (trung

bình) tại Xk và hiệp phương sai phụ thuộc vào một phần của lịch sử.

Vì vậy, điều quan trọng là làm thế nào phân phối đề xuất phụ thuộc

vào lịch sử. Trong AP, điều này được giải quyết theo cách sau: Giả sửa

rằng phân phối mục tiêu π(·) là d-chiều, tức là, nó được xác định trên một

tập con của Rd. Khi đó, giả định rằng tại thời điểm t, chúng ta lấy mẫu ít

nhất là H điểm X1, ..., Xt−H+1, ..., Xt−1, Xt. Ở đây số tự nhiên cố định

H là tham số bộ nhớ. Phân phối đề xuất qt cho trạng thái đề xuất lấy mẫu

35

Page 37: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Y là được chọn theo:

qt(·|X1, ..., Xt) ∼ N (Xt, c2dRt),

trong đó Rt là ma trận hiệp phương sai cấp d × d được xác định bởi H

điểm Xt−H+1, Xt−H+2 ..., Xt và yếu tố tỷ lệ cd chỉ phụ thuộc vào số chiều

d. Hiệp phương sai Rt có thể được tính toán bởi họ các điểm Xt−H+1,

Xt−H+2 ..., Xt trong một ma trận K cấp H × d, ở đây mỗi hàng đại diện

cho một điểm lấy mẫu. Khi đó

Rt =1

H − 1KT K.

Trong đó, K là ma trận quy tâm (mỗi cột của ma trận tâm bằng hiệu của

cột ma trận ban đầu trừ đi trung bình của cột đó): K = K−E[K]. Trong

thực hành, một cách dễ dàng cho việc lấy mẫu từ N (Xt, c2dRt), ví dụ như:

N (Xt, c2dRt) ∼ Xt +

cd√H − 1

KTN (0, IH),

với N (0, IH) là phân phối Gauss chuẩn tắc.

Theo cách này, chúng ta thu được các mẫu mà thích nghi với tình hình

hiện tại của phương pháp MCMC, xem hình dưới. Việc sử dụng tham số

tỷ lệ cd là tự khám phá, có thể thay đổi theo mục đích sử dụng, nhưng

tính hữu ích của nó được đánh gia thông qua các bài test. Như một lựa

chọn cơ bản, chúng ta thừa nhận giá trị cd = 2, 4/√d từ (Gelman 1996),

tương ứng với lý thuyết tối ưu hóa của tính chất trộn của phương pháp

Metropolis - Hastings trong trường hợp các mục tiêu Gauss và đề xuất

Gauss.

Chúng ta không cập nhật hiệp phương sai của phân phối đề xuất tại

mỗi bước của quá trình, nhưng thay vì giữ cố định nó cho U bước. Vì vậy

trong trường hợp này, Rt được cập nhật duy nhất tại thời điểm là bội của

U và giữ cố định ở giữa. Ở đây, tham số U được gọi là tần số cập nhật.

Để tránh sự khởi đầu chậm chạp của thuật toán, có thể sử dụng thủ thuật

đặc biệt. Đương nhiên, nếu thông tin đã biết về phân phối mục tiêu là có

sẵn thì nó có thể được sử dụng trong khởi đầu của quá trình.

36

Page 38: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Hình 3.1: Một ví dụ về xích mô phỏng khi hàm mục tiêu là phân phối "hình quả chuối"

2- chiều. Các ellip phủ kín 95% miền tin cậy của các phân phối đề xuất khác nhau.

Trong hình này các tham số H = 200 và U = 200.

Tuy nhiên, không cần bất kỳ thông tin đã biết nào về phân phối mục

tiêu, chúng ta có thể sử dụng phương pháp khởi đầu "greedy": Trong suốt

một thời gian ngắn ban đầu, chúng ta cập nhật phân phối đề xuất sử dụng

duy nhất trạng thái được chấp nhận. Hơn nữa, trong suốt thời gian ngắn

ban đầu này, bộ nhớ H và tần số cập nhật U có thể được chọn nhỏ hơn

bình thường. Sau đó, thuật toán AP được chạy như mô tả ở trên. Trong

suốt giai đoạn đầu của xích, là tự nhiên để yêu cầu rằng xích "di chuyển

ít nhất một chút". Nếu nó di chuyển không đủ thì phân phối đề xuất có

thể được co bởi một yếu tố hằng số.

3.1.2 Tính chất ergodic

Trước tiên ta thấy rằng thuật toán AP không có tính Markov. Hơn nữa,

tính ergodic của nó cũng không thực sự rõ ràng. Trong đoạn này, chúng ta

sẽ chỉ ra một cách ngắn gọn tính hội tụ của quá trình (Xn) trong AP. Để

37

Page 39: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

đơn giản, chúng ta giả sử phân phối mục tiêu π bị chặn và chúng ta chỉ

định một cận dưới cho kích thước của phân phối đề xuất. Điều này đảm

bảo rằng thuật toán hầu như chắc chắn làm việc được với mọi tập π- đo

được dương (một yêu cầu tối thiểu đối với "tính hay biến động" của thuật

toán AP). Thực ra, các thực nghiệm cho thấy tính hay biến động của AP

là cao đối với, ví dụ như, thuật toán Metropolis, đó là một hệ quả dự kiến

của thích nghi tự nhiên của AP.

Tuy nhiên, Metropolis thích nghi không mang lại mô phỏng không chệch

của phân phối mục tiêu π. Nhằm xác định phân phối thực tế mang lại bởi

thuật toán, ta có thể xét xích Yk = (Xk, Xk−1, ..., Xk−U+1) trong không

gian trạng thái Rd×U . Bây giờ, lý thuyết tổng quát về tính ergodic của quá

trình Markov được áp dụng (Nummelin 1984). Bằng cách chiếu phân phối

giới hạn của xích (Yk) trở lại Rd thu được phân phối π mà Xk mô phỏng

cuối cùng. Vì tính đo được của các tập A nên hầu chắc chắn rằng:

π(A) = limn→∞

(χA(X1) + χA(X2) + ...+ χA(Xn)),

với χA là hàm đặc trưng của tập A. Những gì làm cho thuật toán AP hữu

ích trong thực hành mà theo thực nghiệm của chúng ta là sự khác nhau

giữa π và mục tiêu π là rất nhỏ khi π hoạt động hợp lý tốt. Thực tế, độ

chính xác của thuật toán AP có thể so sánh với độ chính xác của một

thuật toán Metropolis với một sự lựa chọn tốt phân phối đề xuất.

Tuy nhiên, nếu phân phối mục tiêu có các tính chất cụ thể nào đó thì sự

khác nhau giữa π và π có thể đóng một vai trò.

3.1.3 So sánh các thuật toán Metropolis với thuật toán AP

Trong đoạn này, chúng ta thuật lại các mô phỏng máy tính đã thực hiện

để so sánh các thuật toán MCMC cơ bản và thuật toán AP. Các thuật

toán được so sánh là:

• Thuật toán Metropolis du động ngẫu nhiên (M) với một phân phối

đề xuất Gauss,

38

Page 40: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

• Thuật toán Metropolis - Hastings thành phần đơn (SC) với một phân

phối đề xuất Gauss,

• Thuật toán Metropolis du động ngẫu nhiên thích nghi (AP).

Các phân phối mục tiêu thực nghiệm

Các phân phối thực nghiệm được xây dựng sao cho dễ tính toán đối với

các miền tin cậy khác nhau, bao gồm:

• Phân phối Gauss không tương quan (π1),

• Phân phối Gauss có tương quan (π2),

• Phân phối Gauss phi tuyến hình quả chuối xoắn vừa phải (π3),

• Phân phối Gauss phi tuyến hình quả chuối xoắn mạnh (π4).

Phân phối mục tiêu thực nghiệm Gauss không tương quan π1 là phân phối

chuẩn trung tâm đa biếnN (0, C1) với hiệp phương sai C1 = diag(100, 1, ..., 1).

Vì thế, hình của nó là một ellipsoid với một bán trục có kích thước gấp 10

lần các bán trục còn lại.

Phân phối mục tiêu thực nghiệm Gauss có tương quan π2 chỉ là phân

phối π1 được xoay bán trục dài theo hướng (1, 1, ..., 1). Các trường hợp

thực nghiệm tuyến tính được chạy trong 2, 4, 8, 16 và 32 - chiều.

Hình dạng các phân phối thực nghiệm π1, π2, π3, π4 trong 2 - chiều, các

đường viền tương ứng với miền tin cậy 68,3%, 90%, 95%, đường thẳng thể

hiện thành phần thứ nhất trong miền tin cậy từ 68% đến 95% được cho

trong hình sau.

Các phân phối phi tuyến hình quả chuối được xây dựng từ phân

phối Gauss bằng cách "xoắn" chúng lại. Gọi f là mật độ của phân phối

chuẩn đa biến N (0, C1) với hiệp phương sai một lần nữa được cho bởi

C1 = diag(100, 1, ..., 1). Hàm mật độ của Gauss "xoắn" với tham số phi

tuyến b > 0 được cho bởi:

fb = f φb,

trong đó hàm φb là:

φb = (x1, x2 + bx1 − 100b, x3, ..., xn).

39

Page 41: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Hình 3.2: Các phân phối thực nghiệm π1, π2, π3, π4 trong 2 - chiều, các đường viền

tương ứng với miền tin cậy 68,3%, 90%, 95%, đường thẳng thể hiện thành phần thứ

nhất trong miền tin cậy từ 68% đến 95%.

Do đó, φb chỉ thay đổi hai tọa độ và định thức Jacobian của φb chính

bằng 1. Điều này làm cho dễ tính toán miền tin cậy cho các mật độ Gauss

"xoắn". Bằng định nghĩa, hàm mục tiêu xoắn là ở chính giữa.

Tính phi tuyến của hàm φb tăng theo b. Trong thực nghiệm, chúng ta áp

dụng giá trị b = 0, 03 cho phân phối mục tiêu xoắn vừa phải π3 và b = 0, 1

cho phân phối mục tiêu xoắn mạnh π4. Các trường hợp thực nghiệm phi

tuyến được thực hiện trong 2, 4 và 8 - chiều.

Kết quả mô phỏng

Sau khi chạy thực nghiệm trên máy tính, chúng ta đưa ra một số kết

quả cho trong bảng (đối với phân phối phi tuyến) và hình sau. Mỗi thực

nghiệm được chạy 100 lần.

Mỗi số trong các bảng là một giá trị trung bình trên 100 lần lặp. Các

hàng của các bảng cho biết các phần trăm tiêu chí thực hiện, trong khi

đó các cột biểu diễn các phương pháp khác nhau được so sánh. Ở đây là

40

Page 42: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Hình 3.3: Các phân phối phi tuyến 8 -chiều. Mỗi số trong bảng được tính từ 100 lần

lặp. Độ dài thời kỳ burn-in là 50% độ dài của xích.

danh sách các phần trăm tiêu chí thực hiện được sử dụng trong các bảng:

• mean(||E||) được tính theo công thứcmean(||E||) = 1100

∑100j=1(

∑di=1(E

ij)

2)12 ,

với Ej là véctơ kỳ vọng của xích j.

• std(||E||) là độ lệch tiêu chuẩn.

• err(≤ 68, 3%) là sai số trung bình của phần trăm những điểm lấy

mẫu nằm trong mức 68,3%.

• std(≤ 68, 3%) là tỷ lệ phần trăm độ lệch tiêu chuẩn của các điểm lấy

mẫu mà miền tin cậy trong mức 68,3%.

• err(≥ 99%) và std(≥ 99%) tương tự là sai số trung bình và độ lệch

41

Page 43: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

tiêu chuẩn của tỷ lệ các điểm lấy mẫu nằm ngoài miền tin cậy 99%.

• 1-d err(68,3-95%) là sai số trung bình tỷ lệ các điểm lấy mẫu mà chiều

thứ nhất (thành phần thứ nhất trong d- chiều) trong miền tin cậy từ

68,3% và 95%.

• 1-d std(68,3-95%) là độ lệch tiêu chuẩn tỷ lệ các điểm lấy mẫu mà

chiều thứ nhất trong miền tin cậy từ 68,3% và 95%.

• Các giá trị 1-d err(95-99%) và 1-d std(95-99%) tương tự với miền tin

cậy từ 95% đến 99%.

• acc. rate là tỷ lệ phần trăm của những trạng thái đề xuất được chấp

nhận.

Để thuận tiện, chúng ta đưa ra kết quả dưới dạng đồ thị trong 8 chiều

sau đây. Phần trên của hình biểu thị sai số trung bình và độ lệch tiêu

chuẩn phần trăm các điểm lấy mẫu nằm trong mức tin cậy 68,3% (tức là

err(≤ 68, 3%) và std(≤ 68, 3%)) cho tất cả các phân phối mục tiêu. Phần

dưới biểu thị sai số trung bình và độ lệch tiêu chuẩn phần trăm các điểm

lấy mẫu mà chiều thứ nhất ở miền tin cậy từ 68,3% đến 95% (tức là 1-d

err(68,3-95%) và 1-d std(68,3-95%).

3.2 Thuật toán Metropolis thích nghi

Trong đoạn này, chúng ta giới thiệu một thuật toán Metropolis thích

nghi (AM) mà thích nghi liên tục với phân phối mục tiêu. Đáng chú ý, sự

thích nghi tác động đến cả kích cỡ và định hướng không gian của phân

phối đề xuất. Hơn nữa, thuật toán mới này dễ hiểu cho việc thực hiện và

sử dụng trong thực tế. Định nghĩa của thuật toán AM cơ bản được dựa

trên thuật toán Metropolis du động ngẫu nhiên cổ điển và các sửa đổi,

thuật toán AP, được giới thiệu ở đoạn trước. Trong thuật toán AP, phân

phối đề xuất là phân phối Gauss chính giữa trên trạng thái hiện tại, và

hiệp phương sai được tính toán từ một số hữu hạn cố định của các trạng

42

Page 44: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Hình 3.4: Những kết quả với các phân phối mục tiêu 8- chiều khác nhau. Hình trên biểu

thị err(≤ 68, 3%) và std(≤ 68, 3%) cho tất cả các phân phối mục tiêu. Đường thẳng

nằm ngang chỉ 68,3%. Hình dưới biểu thị 1-d err(68,3-95%) và 1-d std(68,3-95%).

Đường thẳng nằm ngang chỉ 26,7%.

thái trước đó. Trong thuật toán AM, hiệp phương sai của phân phối đề

xuất được tính toán sử dụng tất cả các trạng thái trước. Phương pháp

này là dễ dàng thực hiện với không có thêm chi phí tính toán và có thể áp

dụng một công thức truy hồi đơn giản cho các hiệp phương sai liên quan.

Một thuận lợi quan trọng của thuật toán AM là nó khởi động sử dụng

thông tin đúng tích lũy ngay từ đầu của mô phỏng. Sự khởi động nhanh

chóng của sự thích nghi đảm bảo rằng việc nghiên cứu trở nên hiệu quả

hơn ở giai đoạn đầu của mô phỏng, làm giảm số lượng hàm đánh giá cần

thiết.

43

Page 45: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Để chính xác hơn, giả sử tại thời điểm t, các trạng thái đã lấy mẫu của

xích AM là X0, X1, ..., Xt, một trong chúng có thể phức tạp. Phân phối

đề xuất mới cho điểm ứng viên tiếp theo là một phân phối Gauss với kỳ

vọng tại điểm hiện tại Xt và hiệp phương sai cho bởi sdR, với R là ma

trận hiệp phương sai xác định bởi phân phối không gian của các trạng thái

X0, X1, ..., Xt ∈ R. Tham số tỷ lệ sd chỉ phụ thuộc vào số chiều d của các

véctơ. Chiến lược thích nghi này buộc phân phối đề xuất tiếp cận một xấp

xỉ phân phối Gauss thu nhỏ thích hợp của phân phối mục tiêu, làm tăng

hiệu quả của mô phỏng. Mô phỏng chi tiết của thuật toán được đưa ra ở

trong đoạn 1 sau đây.

Một trong những khó khăn trong việc xây dựng các thuật toán thích

nghi MCMC là đảm bảo rằng thuật toán bảo toàn tích ergodic chính xác.

Ở đây, chúng ta quan sát thấy thuật toán AP không sở hữu tính chất này.

Kết quả chính của chúng ta, định lý 3.2 sau đây, xác nhận rằng quá trình

AM thực sự có tính ergodic chính xác, giả sử rằng mật độ mục tiêu bị chặn

trên và có giá bị chặn. Xích AM không phải là Markov, nhưng chúng ta

chỉ ra rằng sự phụ thuộc tiệm cận giữa các phần tử của xích là đủ yếu để

áp dụng định lý nổi tiếng luật số lớn cho mixingales ((McLeish 1975) hay

([4])). Những kết quả tương tự có thể cũng được chứng minh cho các biến

thể khác nhau của thuật toán, với hiệp phương sai được tính toán từ một

phân khúc tăng phù hợp của lịch sử gần.

Đoạn 2 chứa mô tả chi tiết của thuật toán AM như một quá trình ngẫu

nhiên và định lý về tính ergodic của AM. Chứng minh cơ bản dựa trên

kết quả bổ trợ. Cuối cùng, đoạn 3 giới thiệu các kết quả từ mô phỏng

thực nghiệm, trong đó thuật toán AM được so sánh với các thuật toán

Metropolis- Hastings truyền thống bằng việc áp dụng cả các phân phối

mục tiêu tuyến tính và phi tuyến, tương quan và không tương quan. Các

thực nghiệm của chúng ta dường như chỉ ra rằng thuật toán AM thực hiện

ít nhất giống như các thuật toán truyền thống với một phân phối đề xuất

gần như tối ưu với thông tin đã cho.

44

Page 46: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

3.2.1 Mô tả thuật toán

Giả sử rằng phân phối mục tiêu của chúng ta là có giá trên tập con

S ⊂ Rds, và nó có một mật độ (chưa định tỷ lệ) π(x) cùng với độ đo

Lebesgue trên S. Với sự lạm dụng ký hiệu, chúng ta cũng ký hiệu phân

phối mục tiêu là π.

Bây giờ, chúng ta giải thích cách thuật toán AM hoạt động. Nhắc lại

từ phần trên rằng ý tưởng cơ bản là cập nhật phân phối đề xuất bởi sử

dụng những thông tin đã biết từ trước cho đến lúc này về phân phối mục

tiêu. Mặt khác, khái niệm của thuật toán này là tương tự như quá trình

Metropolis thông thường. Vì vậy, giả sử rằng tại thời điểm t − 1 chúng

ta lấy mẫu các trạng thái X0, X1, ..., Xt−1, trong đó X0 là trạng thái ban

đầu. Khi đó điểm ứng viên Y được lấy mẫu từ phân phối đề xuất (đối

xứng tiệm cận) qt(·|X0, ..., Xt−1), bây giờ, nó phụ thuộc vào toàn bộ lịch

sử X0, ..., Xt−1. Điểm ứng viên Y được chấp nhận với xác suất:

α(Xt−1, Y ) = min

(1,

π(Y )

π(Xt−1)

)Trong trường hợp chấp nhận, ta đặt Xt = Y , ngược lại, ta đặt Xt = Xt−1.

Quan sát cho thấy, xác suất chọn cho việc chấp nhận tương tự như xác

suất chấp nhận của thuật toán Metropolis. Tuy nhiên, ở đây, việc chọn cho

xác suất chấp nhận không dựa trên các điều kiện (nghịch đảo) đối xứng

vì nó không thỏa mãn trong trường hợp của chúng ta - xích ngẫu nhiên

tương ứng là không Markov. Với lý do này, chúng ta nghiên cứu tính chính

xác của mô phỏng một cách riêng biệt và thực hiện trong đoạn sau.

Phân phối đề xuất qt(·|X0, ..., Xt−1) được dùng trong thuật toán AM

là phân phối Gauss với kỳ vọng tại điểm hiện tại Xt−1 và hiệp phương sai

Ct = Ct(X0, ..., Xt−1). Chú ý rằng trong mô phỏng chỉ nhảy vọt bên trong

S là được chấp nhận vì chúng ta giả sử rằng phân phối mục tiêu triệt tiêu

ngoài S.

Điều quan trọng liên quan đến sự thích nghi là làm thế nào hiệp phương

sai phụ thuộc vào lịch sử của xích. Trong thuật toán AM, điều này được

giải quyết bằng điều chỉnh Ct = sdcov(X0, ..., Xt−1) + sdεId sau một thời

45

Page 47: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

kỳ ban đầu, trong đó sd là tham số chỉ phụ thuộc vào số chiều d. Ở đây,

Id là ma trận đơn vị d- chiều. Để bắt đầu, chúng ta chọn một hiệp phương

sai C0 ban đầu tùy ý, xác định dương chặt theo sự hiểu biết thông tin đã

có tốt nhất của chúng ta (có thể là quá nghèo nàn). Chúng ta chọn một

chỉ số t0 > 0 cho độ dài một chu kỳ ban đầu và định nghĩa:

Ct =

C0 t ≤ t0

sdcov(X0, ..., Xt−1) + sdεId t > t0(3.1)

Hiệp phương sai Ct có thể được coi như một hàm của biến t từ Rd có giá

trị trong các ma trận xác định dương đồng dạng.

Nhắc lại định nghĩa của ma trận hiệp phương sai thực nghiệm xác định

bởi các điểm x0, ..., xk ∈ Rd:

cov(x0, ..., xk) =1

k

( k∑i=0

xixTi − (k + 1)xkx

Tk

). (3.2)

Trong đó, xk = (1/(k + 1))∑k

i=0 xi và các phần tử xi ∈ Rd được xem là

các véctơ cột. Do đó, trong công thức (3.1) với t ≥ t0 +1, ta thu được hiệp

phương sai Ct thỏa mãn công thức truy hồi:

Ct+1 =t− 1

tCt +

sdt

(tXt−1XTt−1 − (t+ 1)XtX

Tt +XtX

Tt + εId). (3.3)

Điều này cho phép tính Ct không mất quá nhiều chi phí tính toán vì trung

bình Xt cũng thỏa mãn một công thức truy hồi rõ ràng.

Việc chọn độ dài của phần ban đầu t0 > 0 là tự do, nhưng nếu lớn quá

sẽ làm chậm lại ảnh hưởng của sự thích nghi. Trong một ý nghĩa, kích cỡ

của t0 phản chiếu niềm tin của chúng ta về hiệp phương sai ban đầu. Vai

trò của tham số ε là để đảm bảo rằng Ct sẽ không bị suy biến (kỳ dị).

Như một lựa chọn cơ bản cho tham số tỷ lệ, chúng ta thừa nhận giá trị

sd = (2, 4)2/d (theo Gelman 1996), trong đó người ta thấy rằng trong một

ý nghĩa nào đó, sự lựa chọn này tối ưu hóa các tính chất trộn của nghiên

cứu Metropolis với trường hợp các phân phối mục tiêu và đề xuất Gauss.

Nhận xét 1: Trong chạy thực nghiệm của chúng ta, hiệp phương sai

46

Page 48: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Ct chưa có xu hướng thoái hóa. Tuy nhiên, khó khăn tiềm ẩn với ε = 0

(nếu có) có nhiều khả năng xuất hiện hơn trong các trường hợp đa phương

thức. Trong tính toán thực tế, người ta có thể sử dụng công thức (3.1)

với ε = 0, mặc dù sự thay đổi là không đáng kể nếu ε được chọn đủ nhỏ.

Quan trọng hơn, chúng ta có thể chứng tỏ tính chất ergodic chính xác của

thuật toán này chỉ dưới giả định ε > 0 (xem định lý 3.2 dưới đây).

Nhận xét 2: Để tránh thuật toán bắt đầu (khởi động) chậm, có thể

sử dụng các thủ thuật đặc biệt. Dĩ nhiên, nếu một thông tin về phân phối

mục tiêu (chẳng hạn như giá trị hàm khả năng cực đại hoặc hiệp phương

sai xấp xỉ của phân phối mục tiêu) có sẵn thì có thể tận dụng trong chọn

lựa trạng thái ban đầu hoặc hiệp phương sai ban đầu C0. Hơn nữa, trong

trường hợp thích hợp sử dụng phương thức khởi động greedy trong suốt

một chu kỳ ngắn ban đầu, chúng ta cập nhật phân phối đề xuất chỉ sử

dụng các trạng thái được chấp nhận. Sau này, thuật toán AM được chạy

như mô tả trên. Ngoài ra, trong suốt giai đoạn đầu của thuật toán, yêu

cầu xích di chuyển ít nhất một chút. Nếu không di chuyển đủ trong quá

trình của một số lượng nhất định lặp đi lặp lại thì phân phối đề xuất có

thể co lại bằng yếu tố hằng số nào đó.

Nhận xét 3: Cũng có thể chọn một số tự nhiên n0 > 1 và chỉ cập nhật

hiệp phương sai với mọi n0-bước (lại sử dụng toàn bộ lịch sử). Điều này

tiết kiệm thời gian máy tính làm việc khi tạo ra các điểm ứng viên. Tiếp

tục có một công thức truy hồi đệ quy đơn giản cho các hiệp phương sai

Ct.

3.2.2 Tính Ergodic

Trong thuật toán AP, được mô tả ở trên, hiệp phương sai Ct được tính

toán chỉ từ trạng thái cuốiH, ở đâyH ≥ 2. Ở phần trước, ta chỉ ra phương

pháp này không có tính ergodic. Nhưng phân phối giới hạn của AP khác

không đáng kể với phân phối mục tiêu.

Mục tiêu trong đoạn này chỉ ra thuật toán AM có tính ergodic đúng

và vì thế cung cấp mô phỏng chính xác của phân phối mục tiêu. Bây giờ,

47

Page 49: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

chúng ta nhắc lại một vài ký hiệu cơ bản của định lý về quá trình ngẫu

nhiên cần cho sau này. Đầu tiên, chúng ta định nghĩa tập sắp thứ tự. Cho

(S,B,m) là một không gian trạng thái và M (S) là tập các độ đo hữa hạn

trên (S,B). Chuẩn || · || trên M (S) là chuẩn tổng các biến. Cho n ≥ 1

là một số tự nhiên. Ánh xạ Kn : Sn × B → [0, 1] là xác xuất chuyển

tổng quát trên tập S nếu ánh xạ x 7→ Kn(x;A) là Bn - đo được với mỗi

A ⊂ B, trong đó x ∈ Sn và K(x; ·) là độ đo xác suất trên (S,B) với mỗi

x ∈ Sn. Theo tự nhiên, Kn xác định một một phép co dương từ M (Sn)

vào M (S). Một xác suất chuyển trên S tương ứng với trường hợp n =1

trong định nghĩa trên.

Giả sử rằng có một dãy xác suất chuyển tổng quát (Kn)∞n=1. Hơn nữa,

gọi µ0 là phân phối xác suất (phân phối ban đầu) trên S. Khi đó, dãy

(Kn) và µ0 xác định duy nhất các phân phối hữu hạn chiều của quá trình

ngẫu nhiên rời rạc (xích) (Xn)∞n=0 trên S theo công thức sau:

P (X0 ∈ A0, X1 ∈ A1, ..., Xn ∈ An) =

∫y0∈A0

µ0(dy0)

(∫y1∈A1

K1(y0; dy1)

×(∫

y2∈A2

K2(y0, y1; dy2) · · ·(∫

yn∈AnKn(y0, y1, · · · , yn−1; dyn)

)· · ·))

.

(3.4)

Trên thực tế, trực tiếp xác minh rằng các phân phối này là phù hợp và

định lý của Ionescu Tulcea cung cấp sự tồn tại của xích (Xn) trên S thỏa

mãn (3.4) (mệnh đề V.1.1 của Neveu 1965).

Bây giờ, ta định nghĩa chính xác xích AM như một quá trình ngẫu

nhiên rời rạc. Giả sử rằng phân phối mục tiêu có giá trên tập con bị chặn

S ∈ Rd, dẫn đến π(x) ≡ 0 bên ngoài S. Ta sẽ chọn S là không gian trạng

thái, khi được trang bị với σ - đại số Borel B(S) và chọn m là độ do

Lebesgue chuẩn trên S. Mục tiêu π có mật độ (chưa định tỷ lệ) π(x) đối

với độ đo Lebesgue trên S. Cũng giả sử ràng mật độ bị chặn trên S: với

M <∞, ta có:

π(x) ≤M với x ∈ S (3.5)

48

Page 50: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Gọi C là ma trận đối xứng và xác định dương chặt trên Rd và ký hiệu NC

là mật độ của phân phối Gauss kỳ vọng 0 trên Rd với hiệp phương sai C.

Khi đó:

NC(x) =1

(2π)n/2√|C|

exp

(−1

2xTC−1x

)(3.6)

Xác suất chuyển đề xuất Gauss tương ứng với hiệp phương sai C thỏa

mãn:

QC(x;A) =

∫ANC(y − x)dy, (3.7)

với A ⊂ Rd là tập Borel và dy là độ đo Lebesgue chuẩn trên Rd. Theo

Haario và Saksman 1991, QC là m- đối xứng:∫BQC(x;A)m(dx) =

∫AQC(x;B)m(dx).

Tiếp theo, ta nhắc lại định nghĩa của xác suất chuyển MC cho qua trình

Metropolis có mật độ mục tiêu π(x) và phân phối đề xuất QC :

MC(x;A) =

∫ANC(y − x)min(1,

π(y)

π(x))m(dy)

+ χA(x)

∫Rd

NC(y − x)

[1−min(1,

π(y)

π(x))

]m(dy),

(3.8)

với A ∈ B(S) và χA là hàm đặc trưng của tập A. Dễ dàng chứng minh

được MC xác định một xác suất chuyển với không gian trạng thái S.

Sau đây, chúng ta định nghĩa xích AM tương ứng chính xác với thuật

toán AM được giới thiệu ở trên.

Định nghĩa 3.1. Cho S và π như trên và hiệp phương sai ban đầu C0,

hằng số ε > 0. Định nghĩa các hàm Cn với n ≥ 1 bởi công thức (3.1).

Với một phân phối ban đầu µ0 cho trước, xích Metropolis thích nghi là một

xích ngẫu nhiên trên S định nghĩa theo (3.4) bởi dãy xác suất chuyển tổng

quát (Kn)∞n=1, trong đó:

Kn(x0, ..., xn−1;A) = MCn(x0,...,xn−1)(xn−1;A) (3.9)

với mọi n ≥ 1, xi ∈ S (0 ≤ i ≤ n− 1), với mọi tập con A ∈ B(S).

49

Page 51: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Chúng ta bắt đầu nghiên cứu tính ergodic của xích AM, là phức tạp

hơn so với trường hợp xích Markov. Để có thể tiến hành, ta đưa ra vài

định nghĩa. Đầu tiên, nhắc lại định nghĩa hệ số của ergodic. Cho T là xác

suất chuyển trên S và tập

δ(T ) = supµ1,µ2

||µ1(T )− µ2(T )||||µ1 − µ2||

, (3.10)

với supremum lấy theo độ đo xác suất khoảng cách µ1, µ2 trên (S,B).

Như thông thường, λT là độ đo A 7→∫S T (x;A)λ(dx) và với các hàm bị

chặn đo được, ta viết Tf(x) =∫S T (x; dy)f(y) hay λf =

∫S λ(dy)f(y).

Rõ ràng 0 ≤ δ(T ) ≤ 1. Trong trường hợp δ(T ) < 1, ánh xạ T là phép co

chặt trên M (S) đối với metric được định nghĩa bởi chuẩn tổng các biến

trên M (S). Từ định nghĩa, dễ dàng có:

δ(T1T2...Tn) ≤n∏i=1

δ(Ti). (3.11)

Điều kiện δ(T k0) < 1 với k0 ≥ 1 được biết đến là tương đương với tính

ergodic đồng dạng của xích Markov và xác suất chuyển T .

Với mục đích hữu dụng cho định nghĩa xác suất chuyển là thu được từ

một xác suất chuyển tổng quát bởi "đóng băng" n − 1 biến đầu tiên. Vì

thế, cho một xác suất chuyển tổng quát Kn ( n ≥ 2) và cố định (n − 1)-

bộ (y0, y1, ..., yn−2) ∈ Sn−1, chúng ta đặt yn−2 = (y0, y1, ..., yn−2) và định

nghĩa xác suất chuyển Kn,yn−2 bởi:

Kn,yn−2(x;A) = Kn(y0, y1, ..., yn−2, x;A) (3.12)

với mọi x ∈ S và A ∈ B(S).

Định lí 3.2. Cho π là mật độ của phân phối mục tiêu có giá trên một

tập con đo được bị chặn S ⊂ Rd, và giả sử rằng π là bị chặn trên. Cho

ε > 0 và µ0 là phân phối ban đầu bất kì trên S. Định nghĩa xích AM (Xn)

bởi dãy xác suất chuyển tổng quát như trong định nghĩa 3.1. Khi đó xích

AM mô phỏng một cách đúng đắn phân phối mục tiêu π: với bất kỳ hàm

bị chặn đo được f : S 7→ R, đẳng thức

limn→∞

1

n+ 1(f(X0) + f(X1) + ...+ f(Xn)) =

∫Sf(x)π(dx)

50

Page 52: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

hầu chắc chắn.

Chứng minh dựa vào kết quả bổ trợ sau đây.

Định lí 3.3. Giả sử phân phối hữu hạn chiều của quá trình ngẫu nhiên

(Xn)∞n=0 trên không gian trạng thái S thỏa mãn (3.4), trong đó dãy các xác

suất chuyển tổng quát (Kn) được giả sử thỏa mãn ba điều kiện sau:

(i) Có một số tự nhiên k0 và hằng số λ ∈ (0, 1) sao cho:

δ((Kn,yn−2)k0) ≤ λ < 1 với mọi yn−2 ∈ Sn−1 và n ≥ 2.

(ii) Có một độ đo xác suất cố định π trên S và hằng số c0 > 0 sao cho:

||πKn,yn−2|| ≤c0

nvới mọi yn−2 ∈ Sn−1 và n ≥ 2.

(iii) Chúng ta có ước lượng cho dạng toán tử sau đây:

||Kn,yn−2 −Kn+k,yn+k−2||M (S)→M (S) ≤ c1k

n

với c1 là hằng số dương cố định, n, k ≥ 1 và giả sử (n + k − 1)-bộ

yn+k−2 là tiếp tục trực tiếp của (n− 1)-bộ yn−2.

Khi đó, nếu f : S → R là hàm đo được và bị chặn thì đẳng thức:

limn→∞

1

n+ 1(f(X0) + f(X1) + ...+ f(Xn)) =

∫Sf(x)π(dx) (3.13)

hầu chắc chắn.

Trong phần dưới đây, các hằng số bổ trợ ci, i = 2, 3, ... phụ thuộc vào

S, ε hoặc C0 và giá trị thực sự của chúng không liên quan đến mục đích

của chúng ta ở đây.

Chứng minh định lý 3.2: Theo định lý 3.3, ta chỉ cần chứng minh

xích AM thỏa mãn các điều kiện (i) - (iii). Để kiểm tra điều kiện (i), nhận

thấy rằng, ngay từ định nghĩa (3.1) và thực tế S bị chặn, tất cả các hiệp

phương sai C = Cn(y0, ..., yn−1) thỏa mãn bất đẳng thức ma trận:

0 < c2Id ≤ C ≤ c3Id. (3.14)

51

Page 53: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Vì vậy các mật độ chuẩn tương ứng NC(· − x) là bị chặn đều dưới trên S

với mọi x ∈ S, và (3.5) và (3.8) cùng là ràng buộc tầm thường

Kn,yn−2(x;A) ≥ c4π(A) ∀x ∈ S và A ⊂ S,

với c4 > 0. Điều này dễ dàng dẫn đến (theo chứng minh trong Nummelin

1984 trang 122 - 123) δ(Kn,yn−2) ≤ 1− c4, chứng tỏ (i) đúng với k0 = 1.

Tiếp theo kiểm tra điều kiện (iii). Để kết thúc, ta giả sử n ≥ 2 và thấy

rằng với yn+k−2 ∈ Sn+k−1, ta có:

||Kn,yn−2−Kn+k,yn+k−2||M (S)→M (S)

≤ 2supy∈S,A∈B(S)|Kn,yn−2(y;A)−Kn+k,yn+k−2(y;A)|.(3.15)

Cố định y ∈ S, A ∈ B(S) và đưa vào R1 = Cn(y0, ..., yn−2, y) cùng với

R2 = Cn+k(y0, ..., yn+k−2, y). Theo định nghĩa 3.1 và công thức (3.8) ta có:

|Kn,yn−2(y;A)−Kn+k,yn+k−2(y;A)| = |MR1(y;A)−MR2

(y;A)|

≤∣∣∣∣∫x∈A

(NR1−NR2

)(x− y)min

(1,π(x)

π(y)

)m(dx)

+ χA(x)

∫x∈Rd

(NR1−NR2

)(x− y)

×[1−min(1,

π(x)

π(y))

]m(dx)

∣∣∣∣≤ 2

∫Rd

|NR1(z)−NR2

(z)|dz

≤ 2

∫Rd

dz

∫ 1

0ds

∣∣∣∣ ddsNR1+s(R2−R1)(z)

∣∣∣∣≤ c5||R1 −R2||,

(3.16)

trong đó, ở bước cuối, ta áp dụng (3.14), các đạo hàm riêng mật độ

NR1+s(R2−R1) theo các thành phần của hiệp phương sai là khả tích trên

Rd với các cận chỉ phụ thuộc vào ε, C0, S. Cuối cùng, rõ ràng từ công thức

truy hồi (3.3) suy ra ||Ct−Ct+1|| ≤ c6/t. Áp dụng quy nạp này và sử dụng

tính bị chặn đều trên của hiệp phương sai Ct, ta dễ dàng suy ra:

||R1 −R2|| ≤ c7(S,C0, ε)k

n,

52

Page 54: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

do vậy thỏa mãn ước lượng (iii).

Để kiểm tra điều kiện (ii), cố định yn−2 ∈ Sn−1 và đặt C∗ = Cn−1(y0, ..., yn−2).

Dẫn đến ||C∗ − Cn(Y0, ..., yn−2, y)|| ≤ c8/n, với c8 là hằng số không phụ

thuộc vào y ∈ S. Do đó, chúng ta có thể tiến hành chính xác trong (3.15)

và (3.16) để suy ra:

||Kn,yn−2 −MC∗||M (S)→M (S) ≤c9

n.

Vì MC∗ là một xác suất chuyển Metropolis nên ta có πMC∗ = π và ta thu

được:

||π − πKn,yn−2|| = ||π(MC∗ −Kn,yn−2)|| ≤c9

n,

ta đã hoàn thành chứng minh định lý 3.2

Hệ quả 3.4. Với giả thiết của định lý 3.2, hiệp phương sai Ct ổn định hầu

chắc chắn trong suốt thuật toán. Thực tế, khi t→∞, hiệp phương sai Ct

hội tụ đến sdcov(π) + εId, với cov(π) là hiệp phương sai của phân phối

mục tiêu π.

Chứng minh: Lời khẳng định được suy ra trực tiếp từ định nghĩa (3.1)

của hiệp phương sai Ct bởi áp dụng định lý 3.2 với lựa chọn f(x) = xi và

f(x) = xixj với 1 ≤ i, j ≤ d.

Nhận xét 4: Quyết định của chúng ta sử dụng các phân phối đề xuất

là dựa trên các ứng dụng thực nghiệm, thậm chí trong trường hợp các phân

phối mục tiêu không phải Gauss. Các đề xuất Gauss cung cấp một họ các

phân phối đề xuất với tham số tự nhiên đối với kích cỡ và định hướng để

dễ cho việc tính toán. Tuy nhiên, trong định nghĩa của xích AM, ta có thể

dễ dàng thay các phân phối đề xuất Gauss bởi, ví dụ như, các phân phối

đều trên hình hộp. Trong trường hợp này, kích cỡ và sự định hướng của

hình hộp là được hướng dẫn một cách tự nhiên bởi hiệp phương sai Ct

được ký hiệu ở (3.1) trên. Chứng minh định lý 3.2 vẫn không đổi và chúng

ta lần nữa thu được mô phỏng là chính xác. Sự khác nhau duy nhất là

hằng số k0 trong điều kiện (i) của định lý 3.3 có thể vượt quá 1. Dĩ nhiên,

ở đây, ta có thể thêm giả thiết phù hợp trên tập A = x : π(x) > 0. Vídụ như, là đủ nếu giả sử A là tập mở và liên thông. Theo đó, ước lượng

53

Page 55: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

cung cấp bởi Haario và Sakman là có liên quan.

Nhận xét 5: Rõ ràng trong trường hợp thuật toán AM, ta cũng

có thể xác định hiệp phương sai bởi sử dụng một phần tăng của lịch

sử gần. Ví dụ như, ta có thể xác định Cn bởi sử dụng một phần mẫu

X[n/2], X[n/2]+1, ..., Xn. Điều này dễ dàng thực hiện được trong thực tế và

trong trường hợp này, định lý 3.2 chỉ ra rằng sự mô phỏng là chính xác với

duy nhất thay đổi nhỏ trong chứng minh. Những nhận xét tương tự cũng

áp dụng trong trường hợp cập nhật hiệp phương sai chỉ với mọi n0-bước .

Nhận xét 6: Định lý 3.3 có thể được sử dụng để chứng minh tính

ergodic chính xác cho các biến thể khác của sự thích nghi, như với các

thuật toán mà ta điều chỉnh phù hợp phân phối đề xuất theo tỷ lệ chấp

nhận. Tuy nhiên, trong ứng dụng thực tế đặc biệt của chúng ta, hóa ra

rằng sự điều chỉnh tỷ lệ chấp nhận đưa ra kết quả thấp hơn khi so sánh

với thuật toán AM. Hơn nữa, trong các trường hợp số chiều lớn với tương

quan có thể giữa các tham số, có thể khó khăn trong việc điều chỉnh phân

phối đề xuất có hiệu quả trên cơ sở quyết định trên duy nhất một tham

số.

Nhận xét 7: Chứng minh định lý 3.2 yêu cầu mật độ mục tiêu có giá

compact và bị chặn trên. Nói các khác tính ergodic chính xác (điều kiện (i)

của định lý 3.3) có thể bị phá vỡ, cái mà rất quan trọng nếu chúng ta có

thể điều khiển hiệu quả của sự thích nghi. Trng trường hợp xích Markov

(ví dụ như, Metropolis - Hastings tiêu chuẩn), tính ergodic không đổi, dĩ

nhiên, là không cần để đảm bảo rằng sự mô phỏng là chính xác, mặc dù

không có nó, tốc độ hội tụ có thể rất chậm. Tuy nhiên, yêu cầu trên đối

với mật độ mục tiêu tương ứng khá tốt với mô phỏng thực tế. Chúng ta

tin rằng có thể làm yếu giả thiết chi phí của các chứng minh phức tạp hơn.

Chứng minh định lý 3.3

Chứng minh định lý 3.3 bằng việc chỉ ra rằng một quá trình có liên

quan là một mixingales (trong McLeish 1975 hoặc [4]) mà thỏa mãn luật

số lớn xấp xỉ. Các điều kiện của định lý phù hợp để áp dụng cho xích AM

trên tập con bị chặn của Rn, nhưng chúng được quy định trong hệ thống

thông tin của không gian trạng thái tổng quát. Đây là thuận lợi vì ta có

54

Page 56: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

thể áp dụng chúng trong một trạng thái tổng quát hơn, đặc biệt cho các

biến thể của AM mà không gian trạng thái chứa cả phần rời rạc và phần

liên tục. Chứng minh của chúng ta dựa trên mệnh đề cơ bản sau.

Mệnh đề 3.5. Cho xích Xn trên không gian trạng thái S và dãy xác suất

chuyển tổng quát Kn thỏa mãn các điều kiện của định lý 3.3. Ký hiệu

Fn = σ(X0, X1, ..., Xn) là σ-đại số sinh bởi xích đến thời điểm n và đặt

λ′= λ1/k0. Cho n ≥ 1 và k ≥ 2. Khi đó với mọi phân phối ban đầu và với

mọi hàm f đo được bị chặn trên S, ta có bất đẳng thức∥∥∥∥E(f(Xn+k)|Fn)−∫Sf(y)π(dy)

∥∥∥∥∞

≤ c(c0, c1, λ) inf1≤j≤k

(j2

n+ k − j+ λ′j

)||f ||∞.

(3.17)

Chứng minh: Rõ ràng, chúng ta có thể giả sử πf =∫S f(y)π(dy) = 0

vì trường hợp tổng quát thu được bởi áp dụng mệnh đề cho hàm f − πf .Cho n ≥ 1 và k ≥ 2 và chú ý rằng từ định nghĩa của kỳ vọng có điều kiện

và (3.4) ta có (hầu chắc chắn)

E(f(Xn+k)|Fn)

=

∫yn+1∈S

Kn+1(X0, X1, ..., Xn; dyn+1)

(∫yn+2∈S

Kn+2(X0, X1, ..., Xn, yn+1; dyn+2)

· · ·(∫

yn+k∈SKn+k(X0, X1, ..., Xn, yn+1, ..., yn+k−1; dyn+k)f(yn+k)

)· · ·).

(3.18)

Đặt (X0, X1, ..., Xn) = Xn. Ta thấy Xn không can thiệp vào các tích phân

nên nó có thể được coi như biến tự do (hoặc hằng số). Chúng ta cũng đưa

vào xác suất chuyển Q với Q(y; dz) = Kn+2(Xn, y; dz). Từ điều kiện (iii)

đối với giá trị tùy ý của Xn và yn+1, ..., yn+k−1:∣∣∣∣∫S(kn+k(Xn, yn+1, ..., yn+k−1;dyn+k)− kn+2(Xn, yn+k−1; dyn+k))f(yn+k)

∣∣∣∣≤ c1||f ||∞

k − 2

n+ 2.

(3.19)

55

Page 57: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Ước lượng này cho phép a viết (3.18) dưới dạng:

E(f(Xn+k)|Fn)

= gk(Xn) +

∫yn+1∈S

Kn+1(Xn; dyn+1)

(∫yn+2∈S

Kn+2(Xn, yn+1; dyn+2)

· · ·(∫

yn+k−1∈SKn+k−1(Xn, yn+1, ..., yn+k−2; dyn+k−1)(∫

yn+k∈SKn+2(Xn, yn+k−1; dyn+k)f(yn+k)

))· · ·),

(3.20)

trong đó gk = gk(Xn) thỏa mãn

gk(Xn) ≤∫yn+1∈S

Kn+1(Xn; dyn+1)

(∫yn+2∈S

Kn+2(Xn, yn+1; dyn+2)

· · ·(∫

yn+k−1∈SKn+k−1(Xn, yn+1, ..., yn+k−1; dyn+k)f(yn+k)c1||f ||∞

k − 2

n+ 2

)· · ·)

≤ c1||f ||∞k − 2

n+ 2(3.21)

Bước tiếp theo, ta nhắc lại cách thay thế xác suất chuyển tổng quát bởi

Kn+k−1(Xn, yn+1, ..., yn+k−1) bởi xác suất chuyểnQ trong công thức (3.20).

Tiếp tục theo cách này ta thu được:

E(f(Xn+k)|Fn) =

∫yn+1∈S

Kn+1(Xn; dyn+1)

(∫yn+2∈S

Q(yn+1; dyn+2)

· · ·(∫

yn+k∈SQ(yn+k−1; dyn+k)

)· · ·)

+ g2(Xn) + g3(Xn) + · · ·+ gk(Xn),

(3.22)

56

Page 58: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

trong đó

gj(Xn) =

∫yn+1∈S

Kn+1(Xn; dyn+1)

(∫yn+2∈S

Kn+2(Xn, yn+1; dyn+2)

· · ·(∫

yn+j∈S(Kn+j(Xn, yn+1, ..., yn+j−1; dyn+j)

−Kn+2(Xn, yn+j−1; dyn+j))Qk−j)· · ·).

(3.23)

Nhắc lại ở đây Qk−j là (k−j)-lặp lại của xác suất chuyển Q và ta áp dụng

ký hiệu chuẩn (Qk−j)(x) =∫S Q

k−j(x; dy)f(y).

Vì ||Qk−jf ||∞ ≤ ||f ||∞ nên ta thu được từ điều kiện (iii):

|gj| ≤ c1j − 2

n+ 2||f ||∞

Tóm lại, ta chỉ ra:

E(f(Xn+k)|Fn) = εn,k +

∫yn+1∈S

Kn+1(X0, ..., Xn, dyn+1)Qk−1f(yn+k),

(3.24)

với εn,k = εn,k(X0, ..., Xn) thỏa mãn:

|εn,k| ≤k∑j=2

c1j − 2

n+ 2||f ||∞ ≤

c1k2

n||f ||∞. (3.25)

Đặt [(k − 1)/k0] = k′, và chú ý δ(Qk−1) ≤ λk′theo (i). Từ (ii) và định

nghĩa của Q, ta có:

||πQk−1 − π|| ≤k−2∑j=0

||πQj+1 − πQj|| ≤k−2∑j=0

c0

n+ 2≤ c0(k − 1)

n+ 2.

Sử dụng giả thiết πf = 0, ta có ước lượng:

||Qk−1f ||∞ = supx∈S|δxQk−1f | ≤ sup

x∈S|(δx − π)Qk−1f |+ |πQk−1f |

≤ 2λk′||f ||∞ + |(πQk−1 − π)f | ≤

(c0(k − 1)

n+ 2+ 2λk

′)||f ||∞

(3.26)

57

Page 59: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Kết hợp điều này với (3.22) và (3.23), ta thu được:

||E(f(Xn+k)|Fn)||∞ ≤ c(c0, c1, λ)

(k2

n+ λ[(k−1)/k0]

)||f ||∞, (3.27)

với mọi n, k ≤ 2.

Dễ thấy, với mọi chỉ số j giữa 1 và k, theo tính chất cùa kỳ vọng có điều

kiện, ta có:

||E(f(Xn+k)|Fn)||∞ ≤ ||E(f(Xn+k)|Fn+k−j)||∞.

Do đó, thay n bởi n+ k − j và thay k bởi j, ta có điều phải chứng minh:

||E(f(Xn+k)|Fn)||∞ ≤ inf1≤j≤k

c(c0, c1, λ)

(j2

n+ k − j+ λ[(j−1)/k0]

)||f ||∞.

(3.28)

Bây giờ, ta đi chứng minh định lý 3.3: Từ mệnh đề 3.5 ta thu được: với

mọi n ≥ 1 và k ≥ 0

||E(f(Xn+k)−∫Sf(y)π(dy)|Fn)||∞ ≤ ψ(k),

trong đó ψ(0) = ψ(1) = 2||f ||∞, và với k ≥ 2 thì

ψ(k) ≡ c(c0, c1, λ) inf1≤j≤k

(j2

n+ k − j+ λ′j

)||f ||∞ ≤ c′(c0, c1, f, λ)

log2k

k.

(3.29)

Trong ước lượng cuối thu được bởi việc chọn j = log k/ log(1/λ′) với

k ≥ k1(λ′).

Đánh giá (3.28) cho tiệm cận độc lập, cùng với định nghĩa σ-đại số Fn, rõ

ràng f(Xn) − Ef(Xn) là một mixigale trong Mcleish hoặc [4]. Để thuận

lợi, ta nhắc lại định nghĩa của mixingales. Cho (F )∞n=−∞ là dãy tăng các

σ-đại số con trong một không gian xác suất. Một dãy (Yn)∞n=1 các biến

ngẫu nhiên bình phương khả tích là một dãy mixingales (khác) nếu có hai

dãy thực (rm)∞m=0 và (an)∞n=1 sao cho với rm → 0 khi m→∞, và

||E(Yn|Fn−m)||2 ≤ rman và ||Yn − E(Yn|Fn+m)||2 ≤ rm+1an (3.30)

với mọi n ≥ 1 và m ≥ 0. Ở đây, Yn = f(Xn) − Ef(Xn), chúng ta chọn

(an) là dãy hằng và Fn là σ−đại số tầm thường với n < 0. Về phải của

58

Page 60: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

(3.30) tự động được thỏa mãn. Hơn nữa, chúng ta có thể chọn rk = ψ(k)

dẫn đến rk ≤ C(ε)kε−1 với mọi ε > 0. Vì thế, chúng ta có thể áp dụng

ngay lập tức luật số lớn nổi tiếng cho dãy mixingale ([4, tr. 41], định lý

2.21) f(Xn)− Ef(Xn). Do đó, limn→∞Ef(Xn) =∫S f(y)π(dy).

3.2.3 So sánh các thuật toán Metropolis với thuật toán AM

Trong đoạn này, chúng ta đưa ra kết quả của việc chạy thực nghiệm

trên máy tính tương tự như trong đoạn 3.1.2 với số chiều d = 8, tất cả

đều được lặp 100 lần. Kết quả được cho dưới dạng đồ thị như trong hình

sau. Các thuật toán được so sánh là

• Thuật toán Metropolis du động ngẫu nhiên (M) với một phân phối

đề xuất Gauss,

• Thuật toán Metropolis - Hastings thành phần đơn (SC) với một phân

phối đề xuất Gauss,

• Thuật toán Metropolis du động ngẫu nhiên thích nghi (AP).

• Thuật toán Metropolis thích nghi (AM).

Các phân phối mục tiêu thực nghiệm

Các phân phối mục tiêu thực nghiệm được đưa ra như trong mục 3.1.3

gồm π1, π2, π3, π4.

Kết quả mô phỏng (Hình 3.5)

3.3 Một số ứng dụng của MCMC thích nghi

Trong thực tế có nhiều ứng dụng của MCMC ([10], mục 7 và [6] ). Đó

là: Mô hình suy giảm oxy, mô hình tăng trưởng sinh vật phù du và hạn

chế dinh dưỡng, mô hình mô phỏng GOMOS.

59

Page 61: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Hình 3.5: So sánh các thuật toán SC, M, AP, AM với các phân phối mục tiêu 8- chiều

π1, π2, π3, π4. Đồ thị thể hiện err(≤ 68, 3%) và std(≤ 68, 3%)

3.3.1 Mô hình mô phỏng GOMOS

Tầng ozone đã được khoa học nghiên cứu mạnh trong nhiều thập kỷ

nay, đặc biệt là kể từ khi phát hiện ra các lỗ ozone trên Nam Cực vào năm

1985. Trong năm 2002, Cơ quan Vũ trụ châu Âu phóng vệ tinh ENVISAT,

trong đó có 10 công cụ để giám sát môi trường và khí quyển của trái đất.

Trong số đó có GOMOS (Giám sát ôzôn toàn cầu bởi sự che khuất của

các ngôi sao, [ESA 2002]) nghiên cứu ozone và các thành phần vi lượng

nhỏ khác trong khí quyển trong một phạm vi 10 -100 km. Phương pháp

GOMOS đang được tích cực phát triển tại Viện Khí tượng Phần Lan

(FMI), và sử dụng các thuật toán MCMC thích nghi.

Ở đây, một tính năng đặc trưng là mỗi lần đo thực tế, bao gồm một

tập hợp khoảng 50 bộ dữ liệu thu được ở những độ cao khác nhau. Ước

lượng tham số được thực hiện riêng biệt cho mỗi bộ dữ liệu. Vì phân phối

hậu xác suất tại các độ cao khác nhau là đáng kể khác nhau nên việc điều

chỉnh của các phương pháp Metropolis tiêu chuẩn hóa ra là khá mất thời

gian. Chúng ta chỉ ra dưới đây cách hay mà phương pháp AP có thể giải

60

Page 62: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

quyết tình huống kiểu này.

Hình 3.6: Các nguyên tắc đo che khuất sao

Thiết bị đo phổ sao tại bước sóng 250-675nm nhiều lần như truyền hình

vệ tinh di chuyển và các bộ ngôi sao ẩn đằng sau quầng trái đất (sơ đồ

trình bày như hình 3.6). Bằng cách chia phổ cường độ đo qua khí quyển

với phổ đo tham khảo trên bầu khí quyển, chúng ta thu được phổ truyền

T (λ, l),với λ là bước sóng và l là tia suốt bầu khí quyển. Phổ truyền T (λ, l)

cho ta biết thông tin bao nhiêu ánh sáng sao được hấp thụ và phân tán

trong bầu khí quyển, và nó tương ứng với số lượng trạng thái khí bị hấp

thụ hoặc phân tán khí trong bầu khí quyển. Mối quan hệ này được biết

đến như luật Beer-Lambert: (phổ truyền của mỗi ngôi sao)

T (λ, l) = e−τ(λ,l).

Bằng các giả định khác nhau, tổng hệ số triệt tiêu dập tắt τ có thể được

tính như sau:

τ(λ, l) = ΣJj=1Nj(l)σj(λ).

Với σj là được gọi là đoạn cắt ngang, đã biết và đặc trưng cho mỗi khí (j).

61

Page 63: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Mật độ tích hợp, mật độ dòng, trên các tia l cho khí j là:

Nj(`) =

∫lρj(s)ds.

Vì sự truyền là được đo lặp lại nhiều lần (K ≈ 50 lần) trong khi ngôi

sao được thiết lập sau quầng trái đất nên chúng ta có thể truy tìm được

mặt cắt thẳng đứng của các khí khác nhau. Xây dựng theo cách này, xử

lý dữ liệu của thiết bị GOMOS có thể chia thành các phần quang phổ

(Phương trình luật Beer- Lambert và phương trình τ ) và các phần không

gian (phương trình trên với l = l1, ..., lk). Trong đoạn này, chúng ta sẽ chỉ

xét bài toán ngược đầu tiên, vì thế dữ liệu tương ứng với tia l là hàm truyền

đo được T abs = [T abs1 (l), ..., T absΛ (l)]T tại Λ ≈ 1400 bước sóng khác nhau và

mật độ dòng chưa biết của các khí khác nhau là: N(l) = [N1(l), ..., NJ(l)].

Phân phối hậu xác suất của mật độ dòng cho là:

P (N(l)|T abs(l)) ∝ P (T abs(l)|N(l))P (N(l)).

Giả sử hàm khả năng có sai số mô hình Gauss và sai số đo được, có thể

viết dưới dạng:

P (T abs|N(l)) =1

(2π)n2 |C| 12

e−12S(N).

Ở đây số mũ là S(N) = (G(N(l))−T abs(l))T (C(l))−1(G(N(l))−T abs(l)).Đo lường ước lượng cho mỗi bước sóng λ là:

Gλ(N(l)) = e−ΣJj=1σj(λ)Nj(l).

Bài toán nghịch đảo truyền thống được giải với giả thiết không có thông

tin đã biết. Do đó, chúng ta áp dụng phương pháp MCMC thích nghi cho

bài toán này.

Số chiều của không gian tham số là thấp, chỉ từ 5 đến 10 loại khí khác

nhau. Tuy nhiên, có một số yêu cầu đặc biệt cho phương pháp MCMC

chúng ta chọn cho bài toán này. Quan trọng nhất, chúng ta cần một phương

pháp tự động và nhanh chóng, vì sự nghịch đảo được lặp đi lặp lại cho

mỗi tia lk. Phân phối hậu nghiệm biên duyên là chưa biết và mẫu Gibbs

62

Page 64: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

là không dễ dàng để áp dụng. Trong suốt một quỹ đạo, thiết bị theo dõi

khoảng 30 ngôi sao, và trong suốt một ngày là khoảng 450 ngôi sao. Với

mỗi ngôi sao, sự truyền là được đo tại khoảng 50 độ cao (của tia) khác

nhau từ 15 đến 100 km. Chúng tất cả lại là khoảng 22500 tia khác nhau

trong một ngày. Kích cỡ của phân phối hậu nghiệm phụ thuộc mạnh mẽ

vào độ cao đo lường cũng như độ sáng của ngôi sao. Vì vậy, chúng ta nên

sử dụng các phân phối đề xuất khác nhau cho mỗi tia. Vì sẽ trở nên khó

khăn để điều chỉnh phân phối đề xuất riêng lẻ nên chúng ta có thể áp dụng

thuật toán đề xuất thích nghi.

Bây giờ ta nhìn chi tiết hơn về bài toán nghịch đảo tại độ cao đặc biệt.

Như một ví dụ, chúng ta sử dụng ngôi sao mờ (cường độ 4) và nhiệt độ ấm

(11000K) với tiếp xúc độ cao 30 km. Với dữ liêu chúng ta xấp xỉ 1400 giá

trị truyền tương ứng bước sóng 250 - 675 nm và chúng ta muốn ước tính

giá trị mật độ dòng cho ozone, N02, N03, aerosols và mật độ không khí,

tức là tất cả chúng ta có 5 tham ẩn cần ước lượng. Phân phối mục tiêu là

phân phối hậu nghiệm (P (N(l)|T abs(l))) với yêu cầu một giá trị mật độ

dòng dương đã biết thông tin. Với các tham số bộ nhớ và tham số tần số

cần có trong thuật toán AP, chúng ta sử dụng H = U = 500. Độ dài xích

là 20000.

Trong hình 3.7, chúng ta giới thiệu mô phỏng xích với thuật toán AP.

Số lần cập nhật phân phối đề xuất được đánh dấu bởi đường thẳng đứng,

và giá trị thực với đường thẳng nằm ngang. Rõ ràng, chúng ta thấy cách

hoạt động của xích thay đổi tại các giai đoạn mà chúng ta cập nhật phân

phối đề xuất và cách nó ổn định sau một đoạn trắng. Có vẻ như sau 6000

trạng thái, xích bắt đầu hội tụ.

Để thuật toán AP làm việc mạnh mẽ trong trường hợp GOMOS, chúng

ta thực hiện nhiều lần sự nghịch đảo tại 58 độ cao từ 18 đến 90 km. Chúng

ta cũng thực hiện mô phỏng 50 lần tại mỗi độ cao chỉ khác nhau tiếng ồn.

Các kết quả được đưa ra trong hình 3.7, ở đó, chúng ta so sánh các giá trị

sai số thống kê cho hồi phục mật độ dòng ozone. Sai số tương đối tương

63

Page 65: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Hình 3.7: Mật độ khí bởi mô phỏng AP tại độ cao 30km. Từ trên xuống dưới là: Mật

độ không khí, ozone, NO2, NO3, aerosols

ứng với mỗi tia (lk, k = 1, ..., K) được tính toán như sau:

err(lk) =

√Σni=1

1

n

(N i(lk)−N true(lk)

N true(lk)

)2

× 100%,

với n =50. Vì chúng ta sử dụng dữ liệu được mô phỏng nên chúng ta biết

giá trị thực N(lk)true.

Chú ý trong hình 3.7, tại độ cao cao và thấp nơi tỷ lệ tín hiệu tiếng ồn

thấp, thuật toán AP cho kết quả đáng tin cậy hơn. Tại độ cao thấp, phương

pháp Levenberg- Marquardt ([8]) rõ ràng không tìm được giải pháp tốt,

trong khi thuật toán AP tìm được lời giải (nghiệm) đáng tin cậy hơn. Yêu

cầu của của các mật độ dương rõ ràng cải thiện độ chính xác đặc biệt tại

các độ cao cao. Trong hình cũng chỉ ra rằng phương pháp AP cho các ước

lượng điểm tốt hơn một chút so với phương pháp ước lượng truyền thống.

Vì vậy gọi là tầng ozone nằm trong khoảng 20 - 40 km, phạm vi độ cao

này vô cùng quan trọng. Hơn nữa, hình 3.7 cũng chỉ ra thuật toán AP

làm việc mạnh mẽ trong ví dụ GOMOS. Phương pháp này hoàn toàn tự

động và chúng ta sử dụng phân phối đề xuất ban đầu cho tất cả các độ

64

Page 66: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Hình 3.8: Độ dài của xích là 20000 và thời gian burn-in là 10000. Đường vạch đứt thể

hiện giá trị kỳ vọng của thuật toán AP với thông tin chưa biết. Đường liên tục thể hiện

kỳ vọng của thuật toán AP với yêu cầu mật độ dương. Đường chấm chấm thể hiện kỳ

vọng hàm cực đại của thuật toán Levenberg - Marquardt.

cao mặc dù kích cỡ của các phân phối hậu nghiệm và độ lớn của các ước

lượng điểm khác nhau rất nhiều. Thuật toán AP dường như đã tìm được

phân phối mục tiêu và phân phối đề xuất được thích nghi một cách chính

xác.

3.3.2 Mô hình suy giảm oxy

Theo dõi ước lượng sự thay đổi theo thời gian của sự hô hấp mùa đông

trong hồ Tuusulanjarvi và để đánh giá tác động lâu dài của sự thêm và

giảm bớt không khí nhân tạo ([10], mục 7 ). Ảnh hưởng của oxy nhân tạo

được nghiên cứu bởi mô hình tiêu thụ oxy sau:

dCO2

dt= kyearCO2

bTobs−Tref +Pump

V ol,

với CO2là nồng độ oxy trong hồ (mgl−1), kyear là tổng hệ số tỷ lệ hô hấp

theo năm (d−1), b là hệ số nhiệt độ của tỷ lệ hô hấp, Tobs là nhiệt độ quan

65

Page 67: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

sát của hồ (C), Tref là nhiệt độ tham khảo (4C), Pump là thông lượng

oxy được bơm (kgO2d−1), Vol là thể tích của thiết bị thông gió (m3).

Hệ thống được mô hình hóa bởi các phương trình vi phân thông thường,

nồng độ CO2(t0) ban đầu cũng được coi như ẩn số. Các nồng độ ban đầu,

kyear, b, phương sai sai số σ2 cùng tham gia tổng cộng 62 ẩn số. Vì vậy, để

giải quyết bài toán này, người ta áp dụng thuật toán MCMC thích nghi

AM sử dụng hiệp phương sai đề suất cuối cùng mà AM có.

66

Page 68: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Kết luận

Các kết quả chính thu được là:

1. Tìm hiểu về phương pháp MCMC, tập trung vào một số thuật toán

MCMC như mẫu Gibbs, mẫu độc lập, mẫu Metropolis - Hastings du

động ngẫu nhiên, mẫu Metropolis thành phần đơn.

2. Tìm hiểu về hai thuật toán MCMC thích nghi, so sánh ưu nhược điểm

và đưa ra các ứng dụng.

Nếu thời gian cho phép, luận văn có thể:

+ Tìm hiểu thêm một số thuật toán MCMC thích nghi khác.

+ Viết chương trình và áp dụng MCMC cho các bài toán thực tế ở

Việt Nam.

67

Page 69: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

Tài liệu tham khảo

[1] Đặng Hùng Thắng, Mở đầu về lý thuyết xác suất và các ứng dụng,

Nhà xuất bản Giáo dục, 2005.

[2] Đặng Hùng Thắng, Quá trình ngẫu nhiên và tính toán ngẫu nhiên,

Nhà xuất bản Đại học Quốc Gia Hà Nội, 2009.

[3] Daren B. H. Cline and Huay-min H. Pu, Geometric ergodicity of non-

linear time series, Texas A & M University. Statistica Sinica 9(1999),

1103-1118.

[4] P.Hall, C.C.Heyde, Martingale limit theory and its application, Aca-

demic Press, 1980.

[5] Gareth Roberts, ST911 Fundamentals of Statistical Inference Part III,

Department of Statistics, University of Warwick, 2012.

[6] Heikki Haario, Eero Saksman, Johanna Tamminen, Adaptive pro-

posal distribution for random walk Metropolis algorithm, University

of Helsinki, Finland,1999.

[7] Heikki Haario, Eero Saksman, Johanna Tamminen, An adaptive

Metropolis algorithm, Bernoulli 7(2). 2001, 223 - 242.

[8] Henri P. Gavin, The Levenberg-Marquardt method for nonlinear least

squares curve-fitting problems, Duke University, September 29, 2015.

[9] James Davidson, Robert de Jong, Strong laws of large number for

dependent heterogeneous processes: A synthesis of recent and newre-

sults, Econometric Reviews 16(3). 1997, 251-279.

68

Page 70: THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG · NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã số: 60460106 LUẬN

[10] Marko Laine, Adaptive MCMC methods with applications in enviro-

mental and geophysical models, Finnish meteorological institute con-

tributions No.69, 2008.

69