Phương Pháp Học Tăng Cường

download Phương Pháp Học Tăng Cường

of 31

Transcript of Phương Pháp Học Tăng Cường

  • 8/19/2019 Phương Pháp Học Tăng Cường

    1/80

     

    BỘ GIÁO DỤC VÀ ĐÀO TẠOTR ƯỜ NG ĐẠI HỌC BÁCH KHOA HÀ NỘI 

    ------------------------------------------

    LUẬN VĂN THẠC SĨ KHOA HỌC

     NGÀNH: CÔNG NGHỆ THÔNG TIN

    PHƯƠ NG PHÁP HỌC TĂNG CƯỜ NG

    NGUYỄN THỊ THUẬN

    HÀ NỘI 2006 

     N G UY

    Ễ   NTH  Ị  TH U  Ậ  N

      C Ô  N G  N GH  Ệ 

    TH

     Ô  N G TI   N

    2  0  0 4 -2  0  0  6 

     

    HÀ NỘI2006 

  • 8/19/2019 Phương Pháp Học Tăng Cường

    2/80

      1

     LỜ I CẢM Ơ N

    Trong suốt quá trình học tậ p cũng như quá trình làm luận văn, em đãnhận đượ c sự giúp đỡ  của các thầy cô giáo trong bộ môn, đặc biệt là sự chỉ 

     bảo hướ ng dẫn tận tình của thầy giáo hướ ng dẫn TS Nguyễn Linh Giang. Vớ i

    lòng biết ơ n sâu sắc, em xin chân thành cảm ơ n các thầy cô giáo trong bộ môn

    đặc biệt là thầy giáo TS Nguyễn Linh Giang đã giúp đỡ  để  em hoàn thành

    luận văn thạc sỹ khoa học này.

    Em cũng xin gửi lờ i cảm ơ n tớ i ban lãnh đạo cũng như các đồng nghiệ p

    nơ i em đang công tác đã tạo điều kiện giúp em có một môi tr ườ ng nghiên cứu

    và làm việc tốt.

    Cuối cùng, em xin gửi lờ i cảm ơ n tớ i gia đình, bạn bè, những ngườ i

    thân đã luôn động viên, khích lệ và giúp đỡ  em trong suốt quá trình học tậ p và

    làm luận văn vừa qua.

    Hà Nội, tháng 10 năm 2006Học viên Nguyễ n Th ị  Thuận

    Lớ  p: Cao học CNTT 2004-2006

  • 8/19/2019 Phương Pháp Học Tăng Cường

    3/80

      2

    MỤC LỤC

    LỜ I CẢM Ơ N.......................................................................................................1 

    MỤC LỤC.............................................................................................................2 

    DANH MỤC CÁC KÝ HIỆU, CHỮ  VIẾT TẮT..............................................4  

    MỞ  ĐẦU ...............................................................................................................5 

    CHƯƠ NG 1  BÀI TOÁN QUYẾT ĐỊNH MARKOV VÀ PHƯƠ NGPHÁP HỌC TĂNG CƯỜ NG...........................................................................7 

    1.1  PHÁT BIỂU BÀI TOÁN..........................................................................7 

    1.2  CÁC PHẦ N TỬ  CỦA BÀI TOÁN QUYẾT ĐỊ NH MARKOV.............10 1.2.1  Hàm phản hồi...................................................................................15 1.2.2  Hàm giá tr ị .......................................................................................16 

    1.3  CẤU TRÚC TOÁN HỌC CỦA BÀI TOÁN QUYẾT ĐỊ NH MARKOV  20 1.4  PHƯƠ NG PHÁP HỌC TĂ NG CƯỜ NG................................................26 

    1.4.1  Ý tưở ng chung .................................................................................26 1.4.2  Một số thuật ngữ..............................................................................30 

    1.4.2.1   Khảo sát và khai thác...........................................................................30 1.4.2.2   K  ỹ  thuật ε-greedy, ε-soft và softmax ...................................................30 1.4.2.3   Khái niệm học on-policy và off-policy .................................................32 

    1.4.3  Phân loại thuật toán học tăng cườ ng ...............................................33 1.4.3.1   H ọc d ự a trên mô hình...........................................................................33 1.4.3.2   H ọc không có mô hình..........................................................................33 

    1.4.4  Lịch sử phát triển và các l ĩ nh vực ứng dụng ...................................35 

    CHƯƠ NG 2  CÁC THUẬT TOÁN HỌC TĂNG CƯỜ NG.......................40  

    2.1  PHƯƠ NG PHÁP QUY HOẠCH ĐỘ NG (DP).......................................40 2.2  PHƯƠ NG PHÁP MONTE CARLO (MC).............................................41 

    2.2.1  Phươ ng pháp MC on-policy ............................................................44 2.2.2  Phươ ng pháp MC off-policy............................................................45 

    2.3  PHƯƠ NG PHÁP TEMPORAL DIFFERENCE (TD)............................45 2.3.1  TD(0) ...............................................................................................46 2.3.2  TD(λ) ...............................................................................................47 2.3.3  Q-Learning.......................................................................................48 2.3.4  SARSA ............................................................................................49 

  • 8/19/2019 Phương Pháp Học Tăng Cường

    4/80

      3

    2.4  SO SÁNH CÁC THUẬT TOÁN HỌC TĂ NG CƯỜ NG ĐIỂ N HÌNH..50 2.5  MỘT SỐ PHƯƠ NG PHÁP TIẾ N BỘ KHÁC........................................51 

    CHƯƠ NG 3  THỬ  NGHIỆM .......................................................................52 3.1  BÀI TOÁN LỰ A CHỌ N MÔ PHỎ NG..................................................52 3.2  PHƯƠ NG PHÁP HỌC TĂ NG CƯỜ NG LỰ A CHỌ N MÔ PHỎ NG ....55 

    3.2.1  Phươ ng pháp quy hoạch động (DP) ................................................55 3.2.2  Học không có mô hình (Phươ ng pháp Q-Learning)........................58 3.2.3  Học dựa trên mô hình (Phươ ng pháp prioritized sweeping)...........59 

    3.3  K ỊCH BẢ N VÀ K ẾT QUẢ THỬ   NGHIỆM ..........................................61 3.3.1  K ịch bản 1: Thay đổi kích thướ c không gian tr ạng thái..................67 

    3.3.1.1  S ố  bướ c hội t ụ.......................................................................................68 3.3.1.2  Thờ i gian hội t ụ ....................................................................................68 3.3.1.3   Phân tích k ế t quả..................................................................................69 3.3.1.4  Giải pháp cải thiện...............................................................................70 3.3.1.5   K ế t luận ................................................................................................70 

    3.3.2  K ịch bản 2: Thay đổi hệ số học.......................................................70 3.3.2.1   Phân rã hệ số  học theo số  đ oạn l ặ p .....................................................71 3.3.2.2   M ố i quan hệ giữ a giá tr ị chiế n l ượ c và hệ số  học...............................71 3.3.2.3   Phân tích k ế t quả..................................................................................73 3.3.2.4  Giải pháp cải thiện...............................................................................73 3.3.2.5   K ế t luận ................................................................................................74 

    3.3.3  K ịch bản 3: Thay đổi số đoạn lặ p....................................................74 3.3.3.1   M ố i quan hệ giữ a giá tr ị chiế n l ượ c và số  đ oạn l ặ p ............................74 3.3.3.2   Phân tích đ ánh giá k ế t quả...................................................................76  

    3.3.4  K ịch bản 4: Thay đổi chiến lượ c lựa chọn ......................................76 3.3.4.1   M ố i quan hệ giữ a giá tr ị chiế n l ượ c và tham số  chiế n l ượ c ................76  3.3.4.2   Phân tích đ ánh giá k ế t quả...................................................................77  

    ĐÁNH GIÁ K ẾT LUẬN....................................................................................78 

    TÀI LIỆU THAM KHẢO .................................................................................79 

    TÓM TẮT LUẬN VĂN.....................................................................................80 

  • 8/19/2019 Phương Pháp Học Tăng Cường

    5/80

      4

    DANH MỤC CÁC KÝ HIỆU, CHỮ  VIẾT TẮT

    Thuật ng ữ   Viế t t ắ t

    Học tăng cườ ng (Reinforcement Learning) RL

    Phươ ng pháp lậ p trình động (Dynamic Programming) DP

    Phươ ng pháp Monte Carlo MC

    Phươ ng pháp Temporal Difference TD

  • 8/19/2019 Phương Pháp Học Tăng Cường

    6/80

      5

    MỞ  ĐẦU

      Tính cấp thiết của đề tàiXã hội ngày càng hiện đại, các k ỹ  thuật công nghệ ngày càng phát triển, đi

    cùng vớ i nó là các nghiên cứu phát triển không ngừng về  l ĩ nh vực trí tuệ nhân

    tạo và học máy, cho ra đờ i các hệ thống máy móc thông minh ứng dụng r ộng rãi

    trong hầu hết các l ĩ nh vực đờ i sống như máy truy tìm dữ liệu, chẩn đoán y khoa,

     phát hiện thẻ  tín dụng giả, phân tích thị  tr ườ ng chứng khoán, phân loại chuỗi

    DNA, nhận dạng tiếng nói và chữ viết, … đặc biệt là trong l ĩ nh vực điều khiển.

    Các phươ ng pháp tự đào tạo (học) đã đượ c đưa ra từ r ất lâu để chỉ khả năng

    các hệ  thống thông minh trong quá trình hoạt động tự  tích luỹ, phân tích các

    thông tin thu đượ c từ đó tự nâng cao khả năng của bản thân, đây chính là mục

    đích quan tr ọng trong lỹ thuyết quyết định cũng như trong các bài toán tự động

    hoá và điều khiển tối ưu.

    Chúng ta có nhiều loại thuật toán học như  học có giám sát, học không có

    giám sát, học tăng cườ ng, mỗi loại thuật toán thích ứng vớ i từng loại bài toán cụ 

    thể. Trong phạm vi đề tài này, chúng ta sẽ nghiên cứu và tìm hiểu các vấn đề liên

    quan đến phươ ng pháp học tăng cườ ng. Đây là một thuật toán học có khả năng

    giải quyết đượ c những bài toán thực tế khá phức tạ p trong đó có sự tươ ng tác giữ 

    hệ thống và môi tr ườ ng. Vớ i những tình huống môi tr ườ ng không chỉ đứng yên,

    cố định mà thay đổi phức tạ p thì các phươ ng pháp học truyền thống không còn

    đáp ứng đượ c mà phải sử dụng phươ ng pháp học tăng cườ ng. Những bài toánvớ i môi tr ườ ng thay đổi trong thực tế là không nhỏ và ứng dụng nhiều trong các

    l ĩ nh vực quan tr ọng.

      Mục đích

  • 8/19/2019 Phương Pháp Học Tăng Cường

    7/80

      6

    Qua quá trình làm luận văn sẽ  tổng hợ  p và nắm vững các kiến thức về 

     phươ ng pháp học tăng cườ ng nói chung. Hiểu rõ ý tưở ng, cơ  chế hoạt động các

    thuật toán học tăng cườ ng và ứng dụng trong các bài toán điển hình cụ thể. Đồng

    thờ i cũng thực hiện mô phỏng bài toán thử nghiệm, đo đạc thống kê và đánh giá

    k ết quả thử nghiệm về các thuật toán RL.

      Giớ i hạn vấn đề 

    Do những hạn chế về điều kiện và thờ i gian thực hiện, đề tài nghiên cứu mớ i

    chỉ ở  mức lý thuyết và cài đặt thử nghiệm, chưa đượ c ứng dụng vào thực tiễn.

      Hướ ng phát triểnTrong thờ i gian tớ i, sẽ cố gắng ứng dụng các kiến thức về phươ ng pháp học

    tăng cườ ng, xây dựng bài toán thực tiễn cụ thể và ứng dụng r ộng rãi.

      Bố cục của luận văn

    Luận văn gồm 3 chươ ng vớ i những nội dung chính như sau:

    Chươ ng 1: Trình bày lý thuyết tổng quan về  phươ ng pháp học tăng cườ ng,

    mô hình bài toán quyết định Markov, bên cạnh đó cũng giớ i thiệu sơ  lượ c về sự 

    ra đờ i, cũng như lịch sử phát triển của phươ ng pháp học tăng cườ ng, các l ĩ nh vực

    ứng dụng trong thực tiễn.

    Chươ ng 2: Trình bày chi tiết về đặc điểm, các bướ c thực hiện của từng loại

    giải thuật học tăng cườ ng đã và đang đượ c sử dụng hiện nay.

    Chươ ng 3: Trình bày về bài toán lựa chọn thử nghiệm, giớ i thiệu lại sơ  qua về 

    loại thuật toán học tăng cườ ng lựa chọn áp dụng trong bài toán thử nghiệm. Các

    k ịch bản thử nghiệm và các k ết quả thu đượ c. Trên cơ  sở  đó, k ết luận đánh giá và

    đưa ra giải pháp cải tiến.

  • 8/19/2019 Phương Pháp Học Tăng Cường

    8/80

      7

    Chươ ng 1  BÀI TOÁN QUYẾT ĐỊNH MARKOV VÀ

    PHƯƠ NG PHÁP HỌC TĂNG CƯỜ NG

    Phươ ng pháp học tăng cườ ng là một phươ ng pháp phổ biến để  giải các bài

    toán quyết định Markov. Bài toán quyết định Markov có r ất nhiều ứng dụng

    trong các l ĩ nh vực k ỹ  thuật như lý thuyết quyết định, quy hoạch toán học, điều

    khiển tối ưu, ... Trong phần này, chúng ta sẽ  trình bày về quá trình quyết định

    Markov trong đó tậ p trung vào các khái niệm của quá trình Markov có số bướ c

    vô hạn và có số bướ c hữu hạn.

    1.1  PHÁT BIỂU BÀI TOÁN

    Bài toán quyết định Markov là bài toán học từ các tác động để đạt đượ c mục

    đích. Ngườ i học và ngườ i ra quyết định đượ c gọi là tác tử. Tất cả những gì mà

    chúng tươ ng tác vớ i, bao gồm mọi thứ bên ngoài tác tử đượ c gọi là môi tr ườ ng.

    Các tác động thực hiện một cách liên tục, tác tử  lựa chọn các hành động, môi

    tr ườ ng đáp ứng lại các hành động đó và chuyển từ tr ạng thái hiện thờ i sang tr ạng

    thái mớ i. Môi tr ườ ng cũng đem lại các mục tiêu, các giá tr ị bằng số mà tác tử cố 

    gắng cực đại hoá qua thờ i gian. Một đặc tả hoàn thiện về môi tr ườ ng đượ c coi là

    một “nhiệm vụ”, một thực thể của bài toán quyết định Markov.

    Tóm lại, bài toán quyết định Markov liên quan đến lớ  p bài toán trong đó một

    tác tử rút ra k ết luận trong khi phân tích một chuỗi các hành động của nó cùng

    vớ i tín hiệu vô hướ ng đượ c đưa ra bở i môi tr ườ ng.

    Trong khái niệm chung này có thể thấy hai đặc tính quan tr ọng:

    •  Tác tử  tươ ng tác vớ i môi tr ườ ng và cặ p “Tác tử  + Môi tr ườ ng” tạo

    thành một hệ thống động.

  • 8/19/2019 Phương Pháp Học Tăng Cường

    9/80

      8

    •  Tín hiệu tăng cườ ng, đượ c nhận biết dựa vào mục tiêu, cho phép tác tử 

    thay đổi hành vi của nó.

    Lượ c đồ tươ ng tác tác tử-môi tr ườ ng như sau:

     Hình 1.1: Mô hình t ươ ng tác giữ a tác t ử  và môi tr ườ ng

    Trong lượ c đồ trên, tác tử và môi tr ườ ng tác động lẫn nhau tại mỗi bướ c trong

    chuỗi các bướ c thờ i gian r ờ i r ạc, t = 0, 1, 2, 3, …Tại mỗi bướ c thờ i gian t, tác tử 

    nhận một số biểu diễn về tr ạng thái của môi tr ườ ng, st∈S, vớ i S là tậ p các tr ạng

    thái có thể, và trên đó lựa chọn một hành động at∈A(st), vớ i A(st) là tậ p các hành

    động có hiệu lực trong tr ạng thái st. Mỗi bướ c thờ i gian tiế p theo, tác tử nhậnmột giá tr ị tăng cườ ng r t+1∈R và tự nó tìm ra một tr ạng thái mớ i st+1.

    Tại mỗi bướ c tác tử thực hiện ánh xạ từ các tr ạng thái đến các hành động có

    thể lựa chọn. Phép ánh xạ này đượ c gọi là chiến lượ c của tác tử, kí hiệu là πt vớ i

    πt(s,a) là xác suất thực hiện hành động at=a khi st=s. Như  vậy, bài toán quyết

    định Markov thực chất có thể đượ c phát biểu như sau:

    Biết -  Tậ p các tr ạng thái: S-  Tậ p các hành động có thể: A

    -  Tậ p các tín hiệu tăng cườ ng (mục tiêu).

    Bài toán Tìm π:S→A sao cho R lớ n nhất

  • 8/19/2019 Phương Pháp Học Tăng Cường

    10/80

      9

    Vớ i mô hình bài toán quyết định Markov như trên, chúng ta có thể xem xét

    qua một số ví dụ quen thuộc.

    Ví d ụ 1: Máy bán hàng t ự  động

    -  Tr ạng thái: cấu hình các khe.

    -  Hành động: thờ i gian dừng lại.

    -  Mục tiêu: kiếm đượ c nhiều tiền.

    -  Bài toán: tìm π:S→A sao cho R lớ n nhất.

    Ví d ụ 2: Tic-Tac-Toe

    Đây là một trò chơ i quen thuộc của giớ i tr ẻ. Hai ngườ i chơ i thực hiện chơ itrên một bảng kích thướ c 3x3. Một ngườ i ghi kí hiệu X và một ngườ i ghi kí hiệu

    O, đến tận khi có ngườ i thắng nhờ  ghi 3 dấu trên cùng một hàng dọc hoặc hàng

    ngang hoặc hàng chéo, như ngườ i ghi dấu X trong hình vẽ:

     Nếu bảng bị lấ p đầy mà không ngườ i chơ i nào ghi đượ c 3 dấu trong cùng một

    hàng thì tr ận đấu sẽ hoà. Bài toán tic-tac-toe đượ c tiế p cận sử dụng RL như sau:

    -  Tr ạng thái: bảng 3x3.

    -  Hành động: phép di chuyển tiế p theo. 

    -  Mục tiêu: 1 nếu thắng, -1 nếu thua, 0 nếu hoà.

    -  Bài toán: tìm π:S→A sao cho R lớ n nhất.

    Ví d ụ 3:Robot di động

    -  Tr ạng thái: vị trí của Robot và của ngườ i.

    -  Hành động: sự di chuyển.

    -  Mục tiêu: số các bướ c đối mặt thành công.

  • 8/19/2019 Phương Pháp Học Tăng Cường

    11/80

      10

    -  Bài toán: tìm π:S→A sao cho R lớ n nhất.

    Để hiểu rõ ràng về các bài toán trong thực tế, ở  đây chúng ta xét ví dụ một

    cuộc đối thoại về mối quan hệ giữa tác tử và môi tr ườ ng như sau:

     Môi tr ườ ng : Bạn đang ở  tr ạng thái 65. Bạn có 4 hành động để lựa chọn.

    Tác t ử : Tôi lựa chọn hành động 2.

     Môi tr ườ ng : Bạn nhận đượ c một giá tr ị tăng cườ ng là 7 đơ n vị.

    Hiện tại bạn đang ở  tr ạng thái 15.

    Bạn có 2 hành động để lựa chọn.

    Tác t ử : Tôi lựa chọn hành động 1. Môi tr ườ ng : Bạn nhận đượ c một giá tr ị tăng cườ ng là -4 đơ n vị.

    Hiện tại bạn đang ở  tr ạng thái 65.

    Bạn có 4 hành động để lựa chọn.

    Tác t ử : Tôi lựa chọn hành động 2.

     Môi tr ườ ng : Bạn nhận đượ c một giá tr ị tăng cườ ng là 5 đơ n vị.

    Hiện tại bạn đang ở  tr ạng thái 44.

    Bạn có 5 hành động để lựa chọn.

    1.2  CÁC PHẦN TỬ  CỦA BÀI TOÁN QUYẾT ĐỊNH MARKOV

    Dựa vào tác tử và môi tr ườ ng, chúng ta có thể định ngh ĩ a 4 phần tử con của

    một bài toán quyết định Markov: chiến lượ c ( policy), hàm phản hồi (reward

     function), hàm giá tr ị (value function), và không bắt buộc, một mô hình về môi

    tr ườ ng.Chiế n l ượ c định ngh ĩ a cách thức tác tử học từ hành động tại thờ i điểm đưa ra.

    Chiến lượ c là một ánh xạ từ tậ p các tr ạng thái của môi tr ườ ng đến tậ p các hành

    động đượ c thực hiện khi môi tr ườ ng ở  trong các tr ạng thái đó. Nó tươ ng ứng vớ i

  • 8/19/2019 Phương Pháp Học Tăng Cường

    12/80

      11

    tậ p các luật nhân quả trong l ĩ nh vực tâm lí học. Trong một số tr ườ ng hợ  p, chiến

    lượ c có thể là một hàm đơ n giản hoặc một bảng tra cứu, trong những tr ườ ng hợ  p

    khác, nó có thể liên quan đến các tính toán mở  r ộng ví dụ như một tiến trình tìm

    kiếm. Chiến lượ c là nhân của một tác tử  vớ i nhận thức r ằng một mình nó đủ 

    quyết định hành động.

     Hàm phản hồi định ngh ĩ a mục tiêu trong bài toán quyết định Markov. Nó ánh

    xạ  mỗi tr ạng thái quan sát đượ c (hoặc một cặ p hành động-tr ạng thái) của môi

    tr ườ ng vớ i một giá tr ị phản hồi để chỉ ra mong muốn thực chất về tr ạng thái đó.

    Mục đích duy nhất của tác tử là cực đại hoá tổng giá tr ị phản hồi nó nhận đượ ctrong suốt thờ i gian chạy. Hàm phản hồi định ngh ĩ a sự kiện nào là tốt hay xấu

    cho tác tử. Trong một hệ  thống thuộc l ĩ nh vực sinh vật học, không phù hợ  p để 

    định ngh ĩ a các giá tr ị phản hồi vớ i niềm vui và sự đau đớ n. Chúng là các đặc tính

    tức thì và đượ c định ngh ĩ a là các vấn đề mà tác tử cần đối mặt. Như  thế, hàm

     phản hồi cần phải có khả năng thay đổi bở i tác tử. Tuy nhiên, nó có thể phục vụ 

    dướ i dạng một yếu tố cơ  bản để thay đổi chiến lượ c. Ví dụ, nếu hành động lựa

    chọn bở i chiến lượ c đượ c theo sau bở i một hàm phản hồi thấ p, thì chiến lượ c có

    thể đượ c thay đổi để lựa chọn hành động khác thay thế trong tươ ng lai.

    Trong khi một hàm phản hồi chỉ ra cái gì là tốt cho một ý thức tức thì, một

    hàm giá tr ị  sẽ đặc tả cái gì là tốt trong suốt một giai đoạn thờ i gian. Nói cách

    khác, giá tr ị của một tr ạng thái là tổng số các hàm phản hồi một tác tử có thể k ỳ 

    vọng để  tích luỹ  trong tươ ng lai, bắt đầu từ  tr ạng thái đó. Trong khi các giá tr ị 

     phản hồi quyết định mong muốn thực chất tức thì về các tr ạng thái môi tr ườ ng,

    thì các hàm giá tr ị chỉ ra mong muốn trong cả quá trình về các tr ạng thái sau khi

    đưa vào bản miêu tả các tr ạng thái tiế p theo, và các mục tiêu hiệu quả trong các

    tr ạng thái đó. Ví dụ, một tr ạng thái có thể thườ ng xuyên mang lại một hàm phản

  • 8/19/2019 Phương Pháp Học Tăng Cường

    13/80

      12

    hồi tức thì thấ p, nhưng vẫn có một hàm giá tr ị cao, vì nó thườ ng đượ c theo sau

     bở i các tr ạng thái khác mà mang lại các giá tr ị phản hồi cao, hoặc ngượ c lại. Để 

    tạo ra các mô hình tươ ng tự con ngườ i, các giá tr ị phản hồi giống như là sự hài

    lòng (khi hàm phản hồi có giá tr ị lớ n) và hình phạt (khi hàm phản hồi có giá tr ị 

    thấ p), trong khi các hàm giá tr ị tươ ng ứng vớ i một sự phán đoán tinh tế hơ n và

    nhìn xa trông r ộng hơ n về việc chúng ta hài lòng hay không hài lòng như thế nào

    khi môi tr ườ ng ở  trong một tr ạng thái riêng biệt. Biểu diễn theo cách này, chúng

    ta k ỳ vọng r ằng các hàm giá tr ị rõ ràng là một ý tưở ng khuôn mẫu thân thiện và

    căn bản.Các hàm phản hồi là trong một ngữ cảnh chính, trong khi các hàm giá tr ị, như 

    là các tiên đoán của các giá tr ị phản hồi, là nhân tố thứ hai. Không có các giá tr ị 

     phản hồi thì sẽ không có các hàm giá tr ị. Mục đích duy nhất của việc ướ c lượ ng

    các hàm giá tr ị là để đạt đượ c các giá tr ị phản hồi lớ n hơ n. Tuy nhiên, chính các

    hàm giá tr ị là đối tượ ng mà chúng ta đề cậ p đến nhiều nhất khi ra quyết định và

    đánh giá quyết định. Việc lựa chọn quyết định dựa trên sự phán đoán về hàm giá

    tr ị. Chúng ta tìm kiếm các hành động mà đem lại các tr ạng thái vớ i giá tr ị  lớ n

    nhất, chứ không phải là các phản hồi lớ n nhất, bở i vì các hành động này chứa số 

    lượ ng phản hồi lớ n nhất cho chúng ta trong cả giai đoạn. Trong ra quyết định và

    lậ p k ế  hoạch, con số đượ c k ế  thừa đượ c gọi là “giá tr ị” là một đối tượ ng mà

    chúng ta quan tâm nhiều nhất. Thật không may, việc xác định giá tr ị khó hơ n

    nhiều so vớ i xác định giá tr ị phản hồi. Các giá tr ị phản hồi về cơ  bản đượ c đưa ra

    tr ực tiế p bở i môi tr ườ ng, nhưng các hàm giá tr ị cần phải đượ c ướ c lượ ng và ướ c

    lượ ng lại từ chuỗi các quan sát tác tử có đượ c qua toàn bộ thờ i gian sống của nó.

    Thực tế, thành phần quan tr ọng nhất của tất cả các thuật toán học tăng cườ ng là

    một phươ ng pháp để ướ c lượ ng các hàm giá tr ị một cách hiệu quả nhất. Vai trò

  • 8/19/2019 Phương Pháp Học Tăng Cường

    14/80

      13

    trung tâm của phép ướ c lượ ng hàm giá tr ị có thể xem là điều quan tr ọng nhất mà

    chúng ta học về phươ ng pháp học tăng cườ ng trong suốt các thậ p k ỷ gần đây.

    Mặc dù hầu hết các phươ ng pháp học tăng cườ ng đượ c xem xét tuân theo cấu

    trúc xung quanh việc ướ c lượ ng các hàm giá tr ị, tuy nhiên đây cũng không phải

    là nhân tố bắt buộc để giải quyết đượ c các bài toán quyết định Markov. Ví dụ, có

    thể  sử  dụng các phươ ng pháp tìm kiếm như các thuật toán phát sinh, lậ p trình

     phát sinh, huấn luyện tái tạo và các phươ ng pháp tối ưu hoá chức năng khác

    đượ c sử dụng để giải quyết các bài toán quyết định Markov. Các phươ ng pháp

    này tìm kiếm tr ực tiế p trong không gian các chiến lượ c mà không phải sử dụngcác hàm giá tr ị. Chúng ta gọi đây là “các phươ ng pháp tiến hoá” bở i vì hoạt động

    của chúng tươ ng tự như cách mà phép tiến hoá sinh vật học tạo ra các sinh vật

    vớ i các hành động có k ỹ năng thậm chí khi chúng không học trong suốt chu k ỳ 

    sống cá thể của chúng. Nếu không gian các chiến lượ c là đủ nhỏ hoặc có thể định

    cấu trúc, nhờ  đó các chiến lượ c tốt là phổ biến hoặc dễ tìm kiếm, thì các phươ ng

     pháp “tiến hoá” có thể  hiệu quả. Ngoài ra, các phươ ng pháp “tiến hoá” có ưu

    điểm trong những bài toán ở  đó tác tử học không thể phán đoán chính xác tr ạng

    thái của môi tr ườ ng.

    Tuy nhiên, những gì chúng ta đề cậ p đến phươ ng pháp học tăng cườ ng liên

    quan đến việc học trong quá trình tươ ng tác vớ i môi tr ườ ng, do đó các phươ ng

     pháp tiến hoá không thực hiện đượ c. Chúng ta tin tưở ng r ằng các phươ ng pháp

    có khả năng nắm bắt những ưu điểm trong tác động thuộc hành vi có thể hiệu

    quả hơ n là các phươ ng pháp tiến hoá trong nhiều tình huống. Các phươ ng pháp

    tiến hoá bỏ qua r ất nhiều cấu trúc có ích của bài toán quyết định Markov: chúng

    không sử dụng một thực tế r ằng chiến lượ c mà chúng đang tìm kiếm là một hàm

    từ các tr ạng thái đến hành động., chúng không chú ý đến tr ạng thái nào cá thể 

  • 8/19/2019 Phương Pháp Học Tăng Cường

    15/80

      14

    tr ải qua trong suốt chu k ỳ sống hoặc hành động nào nó lựa chọn. Trong một số 

    tr ườ ng hợ  p, thông tin này có thể là sai lạc (ví dụ, khi các tr ạng thái không đượ c

    quan sát), nhưng thườ ng xuyên hơ n, nó có thể cho phép tìm kiếm hiệu quả hơ n.

    Mặc dù việc “học” và “tiến hoá” chia sẻ nhiều đặc tính và có thể k ết hợ  p cùng

    vớ i nhau, như  chúng thực hiện trong tự  nhiên, chúng ta không xem xét các

     phươ ng pháp tiến hoá đặc biệt là trong các bài toán quyết định Markov. Một

    cách đơ n giản trong tài liệu này khi chúng ta sử  dụng thuật ngữ  “học tăng

    cườ ng”, chúng ta không bao gồm các phươ ng pháp tiến hoá.

    Phần tử thứ 4 và cũng là phần tử cuối cùng của bài toán quyết định Markovđó là mô hình của môi tr ườ ng. Đây là đối tượ ng để bắt chướ c hành vi của môi

    tr ườ ng. Ví dụ, khi đưa ra một tr ạng thái và hành động, mô hình có thể dự đoán

    tổng hợ  p tr ạng thái tiế p theo và giá tr ị phản hồi tiế p theo. Các mô hình đượ c sử 

    dụng để  lậ p k ế hoạch, nhờ  đó chúng ta dự định cho quyết định bất k ỳ trên một

    tiến trình của hành động bằng cách xem xét các tình huống trong tươ ng lai có thể 

    xảy ra tr ướ c khi chúng có kinh nghiệm thực sự. Sự hợ  p nhất giữa các mô hình và

    k ế hoạch trong các hệ thống học tăng cườ ng là một phát triển mớ i. Các hệ thống

    học tăng cườ ng ban đầu là những ngườ i học “thử và lỗi”, vớ i cách tiế p cận này

    những gì chúng thực hiện đượ c xem như  là đối lậ p vớ i k ế  hoạch. Tuy nhiên,

    ngày càng rõ ràng r ằng các phươ ng pháp học tăng cườ ng có liên quan gần gũi

    vớ i các phươ ng pháp quy hoạch động, trong đó cũng sử  dụng các mô hình và

    chúng cũng lần lượ t có liên quan gần gũi vớ i các phươ ng pháp lậ p k ế  hoạch

    không gian tr ạng thái. Các phươ ng pháp học tăng cườ ng hiện đại mở   r ộng sự 

     phân bố từ học thử và lỗi mức thấ p sang việc lậ p k ế hoạch có tính thảo luận mức

    cao.

  • 8/19/2019 Phương Pháp Học Tăng Cường

    16/80

      15

    1.2.1  Hàm phản hồi

    Mục đích của tác tử là cực đại hoá các mục tiêu đượ c tích luỹ trong tươ ng lai.

    Hàm phản hồi R(t) đượ c biểu diễn dướ i dạng hàm số đối vớ i các mục tiêu. Trong

    các bài toán quyết định Markov, hàm phản hồi sử dụng biểu thức dạng tổng. Các

    nhà nghiên cứu đã tìm ra ba biểu diễn thườ ng đượ c sử dụng của hàm phản hồi:

    Trong các bài toán số  bướ c hữ u hạn

    Vớ i những bài toán này ta có một số hữu hạn các bướ c trong tươ ng lai. Sẽ tồn

    tại một tr ạng thái k ết thúc và một chuỗi các hành động giữa tr ạng thái đầu tiên và

    tr ạng thái k ết thúc đượ c gọi là một giai đoạn.Ta có:

    Trong đó K là số các bướ c tr ướ c tr ạng thái k ết thúc

    Trong các bài toán số  bướ c vô hạn

    Vớ i những bài toán này ta có chuỗi các hành động là vô hạn. Một hệ số suy

    giảm γ, 0≤γ≤1 đượ c đưa ra và hàm phản hồi đượ c biểu diễn dướ i dạng tổng củacác giá tr ị mục tiêu giảm dần:

    Hệ số γ cho phép xác định mức độ ảnh hưở ng của những bướ c chuyển tr ạng

    thái tiế p theo đến giá tr ị phản hồi tại thờ i điểm đang xét. Giá tr ị của γ cho phép

    điều chỉnh giai đoạn tác tử lấy các hàm tăng cườ ng. Nếu γ = 0, thì tác tử chỉ xem

    xét mục tiêu gần nhất, giá tr ị γ càng gần vớ i 1 thì tác tử sẽ quan tâm đến các mục

    tiêu xa hơ n trong tươ ng lai.

     Như vậy, thực chất bài toán quyết định Markov trong tr ườ ng hợ  p này chính là

    việc lựa chọn các hành động để làm cực đại biểu thức R:

  • 8/19/2019 Phương Pháp Học Tăng Cường

    17/80

      16

    R = r 0+γr 1+γ2r 2+… vớ i 0

  • 8/19/2019 Phương Pháp Học Tăng Cường

    18/80

      17

    vớ i tác tử khi hệ  thống đang ở   tr ạng thái s. Hàm giá tr ị  của tr ạng thái s trong

    chiến lượ c π đượ c tính như sau:

    Vπ (s) = Eπ {R t | st = s}

    Bài toán tối ưu bao gồm việc xác định chiến lượ c điều khiển π* sao cho hàm

    giá tr ị của tr ạng thái hệ  thống đạt cực đại sau một số vô hạn hoặc hữu hạn các

     bướ c.

    π* = {π0(s0), π1(s1),…, π N-1(s N-1)}

    Đối vớ i bài toán có số bướ c vô hạn ta có hàm giá tr ị tr ạng thái:

    Sử dụng các phép biến đổi:

     Như vậy, hàm Vπ(s) có thể đượ c viết lại một cách đệ qui như sau:

  • 8/19/2019 Phương Pháp Học Tăng Cường

    19/80

      18

    Hay:

    Vπ(s) = R(s, a) + γ )'(

    '

    '  sV  P 

    S  s

    a

     ss

    π ∑∈

      (*)

    Vớ i a ss P  '  là xác xuất để chuyển từ tr ạng thái s sang s’ khi áp dụng hành động a.

    Chúng ta có thể tính hàm Vπ(s) ngoại tuyến nếu biết tr ạng thái bắt đầu và xác

    suất mọi phép chuyển đổi theo mô hình. Vấn đề đặt ra là sau đó giải quyết hệ 

    thống các phươ ng trình tuyến tính trong công thức (*). Chúng ta biết r ằng tồn tại

    một chiến lượ c tối ưu, kí hiệu π*, đượ c định ngh ĩ a như sau:

    V

    π*

    (s) ≥ V

    π

    (s)

    Để đơ n giản chúng ta viết V* = Vπ*. Hàm giá tr ị  tối ưu của một tr ạng thái

    tươ ng ứng vớ i chiến lượ c tối ưu là:

    Đây là phươ ng trình tối ưu Bellman (hoặc phươ ng trình của quy hoạch động).

    Tóm lại V π 

     là hàm giá tr ị  tr ạng thái cho chiế n l ượ c π . Giá tr ị của tr ạng tháik ết thúc thườ ng bằng 0. Tươ ng tự, định ngh ĩ a Qπ(s,a) là giá tr ị của việc thực hiện

    hành động a trong tr ạng thái s dướ i chiến lượ c điều khiển π, đượ c tính bằng k ỳ 

    vọng toán học của hàm phản hồi bắt đầu từ  tr ạng thái s, thực hiện hành động a

    trong chiến lượ c π:

    Qπ  đượ c g ọi là hàm giá tr ị hành động cho chiế n l ượ c π . Và các hàm giá tr ị 

    Vπ, Qπ có thể đượ c ướ c lượ ng từ kinh nghiệm.

    Ví d ụ minh họa cách tính toán các hàm giá tr ị 

  • 8/19/2019 Phương Pháp Học Tăng Cường

    20/80

      19

    Chúng ta xét một ví dụ đơ n giản để minh họa cho cách tính toán các hàm giá

    tr ị V và Q. Cho một lướ i các ô vuông, mỗi ô vuông tươ ng ứng vớ i một tr ạng thái

    về môi tr ườ ng. Ta có tậ p các tr ạng thái {s1, s2, s3, s4, s5, s6} trong đó s3 là tr ạng

    thái k ết thúc. Tại mỗi ô, có 4 hành động có thể xảy ra đó là di chuyển lên trên,

    xuống dướ i, sang trái, sang phải. Mỗi bướ c di chuyển đến tr ạng thái k ết thúc có

    giá tr ị phản hồi 100, các bướ c di chuyển còn lại giá tr ị phản hồi đều bằng 0, minh

    họa như hình vẽ:

    Ta có công thức tính V* cho π*:

    V*(st) = r t + γ V*(st+1)

    V*(s6) = 100 + 0.9 * 0 = 100

    V*(s5) = 0 + 0.9 * 100 = 90

    V*(s4) = 0 + 0.9 * 90 = 81

    Tính Vα cho πα như sau:

    Vα(s6) = 0.5 * (100 + 0.9 * 0) + 0.5 * (0 + 0.9 * 0) = 50

    Vα(s5) = 0.66 * (0 + 0.9 * 50) + 0.33 * (0 + 0.9 * 0) = 30

    Vα(s6) = 0.5 * (0 + 0.9 * 30) + 0.5 * (0 + 0.9 * 0) = 13.5

     Nếu tính cho tất cả các tr ạng thái thì bắt đầu lại và lặ p đến tận khi giá tr ị hộitụ 

  • 8/19/2019 Phương Pháp Học Tăng Cường

    21/80

      20

     

    Vớ i hàm giá tr ị tr ạng thái-hành động Q, công thức tính như sau:

    Q(s, a) = r(s, a) + γ'

    maxa

    Q(s’, a’)

    Q(s1, right) = r + γ'

    maxa

    Q(s2, a’) (lấy γ = 0.9)

    = 0 + 0.9 max{63, 81, 100}

    = 90

    1.3  CẤU TRÚC TOÁN HỌC CỦA BÀI TOÁN QUYẾT ĐỊNH

    MARKOV

    Tr ướ c hết chúng ta xem xét khái niệm “Thuộc tính Markov” đượ c đưa ra

    trong các bài toán quyết định. Trong bài toán quyết định, tác tử ra quyết định domột tín hiệu từ môi tr ườ ng gọi là tr ạng thái của môi tr ườ ng. Chúng ta định ngh ĩ a

    thuộc tính môi tr ườ ng và các tính hiệu tr ạng thái của chúng là thuộc tính

    Markov.

    Tr ạng thái đượ c hiểu là bất cứ  thông tin gì có ích vớ i tác tử, giả  thiết tr ạng

    thái đượ c đưa ra bở i một số hệ thống tiền xử lý của môi tr ườ ng. Chúng ta sẽ định

    ngh ĩ a thuộc tính Markov cho bài toán quyết định. Để đơ n giản biểu thức toán

    học, chúng ta giả sử tậ p các tr ạng thái và các mục tiêu là hữu hạn. Quan sát cách

    thức một môi tr ườ ng tổng quát có thể đáp ứng tại thờ i điểm t+1 đối vớ i hành

    động đượ c thực hiện tại thờ i điểm t. Trong hầu hết các tr ườ ng hợ  p, nguyên nhân

    của sự đáp ứng này có thể phụ thuộc vào mọi thứ đã xảy ra tr ướ c đó. Khi đó biến

  • 8/19/2019 Phương Pháp Học Tăng Cường

    22/80

      21

    động của môi tr ườ ng có thể đượ c định ngh ĩ a bằng cách đặc tả xác suất phân bố 

    khả năng như sau:

    vớ i mọi s’, r

    và mọi giá tr ị có thể của các sự kiện tr ướ c st, at, r t, …, r 1, s0, a0.

     Nếu tín hiệu tr ạng thái có thuộc tính Markov thì đáp ứng của môi tr ườ ng tại

    thờ i điểm t+1 chỉ phụ  thuộc vào tr ạng thái và hành động tại thờ i điểm t, trong

    tr ườ ng hợ  p này, biến động của môi tr ườ ng đượ c thể hiện như sau:

    vớ i mọi s’, r, st, at.

     Nói cách khác, một tín hiệu tr ạng thái có thuộc tính Markov và là một tr ạng

    thái Markov khi và chỉ khi giá tr ị ở  hai biểu thức trên bằng nhau vớ i mọi s’, r và

    st, at, r t, …, r 1, s0, a0. Trong tr ườ ng hợ  p này môi tr ườ ng cũng đượ c gọi là có thuộc

    tính Markov.

     Nếu một môi tr ườ ng có thuộc tính Markov thì biến động tại mỗi bướ c của nó

    sẽ cho phép dự đoán tr ạng thái và mục tiêu k ỳ vọng tiế p đượ c đưa ra từ  tr ạng

    thái và hành động hiện tại. Bằng cách lặ p phươ ng trình này, chúng ta có thể dự đoán tất cả các tr ạng thái và mục tiêu k ỳ vọng trong tươ ng lai mà chỉ vớ i kiến

    thức từ tr ạng thái hiện tại trong thờ i điểm hiện tại. Các tr ạng thái Markov cung

    cấ p khả năng tốt nhất cho việc lựa chọn hành động, khi đó chiến lượ c tốt nhất

    cho việc lựa chọn hành động sẽ là hàm của một tr ạng thái Markov.

     Nhiều tr ườ ng hợ  p trong học tăng cườ ng khi tín hiệu tr ạng thái không có thuộc

    tính Markov, chúng ta cũng sẽ xấ p xỉ tr ạng thái này thành tr ạng thái Markov vì

    chúng ta luôn mong muốn tr ạng thái là tốt để dự đoán hàm mục tiêu cũng như 

    việc lựa chọn hành động trong tươ ng lai. Vớ i tất cả những lý do đó, cách tốt nhất

    là xem tr ạng thái tại mỗi bướ c thờ i gian như là một xấ p xỉ của tr ạng thái Markov

    mặc dù nó không hoàn toàn thoả mãn thuộc tính Markov.

  • 8/19/2019 Phương Pháp Học Tăng Cường

    23/80

      22

    Thuộc tính Markov là r ất quan tr ọng trong các bài toán quyết định vì các

    quyết định và các giá tr ị đượ c giả thiết chỉ là hàm phụ thuộc vào tr ạng thái hiện

    tại. Giả thiết này không có ngh ĩ a là áp dụng hoàn toàn cho mọi tình huống học

    tăng cườ ng k ể  cả  những tình huống không thoả  mãn Markov. Tuy nhiên lý

    thuyết phát triển cho các thuộc tính Markov vẫn giúp chúng ta có thể hiểu đượ c

    hành vi của các giải thuật học tăng cườ ng và các giải thuật thì vẫn có thể áp dụng

    thành công cho mọi nhiệm vụ vớ i các tr ạng thái không thoả mãn Markov. Kiến

    thức về lý thuyết Markov là cơ  sở  nền tảng để mở  r ộng trong những tr ườ ng hợ  p

     phức tạ p hơ n k ể cả những tr ườ ng hợ  p không thoả mãn thuộc tính Markov.Vớ i giả  thiết như vậy, tươ ng tác giữa tác tử và môi tr ườ ng có thể đượ c mô

    hình dướ i dạng bài toán quyết định Markov. Việc tìm kiếm sách lượ c điều khiển

    tối ưu trong các bài toán quyết định Markov tươ ng ứng vớ i những tiêu chí tối ưu

    khác nhau dẫn tớ i việc xây dựng các phươ ng trình tối ưu Bellman và các thuật

    toán quy hoạch động. Thông thườ ng, quy hoạch động là phươ ng pháp giải các

     phươ ng trình tối ưu Bellman khi biết các thuộc tính thống kê của môi tr ườ ng.

    Khác vớ i quy hoạch động, phươ ng pháp học tăng cườ ng tìm kiếm tr ực tiế p các

    chiến lượ c quyết định tối ưu từ các giá tr ị phản hồi thu nhận đượ c trong các quá

    trình tươ ng tác vớ i môi tr ườ ng và tr ạng thái của môi tr ườ ng.

    Bài toán quyết định Markov bao gồm một tậ p các tr ạng thái (s1,s2,…,sn) và

    một tậ p các hành động (a1,a2,…,an). Mỗi tr ạng thái có một giá tr ị  mục tiêu

    (r 1,r 2,…,r n). Trong bài toán quyết định Markov, các phép chuyển đổi từ tr ạng thái

    i sang tr ạng thái j chỉ phụ thuộc vào các hành động có thể tại tr ạng thái i. Hàm đo

    khả năng chuyển đổi hay còn gọi là xác suất của phép chuyển đổi đượ c biểu diễn

    như sau:

    Pk i j = (tiế p theo = s j | hiện tại = si và thực hiện hành động ak )

  • 8/19/2019 Phương Pháp Học Tăng Cường

    24/80

      23

    Tại mỗi bướ c, hệ thống sẽ thực hiện các công việc như sau:

    -  0) Giả sử tr ạng thái hiện tại là si

    -  1) Giá tr ị phản hồi r i 

    -  2) Lựa chọn hành động ak  

    -  3) Chuyển đến tr ạng thái s j vớ i khả năng Pijk  

    -  4) Tất cả các giá tr ị phản hồi trong tươ ng lai đượ c biểu diễn theo hệ số suy

    giảm γ 

    Mục tiêu của bài toán quyết định Markov là vớ i mọi tr ạng thái bắt đầu, tìm ra

    một chiến lượ c tốt nhất (một chuỗi các hành động) để cực đại hoá giá tr ị phảnhồi. Để hiểu rõ cách tính toán hàm giá tr ị V và hàm giá tr ị tr ạng thái Q ta xét một

    số ví dụ bài toán Markov sau đây:

    Ví d ụ 1:

    Xét ví dụ một bài toán quyết định Markov có mô hình:

    Trong bài toán này, tậ p các tr ạng thái bao gồm {0, 1, 2, 3, 4, 5} trong đó 0 là

    tr ạng thái bắt đầu, 5 là tr ạng thái k ết thúc. Mỗi bướ c chuyển tr ạng thái đượ c biểu

    diễn bằng một mũi tên và giá tr ị phản hồi (tăng cườ ng) của nó đượ c biểu hiện

     bằng tr ọng số trên ghi trên mũi tên tươ ng ứng. Tậ p {A, B} là tậ p các hành động

    có thể thực hiện. Chúng ta có thể thấy có 3 chiến lượ c cho bài toán này.1.  0→1→3→5

    2.  0→1→4→5

    3.  0→2→4→5

  • 8/19/2019 Phương Pháp Học Tăng Cường

    25/80

      24

    So sánh các chiến lượ c, chúng ta sắ p xế p các chiến lượ c theo tổng giá tr ị phản

    hồi mà nó thu đượ c:

    1.  0→1→3→5 = 1+ 1 + 1 =3

    2.  0→1→4→5 = 1 + 1 + 10 =12

    3.  0→2→4→5 = 2 + (-1000) + (10) = -988

    Chúng ta có thể k ết hợ  p một giá tr ị vớ i mỗi tr ạng thái. Vớ i một chiến lượ c cố 

    định, hàm giá tr ị tr ạng thái V xác định mức độ thích hợ  p của việc thực hiện chiến

    lượ c π đối vớ i tr ạng thái s. Hình vẽ sau đây chỉ ra chiến lượ c cần thực hiện tại

    mỗi tr ạng thái.

    Chúng ta cũng có thể định ngh ĩ a giá tr ị mà không cần đặc tả chiến lượ c bằng

    cách định ngh ĩ a giá tr ị của việc lựa chọn hành động a từ  tr ạng thái s và sau đó

    thực hiện tối ưu, đây chính là hàm giá tr ị tr ạng thái- hành động Q. Hình vẽ sau

    đây chỉ ra hành động cần thực hiện tại mỗi tr ạng thái.

  • 8/19/2019 Phương Pháp Học Tăng Cường

    26/80

      25

     

    Ví d ụ 2:

    Xét một ví dụ khác, bài toán quyết định Markov có mô hình như sau:

    Trong bài toán này, tậ p các tr ạng thái bao gồm {0, 1, 2, 3} trong đó 0 là tr ạng

    thái bắt đầu, 3 là tr ạng thái k ết thúc. Mỗi bướ c chuyển tr ạng thái đượ c biểu diễn bằng một mũi tên và giá tr ị phản hồi (tăng cườ ng) của nó đượ c biểu hiện bằng

    tr ọng số trên ghi trên mũi tên tươ ng ứng. Tậ p {A, B} là tậ p các hành động có thể 

    thực hiện. Quan sát bướ c đi tại lặ p lại tại tr ạng thái 1 và 2 có thể thấy:

    -  Số các bướ c của bài toán là không giớ i hạn vì phép lặ p.

    -  Giá tr ị  của tr ạng thái 1 và 2 là không giớ i hạn cho một số  chiến

    lượ c.

    Q(1, A) = 1 + Q(1, A)

    = 1 + 1 + Q(1, A)

    = ! + 1 + 1 + Q(1, A)

    =…..

  • 8/19/2019 Phương Pháp Học Tăng Cường

    27/80

      26

    Trong những bài toán số bướ c vô hạn như tr ườ ng hợ  p này, như đã trình bày

    trong mục 4.2, ngườ i ta đưa thêm hệ số suy giảm γ vào khi tính hàm phản hồi.

    0≤γ≤1. Ta có công thức tính hàm giá tr ị và hàm giá tr ị tr ạng thái-hành động

    Khi đó, tính toán giá tr ị Q cho từng cặ p tr ạng thái-hành động như sau:

     Nhìn từ k ết quả trên ta có các chiến lượ c tối ưu: π(0) = B; π(1) = A; π(2) = A.

    1.4 

    PHƯƠ NG PHÁP HỌC TĂNG CƯỜ NG

    1.4.1 

    Ý tưở ng chung

    Có hai phươ ng pháp thườ ng đượ c sử dụng để giải các bài toán quyết định đó

    là tìm kiếm trong không gian chiến lượ c và tìm kiếm trong không gian hàm giá

    tr ị hay còn gọi là “phép lặ p chiến lượ c” và “phép lặ p giá tr ị”. Hai phươ ng pháp

    này chính là các giải thuật học tăng cườ ng đặc tr ưng. Ngoài ra còn xuất hiện một

     phươ ng pháp lai giữa hai phươ ng pháp trên: Actor-Critic learning.

    Cơ  chế chung của phép lặ p chiến lượ c và phép lặ p giá tr ị như sau:

      Phép lặp chiến lượ c

  • 8/19/2019 Phương Pháp Học Tăng Cường

    28/80

      27

    Ý tưở ng là ở  chỗ, bắt đầu từ một chiến lượ c bất k ỳ π và cải thiện nó sử dụng

    Vπ để có một chiến lượ c tốt hơ n π’. Chúng ta sau đó có thể tính Vπ’ và cải thiện

    nó vớ i một chiến lượ c tốt hơ n nữa π’’,…K ết quả của tiến trình lặ p này, chúng ta

    có thể đạt đượ c một chuỗi các bướ c cải thiện chiến lượ c và các hàm giá tr ị.

    Thuật toán l ặ p chiế n l ượ c:

    (a) Bắt đầu vớ i một chiến lượ c bất k ỳ π.

    (b) 

     Lặ p

    Đánh giá chiến lượ c π.

    Cải tiến chiến lượ c tại mỗi tr ạng thái. Đế n t ận khi chiến lượ c không có khả năng thay đổi. 

    Trong thuật toán lặ p chiến lượ c ở   trên có đề cậ p đến một số khái niệm liên

    quan đó là đ ánh giá chiế n l ượ c và cải tiế n chiế n l ượ c.

     Đánh giá chiế n l ượ c 

    Chính là quá trình tính toán hàm giá tr ị tr ạng thái Vπ cho một chiến lượ c π bất

    k ỳ. Nó đượ c biết đến là phươ ng trình Bellman:

    Đây là một hệ thống các phươ ng trình tuyến tính đồng thờ i. Lờ i giải của nó

    không quá phức tạ p và có thể tìm đượ c bằng cách sử dụng một trong các phươ ng

     pháp giải hệ  thống các phươ ng trình tuyến tính. Lờ i giải có thể  tìm đượ c bằng

    việc tạo ra một chuỗi các hàm giá tr ị xấ p xỉ V0,V1,V2,…Xấ p xỉ khở i tạo V0 đượ c chọn ngẫu nhiên. Nếu có một tr ạng thái k ết thúc nó

    sẽ  nhận giá tr ị  0. Mỗi xấ p xỉ  thành công đạt đượ c bằng cách sử  dụng phươ ng

    trình Bellman cho Vπ như là một luật cậ p nhật:

  • 8/19/2019 Phương Pháp Học Tăng Cường

    29/80

      28

     

    Bướ c lặ p k ết thúc khi độ lệch cực đại giữa hai hàm giá tr ị thành công nhỏ hơ n

    một giá tr ị đủ nhỏ ε.

    C ải tiế n chiế n l ượ c

    Chính là quá trình tạo một chiến lượ c mớ i cải tiến dựa trên chiến lượ c gốc

     bằng cách sử dụng thuật toán tham lam đối vớ i hàm giá tr ị của chiến lượ c gốc.

    Vớ i một chiến lượ c π cho tr ướ c, có thể tìm ra một chiến lượ c tốt hơ n π’ sao cho

    Vπ’

     > Vπ

    . Điều này đạt đượ c bằng cách chọn theo tiên đoán một hành động tạimột tr ạng thái riêng biệt hoặc bằng cách xem xét sự thay đổi tại tất cả các tr ạng

    thái và đối vớ i tất cả các hành động có thể, lựa chọn tại mỗi tr ạng thái hành động

    xuất hiện tốt nhất dựa theo Qπ(s,a). Chiến lượ c π’ là tham lam nếu:

    Trong phươ ng trình trên, arg maxa chỉ ra giá tr ị của a tại đó biểu thức đạt cựcđại. Chiến lượ c tham lam thực hiện hành động tốt nhất sau mỗi bướ c dựa theo

    Vπ.

    Tóm lại, trong phép lặ p chiến lượ c, giá tr ị  của chiến lượ c chính là k ết quả 

    của hệ thống các phươ ng trình tuyến tính. Sau đó, vớ i mọi tr ạng thái, chúng ta sẽ 

    quan sát liệu r ằng có thể cải thiện chiến lượ c trong khi chỉ  thay đổi hành động

     bắt đầu hay không. Phép lặ p chiến lượ c là nhanh khi không gian hành động là

    nhỏ và đôi khi chỉ cần vài bướ c lặ p là đủ, mặt khác phươ ng pháp này là khá đắt

    thậm chí khó thực hiện trong tr ườ ng hợ  p không gian hành động lớ n.

      Phép lặp giá trị 

  • 8/19/2019 Phương Pháp Học Tăng Cường

    30/80

      29

    Trong phươ ng pháp này, chúng ta không cố gắng quyết định chiến lượ c một

    cách rõ ràng, mà sẽ quyết định hành động có giá tr ị  tối ưu cho mọi tr ạng thái.

    Thuật toán lặ p giá tr ị  sinh ra từ  dạng đệ  qui của hàm giá tr ị  tr ạng thái tối ưu

    Bellman. Phươ ng trình chi phối thuật toán lặ p giá tr ị như sau:

     Ngườ i ta đã chứng minh đượ c r ằng giải thuật này hội tụ  tại một số hữu hạn

    các bướ c lặ p để đạt tớ i đích là chiến lượ c tối ưu, chuỗi {Vk } hội tụ đến giá tr ị 

    tr ạng thái tối ưu V*. Phép lặ p giá tr ị k ết hợ  p một cách hiệu quả cả việc đánh giá

    chiến lượ c và cải thiện chiến lượ c.

    Thuật toán l ặ p giá tr ị 

    (a) Khở i tạo V ngẫu nhiên cho mọi tr ạng thái

    (b)  Lặ p

    Vớ i mỗi tr ạng thái s:

     Đế n t ận khi Độ lệch cực đại giữa hai hàm giá tr ị thành công nhỏ hơ n một

    giá tr ị đủ nhỏ ε 

    (c)  Đầu ra: Một chiến lượ c π sao cho

    Kiến trúc của các thuật toán dựa trên lặ p giá tr ị đượ c biểu diễn trong hình sau:

  • 8/19/2019 Phương Pháp Học Tăng Cường

    31/80

      30

     

     Hình 1.3: Kiế n trúc của thuật toán l ặ p giá tr ị 

    1.4.2  Một số thuật ngữ  

    1.4.2.1 

     Khảo sát và khai thác

    Trong phươ ng pháp học tăng cườ ng, đặc biệt là vớ i các bài toán quyết định

    tr ực tiế p, có một vấn đề về khảo sát và khai thác. Một mặt tác tử muốn khảo sát

    môi tr ườ ng để tìm ra bài toán tối ưu, mặt khác cực tiểu hoá chi phí cho việc học bằng cách khai thác môi tr ườ ng.

    Có một số phươ ng pháp cân bằng giữa khảo sát và khai thác. K ỹ  thuật phổ 

     biến nhất là sử  dụng một trong các chiến lượ c lựa chọn hành động ε-soft, ε-

    greedy và softmax.

    1.4.2.2 

     K  ỹ  thuật ε-greedy, ε-soft và softmax

    Chiế n l ượ c l ự a chọn hành động ε-greedy

    Đây là cách đơ n giản và phổ biến nhất để cân bằng giữa khảo sát và khai thác.

    Trong phươ ng pháp này, hành động có ướ c lượ ng về giá tr ị phản hồi lớ n nhất sẽ 

    đượ c lựa chọn trong hầu hết thờ i gian, gọi là hành động tham lam. Nhưng bất cứ 

  • 8/19/2019 Phương Pháp Học Tăng Cường

    32/80

      31

    khi nào vớ i khả năng r ất nhỏ ε, hành động đượ c lựa chọn ngẫu nhiên, giống nhau

    và độc lậ p vớ i các ướ c lượ ng về giá tr ị hành động.

    Trong hầu hết các tr ườ ng hợ  p vớ i khả năng của hành động là 1-ε  thì giá tr ị 

    hành động đượ c ướ c lượ ng lớ n nhất Q(s,a) đượ c lựa chọn.

    Giả sử A là tậ p tất cả các hành động và N là số hành động. Giả sử thêm nữa

    là khả năng lựa chọn một hành động tham lam a, và là khả năng lựa

    chọn một hành động không tham lam a. Trong phươ ng pháp lựa chọn hành động

    ε-greedy, khả năng lựa chọn một hành động không tham lam đượ c cho bở i công

    thức:

    Từ đó dễ dàng chỉ ra r ằng khả năng lựa chọn một hành động tham lam:

    Phươ ng pháp này chỉ ra r ằng nếu phép thử là đủ, mỗi hành động sẽ đượ c thử 

    một số vô hạn các lần thì đảm bảo r ằng sẽ tìm ra đượ c các hành động tối ưu.

    Chiế n l ượ c l ự a chọn hành động ε-soft

    Tươ ng tự như phươ ng pháp ε-greedy, hành động tốt nhất đượ c lựa chọn vớ i

    khả năng 1-ε và trong các tr ườ ng hợ  p khác thực hiện lựa chọn hành động một

    cách ngẫu nhiên giống nhau. 

    Chiế n l ượ c l ự a chọn hành động softmax

    K ỹ thuật ε-greedy và ε-soft có hạn chế là trong một số tình huống chúng lựachọn các hành động ngẫu nhiên giống nhau, như vậy hành động có khả năng tồi

    nhất có thể đượ c lựa chọn như là hành động tốt thứ hai. K ỹ thuật softmax khắc

     phục nhượ c điểm này bằng cách gán thứ hạng hoặc tr ọng số cho mỗi hành động,

  • 8/19/2019 Phương Pháp Học Tăng Cường

    33/80

  • 8/19/2019 Phương Pháp Học Tăng Cường

    34/80

      33

    Đây là phươ ng pháp học các chiến lượ c khác nhau cho hành vi và ướ c lượ ng.

    Có thể cậ p nhật các hàm giá tr ị ướ c lượ ng sử dụng các hành động giả  thiết mà

    không cần phải thử trong thực tế. Điều này đối lậ p vớ i chiến lượ c trên ở  chỗ cậ p

    nhật các hàm giá tr ị chỉ dựa trên kinh nghiệm.

    1.4.3  Phân loại thuật toán học tăng cườ ng

    Các thuật toán học tăng cườ ng đượ c chia thành hai loại chính đó là: học dựa

    trên mô hình (model based) và học không có mô hình (model free). Đại điện cho

    kiểu học dựa trên mô hình phải k ể đến phươ ng pháp quy hoạch động (Dynamic

    Programming-DP), đại diện cho kiểu học không có mô hình là phươ ng pháp

    Monte Carlo và phươ ng pháp TD (Temporal Difference).

    1.4.3.1 

     H ọc d ự a trên mô hình

    Phươ ng pháp này thực hiện học theo mô hình và sử dụng nó để quyết định

    chính sách tối ưu. Tác tử ướ c lượ ng mô hình từ  các quan sát về  cả  khả  năng

    chuyển đổi tr ạng thái và hàm tăng cườ ng. Sau đó sẽ sử dụng mô hình ướ c lượ ng

    này như là mô hình thực tế để tìm ra chiến lượ c tối ưu .

    Một cách cụ thể, tác tử tiến hành lậ p k ế hoạch và biên dịch k ết quả sang một

    tậ p các phản hồi nhanh hoặc các luật tình huống – phản hồi, sau đó sẽ đượ c sử 

    dụng trong quyết định thờ i gian thực. Cách tiế p cận này tuy nhiên bị giớ i hạn vào

    sự phục thuộc của nó vào một mô hình hoàn thiện về môi tr ườ ng.

    1.4.3.2 

     H ọc không có mô hìnhPhươ ng pháp này tìm thấy chính sách tối ưu mà không phải học theo mô

    hình. Tác tử học các giá tr ị hành động mà không có mô hình về môi tr ườ ng đượ c

    mô tả bở i và . Trong phươ ng pháp này tác tử tươ ng tác tr ực tiế p vớ i môi

  • 8/19/2019 Phương Pháp Học Tăng Cường

    35/80

      34

    tr ườ ng và biên dịch thông tin nó thu thậ p đượ c thành một cấu trúc phản hồi mà

    không có học từ mô hình. Trong phươ ng pháp này, các bướ c chuyển đổi tr ạng

    thái và các giá tr ị phản hồi tác tử quan sát thay thế cho mô hình môi tr ườ ng.

    Một trong các khó khăn lớ n nhất gặ p phải đó là làm cách nào để  tính toán

    đượ c mối liên k ết giữa hành động hiện tại và các hệ quả trong tươ ng lai. Để giải

    quyết khó khăn này có hai cách tiế p cận: thứ nhất là đợ i đến khi k ết thúc và thực

    hiện thưở ng/phạt mọi hành động đượ c thực hiện trong quá khứ, dựa trên k ết quả 

    cuối cùng. Trong đó phươ ng pháp Monte Carlo là một ví dụ. Vấn đề  hạn chế 

    trong cách tiế p cận này đã đượ c Kaelbling và các cộng sự chỉ ra vào năm 1996,đó là khó khăn trong việc nhận biết khi nào k ết thúc trong chuỗi liên tiế p các sự 

    việc đang xảy ra. Thậm chí nếu biết đượ c nó thì cũng yêu cầu một lượ ng lớ n về 

     bộ nhớ .

    Cách tiế p cận khác là phươ ng pháp TD đượ c đưa ra bở i Sutton vào năm 1988.

    Trong phươ ng pháp này, một mạng đặc biệt đượ c điều chỉnh để học k ết hợ  p các

    giá tr ị tăng cườ ng cục bộ vớ i các tr ạng thái tức thì giữa hành động và giá tr ị tăng

    cườ ng bên ngoài. Ý tưở ng quan tr ọng của phươ ng pháp này là giá tr ị tăng cườ ng

    cục bộ của một tr ạng thái tức thì hồi quy về giá tr ị tăng cườ ng thành công.

    Sau đây chúng ta sẽ đi tìm hiểu một số giải thuật RL điển hình vớ i những đặc

    điểm riêng, bao gồm phươ ng pháp quy hoạch động, phươ ng pháp Monte Carlo

    và phươ ng pháp TD. Vớ i phươ ng pháp quy hoạch động, nó đòi hỏi một mô hình

    hoàn hảo về môi tr ườ ng, điều này không phù hợ  p trong những tình huống học

    của robot trong thực tế  nên thườ ng đượ c dùng trong lý thuyết trò chơ i, toán

    học,…Phươ ng pháp Monte Carlo không đòi hỏi mô hình về  môi tr ườ ng và

    không cần có cơ  chế tự cậ p nhật mà bắt đầu từ việc thăm dò. Phươ ng pháp TD

  • 8/19/2019 Phương Pháp Học Tăng Cường

    36/80

  • 8/19/2019 Phương Pháp Học Tăng Cường

    37/80

      36

     phép) khớ  p vớ i các ví dụ. Nói cách khác, ta muốn tìm ánh xạ mà dữ liệu đầu vào

    đã hàm ý, vớ i hàm chi phí đo độ không khớ  p giữa ánh xạ của ta và dữ liệu.

    Trong học không có giám sát, ta đượ c cho tr ướ c một số dữ liệu x, và hàm chi

     phí cần đượ c cực tiểu hóa có thể  là một hàm bất k ỳ của dữ  liệu  x và đầu ra,  f .

    Hàm chi phí đượ c quyết định bở i phát biểu của bài toán. Phần lớ n ứng dụng nằm

    trong vùng các bài toán ướ c lượ ng như mô hình hóa thống kê, nén, lọc,…

    Trong học tăng cườ ng, dữ liệu x thườ ng không đượ c cho tr ướ c mà đượ c tạo ra

    trong quá trình một tác tử tươ ng tác vớ i môi tr ườ ng. Tại mỗi thờ i điểm t , tác tử 

    thực hiện hành động yt  và môi tr ườ ng tạo một quan sát xt  và một chi phí tức thờ ict , theo một quy trình động nào đó (thườ ng là không đượ c biết). Mục tiêu là tìm

    một chiến lượ c lựa chọn hành động để cực tiểu hóa một chi phí dài hạn nào đó,

    ngh ĩ a là chi phí tích lũy mong đợ i. Quy trình động của môi tr ườ ng và chi phí dài

    hạn cho mỗi sách lượ c thườ ng không đượ c biết, nhưng có thể ướ c lượ ng đượ c.

    Các bài toán thườ ng đượ c giải quyết bằng học tăng cườ ng là các bài toán điều

    khiển, trò chơ i và các nhiệm vụ quyết định tuần tự khác.

    Ý tưở ng học qua tác động vớ i môi tr ườ ng xuất hiện lần đầu tiên khi chúng ta

    ngh ĩ  đến thế giớ i tự nhiên. Khi một đứa bé chơ i, vẫy tay, hoặc nhìn mọi vật, nó

    không có một ngườ i dạy tr ực tiế p nào cả, nhưng nó có một mối quan hệ tr ực tiế p

    giữa cảm nhận và vận động đối vớ i môi tr ườ ng. Sự tậ p luyện dựa trên mối quan

    hệ này sẽ sản xuất ra một lượ ng thông tin giàu có về nguyên nhân và ảnh hưở ng,

    về các hệ quả của hành động, và về việc “Phải làm gì ?” để đạt đượ c các mục

    đích. Trong toàn bộ cuộc sống của chúng ta, các tác động lẫn nhau như vậy rõ

    ràng là một nguồn tài nguyên chính của nhận thức về môi tr ườ ng của mỗi ngườ i.

    Chẳng hạn việc chúng ta học lái một chiếc xe hoặc thực hiện một cuộc hội thoại

    ngh ĩ a là chúng ta đã nhận thức sâu sắc về cách thức mà môi tr ườ ng phản ứng lại

  • 8/19/2019 Phương Pháp Học Tăng Cường

    38/80

      37

    vớ i những gì mà chúng ta làm, và chúng ta tìm kiếm sự tác động đến những gì

    xảy ra qua hành động của chúng ta. Học từ tác động qua lại là một ý tưở ng cơ  

     bản dựa trên hầu hết các lý thuyết của học và trí tuệ nhân tạo.

    Lịch sử phát triển của RL chia thành hai hướ ng chính, một hướ ng quan tâm

    đến việc học vớ i phươ ng pháp thử  và sai, bắt đầu trong l ĩ nh vực tâm lý học

    nghiên cứu việc học của động vật. Hướ ng này xem xét các công việc sơ   khai

    trong trí tuệ nhân tạo và phát triển thờ i k ỳ phục hưng của RL vào đầu những năm

    1980. Hướ ng thứ hai quan tâm đến các bài toán về điều khiển tối ưu và cách giải

    quyết là sử dụng các hàm giá tr ị và quy hoạch động. Các ngoại lệ xoay quanhmột hướ ng thứ 3 sử dụng các phươ ng pháp chênh lệch về thờ i gian (TD). Tất cả 

    các hướ ng nghiên cứu hợ  p nhất lại vào cuối những năm 1980, tạo ra một l ĩ nh

    vực hiện đại về RL.

     Ngườ i đầu tiên đi theo hướ ng tiế p cận sử dụng phươ ng pháp thử và sai có thể 

    k ể đến là Edward Thorndike. Thực chất của ý tưở ng này là: các hành động mà

    theo sau đó là một k ết quả tốt hay xấu, sẽ có xu hướ ng thay đổi tươ ng ứng để lựa

    chọn lại. Thorndike gọi điều này là “luật tác động”-mô tả  tác động của các sự 

    kiện lên xu hướ ng lựa chọn hành động. Luật tác động bao gồm hai khía cạnh

    quan tr ọng nhất của phươ ng pháp thử và sai, tính lựa chọn và tính k ết hợ  p. Tính

    lựa chọn liên quan đến việc cố gắng thay đổi và lựa chọn dựa trên việc so sánh

    các k ết quả. Tính k ết hợ  p thể hiện ở  chỗ các thay đổi đượ c k ết hợ  p vớ i các tình

    huống riêng biệt. Lựa chọn tự nhiên trong tiến hóa là một ví dụ về tính lựa chọn,

    nhưng nó không có tính k ết hợ  p trong khi, việc học có giám sát mang tính k ết

    hợ  p nhưng không có tính lựa chọn. Tóm lại, luật tác động là sự k ết hợ  p giữa “tìm

    kiếm” và “ghi nhớ ”, tìm kiếm trong các định dạng về phép thử và lựa chọn hành

  • 8/19/2019 Phương Pháp Học Tăng Cường

    39/80

      38

    động trong mỗi tình huống, ghi nhớ  các hành động hoạt động tốt nhất trong các

    tình huống. Sự k ết hợ  p này chính là bản chất trong RL.

    Vớ i hướ ng tiế p cận thứ hai, thuật ngữ  “điều khiển tối ưu” bắt đầu đượ c sử 

    dụng vào cuối những năm 1950 để  mô tả  bài toán thiết k ế  một bộ điều khiển

    nhằm cực tiểu hóa phép đo hành vi của một hệ thống động theo thờ i gian. Một

    cách tiế p cận cho bài toán này đượ c Richard Bellman và các cộng sự phát triển

    vào giữa những năm 1950 bằng cách mở  r ộng lý thuyết của Hamilton và Jacobi

    ở  thế k ỷ 19. Cách tiế p cận này sử dụng khái niệm “tr ạng thái” của một hệ thống

    động và khái niệm “hàm giá tr ị” hay “hàm phản hồi tối ưu” để định ngh ĩ a một phươ ng trình hàm hay còn gọi “phươ ng trình Bellman”. Lớ  p các phươ ng pháp để 

    giải quyết bài toán điều khiển tối ưu bằng cách giải phươ ng trình này đượ c gọi là

    quy hoạch động (Bellman 1957a). Bellman (1957b) cũng giớ i thiệu một phiên

     bản bài toán điều khiển tối ưu riêng biệt gọi là quá trình ra quyết định Markov

    (MDP). Ron Howard (1960) phát minh ra phươ ng pháp lặ p chiến lượ c cho MDP.

    Tất cả những yếu tố này là những thành phần thiết yếu trong lý thuyết và các giải

    thuật của RL hiện đại. Quy hoạch động là phươ ng pháp khả thi cho các bài toán

    điều khiển tối ưu, tuy nhiên nó cũng bị hạn chế ở  độ phức tạ p tính toán, các yêu

    cầu tính toán tăng theo cấ p số nhân theo số các biến tr ạng thái. Phươ ng pháp này

    sau đó cũng đã đượ c nghiên cứu và phát triển mở  r ộng cho phù hợ  p vớ i từng yêu

    cầu.

    Hướ ng tiế p cận thứ ba liên quan đến sự chênh lệch về thờ i gian (TD). Hướ ng

     phát triển này là mớ i và duy nhất trong RL và đóng một vai trò quan tr ọng vì

    chúng có khả năng giải quyết các bài toán vớ i tậ p tr ạng thái và hành động liên

    tục.

  • 8/19/2019 Phương Pháp Học Tăng Cường

    40/80

      39

     Nhiều bài toán khác nhau có thể đượ c giải quyết bở i RL. Do RL tác tử có thể 

    học mà không cần ngườ i giám sát nên kiểu bài toán phù hợ  p vớ i RL là các bài

    toán phức tạ p, xuất hiện cách giải quyết không dễ dàng và mạch lạc. L ĩ nh vực

    ứng dụng RL chủ yếu là phục vụ cho hai lớ  p ngườ i dùng chính:

    -  Ng ườ i chơ i game: việc quyết định bướ c di chuyển tốt nhất trong trò chơ i

     phụ thuộc vào một số nhân tố khác nhau, do đó số các tr ạng thái có khả năng tồn

    tại trong một trò chơ i thườ ng r ất lớ n. Để bao hàm toàn bộ các tr ạng thái này sử 

    dụng một cách tiế p cận dựa trên các luật chuẩn đòi hỏi phải đặc tả một số lượ ng

    lớ n các luật mã hoá cứng. RL sẽ giúp lượ c bỏ điều này, tác tử học đơ n giản bằngcách chơ i trò chơ i, vớ i 2 ngườ i chơ i ví dụ như trong chơ i cờ , tác tử có thể đượ c

    đào tạo bằng cách chơ i vớ i các ngườ i chơ i hoặc thậm chí là các tác tử chơ i khác.

    - Các bài toán đ iề u khiể n: ví dụ  như  lậ p chươ ng trình cho thang máy. Sẽ 

    không dễ dàng chỉ ra các chiến lượ c cung cấ p tốt nhất cho hầu hết các lần thang

    máy phục vụ. Vớ i các bài toán điều khiển kiểu như  thế này, tác tử RL có thể 

    đượ c đặt để học trong một môi tr ườ ng mô phỏng, cuối cùng là chúng sẽ đạt đượ c

    các chiến lượ c điều khiển tốt nhất. Một số ưu điểm trong việc sử dụng RL cho

    các bài toán điều khiển là tác tử  có thể đào tạo lại dễ  dàng để  thích ứng vớ i

    những thay đổi của môi tr ườ ng, và đượ c đào tạo liên tục trong khi hệ  thống

    online, cải thiện hiệu năng trên toàn bộ thờ i gian.

  • 8/19/2019 Phương Pháp Học Tăng Cường

    41/80

      40

    Chươ ng 2  CÁC THUẬT TOÁN HỌC TĂNG CƯỜ NG

    Trong chươ ng này trình bày chi tiết từng thuật toán học tăng cườ ng đã vàđang đượ c sử dụng hiện nay.

    2.1  PHƯƠ NG PHÁP QUY HOẠCH ĐỘNG (DP)

    Thuật ngữ quy hoạch động liên quan đến tậ p các giải thuật đượ c sử dụng để 

    tính các chiến lượ c tối ưu vớ i mô hình về môi tr ườ ng hoàn hảo đượ c đưa ra. Các

    thuật toán DP cổ điển bị giớ i hạn trong RL cả về giả thiết một mô hình hoàn hảo

    về môi tr ườ ng và cả về phí tổn tính toán của nó tuy nhiên chúng vẫn đóng một

    vai trò quan tr ọng về lý thuyết. DP cung cấ p một nền tảng thiết yếu để hiểu đượ c

    các phươ ng pháp khác. Thực tế tất cả các phươ ng pháp khác ra đờ i đều vớ i mục

    đích là đạt đượ c cùng hiệu năng như phươ ng pháp DP vớ i ít chi phí tính toán hơ n

    và không cần giả thiết một mô hình hoàn hảo về môi tr ườ ng.

    Để áp dụng đượ c quy hoạch động, chúng ta phải sử dụng các giả thiết sau:

    -  Môi tr ườ ng có thể đượ c mô hình dướ i dạng một bài toán Markov hữu hạn. Ngh ĩ a là tậ p các tr ạng thái và hành động là hữu hạn, và tính động đượ c

    đưa ra là các khả năng chuyển đổi tr ạng thái.

    -  Mục tiêu tức thì đượ c k ỳ vọng:

    Phươ ng pháp quy hoạch động sử dụng các hàm giá tr ị để tổ chức và cấu trúc

    hóa phép tìm kiếm các chính sách tối ưu. Chúng ta có thể dễ dàng thu đượ c các

    chính sách tối ưu mỗi khi tìm thấy các hàm giá tr ị tối ưu, V* hoặc Q*, thỏa mãn

  • 8/19/2019 Phương Pháp Học Tăng Cường

    42/80

      41

     phươ ng trình tối ưu Bellman. Các thuật toán DP thu đượ c chính là nhờ  phép biến

    đổi phươ ng trình Bellman.

    Ví dụ vớ i mô hình DP cho tr ướ c chúng ta có thể tính các hàm giá tr ị  tối ưu

    một cách tr ực tiế p như hình vẽ minh họa sau đây:

    2.2  PHƯƠ NG PHÁP MONTE CARLO (MC)

    Các phươ ng pháp Monte Carlo thích hợ  p cho việc học từ  các kinh nghiệm

    trong đó không yêu cầu nhận thức tr ướ c đó về tính động của môi tr ườ ng. Chúng

    giải quyết bài toán quyết định dựa trên việc tính trung bình các giá tr ị phản hồi

    mẫu.

    Có hai kiểu phươ ng pháp Monte Carlo đượ c áp dụng để ướ c lượ ng Vπ(s) và

    Qπ(s,a) đó là phươ ng pháp MC kiểm tra toàn bộ và phươ ng pháp MC kiểm tra

    đầu tiên.

    Phươ ng pháp MC kiểm tra toàn bộ ướ c lượ ng Vπ(s) bằng trung bình các phản

    hồi sau tất cả các bướ c kiểm tra đối vớ i s. Qπ

    (s,a) đượ c ướ c lượ ng là trung bìnhcác phản hồi sau tất cả  các bướ c kiểm tra đối vớ i cặ p (s,a). Phươ ng pháp MC

    kiểm tra đầu tiên tính trung bình chỉ giá tr ị phản hồi sau bướ c kiểm tra đầu tiên

  • 8/19/2019 Phương Pháp Học Tăng Cường

    43/80

      42

    trong phép ướ c lượ ng Vπ(s) và Qπ(s,a). Cả hai phươ ng pháp này đều hội tụ đến

    Vπ(s) hoặc Qπ(s,a) như là số các bướ c thăm đến s hoặc cặ p (s,a).

     Đánh giá chiế n l ượ c sử  d ụng phươ ng pháp MC

     Lặ p vô hạn:

    (a) Tạo một đoạn mẫu sử dụng chiến lượ c đượ c ướ c lượ ng

    s0, a0; s1, a1, r 1; …;st, r t

    (b) Vớ i mỗi tr ạng thái s xuất hiện trong đoạn

    Chú ý r ằng khi tạo từng đoạn, tất cả các tr ạng thái phải có khả năng tươ ng

    đươ ng vớ i tr ạng thái bắt đầu. Nếu mô hình môi tr ườ ng không sẵn có thì sử dụng

    ướ c lượ ng các giá tr ị hành động tốt hơ n là ướ c lượ ng các giá tr ị tr ạng thái. Nếu

    có mô hình môi tr ườ ng thì các giá tr ị tr ạng thái đủ khả năng để quyết định chiến

    lượ c. Chúng ta không thể sử dụng các ướ c lượ ng giá tr ị tr ạng thái để quyết định

    chiến lượ c mà không có mô hình về môi tr ườ ng. Trong khi đó, chúng ta có thể sử  dụng các ướ c lượ ng giá tr ị hành động trong việc quyết định chiến lượ c mà

    không cần yêu cầu mô hình môi tr ườ ng.

    Vớ i một chiến lượ c π, chúng ta sẽ chỉ quan sát các giá tr ị phản hồi đối vớ i chỉ 

    một hành động tại mỗi tr ạng thái. Như vậy, ướ c lượ ng Monte Carlo của các tr ạng

    thái khác sẽ không cải tiến theo kinh nghiệm. Đây là một vấn đề quan tr ọng vì

    mục đích của các giá tr ị hành động học là giúp cho việc lựa chọn giữa các giá tr ị 

    có hiệu lực trong mỗi tr ạng thái.

    K ết quả  là chúng ta cần ướ c lượ ng giá tr ị  của tất cả  các hành động từ mỗi

    tr ạng thái. Để giải quyết vấn đề này, chúng ta có thể bắt đầu mỗi đoạn tại một

  • 8/19/2019 Phương Pháp Học Tăng Cường

    44/80

      43

    cặ p hành động - tr ạng thái, mọi cặ p như vậy sẽ có khả năng lựa chọn 0 khi bắt

    đầu. Giải pháp khác là sử dụng chiến lượ c ngẫu nhiên vớ i khả năng lựa chọn tất

    cả  các hành động khác 0. Điều này đảm bảo r ằng tất cả  các cặ p hành động –

    tr ạng thái sẽ đượ c kiểm tra một số  lần vô hạn trong giớ i hạn là có vô hạn các

    đoạn.

    Chiế n l ượ c t ố i ư u sử  d ụng phươ ng pháp MC

    Bắt đầu vớ i một chiến lượ c π ngẫu nhiên và Q(s,a) ngẫu nhiên

     Lặ p vô hạn:

    (a)  Tạo một đoạn mẫu sử dụng π vớ i khả năng lựa chọn tất cả các hành độnglà khác 0, độc lậ p vớ i π tại thờ i điểm bắt đầu: s0, a0; s1, a1, r 1; …;st, r t

    (b) Vớ i mỗi cặ p s, a xuất hiện trong đoạn

    (c) Vớ i mỗi s trong đoạn

    Tóm lại, một vấn đề chính trong khi sử dụng phươ ng pháp MC là đảm bảo r ằng

    tất cả các hành động đượ c lựa chọn không giớ i hạn. Để đảm bảo điều này, chúng

    ta sử dụng các chiến lượ c soft vớ i π(s,a) > 0 cho tất cả các tr ạng thái và hành

    động. Khả năng thực hiện có thể đượ c chuyển dần chiến lượ c hướ ng đến chiến

    lượ c tối ưu. Ví dụ, có thể áp dụng phươ ng pháp lựa chọn hành động ε-greeady và

    softmax để thực hiện khả năng trên.

  • 8/19/2019 Phương Pháp Học Tăng Cường

    45/80

      44

    2.2.1  Phươ ng pháp MC on-policy

    Trong phươ ng pháp này, chiến lượ c điều khiển tác tử sẽ đượ c cải thiện. Một

    chiến lượ c soft sử  dụng phươ ng pháp lựa chọn hành động ε-greeady là một

    chiến lượ c ngẫu nhiên vớ i:

    Chúng ta có thể thay đổi thuật toán cho chiến lượ c tối ưu vớ i giả sử r ằng phép

    lựa chọn tất cả các hành động độc lậ p vớ i π  tại thờ i điểm bắt đầu sử dụng cácchiến lượ c soft. Các chiến lượ c soft đảm bảo phép lựa chọn tất cả các hành động

    tại tất cả các bướ c.

    Bắt đầu vớ i một chiến lượ c soft bất k ỳ π và Q(s,a) bất k ỳ.

     Lặ p vô hạn:

    (a)  Tạo ra một đoạn sử dụng π: s0, a0; s1, a1, r 1;…;sT, r T

    (b) Vớ i mỗi cặ p s, a xuất hiện trong đoạn

    (c) Vớ i mỗi s trong đoạn

    Cho tất cả các hành động a:

  • 8/19/2019 Phương Pháp Học Tăng Cường

    46/80

      45

    2.2.2  Phươ ng pháp MC off-policy

    Trong phươ ng pháp này, chiến lượ c đượ c sử dụng để tạo hành vi khác so vớ i

    chiến lượ c đượ c ướ c lượ ng và cải tiến. Chiến lượ c đượ c sử dụng để tạo hành vi

    đượ c gọi là chiến lượ c hành vi và chiến lượ c khác đượ c gọi là chiến lượ c ướ c

    lượ ng.

    Một đặc điểm quan tr ọng của chiến lượ c hành vi đó là chiến lượ c cần phải có

    khả năng lựa chọn tất cả các hành động đượ c lựa chọn bở i chiến lượ c ướ c lượ ng

    là khác 0.

    2.3 

    PHƯƠ NG PHÁP TEMPORAL DIFFERENCE (TD)

    Phươ ng pháp này đượ c sử dụng để ướ c lượ ng các hàm giá tr ị. Nếu các hàm

    giá tr ị có thể tính toán mà không cần ướ c lượ ng, tác tử cần phải đợ i đến tận khi

    nhận đượ c giá tr ị phản hồi cuối cùng tr ướ c khi các giá tr ị của cặ p tr ạng thái-hành

    động đượ c cậ p nhật tươ ng ứng. Phươ ng pháp này đượ c biểu diễn hình thức như 

    sau:

    vớ i st là tr ạng thái đượ c xem xét tại thờ i điểm t, r t là giá tr ị phản hồi sau thờ i gian

    t và α là một hằng số.

    Mặt khác vớ i phươ ng pháp TD, một ướ c lượ ng của giá tr ị phản hồi cuối cùng

    đượ c tính tại mỗi tr ạng thái và giá tr ị  tr ạng thái-hành động đượ c cậ p nhật cho

    mọi bướ c. Biểu diễn hình thức:

    vớ i r t+1 là giá tr ị phản hồi thu đượ c tại thờ i điểm t+1.

  • 8/19/2019 Phương Pháp Học Tăng Cường

    47/80

      46

    Phươ ng pháp TD đượ c gọi là phươ ng pháp “tự cậ p nhật”, bở i vì giá tr ị đượ c

    cậ p nhật từng phần sử dụng một xấ p xỉ  tồn tại mà