PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

download PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

of 25

Transcript of PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    1/25

     

    HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄNTHÔNG 

    ---------------------------------------

    Nguyễn Hồng Hạnh 

    PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI

    DÙNG TỪ DỮ LIỆU WEB 

    Chuyên ngành: Truyền dữ liệu và mạng máy tính 

    Mã số: 60.48.15

    TÓM TẮT LUẬN VĂN THẠC SĨ 

    HÀ NỘI - 2013

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    2/25

     

    Luận văn được hoàn thành tại: 

    HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄNTHÔNG

     Người hướng dẫn khoa học: PGS.TS Từ Minh Phương 

    Phản biện 1: ……………………………………………… 

    Phản biện 2: ……………………………………………... 

    Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn

    thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông  

    Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm .......

    Có thể tìm hiểu luận văn tại: 

    - Thư viện của Học viện Công nghệ Bưu chính  Viễnthông

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    3/25

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    4/25

    2

    Chƣơ ng 1  –  TỔNG QUAN VỀ PHÂN TÍCH Ý KIẾN

    CHỦ QUAN Chương 1 giới thiệu tổng quan về vấn đề phân tích ý kiến,khái niệm và một số khó khăn trong quá trình phân tích ý kiến.Tiếp đến là một số dạng phân tích ý kiến như: phân loại ý kiến, phân tích cảm nhận của người dùng trên từng đặc tính của sản phẩm, xác định xu hướng tình cảm từ các câu so sánh giữa các sản phẩm, và một số nghiên cứu thực tế về các dạng này đãđược công bố.

     

    1.1. 

    Phân tích ý kiến 1.1.1.

     Giới thiệu Thông tin có thể được chia ra làm hai loại chính, là sự

    thật và ý kiến. Sự thật là những phát biểu khách quan về cácthực thể và sự kiện trong thế giới. Ý kiến là những phát biểuchủ quan phản ánh tình cảm và nhận thức của con người vềnhững thực thể và sự kiện đó. Nội dung chính của nhiệm vụ

     phân tích ý kiến chủ quan (opinion mining) hay còn được gọi là phân tích xu hướng tình cảm (sentiment analysis) này là phântích những văn bản chứa ý kiến nhận xét đánh giá của người sửdụng về một đối tượng để xác định những ý kiến đó là tích cực,tiêu cực hay trung lập. 1.1.1.1

     

    Khái niệm và mô hình phân tích ý kiến Giống bất kỳ vấn đề khoa học nào, trước khi giải quyết

    nó chúng ta cần định nghĩa hoặc mô hình hóa vấn đề. Việc mô

    hình hóa này sẽ đưa ra các định nghĩa cơ bản, khái niệm cốt lõivà các vấn đề cũng như các đối tượng mục tiêu. Chúng ta sửdụng thuật ngữ đối tượng để gọi thực thể mục tiêu được nhậnxét. Một đối tượng có thể có một tập hợp các thành phần, vàthuộc tính, chúng ta gọi chung là đặc tính của nó.  

    Đối tƣợng: một đối tượng o là một thực thể, có thể là sản phẩm, con người, sự kiện, tổ chức hoặc một chủ đề. Nó gắnliền với một cặp o: (T, A), trong đó T là một phân cấp các

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    5/25

    3

    thành phần, thành phần con, và A là tập thuộc tính của o. Mỗithành phần lại có tập thành phần và thuộc tính của riêng nó. 

    Gọi một tài liệu ý kiến là d, có thể là nhận xét sản phẩm,một bài viết trên diễn đàn, hoặc một bài nhật ký cá nhân, đánhgiá một tập các đối tượng. Trong trường hợp tổng quát nhất, d bao gồm một chuỗi các câu d = < S1, S2, S3…,Sm>.

    Đoạn ý kiến về một đặc tính: một đoạn ý kiến về đặctính f của đối tượng o đánh giá trong d là một nhóm các câu nốitiếp nhau trong d thể hiện ý kiến tích cực hoặc tiêu cực về f.  

    Đặc tính ẩn và đặc tính rõ ràng: nếu một đặc tính f

    hoặc từ đồng nghĩa của nó xuất hiện trong một câu s, f đượcgọi là đặc tính rõ ràng. Nếu không có f hay từ đồng nghĩa củanó xuất hiện, nhưng lại ám chỉ f thì mó được gọi là một đặctính ẩn trong câu s.

    Ngƣời giữ ý kiến: là một người hoặc tổ chức đưa ra ýkiến đó. Người giữ ý kiến cũng được gọi là nguồn ý kiến.  

    Ý kiến và xu hƣớng ý kiến: Ý kiến về đặc tính f là mộtquan điểm, thái độ, tình cảm hay sự đánh giá tích cực hoặc tiêu

    cực về f của một người nắm giữ ý kiến. Xu hướng ý kiến củamột ý kiến về đặc tính f chỉ ra rằng ý kiến đó là tích cực, tiêucực, hay trung lập. 

    Bây giờ, chúng ta sẽ kết hợp tất cả lại để định nghĩa môhình phân tích ý kiến dựa trên đặc tính. 

    Mô hình của một đối tượng o được biểu diễn bởi một tậphữu hạn các đặc tính F={f 1, f 2,…f n}, chứa đối tượng như một

    đặc tính đặc biệt. Mỗi đặc tính f i  Є F có thể được thể hiện với bất kỳ một trong tập hữu hạn từ hoặc cụm từ Wi  = {Wi1,Wi2,…Wim} là từ đồng nghĩa của đặc tính, hoặc ám chỉ bởi mộttrong tập từ chỉ đặc tính ii={ii1, ii2,…iiq} của đặc tính. 

    Mô hình một văn bản ý kiến: một văn bản ý kiến d chứacác ý kiến về tập các đối tượng { o1, o2, …, oq} từ tập ngườiđưa ra ý kiến {h1, h2, …, h p}. Ý kiến về mỗi đối tượng o j đượcthể hiện trên một tập con F j đặc tính của o j. Một ý kiến có thể là

    một trong hai loại sau: 

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    6/25

    4

      Ý kiến trực tiếp: Một ý kiến trực tiếp là một bộ 5 ( o j, f  jk ,ooijkl, hi, tl) trong đó o j là một đối tượng, f  jk  là một đặc tínhcủa đối tượng o j, ooijkl là xu hướng hoặc thái cực của ý kiếnvề đặc tính f  jk  của đối tượng o j, hi là người đưa ra ý kiến vàtl  là thời gian mà ý kiến được thể hiện bởi hi. Xu hướng ýkiến ooijkl có thể là tích cực, tiêu cực, hoặc trung tính.

     

    Ý kiến so sánh: Một ý kiến so sánh thể hiện một quan hệtương đồng hoặc khác biệt giữa hai hoặc nhiều đối tượng,hoặc sở thích của người nắm ý kiến dựa trên một vài đặctính chung giữa hai đối tượng.

    Mục đích của việc phai phá các ý kiến trực tiếp: Chomột tài liệu ý kiến d, (1) phát hiện ra tất cả các bộ 5 ý kiến ( o j,f  jk , ooijkl, hi, tl) trong d, và (2) xác định tất cả những từ đồngnghĩa (W jk ) và các từ chỉ đặc tính i jk  của mỗi đặc tính f  jk  trongd.

    Câu chủ quan: Một câu khách quan thể hiện một vài thôngtin thực tế về thế giới, trong khi câu chủ quan thể hiện cảm giáchoặc niềm tin của một cá nhân.

    Ý kiến rõ ràng và ý kiến không rõ ràng: Một ý kiến rõràng về đặc tính f là một ý kiến được thể hiện một cách rõ ràngvề f trong một câu chủ quan. Một ý kiến không rõ ràng về đặctính f là một ý kiến được ám chỉ trong một câu khách quan.  

    Câu có ý kiến: một câu có ý kiến là câu thể hiện rõ rànghoặc ám chỉ ý kiến tích cực hay tiêu cực. 1.1.1.2

     

    Nhu cầu thông tin về ý kiến 

    1.1.1.3 

    Các ứng dụng với phân tích ý kiến - 

    Ứng dụng cho các trang web liên quan đến việc đánh giá  -  Ứng dụng như một công nghệ thành phần - 

    Ứng dụng trong kinh doanh và chính phủ thông minh  -  Ứng dụng trên các miền lĩnh vực khác nhau 1.1.2.

     Các thách thức trong phân tích ý kiến 1.1.2.1. Tƣơng quan với việc phân tích văn bản truyền

    thống 

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    7/25

    5

    Thường thì phân loại văn bản sẽ tìm ra là phân văn bảnthành các nhóm chủ đề khác nhau, và có thể có rất nhiều nhóm.  Với nhiệm vụ như vậy, chúng ta có thể phải giải quyết với ítnhất là hai loại (phân loại nhị phân) hoặc hàng nghìn loại. Ngược lại, với phân loại xu hướng ý kiến, chúng ta thường cótương đối ít loại (tích cực, tiêu cực) được tạo ra từ miền ứngdụng hoặc người dùng. Thêm nữa, khi các loại khác biệt trong phân loại theo chủ đề có thể hoàn toàn không liên quan đếnnhau, còn các nhãn ý kiến đã được xem xét trong một sốnghiên cứu thì hoàn toàn trái ngược nhau (nếu nhiệm vụ là

     phân loại nhị phân), hoặc là các loại được đánh số - tính điểm(nếu việc phân loại dựa trên nhiều yếu tố).1.1.2.2. Các thách thức về mặt kỹ thuật - 

    Xác định đối tượng - 

    Trích chọn đặc tính và nhóm các từ đồng nghĩa  - 

    Phân loại xu hướng ý kiến - 

    Tích hợp 1.1.2.3. Thách thức khi xây dựng ứng dụng - 

     Nếu ứng dụng được  tích hợp vào một cơ chế tìm kiếm đanăng thì cần phải xác định xem người dùng có thực sự tìmkiếm dữ liệu mang tính chủ quan hay không  

    Xác định tài liệu hoặc phần tài liệu chứa ý kiến đánh giá - 

    Xác định xu hướng ý kiến tổng thể được thể hiện trongđoạn tài liệu chứa ý kiến 

    Biểu diễn thông tin ý kiến phân tích được dưới một dạng

    hợp lý 1.2.  Một số dạng phân tích ý kiến 1.2.1.  Phân loại ý kiến khách quan –  chủ quan, tích cực

     –  tiêu cực Dạng này xem phân tích ý kiến như là một vấn đề phân loại

    văn bản. Hai chủ đề nhỏ đã được nghiên cứu mở rộng gồm: 1 –  Phân loại văn bản chứa ý kiến có thể hiện ý kiến tích cực haytiêu cực, 2 –   phân loại một câu hoặc một mệnh đề của câu là

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    8/25

    6

    chủ quan hay khách quan, và một câu hoặc một mệnh đề chủquan xem nó thể hiện ý kiến tích cực, tiêu cực, hay trung lập.1.2.2.

     Tổng hợp phân tích ý kiến dựa trên đặc tính sản phẩm 

    Mô hình này trước tiên sẽ khám phá các đối tượng được thểhiện ý kiến trong một câu, và sau đó xác định xem ý kiến làtích cực, tiêu cực, hay trung lập. Mục tiêu nhận xét là các đốitượng và thành phần của nó, đặc tính chức năng… Một đốitượng có thể là một sản phẩm, dịch vụ, một cá nhân hay tổchức nào đó, một sự kiện, một chủ đề v.v. Cụ thể, trong một

    câu nhận xét một sản phẩm, nó xác định các đặc điểm của sản phẩm đã được nhận xét và xác định xem nhận xét đó tích cựchay tiêu cực. 1.2.3.  Phân tích ý kiến dựa trên các câu so sánh 

    Việc đánh giá đối tượng có thể thực hiện theo hai cáchchính, trực tiếp thẩm định hoặc so sánh. Trực tiếp thẩm định,gọi là ý kiến trực tiếp, đưa ra ý kiến tích cực, tiêu cực và đốitượng mà không nhắc tới các đối tượng tương tự khác. So sánhcó nghĩa là so sánh đối tượng với các đối tượng tương tự ( nhưcác sản phẩm cạnh tranh). 1.3.

      Một số nghiên cứu phân tích ý kiến đã có  Nghiên cứu về khai phá ý kiến bắt đầu với việc xác định

    các từ thể hiện ý kiến (hoặc cảm nhận) như: tốt, tuyệt, tuyệtvời, chán, dở … Rất nhiều nhà nghiên cứu đã làm việc khai phácác từ như vậy và xác định xu hướng ngữ nghĩa của chúng (tích

    cực hay tiêu cực). Trong [9], các tác giả xác định một vài quytắc ngữ pháp có thể dùng để xác định các từ chỉ ý kiến và xuhướng ngữ nghĩa của chúng từ một tập dữ liệu lớn. Sự pháttriển tiếp theo là phân loại cảm nhận các nhận xét về sản phẩmở mức văn bản. Mục tiêu của nhiệm vụ này là phân loại mỗi bài phê bình xem chúng thể hiện cảm nhận tích cực hay tiêucực về một đối tượng nào đóMột vài nhà nghiên cứu cũng thựchiện việc phân loại cảm nhận ở mức câu, xem mỗi câu thể hiệntình cảm tích cực hay tiêu cực.  

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    9/25

    7

    Chƣơng 2 –   CÁC PHƢƠNG PHÁP PHÂN TÍCH ÝKIẾN SỬ DỤNG KỸ THUẬT PHÂN LOẠI VÀ XỬ

    LÝ NGÔN NGỮ TỰ NHIÊN Cách tiếp cận chủ yếu 

    trong nhiều ứng dụng khai phá ýkiến hiện nay là

     

    dựa trên 

    kỹ thuật phân loại 

    văn bản. Nội dungcủa chương 

     

    2 bao gồm một số kỹ thuật phân tích ý kiến dựatrên các phương pháp phân loại: phân loại ý kiến ở mức vănbản, mức câu, và kỹ thuật sinh bộ từ vựng ý kiến dùng để phântích ý kiến.

     

    2.1. Phân loại ý kiến mức văn bản 

    Cho một tập văn bản ý kiến D, nhiệm vụ phân loại xácđịnh xem mỗi văn bản d Є D có thể hiện một ý kiến tích cựchay tiêu cực về một đối tượng hay không. Một cách hình thức,nhiệm vụ được định nghĩa như sau: 

    Cho một văn bản ý kiến d nhận xét về đối tượng o, xácđịnh xu hướng mà ý kiến thể hiện về o, cụ thể, khám phá ra xuhướng ý kiến oo về đặc tính f trong bộ năm (o, f, so, h, t), trong

    đó f=o, và h, t, o được giả sử là đã biết hoặc không liên quan. 

    2.1.1. Phân loại dựa trên học có giám sát  Phân loại, hay phân lớp, ý kiến là một trường hợp riêng  

    của học có giám sát (supervised learning), trong đó các đoạn bình luận hoặc câu chứa ý kiến có thể nhận một trong hai nhãn phân loại:“tích cực”, “tiêu cực” (một số phát biểu cho phép phân biệt thêm nhãn “trung tính”). Quá trình phân loại đượcthực hiện theo các bước được mô tả sau đây. 

    - Thu thập dữ liệu về nhận xét đánh giá từ các trang web, gánnhãn phân loại cho dữ liệu - Huấn luyện bộ phân loại trên dữ liệu đã chuẩn bị: lựa chọn kỹthuật phân loại và trích chọn đặc trưng. Quá trình huấn luyệnđược lặp đi lặp lại nhiều lần để có được mô hình tốt nhất. - Hiệu năng của mô hình phân loại sau đó được đánh giá bởitập dữ liệu kiểm tra đã chuẩn bị. 2.1.1.1. Mô hình ngôn ngữ n-gram

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    10/25

    8

     Nhiệm vụ của mô hình ngôn ngữ là cho biết xác suất củamột câu w  1 w  2 ...w  m   là bao nhiêu. Theo công thức Bayes:P(AB) = P(B|A) * P(A), thì:

    P(w  1w  2…w  m) = P(w  1) * P(w  2|w  1) * P(w  3|w  1w  2) *…*P(w  m|w  1w  2…w  m-1)

    Theo công thức này, mô hình ngôn ngữ cần phải có mộtlượng bộ nhớ vô cùng lớn để có thể lưu hết xác suất của tất cảcác chuỗi độ dài nhỏ hơn m. Rõ ràng, điều này là không thể khim là độ dài của các văn bản ngôn ngữ tự nhiên (m có thể tiếntới vô cùng). Để có thể tính được xác suất của văn bản với

    lượng bộ nhớ chấp nhận được, ta sử dụng xấp xỉ Markov bậc n:P(w  m|w  1,w  2,…, w  m-1) = P(w  m|w  m-n,w  n-m+1, …,w  m-1) Nếu áp dụng xấp xỉ Markov, xác suất xuất hiện của một

    từ (w  m) được coi như chỉ phụ thuộc vào n từ đứng liền trước nó(w  m-nw  m-n+1…w  m-1) chứ không phải phụ thuộc vào toàn bộ dãytừ đứng trước (w  1w  2…w  m-1). Như vậy, công thức tính xác suấtvăn bản được tính lại theo công thức: 

    P(w  1w  2…w  m) = P(w  1) * P(w  2|w  1) * P(w  3|w  1w  2) *…*P(w  m-1|w  m-n-1w  m-n …w  m-2)* P(w  m|w  m-nw  m-n+1…w  m-1)

    Với công thức này, ta có thể xây dựng mô hình ngôn ngữdựa trên việc thống kê các cụm có ít hơn n+1 từ. Mô hình ngônngữ này gọi là mô hình ngôn ngữ N-gram. 

    Một cụm N-gram là một dãy con gồm n phần tử liên tiếpcủa 1 dãy các phần tử cho trước (trong bộ dữ  liệu huấn luyện),và cụm ngram này không nhất thiết phải có nghĩa. 

    Ví dụ: cụm 2-gram “hát của” thuộc câu “Giọng hát của côấy thật điêu luyện”.Các phần tử được xét ở đây thường là kí tự, từ hoặc cụm

    từ; tùy vào mục đích sử dụng. Dựa vào số phần tử của 1 cụm N-gram, ta có các tên gọi cụ thể: N = 1: Unigram; N = 2:Bigram; N = 3: Trigram

    2.1.1.2. Phân loại Naïve Bayes Phân loại Naïve Bayes sử dụng trong trường hợp mỗi ví

    dụ được cho bằng tập các thuộc tính và cần xác

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    11/25

    9

    định nhãn phân loại y, y có thể nhận giá trị từ một tập nhãn hữuhạn C.

    Trong giai đoạn huấn luyện, dữ liệu huấn luyện đượccung cấp dưới dạng các mẫu . Sau khi huấn luyện xong, bộ phân loại cần dự đoán nhãn cho mẫu mới x.

    Theo lý thuyết học Bayes, nhãn phân loại được xác định bằng cách tính xác suất điều kiện của nhãn khi quan sát thấy tổhợp giá trị thuộc tính . Thuộc tính được chọn,ký hiệu cMAP là thuộc tính có xác suất điều kiện cao nhất (MAPlà viết tắt của maximum a posterior), tức là: 

    = =     ,,… ,) Sử dụng quy tắc Bayes, biểu thức trên được viết lại nhưsau:

    =  ∈ , ,… ,  ( )(, ,… , )  =  ∈ , ,… ,  ( ) 

    Hai thành phần trong biểu thức trên được tính từ dữ liệu

    huấn luyện. Giá trị P(c j) được tính bằng tần suất quan sát thấynhãn cj trên tập huấn luyện, tức là bằng số mẫu có nhãn là c j chia cho tổng số mẫu. Việc tính P(x1,x2,…,xn|c j) khó khăn hơnnhiều. Vấn đề là số tổ hợp giá trị của n thuộc tính cùng vớinhãn phân loại là rất lớn khi n lớn. Để tính xác suất này đượcchính xác, mỗi tổ hợp giá trị thuộc tính phải xuất hiện cùngnhãn phân loại đủ nhiều, trong khi số mẫu huấn luyện thường

    không đủ lớn.Để giải quyết vấn đề trên, ta giả sử các thuộc tính là độclập về xác suất với nhau khi biết nhãn phân loại c j. Trên thựctế, các thuộc tính thường không độc lập với nhau như vậy,chẳng hạn đối với ví dụ chơi tennis, khi trời nắng  thì xác suấtnhiệt độ cao cũng lớn hơn. Chính vì dựa trên giả thiết độc lậpxác suất đơn giản như vậy nên phương pháp có tên gọi “Bayesđơn giản”. Tuy nhiên, như ta thấy sau đây, giả thiết như vậy

    cho phép tính xác suất điều kiện đơn giản hơn nhiều và  trên

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    12/25

    10

    thực tế phân loại Bayes có độ chính xác tốt trong rất nhiều ứngdụng. 

    Với giả thiết về tính độc lập xác suất có điều kiện có thểviết: , ,… , |  = | | …(,  ) 

    Tức là xác suất đồng thời quan sát thấy các thuộc tính   bằng tích xác suất điều kiện của từng thuộc tính riêng lẻ. Thayvào biểu thức ở trên, ta được bộ phân loại Naïve Bayes (có đầura ký hiệu là C NB như sau): 

    =

      

     (

    |

     ) 

    Trong đó P(xi|c j) được tính từ dữ liệu huấn luyện bằng sốlần xi  xuất hiện cùng với c j chia cho số lần xi xuất hiện. Việctính xác suất này đòi hỏi ít dữ liệu hơn nhiều so với tính P(x1,x2, …, xn | c j).

    Quá trình học Bayes đơn giản là quá trình tính các xácsuất P(c j) và các xác suất điều kiện P(xi|c j)  bằng cách đếm trêntập dữ liệu. 

    2.1.1.3. Phân loại máy vector tựa (Support VectorMachines)Máy vec tơ tựa (SVM) là kỹ thuật học máy được xây

    dựng cho bài toán phân loại nhị phân, tức là mỗi ví dụ có thểnhận một trong hai nhãn. Các ví dụ phải được biểu diễn bằngthuộc tính liên tục, và do vậy mỗi ví dụ tương ứng với một vectơ trong không gian. SVM dựa trên hai nguyên tắc chính sau: 

    - SVM tìm cách phân chia ví dụ có nhãn khác nhau bằng

    một siêu phẳng sao cho khoảng cách từ siêu phẳng tới những vídụ có nhãn khác nhau là lớn nhất. Nguyên tắc này được gọi lànguyên tắc lề cực đại (max margin). Trong quá trình huấnluyện, thuật toán SVM xác định siêu phẳng có lề cực đại bằngcách giải bài toán tối ưu cho một hàm mục tiêu bậc 2.

    - Để giải quyết trường hợp các ví dụ không thể phân chia bằng một siêu phẳng, phương pháp SVM sẽ ánh xạ không gian

     ban đầu của các ví dụsang một không gian khác thường là cósố chiều cao hơn, sau đó tìm siêu phẳng với lề cực đại trong

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    13/25

    11

    không gian này. Để tăng tính hiệu quả khi ánh xạ, một kỹ thuậtđược sử dụng là kỹ thuật dùng hàm nhân (kernel function) thaycho tích có hướng của các vec tơ. Có 4 hàm kernel phổ biếnđược đề cập trong thuật toán SVM là: 

    Linear   Radial basis function (RBF) Polyminal Sigmoid 

    2.1  .2. Phân loại dựa trên học không giám sát  2.1.2.1. Sử dụng bộ từ vựng 

    Phương pháp trong [33] thực hiện phân loại dựa trên mộtvài cụm từ cú pháp cố định có khả năng được dùng để bày tỏ ýkiến trong tiếng Anh. Thuật toán bao gồm ba bước: 

    Bƣớc 1: Trích chọn các cụm từ chứa tính từ và trạng từ.Lý do để làm điều này là nghiên cứu đã chứng tỏ rằng tính từvà trạng từ là những từ chỉ báo rất tốt về ý kiến và tính chủquan. Tuy nhiên, mặc dù tính từ độc lập có thể chỉ báo tính chủquan, nhưng có thể ngữ cảnh không đủ để xác định xu hướngngữ nghĩa của nó. Do đó, một thuật toán trích chọn hai từ liềnnhau, trong đó một từ trong cặp là một tính từ/ trạng từ còn từkia là từ chỉ ngữ cảnh. Hai từ liền nhau được trích chọn nếuPOS tag của chúng phù hợp với mẫu trong bảng dưới đây. Vídụ, mẫu trong dòng 2 nghĩa là 2 từ liền nhau được trích chọnnếu từ đầu tiên là trạng từ và từ thứ hai là tính từ nhưng từ thứ3 (không được trích chọn) không phải là danh từ. 

    Bảng 2. 1: Bảng quy tắc trích chọn từ loại Từ thứ nhất   Từ thứ hai  Từ thứ ba (không đượctrích chọn) 

    Tính từ  Danh từ  Bất cứ từ loại nào Trạng từ  Tính từ  Không phải danh từ Tính từ  Tính từ  Không phải danh từ Danh từ  Tính từ  Không phải danh từ Trạng từ  Động từ  Bất cứ từ loại nào 

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    14/25

    12

    Bƣớc 2:  Ước lượng xu hướng của các cụm từ đã tríchchọn bằng cách sử dụng công thức tính pointwise mutualinformation (PMI) như sau: 

    , = ∩ () Trong đó: Pr(term1 ∩  term2) là xác suất xuất hiện đồng thời của

    term1 và term2Pr(term1)Pr(term2) là xác suất xuất hiện đồng thời nếuterm1 và term2 độc lập.

    Do đó Pr(term1 ∩  term2) và Pr(term1)Pr(term2) là một phép đo mức độ độc lập thống kê giữa chúng. Hàm log của tỉsố này là lượng thông tin chúng ta lấy được về sự có mặt củamột từ khi quan sát từ còn lại. 

    Xu hướng ý kiến (oo) của một cụm từ được tính dựa trênquan hệ của nó với từ tham chiếu tích cực, như “excellent”, vàvới từ tham chiếu tiêu cực, ” poor ”:

    oo(term)= PMI(term, “excellent”) −PMI(term, “poor”).  (2) Các xác suất được tính bằng cách sử dụng câu truy vấn đểtìm kiếm và thu thập số lần xuất hiện của từ. Với mỗi tìm kiếmtruy vấn, một cơ chế tìm kiếm thường cho số lượng các tài liệucó liên quan đến truy vấn, ta lấy số này làm số lần xuất hiệncủa từ/cụm từ. Do đó, bằng cách tìm kiếm 2 từ đồng thời, vàriêng biệt, chúng ta có thể tính được các xác suất trong biểuthức 1. 

    Bƣớc 3:  cho một bài đánh giá, thuật toán tính oo trung bình của tất cả các cụm từ trong bài, và phân loại nó thành “nêndùng” (tích cực) nếu oo tính được dương hoặc “không nêndùng” (tiêu cực) nếu oo âm. 2.1.2.2. Một số phƣơng pháp không giám sát khác 2.2. Phân loại ý kiến ở mức câu 

     Nhiệm vụ: Cho một câu s, hai nhiệm vụ con sau đây đượcthực hiện: 

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    15/25

    13

      (1) Phân loại tính chủ quan: xác định xem s là câuchủ quan hay câu khách quan 

      (2) Phân loại ý kiến cho câu chủ quan: Nếu s làchủ quan, xác định xem nó thể hiện ý kiến tích cựchay tiêu cực. 

    2.2.1. Xác định câu mang ý kiến chủ quan Công việc phân loại xu hướng tình cảm thường giả sử

    rằng tài liệu đầu vào là tài liệu mang ý kiến chủ quan. Tuynhiên, với khá nhiều ứng dụng chúng ta cần xác định xem tàiliệu đã có chứa thông tin chủ quan hay không, hoặc xác định

     phần nào của tài liệu là chủ quan. Các kỹ thuật như  SupportVector Machine, hay Navie Bayes cũng có thể áp dụng để thựchiện nhiệm vụ phân loại ý kiến này. 2.2.2. Phân tích xu hướng cho câu ý kiến chủ quan 

    Công việc này được phát biểu như sau: Cho một đoạn văn bản chứa ý kiến, giả sử rằng trong đó toàn bộ ý kiến nói về mộtvấn đề hoặc sự vật nào đó, phân loại ý kiến thành một trong haicực tình cảm trái ngược nhau (thích, không thích), hoặc xem nóở mức độ nào giữa hai cực đó. Các kỹ thuật học máy cũng cóthể áp dụng cho nhiệm vụ này. 2.3. Kỹ thuật sinh ra bộ từ vựng ý kiến 

    Để thu thập danh sách từ ý kiến, 3 phương pháp chính đãđược nghiên cứu: thủ công, dựa trên từ điển, và dựa trên văn bản. Phương pháp thủ công rất tốn thời gian và do dó thườngkhông được dùng riêng mà được kết hợp với một phương pháp

    tự động nào đó như bước kiểm tra cuối cùng vì các phương pháp tự động có thể gây ra lỗi. Sau đây chúng ta bàn về hai phương pháp tự động. 2.3.1. Kỹ thuật dựa trên từ điển 

    Một trong các kỹ thuật đơn giản nhất của phương phápnày dựa trên bootstrapping sử dụng một tập nhỏ từ ý kiến vàmột từ điển trực tuyến, như WordNet [8]. Đầu tiên thu thậpmột lượng nhỏ các từ ý kiến một cách thủ công với xu hướng ýkiến đã biết, và sau đó phát triển tập từ vặng này lên bằng cách

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    16/25

    14

    tìm kiếm trong WordNet các từ đồng nghĩa và trái nghĩa củachúng. Từ mới tìm được sẽ được thêm vào danh sách từ vựng.Và cứ lặp lại như vậy. Quá trình kết thúc khi không tìm thêmđược từ mới nào nữa. 2.3.2. Kỹ thuật dựa trên quan hệ từ và tính nhất quán 

    Các phương pháp thuộc loại này phụ thuộc vào từ đồngnghĩa hoặc các mẫu xuất hiện đồng thời, và cả một danh sáchtừ ý kiến ban đầu để tìm ra các từ ý kiến khác trong một tậpvăn bản lớn. Một trong những ý tưởng chính được đưa ra bởi  Hazivassiloglou và McKeown. Kỹ thuật bắt đầu mới một danh

    sách các tính từ ý kiến, và dùng chúng cùng với một số ràng buộc ngôn ngữ (hay quy ước) về kết nối để xác định các tính từý kiến bổ sung là xu hướng của chúng. Một trong các ràng buộc là về liên từ “và” chỉ ra rằng các tính từ được kết nốithường có chung một xu hướng  tình cảm. Các quy tắc hoặcràng buộc cũng được thiết kế cho các liên từ khác như “hoặc”,“nhưng”… 2.4. Phân loại dựa trên thông tin quan hệ 2.4.1. Quan hệ giữa các câu và các văn bản 

    Một đặc trưng cơ bản của phân loại ý kiến mức văn bảnlà một văn bản có thể gồm nhiều đơn vị văn bản nhỏ hơn (nhưcác đoạn văn hay câu) với những nhãn phân loại khác nhau,thậm chí là trái ngược nhau, trong đó nhãn phân loại tổng thểcủa toàn bộ văn bản là một hàm tập hợp các nhãn phân loại ởmức thành phần của nó. Do đó, như một biện pháp thay thế

    xem một văn bản như một túi đặc tính, có nhiều nỗ lực đã đượcthực hiện để mô hình cấu trúc của văn bản theo phân tích vềcác đơn vị thành phần văn bản, và để chỉ ra tính hữu ích củamối quan hệ giữa các đơn vị này để có được nhãn phân loạitổng thể cho toàn bộ văn bản một cách chính xác hơn. Việc môhình hóa các quan hệ giữa những đơn vị thành phần văn bảnnày cũng có thể dẫn tới việc gán nhãn phân loại từng thành phần tốt hơn. 2.4.2. Quan hệ giữa các thành phần thảo luận 

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    17/25

    15

    Một điều thú vị trong phân tích ý kiến là khi các văn bảnđược phân tích tạo thành một phần của một một cuộc bàn luận,như trong trường hợp các lượt trong tranh luận chính trị, các bài viết trên diễn đàn tranh luận, hay các nhận xét trong mỗi bài viết của cá nhân. Việc sử dụng các quan hệ này có thể đặc biệt hữu ích vì rất nhiều văn bản trong các trường hợp chúng tađã nói có thể rất phức tạp, và do đó rất khó phân loại, nhưngchúng ta có thể dễ dàng phân loại một văn bản phức tạp nếuchúng ta tìm được trong đó các từ chỉ báo về sự đồng tình vớimột văn bản chỉ rõ xu hướng tích cực hay tiêu cực.  

    2.4.3. Quan hệ giữa các đặc tính của sản phẩmPopescu và Etzioni xem việc gán nhãn các từ ý kiến liênquan đến đặc tính sản phẩm như một quá trình gán nhãn tậpthể. Họ đưa ra một thuật giải lặp trong đó việc gán xu hướngcho mỗi từ riêng biệt được điều chỉnh tập thể thông qua mộtquá trình gán nhãn nới lỏng. Bắt đầu từ  các nhãn từ “global”được tính toán trên một tập văn bản thể hiện xu hướng tình cảmcho mỗi từ cụ thể trong các trường hợp chung, Popescu vàEtzioni dần dần định nghĩa lại nhãn từ một nhãn chung tới mộtnhãn riêng cho một văn bản đánh giá, rồi tới một nhãn riêngcho một đặc tính sản phẩm, và cuối cùng tới một nhãn riêngcho ngữ cảnh cụ thể mà từ đó xuất hiện. Họ đảm bảo xem xétcác ràng buộc cụ bộ ở mức câu mà ý kiến được kết nối bởi cácquan hệ từ như “nhưng”, “hoặc”, “và” để phân loại thành cùngloại hay loại đối ngược. 

    Trên đây em đã trình này những kỹ thuật phân tích ý kiến,gồm cả có giám sát và không giám sát. Chương sau của luậnvăn sẽ tiến hành thử nghiệm một số ý tưởng từ các kỹ thuật nàyđể xem xét tính hiệu quả của chúng.  

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    18/25

    16

    Chƣơng 3 –  THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1. Mô hình phân tích ý kiến lựa chọn 

    3.1.1. Mô hình thử nghiệm 

    Hình 3. 1: Mô hình phân tích ý kiến Hình 3.1 mô tả quá trình phân tích ý kiến ở mức câu:  - 

    Bước 1: Tiến hành thu thập dữ liệu nhận xét của ngườidùng.

    Bước 2: Phân loại nhận xét thành hai loại chủ quan, kháchquan

    -  Bước 3: Phân tích xu hướng ý kiến cho các câu ý kiến chủquan đã được phân loại ở bước 2 là ý kiến tích cực hay tiêucực. Luận văn sẽ tập trung kiểm nghiệm các phương pháp phân tích ý kiến có giám sát và cả không giám sát cho bước này. Cụ thể, hai thuật toán phân loại học máy NaïveBayes và Support Vector Machine kết hợp với mô mình

    ngôn ngữ ngram đã được nói đến ở chương 2 sẽ được sửdụng, và phương pháp dựa trên bộ từ vựng.  - 

    Đối với phƣơng pháp học máy có giám sát, luận văn sửdụng WEKA làm thư viện để giải quyết việc phân loại nhị phân ý kiến tích cực/ tiêu cực. WEKA đã có tích hợp sẵnrất nhiều thuật toán phân loại như Naïve Bayes, cây quyếtđịnh, SVM…Tuy nhiên, ngoài thuật toán Naïve Bayes cósẵn, để hiệu quả hơn, luận văn tích hợp thêm thư viện 

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    19/25

    17

    libSVM vào WEKA để sử dụng cho thuật toán phân loạiSVM, với hàm nhân lựa chọn là Radial Basic Function.  

    Đối với phƣơng pháp dựa trên bộ từ vựng không giámsát, để xác định xu hướng ý kiến của mỗi câu, 3 nhiệm vụnhỏ được thực hiện. Thứ nhất, một tập các tính từ (thườngđược dùng để thể hiện ý kiến, tình cảm) được xác định bằng cách sử dụng phương pháp xử lý ngôn ngữ tự nhiên. Những từ này sẽ được gọi là từ ý kiến. Thứ hai, với mỗi từđó, ta xác định xu hướng ngữ nghĩa của nó, tích cực (thích)hay tiêu cực (không thích). Cuối cùng, dựa trên xu hướng

    ngữ nghĩa từng từ, xác định xu hướng ngữ nghĩa của cảcâu. Chi tiết cụ thể các bước trong phương pháp này sẽđược trình bày ở phần 3.2. 

    3.1.2. Dữ liệu sử dụng  Dữ liệu luận văn sử dụng là một tập các câu nhận xét

    thuộc nhiều chủ đề (sản phẩm, công nghệ, người nổi tiếng …)được thu thập trên các diễn đàn mạng và báo điện tửVnExpress, Vietnamnet, Dantri. Mỗi câu được đặt trong mộtfile riêng và được gán nhãn phân loại là tích cực (pos) hoặctiêu cực (neg). Tập dữ liệu sau quá trình gán nhãn như sau:  

    - Tổng số: 2940 câu ý kiến - Tích cực (pos): 1684 câu - Tiêu cực (neg): 1256 câu 

    3.2. Các thủ tục phân tích ý kiến ở mức câu 3.2.1. Xây dựng bộ từ vựng  

    Trong luận văn này, em sử dụng một phương pháp đơngiản bằng cách xây dựng thủ công bộ từ vựng chủ yếu là  tínhtừ tiếng Việt để phán đoán xu hướng ngôn ngữ của các tính từtách được từ ý kiến của người dùng. Các từ chỉ trạng tháimong muốn (như: đẹp, tuyệt vời, tốt…) có xu hướng tích cực,và các từ chỉ trạng thái không mong muốn (như xấu, thất vọng,dở…) có xu hướng tiêu cực. Bên cạnh đó, để phục vụ cho mụcđích xử lý các câu có ý kiến nhận xét được thể hiện dưới dạng

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    20/25

    18

     phủ định của một từ tích cực như “không đẹp”, “chưa tốt”, emtạo thêm một bộ từ vựng chứa các từ phủ định này. 

    Luận văn xây dựng và sử dụng một bộ từ vựng gồm: - 

    Từ tích cực: 82 từ - 

    Từ tiêu cực: 78 từ -  Từ phủ định: 10 từ 3.2.2. Phân tích câu và tách các từ thể hiện ý kiến 

    Để xác định được các tính từ mang ý kiến, chúng ta sẽ phải thực hiện việc gán nhãn từ loại cho từng câu ý kiến một.Luận văn sẽ sử dụng thư viện vnTokenizer kết hợp với bộ gán

    nhãn từ loại JvnTagger để thực hiện nhiệm vụ này. Sau đây làmột ví dụ kết quả của việc gán nhãn từ loại. Với câu đầu vào„Máy ảnh chụp nét“. Câu được gán nhãn từ loại đầy đủ sẽ códạng: “Máy_ảnh/N chụp/V nét/A./.”. Trong đó, N là danh từ, Vlà động từ, và A là tính từ. 3.2.3. Xác định xu hướng ngữ nghĩa cho từ trong câu 

    Thủ tục này khá đơn giản, chúng ta chỉ tiến hành tìm vàso sánh tính từ có được với hai bộ từ tích cực và tiêu cực, tínhtừ đó nằm trong bộ từ nào thì nó sẽ mang xu hướng ngữ nghĩacủa bộ từ đó. 

    Tuy nhiên, trong quá trình xác định xu hướng tình cảmcủa từ trong câu, chúng ta không đơn giản chỉ lấy xu hướngngữ nghĩa của từ ý kiến trong tập các từ làm xu hướng của toàn bộ câu. Chúng ta còn xem xét có từ phủ định nào (như: không,chưa …) xuất hiện gần từ đó hay không. Nếu có thì xu hướng ý

    nghĩa của cả câu sẽ ngược lại. Gần ở đây có nghĩa là khoảngcách từ phủ định và từ ý kiến không được vượt quá mộtngưỡng cho phép, luận văn đặt ngưỡng này là 4.  3.2.4. Xác định xu hướng ngữ nghĩa cho câu 

     Nhìn chung, chúng ta sử dụng xu hướng của các từ ý kiếntrong câu để xác định xu hướng của cả câu. Tức là, nếu  ý kiếntích cực/ tiêu cực chiếm đa số thì toàn bộ câu sẽ mang ý nghĩađó. Trong trường hợp số lượng từ mang ý kiến tích cực và tiêu

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    21/25

    19

    cực bằng nhau thì câu nhận xét đó được gán ý kiến của câutrước nó. 3.3. Đánh giá kết quả 3.3.1. Phương pháp đánh giá 

    Phƣơng pháp đánh giá: Sử dụng một tập dữ liệu kiểmthử (tập dữ liệu được gán nhãn thủ công) đưa vào bộ phân lớpđược xây dựng trên tập huấn luyện. Sau đó tính toán các giá trịđộ chính xác, độ bao phủ. Có nhiều cách chọn tập kiểm thử vàtập huấn luyện. Ở đây, chúng ta sử dụng phương pháp kiểmthử chéo 10 lần (10 fold cross-vadidation ), đây là phương pháp

    cho độ đánh giá tương đối khách quan. Cách tiến hành đánh giá chéo 10 lần (10-fold cross

    validation):  Chia tập dữ liệu thành 10 phần.   Sử dụng lần lượt phần 1, 2,…,10 làm tập kiểm thử, 9 phần

    còn lại làm tập huấn luyện. Lấy độ chính xác, độ bao phủcủa từng lần thử nghiệm. 

     

    Tính các độ đo bằng cách lấy giá trị trung bình của tất cảcác lần. Bên cạnh đó, luận văn cũng sử dụng một công cụ được

     phát triển cho  mục đích phân loại ý kiến thành tích cực, tiêucực LingPipe để so sánh với kết quả phân tích của các phương pháp đã chọn lựa. 3.3.2. Kết quả thử nghiệm và đánh giá 

    Bảng 3.2 là kết quả thực nghiệm với các phương pháp đã

    được trình bày ở trên. Ta có thể tổng kết lại ngắn gọn như sau:  -  Tập dữ liệu huấn luyện và kiểm thử:  Sử dụng tập dữ

    liệu được mô tả ở phần 3.2.1, và bộ từ vựng đã xây dựng.  -  Các thuật toán phân lớp:  Naïve Bayes, SVM (có giám

    sát) với mô hình ngôn ngữ unigram và bigram, dựa trên bộtừ vựng (không giám sát)

    Phƣơng pháp đánh giá: đánh giá chéo 10 lần (10-foldcross validation) với độ đo: độ bao phủ và độ chính xác  

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    22/25

    20

    Thƣ viện và công cụ:  Weka, libSVM, vnTokenizer,JvnTagger, LingPipe

    Bảng 3. 1: Kết quả kiểm nghiệm các phƣơng phápphân loại ý kiến 

    Phƣơngpháp

    Ngram Độ chính xác Độ bao phủ 

    Neg Pos TB Neg Pos TB

    Naïve BayesUnigram 0.725 0.814 0.776 0.760 0.785 0.774

    Bigram 0.732 0.785 0.762 0.703 0.808 0.763

    SVMUnigram 0.838 0.872 0.858 0.827 0.881 0.858

    Bigram 0.825 0.842 0.835 0.779 0.877 0.835

    LingPipeUnigram 0.662 0.708 0.688 0.565 0.785 0.691

    Bigram 0.748 0.805 0.781 0.735 0.815 0.781

    Dùng bộ từvựng 

    0.638 0.932 0.843 0.866 0.787 0.811

     Đối với phương pháp có giám sát Naïve Bayes và SVM , một vấn đề được nhận thấy trong suốt quá trình kiểm nghiệmđó là việc loại bỏ các từ stopword. Thật rõ ràng để thấy rằngcác từ này xuất hiện một cách thường xuyên trong đặc trưng n-gram và chiếm lĩnh mô hình phân loại. Việc lựa chọn các từstopword phải thật cẩn thận để tránh việc loại bỏ đi những từkhóa quan trọng, hay làm cho bộ phân loại bị ảnh hưởng bởi tưduy cá nhân của người kiểm nghiệm. Ở đây, bộ từ stopwordgồm 570 từ tiếng Việt được sử dụng trong giai đoạn tiền xử lýdữ liệu. 

    Theo  bảng kết quả, ta thấy trên cùng một loại đặc trưng

    (unigram hoặc bigram), hầu hết các trường hợp bộ phân loại

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    23/25

    21

    SVM cho kết quả tốt hơn bộ phân loại Naïve Bayes về độchính xác. Đối với cả unigram và bigram, hai phương pháp nàychênh lệch nhau khoảng 7-8% về độ chính xác. Điều này kháhợp lý vì nhiều công trình nghiên cứu trước đó cũng đưa ra kếtluận rằng SVM cho kết quả tốt hơn Naïve Bayes. Trong đó, ởđây độ chính xác của bộ phân loại SVM khá tốt, lên tới xấp xỉ86% với unigram, độ bao phủ của SVM cũng cao  hơn NaïveBayes

    Với hai thuật toán phân loại này, độ chính xác và độ bao phủ của chúng đều không chênh lệch đáng kể. 

    Đặc trưng unigram ở cả hai phương pháp Naïve Bayes vàSVM đều cho kết quả (độ chính xác và độ bao phủ) tốt hơn sovới đặc trưng bigram. 

    So với LingPipe, phân loại bằng SVM cho độ chính xáccao hơn. Tuy nhiên, LingPipe cho kết quả với bigram tốt hơn làunigram.

     Đối với phương pháp sử dụng bộ từ vựng (không giámsát), kết quả thu được cũng rất khả quan, độ chính xác và bao

     phủ đều cao hơn 80%. Theo quan sát ta thấy độ chính xác chocác câu nhận xét tích cực cao hơn hẳn so với những câu nhậnxét tiêu cực, phân loại câu tiêu cực có độ chính xác 63.8%trong khi phân loại câu tích cực độ chính xác lên đến 93.2%.Điều này có thể là do phân bố các từ tích cực, tiêu cực trong bộtừ vựng. Kết quả phân loại dựa trên bộ từ vựng này vẫn thấphơn so với phân loại có giám sát dùng SVM.  

     Như vậy, các phương pháp phân loại ý kiến đều cho kếtquả rất khả quan. Chúng ta có thể sử dụng chúng để xây dựngứng dụng cho biết một ý kiến của người dùng về đối tượng nàođó là tích cực hay tiêu cực với độ chính xác chấp nhận được.  

    Tuy nhiên, các phương pháp này cũng vẫn còn nhữngđiểm hạn chế. Hiệu năng của phương pháp phân loại ý kiến cógiám sát (Naïve Bayes và SVM) phụ thuộc nhiều vào quá trìnhtrích chọn đặc trưng. Rõ ràng việc đơn thuần áp dụng mô hình

    ngram vào kỹ thuật phân loại có thể chưa cho kết quả tốt nhất

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    24/25

    22

    với phân loại ý kiến –  kiểu dữ liệu ý kiến có đặc trưng riêng rõrệt. Chúng ta có thể cải thiện bộ phân loại bằng cách trích chọnđặc trưng một cách cẩn thận hơn bằng cách sử dụng các mẫu ýkiến đặc thù, hay dùng gán nhãn từ loại (POS tagger) cũng làmột lựa chọn để kết hợp với ngram. Nhờ cách này chúng ta cóthể lợi dụng được tối đa ưu điểm của phương pháp họ c máy cógiám sát vào quá trình phân loại ý kiến.

    Trong khi đó tính chính xác của phương pháp phân loạidựa trên bộ từ vựng phụ thuộc vào bộ từ vựng ý kiến đã chuẩn bị, cũng như hiệu năng của các công cụ sử dụng như

    vnTokenizer và JvnTagger. Bộ từ vựng được xây dựng thủcông nên không thể tránh khỏi những cảm nhận thiếu tínhkhách quan. Với mỗi chủ đề, hay lĩnh vực khác nhau các từ thểhiện ý kiến khen, chê cũng rất khác nhau. Bởi vậy, việc ápdụng một tập từ vựng được xây dựng chung vào một miền lĩnhvực nào đó có thể đưa lại kết quả không như ý. Bởi một từ ýkiến có thể là tích cực khi nói đến trong một lĩnh vực nàynhưng lại trở thành tiêu cực ở lĩnh vực khác. Nhược điểm này

    chỉ có thể cải thiện bằng cách xây dựng một bộ từ vựng cẩnthận, phong phú và chính xác hơn, và có thể kết hợp bổ sungvới việc phân tích dựa trên miền lĩnh vực. Vấn đề xác địnhmiền lĩnh vực và đưa ra xu hướng ý kiến chính xác cho một từhiện vẫn còn là vấn đề chưa được giải quyết triệt để, cần tiếnhành nghiên cứu chuyên sâu thêm. Một điểm nữa mà phương pháp dựa trên bộ từ vựng trong luận văn chưa xử lý đó là thông

    tin trích dẫn. Cụ thể, một người có thể trích dẫn ý kiến củangười khác, và thể hiện ý kiến đồng tình hay không đồng tìnhvới ý kiến được trích dẫn đó. Nếu xác định được ý kiến đượctrích dẫn là tiêu cực hay tích cực, và ý kiến của người trích dẫnlà đồng tình/không đồng tình với nó thì ta có thể phân loại ýkiến của người đó là tích cực hay tiêu cực. Việc phân loại đơnthuần chỉ dựa vào bộ từ ý kiến hay xu hướng của câu trước đócó thể gây ra nhầm lẫn trong trường hợp trích dẫn này.  

  • 8/15/2019 PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB

    25/25

    23

    KẾT LUẬN Trong luận văn, em đã trình bày một số kỹ thuật để khai

     phá và phân tích của người dùng về các đối tượng thuộc nhiềuchủ đề khác nhau (thương hiệu, sản phẩm, người nổi tiếng)thông qua những nhận xét của họ trên mạng. Mục đích chính làtạo ra được một phán đoán chính xác về xu hướng tích cực haytiêu cực trong những câu nhận xét đó để hỗ trợ người sử dụngđưa ra những quyết định đúng đắn, hợp lý. Các phương pháp phân loại ý kiến em đã thử nghiệm trên bộ dữ liệu tiếng Việtcho độ chính xác khá khả quan, có thể sử dụng để xây dựng

    một ứng dụng phân tích ý kiến cho kết quả chấp nhận được. Sovới các phương pháp đã được áp dụng cho tiếng Anh, độ chínhxác này chênh lệch nhau không đáng kể. Công việc khai phá ýkiến này không chỉ phục vụ từng cá nhân, mà còn rất có ích đốivới các công ty, tổ chức muốn nắm bắt được phản hồi củakhách hàng về sản phẩm của mình. Và nó sẽ ngày càng trở nênquan trọng bởi có ngày càng nhiều người biểu hiện ý kiến tìnhcảm của mình về sản phẩm, dịch vụ trên các diễn đàn, các

    mạng xã hội. Hiện tại, luận văn thực hiện việc phán đoán xu hướng ý

    kiến trong nhận xét dựa trên bộ từ vựng tính từ tích cực, tiêucực được xây dựng thủ công. Hiệu quả của việc phân tích phánđoán phụ thuộc vào bộ từ vựng này. Do được xây dựng thủcông, bộ từ vựng này có thể không đầy đủ và mang nhiều quanđiểm chủ quan của người xây dựng, khiến cho hiệu quả phán

    đoán ít nhiều bị ảnh hưởng. Để mở rộng và cải thiện hiệu quảcho nhiệm vụ mà luận văn thực hiện, trong lương lai em sẽ tìmhiểu về kỹ thuật xây dựng bộ từ vựng tính từ một cách tự động. Nhờ vậy bộ từ vựng sẽ trở nên phong phú, mang tính kháchquan và hiệu quả của việc phân tích xu hướng ý kiến trong cáccâu nhận xét sẽ được tăng lên. Đồng thời, em cũng sẽ xem xétviệc trích chọn đặc trưng kết hợp với ngram để bộ phân loại cógiám sát được chính xác hơn.