Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

46
PHÂN TÍCH MNG XÃ HI THEO CHĐNG DNG VÀO CÔNG TÁC TƯ VN HC TP CHO SINH VIÊN (PHÂN TÍCH MNG XÃ HI DA THEO MÔ HÌNH CHĐNG DNG) Cán bhướng dn khoa hc: PGS.TS. ĐPhúc Nghiên cu sinh. HTrung Thành 1 ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TP. HCM, Tháng 11-2015 BÁO CÁO HC THUT LUN ÁN - LN 1

Transcript of Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Page 1: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

PHÂN TÍCH MẠNG XÃ HỘI THEO CHỦ ĐỀ VÀ ỨNG DỤNG

VÀO CÔNG TÁC TƯ VẤN HỌC TẬP CHO SINH VIÊN

(PHÂN TÍCH MẠNG XÃ HỘI DỰA THEO MÔ HÌNH CHỦ ĐỀ

VÀ ỨNG DỤNG)

Cán bộ hướng dẫn khoa học: PGS.TS. Đỗ Phúc

Nghiên cứu sinh. Hồ Trung Thành

1

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TP. HCM, Tháng 11-2015

BÁO CÁO HỌC THUẬT LUẬN ÁN - LẦN 1

Page 2: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Nội dung

2

Dẫn nhập

Tổng quan về phân tích mạng xã hội

Giới thiệu mô hình chủ đề

Tổng quan nghiên cứu của luận án

Các nghiên cứu liên quan và bài toán đặt ra

Tài liệu tham khảo

Page 3: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Dẫn nhập

3

Page 4: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Tổng quan phân tích mạng XH (SNA)

4

Phân tích mạng xã hội (Social

Network Analysis - SNA)

(1) SNA hỗ trợ tạo ra các khuyến nghị để cải thiện sự giao tiếp của con người và qui trình làm việc trong tổ chức

(Allard 1996)

(2) SNA hỗ trợ phân tích những mối quan hệ giữa

người và người hay giữa người và tổ chức với nhau (Wasserman

and Faust 1994).

(3) SNA hỗ trợ trực quan hoá cấu trúc quan

hệ giữa người với người hay giữa người với tổ chức (Freeman

2000).

(4) SNA hỗ trợ rút trích những tiềm ẩn, những

thông tin và tri thức trong dữ liệu được con

người trao đổi trên mạng xã hội (John

Scott, 2013)

Page 5: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Tổng quan phân tích mạng XH (SNA)

5

Các phương pháp áp dụng

trong phân tích mạng xã hội

(SNA)

(1) Phân tích nội dung thông điệp được trao đổi trên mạng xã hội, xác định được các cộng đồng mạng xã hội thông qua nội dung trao đổi (Wasserman and

Faust 1994)

(2) Nghiên cứu các yếu tố ảnh hưởng đến các mối

quan hệ như tuổi tác, nền tảng đào tạo liên quan,... và nghiên cứu mối tương quan giữa các mối quan hệ đó. Điều này có thể thực hiện

bằng mô hình toán học như: kỹ thuật thống kê truyền thống như phân tích mối

tương quan, phương sai,.. (Cohen et al 1996)

(3) SNA được thực hiện bằng phương pháp lý

thuyết đồ thị và được ứng dụng trong các lĩnh vực như tâm lý tổ chức, xã hội học và

nhân khẩu học (Gibbons 1985, Krackhardt 1994)

(4) Phân tích mạng xã hội dựa theo mô hình chủ đề

(Blei et al, 2003 & Thomas L. Griffiths, 2004 )

(4) Phân tích mạng xã hội dựa theo mô hình chủ đề

(Blei et al, 2003 & Thomas L. Griffiths, 2004 )

Page 6: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Chủ đề

6

Chủ đề quan tâm là gì?

Là chủ đề được người dùng quan tâm trao đổi liên quan đến một lĩnh vực cụ thể nào đó.

Chủ đề tiềm ẩn là gì?

Là chủ đề chưa biết (chưa được gán nhãn) trong quá trình tạo lập văn bản của người dùng.

Chủ đề là gì?

Theo từ điển Cambridge, chủ đề là một vấn đề được thảo luận, viết hay nghiên cứu.

Theo từ điển Oxford, chủ đề là một vấn đề được trình bày trong văn bản, bài luận hay trong cuộc

hội thoại

Page 7: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Mô hình chủ đề

7

Mô hình chủ đề được Deerwester cùng cộng sự đề xuất năm 1990, sau đó các nghiên cứu của Hofmann, 1999 và Blei et al, 2003.

Mô hình chủ đề cho phép kiểm tra và khai thác tập tài liệu văn bản dựa trên việc tìm kiếm và thống kê các từ có liên quan đến chủ đề trong mỗi tài liệu, và khám phá ra những chủ đề tiềm ẩn trong tài liệu văn bản đó.

Một số tiếp cận hiện nay trong việc mô hình nội dung tài liệu dựa trên ý tưởng tính phân bố xác suất của mỗi từ đặc trưng trong tài liệu. Phân bố này xem văn bản là hỗn hợp nhiều chủ đề, mỗi chủ đề là sự kết hợp của nhiều từ kèm phân bố xác suất riêng cho từng từ trong chủ đề.

Trong cách tiếp cận phân tích mạng xã hội theo chủ đề, các nghiên cứu chủ yếu tập trung xây dựng mô hình toán học, ước lượng tham số mô hình dựa trên nền tảng mạng xác suất Bayes.

Page 8: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Các nghiên đầu tiên về Mô hình chủ đề

8

Mô hình LSI - Latent Semantic

Indexing (Deerwester et al,

1990)

Mô hình PLSI - Probabilistic

Latent Semantic Indexing (Thomas Hofmann, 1999)

Mô hình LDA - Latent Dirichlet

Allocation (Blei et al, 2003)

Mô hình LDA - Latent Dirichlet

Allocation (Blei et al, 2003)

Page 9: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Mô hình chủ đề - LDA (Latent Dirichlet

Allocation)

9

Vấn đề “Sinh văn bản” (Bài toán thuận)

• Khi tạo lập thông điệp, người tạo lập (người viết văn bản) xác định trước chủ đề, sau đó xây dựng văn bản bằng cách chọn các từ xoay quanh chủ đề đã xác định

Vấn đề “Khám phá chủ đề” (Bài toán ngược)

• Có văn bản, cần tìm các chủ đề mà người viết đã dựa trên đó để hình thành văn bản. Nghĩa là cần khám phá chủ đề tiềm ẩn trong nội dung thông điệp được người dùng trao đổi.

Page 10: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Mô hình chủ đề - LDA (Latent Dirichlet

Allocation)

10

Mô hình xác suất theo mạng Bayes 3 cấp: tài liệu, chủ đề và từ

• Mỗi tài liệu (document) được mô tả dưới dạng kết hợp ngẫu nhiên của một tập các chủ đề.

• Mỗi chủ đề (topic) là một phân bố rời rạc của một tập các từ vựng (words).

Mô hình sinh tài liệu

• Dựa trên việc rút trích tập từ đặc trưng để sinh tài liệu

• Khám phá chủ đề tiềm ẩn

Mô hình LDA là mô hình nền tảng và kết hợp vào nhiều mô hình phức tạp hơn.

Page 11: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Mô hình chủ đề - LDA (sinh văn bản)

11

Words

Từ 1

Từ 2

Từ 3

…..

Từ n

Documents

Tài liệu 1

Tài liệu 2

Tài liệu 3

….

Tài liệu m

Tập ngữ liệu

(Corpus)

Page 12: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Mô hình chủ đề - LDA (khám phá chủ đề)

Nếu sinh viên đang yêu thích nghề nghiệp trong lĩnh

vực kinh tế hoặc yêu thích công nghệ thông tin, thì

chương trình đào tạo của Khoa thực sự phù hợp với

bạn. Khi tốt nghiệp đại học sau 4 năm, với bằng tốt

nghiệp đại học là cử nhân kinh tế, ngành Hệ thống

thông tin quản lý, chắc chắn bạn sẽ có rất nhiều cơ hội

việc làm, lương cao và khả năng phát triển trong nhiều

lĩnh vực nghề nghiệp khác nhau và có cơ hội học tập

nâng cao hoặc có thể tham gia giảng dạy hay du học

nước ngoài theo những chương trình hợp tác quốc tế,

liên kết các trường đại học trên thế giới của Trường ….

Chủ đề 01

Từ Xác suất

Chương trình

Đào tạo

Đại học

Cử nhân

Giảng dạy

Sinh viên

……

0.92

0.78

0.71

0.61

0.59

0.52

…… Chủ đề 02

Từ Xác suất

Nghề nghiệp

Việc làm

Lương

Cơ hội

Khả năng

……

0.91

0.87

0.72

0.68

0.54

….. Chủ đề 03

Từ Xác suất

Du học

Nước ngoài

Thế giới

Quốc tế

Hợp tác

…….

0.83

0.72

0.69

0.43

0.41

…….

12

Page 13: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Mô hình chủ đề - LDA (khám phá chủ đề)

13

sinh viên, học tập, việc làm,

lương, nước ngoài

chương trình, sinh viên, học

tập, việc làm, lương

chương trình, sinh viên, học

tập, giảng dạy chương trình,

sinh viên, học

tập

sinh viên, học

tập, việc làm,

lương

Tài liệu 1

Tài liệu 2

Tài liệu 3

Chủ đề 1

Chủ đề 2

Từ trong tài liệu Từ trong chủ đề

Page 14: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Mô hình chủ đề - LDA

14

Page 15: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Tổng quan nghiên cứu của luận án - Mục

tiêu nghiên cứu

15

Bài toán 1. Đề xuất mô hình khám phá chủ đề tiềm ẩn trong văn bản và gán nhãn chủ đề dựa theo mô hình chủ đề.

Bài toán 2. Đề xuất mô hình khám phá chủ đề quan tâm của người dùng dựa theo mô hình chủ đề có yếu tố thời gian.

Bài toán 3. Đề xuất mô hình khám phá cộng đồng người dùng trên mạng xã hội dựa theo mô hình chủ đề có yếu tố thời gian và khảo sát sự thay đổi chủ đề quan tâm của cộng đồng mạng xã hội.

Page 16: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Tổng quan nghiên cứu của luận án - Phạm vi

nghiên cứu

16

Dựa theo mô hình chủ đề

Phân tích mạng xã hội dựa trên nội dung văn bản (thông điệp)

Dữ liệu thử nghiệm là thông điệp văn bản tiếng Việt thu thập từ mạng xã hội và diễn đàn trong khoảng thời

gian từ năm 2008 đến năm 2014

Dữ liệu kiểm tra được thu thập từ các bài viết, trao đổi trên trang báo điện tử từ năm 2012 đến năm 2015

Ứng dụng trong lĩnh vực giáo dục đại học và mở rộng lĩnh vực khác

Page 17: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Ý nghĩa nghiên cứu - Về khoa học

17

1. Tập chủ đề huấn luyện: 20 lớp chủ đề và 137 khái niệm được xây dựng theo ontology

2. Mô hình khám phá và gán nhãn chủ đề từ thông điệp

tiếng Việt được trao đổi trên mạng XH dựa theo mô hình

chủ đề.

3. Mô hình khám phá chủ đề quan tâm và phân tích sự thay đổi chủ đề quan tâm của người

dùng có yếu tố thời gian

4. Mô hình khám phá cộng đồng người dùng dựa theo chủ

đề và phân tích sự thay đổi chủ đề quan tâm của cộng

đồng theo thời gian

Page 18: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Ý nghĩa nghiên cứu - Về thực tiễn

18

1. Ứng dụng nghiên cứu trong lĩnh vực giáo dục

đại học.

2. Khả năng ứng dụng nghiên cứu trong lĩnh

vực kinh doanh - quản lý đặt biệt lĩnh vực tiếp thị

trên mạng xã hội.

3. Khả năng ứng dụng nghiên cứu trong lĩnh vực chính trị, xã hội,

pháp luật,…

Page 19: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Tổng quan nghiên cứu của luận án – Thách

thức đặt ra

19

4 thách thức đặt ra

1. Hạn chế các nghiên cứu trong nước trên dữ liệu tiếng Việt để tham khảo, so sánh và

đánh giá

2. Khám phá chủ đề tiềm ẩn và gán nhãn

chủ đề

3. Phân tích chủ đề quan tâm của người dùng theo

thời gian

4. Khám phá cộng đồng người dùng theo chủ đề

có yếu tố thời gian

Page 20: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Tổng quan nghiên cứu của luận án - Hạn chế

trong nghiên cứu

20

Chưa phân tích thông điệp có nội dung ngắn, nội dung được viết bằng tiếng

Anh

Chưa quan tâm đến tốc độ xử lý

Page 21: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Mô hình tổng thể thực hiện nghiên cứu

21

M1. Trích lọc,

tách từ, gán nhãn

từ loại tiếng Việt

Thông điệp (messages) trao đổi của người dùng

trên mạng xã hội (văn bản tiếng Việt) và thông tin cá nhân

M2. Khám phá

chủ đề trong văn

bản tiếng Việt

M3. Phân lớp

thông điệp và gán

nhãn chủ đề

Kho ngữ liệu

văn bản tiếng

Việt

Dữ liệu

huấn luyện

Chủ đề Đào tạo

Chủ đề Đoàn hội

Chủ đề Học tập và thi

Chủ đề Tuyển sinh

…………….

Chủ đề 1

Chủ đề 2

Chủ đề 3

……..

Chủ đề n

M4. Khám phá chủ đề

quan tâm của người

dùng theo thời gian

M5. Khám phá cộng

đồng người dùng quan

tâm chủ đề theo thời

gian

M6. Phân tích sự thay

đổi chủ đề quan tâm

của người dùng và

cộng đồng theo thời

gian

Page 22: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Phương pháp thực hiện – 3 bài toán chính

22

1. Khám phá chủ đề từ thông

điệp trao đổi trên MXH và

gán nhãn chủ đề

2. Khám phá chủ đề quan tâm của người dùng có yếu tố thời

gian

3. Khám phá cộng đồng

người dùng theo chủ đề có yếu tố

thời gian

Page 23: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

1. Khám phá chủ đề và gán nhãn chủ đề -

Phát biểu bài toán 1

23

Chủ đề tiềm ẩn trong thông điệp được trao đổi. Hiểu được chủ đề sẽ hiểu được nội dung

trao đổi của thông điệp?

Khảo sát mô hình chủ đề, các phương pháp phân tích mạng xã hội dựa theo mô hình chủ

đề

Đề xuất mô hình kết hợp khám phá chủ đề, phân

lớp văn bản và gán nhãn chủ đề

Khám phá chủ đề tiềm ẩn và gán nhãn chủ đề để “hiểu” người dùng trao đổi chủ đề gì trên

mạng xã hội

Page 24: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

1. Khám phá chủ đề và gán nhãn chủ đề - Các

nghiên cứu liên quan – Khám phá chủ đề

24

Mô hình LSI - Latent Semantic

Indexing (Deerwester et al,

1990)

Mô hình PLSI - Probabilistic

Latent Semantic Indexing (Thomas Hofmann, 1999)

Mô hình LDA - Latent Dirichlet

Allocation (Blei et al, 2003)

Mô hình LDA - Latent Dirichlet

Allocation (Blei et al, 2003)

Page 25: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

1. Khám phá chủ đề và gán nhãn chủ đề -

Phát biểu bài toán (Khám phá chủ đề)

25

Đầu vào

Tập ngữ liệu thông điệp được người dùng trao đổi trên

mạng xã hội

Số chủ đề K cần khám phá

Xử lý

Các công cụ tách từ và gán nhãn từ loại:

VnTokenizer và JvnTagger

Mô hình LDA

Kỹ thuật Gibbs Sampling cho mô

hình LDA

Đầu ra

Các ma trận văn bản - chủ đề - từ

Tập chủ đề được khám phá

Tập từ đặc trưng kèm theo xác suất theo từng chủ đề

Page 26: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

1. Khám phá chủ đề và gán nhãn chủ đề -

Phát biểu bài toán (Gán nhãn chủ đề)

26

Đầu vào

Tập chủ đề được khám phá (chưa gán

nhãn)

Tập dữ liệu huấn luyện: ontology chủ

đề, tập văn bản huấn luyện

Xử lý

Mô hình LDA

Phương pháp phân lớp văn bản SVM (Support Vector

Machine).

Đầu ra

Tập chủ đề được gán nhãn theo từng nhãn

cụ thể

Tập từ đặc trưng cho từng chủ đề kèm xác

suất

Tập thông điệp đươc phân lớp theo từng

chủ đề

Page 27: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

1. Khám phá chủ đề và gán nhãn chủ đề -

Công bố

27

[1] Hồ Trung Thành, Đỗ Phúc (2014), Ontology tiếng Việt trong lĩnh vực giáo

dục đại học, Tạp chí Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ

Việt Nam, Tập 52, số 1B, pp. 89-100, ISSN: 0866-708x.

[2] Hồ Trung Thành, Đỗ Phúc (2014), Mô hình tích hợp khám phá và gán nhãn

chủ đề tiếp cận theo mô hình chủ đề, Tạp chí Khoa học Công nghệ ĐHQG-

HCM, số K4, tập 17, ISSN: 1859-0128.

[3] Muon Nguyen, Thanh Ho, Phuc Do (2013), Social Networks Analysis Based

on Topic Modeling, The 10th IEEE RIVF International Conference on

Computing and Communication Technologies, Hanoi, pp. 119-123, ISBN: 978-

1-4799-1350-3.

Page 28: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

2. Khám phá chủ đề quan tâm của người dùng

có yếu tố thời gian – Phát biểu bài toán 2

28

Tại những thời điểm khác nhau, người gửi và người nhận cùng hoặc không cùng quan tâm

đến một hoặc những chủ đề khác nhau

Đề xuất mô hình TART (Temporal-Author-Recipient-

Topic)

Khám phá sự quan tâm chủ đề của

người gửi, người nhận theo thời gian

Phân tích sự thay đổi chủ đề quan tâm

trong từng giai đoạn thời gian của người nhận và người gửi

Tìm ra chủ đề được nhiều người trao đổi

theo thời gian

Page 29: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

2. Khám phá chủ đề quan tâm của người dùng

có yếu tố thời gian - Các nghiên cứu liên

quan

29

Mô hình Tác giả

(Andrew McCallum, 1999, AAAI Workshop

on Text Learning)

Mô hình chủ đề LDA (Blei et al,

2003, Journal of Machine Learning

Research)

Mô hình Tác giả -

Chủ đề AT (Michal

Rosen-Zvi và Thomas

Griffths, 2004, ACM SIGKDD)

Mô hình Tác giả -

Người nhận - Chủ đề -

ART (Andrew

McCallum et al., 2004, Technical Report)

Mô hình Chủ đề qua

thời gian TOT

(Andrew McCallum

et al., 2006, ACM

SIGKDD)

Mô hình Continuous

Dynamic Topic Model

cDTM (Blei et al, 2009,

ICML)

Mô hình Tác giả - Chủ đề - Thiờ gian

ATT (Nasir Naveed,

2011, ACM)

Mô hình Thời gian – Tác giả -

chủ đề TAT (Ali Daud,

2012, KBS, Elsevier)

Page 30: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

2. Khám phá chủ đề quan tâm của người

dùng có yếu tố thời gian - Các nghiên cứu

liên quan

30

Mô hình Tác giả

(Andrew McCallum, 1999, AAAI Workshop

on Text Learning)

Mô hình chủ đề

LDA (Blei et al, 2003, Journal of Machine Learning

Research)

Mô hình Tác giả -

Chủ đề AT (Michal

Rosen-Zvi và Thomas

Griffths, 2004, ACM SIGKDD)

Mô hình Tác giả - Người

nhận - Chủ đề - ART (Andrew

McCallum et al., 2004, Technical Report)

Mô hình Chủ đề

qua thời gian TOT (Andrew

McCallum et al., 2006,

ACM SIGKDD)

Mô hình Continuous

Dynamic Topic Model

cDTM (Blei et al, 2009,

ICML)

Mô hình Tác giả - Chủ đề - Thời gian

ATT (Nasir Naveed,

2011, ACM)

Mô hình Thời gian – Tác giả - chủ đề TAT (Ali Daud,

2012, KBS, Elsevier)

Page 31: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

2. Khám phá chủ đề quan tâm của người

dùng có yếu tố thời gian – Phát biểu bài toán

31

Đầu vào

Tập chủ đề đã được khám phá (mô hình LDA)

và gán nhãn (kết quả bài toán 1)

Tập thông tin (profile) của người dùng mạng xã hội

Xử lý

Mô hình chủ đề LDA

Mô hình ART (Andrew

McCallum. et al, 2004)

TART với yếu tố thời gian

Đầu ra

Ma trận thời gian - người gửi - người nhận -

chủ đề

Tập vector chủ đề quan tâm của người dùng (bao gồm người nhận

và gửi thông điệp) theo thời gian cùng xác xuất quan tâm

Kết quả phân tích sự thay đổi

chủ đề quan tâm của người dùng

Page 32: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

2. Khám phá chủ đề quan tâm của người

dùng có yếu tố thời gian – Mô hình đề xuất

Mô hình ART (Author – Recipient – Topic)

Mô hình TART (Temporal - Author – Recipient – Topic)

32

Page 33: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

2. Phân tích chủ đề quan tâm của người

dùng có yếu tố thời gian – Công bố

33

[1] Thanh Ho, Phuc Do (2014), Analyzing Users’ Interests with the Temporal

Factor Based on Topic Modeling, ACIIDS 03-2015, Indonesia, Springer, pp.

106-115, ISSN: 0302-9743, ISBN: 978-3-319-15704-7.

[2] Thanh Ho, Duy Doan, Phuc Do (2014), Discovering Hot Topics On Social

Network Based On Improving The Aging Theory, Advances in Computer

Science : an International Journal. Volume 3, Issue 3, p. 48-53, ISSN: 2322-

5157.

[3] Phan Hồ Viết Trường, Hồ Trung Thành, Đỗ Phúc (2013), Phân tích tầm

ảnh hưởng đối tượng theo chủ đề trong mạng xã hội, Tạp chí Khoa học Công

nghệ, Viện Hàn lâm Khoa học Công nghệ Việt Nam, tập 52, số 1B, pp. 101-

111, ISSN: 0866-708x.

[4] Nghe Nguyen, Thanh Ho and Phuc Do (2015), Finding the Most Influential

User of a Specific Topic on the Social Networks, Advances in Computer

Science : an International Journal, Volume 4, Issue 2, ISSN: 2322-5157.

Page 34: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

3. Khám phá cộng đồng người dùng theo chủ

đề có yếu tố thời gian – Mục tiêu bài toán 3

34

Chủ đề quan tâm của người dùng thường thay

đổi, điều này dẫn đến cộng đồng người dùng

theo chủ đề cũng thường thay đổi theo

Cùng một cộng đồng có thể quan tâm trao đổi

nhiều chủ đề trong một giai đoạn thời gian và

một chủ đề cũng có thể có nhiều cộng đồng quan

tâm trao đổi

Bài toán trả lời các câu hỏi : (1) làm thế nào để có thể khám phá nhằm tìm ra cộng đồng người

dùng cùng quan tâm đến một nhóm chủ đề trong

cùng giai đoạn thời gian? (2) với một nhóm chủ đề

cụ thể có những cộng đồng nào trên mạng xã

hội quan tâm trao đổi? và (3) chủ đề quan tâm và người dùng có thay đổi trong cộng đồng theo

thời gian?

Đề xuất mô hình khám phá cộng đồng người

dùng dựa theo mô hình chủ đề kết hợp phương

pháp mạng Kohonen

Phân tích sự thay đổi chủ đề quan tâm và người

dùng tham gia cộng đồng

Page 35: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

3. Khám phá cộng đồng người dùng theo chủ

đề có yếu tố thời gian – Các nghiên cứu liên

quan

35

Mô hình Nhóm - Chủ đề - GT

(Andrew McCallum, 2006, Advances in Neural Information

Processing Systems 18)

Mô hình Cộng đồng - Người dùng - Chủ đề - CUT (D. Zhou,

et al, WWW)

Mô hình Cộng đồng - Người gửi -

Người nhận - Chủ đề -CART (N. Pathak, 2008,

SNA-KDD)

Mô hình Tác giả - Chủ đề - Cộng

đồng - ATC (Chunshan Li,

2014, Springer-Verlag London)

Page 36: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

3. Khám phá cộng đồng người dùng theo chủ

đề có yếu tố thời gian – Phát biểu bài toán

36

Đầu vào

Tập vector nhập (vector đặc trưng theo chủ đề quan tâm của người dùng có yếu tố thời gian - kết quả từ bài

toán 2)

Tập thông tin (profile) người dùng

Xử lý

Chuẩn hoá vector đầu vào

Áp dụng phương pháp huấn luyện mạng Kohonen gom cụm các vector chủ đề

quan tâm dựa trên đặc trưng của vector chủ đề

(chủ đề, thời gian và mức độ quan tâm).

Dựa trên lớp ra Kohonen và tập vector trọng để phân tích sự thay đổi số người tham gia và chủ đề quan

tâm của cộng đồng

Đầu ra

Kết quả hiển thị trên lớp ra Kohonen là các cụm Ci (cộng đồng người dùng

theo chủ đề).

Danh sách các cụm: {C1, C2, C3, C4,...,Ck} với k là số cụm. Trong đó, C là tập hợp

các cụm, mỗi cụm Ci có vector chủ đề của neuron chiến thắng tương ứng.

Xu thế thay đổi chủ đề quan tâm của cộng đồng

Page 37: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

3. Phương pháp mạng Kohonen - SOM

37

Có khả năng ánh xạ dữ

liệu đầu vào có số chiều

lớn thành mảng có số

chiều thấp hơn(thường là

2 chiều)

Mạng Kohonen có thể

gom cụm dữ liệu mà

không cần chỉ định trước

số cụm

Kết quả gom cụm được

hiển thị trực quan trên lớp

ra của Kohonen

Page 38: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

3. Khám phá cộng đồng người dùng theo chủ

đề có yếu tố thời gian – Mô hình đề xuất

38

Dữ liệu đầu vào (Kết

quả của mô hình TART – Trong đó,

tâp trung khai thác tập vector người

dùng quan tâm chủ đề theo thời gian)

Page 39: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

3. Khám phá cộng đồng người dùng theo chủ

đề có yếu tố thời gian – Công bố

39

[1] Thanh Ho and Phuc Do, Analyzing the Changes in Online

Community based on Topic Model and Self-Organizing Map,

International Journal of Advanced Computer Science and

Applications(IJACSA), 6(7), 2015.

[2] Thanh Ho, Phuc Do (2015), Discovering Communities of Users on

Social Networks Based on the Topic Model Combined with Kohonen

Network, KSE, 10/2015, IEEE, Accepted.

[3] Tran Quang Hoa, Vo Ho Tien Hung, Nguyen Le Hoang, Ho Trung

Thanh, Do Phuc (2014), Finding the Cluster of Actors in Social

Network based on the Topic of Messages, ACIIDS 04-2014, ThaiLand,

Springer, pp. 183-190, ISBN: 983-3-319-054756-6.

Page 40: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Tài liệu tham khảo - 1

40

1. Lars Kirchhoff (2010). Applying Social Network Analysis to Information Retrieval on the World Wide Web: A

Case Study of Academic Publication Space, The University of St. Gallen, Switzerland.

2. Stanley Wasserman, Katherine Faust (1994), Social Network Analysis: Methods and Applications, Cambridge

University Press, Nov 25, 1994.

3. Lise Getoor, Christopher P . Diehl. (2005), Link Mining: A Survey, SIGKDD Explorations, 7(2), pp. 3-12.

4. Charu C. Aggarwal (2011), Book: Social Network Data Analysics, IBM Thomas J. Watson Research Center,

Springer.

5. Chong Wang, David Blei and David Heckerman (2009), Continuous Time Dynamic Topic Models, Proceedings

of ICML. ICML '08.

6. D. Kim, P. Gopalan, D. Blei, and E. Sudderth (2013), Efficient online inference for Bayesian nonparametric

relational models, Neural Information Processing Systems.

7. Pei Lee, Laks V.S. Lakshmanan, Evangelos Milios (2014), CAST: A Context-Aware Stor y-Teller for Streaming

Social Content, CIKM‟14, November 3–7, 2014, ACM, http://dx.doi.org/10.1145/2661829.2661859.

8. Durgesh M. Sharma, Moiz M. Baig (2015), Sentiment Analysis on Social Networking: A Literature Review,

International Journal on IJRITCC, Volume: 3 Issue: 2, pp. 022-027.

9. David M.Blei, Andrew Y.Ng and Micheal I.Jordan (2003), Latent Dirichlet Allocation, Journal of Machine Learning

Research, pp. 993 – 1022.

10. Tom Griffiths (2004), Gibbs Sampling in the generative model of Latent Dirichlet Allocation,

[email protected].

11. Hassan Abbas Abdelbary, Abeer Mohamed ElKorany, Reem Bahgat (2014), Utilizing Deep Learning for Content-

based Community Detection, Science and Information Conference, UK, IEEE, pp. 777-784.

12. Andrew McCallum, Andr´es Corrada, Xuerui Wang (2004), The Author-Recipient-Topic Model for Topic and Role

Discovery in Social Networks: Experiments with Enron and Academic Email, Technical Report UM-CS-2004-

096, pp. 44.

Page 41: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Tài liệu tham khảo - 2

41

13. Paola Velardi, Roberto Navigli, Alessandro Cucchiarelli, Fulvio D‟Antonio (2008), A New Content-Based Model for Social Network

Analysis, IEEE Sixth International Conference on Semantic Computing, pp: 18-25.

14. Angela Bohn, Ingo Feinerer, Kurt Hornik and Patrick Mair (2011), Content-Based Social Network Analysis of Mailing Lists, The R

Journal. 2011;3(1),pp: 11-18.

15. Xuan-Hieu Phan, Cam-Tu Nguyen, Dieu-Thu Le, Le-Minh Nguyen, Susumu Horiguchi, and Quang-Thuy Ha (2011), A hidden topic-

based framework towards building applications with short Web documents, IEEE Transactions on Knowledge and Data Engineering

(IEEE TKDE), Vol.23, No.7, pp: 961-976.

16. Thorsten Joachims (1999), Transductive Inference for Text Classification using Support Vector Machines, International Conference on

Machine Learning (ICML), pp. 200-2009.

17. Thorsten Joachims (2003), Transductive learning via spectral graph partitioning, Proceeding of The Twentieth International Conference

on Machine Learning (ICML2003), pp. 290-297.

18. Mccallum, A. (1999), Multi-label text classification with a mixture model trained by EM, In AAAI Workshop on Text Learning, pp. 681-

687.

19. Nasir Naveed, Sergej Sizov, Steffen Staab (2011), ATT: Analyzing Temporal Dynamics of Topics and Authors in Social Media, ACM,

WebSci‟11, June 14-17, pp. 1-7.

20. D. Zhou, E. Manavoglu, J. Li, C.L. Giles, and H. Zha (2006), Probabilistic models for discovering e-communities, In WWW ‟06:

Proceedings of the 15th international conference on World Wide Web, ACM, pp. 173-182.

21. William M. Darling (2011), A Theoretical and Practical Implementation Tutorial on Topic Modeling and Gibbs Sampling, In Proceedings

of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pp. 642-647.

22. Jey Han Lau, David Newman, Sarvnaz Karimi (2010), Best Topic Word Selection for Topic Labelling, Proceedings of the 23rd

International Conference on Computational Linguistics: Posters, ACM, pp. 605-613.

23. Jey Han Lau (2011), Automatic Labelling of Topic Models, In Proceedings of the 49th Annual Meeting of the Association for

Computational Linguistics: Human Language Technologies-Volume 1, Association for Computational Linguistics, 2011, pp. 1536–

1545.

24. István Bíró, Jácint Szabó (2008), Latent Dirichlet Allocation for Automatic Document Categorization, Research Institute of the

Hungarian Academy of Sciences Budapest, pp. 430-441.

Page 42: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Tài liệu tham khảo - 3

42

25. K. Nowicki and T.A.B. Snijders (2001), Estimation and prediction for stochastic blockstructures, Journal of the American Statistical Association, 96(455), pp. 1077–1087.

26. Angela Bohn, Ingo Feinerer, Kurt Hornik and Patrick Mair (2011), Content-Based Social Network Analysis of Mailing Lists, The R Journal Vol. 3/1, June 2011, pp. 11-18.

27. Thanh Ho, Duy Doan, Phuc Do (2014), Discovering Hot Topics On Social Network Based On Improving The Aging Theory, Advances in Computer Science : an International Journal. Volume 3, Issue 3, p. 48-53.

28. T. L. Griffiths and M. Steyvers (2004), Finding scientic topics, PNAS, 1:5228-35.

29. Hồ Trung Thành, Đỗ Phúc (2014), Mô Hình Tích Hợp Khám Phá Và Gán Nhãn Chủ Đề Tiếp Cận Theo Mô Hình Chủ Đề, Tạp chí Khoa học Công nghệ ĐHQG-HCM, số K4, tập 17, ISSN: 1859-0128.

30. Muon Nguyen, Thanh Ho, Phuc Do (2013), Social Networks Analysis Based on Topic Modeling, The 10th IEEE RIVF International Conference on Computing and Communication Technologies, Hanoi, pp.119-123, ISBN: 978-1-4799-1350-3.

31. Xuer ui Wang, Andrew McCallum (2006), Topics over Time: A Non-Markov Continuous-Time Model of Topical Trends, ACM SIGKDD-2006, pp. 424–433.

32. David M. Blei, John D. Lafferty (2006), Dynamic Topic Models, Appearing in Proceedings of the 23 rd International Conference on Machine Learning, Pittsburgh, PA, pp. 113-120.

33. Michal Rosen-Zvi, Thomas Griffths et. al (2004), Probabilistic AuthorTopic Models for Information Discovery, 10th ACM SigKDD, Seattle, pp. 306-315.

34. Scott Deerwester , Susan T. Dumais , George W. Furnas , Thomas K. Landauer , Richard Harshman (1990), Indexing by latent semantic analysis, Journal American Society for Information Science, 41 (6), pp. 391–407.

35. Hofmann, Thomas (1999), Probabilistic Latent Semantic Indexing, Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval, pp. 50-57.

Page 43: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Tài liệu tham khảo - 4

43

36. Blei, David M. (2012), Introduction to Probabilistic Topic Models, Comm. ACM 55 (4), pp. 77–84.

37. Youngchul Cha, Junghoo Cho (2012), Social-network analysis using topic models, The 35th International ACM SIGIR conference, pp. 565-574.

38. Hồ Trung Thành, Đỗ Phúc (2014), Ontology tiếng Việt trong lĩnh vực giáo dục đại học, Tạp chí Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam. Tập 52, số 1B, pp. 89-100.

39. X. Wang, N. Mohanty, and A. McCallum (2006), Group and topic discovery from relations and their attributes, Advances in Neural Information Processing Systems 18, pp. 1449-1456.

40. N. Pathak, C. DeLong, A. Banerjee, and K. Erickson (2008), Social topic models for community extraction, In The 2nd SNA-KDD Workshop, volume 8.

41. Alexandru Berlea1, Markus Döhring, Nicolai Reuschling (2009), Content and communication based sub-community detection using probabilistic topic models, IADIS International Conference Intelligent Systems and Agents, ISBN: 978-972-8924-87-4 © 2009 IADIS.

42. Wenjun Zhou, Hongxia Jin, Yan Liu (2012), Community Discovery and Profiling with Social Messages, KDD‟12, August 12–16, 2012, Beijing, China, pp. 388-396.

43. Chunshan Li, William K. Cheung, Yunming Ye, Xiaofeng Zhang, Dianhui Chu, Xin Li (2014), The Author-Topic-Community model for author interest profiling and community discovery, Springer-Verlag London 2014, pp. 74-85.

44. The Anh Dang, Emmanuel Viennet (2012), Community Detection based on Structural and Attribute Similarities, ICDS 2012 : The Sixth International Conference on Digital Society, pp. 7-14.

45. Yang Zhou, Hong Cheng, Jeffrey Xu Yu (2009), Graph Clustering Based on Structural/Attribute Similarities, VLDB „09, August 24-28, 2009, Lyon, France, pp. 718-729.

46. Amer Aljarallah, Kunpeng Zhang (2014), Using Coauthor Networks to Extract Topics in Information Systems, Thirty Fifth International Conference on Information Systems, Auckland 2014, pp. 1-9.

47. Do Phuc, Mai Xuan Hung (2008), Using SOM based Graph Clustering for Extracting Main Ideas from Documents, RVIF 2008, pp. 209-214.

48. Kohonen T. and Honkela T. (2007), Kohonen network, http://www.scholarpedia.org/article/Kohonen_network.

Page 44: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Tài liệu tham khảo - 5

44

49. Zhijun Yin et. al (2012), Latent community Topic Analysis: Integration of Community Discovery with Topic Modeling, ACM Transactions on Intelligent Systems and Technology, pp. 1-21.

50. Kaski, S., Honkela, T., Lagus, K., and Kohonen. T, WEBSOM--self-organizing maps of document collections, Neurocomputing, volume 21, (1998), pp. 101-117.

51. Thanh Ho, Phuc Do (2015), Analyzing Users’ Interests with the Temporal Factor Based on Topic Modeling, 23-25 March 2015, Indonesia, Springer, pp. 106-115.

52. Teuvo Kohonen (1982), Self-Organized Formation of Topologically Correct Feature Maps, Biol. Cybern. 43, Springer-Verlag, pp. 59-69.

53. S. Haykin (1999), Neural Networks. A Comprehensive Foundation, Second Edition, Prentice-Hall, Inc., New Jersey, 1999, pp.443-465.

54. Kohonen, T. and Somervuo, P. (2002), How to make large self-organizing maps for nonvectorial data, Neural Networks 15(8-9), pp. 945-952.

55. Tianbao Yang, Yun Chi, Shenghuo Zhu, Yihong Gong, Rong Jin (2011), Detecting communities and their evolutions in dynamic social networks—a Bayesian approach, Mach Learn 82, Springer, pp. 157–189.

56. Ding Zhou, Isaac Councill, Hongyuan Zha, C. Lee Giles (2007), Discovering Temporal Communities from Social Network Documents, IEEE ICDM, pp. 745-750.

57. Tran Quang Hoa, Vo Ho Tien Hung, Nguyen Le Hoang, Ho Trung Thanh, Do Phuc (2014), Finding the Cluster of Actors in Social Network based on the Topic of Messages, ACIIDS 04/2014, ThaiLan. Springer, pp. 183-190.

58. Thanh Ho and Phuc Do (2015), Analyzing the Changes in Online Community based on Topic Model and Self-Organizing Map, International Journal of Advanced Computer Science and Applications (IJACSA), 6(7), pp.

59. Yan Liu, Alexandru N.M et al (2009), Topic-Link LDA: Joint Models of Topic and Author Community, Proceedings of the 26 th International Conference on Machine Learning, ACM, pp. 665-672.

60. Mr inmaya Sachan, et al (2012), Using Content and Interactions for Discovering Communities in Social Networks, International World Wide Web Conference Com-mittee (IW3C2), Lyon, France, pp. 331-340.

Page 45: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

Tài liệu tham khảo - 6

45

61. Nguyen Le Hoang, Do Phuc, et al (2013), Predicting Preferred Topics of Authors based on Co-Authorship

Network, The 10th IEEE RIVF International Conference on Computing and Communication Technologies, IEEE,

pp. 70-75.

62. Amjad Abu-Jbara, Ahmed Hassan, Dragomir Radev (2012), AttitudeMiner: Mining Attitude from Online

Discussions, Proceedings of the NAACL-HLT 2012: Demonstration Session, pp. 33–36.

63. M. Kharratzadeh, B. Renard, M.J. Coates (2015), Bayesian topic model approaches to online and time-

dependent clustering, Journal: Digital Signal Processing, Elsevier, http://dx.doi.org/10.1016/j.dsp.2015.03.010.

64. Nghe Nguyen, Thanh Ho and Phuc Do (2015), Finding the Most Influential User of a Specific Topic on the

Social Networks, Advances in Computer Science : an International Journal, Volume 4, Issue 2.

65. Ali Daud, Juanzi Li et al (2009), Exploiting Temporal Authors Interests via Temporal-Author-Topic Modeling,

ADMA 2009, Springer-Verlag Berlin Heidelberg 2009, LNAI 5678, pp. 435–443.

66. Ali Daud (2012), Using time topic modeling for semantics-based dynamic research interest finding, Knowledge-

Based Systems 26 (2012), Elsevier, pp. 154–163.

67. Tom Fawcett (2005), Introduction to ROC Analysis, Elsevier B.V., Available online www.sciencedirct.com.

68. H.-L. Yang and J.H. Tang (2003), Effects of social network on students' performance, A web-based

forum study in Taiwan, Journal of Asynchronous Learning Networks, vol. 7, no. 3, pp. 93-197.

69. A. Calvó-Armengol, E. Patacchini, and Y. Zenou (2009), Peer Effects and Social Networks in Education,

Review of Economic Studies, vol. 76, no. 4, pp. 1239-2167.

70. A. Mora-Soto, M. Sanchez-Segura, F. Medina-Dominguez, and A. Amescua (2009), Collaborative

Learning Experiences Using Social Networks, in International Conference on Education and New

Learning Technologies, EDULEARN09, Barcelona, Spain, pp. 4260-4270.

71. Thanh Ho, Phuc Do (2015), Discovering Communities of Users on Social Networks Based on the Topic Model

Combined with Kohonen Network, KSE 10/2015, UIT, Vietnam, Accepted 07/2015.

Page 46: Mô Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp ...

TRÂN TRỌNG CẢM ƠN

QUÍ THẦY/CÔ

46