Assignment PPNCKH

41
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC V K THUT MÁY TÍNH LỚP CAO HỌC MIS 2009 Bài tập môn học: GV giảng dạy : GS. TS. Dương Nguyên Vũ Ngưi thực hiện : Phạm Thị Thanh Tâm – 09320849

Transcript of Assignment PPNCKH

Page 1: Assignment PPNCKH

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

KHOA KHOA HỌC VA KY THUÂT MÁY TÍNH

LỚP CAO HỌC MIS 2009

Bài tập môn học:

GV giảng dạy : GS. TS. Dương Nguyên Vũ

Ngươi thực hiện : Phạm Thị Thanh Tâm – 09320849

Tp. HCM, Tháng 06/2010

Page 2: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

MỤC LỤC

MỤC LỤC......................................................................................................................i

DANH MỤC CÁC HÌNH ẢNH.................................................................................iii

DANH MỤC CÁC BẢNG BIỂU...............................................................................iii

BAI TÂP 1: CÁC ĐỊNH NGHĨA................................................................................1

1. KHAI PHÁ DỮ LIỆU.........................................................................................1

1.1. Khai phá dữ liệu là gì?................................................................................1

1.2. Các bước của quá trình khai phá dữ liệu.....................................................2

1.3. Nhiệm vụ chính của khai phá dữ liệu.........................................................2

1.4. Các phương pháp khai phá dữ liệu.............................................................2

1.4.1. Các thành phần của giải thuật khai phá dữ liệu..................................2

1.4.2. Một số phương pháp khai phá dữ liệu phổ biến.................................3

1.5. Những thách thức về nghiên cứu và ứng dụng kỹ thuật khai phá dữ liệu. .3

1.5.1. Những vấn đề về Cơ sở dữ liệu..........................................................3

1.5.2. Một số vấn đề khác.............................................................................4

2. HỆ THỐNG GIÁO DỤC ẢO.............................................................................4

BAI TÂP 2: TỔNG QUAN TAI LIỆU.......................................................................5

1. TÍNH ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU..............................................5

2. ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG GIÁO DỤC ẢO

(APPLY DATA MINING IN VIRTUAL LEARNING ENVIROMENT)..............6

2.1. Những vấn đề liên quan đến sinh viên........................................................6

2.2. Những vấn đề liên quan đến giảng viên......................................................9

2.3. Những vấn đề liên quan đến chương trình học.........................................10

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang i

Page 3: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

2.4. Những vấn đề liên quan đến việc dạy và học...........................................10

2.5. Những vấn đề khác xoay quanh hệ thống thống giáo dục ảo...................11

BAI TÂP 3: ĐỂ CƯƠNG CHI TIẾT........................................................................17

1. Ý nghĩa của đề tài..............................................................................................17

2. Mục tiêu của đề tài............................................................................................17

3. Mục đích nghiên cứu.........................................................................................17

4. Phương pháp nghiên cứu...................................................................................18

5. Nội dung đề tài..................................................................................................20

6. Kết quả đạt được...............................................................................................20

7. Kế hoạch thực hiện............................................................................................20

8. Tài liệu tham khảo.............................................................................................21

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang ii

Page 4: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

DANH MỤC CÁC HÌNH ẢNH

Hình 1 – Quá trình phát hiện tri thức.............................................................................1

Hình 2 – Các bước của quá trình khai phá dữ liệu........................................................2

Hình 3 – Tổng quan tài liệu ứng dụng khai phá dữ liệu trong hệ thống giáo dục ảo.. . .7

Hình 4 – Những vấn đề liên quan đến sinh viên trong hệ thống giáo dục ảo................9

Hình 5 – Những vấn đề liên quan đến giảng viên trong hệ thống giáo dục ảo.............9

Hình 6 – Những vấn đề liên quan đến chương trình học trong hệ thống giáo dục ảo.10

Hình 7 – Những vấn đề liên quan đến việc dạy và học trong hệ thống giáo dục ảo.. 10

Hình 8 – Những vấn đề khác xoay quan hệ thống giáo dục ảo...................................12

Hình 9 – Sơ đồ mạng nơron đơn giản..........................................................................18

Hình 10 – Đơn vị xử lý (Procesing unit).....................................................................19

Hình 11 – Sơ đồ quá trình khai phá dữ liệu bằng mạng nơron....................................19

DANH MỤC CÁC BẢNG BIỂU

Bảng 1 - Bảng tóm tắt các bài báo tham khảo.............................................................13

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang iii

Page 5: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

BAI TÂP 1: CÁC ĐỊNH NGHĨA

Từ khóa: Data mining, Virtual Learning Enviroment, Virtual Learning System

1. KHAI PHÁ DỮ LIỆU

1.1. Khai phá dữ liệu là gì?

Khai phá dữ liệu (Data Mining – DM) là quá trình khám phá các tri thức mới

và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu lớn đã có (các kho dữ

liệu).

Khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình phát hiện các tri

thức có ích từ các tập dữ liệu lớn, sử dụng các giải thuật đặc biệt để chiết suất ra các

mẫu (pattern) (hay các mô hình) từ dữ liệu.

Hình 1 – Quá trình phát hiện tri thức.

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 1

Page 6: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

1.2. Các bước của quá trình khai phá dữ liệu

Hình 2 – Các bước của quá trình khai phá dữ liệu.

1.3. Nhiệm vụ chính của khai phá dữ liệu

Mục đích của khai phá dữ liệu là các tri thức chiết suất được sẽ sử dụng cho lợi

ích cạnh tranh trên thương trương và các lợi ích trong nghiên cứu khoa học. Do đó, ta

có thể coi mục đích chính của khai thác dữ liệu sẽ là mô tả (description) và dự đoán

(prediction). Các mẫu khai phá dữ liệu phát hiện được nhằm vào hai mục đích này.

Để đạt được hai mục đích này, nhiệm vụ chính của khai phá dữ liệu bao gồm:

Phân lớp (Classification)

Hồi quy (Regression)

Phân nhóm (Clustering)

Tóm rắt (summarization)

Mô hình hóa phụ thuộc (Dependency Modeling)

Phát hiện sự thay đổi và độ lệch (Change and Deviation Detection)

1.4. Các phương pháp khai phá dữ liệu

1.4.1. Các thành phần của giải thuật khai phá dữ liệu

Biểu diễn mô hình

Đánh giá mô hình

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 2

Page 7: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

Phương pháp tìm kiếm

1.4.2. Một số phương pháp khai phá dữ liệu phổ biến

Phương pháp quy nạp (Induction)

o Phương pháp suy diễn

o Phương pháp quy nạp

Cây quyết định và luật (Decision Tree and Rule)

Phát hiện các luật kết hợp (Assosciation Rule)

Các phương pháp phân lớp và hồi quy phi tuyến

Phân nhóm và phân đoạn (Clustering and Degmentation)

Các phương pháp dựa trên mẫu

Mô hình phụ thuộc dựa trên đồ thị xác xuất

Mô hình học quan hệ

Khai phá dữ liệu dạng văn bản (Text Mining)

Mạng nơron (Neuron Network)

Giải thuật di truyền (Genetic Algorithm)

1.5. Những thách thức về nghiên cứu và ứng dụng kỹ thuật khai phá dữ liệu

1.5.1. Những vấn đề về Cơ sở dữ liệu

Dữ liệu lớn

Kích thước lớn

Dữ liệu đóng

Các trương dữ liệu không phù hợp

Các giá trị bị thiếu

Các trương bị thiếu

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 3

Page 8: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

Độ nhiễu và không chắc chắn

Mối quan hệ phức tạp giữa các trương dữ liệu

1.5.2. Một số vấn đề khác

“Quá phù hợp” (Overfitting)

Đánh giá tầm quan trọng thống kê

Khả năng biểu đạt của mẫu

Sự tương tác với ngươi sử dụng và các tri thức sẵn có

2. HỆ THỐNG GIÁO DỤC ẢO

Hệ thống giáo dục ảo (Virtual Learning Enviroment – VLE) là một hệ thống

được thiết kế cho việc dạy và học trong một môi trương giáo dục mà ngươi dạy (giáo

viên/giảng viên) và ngươi học (học sinh/sinh viên) được phân cách bởi không gian hay

thơi gian, hoặc cả hai. Giáo viên cung cấp nội dung khóa học thông qua các ứng dụng

quản lý khóa học, các nguồn tài nguyên đa phương tiện, Internet, hội nghị truyền hình.

Sinh viên nhận các bài học và giao tiếp với giáo viên thông qua các công nghệ tương

tự.

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 4

Page 9: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

BAI TÂP 2: TỔNG QUAN TAI LIỆU

1. TÍNH ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU

Khai phá dữ liệu (Data Mining – DM) là một công nghệ được ứng dụng trong

nhiều ngành khác nhau, là sự kết hợp của trí tuệ nhân tạo (Artificial Intelligence), máy

học (Machine Learning), quản trị cơ sở dữ liệu (Database Management), trực quan

hóa dữ liệu (Data Visualization), các thuật giải toán học (Mathematich Algorithms) và

thống kê (Statistics). DM là một công nghệ cho quá trình khám phá tri thức trong một

cơ sở dữ liệu khổng lồ, cung cấp những phương pháp luận khác nhau cho quá trình ra

quyết định, giải quyết vấn đề, phân tích, lập kế hoạch, chẩn đoán, dò tìm và đổi mới.

Một số ứng dụng của khai phá dữ liệu:

Ứng dụng trong “cơ sở dữ liệu thị trương” (database marketing): phân tích

CSDL khác hàng, tìm kiếm các mẫu trong số các khách hàng và sử dụng

mẫu này để lựa chọn các khách hàng trong tương lại

Ứng dụng trong kinh doanh như phân tích chứng khoán và các văn kiện tài

chính, phân tích và báo cáo những thay đổi trong dữ liệu.

Phát hiện phòng chống gian lận

Ứng dụng trong thiên văn học

Ứng dụng trong phân tử sinh học

Mô hình hóa những thay đổi thơi tiết

v.v…

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 5

Page 10: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

2. ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG GIÁO DỤC

ẢO (APPLY DATA MINING IN VIRTUAL LEARNING

ENVIROMENT)

Trong phạm vi đề tài này, tôi nghiên cứu về ứng dụng của DM trong hệ thống

giáo dục ảo. Có rất nhiều bài báo của nhiều tác giả đã nghiên cứu về đề tài này. Và sau

đây tôi xin tổng quan lại các bài báo tiêu biểu mà tôi đã tìm hiểu được (Hình 3).

2.1. Những vấn đề liên quan đến sinh viên

[2] Lajos Izsó & Péter Tóth: Applying Web-Mining Methods for Analysis of

Student Behaviour in VLE Courses, 2008: sử dụng phương pháp dựa trên log file được

tạo ra trên server trong các khóa học về sự tương tác giữa ngươi dạy và ngươi học để

phân tích hành vi của sinh viên trong các khóa học trên mạng. Kết quả là… Với kết

quả này, tác giả đã đưa ra hướng phát triển là phải kết hợp với media trong quá trình

giảng dạy để mang lại hiệu quả hơn.

[4] Jiye Ai & James Laffey: Web Mining as a Tool for Understanding Online

Learning, 2007: nghiên cứu về vấn đề dự đoán hành động của sinh viên qua bài viết

bằng phương pháp thử nghiệm với sự phân cấp các mẫu.

[13] Behrouz Minaei-Bidgoli, Deborah A. Kashy, Gerd Kortemeyer & William

F. Punch: Predicting student performance: An application of Data Mining methods

with the educational Web-based system LON-CAPA, 2003: nghiên cứu về vấn đề

phân loại sinh viên để dự đoán kết quả học tập của sinh viên bằng phương pháp

đưa ra 1 series về sự phân loại các mẫu và so sánh hành động của chúng trên tập dữ

liệu của các khóa học online.

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 6

Page 11: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

Hình 3 – Tổng quan tài liệu ứng dụng khai phá dữ liệu trong hệ thống giáo dục ảo.

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 7

Page 12: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

[6] Pahl, Claus, Donnellan, Dave: Data Mining Technology for the Evaluation

of Web-Based Teaching and Learning System, 2002: phân tích quá trình học tập

của sinh viên nhằm giải quyết một số vấn đề như: hình thức dạy và học trên mạng ít

mang lại kết quả tốt, không có sụ tương tác giữa ngươi dạy và ngươi học, khó khăn

trong việc đánh giá hiệu quả của khóa học

[9] Changjie Tang, Huabei Yin, Tong Li, Rynson W.H. Lau, Qing Li & Danny

Kill, Personlized Courseware Construction Based on Web Data Mining: nghiên cứu

vấn đề liên quan đến sinh viên trên hệ thống giáo dục ảo như: xây dựng chương trình

học cho mỗi sinh viên bằng phương pháp tạo Web tutor tree của mỗi cá nhân bằng

giải thuật Native Algorithms và Level_generate Algorithms kết hợp với khai thác dữ

liệu cả hai: theo ngữ cảnh và theo cấu trúc của chương trình học.

[15] Behrouz Minaei-Bidgoli, William F. Punch III: Using Genetic Algorithms

for Data Mining Optimization in an Educational Web-based System: phân loại sinh

viên để dự đoán kết quả học tập theo phương pháp kết hợp DM với giải thuật di

truyền và dựa trên các đặc tính được trích từ dữ liệu đầu vào của một hệ thống giáo

dục dựa trên web.

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 8

Page 13: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

Hình 4 – Những vấn đề liên quan đến sinh viên trong hệ thống giáo dục ảo.

2.2. Những vấn đề liên quan đến giảng viên

[8] Agathe MERCERON & Kalina YACEF: Educational Data Mining a Case

Study: nghiên cứu về vấn đề giúp giảng viên hiểu và hỗ trợ quá trình học tập của

sinh viên

Hình 5 – Những vấn đề liên quan đến giảng viên trong hệ thống giáo dục ảo.

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 9

Page 14: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

2.3. Những vấn đề liên quan đến chương trình học

[5] Shana R. Ponelis: Finding Diamonds in Data Reflections on Teaching Data

Mining from the Coal Face (2009): nghiên cứu về vấn đề phát triển chương trình

giảng dạy cho một khóa học dựa trên chương trình với mô hình có sẵn từ ACM

SIGKDD.

[9] Changjie Tang, Huabei Yin, Tong Li, Rynson W.H. Lau, Qing Li & Danny

Kill: Personlized Courseware Construction Based on Web Data Mining (không xác

định năm): xây dựng chương học cho mỗi cá nhân bằng cách tạo Web tutor tree của

mỗi cá nhân bằng giải thuật Native Algorithms và Level_generate Algorithms kết hợp

với khai thác dữ liệu cả hai: theo ngữ cảnh và theo cấu trúc của chương trình học

Hình 6 – Những vấn đề liên quan đến chương trình học trong hệ thống giáo dục ảo.

2.4. Những vấn đề liên quan đến việc dạy và học

[14] P W. Ha¨ma¨la¨inen, T. H. Laine, E. Sutinen: Data Mining in

Personalizing Distance Education Courses (không xác định năm): nghiên cứu về xây

dựng hệ thống để theo dõi, can thiệp và đưa ra lời khuyên trong quá trình học

tập & giảng dạy bằng phương pháp hồi quy tuyến tính và mô hình xác xuất

Hình 7 – Những vấn đề liên quan đến việc dạy và học trong hệ thống giáo dục ảo.

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 10

Page 15: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

2.5. Những vấn đề khác xoay quanh hệ thống thống giáo dục ảo

[3] Youtian QU, Lili ZHONG, Huilai ZOU, Chaonan WANG: Research about

the Application of Web Mining in Distance Education Platform (2009): nghiên cứu về

vấn đề sử dụng Web-mining để cải tiến nền giáo dục từ xa nhằm giải quyết việc sử

dụng không tương xứng các nguồn lực giảng dạy và sự thiếu hụt về nhân sự trong nền

tảng giáo dục từ xa.

[7] C. Romero, S. Ventura: Educational data mining A survey from 1995 to

2005 (2007): một cuộc khảo sát về ứng dụng của Data mining trong hệ thống giáo dục

từ năm 1995 – 20005.

[12] Margo Hana: Data Mining in the E-Learning domain (2004): nghiên cứu

về những lợi ích trong việc tích hợp Data Mining và công nghệ E-Learning.

Hướng phát triển của nghiên cứu này là sử dụng statistical package thay cho công cụ

data mining trên cơ sở dữ liệu để đưa ra được kết quả chính xác theo thơi gian thực.

[10] Félix Castro, Alfredo Vellido, Àngela Nebot, Francisco Mugica: Applying

Data Mining Techniques to E-Learning Problems (không xác định năm): sử dụng

phương pháp mô hình hóa các kỹ thuật: mạng nơron, thuật giải di truyền, gom nhóm,

trực quan hóa, logic mơ, … để phân loại những vấn đề trong E-Learning như: phân

loại sinh viên dựa trên việc học tập, tìm ra những hành vi gian lận trong học tập, định

hướng hệ thống EL và tối ưu hóa quá trình tương tác, phân nhóm hệ thống EL theo

cách sử dụng giống nhau, và làm cho hệ thống có khả năng thích ứng với yêu cầu và

khả năng của sv.

[11] Cristóbal Romero, Sebastián Ventura, Enrique García: Data mining in

course management systems: Moodle case study and tutorial (không xác định năm):

khảo sát hệ thống quản lý các khóa học (Moodle) bằng các phương pháp: thống kê,

trực quan hóa, gom nhóm, phân lớp, luật kết hợp, khai phá các mẫu, và khai phá văn

bản của dữ liệu trên Moodle. Hướng phát triển của nghiên cứu này là xây dựng hệ

thống E-Learning dễ sử dụng, giao diện thân thiện, dễ nhìn, đầy đủ các chức năng,

tích hợp được với các hệ thống E-Learning khác.

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 11

Page 16: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

Hình 8 – Những vấn đề khác xoay quan hệ thống giáo dục ảo.

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 12

Page 17: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

Bảng 1 - Bảng tóm tắt các bài báo tham khảo

STT TÊN BAI BÁO TÁC GIẢ TÓM TẮT

1

Applying Web-mining Methods for Analysis in

Virtual Learning Environment

Peter Toth

Vấn đề: Phân tích các hành vi của sinh viên trong các khóa học trên mạng (hệ thống Moodle)Phương pháp: dựa trên log file được tạo ra trên server trong các khóa học về sự tương tác giữa ngươi dạy và ngươi họcHướng phát triển: giảng dạy kết hợp với media để các bài học được hiệu quả hơn

2

Applying Web-Mining Methods for Analysis of

Student Behaviour in VLE Courses

Lajos IzsóPéter Tóth

Vấn đề: Phân tích các hành vi của sinh viên trong các khóa học trên mạngPhương pháp: dựa trên log file được tạo ra trên server trong các khóa học về sự tương tác giữa ngươi dạy và ngươi họcHướng phát triển: giảng dạy kết hợp với media để các bài học được hiệu quả hơn

3

Research about the Application of Web Mining in Distance Education Platform

Youtian QULili ZHONG Huilai

ZOU Chaonan WANG

Vấn đề: cải tiền nền tảng giáo dục từ xa để giải quyết việc sử dụng không tương xứng các nguồn lực giảng dạy và sự thiếu hụt về nhân sự trong nền tảng giáo dục nàyPhương pháp: sử dụng web-mining

4Web Mining as a Tool

For UnderstandingOnline Learning 

Jiye AiJames Laffey

Vấn đề: giới thiệu về web-mining, e-learning và ứng dụng của web-mining trong kinh doanh và giáo dục và từ đó dự đoán hành động của sinh viên trong môi trương WebCTPhương pháp: thử nghiệm với sự phân cấp các mẫu

5 Finding Diamonds in Data Reflections on

Shana R. Ponelis Vấn đề: Mô tả sự phát triển của một chương trình giảng dạy cho 1 khóa học khai thác dữ liệu trong chương trình sau đại học ngành hệ thống thông

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 13

Page 18: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

Teaching Data Mining from the Coal Face

tinPhương pháp: dựa trên chương trình với mô hình có sẵn từ ACM SIGKDD. Điều này có ích cho các nhà giáo dục chịu trách nhiệm việc phát triển chương trình giảng dạy và khai thác dữ liệu giảng dạy đến với các sinh viên cao học ngành hệ thống thông tin.

6

Data Mining Technology for the Evaluation of

Web-Based Teaching and Learning Systems

PahlClaus Donnellan

Dave

Vấn đề: phân tích quá trình học tập của sinh viên nhằm giải quyết: Hình thức dạy và học trên mạng mạng lại ít kết quả tốt

Không có sự tương tác giữa ngươi dạy và ngươi học

Khó khăn trong việc đánh giá hiệu quả của các khóa học trên mạng

Phương pháp: sử dụng kỹ thuật data mining

7Educational data mining A survey from 1995 to

2005

C. RomeroS. Ventura

Vấn đề: khảo sát về các ứng dụng của Data Mining trong hệ thống giáo dục truyền thốngPhương pháp: Thống kê và trực quan hóa, gom lại, phân loại, và dò tìm những cái bên ngoài, khai thác luật kết hợp, khai thác mẫu, và khai thác văn bảnHướng phát triển: Đưa ra các công cụ khai thác dễ sử dụng hơn cho các nhà giáo dục và

những ngươi không phải là chuyên gia trong lĩnh vực khai thác dữ liệu Chuẩn hóa lại các phương pháp và dữ liệu

Tích hợp được với hệ thống E-Learning

Đưa ra các kỹ thuật khai thác dữ liệu cụ thể

8 Educational Data Mining Agathe Vấn đề: giúp giảng viên hiểu và hỗ trợ việc học tập của sinh viên

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 14

Page 19: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

a Case StudyMERCERON;Kalina YACEF

Phương pháp: Dựa trên log file được tạo trên server trong các khóa học về sự tương tác giữa ngươi học & ngươi dạy

9Personlized Courseware Construction Based on

Web Data Mining

Changjie TangHuabei Yin

Tong LiRynson W.H. Lau

Qing LiDanny Kill

Vấn đề: xây dựng chương trình học cho mỗi sinh viênPhương pháp: Tạo Web tutor tree của mỗi cá nhân bằng giải thuật: Native Algorithms

và Level_generate Algorithms Khai thác dữ liệu cả hai: theo ngữ cảnh và theo cấu trúc của chương

trình học

10Applying Data Mining

Techniques toE-Learning Problems

Félix CastroAlfredo VellidoÀngela Nebot

Francisco Mugica

Vấn đề: Phân loại những vấn đề trong E-LearningPhương pháp: Mô hình hóa các kỹ thuật: Neural Networks, GA, Clusterring, trực quan hóa, Fuzzy Logic, Intelligent agent, Inductive Reasoning

11

Data mining in course management systems: Moodle case study and

tutorial

Cristóbal RomeroSebastián Ventura

Enrique García

Vấn đề: Khảo sát hệ thống quản lý các khóa học (Moodle)Phương pháp: Thống kê, trực quan hóa, clustering, classification, mining luật kết hợp, mining các mẫu, và mining text của dữ liệu trên MoodleHướng phát triển: Xây dựng hệ thống E-Learning dễ sử dụng, giao diện thân thiện, dễ nhìn, đầy đủ các chức năng, tích hợp được với các hệ thống E-Learning khác

12Data Mining in the E-

Learning domainMargo Hana

Vấn đề: Những lợi ích trong việc tích hợp Data Mining và công nghệ E-LearningPhương pháp: Sử dụng statistical package thay cho công cụ data mining trên cơ sở dữ liệu để đưa ra được kết quả chính xác theo thơi gian thực

13 Predicting student Behrouz Minaei- Vấn đê: Phân loại sinh viên để dự đoán kết quả học tập của sinh viên

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 15

Page 20: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

performance: An application of Data

Mining methods with the educational

Web-based system LON-CAPA

Bidgoli;Deborah A. KashyGerd KortemeyerWilliam F. Punch

Phương pháp: Đưa ra 1 series sự phân loại các mẫu và so sánh hànhđộng của chúng trên tập dữ liệu của khóa học online

14Data Mining in

Personalizing DistanceEducation Courses

W. Ha¨ma¨la¨inenT. H. LaineE. Sutinen

Vấn đề: Xây dựng hệ thống để theo dõi, can thiệp và đưa ra lơi khuyên trong quá trình học tập & giảng dạyPhương pháp: Hồi quy tuyến tính, Mô hình xác xuất

15

Using Genetic Algorithms for Data Mining

Optimization in an Educational Web-based

System

Behrouz Minaei-Bidgoli, William F.

Punch III

Vấn đề: phân loại sinh viên để dự đoán kết quả học tập của sinh viênPhương pháp: Kết hợp với thuật giải di truyền

Dựa trên các đặc tính được trích từ dữ liệu đầu vào của một hệ thống giáo dục dựa trên web

Sự kết hợp của nhiều lớp

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 16

Page 21: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

BAI TÂP 3: ĐỂ CƯƠNG CHI TIẾT

Tên đề tài:

MẠNG NƠRON VA BAI TOÁN PHÂN CỤM DỮ LIỆU TRONG GIÁO DỤC

1. Ý nghĩa của đề tài

Nâng cao chất lượng giảng dạy và học tập trong trương Đại học Hoa Sen.

2. Mục tiêu của đề tài

Tìm hiểu về mạng nơron và ứng dụng mạng nơron để phân cụm dữ liệu trong

CSDL trương Đại học Hoa Sen để phân tích, đánh giá và dự đoán tình hình học

tập của sinh viên, từ đó có kế hoạch phù hợp nhằm nâng cao chất lượng trong giảng

dạy và học tập.

3. Mục đích nghiên cứu

Ngày nay, với sự phát triển mạnh mẽ của công nghệ thông tin (CNTT) đã làm

cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một

cách chóng mặt. Bên cạnh đó, việc tin học hóa một cách ồ ạt và nhanh chóng các hoạt

động sản xuất, kinh doanh, quản lý, nghiên cứu, giáo dục, cũng như nhiều lĩnh vực

khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu cơ sở dữ

liệu (CSDL) đã được sử dụng trong các hoạt động thuộc nhiều lĩnh vực khác nhau,

trong đó có những CSDL cực lớn cỡ Gigabyte, thậm chí là Terabyte.

Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và

công cụ mới để chuyển đổi các dữ liệu kia thành các tri thức có ích, và các tri thức này

được vận dụng để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu. Từ đó,

các kỹ thuật khai phá dữ liệu (KPDL) ra đơi và đã thành trở một lĩnh vực thơi sự của

nền CNTT thế giới hiện nay nói chung và Việt Nam nói riêng.

Giáo sư Tom Mitchell [15] đã đưa ra định nghĩa của KPDL: “KPDL là việc sử

dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 17

Page 22: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

tương lai.”. Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad [5] đã phát biểu:

“KPDL, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một

quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích,

dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu”. Nói tóm lại, KPDL là

một quá trình học tri thức mới từ những dữ liệu đã thu thập được [7, 8, 12].

Trong xu hướng nền giáo dục Đại học nước ta đang dần chuyển sang đào tạo

theo học chế tín chỉ, tức là cũng đang dần chuyển sang đổi mới phương pháp dạy và

học theo 3C: giáo viên chỉ hướng dẫn sinh viên cách học, tăng cương hơn nữa quyền

chủ động của sinh viên và khai thác tối đa ứng dụng công nghệ thông tin và truyền

thông vào nhà trương.

Thông tin giáo dục cũng được lưu trữ trong máy tính và chúng ta cần phải tìm

những thông tin có ích từ CSDL đó nhằm nâng cao chất lượng giáo dục

4. Phương pháp nghiên cứu

Khi đề cập đến khai phá dữ liệu, ngươi ta thương đề cập nhiều đến mạng

nơron.

Hình 9 – Sơ đồ mạng nơron đơn giản.

Trong sơ đồ trên (Hình 8), mỗi một nút (node) còn được gọi là một nơron hay

một đơn vị xử lý, thực hiện một công việc rất đơn giản: nhận các tín hiệu từ các

nơron khác (hay từ đầu vào). Nếu giá trị (tổng các tín hiệu) nhận được vượt quá một

ngưỡng nào đó, nơron này sẽ kích hoạt (gửi/lan truyền đến các nơron khác nữa)

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 18

Page 23: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

Hình 10 – Đơn vị xử lý (Procesing unit).

Trong đó:

xi: các đầu vào

wij: các trọng số tương ứng với các đầu vào

j: độ lệch (bias)

aj: đầu vào mạng (net-input)

zj: đầu ra của nơron

g(x): hàm chuyển (hàm kích hoạt)

Tuy mạng nơron có một số hạn chế gây khó khăn trong việc áp dụng và triển

khai nhưng nó cũng có những ưu điểm đáng kể. Một trong số những ưu điểm phải kể

đến của mạng nơron là khả năng tạo ra các mô hình dự đoán có độ chính xác cao ,

có thể áp dụng cho rất nhiều loại bài toán khác nhau, đáp ứng được nhiệm vụ đặt ra

của khai phá dữ liệu như phân lớp, phân nhóm/cụm, mô hình hóa, dự báo các sự kiện

phụ thuộc vào thơi gian

Hình 11 – Sơ đồ quá trình khai phá dữ liệu bằng mạng nơron.

Mẫu chiết xuất bằng mạng nơron được thể hiện ở các nút đầu ra của mạng.

Mạng nơron sử dụng các hàm số để tính mức tích cực của các nút đầu ra và cập nhật

các trọng số của nó.

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 19

Page 24: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

Đặc điểm của mạng nơron là không cần gia công dữ liệu nhiều trước khi bắt

đầu quá trình học như các phương pháp khác.

5. Nội dung đề tài

Đề tài bao gồm các nội dung sau:

Phần 1: Trình bày các khái niệm cơ bản về mạng nơron.

Phần 2: Trình bày về hệ thống mạng nơron lan truyền và thuật toán lan truyền

ngược

Phần 3: Trình bày ứng dụng của mạng nơron truyền thẳng huấn luyện bởi

thuật toán lan truyền ngược cho bài toán phân cụm dữ liệu trong CSDL trương Đại

học Hoa Sen để phân tích, đánh giá và dự đoán tình hình học tập của sinh viên, từ đó

có kế hoạch phù hợp nhằm nâng cao chất lượng trong giảng dạy và học tập.

Phần 4: Đưa ra một số nhận xét về phương pháp ứng dụng mạng nơron cho bài

toán phân cụm dữ liệu trong giáo dục và kết luận các kết quả đạt được.

Phần 5: Từ những nhận xét và kết luận trên để đưa ra hướng phát triển của đề

tài.

6. Kết quả đạt được

Bằng cách ứng dụng kỹ thuật khai phá dữ liệu bằng phương pháp tạo và huấn

luyện mạng nơron, đề tài đã giải quyết được bài toán phân cụm dữ liệu trong trương

Đại học Hoa Sen để phân tích, đánh giá và dự đoán tình hình học tập của sinh viên, từ

đó có kế hoạch phù hợp nhằm nâng cao chất lượng trong giảng dạy và học tập của

trương.

7. Kế hoạch thực hiện

Tùy vào thơi gian giao và nhận đề tài mà có kế hoạch thực hiện cho phù hợp

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 20

Page 25: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

8. Tài liệu tham khảo

[1] Peter Toth: Applying Web-mining Methods for Analysis in Virtual Learning

Environment, Budapest Tech Polytechnical Institution, Centre for Teacher

Training and Engineering Education, Nepszinhaz u.8. H-1081 Budapest,

Hungary

[2] Lajos Izsó1 & Péter Tóth2: Applying Web-Mining Methods for Analysis of

Student Behaviour in VLE Courses (2008), Institute of Applied Pedagogy and

Psychology, Budapest University of Technology and Economics1; Centre for

Teacher Training and Engineering Education, Budapest Tech Polytechnical

Institution3.

[3] Youtian QU, Lili ZHONG, Huilai ZOU, Chaonan WANG: Research about the

Application of Web Mining in Distance Education Platform (2009), College of

Mathematics Physics and Information Engineering, Zhejiang Normal

University, Jinhua,China.

[4] Jiye Ai & James Laffey: Web Mining as a Tool for Understanding Online

Learning (2007), University of MissouriColumbia Columbia, MO USA.

[5] Shana R. Ponelis: Finding Diamonds in Data Reflections on Teaching Data

Mining from the Coal Face (2009), School of Information Studies, University

of Wisconsin-Milwaukee, Milwaukee, Wisconsin, USA.

[6] Pahl, Claus, Donnellan, Dave: Data Mining Technology for the Evaluation of

Web-Based Teaching and Learning Systems (2002), Association for the

Advancement of Computing in Education (AACE), P.O. Box 3728, Norfolk,

VA.

[7] C. Romero*, S. Ventura: Educational data mining A survey from 1995 to 2005

(2007), Department of Computer Sciences, University of Cordoba, Cordoba,

Spain.

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 21

Page 26: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

[8] Agathe MERCERON & Kalina YACEF: Educational Data Mining a Case

Study, ESILV - Pôle Universitaire Léonard de Vinci, France School of

Information Technologies - University of Sydney, Australia.

[9] Changjie Tang, Huabei Yin, Tong Li1; Rynson W.H. Lau, Qing Li2; Danny

Kill3: Personlized Courseware Construction Based on Web Data Mining,

Computer Dept,Sichuan University, Chengdu, China1; Dept of Computer

Science, City University of Hong Kong, HK2, GE Capital (HK) Limited, HK3.

[10] Félix Castro, Alfredo Vellido, Àngela Nebot1; Félix Castro2; Francisco

Mugica3: Applying Data Mining Techniques to E-Learning, Dept. Llenguatges i

Sistemes Informatics, LSI, Universitat Politècnica de Catalunya, Campus Nord,

C. Jordi Girona 1-3, Barcelona 08034, España1; Centro de Investigación en

Tecnologías de Información y Sistemas, CITIS, Universidad2; Instituto

Latinoamericano de la Comunicación Educativa (ILCE), Calle del Puente 45,

México D. F. 14380, México3.

[11] Cristóbal Romero, Sebastián Ventura, Enrique García: Data mining in course

management systems: Moodle case study and tutorial, Department of

Computer Sciences and Numerical Analisys, University of Córdoba, 14071

Córdoba, Spain

[12] Margo Hana: Data Mining in the E-Learning domain (2004), Knowsley

Council and University of Liverpool, Wigan, UK.

[13] Behrouz Minaei-Bidgoli1, Deborah A. Kashy2, Gerd Kortemeyer, William F.

Punch4: Predicting student performance: An application of Data Mining

methods with the educational Web-based system LON-CAPA (2003), Michigan

State University, Department of Computer Science, Genetic Algorithms

Research and Applications Group (GARAGe)1, Michigan State University,

Department of Psychology2, Michigan State University, Division of Science

and Math Education3.

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 22

Page 27: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

[14] W. Ha¨ma¨la¨inen, T. H. Laine, E. Sutinen: Data Mining in Personalizing

Distance Education Courses, Department of Computer Science, University of

Joensuu, Finland.

[15] Behrouz Minaei-Bidgoli, William F. Punch III: Using Genetic Algorithms for

Data Mining Optimization in an Educational Web-based System, Genetic

Algorithms Research and Applications Group (GARAGe) Department of

Computer Science & Engineering Michigan State University

[16] TS. Nguyễn Đức Cương: Tổng quan về Khai phá dữ liệu, Khoa CNTT, Đại học

Bách Khoa, Tp. Hồ Chí Minh, Việt Nam

[17] Th.S. Trần Đức Minh: Mạng nơron truyền thẳng và ứng dụng trong dự báo dữ

liệu (2002), Viện Công nghệ thông tin, Hà nội

--- HẾT---

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 23

Page 28: Assignment PPNCKH

Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM

Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 24