Post on 05-Jul-2015
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KHOA HỌC VA KY THUÂT MÁY TÍNH
LỚP CAO HỌC MIS 2009
Bài tập môn học:
GV giảng dạy : GS. TS. Dương Nguyên Vũ
Ngươi thực hiện : Phạm Thị Thanh Tâm – 09320849
Tp. HCM, Tháng 06/2010
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
MỤC LỤC
MỤC LỤC......................................................................................................................i
DANH MỤC CÁC HÌNH ẢNH.................................................................................iii
DANH MỤC CÁC BẢNG BIỂU...............................................................................iii
BAI TÂP 1: CÁC ĐỊNH NGHĨA................................................................................1
1. KHAI PHÁ DỮ LIỆU.........................................................................................1
1.1. Khai phá dữ liệu là gì?................................................................................1
1.2. Các bước của quá trình khai phá dữ liệu.....................................................2
1.3. Nhiệm vụ chính của khai phá dữ liệu.........................................................2
1.4. Các phương pháp khai phá dữ liệu.............................................................2
1.4.1. Các thành phần của giải thuật khai phá dữ liệu..................................2
1.4.2. Một số phương pháp khai phá dữ liệu phổ biến.................................3
1.5. Những thách thức về nghiên cứu và ứng dụng kỹ thuật khai phá dữ liệu. .3
1.5.1. Những vấn đề về Cơ sở dữ liệu..........................................................3
1.5.2. Một số vấn đề khác.............................................................................4
2. HỆ THỐNG GIÁO DỤC ẢO.............................................................................4
BAI TÂP 2: TỔNG QUAN TAI LIỆU.......................................................................5
1. TÍNH ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU..............................................5
2. ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG GIÁO DỤC ẢO
(APPLY DATA MINING IN VIRTUAL LEARNING ENVIROMENT)..............6
2.1. Những vấn đề liên quan đến sinh viên........................................................6
2.2. Những vấn đề liên quan đến giảng viên......................................................9
2.3. Những vấn đề liên quan đến chương trình học.........................................10
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang i
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
2.4. Những vấn đề liên quan đến việc dạy và học...........................................10
2.5. Những vấn đề khác xoay quanh hệ thống thống giáo dục ảo...................11
BAI TÂP 3: ĐỂ CƯƠNG CHI TIẾT........................................................................17
1. Ý nghĩa của đề tài..............................................................................................17
2. Mục tiêu của đề tài............................................................................................17
3. Mục đích nghiên cứu.........................................................................................17
4. Phương pháp nghiên cứu...................................................................................18
5. Nội dung đề tài..................................................................................................20
6. Kết quả đạt được...............................................................................................20
7. Kế hoạch thực hiện............................................................................................20
8. Tài liệu tham khảo.............................................................................................21
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang ii
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
DANH MỤC CÁC HÌNH ẢNH
Hình 1 – Quá trình phát hiện tri thức.............................................................................1
Hình 2 – Các bước của quá trình khai phá dữ liệu........................................................2
Hình 3 – Tổng quan tài liệu ứng dụng khai phá dữ liệu trong hệ thống giáo dục ảo.. . .7
Hình 4 – Những vấn đề liên quan đến sinh viên trong hệ thống giáo dục ảo................9
Hình 5 – Những vấn đề liên quan đến giảng viên trong hệ thống giáo dục ảo.............9
Hình 6 – Những vấn đề liên quan đến chương trình học trong hệ thống giáo dục ảo.10
Hình 7 – Những vấn đề liên quan đến việc dạy và học trong hệ thống giáo dục ảo.. 10
Hình 8 – Những vấn đề khác xoay quan hệ thống giáo dục ảo...................................12
Hình 9 – Sơ đồ mạng nơron đơn giản..........................................................................18
Hình 10 – Đơn vị xử lý (Procesing unit).....................................................................19
Hình 11 – Sơ đồ quá trình khai phá dữ liệu bằng mạng nơron....................................19
DANH MỤC CÁC BẢNG BIỂU
Bảng 1 - Bảng tóm tắt các bài báo tham khảo.............................................................13
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang iii
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
BAI TÂP 1: CÁC ĐỊNH NGHĨA
Từ khóa: Data mining, Virtual Learning Enviroment, Virtual Learning System
1. KHAI PHÁ DỮ LIỆU
1.1. Khai phá dữ liệu là gì?
Khai phá dữ liệu (Data Mining – DM) là quá trình khám phá các tri thức mới
và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu lớn đã có (các kho dữ
liệu).
Khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình phát hiện các tri
thức có ích từ các tập dữ liệu lớn, sử dụng các giải thuật đặc biệt để chiết suất ra các
mẫu (pattern) (hay các mô hình) từ dữ liệu.
Hình 1 – Quá trình phát hiện tri thức.
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 1
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
1.2. Các bước của quá trình khai phá dữ liệu
Hình 2 – Các bước của quá trình khai phá dữ liệu.
1.3. Nhiệm vụ chính của khai phá dữ liệu
Mục đích của khai phá dữ liệu là các tri thức chiết suất được sẽ sử dụng cho lợi
ích cạnh tranh trên thương trương và các lợi ích trong nghiên cứu khoa học. Do đó, ta
có thể coi mục đích chính của khai thác dữ liệu sẽ là mô tả (description) và dự đoán
(prediction). Các mẫu khai phá dữ liệu phát hiện được nhằm vào hai mục đích này.
Để đạt được hai mục đích này, nhiệm vụ chính của khai phá dữ liệu bao gồm:
Phân lớp (Classification)
Hồi quy (Regression)
Phân nhóm (Clustering)
Tóm rắt (summarization)
Mô hình hóa phụ thuộc (Dependency Modeling)
Phát hiện sự thay đổi và độ lệch (Change and Deviation Detection)
1.4. Các phương pháp khai phá dữ liệu
1.4.1. Các thành phần của giải thuật khai phá dữ liệu
Biểu diễn mô hình
Đánh giá mô hình
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 2
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
Phương pháp tìm kiếm
1.4.2. Một số phương pháp khai phá dữ liệu phổ biến
Phương pháp quy nạp (Induction)
o Phương pháp suy diễn
o Phương pháp quy nạp
Cây quyết định và luật (Decision Tree and Rule)
Phát hiện các luật kết hợp (Assosciation Rule)
Các phương pháp phân lớp và hồi quy phi tuyến
Phân nhóm và phân đoạn (Clustering and Degmentation)
Các phương pháp dựa trên mẫu
Mô hình phụ thuộc dựa trên đồ thị xác xuất
Mô hình học quan hệ
Khai phá dữ liệu dạng văn bản (Text Mining)
Mạng nơron (Neuron Network)
Giải thuật di truyền (Genetic Algorithm)
1.5. Những thách thức về nghiên cứu và ứng dụng kỹ thuật khai phá dữ liệu
1.5.1. Những vấn đề về Cơ sở dữ liệu
Dữ liệu lớn
Kích thước lớn
Dữ liệu đóng
Các trương dữ liệu không phù hợp
Các giá trị bị thiếu
Các trương bị thiếu
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 3
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
Độ nhiễu và không chắc chắn
Mối quan hệ phức tạp giữa các trương dữ liệu
1.5.2. Một số vấn đề khác
“Quá phù hợp” (Overfitting)
Đánh giá tầm quan trọng thống kê
Khả năng biểu đạt của mẫu
Sự tương tác với ngươi sử dụng và các tri thức sẵn có
2. HỆ THỐNG GIÁO DỤC ẢO
Hệ thống giáo dục ảo (Virtual Learning Enviroment – VLE) là một hệ thống
được thiết kế cho việc dạy và học trong một môi trương giáo dục mà ngươi dạy (giáo
viên/giảng viên) và ngươi học (học sinh/sinh viên) được phân cách bởi không gian hay
thơi gian, hoặc cả hai. Giáo viên cung cấp nội dung khóa học thông qua các ứng dụng
quản lý khóa học, các nguồn tài nguyên đa phương tiện, Internet, hội nghị truyền hình.
Sinh viên nhận các bài học và giao tiếp với giáo viên thông qua các công nghệ tương
tự.
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 4
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
BAI TÂP 2: TỔNG QUAN TAI LIỆU
1. TÍNH ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU
Khai phá dữ liệu (Data Mining – DM) là một công nghệ được ứng dụng trong
nhiều ngành khác nhau, là sự kết hợp của trí tuệ nhân tạo (Artificial Intelligence), máy
học (Machine Learning), quản trị cơ sở dữ liệu (Database Management), trực quan
hóa dữ liệu (Data Visualization), các thuật giải toán học (Mathematich Algorithms) và
thống kê (Statistics). DM là một công nghệ cho quá trình khám phá tri thức trong một
cơ sở dữ liệu khổng lồ, cung cấp những phương pháp luận khác nhau cho quá trình ra
quyết định, giải quyết vấn đề, phân tích, lập kế hoạch, chẩn đoán, dò tìm và đổi mới.
Một số ứng dụng của khai phá dữ liệu:
Ứng dụng trong “cơ sở dữ liệu thị trương” (database marketing): phân tích
CSDL khác hàng, tìm kiếm các mẫu trong số các khách hàng và sử dụng
mẫu này để lựa chọn các khách hàng trong tương lại
Ứng dụng trong kinh doanh như phân tích chứng khoán và các văn kiện tài
chính, phân tích và báo cáo những thay đổi trong dữ liệu.
Phát hiện phòng chống gian lận
Ứng dụng trong thiên văn học
Ứng dụng trong phân tử sinh học
Mô hình hóa những thay đổi thơi tiết
v.v…
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 5
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
2. ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG GIÁO DỤC
ẢO (APPLY DATA MINING IN VIRTUAL LEARNING
ENVIROMENT)
Trong phạm vi đề tài này, tôi nghiên cứu về ứng dụng của DM trong hệ thống
giáo dục ảo. Có rất nhiều bài báo của nhiều tác giả đã nghiên cứu về đề tài này. Và sau
đây tôi xin tổng quan lại các bài báo tiêu biểu mà tôi đã tìm hiểu được (Hình 3).
2.1. Những vấn đề liên quan đến sinh viên
[2] Lajos Izsó & Péter Tóth: Applying Web-Mining Methods for Analysis of
Student Behaviour in VLE Courses, 2008: sử dụng phương pháp dựa trên log file được
tạo ra trên server trong các khóa học về sự tương tác giữa ngươi dạy và ngươi học để
phân tích hành vi của sinh viên trong các khóa học trên mạng. Kết quả là… Với kết
quả này, tác giả đã đưa ra hướng phát triển là phải kết hợp với media trong quá trình
giảng dạy để mang lại hiệu quả hơn.
[4] Jiye Ai & James Laffey: Web Mining as a Tool for Understanding Online
Learning, 2007: nghiên cứu về vấn đề dự đoán hành động của sinh viên qua bài viết
bằng phương pháp thử nghiệm với sự phân cấp các mẫu.
[13] Behrouz Minaei-Bidgoli, Deborah A. Kashy, Gerd Kortemeyer & William
F. Punch: Predicting student performance: An application of Data Mining methods
with the educational Web-based system LON-CAPA, 2003: nghiên cứu về vấn đề
phân loại sinh viên để dự đoán kết quả học tập của sinh viên bằng phương pháp
đưa ra 1 series về sự phân loại các mẫu và so sánh hành động của chúng trên tập dữ
liệu của các khóa học online.
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 6
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
Hình 3 – Tổng quan tài liệu ứng dụng khai phá dữ liệu trong hệ thống giáo dục ảo.
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 7
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
[6] Pahl, Claus, Donnellan, Dave: Data Mining Technology for the Evaluation
of Web-Based Teaching and Learning System, 2002: phân tích quá trình học tập
của sinh viên nhằm giải quyết một số vấn đề như: hình thức dạy và học trên mạng ít
mang lại kết quả tốt, không có sụ tương tác giữa ngươi dạy và ngươi học, khó khăn
trong việc đánh giá hiệu quả của khóa học
[9] Changjie Tang, Huabei Yin, Tong Li, Rynson W.H. Lau, Qing Li & Danny
Kill, Personlized Courseware Construction Based on Web Data Mining: nghiên cứu
vấn đề liên quan đến sinh viên trên hệ thống giáo dục ảo như: xây dựng chương trình
học cho mỗi sinh viên bằng phương pháp tạo Web tutor tree của mỗi cá nhân bằng
giải thuật Native Algorithms và Level_generate Algorithms kết hợp với khai thác dữ
liệu cả hai: theo ngữ cảnh và theo cấu trúc của chương trình học.
[15] Behrouz Minaei-Bidgoli, William F. Punch III: Using Genetic Algorithms
for Data Mining Optimization in an Educational Web-based System: phân loại sinh
viên để dự đoán kết quả học tập theo phương pháp kết hợp DM với giải thuật di
truyền và dựa trên các đặc tính được trích từ dữ liệu đầu vào của một hệ thống giáo
dục dựa trên web.
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 8
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
Hình 4 – Những vấn đề liên quan đến sinh viên trong hệ thống giáo dục ảo.
2.2. Những vấn đề liên quan đến giảng viên
[8] Agathe MERCERON & Kalina YACEF: Educational Data Mining a Case
Study: nghiên cứu về vấn đề giúp giảng viên hiểu và hỗ trợ quá trình học tập của
sinh viên
Hình 5 – Những vấn đề liên quan đến giảng viên trong hệ thống giáo dục ảo.
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 9
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
2.3. Những vấn đề liên quan đến chương trình học
[5] Shana R. Ponelis: Finding Diamonds in Data Reflections on Teaching Data
Mining from the Coal Face (2009): nghiên cứu về vấn đề phát triển chương trình
giảng dạy cho một khóa học dựa trên chương trình với mô hình có sẵn từ ACM
SIGKDD.
[9] Changjie Tang, Huabei Yin, Tong Li, Rynson W.H. Lau, Qing Li & Danny
Kill: Personlized Courseware Construction Based on Web Data Mining (không xác
định năm): xây dựng chương học cho mỗi cá nhân bằng cách tạo Web tutor tree của
mỗi cá nhân bằng giải thuật Native Algorithms và Level_generate Algorithms kết hợp
với khai thác dữ liệu cả hai: theo ngữ cảnh và theo cấu trúc của chương trình học
Hình 6 – Những vấn đề liên quan đến chương trình học trong hệ thống giáo dục ảo.
2.4. Những vấn đề liên quan đến việc dạy và học
[14] P W. Ha¨ma¨la¨inen, T. H. Laine, E. Sutinen: Data Mining in
Personalizing Distance Education Courses (không xác định năm): nghiên cứu về xây
dựng hệ thống để theo dõi, can thiệp và đưa ra lời khuyên trong quá trình học
tập & giảng dạy bằng phương pháp hồi quy tuyến tính và mô hình xác xuất
Hình 7 – Những vấn đề liên quan đến việc dạy và học trong hệ thống giáo dục ảo.
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 10
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
2.5. Những vấn đề khác xoay quanh hệ thống thống giáo dục ảo
[3] Youtian QU, Lili ZHONG, Huilai ZOU, Chaonan WANG: Research about
the Application of Web Mining in Distance Education Platform (2009): nghiên cứu về
vấn đề sử dụng Web-mining để cải tiến nền giáo dục từ xa nhằm giải quyết việc sử
dụng không tương xứng các nguồn lực giảng dạy và sự thiếu hụt về nhân sự trong nền
tảng giáo dục từ xa.
[7] C. Romero, S. Ventura: Educational data mining A survey from 1995 to
2005 (2007): một cuộc khảo sát về ứng dụng của Data mining trong hệ thống giáo dục
từ năm 1995 – 20005.
[12] Margo Hana: Data Mining in the E-Learning domain (2004): nghiên cứu
về những lợi ích trong việc tích hợp Data Mining và công nghệ E-Learning.
Hướng phát triển của nghiên cứu này là sử dụng statistical package thay cho công cụ
data mining trên cơ sở dữ liệu để đưa ra được kết quả chính xác theo thơi gian thực.
[10] Félix Castro, Alfredo Vellido, Àngela Nebot, Francisco Mugica: Applying
Data Mining Techniques to E-Learning Problems (không xác định năm): sử dụng
phương pháp mô hình hóa các kỹ thuật: mạng nơron, thuật giải di truyền, gom nhóm,
trực quan hóa, logic mơ, … để phân loại những vấn đề trong E-Learning như: phân
loại sinh viên dựa trên việc học tập, tìm ra những hành vi gian lận trong học tập, định
hướng hệ thống EL và tối ưu hóa quá trình tương tác, phân nhóm hệ thống EL theo
cách sử dụng giống nhau, và làm cho hệ thống có khả năng thích ứng với yêu cầu và
khả năng của sv.
[11] Cristóbal Romero, Sebastián Ventura, Enrique García: Data mining in
course management systems: Moodle case study and tutorial (không xác định năm):
khảo sát hệ thống quản lý các khóa học (Moodle) bằng các phương pháp: thống kê,
trực quan hóa, gom nhóm, phân lớp, luật kết hợp, khai phá các mẫu, và khai phá văn
bản của dữ liệu trên Moodle. Hướng phát triển của nghiên cứu này là xây dựng hệ
thống E-Learning dễ sử dụng, giao diện thân thiện, dễ nhìn, đầy đủ các chức năng,
tích hợp được với các hệ thống E-Learning khác.
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 11
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
Hình 8 – Những vấn đề khác xoay quan hệ thống giáo dục ảo.
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 12
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
Bảng 1 - Bảng tóm tắt các bài báo tham khảo
STT TÊN BAI BÁO TÁC GIẢ TÓM TẮT
1
Applying Web-mining Methods for Analysis in
Virtual Learning Environment
Peter Toth
Vấn đề: Phân tích các hành vi của sinh viên trong các khóa học trên mạng (hệ thống Moodle)Phương pháp: dựa trên log file được tạo ra trên server trong các khóa học về sự tương tác giữa ngươi dạy và ngươi họcHướng phát triển: giảng dạy kết hợp với media để các bài học được hiệu quả hơn
2
Applying Web-Mining Methods for Analysis of
Student Behaviour in VLE Courses
Lajos IzsóPéter Tóth
Vấn đề: Phân tích các hành vi của sinh viên trong các khóa học trên mạngPhương pháp: dựa trên log file được tạo ra trên server trong các khóa học về sự tương tác giữa ngươi dạy và ngươi họcHướng phát triển: giảng dạy kết hợp với media để các bài học được hiệu quả hơn
3
Research about the Application of Web Mining in Distance Education Platform
Youtian QULili ZHONG Huilai
ZOU Chaonan WANG
Vấn đề: cải tiền nền tảng giáo dục từ xa để giải quyết việc sử dụng không tương xứng các nguồn lực giảng dạy và sự thiếu hụt về nhân sự trong nền tảng giáo dục nàyPhương pháp: sử dụng web-mining
4Web Mining as a Tool
For UnderstandingOnline Learning
Jiye AiJames Laffey
Vấn đề: giới thiệu về web-mining, e-learning và ứng dụng của web-mining trong kinh doanh và giáo dục và từ đó dự đoán hành động của sinh viên trong môi trương WebCTPhương pháp: thử nghiệm với sự phân cấp các mẫu
5 Finding Diamonds in Data Reflections on
Shana R. Ponelis Vấn đề: Mô tả sự phát triển của một chương trình giảng dạy cho 1 khóa học khai thác dữ liệu trong chương trình sau đại học ngành hệ thống thông
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 13
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
Teaching Data Mining from the Coal Face
tinPhương pháp: dựa trên chương trình với mô hình có sẵn từ ACM SIGKDD. Điều này có ích cho các nhà giáo dục chịu trách nhiệm việc phát triển chương trình giảng dạy và khai thác dữ liệu giảng dạy đến với các sinh viên cao học ngành hệ thống thông tin.
6
Data Mining Technology for the Evaluation of
Web-Based Teaching and Learning Systems
PahlClaus Donnellan
Dave
Vấn đề: phân tích quá trình học tập của sinh viên nhằm giải quyết: Hình thức dạy và học trên mạng mạng lại ít kết quả tốt
Không có sự tương tác giữa ngươi dạy và ngươi học
Khó khăn trong việc đánh giá hiệu quả của các khóa học trên mạng
Phương pháp: sử dụng kỹ thuật data mining
7Educational data mining A survey from 1995 to
2005
C. RomeroS. Ventura
Vấn đề: khảo sát về các ứng dụng của Data Mining trong hệ thống giáo dục truyền thốngPhương pháp: Thống kê và trực quan hóa, gom lại, phân loại, và dò tìm những cái bên ngoài, khai thác luật kết hợp, khai thác mẫu, và khai thác văn bảnHướng phát triển: Đưa ra các công cụ khai thác dễ sử dụng hơn cho các nhà giáo dục và
những ngươi không phải là chuyên gia trong lĩnh vực khai thác dữ liệu Chuẩn hóa lại các phương pháp và dữ liệu
Tích hợp được với hệ thống E-Learning
Đưa ra các kỹ thuật khai thác dữ liệu cụ thể
8 Educational Data Mining Agathe Vấn đề: giúp giảng viên hiểu và hỗ trợ việc học tập của sinh viên
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 14
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
a Case StudyMERCERON;Kalina YACEF
Phương pháp: Dựa trên log file được tạo trên server trong các khóa học về sự tương tác giữa ngươi học & ngươi dạy
9Personlized Courseware Construction Based on
Web Data Mining
Changjie TangHuabei Yin
Tong LiRynson W.H. Lau
Qing LiDanny Kill
Vấn đề: xây dựng chương trình học cho mỗi sinh viênPhương pháp: Tạo Web tutor tree của mỗi cá nhân bằng giải thuật: Native Algorithms
và Level_generate Algorithms Khai thác dữ liệu cả hai: theo ngữ cảnh và theo cấu trúc của chương
trình học
10Applying Data Mining
Techniques toE-Learning Problems
Félix CastroAlfredo VellidoÀngela Nebot
Francisco Mugica
Vấn đề: Phân loại những vấn đề trong E-LearningPhương pháp: Mô hình hóa các kỹ thuật: Neural Networks, GA, Clusterring, trực quan hóa, Fuzzy Logic, Intelligent agent, Inductive Reasoning
11
Data mining in course management systems: Moodle case study and
tutorial
Cristóbal RomeroSebastián Ventura
Enrique García
Vấn đề: Khảo sát hệ thống quản lý các khóa học (Moodle)Phương pháp: Thống kê, trực quan hóa, clustering, classification, mining luật kết hợp, mining các mẫu, và mining text của dữ liệu trên MoodleHướng phát triển: Xây dựng hệ thống E-Learning dễ sử dụng, giao diện thân thiện, dễ nhìn, đầy đủ các chức năng, tích hợp được với các hệ thống E-Learning khác
12Data Mining in the E-
Learning domainMargo Hana
Vấn đề: Những lợi ích trong việc tích hợp Data Mining và công nghệ E-LearningPhương pháp: Sử dụng statistical package thay cho công cụ data mining trên cơ sở dữ liệu để đưa ra được kết quả chính xác theo thơi gian thực
13 Predicting student Behrouz Minaei- Vấn đê: Phân loại sinh viên để dự đoán kết quả học tập của sinh viên
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 15
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
performance: An application of Data
Mining methods with the educational
Web-based system LON-CAPA
Bidgoli;Deborah A. KashyGerd KortemeyerWilliam F. Punch
Phương pháp: Đưa ra 1 series sự phân loại các mẫu và so sánh hànhđộng của chúng trên tập dữ liệu của khóa học online
14Data Mining in
Personalizing DistanceEducation Courses
W. Ha¨ma¨la¨inenT. H. LaineE. Sutinen
Vấn đề: Xây dựng hệ thống để theo dõi, can thiệp và đưa ra lơi khuyên trong quá trình học tập & giảng dạyPhương pháp: Hồi quy tuyến tính, Mô hình xác xuất
15
Using Genetic Algorithms for Data Mining
Optimization in an Educational Web-based
System
Behrouz Minaei-Bidgoli, William F.
Punch III
Vấn đề: phân loại sinh viên để dự đoán kết quả học tập của sinh viênPhương pháp: Kết hợp với thuật giải di truyền
Dựa trên các đặc tính được trích từ dữ liệu đầu vào của một hệ thống giáo dục dựa trên web
Sự kết hợp của nhiều lớp
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 16
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
BAI TÂP 3: ĐỂ CƯƠNG CHI TIẾT
Tên đề tài:
MẠNG NƠRON VA BAI TOÁN PHÂN CỤM DỮ LIỆU TRONG GIÁO DỤC
1. Ý nghĩa của đề tài
Nâng cao chất lượng giảng dạy và học tập trong trương Đại học Hoa Sen.
2. Mục tiêu của đề tài
Tìm hiểu về mạng nơron và ứng dụng mạng nơron để phân cụm dữ liệu trong
CSDL trương Đại học Hoa Sen để phân tích, đánh giá và dự đoán tình hình học
tập của sinh viên, từ đó có kế hoạch phù hợp nhằm nâng cao chất lượng trong giảng
dạy và học tập.
3. Mục đích nghiên cứu
Ngày nay, với sự phát triển mạnh mẽ của công nghệ thông tin (CNTT) đã làm
cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một
cách chóng mặt. Bên cạnh đó, việc tin học hóa một cách ồ ạt và nhanh chóng các hoạt
động sản xuất, kinh doanh, quản lý, nghiên cứu, giáo dục, cũng như nhiều lĩnh vực
khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu cơ sở dữ
liệu (CSDL) đã được sử dụng trong các hoạt động thuộc nhiều lĩnh vực khác nhau,
trong đó có những CSDL cực lớn cỡ Gigabyte, thậm chí là Terabyte.
Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và
công cụ mới để chuyển đổi các dữ liệu kia thành các tri thức có ích, và các tri thức này
được vận dụng để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu. Từ đó,
các kỹ thuật khai phá dữ liệu (KPDL) ra đơi và đã thành trở một lĩnh vực thơi sự của
nền CNTT thế giới hiện nay nói chung và Việt Nam nói riêng.
Giáo sư Tom Mitchell [15] đã đưa ra định nghĩa của KPDL: “KPDL là việc sử
dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 17
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
tương lai.”. Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad [5] đã phát biểu:
“KPDL, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một
quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích,
dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu”. Nói tóm lại, KPDL là
một quá trình học tri thức mới từ những dữ liệu đã thu thập được [7, 8, 12].
Trong xu hướng nền giáo dục Đại học nước ta đang dần chuyển sang đào tạo
theo học chế tín chỉ, tức là cũng đang dần chuyển sang đổi mới phương pháp dạy và
học theo 3C: giáo viên chỉ hướng dẫn sinh viên cách học, tăng cương hơn nữa quyền
chủ động của sinh viên và khai thác tối đa ứng dụng công nghệ thông tin và truyền
thông vào nhà trương.
Thông tin giáo dục cũng được lưu trữ trong máy tính và chúng ta cần phải tìm
những thông tin có ích từ CSDL đó nhằm nâng cao chất lượng giáo dục
4. Phương pháp nghiên cứu
Khi đề cập đến khai phá dữ liệu, ngươi ta thương đề cập nhiều đến mạng
nơron.
Hình 9 – Sơ đồ mạng nơron đơn giản.
Trong sơ đồ trên (Hình 8), mỗi một nút (node) còn được gọi là một nơron hay
một đơn vị xử lý, thực hiện một công việc rất đơn giản: nhận các tín hiệu từ các
nơron khác (hay từ đầu vào). Nếu giá trị (tổng các tín hiệu) nhận được vượt quá một
ngưỡng nào đó, nơron này sẽ kích hoạt (gửi/lan truyền đến các nơron khác nữa)
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 18
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
Hình 10 – Đơn vị xử lý (Procesing unit).
Trong đó:
xi: các đầu vào
wij: các trọng số tương ứng với các đầu vào
j: độ lệch (bias)
aj: đầu vào mạng (net-input)
zj: đầu ra của nơron
g(x): hàm chuyển (hàm kích hoạt)
Tuy mạng nơron có một số hạn chế gây khó khăn trong việc áp dụng và triển
khai nhưng nó cũng có những ưu điểm đáng kể. Một trong số những ưu điểm phải kể
đến của mạng nơron là khả năng tạo ra các mô hình dự đoán có độ chính xác cao ,
có thể áp dụng cho rất nhiều loại bài toán khác nhau, đáp ứng được nhiệm vụ đặt ra
của khai phá dữ liệu như phân lớp, phân nhóm/cụm, mô hình hóa, dự báo các sự kiện
phụ thuộc vào thơi gian
Hình 11 – Sơ đồ quá trình khai phá dữ liệu bằng mạng nơron.
Mẫu chiết xuất bằng mạng nơron được thể hiện ở các nút đầu ra của mạng.
Mạng nơron sử dụng các hàm số để tính mức tích cực của các nút đầu ra và cập nhật
các trọng số của nó.
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 19
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
Đặc điểm của mạng nơron là không cần gia công dữ liệu nhiều trước khi bắt
đầu quá trình học như các phương pháp khác.
5. Nội dung đề tài
Đề tài bao gồm các nội dung sau:
Phần 1: Trình bày các khái niệm cơ bản về mạng nơron.
Phần 2: Trình bày về hệ thống mạng nơron lan truyền và thuật toán lan truyền
ngược
Phần 3: Trình bày ứng dụng của mạng nơron truyền thẳng huấn luyện bởi
thuật toán lan truyền ngược cho bài toán phân cụm dữ liệu trong CSDL trương Đại
học Hoa Sen để phân tích, đánh giá và dự đoán tình hình học tập của sinh viên, từ đó
có kế hoạch phù hợp nhằm nâng cao chất lượng trong giảng dạy và học tập.
Phần 4: Đưa ra một số nhận xét về phương pháp ứng dụng mạng nơron cho bài
toán phân cụm dữ liệu trong giáo dục và kết luận các kết quả đạt được.
Phần 5: Từ những nhận xét và kết luận trên để đưa ra hướng phát triển của đề
tài.
6. Kết quả đạt được
Bằng cách ứng dụng kỹ thuật khai phá dữ liệu bằng phương pháp tạo và huấn
luyện mạng nơron, đề tài đã giải quyết được bài toán phân cụm dữ liệu trong trương
Đại học Hoa Sen để phân tích, đánh giá và dự đoán tình hình học tập của sinh viên, từ
đó có kế hoạch phù hợp nhằm nâng cao chất lượng trong giảng dạy và học tập của
trương.
7. Kế hoạch thực hiện
Tùy vào thơi gian giao và nhận đề tài mà có kế hoạch thực hiện cho phù hợp
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 20
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
8. Tài liệu tham khảo
[1] Peter Toth: Applying Web-mining Methods for Analysis in Virtual Learning
Environment, Budapest Tech Polytechnical Institution, Centre for Teacher
Training and Engineering Education, Nepszinhaz u.8. H-1081 Budapest,
Hungary
[2] Lajos Izsó1 & Péter Tóth2: Applying Web-Mining Methods for Analysis of
Student Behaviour in VLE Courses (2008), Institute of Applied Pedagogy and
Psychology, Budapest University of Technology and Economics1; Centre for
Teacher Training and Engineering Education, Budapest Tech Polytechnical
Institution3.
[3] Youtian QU, Lili ZHONG, Huilai ZOU, Chaonan WANG: Research about the
Application of Web Mining in Distance Education Platform (2009), College of
Mathematics Physics and Information Engineering, Zhejiang Normal
University, Jinhua,China.
[4] Jiye Ai & James Laffey: Web Mining as a Tool for Understanding Online
Learning (2007), University of MissouriColumbia Columbia, MO USA.
[5] Shana R. Ponelis: Finding Diamonds in Data Reflections on Teaching Data
Mining from the Coal Face (2009), School of Information Studies, University
of Wisconsin-Milwaukee, Milwaukee, Wisconsin, USA.
[6] Pahl, Claus, Donnellan, Dave: Data Mining Technology for the Evaluation of
Web-Based Teaching and Learning Systems (2002), Association for the
Advancement of Computing in Education (AACE), P.O. Box 3728, Norfolk,
VA.
[7] C. Romero*, S. Ventura: Educational data mining A survey from 1995 to 2005
(2007), Department of Computer Sciences, University of Cordoba, Cordoba,
Spain.
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 21
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
[8] Agathe MERCERON & Kalina YACEF: Educational Data Mining a Case
Study, ESILV - Pôle Universitaire Léonard de Vinci, France School of
Information Technologies - University of Sydney, Australia.
[9] Changjie Tang, Huabei Yin, Tong Li1; Rynson W.H. Lau, Qing Li2; Danny
Kill3: Personlized Courseware Construction Based on Web Data Mining,
Computer Dept,Sichuan University, Chengdu, China1; Dept of Computer
Science, City University of Hong Kong, HK2, GE Capital (HK) Limited, HK3.
[10] Félix Castro, Alfredo Vellido, Àngela Nebot1; Félix Castro2; Francisco
Mugica3: Applying Data Mining Techniques to E-Learning, Dept. Llenguatges i
Sistemes Informatics, LSI, Universitat Politècnica de Catalunya, Campus Nord,
C. Jordi Girona 1-3, Barcelona 08034, España1; Centro de Investigación en
Tecnologías de Información y Sistemas, CITIS, Universidad2; Instituto
Latinoamericano de la Comunicación Educativa (ILCE), Calle del Puente 45,
México D. F. 14380, México3.
[11] Cristóbal Romero, Sebastián Ventura, Enrique García: Data mining in course
management systems: Moodle case study and tutorial, Department of
Computer Sciences and Numerical Analisys, University of Córdoba, 14071
Córdoba, Spain
[12] Margo Hana: Data Mining in the E-Learning domain (2004), Knowsley
Council and University of Liverpool, Wigan, UK.
[13] Behrouz Minaei-Bidgoli1, Deborah A. Kashy2, Gerd Kortemeyer, William F.
Punch4: Predicting student performance: An application of Data Mining
methods with the educational Web-based system LON-CAPA (2003), Michigan
State University, Department of Computer Science, Genetic Algorithms
Research and Applications Group (GARAGe)1, Michigan State University,
Department of Psychology2, Michigan State University, Division of Science
and Math Education3.
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 22
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
[14] W. Ha¨ma¨la¨inen, T. H. Laine, E. Sutinen: Data Mining in Personalizing
Distance Education Courses, Department of Computer Science, University of
Joensuu, Finland.
[15] Behrouz Minaei-Bidgoli, William F. Punch III: Using Genetic Algorithms for
Data Mining Optimization in an Educational Web-based System, Genetic
Algorithms Research and Applications Group (GARAGe) Department of
Computer Science & Engineering Michigan State University
[16] TS. Nguyễn Đức Cương: Tổng quan về Khai phá dữ liệu, Khoa CNTT, Đại học
Bách Khoa, Tp. Hồ Chí Minh, Việt Nam
[17] Th.S. Trần Đức Minh: Mạng nơron truyền thẳng và ứng dụng trong dự báo dữ
liệu (2002), Viện Công nghệ thông tin, Hà nội
--- HẾT---
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 23
Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM
Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 24