NOME - Programa de Pós-Graduação em Engenharia de … · desses cursos na tarefa de analisar,...
Transcript of NOME - Programa de Pós-Graduação em Engenharia de … · desses cursos na tarefa de analisar,...
UNIVERSIDADE PAULISTA
PROGRAMA DE DOUTORADO EM ENGENHARIA DE PRODUÇÃO
MINERAÇÃO DE DADOS EDUCACIONAIS PARA A
GESTÃO DE CURSOS MASSIVOS
Tese apresentada ao Programa de Pós-
Graduação em Engenharia de Produção da
Universidade Paulista - UNIP, para obtenção
do título de Doutor em Engenharia de
Produção.
LUIS NAITO MENDES BEZERRA
SÃO PAULO
2017
UNIVERSIDADE PAULISTA
PROGRAMA DE DOUTORADO EM ENGENHARIA DE PRODUÇÃO
MINERAÇÃO DE DADOS EDUCACIONAIS PARA A
GESTÃO DE CURSOS MASSIVOS
Tese apresentada ao Programa de Pós-
Graduação em Engenharia de Produção da
Universidade Paulista - UNIP, para obtenção
do título de Doutor em Engenharia de
Produção.
Área de concentração: Gestão de Sistemas de
Operação
Linha de pesquisa: Redes de empresas e
planejamento da produção
Projeto de pesquisa: Gestão de operações de
serviços - formas organizacionais, métodos e
ferramentas para a gestão.
LUIS NAITO MENDES BEZERRA
SÃO PAULO
2017
FICHA CATALOGRÁFICA
Bezerra, Luis Naito Mendes.
Mineração de Dados Educacionais para a gestão de cursos massivos. /
Luis Naito Mendes Bezerra. - 2017.
141 f. : il. color. + CD-ROM.
Tese de Doutorado Apresentada ao Programa de Pós Graduação em
Engenharia de Produção da Universidade Paulista, São Paulo, 2017.
Área de Concentração: Gestão de Sistemas de Operação: Redes de
Empresas e Planejamento da Produção.
Orientadora: Prof.ª Dra. Márcia Terra da Silva.
1. EDM. 2. MOOCs. 3. Cursos massivos. 4. Análise de dados
educacionais. 5. Gestão. I. Silva, Márcia Terra da (orientadora).
II. Título.
LUIS NAITO MENDES BEZERRA
MINERAÇÃO DE DADOS EDUCACIONAIS PARA A
GESTÃO DE CURSOS MASSIVOS
Tese apresentada ao Programa de Pós-
Graduação em Engenharia de Produção da
Universidade Paulista - UNIP, para obtenção
do título de Doutor em Engenharia de
Produção.
Aprovado em:
BANCA EXAMINADORA
_____________________________________ / ____ / ____
Prof. Dra. Márcia Terra da Silva - Orientadora
Universidade Paulista – UNIP
_____________________________________ / ____ / ____
Prof. Dr. Carlos Fernando de Araujo Jr.
Universidade Cruzeiro do Sul
_____________________________________ / ____ / ____
Prof. Dr. Ismar Frango Silveira
Universidade Presbiteriana Mackenzie
_____________________________________ / ____ / ____
Prof. Dr. Oduvaldo Vendrametto
Universidade Paulista – UNIP
_____________________________________ / ____ / ____
Prof. Dr. José Benedito Sacomano
Universidade Paulista - UNIP
DEDICATÓRIA
A minha esposa, meu amor e companheira de todos os
momentos, Vilma Silva Lima, por ter me inspirado e apoiado
desde o início do doutorado, além de ter sempre acreditado
nos meus sonhos e tolerado a minha ausência em muitos
momentos.
AGRADECIMENTOS
Agradeço a minha orientadora, professora doutora Márcia Terra da Silva, pela orientação
sempre presente e dedicada, além da generosidade em compartilhar sua experiência e
conhecimentos comigo.
Aos meus pais Milton (in memoriam) e Melise, por todos os ensinamentos, por todos os
sacrifícios e por sempre acreditarem em mim.
Aos meus avós maternos Shungoro (in memoriam) e Sonja (in memoriam), pela educação e
pelos exemplos de vida.
A minha filha do coração Ana Paula, por ser tão especial e importante em todos os meus
momentos de alegria.
Ao meu irmão Milton, meu grande amigo e companheiro de todas as jornadas. A minha
cunhada Déborah, uma pessoa especial e incentivadora dos meus projetos, além dos meus
queridos sobrinhos Rafael, Carolina e Julia, que são uma alegria imensa na minha vida.
Aos demais professores doutores do programa Rodrigo Franco Gonçalves, Pedro Luiz de
Oliveira Costa Neto, Irenilza de Alencar Nääs, Oduvaldo Vendrametto, José Benedito
Sacomano e João Gilberto Mendes dos Reis, pelas aulas e pela troca intensa de experiências.
Aos colegas do programa, em especial a Marcelo Bernardino de Araújo, pelo apoio e
companheirismo, além das ótimas dicas de revistas e formatação de artigos.
Ao amigo e colega de trabalho, Doutor Alberto Messias, pelas dicas e apoio nas análises dos
algoritmos de mineração de dados.
À amiga e colega de trabalho, Doutora Regina Tavares, pela dedicação e profissionalismo na
produção e edição dos vídeos do curso Carreira S/A.
À minha amiga Wyara Medeiros pela amizade e apoio.
À UNIP, pela bolsa parcial para o curso de Doutorado.
Aos funcionários da UNIP, em especial à funcionária Márcia Nunes, que tanto me ajudaram
durante o curso.
RESUMO
BEZERRA, Luis Naito Mendes. Mineração de Dados Educacionais para a gestão de
cursos massivos. Páginas: 141. Tese (Engenharia de Produção), Universidade Paulista, São
Paulo, 2017.
Em relação aos cursos tradicionais ministrados a distância, assim como nos MOOCs
(Massive Open Online Course), os Ambientes Virtuais de Aprendizagem (AVAs) ou
Learning Management System (LMS) registram uma quantidade significativa de dados de
navegação, participação e progresso dos alunos, possibilitando que sejam feitas diversas
análises relacionadas ao padrão ou conjunto de padrões de comportamento dos mesmos. A
análise desse grande volume de dados é inviável sem o auxílio de recursos computacionais
adequados, sendo fundamental a disponibilização de ferramentas que auxiliem os gestores
desses cursos na tarefa de analisar, interpretar e relacionar esses dados, para que se possam
elaborar e definir estratégias de ação em cada domínio de aplicação.
Esta tese tem como objetivo central descrever e analisar as contribuições e limitações da
aplicação de métodos de mineração de dados educacionais para identificar conhecimentos
novos e relevantes a respeito do padrão ou conjunto de padrões de comportamentos dos
alunos em cursos massivos. Os gestores deixariam de tomar decisões de forma empírica e
subjetiva, pois a partir dos padrões descobertos, seria possível gerar conhecimento útil para a
tomada de decisão, visando à diminuição das taxas de evasão e a melhorar o processo de
ensino e aprendizagem.
Em termos metodológicos, é uma pesquisa aplicada, em que o principal procedimento
utilizado é o da pesquisa-ação.
A aplicação dos algoritmos de MDE, especificamente, árvore de decisão (decision tree) e o
agrupamento (clustering), possibilitou que fossem descobertos padrões de comportamento
relevantes para a gestão de cursos massivos, como o tipo de atributo que contribuiu de
maneira mais significativa para a aprovação dos alunos e o padrão de comportamento de
grupos de alunos reprovados, elementos que podem ser muito úteis para que a tutoria trate
com maior atenção justamente aqueles alunos que mais necessitam de apoio durante o curso.
Palavras-chave: MOOCs; curso massivo; Mineração de Dados Educacionais; gestão.
ABSTRACT
BEZERRA, Luis Naito Mendes. Educational Data Mining for the management of massive
courses. 141 pages. Thesis (Production Engineering), Paulista University, São Paulo, Brazil,
2017.
In relation to traditional distance learning courses, as also MOOCs (Massive Open Online
Courses), the Learning Management System (LMS) show a significant volume of data
regarding navigation, participation and progress of students, enabling the carrying out of
several different analyses related to the standard, or set of standards, of behaviour among this
group. The analysis of this significant volume of data is not feasible without the aid of
appropriate computer resources, and here it is essential that tools be made available to help
the managers of such courses in their tasks of analysing and interpreting this data, and also in
establishing relationships between the items of data, so that it may be possible to draw up and
define strategies for action in each domain of application.
The core purpose of this thesis is that of describing and analysing the contributions and also
the limitations of the application of educational data mining (EDM) methods to identify new
and relevant knowledge about the standard, or set of standards, of behaviour among students
in massive courses. The managers no longer take decisions in a subjective and empirical way
because, based on the standards that have been discovered, it would be possible to generate
useful knowledge to help with decision making, seeking to reduce the dropout rate and also to
improve the teaching-learning process.
In methodological terms, this is an applied research study in which the main procedure used
is that of research-action.
The application of EDM algorithms, specifically decision trees and clustering, make it
possible to discover relevant standards of behaviour for the management of massive courses,
such as the kind of attribute that has made the most significant contribution towards the
students’ passes, and also the patterns of behaviour for groups of students that have failed,
elements that can be very useful indeed, so that the tutorship team may address, with greater
attention, those very students that most need help throughout the course.
Key words: MOOCs; massive course; Educational Data Mining (EDM); management.
LISTA DE FIGURAS
Figura 1: Crescimento dos MOOCs. Adaptado de (SHAH, 2016) .......................................... 20
Figura 2: Estrutura da tese. Fonte: O autor .............................................................................. 22
Figura 3: Timeline dos REAs aos MOOCs. Adaptado de YUAN e POWELL (2013) e YUAN
e POWELL (2015) ................................................................................................................... 29
Figura 4: O ciclo de Learnng Analytics. Adaptado de CLOW (2012) .................................... 42
Figura 5: O processo de KDD. Adaptado de GOLDSCHMIDT e BEZERRA (2015) ........... 43
Figura 6: Principais áreas da mineração de dados. Adaptado de (de CASTRO & FERRARI,
2016) ........................................................................................................................................ 45
Figura 7: Hierarquia entre dado, informação e conhecimento. Adaptado de GOLDSCHMIDT,
PASSOS e BEZERRA (2015) ................................................................................................ 46
Figura 8: Exemplo de árvore de decisão e suas regras. Fonte: GOLDSCHMIDT, PASSOS e
BEZERRA (2015) .................................................................................................................... 48
Figura 9: Exemplo de árvore de decisão. KAMPFF (2009) .................................................... 49
Figura 10: Exemplo de agrupamento. Fonte: HAN, PEI e KAMBER (2011) ........................ 52
Figura 11: O ciclo de MDE. Adaptado de LIÑÁN e PÉREZ (2015) ...................................... 55
Figura 12: RapidMiner Studio versão 7.0 ................................................................................ 57
Figura 13: Etapas da pesquisa. Fonte: o autor ......................................................................... 62
Figura 14: Sequencia de artigos da tese ................................................................................... 64
LISTA DE TABELAS
Tabela 1: Número de cursos e instituições de ensino (setembro de 2016) .............................. 19
Tabela 2: Comparação entre os principais provedores. Adaptado de YUAN e POWELL
(2013) ....................................................................................................................................... 32
Tabela 3: Comparação entre cMOOCs e xMOOCs. Adaptado de KAPLAN e HAENLEIN (
2016) ........................................................................................................................................ 35
Tabela 4: Situação dos artigos da tese em maio de 2017. Fonte: o autor ................................ 64
SUMÁRIO
1 CONSIDERAÇÕES INICIAIS ........................................................................................ 14
1.1 Introdução.................................................................................................................. 14
1.2 Situação problema ..................................................................................................... 16
1.3 Objetivos ................................................................................................................... 18
1.3.1 Objetivo Geral .................................................................................................... 18
1.3.2 Objetivos Específicos......................................................................................... 18
1.4 Justificativa................................................................................................................ 18
1.5 Contribuições esperadas ............................................................................................ 21
1.6 Organização deste trabalho ....................................................................................... 22
2 FUNDAMENTAÇÃO TEÓRICA ................................................................................... 24
2.1 A educação a distância e os MOOCs ........................................................................ 24
2.2 O contexto do surgimento dos MOOCs .................................................................... 25
2.3 O caminho inicial dos MOOCs ................................................................................. 30
2.4 Definição de MOOCs ................................................................................................ 32
2.5 Tipos de MOOCs ...................................................................................................... 34
2.5.1 Utilização dos MOOCs pelas instituições de ensino superior ........................... 35
2.5.2 Outros tipos de MOOCs..................................................................................... 36
2.6 A elevada taxa de evasão nos MOOCs ..................................................................... 38
2.7 Análise de dados........................................................................................................ 39
2.7.1 Análise de Dados Educacionais ......................................................................... 40
2.8 O processo de KDD e mineração de dados ............................................................... 43
2.8.1 Pré-processamento ............................................................................................. 44
2.8.2 Mineração de Dados (data mining) .................................................................... 44
2.8.3 Principais técnicas e algoritmos de mineração de dados ................................... 47
2.8.4 Pós-processamento ............................................................................................. 53
2.9 Educational Data Mining (EDM) ou Mineração de Dados Educacionais (MDE) ... 54
2.10 Ferramentas para mineração de dados ...................................................................... 56
2.11 Trabalhos correlatos .................................................................................................. 57
3 METODOLOGIA ............................................................................................................. 61
3.1 Procedimentos metodológicos................................................................................... 61
3.2 Estrutura da tese ........................................................................................................ 62
3.2.1 Pesquisa bibliográfica (etapa 1) ......................................................................... 63
3.2.2 Sequência de artigos da tese (etapa 2) ............................................................... 63
4 RESULTADOS EM ARTIGOS ....................................................................................... 65
4.1 Artigo 1 - “Principais Problemas no Projeto e Gestão dos MOOCs” ou “The Main
Problems in the Design and Management of MOOCs” ....................................................... 65
4.2 Artigo 2 - “Uma revisão da literatura sobre os fatores responsáveis pela alta taxa de
evasão nos MOOCs” ou “A review of literature on the reasons that cause the high dropout
rates in the MOOCs” ............................................................................................................ 72
4.3 Artigo 3 - “A aplicação de mineração de dados educacionais na descoberta de
padrões de comportamento dos alunos de uma disciplina online: um caso brasileiro” ou
“Application of educational data mining to understand the online students behavioral
pattern: a brazilian case” ..................................................................................................... 87
4.4 Artigo 4 - “O processo de mineração de dados educacionais aplicado em um curso
massivo” ............................................................................................................................. 105
5 DISCUSSÃO E CONSIDERAÇÕES FINAIS............................................................... 131
6 REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................... 134
LISTA DE ABREVIAÇÕES
ABED Associação Brasileira de Educação a Distância
AVA Ambientes Virtuais de Aprendizagem
BOOC Big Open Online Course
CBS Columbia Broadcasting Service
CCK08 Connectivism and Connective Knowledge
CRISP-DM Cross Industry Standard Process for Data Mining
DESAFIE Workshop de Desafios da Computação Aplicada à Educação
DHP Direct Hashing and Prunning
DIC Dynamic Itemset Couting
DOCC Distributed Online Collaborative Course
EaD Educação a Distância
EDM Educational Data Mining
GPL General Public Licence
KDD Knowledge Discovery in Databases
LA Learning Analytics
LMS Learning Management System
LOOC Little Open Online Course
MDE Mineração de Dados Educacionais
MIT Massachusetts Institute of Technology – MIT
MOOC Massive Open Online Course
MOOR Massive Open Online Research
ODM Oracle Data Mining
OER Open Educational Resource
ONG Organização não governamental
OCW OpenCourseWare
PBS Public Broadcasting Service
PCMT Planejamento de Carreiras e Mercado de Trabalho
REA Recurso Educacional Aberto
PBS Public Broadcasting Service
PES Precise Effectiveness Strategy
RBIE Revista Brasileira de Informática na Educação
RENOTE Revista de Novas Tecnologias na Educação
SBIE Simpósio Brasileiro de Informática na Educação
SEE Stanford Engineering Everywhere
SMOC Synchronous Massive Online Course
SNA Social Network Analysis
SPOC Small Private Online Course
TIC Tecnologia da Informação e Comunicação
UFRGS Universidade Federal do Rio Grande do Sul
VOIP Voice Over Internet Protocol
WMDE Workshop de Mineração de Dados Educacionais
WEKA Waikato Environment for Knowledge Analysis
14
1 CONSIDERAÇÕES INICIAIS
1.1 Introdução
Nos últimos anos, um novo e controverso segmento da modalidade de educação a distância
(EaD), conhecido como MOOC (Massive Open Online Course, ou Curso Online Aberto e
Massivo), tem despertado o interesse da comunidade acadêmica a partir do lançamento em
2011, por Sebastian Thrun e Peter Norvig, do curso de Inteligência Artificial (Artifical
Intelligence) na Universidade de Stanford, que atraiu mais de 160.000 alunos de 190 países
(ONG e GRIGORYAN, 2014). Diferentemente dos cursos EaD tradicionais que cobram
taxas dos alunos, concedem créditos universitários e apresentam limitações no número de
matriculados, nos MOOCs, em geral não há cobrança inicial de taxas, não concedem créditos
universitários e apresentam milhares de alunos matriculados. Em geral, a motivação inicial
dos alunos matriculados nesse tipo de curso reside em aprender sobre algum assunto novo ou
aumentar o seu grau de conhecimento a respeito de algum tema visto anteriormente (FINI,
2009; PAPPANO, 2012; HEW e CHEUNG, 2014; XING et al., 2016)
O crescimento dos MOOCs tem sido vertiginoso, com o surgimento nos Estados Unidos, de
três grandes provedores ou plataformas para a oferta de MOOCS, a saber: Coursera, Udacity
e edX (LITTLE, 2013, SANDEEN, 2013; NAWROT e DOUCET, 2014). Tais plataformas
têm conseguido distribuir os MOOCs em escala global. Por exemplo, em setembro de 2016, a
plataforma Coursera apresentava 2.216 cursos, mantendo parcerias com 146 instituições de
ensino superior de 28 países. (COURSERA, 2016).
Além do empreendimento inicial do curso de Inteligência Artificial, outras ofertas da
Universidade de Stanford merecem destaque em função do grande número de participantes,
o que atesta seu caráter massivo, como, por exemplo, os cursos de Aprendizagem de Máquina
(Machine Learning) com aproximadamente104.000 alunos matriculados e de Banco de
Dados (Databases) com aproximadamente 92.000 alunos matriculados. (RODRIGUEZ,
2012; COOPER e SAHAMI, 2013). Há outras ofertas de MOOCs com número ainda maior
de alunos matriculados, como os cursos: Social Psychology com aproximadamente 200.000
alunos e Think Again: How to Reason and Argue, com 226.652 alunos, ambos ofertados pela
15
provedora Coursera. No entanto, não é comum cursos com mais de 100.000 alunos, e um
MOOC típico apresenta em média 25.000 alunos matriculados. (JORDAN, 2015)
Qual seria a motivação das instituições de ensino superior em lançar cursos massivos, como
os MOOCs? Os MOOCs representam um modelo de negócio inovador, baseado na web para
o financiamento, concepção e prestação de serviços educacionais. (WULF et al., 2014).
Embora os cursos sejam isentos de taxas para a inscrição e acesso ao conteúdo, alguns
autores mencionam que as instituições podem cobrar taxas para a emissão dos certificados.
Com base na enorme escala em termos do número de alunos, mesmo com a cobrança de
certificados com valores entre 30 e 50 dólares, é possível que o modelo de negócios seja
sustentável. (HYMAN, 2012; ALRAIMI, ZO E CIGANEK, 2015). Para SANDEEN (2013),
o modelo de negócios dos MOOCs também tem relação com o adotado por empresas de
tecnologia, como, por exemplo, Google e RedHat Linux, que fornecem um serviço básico aos
clientes para em seguida oferecer complementos pagos. Outro elemento motivador está
vinculado com a redução de custo, devido ao acesso mais simples e de baixo custo para os
alunos, além da redução na sobrecarga relativa ao desenvolvimento e oferecimento desse tipo
de curso. (VARDI, 2012; COOPER e SAHAMI, 2013; NANFITO, 2014)
A questão dos certificados de conclusão também precisa ser analisada, uma vez que muitos
alunos não tinham muita motivação para concluir o curso, pois no princípio, os MOOCs
ofereciam apenas uma declaração de conclusão e uma nota. A partir de 2013, surgiram as
primeiras iniciativas para oferecer créditos universitários. A provedora Coursera firmou
parcerias com dez das maiores universidades públicas dos EUA para oferecer cursos com
direito a créditos, tornando a educação online disponível para mais de 1,25 milhão de
estudantes em instituições públicas (RIFKIN, 2016). Ao tomarem a decisão de oferecerem
um MOOC, as instituições de ensino acreditam também que o alcance global e a visibilidade
de tais cursos podem atrair ótimos alunos para seus escritórios de admissão. O princípio
básico dessas instituições, ao oferecer um MOOC de qualidade, estarão ajudando milhões de
estudantes que não conseguiriam custear um curso nas principais universidades do mundo, e
ao mesmo tempo, selecionar os melhores alunos para manter suas próprias operações físicas.
(SANDEEN, 2013; RIFKIN, 2016)
16
1.2 Situação problema
Apesar da escala global ter sido atingida, do grande número de alunos atendidos e do
crescimento considerável em relação à diversidade de cursos, alguns desafios vêm-se
apresentando ao universo dos MOOCs.
Diversos pesquisadores apontam que o principal desafio para os gestores desse tipo de curso,
reside nas questões relativas à evasão, bastante elevada, em torno de 90% (DANIEL, 2012;
SANDEEN, 2013; HEW e CHEUNG, 2014; WILKOWSKI, DEUTSCH, e RUSSELL, 2014;
ALRAIMI, ZO e CIGANEK, 2015; HOOD, LITLEJOHN e MILLIGAN, 2015; XING et al.,
2016). No entanto, no âmbito dos MOOCs, a taxa de conclusão está relacionada ao número
de alunos que recebem o certificado ou são aprovados no curso. (JORDAN, 2014)
Ainda no contexto dos desafios para a gestão dos MOOCs, MUÑOZ-MERINO et al. (2015)
argumentam que, devido ao grande número de alunos, os gestores e professores necessitam
de estratégias precisas, possibilitando o acompanhamento tanto do desenvolvimento
individual de cada aluno quanto da turma como um todo. Ao mesmo tempo, o grande número
de alunos participantes possibilita o acesso dos gestores e professores envolvidos a um
grande conjunto de dados das interações entre eles, possibilitando a compreensão das
experiências, processos e resultados de aprendizagem (SIEMENS e LONG, 2011; BATES,
2016).
É preciso considerar também que, nos Ambientes Virtuais de Aprendizagem (AVAs) ou
Learning Management System (LMS) tradicionais, como o Blackboard e o Moodle e nos
ambientes virtuais, específicos para MOOCs, como os utilizados pela Coursera e edX, uma
grande quantidade de dados de navegação e das atividades desempenhadas pelos alunos
podem ser coletadas, podendo ser extremamente úteis, em cursos de caráter massivo.
Contudo, a quantidade extraordinariamente grande de dados tem sido considerada um
problema, pois a capacidade de coletar e armazenar esses dados tem superado a habilidade
humana de analisar e extrair seu conhecimento. (de CASTRO e FERRARI, 2016; YOU,
2016)
No ensino presencial, o professor tem a possibilidade de interagir diretamente com os alunos,
tendo condições, de acompanhá-los, diagnosticar problemas e saber a respeito do seu
entendimento sobre o conteúdo e também sobre seu desempenho. Considerando também que
o número de alunos que o professor atende no ensino presencial, é consideravelmente menor
17
que no EaD e nos cursos massivos, a partir do feedback dos alunos, seja plausível ao
professor realizar determinados ajustes na condução da disciplina. Tal modelo não pode ser
replicado totalmente para os cursos a distância tradicionais, pois não existe a interação direta
e presencial entre professor e aluno, embora a dicotomia entre os dois modelos seja cada vez
menos relevante, em função da utilização e desenvolvimento de novas tecnologias digitais e
de comunicação.
E razão da excessiva quantidade de dados somada à dificuldade de análise, fica evidente a
necessidade do apoio de ferramentas computacionais adequadas para coletar e analisar e
interpretar todos os dados originados pelos cursos massivos, para que se possa elaborar e
definir estratégicas de ação em cada domínio de aplicação, por exemplo, para identificar
alunos em situação de evasão ou melhorar o processo de ensino e aprendizagem. (SIEMENS
e LONG, 2011; GOLDSCHMIDT, PASSOS e BEZERRA, 2015; XING et al., 2016)
Com modelos e ferramentas computacionais adequadas, diversas descobertas relacionadas ao
padrão ou conjunto de padrões de comportamento do aluno no ambiente podem ser extraídas,
permitindo entender e descrever o perfil do aluno no ambiente. A área de Mineração de
Dados Educacionais (Educational Data Mining - EDM) atua com o desenvolvimento,
pesquisa e aplicação de métodos computacionais para detectar padrões em grandes coleções
de dados educacionais, e de outra forma, seria difícil ou até mesmo impossível de analisar
devido ao enorme volume de dados. Dessa maneira, os gestores deixariam de tomar decisões
de forma empírica e subjetiva, pois a partir dos padrões descobertos, seria possível gerar
conhecimento útil para a tomada de decisão. (ROMERO e VENTURA, 2013; de CASTRO e
FERRARI, 2016; SILVA, PERES, e BOSCARIOLI, 2016)
É importante investigar e propor mecanismos que viabilizem e automatizem o
acompanhamento do desempenho acadêmico dos alunos. Em contextos educacionais, o uso
de EDM pode ser muito útil como ferramenta para que os gestores de cursos massivos atuem
de forma proativa e antecipada, para entender e melhorar o processo de ensino e
aprendizagem e aumentar o nível de permanência dos alunos nos cursos.
Busca-se, com este estudo, a solução do seguinte problema:
Como a aplicação de técnicas e algoritmos de EDM pode apoiar o processo de gestão e de
tomada de decisão em cursos massivos, possibilitando que os gestores atuem de forma efetiva
18
visando à diminuição das taxas de evasão e a melhoria continua do processo de ensino e
aprendizagem?
1.3 Objetivos
1.3.1 Objetivo Geral
O objetivo principal desta tese é analisar as contribuições e limitações da aplicação de
métodos de mineração de dados educacionais para identificar conhecimentos novos e
relevantes, a respeito do padrão ou conjunto de padrões de comportamentos dos alunos em
cursos massivos.
1.3.2 Objetivos Específicos
Para atingir o objetivo geral desta pesquisa foram estabelecidos os seguintes objetivos
específicos:
Identificar os principais problemas na gestão de cursos massivos e destacar os mais
significativos;
Estudar e avaliar as principais técnicas e ferramentas de mineração de dados, a partir
da aplicação dos mais relevantes algoritmos utilizados em MDE, no âmbito de uma
disciplina online;
Realizar experimentos em um curso criado com grande número de alunos, com base
nos principais algoritmos utilizados em MDE.
1.4 Justificativa
Os MOOCs surgiram há pouco tempo no cenário da educação superior, despertando muito
interesse e controvérsia entre alunos, professores, gestores e pesquisadores. No âmbito das
principais provedoras de oferta de MOOCs, há um interesse significativo de instituições de
ensino superior na oferta desse tipo de curso. Além dos Estados Unidos, com os provedores
pioneiros como Coursera (fundada por professores da Universidade de Stanford) e Edx
(iniciativa conjunta do MIT - Massachusetts Institute of Technology e Universidade de
Harvard), o interesse pelos MOOCS tem crescido também na Europa, com o surgimento da
provedora Miríada X, plataforma em espanhol e português, além da provedora FutureLearn,
19
iniciativa da britânica “The Open University”, tradicional instituição de ensino a distância,
com mais de 40 anos de história. (ONG & GRIGORYAN, 2014; RIFKIN, 2016)
A tabela 1 apresenta as principais plataformas com o número de cursos oferecidos e também
o número de instituições de ensino e/ou empresas parceiras.
Tabela 1: Número de cursos e instituições de ensino (setembro de 2016)
Plataforma URL Cursos Instituições de Ensino /
Empresas / Organizações
Coursera www.coursera.org 2216 146
edX https://www.edx.org/ 950 106
Udacity www.udacity.com 155 23
Miríada X https://www.miriadax.net/ 144 69
FutureLearn https://www.futurelearn.com/ 234 99
O Brasil ainda apresenta poucos MOOCs desenvolvidos em língua portuguesa. De acordo
com SCORTEGAGNA e SILVEIRA (2014), a primeira iniciativa foi feita pela Universidade
Estadual Paulista (UNESP) em 2012 e, nesse mesmo ano, foi desenvolvido o MOOC EAD
pela Pontifícia Universidade Católica de São Paulo (PUC-SP) e Associação Brasileira de
Educação a Distância (ABED). Em seguida, foram lançados outros MOOCs com certificação
pela Universidade de São Paulo (USP) em parceria com o portal brasileiro Veduca.
O Veduca passa por um processo de reformulação, oferecendo cursos em diversas áreas do
conhecimento e em parceria com instituições como a Fundação Lemann & Instituto
Peninsula, além de profissionais e professores oriundos principalmente da USP. Os cursos
são gratuitos, mas o aluno pode escolher a opção de curso com certificado por uma taxa de
R$ 49,00. (VEDUCA, 2017)
Na Europa, segundo o site Open Education Europa, que agrega dados sobre os MOOCs
naquele continente, em setembro de 2014 foram oferecidos 770 cursos, e em setembro de
2015 já eram 1771 cursos, números apontando para um crescimento de 130% (OPEN
EDUCATION EUROPA, 2015).
De acordo com SHAH (2016), os MOOCs têm mais de 35 milhões de alunos que se
matricularam em pelo menos um curso, considerando-se as principais provedoras. Segundo a
figura 1, 1.800 novos cursos foram anunciados em 2015, com um total de 4180 cursos
espalhados pelo mundo.
20
Figura 1: Crescimento dos MOOCs. Adaptado de (SHAH, 2016)
No âmbito acadêmico, os MOOCs também têm despertado interesse crescente. A pesquisa
bibliográfica de YOUSEF et al., (2014) foi conduzida em diversas bases de dados
acadêmicas e journals da área de tecnologia na educação e ensino a distância, tais como,
Education Resources Information Center (ERIC), JSTOR, ALT Open Access Repository,
Google Scholar, PsychInfo, ACM publication, IEEEXplorer, and Wiley Online Library,
American Journal of Distance Education, British Journal of Educational Technology e
Jornal of Computer Assisted Learning. Na pesquisa os autores utilizaram os termos de busca
“MOOC”, “Massive Open Online Course” e “Massively Open Online Course”. O resultado
inicial apontou 128 artigos científicos. Na sequência, após a aplicação de alguns critérios de
seleção definidos pelos autores, como, a exclusão de trabalhos com visão política ou opinião
pessoal. O resultado final aponta que o número de artigos científicos cresceu de 01 trabalho
em 2008 (ano de lançamento do primeiro MOOC) para 60 trabalhos em 2013, um total de 84
trabalhos publicados no período de 2008 a 2013.
21
1.5 Contribuições esperadas
A principal motivação para o desenvolvimento deste trabalho reside na necessidade de mais
estudos para avaliar se as diversas análises relacionadas com a utilização de Mineração de
Dados Educacionais, a partir da identificação de padrões de comportamento dos alunos de
cursos massivos, podem trazer contribuição para os gestores de instituições de ensino que
oferecem tais cursos.
Outro aspecto relevante consiste no projeto e implantação de um curso massivo, justamente
para superar uma dificuldade de pesquisa, pois os dados originados nos ambientes virtuais de
aprendizagem utilizados pelos MOOCs das principais provedoras como Coursera e Udacity,
não estão disponíveis para consulta pública, liberados somente para as próprias provedoras ou
para as instituições parceiras na oferta dos cursos.
Muitos trabalhos a respeito da utilização de mineração de dados educacionais estão
direcionados para a análise de pequenos conjuntos de dados. (KAMPFF, 2009; NATEK &
ZWILLING, 2014; MANHÃES, 2015; CAMPAGNI et al., 2015) No caso desta pesquisa, a
contribuição principal reside na aplicação de MDE em outra dimensão em relação ao número
de alunos matriculados, no caso, o curso Carreira S/A, com 181.677 alunos matriculados. Tal
curso representa um considerável desafio em termos de gestão, pois esse conjunto enorme de
alunos gerou grande quantidade de dados, além de toda a parte operacional, como analisar os
fóruns de discussão e responder às mensagens dos alunos sobre diversos assuntos. O número
de alunos matriculados no curso Carreira S/A o posiciona em lugar de destaque se comparado
com grandes MOOCs da história recente. De acordo com os dados de Jordan (2015), é o
terceiro colocado, e os dois primeiros são o Think Again: How to Reason and Argue da
provedora Coursera (Duke University), com 226.552 alunos matriculados e o Social
Psychology também da Coursera (Wesleyan University) com 200.000 alunos matriculados,
22
1.6 Organização deste trabalho
Essa tese está dividida em seis capítulos, conforme é possível observar na figura 2.
Figura 2: Estrutura da tese. Fonte: O autor
O capítulo 1 abordou as considerações iniciais, a situação problema, os objetivos e também a
justificativa, além da motivação e contribuição da tese.
O capítulo 2 apresentará a fundamentação teórica da pesquisa, com os conceitos sobre
educação a distância, MOOCs e suas derivações, além propiciar o embasamento sobre análise
de dados e o processo de Knowledge Discovery in Databases (KDD), com foco especial no
processo de mineração de dados educacionais.
O capítulo 3 terá a finalidade de discorrer sobre os procedimentos metodológicos que
norteiam a pesquisa, em especial a estrutura da tese e a descrição de suas etapas.
O capítulo 4 apresentará na integra os quatro artigos que compõem a tese e os resultados e
contribuições de cada um deles para a pesquisa.
23
O capítulos 5 apresentará a discussão e as considerações finais, com base principalmente nos
resultados e contribuições dos artigos 3 e 4, que tratam de analisar a aplicação de métodos de
mineração de dados educacionais, inicialmente em uma disciplina online e, posteriormente,
em um curso de caráter massivo, além apresentar sugestões de continuidade desta pesquisa.
24
2 FUNDAMENTAÇÃO TEÓRICA
O presente capítulo tem como objetivo contextualizar o tema apresentado e delimitar o
referencial teórico do trabalho. Os seguintes tópicos serão considerados: a educação a
distância e os MOOCs, o contexto do surgimento dos MOOCs, o caminho inicial dos
MOOCs, definição de MOOCs, tipos de MOOCs, a elevada taxa de evasão nos MOOCs,
análise de dados, o processo de KDD (knowledge discovery in databases) e mineração de
dados, mineração de dados educacionais, ferramentas para mineração de dados e trabalhos
correlatos.
2.1 A educação a distância e os MOOCs
Desde o seu surgimento, os MOOCs representam uma inegável mudança de escala em
relação ao modelo tradicional de educação a distância. Nos Estados Unidos, a educação a
distância tem sido uma realidade desde o final do século 20, com o envio de material de
ensino e exercícios pelo correio, e em seguida, a versão em áudio das aulas também se tornou
disponível. Em 1948, a Universidade de Louisville no Kentucky firmou convênio com a rede
pública de radiofusão americana, conhecida como PBS (Public Broadcasting Service),
tornando possível a utilização do rádio como meio de apoiar a educação a distância. Entre
1950 e 1980, a rede CBS (Columbia Broadcasting System) também atuou na transmissão de
séries como “Sunrise Semester” para os estudantes. (POMEROL, EPELBOIN e THORY,
2015)
Durante a década de 1990, a aprendizagem online esteve limitada a tecnologias ou métodos
de entrega assíncronos, com o aluno acessando os materiais no momento que considerasse
mais apropriado. A interação entre tutor e aluno(s) não ocorria em tempo real (online). Os
conteúdos podiam ser entregues por email, vídeos pré-gravados e arquivos de áudio. Nessa
época, ocorre o surgimento dos LMS (Learning Management System), como, por exemplo, o
BlackBoard em 1997. (FINKLE e MASTERS, 2014)
Naa década de 2000, ocorreu o advento de tecnologias síncronas, como VoIP (Voice Over
Internet Protocol ou Voz sobre IP) e videoconferência, permitindo aos professores, tutores e
alunos interagirem em tempo real, que possibilitou a criação de um ambiente que se
25
assemelhava mais de perto com a sala de aula tradicional , mas sem as limitações geográficas.
(FINKLE e MASTERS, 2014)
De forma adicional, o surgimento da Web 2.0, é um importante elemento para o aumento do
grau de interação entre os participantes. Blogs, wikis e redes sociais mudaram a forma como
as pessoas usam a Internet, e representam novas oportunidades para aprender. (FILVÀ,
GUERRERO e FORMENT, 2014)
Um considerável número de novas empresas e iniciativas contribuíram para o
desenvolvimento da aprendizagem online. Com o contínuo crescimento e desenvolvimento
de novas tecnologias da Internet, diversos materiais na forma de vídeos educacionais livres
foram disponibilizados por diversos serviços, como YouTube e iTunes. Uma série de
instituições de ensino ofereceram cursos (e-learning) e materiais online, como por exemplo, o
MIT com o programa OpenCourseWare, lançado em 2001. Houve outras iniciativas para a
oferta de cursos online, incluindo o Stanford Engineering Everywhere (SEE), lançado por
Andrew Ng em 2007, um curso completo com direito a créditos universitários. Desde 2006,
a iniciativa do Khan Academy apresenta um modelo com características, por exemplo, não ter
limite teórico em relação ao número de participantes, ser aberto e online, contando ainda com
a utilização intensa de vídeos como material didático. (SANTANA, ROSSINI e PRETTO,
2012; FINKLE e MASTERS, 2014; POMEROL, EPELBOIN e THORY, 2015)
O tópico seguinte abordará o contexto do surgimento dos MOOCs.
2.2 O contexto do surgimento dos MOOCs
A aplicação das novas tecnologias aplicadas ao processo de ensino e aprendizagem tem
ocorrido de maneira muito acelerada. A evolução da educação a distância e o
desenvolvimento da Internet têm trazido elementos evolucionários e revolucionários a esse
cenário. Os avanços das tecnologias digitais ou tecnologias da informação e comunicação
(TICs) têm reduzido as barreiras ao aluno, aumentado o nível de conectividade e facilitando o
acesso a uma ampla gama de recursos de aprendizagem na Web. (BENLAMRI e KLETT,
2015)
Para que a educação seja disponível a todos, é fundamental a filosofia de acesso aberto de
todos a tais recursos. A Educação Aberta (Open Education) é um movimento de pessoas e
26
instituições que promovem ações que têm como objetivo tornar a educação mais livre e
acessível para todos. O surgimento dos MOOCs ocorreu nesse contexto. (SANTANA,
ROSSINI e PRETTO, 2012)
Diferentes projetos surgiram a partir da filosofia de acesso aberto e tem contribuido para
facilitar a aprendizagem online. A UNESCO afirma que o acesso universal à educação de alta
qualidade é a chave para a construção da paz social e sustentável desenvolvimento
econômico, e do diálogo intercultural. Para tanto, ela mantém programas, como o “Education
for All”, com abrangência mundial, envolvendo mais de 150 países e um grande número de
organizações nao-governamentais (ONGs), que assumiram compromissos globais para
fornecer educação básica e de qualidade para todas as crianças, jovens e adultos. (PIEDRA et
al., 2015)
Um acontecimento que deve ser melhor analisado ocorreu em 2001, quando o Massachussets
Institute of Technology (MIT) criou o OpenCourseWare (OCW), uma iniciativa com o
objetivo de disponibilizar grande parte dos materiais relacionados a seus cursos de graduação
e pós-graduação para acesso ao público em geral, com finalidade de ensino, aprendizagem e
pesquisa. Em 2002, a UNESCO definiu o termo REAs (Recursos Educacionais Abertos) ou,
do inglês, OERs (Open Educational Resources), que podem ser compreendidos como
materiais de ensino, aprendizagem e pesquisa em qualquer suporte ou mídia, e estão sob
domínio público, ou estão licenciados de maneira aberta, permitindo que sejam utilizados ou
adaptados por terceiros. (ARIMOTO e BARBOSA, 2014; BENLAMRI e KLETT, 2015).
No âmbito educacional, as licenças mais utilizadas são as Creative Commons, que
estabelecem um conjunto de seis licenças que, embora se diferenciem em alguns aspectos,
possuem um conjunto de direitos básicos (baseline rights) que avalizando ao autor do recurso
o direito autoral e, a obtenção de créditos pela obra. Do ponto de vista do usuário, é garantido
o direito de uso e distribuição, sendo possível também a mudança de formato do recurso
desde que mantido seu conteúdo na íntegra. (ARIMOTO e BARBOSA, 2014)
Os REAs podem incluir desde livros didáticos e artigos acadêmicos até aulas e cursos
completos, além de software, vídeos, ferramentas, materiais ou técnicas que possam apoiar a
aprendizagem e o acesso ao conhecimento. (ATKINS, BROWN e HAMMOND, 2007)
27
A disponibilização gratuita, com pouca ou nenhuma restrição, seja técnica, legal ou de preço,
implica a utilização de uma licença aberta. O termo “aberto” concede ao usuário, por meio de
uma licença, a permissão para executar cinco ações (5Rs): (WILEY, 2016; BATES, 2016)
1. Reutilizar: o direito de utilizar o conteúdo em sua forma original ou modificada (por
exemplo, fazer uma cópia do conteúdo);
2. Revisar: o direito de adaptar, ajustar, modificar ou alterar o próprio conteúdo (por
exemplo, traduzir o conteúdo para outro idioma);
3. Remixar: o direito de combinar o conteúdo original ou revisado com outro conteúdo
para criar algo novo;
4. Redistribuir: o direito de compartilhar cópias do conteúdo original, as revisões ou as
“misturas” com outros (por exemplo, dar uma cópia do conteúdo a um colega);
5. Reter: sem restrições de gerenciamento de direitos digitais; o conteúdo é seu para
manter, quer você seja o autor, um professor utilizando o material ou um estudante.
Quando o MIT lançou seu OpenCourseWare (OCW), o seu objetivo era publicar materiais de
todos os seus cursos de forma aberta e permanente na Web, com licenças que permitissem a
sua utilização, modificação e redistribuição. Desde então, muitas outras universidades
aderiram ao movimento, como a Universidade Aberta do Reino Unido através do projeto
OpenLearn e da Open Learning Initiative, pela Universidde Carnegie Mellon. O material
didático foi disponibilizado para duas finalidades: os alunos podiam acessá-lo diretamente,
com a expectativa de aprender com ele; professores podiam utilizar o material como parte de
seu próprio material didático. (LIYANAGUNAWARDENA et al., 2014)
A iniciativa do MIT foi crucial para o desenvolvimento do conceito de abertura (open) e a
utilização dos recursos educacionais. Alguns usuários eram educadores que viram no material
“objetos de aprendizagem” que poderiam ser utilizados nos seus próprios projetos
educacionais. Mas muitos usuários encontraram nos recursos educacionais abertos a
oportunidade de viver experiências que se aproximavam da matrícula em um curso real do
MIT. (WEILAND, 2015)
No início eram apenas 50 cursos. Os últimos dados disponíveis de 2014 indicam que o
OpenCourseWare do MIT contava com 2250 cursos publicados, sendo 100 cursos totalmente
em vídeo. (MIT, 2016)
28
Neste cenário, os MOOCs surgiram, como um tipo de curso baseado na teoria conectivista,
ou conectivismo, que prevê a criação e a geração de conhecimento através da interação entre
os participantes, que são incentivados a usar uma variedade de tecnologias e redes sociais,
com o intuito de refletir sobre sua aprendizagem. Além de não terem limite teórico de
participantes, não apresentarem pré-requisitos, contavam também com a utilização de
recursos educacionais abertos (REAs). Os MOOCs carregam a palavra Open (Aberto) em seu
acrônimo e estavam apoiados na formação de redes de conhecimento, em que seus
participantes são tanto leitores quanto escritores, característica que atualmente não prevalece
no modelo adotado pelas principais provedoras. (SANTANA, ROSSINI e PRETTO, 2012)
Como os REAs, a perspectiva dos MOOCs é proporcionar educação para todos - no formato
de cursos, e não (apenas) recursos. Os REAs são imprescindíveis, no sentido de permitir que
a informação seja livremente acessada, reusada, remixada, redistribuída e retidas. Quanto
mais um curso emprega licenças restritivas em seus conteúdos, mais barreiras surgem, e
assim restringem o fluxo e acesso das informações e, se se distanciam da essência de um
MOOC. (SANTANA, ROSSINI e PRETTO, 2012; DALSGAARD & THESTRUP , 2015)
No âmbito dos MOOCs, há uma divisão entre os já citados MOOCs conectivistas (ou
cMOOCs) e outro tipo que se concentra na transmissão ou na replicação do conhecimento,
conhecido como MOOCs behavioristas, instrutivistas, ou simplesmente xMOOCs. É o caso
dos cursos ofertados pelos principais players do momento, tais como os dos grupos de
Stanford, do MIT, e das startups, como Coursera, edX e Udacity. Uma crítica comum aos
xMOOCs diz respeito aos direitos sobre os conteúdos, situação em que o conteúdo produzido
para xMOOCs (vídeos, material escrito, etc.) não é livremente licenciado. Pelo contrário, as
principais provedoras são bastante restritas, impedindo qualquer tipo de utilização dos
conteúdos dos cursos. A licença permite, em geral, apenas o consumo final do conteúdo para
quem participa do curso, mas raramente permite sua replicação, reutilização ou evolução em
outros cursos. (GERREIRO, 2013; ATENAS, 2015)
De forma complementar, de acordo com BATES (2016), os MOOCs nem sempre são abertos
no sentido dos recursos educacionais abertos. Um curso oferecido como MOOC pode ser um
REA se esse curso e todo seu material estiverem licenciados com uma licença de uso livre, do
tipo Creative Commons, ou com uma permissão expressa do autor que permita o seu uso
livre, a sua redistribuição, muitas vezes a sua adaptação, entre outras liberdades. Caso
contrário, será um curso aberto e gratuito oferecido na Internet, mas não necessariamente um
29
REA. Além disso, muitos MOOCs existem apenas por um curto período de tempo e depois
deixam de ser oferecidos, limitando sua reutilização em outros cursos.
Como é possível observar, a figura 3 apresenta um resumo, desde o surgimento do
OpenCourseWare, representando um desenvolvimento contínuo do movimento de educação
aberta. Com o desenvolvimento dos MOOCs, várias plataformas de aprendizagem aberta
foram criadas por instituições de elite, como MIT EdX e Futurelearn. (YUAN e POWELL,
2013)
Figura 3: Timeline dos REAs aos MOOCs. Adaptado de YUAN e POWELL (2013) e YUAN e POWELL
(2015)
No próximo tópico será abordado o histórico dos MOOCs.
30
2.3 O caminho inicial dos MOOCs
O primeiro MOOC, com o título “Connectivism and Connective Knowledge” (CCK08), foi
lançado em 2008 pela Universidade de Manitoba (Canadá), organizado por Stephen Downes
e George Siemens. (SANDEEN, 2013; YOUSEF et al., 2014). O termo MOOC foi citado
pela primeira vez durante o curso CCK08, por Dave Cormier, da University of Prince
Edward Island e Bryan Alexander, do Instituto Nacional de Tecnologia (Canadá).
(YEAGER, HURLEY-DASGUPTA e BLISS, 2013; SA'DON, ALIAS e OHSHIMA, 2014)
O curso pioneiro CCK08 teve 25 matriculados com direito a créditos e 2.200 sem direito a
crédito e não pagaram nenhuma taxa. (LIYANAGUNAWARDENA et al., 2014). O curso
CCK08 marca a primeira geração de MOOCs, conhecida como cMOOCs, baseado na teoria
de aprendizagem conectivista. (YEAGER, HURLEY-DASGUPTA e BLISS, 2013)
FINI (2009) menciona que o curso CCK08 também foi caracterizado pelo uso de uma
variedade de ferramentas tecnológicas disponíveis para os alunos. Algumas foram
selecionadas e propostas pelos organizadores do curso, e outras foram sugeridas pelos
participantes. Mesmo sabendo que, por parte dos alunos, era necessário apenas o uso de um
blog pessoal e de uma ferramenta para construir mapas conceituais, durante o curso foram
utilizadas mais de 12 diferentes ferramentas e ambientes tecnológicos, do ambiente virtual de
aprendizagem, no caso o Moodle, até ambientes 3D, como o Second Life.
O passo definitivo na história dos MOOCs foi o lançamento em 2011, por Sebastian Thrun e
Peter Norvig do curso de Inteligência Artificial (CS221) na Universidade de Stanford, que
atraiu mais de 160.000 alunos de 190 países. A iniciativa do curso CS221 ocorreu de forma
simultânea à disciplina presencial ministrada por Sebastian Thrun. Na versão online, 20.000
alunos concluíram o curso. (ONG & GRIGORYAN, 2014; JACOBY, 2014)
O grande número de matrículas no curso CS221 e nos dois MOOCs de Stanford subsequentes
(Aprendizagem de máquina e Introdução a banco de dados), atraiu a atenção de acadêmicos,
educadores e gerentes de negócios de instituições de ensino. (RODRIGUEZ , 2012)
Nessa mesma época, também surgiram outros provedores de conteúdo online, como a Khan
Academy e iTunesU. Tais cursos eram de alta qualidade e baseados em vídeos educacionais,
que atraíram grande número de interessados. Contudo, os conteúdos não eram organizados
como cursos completos e não ofereciam créditos acadêmicos. O conteúdo oferecido por essas
31
organizações poderia ser considerado complementar a um curso formal, tal como os tutoriais
oferecidos pela Khan Academy, por exemplo, nos segmentos de álgebra e trigonometria.
(SANDEEN, 2013)
Após atrair centenas de milhares de estudantes, a partir de 2012 nos Estados Unidos, ocorreu
o surgimento de dois empreendimentos privados: Coursera e Udacity, empresas baseadas no
modelo de startups do Vale do Silício e com fins lucrativos, sendo liderados por professores
oriundos da Universidade de Stanford. Sebastian Thrun e Peter Norvig fundaram a Udacity
em 2012, e Daphne Koller e Andrew Ng criaram sua própria plataforma, a Coursera, em
conjunto com dezenas de instituições de ensino superior ao redor do mundo. Ao mesmo
tempo, edX evoluiu como um consórcio sem fins lucrativos para a educação online,
composto inicialmente pelo MIT e a Universidade de Harvard, com a posterior adesão da
Universidade de Berkeley e da Universidade do Texas. (COOPER e SAHAMI, 2013;
SANDEEN, 2013)
As três maiores provedoras de MOOCs, Coursera, edX, e Udacity, utilizam os principios do
modelo xMOOC e atendem grande volume de alunos, com foco principal na escalabilidade,
além de basearem seus cursos de forma geral, em aulas no formato de vídeo curtos,
integradas com testes que são corrigidos automaticamente, gerando retorno imediato para os
alunos. (KAY et al., 2013; TANEJA e GOEL, 2014)
O modelo Coursera, semelhante aos demais, é baseado, principalmente, em três tipos de
estratégias ou formatos: (RIFKIN, 2016)
I. O curso é composto por segmentos de vídeo, em geral, com duração de 5 a 10
minutos, apresentados pelo professor e acompanhados de efeitos visuais e gráficos;
II. Após assistir às aulas em vídeo, os alunos devem responder algumas questões de
múltipla escolha, que são avaliadas imediatamente, proporcionando retorno rápido
sobre seu desempenho. Acredita-se que esse modelo seja importante para manter os
alunos envolvidos. Nesse modelo, existe a possibilidade da utilização da metodologia
de avaliação pelos pares (peer assessment), método em que os alunos comentam e
julgam os trabalhos de seus colegas, sendo uma forma de aprender julgando o
desempenho do colega;
III. O último refere-se à formação de grupos de estudos virtuais (fóruns de discussão),
estabelecidos ao longo de fronteiras políticas e regiões geográficas, transformando o
32
processo de aprendizagem em uma sala de aula com alunos de diversos países, em
que os alunos ensinam e aprendem uns com os outros.
Apenas durante 2013, apareceram os primeiros provedores de MOOCs fora dos Estados
Unidos: MiríadaX na Espanha; Open2Study na Austrália; FutureLearn no Reino Unido, entre
outros. (GONÇALVES e GONÇALVES, 2015)
A tabela 2 apresenta uma comparação entre os principais provedores, em relação aos aspectos
de motivação financeira, acesso, cobrança pelo certificado e créditos universitários.
Tabela 2: Comparação entre os principais provedores. Adaptado de YUAN e POWELL (2013)
Provedor Motivação
financeira
Acesso Cobrança pelo
certificado
Créditos
universitários
edX Sem fins
lucrativos
Livre Sim Não
Coursera Com fins
lucrativos
Livre Sim Parcial
Udacity Com fins
lucrativos
Livre Sim Parcial
Udemy Com fins
lucrativos
Parcial Não Não
O tópico a seguir trará uma definição detalhada de MOOC.
2.4 Definição de MOOCs
Na literatura é possível encontrar diversas definições sobre MOOCs, e as principais
características apontam para o fato de serem cursos abertos, com formato totalmente online,
sem pré-requisitos, sem cobrança inicial de taxas e com potencial para distribuir a educação
em escala global. (HYMAN, 2012; COOPER e SAHAMI, 2013; ONG e GRIGORYAN,
2014). A seguir são apresentados mais detalhes sobre os quatro principais aspectos da
definição de um MOOC:
a) Massive (massivo) – o caráter massivo é reflexo do número de participantes, podendo
variar bastante, em geral com um elevado número de alunos matriculados. (KESIM e
ALTINPULLUK, 2015) A pesquisa de JORDAN (2014) analisou 91 MOOCs, com
número de estudantes variando entre 4.500 a 226.652. De acordo com XING et al.,
(2016), não há limite teórico para o número de matrículas. Contudo, é importante
33
observar a capacidade de expansão da estrutura do curso para atender um grande
número de alunos (ANDERSON e MCGREAL, 2012);
b) Open (aberto) – o aspecto aberto significa oferecer livremente uma experiência de
aprendizagem para um vasto número de participantes ao redor do mundo,
independentemente da sua localização, idade, renda, ideologia e nível de escolaridade,
sem qualquer requisito de entrada ou pagamento do curso. Pode também fazer
referência ao uso dos REAs na construção do curso. A provedora Coursera, por
exemplo, não utiliza o conceito de REA, pois detém os direitos sobre os materiais,
que não podem ser reaproveitados ou reutilizados sem permissão. (YOUSEF et al.,
2014; BATURAY, 2015, BATES, 2016)
c) Online – o termo online refere-se ao modo de oferta desse tipo de curso, podendo ser
acessado de qualquer parte do mundo a partir de uma conexão com a internet,
possibilitando a interação síncrona e assíncrona entre os participantes do curso. O
acesso à internet rápida é importante para os MOOCs, que utilizam transmissão de
vídeo. (YOUSEF et al., 2014; BATES, 2016)
d) Courses (curso) – Segundo YOUSSEF et al., (2014), o termo curso refere-se a um
curriculum acadêmico que será oferecido aos alunos. As pesquisas de HYMAN
(2012) e CABERO ALMENARA, LLORENTE CEJUDO e VÁZQUEZ MARTÍNEZ
(2014) argumentam que a maioria dos MOOCs são adaptações de disciplinas
oferecidas nas graduações de instituições de ensino superior ao redor do mundo e
oferecidas para diversas áreas do conhecimento, por plataformas como edX, Coursera
e Udacity. O trabalho de SANDEEN (2013) observa que o movimento inicial dos
MOOCs ocorreu nas áreas de Engenharia Elétrica e Ciência da Computação, com a
utilização de disciplinas de Circuitos e eletrônica do MIT e Aprendizagem de máquina
da universidade de Stanford, que atraíram estudantes do mundo inteiro interessados
em aumentar o seu nível de desenvolvimento profissional. Os MOOCs são cursos que
apresentam em geral curta duração, entre 5 a 12 semanas (BATURAY, 2015).
34
2.5 Tipos de MOOCs
A classificação mais aceita e tem sido adotada por diversos autores como SANDEEN (2013),
WELSH e DRAGUSIN, (2013), ZUTSHI, O’HARE e RODAFINOS, (2013), CABERO
ALMENARA, LLORENTE CEJUDO e VÁZQUEZ MARTÍNEZ (2014), SAADATMAND
e KUMPULAINEN, (2014), divide os MOOCs em dois tipos ou categorias principais:
cMOOCs –a primeira geração com início em 2008. Baseado na teoria de
aprendizagem conectivista, utilizada no primeiro MOOC. (SIEMENS, 2012) Tem o
foco na criação e na geração de conhecimento através da interação entre os
participantes para a construção do conhecimento. Os materiais do curso são
compartilhados entre todos os participantes, que são incentivados a usar uma
variedade de tecnologias e redes sociais, com o intuito de refletir sobre sua
aprendizagem.
xMOOCs – a segunda geração com início em 2012, com formato mais tradicional,
conteúdos e avaliações baseados em materiais didáticos previamente disponibilizados,
seguindo uma abordagem behaviorista e construtivista, com apresentações de vídeo,
questionários curtos e testes. (KESIM e ALTINPULLUK, 2015). Nessa categoria, o
monitoramento e as ações de tutoria são menos sistematizadas, com fórum de
discussão e interação limitada entre os participantes, além de avaliação automatizada.
É o modelo adotado atualmente pelas provedoras Coursera, Udacity e edX. (YOUSEF
et al., 2014)
A tabela 3 resume as principais diferenças entre cMOOCs e xMOOCs, em relação aos 5Ps,
ou seja, aspectos relativos ao Professor, Participantes, Pedagogia, Padrão e Plataforma.
(KAPLAN e HAENLEIN, 2016)
35
Tabela 3: Comparação entre cMOOCs e xMOOCs. Adaptado de KAPLAN e HAENLEIN ( 2016)
xMOOC cMOOC
Professor Elabora um conteúdo padrão
para todos os alunos
Atua como um facilitador,
incentivando processo individual de
aprendizagem.
Participantes Aluno passivo Aluno que contribui com o processo.
Pedagogia Conteúdo predeterminado, com
base em um currículo formal,
com aulas no estilo de palestra e
avaliações em pares.
Modelo colaborativo no
desenvolvimento do conteúdo, sem
um currículo formal, com estilo de
aulas na forma de seminários e sem
avaliação.
Padrão Estrutura de aulas regulares e
com um período determinado.
Modelo não estruturado e baseado
em aprendizagem continuada.
Plataforma Centralizada e com o conteúdo
em um único lugar.
Descentralizada e com o conteúdo
distribuído pela rede local ou
internet.
Como os princípios da categoria de xMOOCs são empregados pelas principais provedoras,
tais como Coursera, Udacity e edX, o termo MOOC tem sido adotado para se referir a
xMOOCs. (KESIM e ALTINPULLUK, 2015). Nesta tese será adotado o mesmo critério.
2.5.1 Utilização dos MOOCs pelas instituições de ensino superior
Existe a possibilidade de utilização dos MOOCs em contextos alternativos aos que eles foram
originalmente criados, em uma versão customizada para uma determinada IES (instituição de
ensino superior) e contando com a perspectiva da reutilização de material concebido para o
curso original. (SANCHEZ-GORDON e LUJÁN-MORA, 2014; TUTEJA, 2014)
O trabalho de DILLENBOURG et al. (2014), discute em particular como utilizar MOOCs
internamente, com estudantes matriculados em programas de graduação. Por exemplo, é
admissível sua utilização na aplicação de projetos de salas de aula invertida (flipped or
inverted classrooms), modelo em que os alunos estudam previamente o conteúdo e o
36
discutem posteriormente com colegas e o professor em sala de aula. Cita-se o exemplo da
disciplina de “Data Structures and Algorithms” da Universidade de Pequim, ministrada em
2014, com alunos das áreas de engenharia e ciências. Foram cinco aulas com o apoio do
material de ensino (397 alunos) e os demais foram distribuídos também em cinco aulas, sem
apoio do material e do modelo de sala de aula invertida. Na turma que utilizou o material de
ensino como apoio para a sala de aula invertida, os alunos puderam estudar previamente os
conteúdos e tiveram oportunidade de discutir de forma mais aprofundada com os professores
e colegas. O desempenho dos alunos foi avaliado em provas conceituais e práticas. Ao final
da disciplina o desempenho da turma que utilizou o modelo com apoio ficou com média de
33,99 pontos, melhor do que a dos estudantes da sala de aula tradicional, que obtiveram
média de 31,35 pontos. (ZHANG et al., 2015)
Esse modelo híbrido, também conhecido como blended learning, pode ser bastante valioso
para as instituições de ensino, pois permite que o material oriundo de um MOOC seja
utilizado em substituição ou de forma suplementar ao material utilizado no curso presencial,
possibilitando a atualização constante do material e a incorporação de novos conhecimentos
adquiridos no curso desenvolvido por terceiros. (FOX, 2013; BURGE, 2015). Por exemplo,
na San Jose State University, os alunos de cursos presenciais usam os materiais dos cursos da
Udacity, incluindo aulas, leituras e testes, enquanto os professores usam o tempo em sala de
aula em atividades em grupo, projetos e testes para verificar o progresso do aprendizado.
(BATES, 2016).
O tópico a seguir aborda outras variações a partir, em geral, da categoria de xMOOCs.
2.5.2 Outros tipos de MOOCs
Além dos mais conhecidos cMOOCs e xMOOCs, algumas outras variações têm sido lançadas
por instituições de ensino, em geral a partir dos xMOOCs.. As principais variações
encontradas na bibliografia são as seguintes:
a) BOOC (Big Open Online Course) – contando com financiamento de US$ 50,000 da
empresa Google, na Universidade de Indiana, o professor Daniel Hickey lançou um
BOOC em Setembro 2013. O BOOC segue um formato híbrido, tipicamente
corresponde a um xMOOC, mas com mais interação face à limitação de participantes
(no máximo 500). (CHAUHAN 2014; TUTEJA, 2014; GONÇALVES &
GONÇALVES, 2015)
37
b) DOCC (Distributed Online Collaborative Course) - cursos baseados na ideia de que o
conhecimento pode ser mais facilmente alcançado desde que seja distribuído por
todos os participantes de diferentes contextos. Um DOCC organiza-se em torno de um
tema central, sem um plano de estudos, com a participação coletiva de todos os
envolvidos, com turmas de 30 alunos e que estudam sem o pagamento de taxas;
(APARICIO, BACAO e OLIVEIRA 2014; CHAUHAN, 2014 e GONÇALVES e
GONÇALVES, 2015)
c) LOOC (Little Open Online Course) – a Universidade do Maine nos Estados Unidos
foi a primeira instituição a oferecer esse tipo de curso, tendo como base um ambiente
virtual de aprendizagem, em que os alunos fazem acesso com os seus próprios
registros individuais. LOOC é tipicamente aberto a um número de 5 a 7 alunos que
estudam sem o pagamento de taxas, juntamente com 15 a 20 alunos regulares que
pagam taxas e recebem crédito. Todos os alunos recebem feedback direto e
personalizado do instrutor; (APARICIO, BACAO e OLIVEIRA 2014; CHAUHAN,
2014)
d) MOOR (Massive Open Online Research): uma outra variação de um MOOC,
essencialmente uma iniciativa com uma grande ênfase na pesquisa, possibilitando aos
alunos trabalharem conjuntamente (por exemplo com pesquisadores ou cientistas) de
uma forma muito prática e com vista a melhorar os resultados. Utiliza o modelo dos
xMOOCs, com o uso intensivo de aulas em vídeo. Exemplo: “Bioinformatics
Algorithms”, lançado em 2013, com pré-requisitos em programação e
desenvolvimento de um projeto de pesquisa; (CHAUHAN, 2014; GONÇALVES e
GONÇALVES, 2015)
e) SMOC (Synchronous Massive Online Course): lançado em 2013 pela Universidade
do Texas, com limitação de 10.000 alunos. O curso “Introduction to Psychology”,
tinha o seu conteúdo aberto tanto aos alunos da instituição quanto aos interessados ao
redor do mundo. Houve cobrança de taxa de U$ 500,00 e os estudantes precisavam
estar disponíveis para aulas ao vivo. O curso segue o modelo dos xMOOCs, com a
utilização de vídeos, recursos disponíveis na Web e com os alunos interagindo com
professores e colegas através de salas de chat. (CHAUHAN, 2014; GONÇALVES e
GONÇALVES, 2015)
f) SPOC (Small Private Online Course): O conceito de SPOC (Small Private Online
Course) foi definido por FOX (2013), considerado uma versão local de um MOOC e
utilizado apenas no campus da instituição (ZHANG et al., 2015). Os SPOCs aplicam
38
as mesmas soluções técnicas e o mesmo conteúdo de um MOOC, sendo utilizados em
muitas universidades europeias, segundo POMEROL, EPELBOIN e THORY (2015).
O SPOC como um MOOC local e privado, permite que os alunos desempenhem o
papel de testar o curso, possibilitando que seus comentários e sugestões contribuam
para melhorar sua qualidade antes de ser lançado como um MOOC. É possível citar a
reformulação da disciplina de LFSAB1402 Informatics 2, ministrada para todos os
alunos que cursam Engenharia na Université catholique de Louvain (UCL), com
aproximadamente 300 alunos por ano. O modelo adotado compreende duas etapas:
primeiro, a criação de um SPOC e a manutenção do curso tradicional, que foram
ministrados de maneira concorrente. Na etapa seguinte, um semestre depois, o SPOC
foi transformado em um MOOC, com lançamento na plataforma edX, com possíveis
mudanças surgidas a partir das informações e comentários provenientes dos alunos.
(COMBÉFIS, BIBAL e VAN ROY, 2014)
De maneira complementar a fundamentação teórica, uma revisão bibliográfica trará mais
detalhes a respeito dos MOOCs, no artigo com o título de “Os principais problemas no
projeto e gestão dos MOOCs”, parte integrante do capítulo 4, item 4.1.
2.6 A elevada taxa de evasão nos MOOCs
No âmbito dos MOOCs, diversos autores apresentam evidências apontando que tais cursos
têm taxas de evasão muito elevadas, geralmente em torno de 90%. (DANIEL, 2012;
SANDEEN, 2013; HEW e CHEUNG, 2014; WILKOWSKI, DEUTSCH e RUSSELL, 2014;
ALRAIMI, ZO e CIGANEK, 2015)
Em relação ao tipo ou categoria dos MOOCs, ou seja, cMOOCs e xMOOCs, ambos os
modelos apresentam altas taxas de evasão. Embora capaz de atingir milhares de alunos, os
xMOOCs apresentam taxas mais elevadas de evasão se comparado aos cMOOCs, na ordem
de 85% em comparação com 40% relativos aos cMOOCs. Uma possível explicação para o
fenômeno reside no fato de que o desenvolvimento de xMOOC, pelo seu formato e menor
nível de design colaborativo, tornam difícil a interação entre os usuários e não fornece
motivação adicional, diminuindo o interesse dos alunos, o que resulta em altas taxas de
evasão. O cMOOCs, com características mais cooperativas, obtém melhores resultados,
39
sendo possível sugerir uma conexão entre a base pedagógica de um ambiente de
aprendizagem online e as características que influenciam a experiência de um aluno.
(RODRIGUEZ, 2012; GENÉ, NUNES e BLANCO, 2014; KENNEDY, 2014).
Uma revisão bibliográfica com mais detalhes a respeito da evasão nos MOOCs será tema do
artigo com o título de “Uma revisão da literatura sobre os motivos responsáveis da alta
evasão nos MOOCs”, parte integrante do capítulo 4, item 4.2.
2.7 Análise de dados
Os avanços na área da Tecnologia da Informação e Comunicação (TIC) têm proporcionado o
armazenamento de grandes e múltiplas bases de dados. Tecnologias como a internet, redes
sociais, ambientes virtuais de aprendizagem, dispositivos móveis, sensores para coleta de
diferentes tipos de dados, memórias secundárias de maior capacidade de armazenamento e de
menor custo, sistemas de telecomunicações e sistemas de informação em geral são alguns
exemplos de recursos que têm tornado viável a criação e o crescimento de inúmeras bases de
dados em diversos segmentos da sociedade. (GOLDSCHMIDT, PASSOS e BEZERRA,
2015)
No caso dos cursos com grande número de alunos participantes como os MOOCs, é
importante que os gestores e professores envolvidos tenham acesso a um grande conjunto de
dados das interações entre os alunos, possibilitando a compreensão das experiências,
processos e resultados de aprendizagem (SIEMENS e LONG, 2011). Contudo, para que esses
dados sejam acessados, transformados e convertidos em conhecimento útil para a tomada de
decisão, há necessidade de recursos computacionais adequados que serão tratados mais
adiante.
Tal fato tem produzido uma superabundância de dados, considerada um problema, pois a
capacidade de coletar e armazenar esses dados tem superado a habilidade de analisar e extrair
seu conhecimento. De forma destacada, a área de mineração de dados (data mining) tem sido
utilizada para transformar de maneira inteligente e automática, os dados disponíveis em
informações úteis, que representem conhecimento para a tomada de decisão em diversas
áreas como marketing, finanças, manufatura e saúde e educação. (de CASTRO e FERRARI,
2016)
40
A descoberta de novos conhecimentos pode ser muito útil para realizar atividades de tomada
de decisão, sendo possível utilizar mineração de dados para analisar detalhadamente padrões
em dados sobre consumidores e, a partir disso, montar campanhas de marketing. Por
exemplo, um estudo de modelos de compra em supermercados pode revelar que, na compra
de salgadinhos de milho, compra-se também refrigerante tipo cola em 65% das vezes. Porém,
quando há uma promoção, o refrigerante é comprado em 85% das vezes. Com tal informação,
os gerentes podem tomar decisões mais acertadas, pois aprenderam a respeito da
rentabilidade de uma promoção. (LAUDON e LAUDON, 2010; BAKER, ISOTANI e DE
CARVALHO, 2011)
2.7.1 Análise de Dados Educacionais
O segmento de educação, especialmente no ensino superior, reúne um surpreendente
conjunto de dados disponíveis em sistemas de informação acadêmicos e ambientes virtuais de
aprendizagem. Contudo, tal segmento tem atuado com atraso na análise desses dados e nas
intervenções necessárias para o atendimento de eventuais problemas. Por exemplo, uma
análise tardia sobre os motivos relacionados com a evasão pode tornar as interveções pouco
eficientes. (SIEMENS e LONG, 2011)
Um ambiente virtual de aprendizagem é um aspecto importante na implantação e na evolução
de qualquer projeto de EaD tradicional ou MOOCs, agregando recursos de integração e
convergência entre professores e alunos, possibilitando de maneira geral, que os alunos
tenham acesso ao material didático, realizem tarefas e tenham a possibilidade de interagir
com os tutores e com os demais alunos. Ultimamente é possível encontrar uma variedade de
opções, que incluem aqueles de código aberto (como Moodle, por exemplo), em
contraposição aos que praticam licenças proprietárias (como Blackboard, por exemplo), e
aqueles advindos de iniciativas isoladas de empresas, instituições de ensino ou grupos de
pesquisa (como edX e Coursera, recentes ambientes que fornecem suporte para a oferta de
MOOCs).
Em tais ambientes, uma grande quantidade de dados de navegação e interação dos alunos
pode ser registrada e coletada, possibilitando que sejam feitas diversas análises relacionadas
ao comportamento do aluno e do conjunto dos alunos no ambiente. Tais ferramentas incluem
módulos que registram automaticamente cada evento ocorrido no ambiente (SIEMENS e
LONG, 2011; PARDO e KLOOS, 2011; LIÑÁN e PÉREZ, 2015). A coleta de dados em um
41
ambiente LMS, por exemplo, é efetuada por meio dos arquivos de log gerados pelo sistema,
considerado o meio mais prático para obtenção de dados, e também relativamente fáceis de
gerenciar e contêm grandes quantidades de informação em relação à frequência, padrões e as
últimas atividades de aprendizagem realizadas pelos alunos. (YOU, 2016)
Com a enorme quantidade de dados disponíveis no segmento da educação superior, uma área
denominada de analítica de aprendizagem dos alunos tem crescido com o objetivo de
melhorar o processo de ensino-aprendizagem. (YOU, 2016) Vários termos e conceitos
relacionados à analítica (analytics) no campo da educação convivem na literatura científica,
principalmente, “mineração de dados educacionais” (educational data mining) e “analítica da
aprendizagem” (learning analytics) e “analítica acadêmica” (academic analytics).
(SIEMENS e LONG, 2011; CHATTI et al., 2012)
O uso de analytics possibilita a tomada de decisão baseada em dados e ocorre em diversos
níveis da instituição. O termo academic analytics é voltado para o nível institucional,
permitindo que os gestores acadêmicos tenham indicadores históricos e, em tempo real, a
respeito do negócio e de suas unidades ou departamentos. Seu uso está relacionado mais com
a eficiência organizacional, sendo um conceito paralelo à utilização de Business Intelligence
(BI) no suporte ao processo de tomada de decisão em outros segmentos, como marketing e
finanças. Learning Analytics e Educational Data Mining estão mais voltados para o processo
de ensino e aprendizagem (SIEMENS e LONG, 2011; CHATTI et al., 2012; FERREIRA e
ANDRADE, 2013;)
Learning Analytics (LA) e Educational Data Mining (EDM) são duas áreas em
desenvolvimento, que trabalham com grandes volumes de dados em educação. O processo de
mineração de dados educacionais converte os dados brutos de ambientes educacionais em
informações úteis que podem impactar na prática e na pesquisa educacional (ROMERO e
VENTURA, 2010). Por sua vez, o processo de LA, de acordo com ROMERO e VENTURA
(2013), é definido como a medida, coleta, análise e relato dos dados de alunos e seus
contextos com o propósito de entender e melhorar a aprendizagem e o ambiente em que este
ocorre. O trabalho de CLOW (2012) apresenta LA como um ciclo composto de quatro etapas:
(1) Alunos; (2) Dados; (3) Análises; e (4) Intervenções, conforme ilustra a figura 4. Nesse
ciclo, os alunos geram dados a partir dos quais são realizadas diferentes análises fornecendo
conhecimento sobre o processo de ensino aprendizagem.
42
Figura 4: O ciclo de Learnng Analytics. Adaptado de CLOW (2012)
Utilizando o conhecimento obtido é possível realizar intervenções, como, por exemplo,
adaptações no modo como o conteúdo é exibido, alterações pedagógicas, feedback,
orientações, envio de notificações e recomendações de recursos e/ou colegas de trabalho. A
utilização de técnicas e ferramentas de Learning Analytics pode contribuir de forma
importante para prever e melhorar o sucesso e retenção dos alunos (OLMOS e CORRIN,
2012; SMITH, LANGE e HUSTON, 2012).
Os processos de LA e EDM compartilham diversos aspectos, mas apresentam também
algumas diferenças. O processo de LA considera a participação de pessoas (por exemplo,
gestores, professores, alunos) e as intervenções são consideradas no processo. EDM tem o
foco na aplicação das técnicas clássicas de data mining, como agrupamento e classificação.
LA, além dos recursos da área de mineração de dados, inclui outros métodos, como estatística
e ferramentas de visualização, além de técnicas para análise de redes sociais (SNA – social
network analysis). (CHATTI et al., 2012)
As áreas de LA e EDM diferenciam-se também em relação ao seu foco. Enquanto a LA trata
mais das aplicações voltadas ao aluno e em usar os dados educacionais para explorar como a
interação do aluno com a tecnologia pode afetar sua aprendizagem, a EDM foca mais em
técnicas, metodologias e na utilização dos dados para compreender os processos de
aprendizagem. (LIÑÁN e PÉREZ, 2015; BAKER et al., 2012),
Neste trabalho, será adotado o conceito de Educational Data Mining (Mineração de Dados
Educacionais), por permitir a exploração e análise de conjuntos enormes de dados, visando
encontrar relações entre eles, que não eram previamente conhecidas, e podendo ser úteis nos
contextos educacionais. Além disso, neste trabalho não serão utilizados outros métodos
presentes na área de LA, como, por exemplo, a análise de redes sociais.
43
Nos próximos tópicos serão analisados de forma mais detalhada, o processo de descoberta do
conhecimento, mineração de dados e mineração de dados educacionais.
2.8 O processo de KDD e mineração de dados
A análise de grande volume de dados pelas pessoas é inviável sem o auxílio de recursos
computacionais adequados, sendo fundamental a disponibilização de ferramentas que
auxiliem na tarefa de analisar, interpretar e relacionar esses dados, para que se possam
elaborar e definir estratégias de ação em cada domínio de aplicação. (GOLDSCHMIDT,
PASSOS e BEZERRA, 2015)
Existe uma área denominada Descoberta de Conhecimento em Banco de Dados ou
Knowledge Discovery in Databases (KDD). Uma das definições mais aceitas para KDD foi
proposta por FAYYAD, PIATETSKY-SHAPIRO e SMYTH (1996), que a trata como um
processo não trivial, interativo e iterativo, para identificação de padrões compreensíveis,
válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados. O processo de
KDD admite a existência de um conjunto de dados, envolvendo n atributos. O termo
iterativo, por outro lado, sugere a possibilidade de repetições integrais ou parciais do
processo de KDD na busca de resultados satisfatórios por meio de refinamentos sucessivos. A
expressão não trivial, aponta para a complexidade normalmente presente na execução de
processos de KDD. (GOLDSCHMIDT, PASSOS e BEZERRA, 2015)
A mineração de dados (data mining) é uma das etapas do processo de extração do
conhecimento, conforme ilustra a figura 5.
Figura 5: O processo de KDD. Adaptado de GOLDSCHMIDT e BEZERRA (2015)
44
As principais etapas do processo de KDD são descritas a seguir (de CASTRO e FERRARI,
2016):
2.8.1 Pré-processamento
Seleção de dados – compreende a identificação do subconjunto das bases de dados
existentes que deve efetivamente ser considerado durante o processo de KDD. A
seleção de dados pode ter duas abordagens distintas: a seleção de atributos ou a
seleção de registros que devem ser submetidos ao processo de KDD;
Limpeza dos dados – essa atividade considera qualquer tratamento realizado sobre os
dados selecionados de forma a assegurar sua qualidade (integridade). Informações
ausentes, errôneas ou inconsistentes nas bases de dados devem ser corrigidas de forma
a não comprometer o processo final. É possível que seja necessário realizar também a
normalização dos dados, para que os valores dos atributos estejam em uma mesma
escala.
2.8.2 Mineração de Dados (data mining)
A etapa de mineração de dados compreende a busca efetiva por conhecimentos úteis no
contexto da aplicação de KDD, constituindo-se em sua principal etapa, tanto que alguns
autores se referem à mineração de dados e KDD como sinônimos. (GOLDSCHMIDT,
PASSOS e BEZERRA, 2015)
Mineração de dados é definida em termos de esforços para descoberta de padrões em bases
de dados. A partir dos padrões descobertos, têm-se condições de gerar conhecimento útil para
um processo de tomada de decisão. Trata-se da aplicação de técnicas, implementadas por
meio de algoritmos computacionais, capazes de receber, como entrada, um conjunto de fatos
ocorridos no mundo real e devolver, como saída, um padrão de comportamento ou a
modelagem de um perfil. (SILVA, PERES e BOSCARIOLI, 2016)
2.8.2.1 Áreas relacionadas com mineração de dados
A mineração de dados tem o caráter interdisciplinar e multidisciplinar envolvendo
conhecimentos de áreas como banco de dados, estatística, aprendizagem de máquina,
45
computação de alto desempenho, reconhecimento de padrões, visualização, inteligência
artificial, entre outras. A figura 6 apresenta as principais áreas envolvidas na mineração de
dados, de acordo com de CASTRO e FERRARI ( 2016)
Figura 6: Principais áreas da mineração de dados. Adaptado de (de CASTRO & FERRARI, 2016)
2.8.2.2 Identificação de padrões
É importante destacar as diferenças e a hierarquia entre dado, informação e conhecimento. O
dado é um fato, um valor documentado ou um resultado de medição. Quando um sentido ou
significado é atribuído aos dados, gera-se informação. Quando esses significados se tornam
familiares, ou seja, quando um agente os aprende, torna-se consciente e capaz de tomar
decisões a partir deles, e surge o conhecimento. (SILVA, PERES e BOSCARIOLI, 2016)
No topo da pirâmide está o conceito de conhecimento, que pode ser entendido também como
um padrão ou conjunto de padrões, cuja formulação pode envolver e relacionar dados e
informações. (GOLDSCHMIDT, PASSOS e BEZERRA, 2015; STAIR e REYNOLDS,
2015). A figura 7 apresenta a hierarquia entre dado, informação e conhecimento.
46
Figura 7: Hierarquia entre dado, informação e conhecimento. Adaptado de GOLDSCHMIDT, PASSOS e
BEZERRA (2015)
No exemplo, da figura 7, o conhecimento encontra-se representado na forma de uma regra
condicional (SE <condições> ENTÃO <conclusões>). Como exemplos de conhecimento, é
possível citar as tendências de vendas de uma determinada região, relacionamento entre a alta
e baixa de ações na Bolsa de Valores e certos parâmetros monetários, similaridade entre os
comportamentos de compra de clientes de uma empresa, etc. (GOLDSCHMIDT, PASSOS e
BEZERRA, 2015)
O propósito principal de realizar o processo de KDD é identificar padrões. Um padrão
compreensível é aquele apresentando em alguma forma de representação do conhecimento
que possa ser interpretado por seres humanos. Um exemplo de linguagem ou formalismo
utilizado para a representação de padrões é uma linguagem de equações, pois nesse tipo de
linguagem, os operadores de adição e multiplicação podem ser utilizados para relacionar
variáveis. Por exemplo, Y = aX + b é um padrão possível para relacionar dois atributos (ou
variáveis) X e Y de um conjunto de dados. (GOLDSCHMIDT, PASSOS e BEZERRA, 2015)
Os padrões extraídos no processo de KDD podem ser classificados em dois tipos básicos:
preditivos e descritivos, conforme segue: (GOLDSCHMIDT, PASSOS e BEZERRA, 2015;
de CASTRO e FERRARI, 2016)
a) Padrões preditivos (ou supervisionados) - tem o objetivo de resolver um problema
específico de prever os valores de um ou mais atributos, em função de valores de
outros atributos. Esse objetivo é alcançado por meio de técnicas chamadas
supervisionadas, ou seja, capazes de encontrar o modelo de mapeamento a partir de
procedimentos que associam um dado a um rótulo e corrigem tal associação quando
47
ela não corresponde ao rótulo esperado (aquele associado ao dado no conjunto de
dados). Pode ser dividida em duas subtarefas: análise preditiva categórica, também
chamada de tarefa de classificação; e análise preditiva numérica, também chamada de
tarefa de regressão.
b) Padrões descritivos (ou não supervisionados) – trabalham com um conjunto de dados
que não possuem uma classe determinada, buscando identificar padrões de
comportamento comuns nesses dados. Tem o objetivo de encontrar padrões que
descrevem os dados de maneira que o ser humano possa interpretar. O ponto central
reside em apresentar informações interessantes que um especialista de domínio de
aplicação possa ainda não conhecer. Agrupamento e descoberta de regras de
associação são tarefas de KDD que se baseiam em aprendizado não supervisionado.
2.8.3 Principais técnicas e algoritmos de mineração de dados
As principais técnicas ou algoritmos empregados pela área de mineração de dados serão
descritas e exemplificadas a seguir:
2.8.3.1 Classificação
Os atributos do conjunto de dados são divididos em dois tipos, ou seja, atributo-tipo e
atributo-alvo. Para cada valor distinto do atributo-alvo tem-se uma classe que corresponde a
um rótulo categórico pertencente a um conjunto predefinido. A tarefa de classificação
consiste em descobrir uma função que mapeie um conjunto de registros em um conjunto de
classes. Uma vez descoberta, tal função pode ser aplicada a novos registros de forma a prever
a classe em que tais registros se enquadram. Como exemplo, pode ser citada uma financeira
que possui o histórico de seus clientes e o seu comportamento em relação ao pagamento de
empréstimos contratados no passado. Com base nos clientes inadimplentes, a tarefa de
Classificação consiste em descobrir uma função que mapeie corretamente os clientes a partir
de seus dados e seja usada para prever o comportamento de novos clientes que desejem
contrair empréstimos. Existem diversos algoritmos desenvolvidos especificamente para
aplicação na tarefa de descoberta de associações, dentre eles: Apriori, DHP (Direct Hashing
and Prunning) e DIC (Dynamic Itemset Couting). (GOLDSCHMIDT, PASSOS e
BEZERRA, 2015)
48
Um método de classificação importante é a árvore de decisão (decision tree), que é um
modelo de representação de conhecimento em que cada nó interno representa uma decisão
sobre um atributo que determina como os dados são particionados pelos seus nós filhos. O nó
mais elevado da árvore é conhecido como nó raiz e cada caminho da raiz até a folha
corresponde a uma regra de classificação. (GOLDSCHMIDT, PASSOS e BEZERRA, 2015;
de CASTRO e FERRARI, 2016)
Um campo de dado do conjunto é identificado como central (classe) e todos os demais são
analisados em função de como influenciam na sua classificação. A partir da classe que será
apresentada nas folhas da árvore, o algoritmo localiza outro campo, mais fortemente
relacionado à classe, e o coloca na raiz da árvore (topo). A partir da raiz vão sendo colocados
novos nós, conectando a raiz às folhas (formando ramos). Cada nó interno representa um
teste sobre um determinado campo, com duas ou mais subárvores representando cada
resultado possível do teste. (KAMPFF, 2009)
A figura 8 ilustra um caminho da árvore que parte do nó raiz e termina em um nó folha, com
uma regra no formato SE <condições> ENTÃO <conclusão>. Os algoritmos de árvore de
decisão podem ter a forma de representação gráfica ou textual.
Figura 8: Exemplo de árvore de decisão e suas regras. Fonte: GOLDSCHMIDT, PASSOS e BEZERRA (2015)
Como exemplo ainda, é possível citar o trabalho de KAMPFF (2009) que apresenta a
aplicação de um algoritmo de jfffffffffffffffff árvore de decisão em uma base de dados de
49
alunos, composta pelos atributos: nome, sexo, atividades entregues (1, 2 ou 3), desempenho
médio (baixo, médio e alto) e resultado (aprovado e reprovado). O algoritmo de árvore de
decisão disponível na ferramenta RapidMiner, analisa os diversos campos de forma
interativa, buscando identificar o de maior influência nos valores das classes (aprovado e
reprovado) do atributo resultado. O campo de maior influência para o valor do resultado é
colocado na raiz da árvore. A partir daí, o algoritmo continua buscando novos atributos
significativos para inserir nos nós abaixo, até que seja possível determinar as classes.
A árvore gerada pode ser observada na figura 9. O fator mais importante para definir o
sucesso do aluno foi o número de atividades entregues. Em seguida, o desempenho médio nas
mesmas. O atributo sexo não foi determinante, sendo desconsiderado pelo algoritmo na
geração da árvore de decisão. (KAMPFF, 2009)
Figura 9: Exemplo de árvore de decisão. KAMPFF (2009)
2.8.3.2 Regressão
Compreende a busca por uma função que mapeie os registros de um banco de dados em um
intervalo de valores reais. Essa tarefa é similar à tarefa de Classificação, com a diferença de
que o atributo-alvo assume valores numéricos. (GOLDSCHMIDT, PASSOS e BEZERRA,
2015)
50
De acordo com SILVA, PERES e BOSCARIOLI (2016), os modelos de regressão podem ser
dividos em dois tipos: um linear simples ou multivariado e outro conhecido como não linear
simples ou multivalorado. A diferença básica entre os dois tipos está na função f a ser
utilzada: por exemplo, uma função que representa a equação da reta ou do plano se aplica
para regressão linear, e uma função que representa uma equação exponencial se aplica para a
regressão não linear. Em relação a sua aplicação, a regressão é usada para estimar valores a
partir de um conjunto de dados históricos. Como exemplo, o uso de regressão em problemas
de indicadores econômicos ou de mercado futuro, em que se tenta prever o próximo valor
analisando os dados de algumas variáveis (atributos descritivos) historicamente armazenadas
em um conjunto de dados. Outro exemplos, a definição do limite do cartão de crédito para
cada cliente ou o número de clientes que provavelmente comparecerão a um restaurante em
um dia especial. (SILVA, PERES e BOSCARIOLI, 2016)
Ainda segundo SILVA, PERES e BOSCARIOLI (2016), a decisão entre usar uma regressão
linear e não linear, reside em uma análise inicial dos dados, de forma a verificar o tipo de
distribuição que os atributos assumem. Usar recursos de visualização de dados, como, o
gráfico de dispersão, pode ser muito útil. No caso da regressão não linear, ainda é preciso
verificar qual seria a melhor função de ajuste a ser usada, como polinomial, potência,
logarítimica, etc.
2.8.3.3 Descoberta de Regras de Associação
A descoberta de regras de associação tem como objetivo central derivar regras de
conhecimento, referindo-se a relacionamentos entre objetos de um conjunto de dados,
visando exibir características e tendências. São procuradas associações entre itens do tipo
“uma transação que contém os itens X também possui o conjunto de itens Y” (X → Y), sendo
X ∩Y = Ø. Assim, a regra tem a forma “Se X, então Y”, onde X é denominado de corpo da
regra e Y de cabeça da regra. A cada regra derivada pelo algoritmo, verifica-se a sua validade
e importância, com a utilização de duas medidas básicas: o suporte e a confiança,
comparando-as com os seus respectivos limiares estabelecidos (suporte mínimo e confiança
mínima). (COSTA et al., 2013)
A medida de suporte está relacionada com a ocorrência relativa da regra de associação
detectada dentro do conjunto de dados de transações, e calculada pelo quociente entre o
51
número de transações que sustentam a regra e o número total de transações. No caso da
medida de confiança de uma regra de associação, esse conceito é relativo ao grau com o qual
a regra é verdadeira entre os registros individuais, e calculada pelo quociente entre o número
de transações sustentando a regra e o número de transações sustentando apenas o corpo da
regra. (COSTA et al., 2013)
Cada registro do conjunto de dados é chamado de transação. Cada transação é composta por
um conjunto de itens que ocorrem de forma simultânea em transações do conjunto de dados
com o objetivo de encontrar associações ou correlações. A existência de associações ou
correlações entre os atributos implica que eles frequentemente aparecem juntos em uma
transação. É importante a análise de observações de itens que frequentemente ocorrem na
base de dados transacionais. Por exemplo, uma analise do subconjunto de itens que formam
as associações ou correlações, pode indicar que clientes que compram “pão e leite” também
compram “manteiga e queijo”, assim como clientes que compram “pão italiano e vinho”
também compram “azeite de oliva e vinagre balsâmico”. Um exemplo de uso dessa técnica
no âmbito da MDE é a mineração de regras em um banco de dados de notas de alunos em
disciplinas. Seria possível derivar regras como “90% dos alunos que têm bom desempenho
nas disciplinas de Lógica e Matemática são bem sucedidos também em Programação”.
Algoritmos tais como Apriori, GSP e DHP são exemplos da implementação da tarefa de
Descoberta de Associações. (ELMASRI e NAVATHE, 2011; COSTA et al., 2013)
2.8.3.4 Agrupamento (clustering)
O objetivo principal do agrupamento é achar dados que se agrupam naturalmente,
classificando-os em diferentes grupos e/ou categorias (clusters). Esses grupos e categorias
não são conhecidos incialmente. Através de técnicas de agrupamento, os grupos/categorias
são automaticamente identificados através da manipulação das características dos dados.
Uma vez que os grupos são formados, é possível fazer uma análise dos elementos que
compõem cada um deles, identificando as características comuns aos seus elementos. (
BAKER, ISOTANI, e DE CARVALHO, 2011; GOLDSCHMIDT, PASSOS e BEZERRA,
2015)
A análise de grupos pode ser aplicada em diferentes áreas do conhecimento, como, por
exemplo: (de CASTRO e FERRARI, 2016)
52
Na medicina para identificação de categorias de diagnóstico;
Na biologia para propor uma taxonomia de animais e plantas;
Em marketing para identificar grupos de clientes;
Em finanças para identificar o perfil de clientes fraudadores.
Uma faceta importante do agrupamento é a função de similaridade usada. Quando os dados
são numéricos, uma função de similaridade baseada na distância é utilizada. Por exemplo, a
distância euclidiana pode ser usada para medir a similaridade, e quanto menor a distância
entre dois pontos, maior a similaridade. O agrupamento pode ser interpretado como um
problema de otimização, em que o objetivo é maximizar a similaridade intracluster e
minimizar a similaridade intercluster. Entre os principais algoritmos de agrupamento
baseados em distância podem ser citados: K-Means, Fuzzy K-Means, K-Modes e K-Medoid.
(ELMASRI e NAVATHE, 2011; GOLDSCHMIDT, PASSOS e BEZERRA, 2015)
A figura 10 apresenta um exemplo de agrupamento.
Figura 10: Exemplo de agrupamento. Fonte: HAN, PEI e KAMBER (2011)
Dentre os algoritmos citados anteriormente, o mais utilizado é o k-médias (do inglês k-
means), que tem por objetivo encontrar partições representando os grupos no conjunto de
dados, de forma que k grupos disjuntos de exemplares sejam descobertos, e k é um parâmetro
de entrada para o algoritmo. O algoritmo particiona o conjunto de n objetos em k grupos, de
maneira que a similaridade intragrupo seja alta e a similaridade intergrupo seja baixa. A
similaridade intragrupo é avaliada considerando o valor médio dos objetos em um grupo, que
53
pode ser visto como o seu centro de gravidade ou o centroide. No particionamento realizado
pelo k-medias, cada objeto pertence ao grupo do centroide mais próximo a ele. (de CASTRO
e FERRARI, 2016; SILVA, PERES e BOSCARIOLI, 2016)
A busca pela descoberta do conjunto de k grupos é iterativa e inicida pela escolha aleatória de
k vetores distintos que têm o papel de representar centroides para grupos. O o k-médias
seleciona k pontos do conjunto de dados. Esses pontos são denominados sementes. Essas
sementes são os representantes iniciais ou centroides, dos k grupos a serem formados. Na
sequência, para cada ponto (ou registro do conjunto de dados), calcula-se a distância desse
ponto a cada um dos centroides. Atribui-se esse ponto ao grupo representado pelo centroide,
cuja distância é a menor entre todas as calculadas. O resultado desse passo inicial é que cada
ponto do conjunto de dados fica associado a um e apenas um dos k grupos . (COSTA et al.,
2013; SILVA, PERES e BOSCARIOLI, 2016)
A escolha do valor de k (número de grupos) é uma tarefa complicada, pois alguns desses
valores não implicam grupos naturais. Pode-se executar o algoritmo de agrupamento diversas
vezes, variando-se o valor de k, para depois escolher a solução, cujas características parecem
melhores, ou, ainda, aquelas soluções que forneçam a interpretação mais significativa dos
dados. Tal estratégia requer conhecimento sobre o domínio em questão. (de CASTRO e
FERRARI, 2016)
2.8.4 Pós-processamento
Esta etapa envolve a visualização, análise e a interpretação do modelo de conhecimento
gerado pela mineração de dados. Em geral, o especialista em KDD e o especialista do
domínio da aplicação avaliam os resultados obtidos e definem novas alternativas de
investigação dos dados. Nesse processo é possível que para melhor entendimento entre os
envolvidos, seja utilizado pelo especialista em KDD, uma simplificação do modelo de
conhecimento, que consiste em remover detalhes desse modelo de conhecimento de forma a
torná-lo menos complexo, sem perda de informação relevante. (GOLDSCHMIDT, PASSOS
e BEZERRA, 2015)
O especialista do domínio da aplicação representa a pessoa ou grupo de pessoas que conhece
o assunto e o ambiente em que deverá ser realizada a aplicação de KDD. Tais profissionais
têm o conhecimento prévio sobre o problema. As informações prestadas pelas pessoas desse
grupo são de fundamental importância no processo de KDD, pois influenciam desde a
54
definição do problema até a avaliação dos resultados. (GOLDSCHMIDT, PASSOS e
BEZERRA, 2015)
Alguns algoritmos são desenvolvidos para simplificar o modelo de conhecimento, eliminando
atributos e os conjuntos de regras, baseados no conceito de entropia. O grau de entropia de
um conjunto de atributos expressa o grau de complexidade da informação contida no referido
conjunto. Assim, quanto menor a entropia, menor a quantidade de informação codificada em
um ou mais atributos. (GOLDSCHMIDT, PASSOS e BEZERRA, 2015)
Por exemplo, com a aplicação da técnica de agrupamento, pode ser útil a realização de um
estudo em que se buscam explicações para ajudar os usuários do modelo (especialista do
domínio) a entender os motivos da similaridade dos grupos. (SILVA, PERES e
BOSCARIOLI, 2016)
2.9 Educational Data Mining (EDM) ou Mineração de Dados Educacionais (MDE)
A mineração de dados educacionais (MDE) é uma modalidade de mineração em que os dados
pertencem aos contextos educacionais. A MDE é definida como a área de pesquisa que tem
como principal foco o desenvolvimento de métodos para explorar conjuntos de dados
coletados em ambientes educacionais (BAKER, ISOTANI e DE CARVALHO, 2011). Para
ROMERO e VENTURA (2013), a área de MDE pode ser definida como a aplicação de
técnicas de mineração de dado para um tipo específico de conjunto de dados provenientes de
ambientes educacionais, para responder a importantes questões dessa área.
Por meio da mineração de dados educacionais, é possível compreender de forma mais clara e
adequada os alunos durante o processo de aprendizagem, seu contexto, além de outros fatores
que influenciam a aprendizagem. Por exemplo, é possível identificar em que situação um tipo
de abordagem instrucional (e.g. aprendizagem individual ou colaborativa) proporciona
melhores benefícios educacionais ao aluno. Também é possível verificar se o aluno está
desmotivado ou confuso e, assim, personalizar o ambiente e os métodos de ensino para
oferecer melhores condições de aprendizagem. (BAKER, ISOTANI e DE CARVALHO,
2011)
A área de mineração de dados educacional está preocupada com desenvolvimento, pesquisa e
aplicação informatizada de métodos para detectar padrões em grandes conjuntos de dados
55
educacionais, que de outra forma seria difícil ou impossível analisar devido ao enorme
volume dos dados. (ROMERO e VENTURA, 2010)
As técnicas utilizadas pela mineração de dados aplicadas com mais ênfase em contextos
educacionais são as de classificação (árvore de decisão) e agrupamento, além da descoberta
de associações. (ROMERO e VENTURA, 2010)
No contexto da MDE, por exemplo, as técnicas de classificação podem ser utilizadas para a
previsão e desempenho dos alunos e para detectar comportamentos de estudante. A técnica de
agrupamento pode ser utilizada para agrupamento dos alunos com base em sua aprendizagem
e padrões de comportamento. (ROMERO e VENTURA, 2013)
A utilização de MDE nos ambientes educacionais pressupõe uma série de etapas, com
inspiração no processo original de KDD. Os padrões são obtidos a partir da aplicação de
métodos EDM, que necessitam de interpretação por parte do especialista de domínio. As
conclusões podem sugerir mudanças no processo de ensino e aprendizagem ou podem não ser
conclusivas, por falta de dados ou pela necessidade da utilização de novos algoritmos mais
adequados para a aplicação em questão. Nesse caso, o processo pode ser realizado
novamente, após uma avaliação do projeto anterior. (LIÑÁN e PÉREZ, 2015) A figura 11
ilustra o processo de MDE.
Figura 11: O ciclo de MDE. Adaptado de LIÑÁN e PÉREZ (2015)
56
2.10 Ferramentas para mineração de dados
No mercado há uma série de ferramentas que fornecem suporte no processo de KDD, em
especial na etapa de mineração de dados. Tais ferramentas podem ser tanto comerciais, como,
por exemplo, Oracle Data Mining (ODM), IBM SPSS Modeler e SAS Enterprise Miner ou de
código aberto, como origem em pesquisas acadêmicas, como RapidMiner e Weka, que são
apresentadas a seguir:
a) Weka
A ferramenta Waikato Environment for Knowledge Analysis (Weka) apresenta um conjunto
de algoritmos de aprendizagem de máquina e ferramentas de pré-processamento. O projeto
foi desenvolvido na Universidade de Waikato na Nova Zelândia, sendo uma ferramenta que
segue a filosofia de código aberto. Oferece suporte a todo processo de mineração, que inclui
suporte à preparação dos dados de entrada, avaliação estatística da aprendizagem,
visualização dos dados de entrada e os resultados. Todas as funcionalidades disponíveis
podem ser acessadas através de uma interface gráfica, possibilitando que os algoritmos de
aprendizagem e as diversas ferramentas para transformação possam ser aplicados às bases de
dados sem a necessidade de programação. A ferramenta apresenta os principais métodos para
mineração de dados, como: regressão, classificação, agrupamento, regras de associação e
seleção de atributos. (HALL et al., 2009)
b) RapidMiner
O RapidMiner é uma ferramenta com diversas funcionalidades para atender ao ciclo de
mineração de dados, desenvolvida como uma solução de código aberto (open source), sob a
licença pública geral (General Public Licence – GPL), e é também oferecida uma versão
paga. A ferramenta oferece uma interface gráfica que facilita bastante a realização de
processos de mineração de dados, mineração de textos, aprendizado de máquina etc. Essa
ferramenta disponibiliza um amplo conjunto de funcionalidades, chamadas de operadores,
que adotam algoritmos referentes às diversas etapas do processo de KDD (entrada de dados e
saída de dados, árvore de decisão, classificação, clusterização, entre outros), sendo possível
também combiná-los para a realização de experimentos, com o objetivo de verificar quais
algoritmos e parâmetros são mais apropriados para o problema que está sendo tratado. Conta
57
ainda com um conjunto de extensões que fornece novas possibilidades de utilização, como,
por exemplo, mineração de textos. (RAPIDMINER STUDIO, 2016)
Nesta tese será utilizada a ferramenta para mineração de dados RapidMiner, pelo fato de ser
um projeto de código aberto (em sua versão básica) e, por isso, disponível gratuitamente,
além de funcionar na maioria das principais plataformas e sistemas operacionais, como,
Windows, Mac OS e Linux. Apresenta suas funcionalidades por meio de uma interface gráfica
intuitiva, incorporando também a biblioteca de algoritmos de aprendizagem do Weka,
totalmente integrada e com acesso a diferentes fontes de dados, como: Excel, Oracle,
Microsoft SQL Server, MySQL, e outros. A figura 12 apresenta a tela inicial da ferramenta
RapidMiner Studio na sua versão 7.0.
Figura 12: RapidMiner Studio versão 7.0
2.11 Trabalhos correlatos
No Brasil, há poucos trabalhos na área de mineração de dados educacionais. Em pesquisa
realizada por meio do Google Scholar e da Biblioteca Digital Brasileira de Teses e
Dissertações, foi possível encontrar três teses de doutorado relacionadas com a área em
questão. Em primeiro lugar, é possível citar a tese de KAMPFF (2009), desenvolvida na
Universidade Federal do Rio Grande do Sul (UFRGS), que aplica técnicas de MDE aos dados
58
de estudantes gerados pela interação em um Ambiente Virtual de Aprendizagem (AVA), com
objetivo de gerar alertas a partir de um sistema baseado em mineração de dados. Para a
realização da pesquisa, foram utilizados dados de 1564 alunos de edições anteriores de uma
mesma disciplina a distância, para a extração de regras de classificação, e tais regras foram
aplicadas para gerar alertas durante o acompanhamento de 230 alunos em turmas em
andamento, visando identificar comportamentos e características de estudantes com risco de
abandono ou reprovação.
Outro trabalho é a tese de MANHÃES (2015), desenvolvida na Universidade Federal do Rio
de Janeiro (UFRJ), apresentando uma proposta de arquitetura baseada em MDE para predição
do desempenho acadêmico de graduandos, com o objetivo de fornecer aos gestores
educacionais das universidades públicas brasileiras, não especialistas em EDM, uma
abordagem que oferece informações úteis sobre o desempenho acadêmico dos graduandos e
predizer os que estão em risco de abandonar o sistema de ensino. O trabalho aplica diversos
algoritmos de MDE em vários estudos de caso, com menos de mil alunos participantes em
cada experimento.
O trabalho mais recente é a tese de SANTOS (2016), desenvolvida na Universidade Federal
do Rio Grande do Sul (UFRGS), que aborda a identificação das variáveis comportamentais
indicadoras do estado de ânimo desanimado dos alunos em interação em um AVEA
(ambiente virtual de ensino e aprendizagem), aplicando técnicas computacionais,
principalmente MDE e técnicas estatísticas (histogramas, correlações, geração de quartis),
com intuito em identificar quais alunos estão propensos ao desânimo, no sentido de apoiar e
instrumentalizar o professor na medida em que identifica esses alunos. O trabalho considera
que a afetividade pode influenciar na aprendizagem do aluno, principalmente com relação aos
aspectos negativos, frustrações, sensações de solidão e desânimo, fazendo com que o aluno
possa, inclusive, desistir de um curso, tornando-se um problema para a instituição de ensino.
No total a tese realizou experimentos com 126 alunos.
Todas aplicaram MDE em cursos concluídos e em diferentes ambientes educacionais. Os
autores trabalharam com cursos as distâncias tradicionais, com número de alunos
matriculados que não ultrapassaram 1.600 alunos. O presente trabalho em relação às outras
teses desenvolvidas por KAMPFF (2009), MANHÃES (2015) e SANTOS (2016), apesar de
também utilizar técnicas e algoritmos de MDE, tem como objetivo identificar conhecimentos
novos e relevantes, a respeito do padrão ou conjunto de padrões de comportamentos dos
59
alunos em cursos massivos. É relevante mencionar que o trabalho de SANTOS (2016) sugere
como trabalho futuro, a aplicação de MDE no contexto dos MOOCs. Outro elemento de
diferenciação reside no fato de que este trabalho criará um curso novo que preservará as
características principais de um MOOC.
Há eventos locais que incentivam e divulgam pesquisas na área de análise de dados
educacionais, envolvendo EDM e LA. Segundo RODRIGUES et al (2014), o Simpósio
Brasileiro de Informática na Educação (SBIE) e o Workshop de Desafios da Computação
Aplicada à Educação (DESAFIE) são eventos anuais e contínuos que recebem pesquisadores
e estudantes brasileiros para relatar suas pesquisas sobre EDM. As publicações em periódicos
ocorrem na Revista Brasileira de Informática na Educação (RBIE), na Revista de Novas
Tecnologias na Educação (RENOTE), na INFORMÁTICA NA EDUCAÇÃO: teoria &
prática e na Colabor@. Essas revistas têm apresentado artigos relevantes com pesquisas nessa
temática.
Desde 2014, o SBIE apresenta um evento específico sobre MDE denominado WMDE
(Workshop de Mineração de Dados Educacionais), que tem por objetivo ser um fórum para
atualização, discussão e aplicação de técnicas de mineração de dados em ambientes
educacionais. Na última edição de 2016, foram publicados 14 artigos, com trabalhos que
trataram de MDE e também de aspectos relacionados com LA.
Em relação a publicações em revistas e eventos internacionais, outras pesquisas no formato
de artigos científicos, merecem citação, como é o caso do trabalho de XING et al., (2016)
mencionado em seu trabalho, que a natureza automática de métodos baseados na análise de
aprendizagem e mineração de dados educacionais têm o potencial para enfrentar o desafio de
analisar a grande massa de alunos dos MOOCs, sendo possível também satisfazer o requisito
de ser capaz de programar intervenções oportunas e rápidas quanto à predição dos alunos que
estão em situação de abandonar o curso.
O trabalho de FERGUSON e CLOW (2015) explora a questão da dificuldade na escolha do
método ou algoritmo de agrupamento (clustering) no processo de mineração de dados
educacionais e da necessidade de novos estudos para resolver essa questão. COFFRIN et al.
(2014) tratam da necessidade de estudos que aprofundem a questão da identificação dos
alunos ou grupos de alunos pelo padrão de comportamento no ambiente virtual de
aprendizagem, permitindo a seleção de sub-grupos de alunos para um atendimento
personalizado por parte dos professores.
60
Na literatura é possível citar ainda outros trabalhos relacionados com a aplicação das
principais técnicas de mineração de dados em ambientes educacionais. O trabalho de SINGH
e KUMAR (2012), por exemplo, utiliza a técnica de árvore de decisão para gerar
conhecimento aos gestores da instituição para avaliar o desempenho de seus alunos. Por fim,
o trabalho de DEJAEGER et al. (2012) utilizou a técnica de agrupamento para identificar os
principais fatores de satisfação dos alunos em duas instituições de ensino e para a construção
de modelos para apoiar os gestores no processo de tomada de decisão estratégica.
Na presente tese, dois artigos aplicarão os conceitos e algoritmos de MDE em dois conjuntos
de dados distintos:
A primeira aplicação de MDE será no contexto de uma disciplina online com 1.113 alunos e
será analisada no artigo com o título de “A aplicação de MDE na descoberta de padrões de
comportamento dos alunos de uma disciplina online”, disponível no capítulo 4, item 4.3.
A segunda aplicação de MDE será no contexto de um curso massivo com mais de 180.000
alunos matriculados e será analisada no artigo com o título de “O processo de Mineração de
Dados Educacionais aplicado em um curso massivo”, disponível no capítulo 4, item 4.4.
61
3 METODOLOGIA
O presente capítulo tem por objetivo descrever a metodologia de pesquisa utilizada no
desenvolvimento da tese.
O estudo está organizado em formato de artigos, e cada resultado da pesquisa realizada é
demonstrado por meio de trabalho submetido ou aprovado em um periódico.
3.1 Procedimentos metodológicos
O objetivo principal é analisar as contribuições e limitações da aplicação de métodos de
mineração de dados educacionais para identificar conhecimentos novos e relevantes, a
respeito do padrão ou conjunto de padrões de comportamentos dos alunos em cursos
massivos.
Para chegar a esse objetivo, será criado um curso de caráter massivo, com número grande de
alunos, em um grupo educacional. Tal curso não será livre, como um MOOC, pois será um
curso que propiciará créditos na forma de horas de atividades complementares aos alunos. A
opção pela criação do curso interno foi necessária, pois os dados originados nos ambientes
virtuais de aprendizagem utilizados pelos MOOCs das principais provedoras como Coursera
e Udacity, são de difícil acesso para consulta pública, sendo liberados, apenas para as
próprias provedoras e para as instituições de ensino que oferecem os cursos. A iniciativa
própria facilita a confirmação dos resultados, pois o ambiente é mais controlado.
A partir do momento em que os alunos iniciarem suas atividades no AVA Blackboard,
diversos dados sobre o desempenho e o padrão de comportamento dos alunos serão gerados
pelo ambiente, tais como a quantidade de acessos ao ambiente por dia e semana, quantidade
de mensagens enviadas pelo aluno, quantidade de acessos aos conteúdos e arquivos em cada
semana, datas de entrega das atividades, e quais atividades foram entregues e a respectiva
pontuação.
O processo para obtenção do padrão de comportamento e desempenho dos alunos será
inspirado no modelo de KDD.
62
O autor atuará na criação do curso e na análise dos resultados. Haverá ainda um especialista
de domínio que participará da interpretação dos resultados.
3.2 Estrutura da tese
As atividades de pesquisa relacionadas a esta tese de doutorado podem ser divididas em dois
momentos: em uma primeira etapa, foi realizada uma pesquisa bibliográfica para a
construção da fundamentação teórica, com o objetivo de prospectar trabalhos anteriores e
compreender o estado da arte sobre o tema. É importante destacar que apesar da figura 15
apresentar os artigos em sequência, os artigos 1 e 2 são parte integrante da fundamentação
teórica, por serem artigos de revisão da literatura e contribuírem para a elaboração da etapa
seguinte. Na segunda etapa, foram elaborados mais dois artigos para dialogar com os
objetivos da pesquisa já mencionados no capítulo inicial.
Esta pesquisa, do ponto de vista da sua natureza, é uma pesquisa aplicada, em que o principal
procedimento utilizado é o da pesquisa-ação. (MARTINS, 2012; PRODANOV e FREITAS,
2013) Para TURRIONI e MELLO (2012), por meio da observação participante, o
pesquisador interfere no objeto de estudo de forma cooperativa com os participantes da ação
para resolver um problema e contribuir para a base do conhecimento.
Como o pesquisador fará parte da equipe que conduzirá a pesquisa, com vistas à mudança
organizacional, a opção escolhida será a pesquisa-ação.
O encadeamento das etapas pode ser visualizado na figura 13.
Figura 13: Etapas da pesquisa. Fonte: o autor
63
As etapas do trabalho serão explicadas de forma mais detalhada nos tópicos a seguir.
3.2.1 Pesquisa bibliográfica (etapa 1)
Este trabalho teve início com uma pesquisa bibliográfica, sobre MOOCs e mineração de
dados educacionais, que serviu para construir uma base para identificar, avaliar e interpretar
os estudos relevantes na literatura sobre o tema em questão. A pesquisa bibliográfica foi
realizada a partir de consultas às principais bases de dados disponíveis no programa de Pós-
graduação em Engenharia de Produção da UNIP e na IES em que o autor atua como
professor, reunindo os artigos mais relevantes em termos de conhecimento científico e
alinhamento com o tema. As bases de busca foram escolhidas pela relação com a área de
conhecimento em estudo e pelo número de retornos obtidos após buscas iniciais. Assim, as
bases de busca utilizadas foram: Springer, Eric Database, Science Direct, IEEE Explore
Digital Library e ACM Digital Library.
Foram conduzidas pesquisas complementares em livros, periódicos, sites especializados e
anais de congressos relacionados com o tema e não estavam ligadas às bases de dados citadas
anteriormente.
Um dos critérios utilizados para a condução da pesquisa bibliográfica foi determinar o
período de tempo entre 2008-2017, que compreendeu o período entre a oferta do primeiro
MOOC, em 2008, até o ano em que a pesquisa está sendo conduzida (2017).
Os principais termos utilizados foram os seguintes: MOOC, educação a distância (distance
education), OER (REA), ambiente virtual de aprendizagem (learning management system),
mineração de dados (data mining), mineração de dados educacionais (educational data
mining), learning analytics, academic analytics e ferramentas para mineração de dados (data
mining tools).
3.2.2 Sequência de artigos da tese (etapa 2)
O capítulo IV apresenta os artigos da tese em sequência, cada um deles com seus próprios
objetivos e questões a serem respondidas. A sequência de artigos é apresentada na figura 14.
64
Figura 14: Sequencia de artigos da tese
A tabela 4 apresenta a situação de cada artigo em termos de publicação em periódicos.
Tabela 4: Situação dos artigos da tese em maio de 2017. Fonte: o autor
Autores Título Situação
Bezerra, L.N.M; Silva,
M.T.
Principais Problemas no
Projeto e Gestão dos MOOCs
Publicado
IFIP - International
Conference on Advances
in Production Management
Systems (pp. 500-506).
Springer International
Publishing.
Bezerra, L.N.M; Silva,
M.T.
Uma revisão da literatura sobre
os fatores responsáveis pela
alta taxa de evasão nos
MOOCs
Publicado
Revista Espacios
Volume 38, número 5,
2017.
Bezerra, L.N.M; Silva,
M.T.
A aplicação de mineração de
dados educacionais na
descoberta de padrões de
comportamento dos alunos de
uma disciplina online: um caso
brasileiro
Submetido:
British Journal of
Educational Technology
Bezerra, L.N.M; Silva,
M.T.
O processo de mineração de
dados educacionais aplicado
em um curso massivo
Em processo de submissão
65
4 RESULTADOS EM ARTIGOS
4.1 - Artigo 1 - “Principais Problemas no Projeto e Gestão dos MOOCs” ou “The Main
Problems in the Design and Management of MOOCs”
O primeiro artigo procurou a partir de um estudo bibliográfico, identificar e analisar os
principais problemas no projeto e gestão dos MOOCs, além de apontar o problema mais
significativo e verificar como os problemas apontados relacionam-se entre si. Após a
pesquisa, foi possível identificar seis problemas relevantes, como a taxa de conclusão muito
reduzida, a certificação desses cursos, o modelo pedagógico, o processo envolvendo a
garantia e melhoria da qualidade dos MOOCs, a aceitação dos certificados, além da
preocupação com a validação e plágio nesse tipo de curso.
A partir da análise desses problemas, constatou-se que o principal desafio para os gestores
dos MOOCs é aumentar a taxa de retenção de seus cursos. Do ponto de vista da gestão, a
diminuição da taxa de evasão, hoje em torno de 90%, possibilitaria que o modelo de negócios
se tornasse mais viável, pois permitiria que mais alunos conseguissem concluir os cursos e,
consequentemente, considerassem o pagamento das taxas para emissão dos certificados.
Os resultados deste estudo bibliográfico contribuíram para a pesquisa aprofundando o
conhecimento sobre os MOOCs. A partir deste estudo, que é parte integrante da
fundamentação teórica, o problema de pesquisa foi melhor delimitado.
A seguir o artigo é reproduzido na sua forma original.
66
Os Principais Problemas no Projeto e Gestão dos MOOCs
Luis Naito Mendes Bezerra1, Márcia Terra da Silva
1
1Paulista University-UNIP, Graduate Program in Production Engineering, Dr. Bacelar St. 1212, São Paulo, Brazil
{LuisNaito Mendes Bezerra, [email protected]} {Márcia Terra da Silva, [email protected]}
Abstract. Apesar da escala global, da grande oferta de cursos e do elevado número de matrículas, alguns desafios vêm se apresentando ao universo dos MOOCs (Massive Open Online Course), principalmente
àqueles relacionados aos aspetos de projeto e gestão.
Este artigo tem por objetivo identificar os principiais problemas enfrentados pelos gestores dos MOOCs. Para esse fim, foi realizado um estudo exploratório, por meio da análise de publicações existentes em bases
de dados acadêmicas.
Os resultados apontam que após a pesquisa foi possível identificar e analisar seis problemas, sendo que o
principal deles foi a taxa de conclusão muito reduzida desse tipo de curso.
. Keywords: MOOCs, problemas dos MOOCs, desafios dos MOOCs.
1 Introdução
Recentemente surgiu uma nova modalidade de educação a distância (EaD) conhecida como MOOC (Massive
Open Online Course,). Os MOOCs são cursos abertos, com formato totalmente online, sem pré-requisitos, sem
cobrança inicial de taxas e com potencial para distribuir a educação em escala global, inclusive, permitindo a
alunos oriundos de países em desenvolvimento terem acesso a instituições e cursos de qualidade com baixo
custo [8;1;9].
Em 2011, cerca de 3 anos, após o oferecimento do primeiro MOOC1, Sebastian Thrun criou o curso de
Inteligência Artificial na Universidade de Stanford que atraiu mais de 160.000 alunos de 190 países. A partir de
2011 o crescimento desta modalidade de EAD tem sido vertiginoso, com o surgimento, inicialmente, de três
grandes plataformas - Coursera, Udacity e EdX - para a oferta dos MOOCS [17;19;3].
As pesquisas demonstram que os principais motivos para o interesse dos alunos nos MOOCs podem ser
resumidos em quatro relevantes aspectos: interesse em aprender sobre determinados assuntos; aumentar
conhecimento; atualizar-se sobre algum assunto visto anteriormente ou aprender algo específico que contribuirá
para o seu desenvolvimento profissional [21;20].
Contudo, apesar da escala global ter sido atingida, do grande número de alunos atendidos e do crescimento
considerável do número de cursos, alguns desafios vêm se apresentando ao universo dos MOOCs. Diversos
autores têm pesquisado aspectos problemáticos no projeto e na gestão desses cursos, como, por exemplo, o
modelo pedagógico [7; 11]e a qualidade dos MOOCs [12].
Portanto, objetiva-se, com esse trabalho, a partir de um estudo bibliográfico, identificar e analisar os
principais problemas no projeto e gestão dos MOOCs, além de apontar o problema mais significativo e verificar
como os problemas relacionam-se entre si.
Além desta introdução, este trabalho é dividido em mais seis partes. Na seção inicial é apresentada a
metodologia utilizada para atingir o objetivo desta pesquisa, para em seguida ser apresentado um estudo sobre
os principais problemas no projeto e na gestão dos MOOCs. Na sequência, apresentam-se os resultados e
análise, as conclusões e, por último, as referências bibliográficas.
1O primeiro MOOC foi criado em setembro de 2008, no Canadá.
67
2 Metodologia
A partir de um estudo exploratório, não sistemático, realizado por meio da análise de publicações existentes
em bases de dados acadêmicas, tais como, Springer, Science Direct, ERIC database, ACM Digital Library e
Google Acadêmico, foram identificados os principais problemas no projeto e gestão dos MOOCs.
O levantamento bibliográfico compreende o período entre a oferta do primeiro MOOC em 2008 [3] até o ano
em que a pesquisa está sendo conduzida (2015). Após a leitura e análise dos títulos e abstracts, foram
selecionados 20 artigos que compõem esta análise.
3 Principais problemas no projeto e gestão dos MOOCs
Os MOOCs, como já dito, têm potencial enorme para levar educação gratuita em escala global, com
possibilidade, inclusive, de democratizar o acesso ao ensino superior de boa qualidade [1].Sem dúvida seu
crescimento tem sido bastante expressivo. Somente na Europa, segundo o site da [2], que reúne dados sobre os
MOOCs nos países europeus, em abril de 2014 foram oferecidos 510 cursos. No mesmo ano, em setembro, já
eram 770 cursos, portanto, um crescimento de 50,98% [2].
Apesar da visível expansão, o modelo dos MOOCs é alvo de uma série de críticas e preocupações, pois, além
de se tratar de uma modalidade de ensino ainda recente, muitas vezes é comparado, erroneamente, aos cursos de
EaD tradicionais e também como concorrente do ensino presencial. Tais preocupações, no entanto, podem ser
consideradas infundadas, pois tratam-se de modalidades com objetivos e funções diferenciadas. Os MOOCs em
função de seu caráter aberto e por apresentarem curta duração, não preveem a emissão de certificados de
graduação ou pós-graduação e, além disso, exercem papel complementar ao EaD e ao ensino presencial,
possibilitando aos seus alunos a oportunidade de ampliação de conhecimento e/ou atualização profissional.
Outro dado importante que os diferenciam da EaD e do ensino presencial privado é o fato de que os serviços
oferecidos pelos MOOCs são livres de taxas, pois o seu modelo de negócios é diferente das instituições de
ensino tradicionais [9], como será abordado em seguida.
A seguir, procura-se relacionar os principais problemas encontrados na literatura em relação ao projeto e
gestão desses cursos.
Modelo de negócios - alguns autores citam os MOOCs como um novo modelo de negócios para instituições
de ensino superior, pois embora os cursos sejam isentos de taxas para a inscrição e acesso ao conteúdo, as
instituições podem cobrar taxas para a emissão dos certificados. De acordo com [6], o modelo de negócios dos
MOOCs tem relação com o adotado por empresas de tecnologia, como, por exemplo, Google e RedHat Linux,
que fornecem um serviço básico aos clientes para, em seguida, oferecer complementos pagos. No caso dos
MOOCs, a cobrança pelo certificado seria o serviço complementar. Considerando-se o elevado número de
alunos, tal iniciativa poderia gerar um modelo de negócios sustentável [8;6]. Contudo, neste momento, tal
modelo é acessível apenas a uma pequena parcela de instituições de ensino, tais como Harvard, Stanford e MIT,
que se utilizando de sua longa tradição e excelente reputação acadêmica, receberam investimentos suficientes
para bancar os custos de criação de plataformas para produção e distribuição de conteúdo em larga escala, tendo
como resultado a criação de empresas com fins lucrativos e inspiradas no modelo de startups do Vale do Silício,
como a Coursera (Universidade de Stanford) e edX (MIT e Harvard) [3].Os MOOCs podem servir, também,
como um elemento de marketing para as grandes instituições de ensino superior, principalmente para as
instituições de grande reputação e prestígio, como as já citadas anteriormente. Ainda segundo [3], cerca de 65%
de todos os alunos matriculados na plataforma Cousera residem fora dos Estados Unidos, fato que poderia
contribuir para atrair ainda mais alunos estrangeiros que pagariam taxas substanciais de matrícula para
cursarem presencialmente cursos de graduação e pós-graduação.
Taxa de conclusão dos cursos muito reduzida - uma preocupação frequentemente levantada nas pesquisas
realizadas sobre os MOOCs relaciona-se ao fato de milhares de alunos se inscreverem, mas, apenas uma
68
pequena parcela concluírem os cursos. A evasão nesta modalidade de ensino é bastante elevada, geralmente,
atualmente em torno de 90% [14;15;3;13;18;4]. De acordo com [5], a taxa de conclusão está relacionada ao
número de pessoas que recebem o certificado ou são aprovadas no curso. Segundo [16], a taxa de conclusão dos
MOOCs não pode ser comparada com a dos cursos presenciais ou mesmo cursos a distância tradicionais, pois,
como os alunos dos MOOCs não pagam mensalidades e também não recebem créditos universitários, a
motivação para a sua conclusão é em grande parte inerente ao próprio modelo do curso.
Certificação – a maioria dos MOOCs são adaptações de disciplinas oferecidas nas graduações de
instituições de ensino superior ao redor do mundo. Sendo assim, não se configuram como um curso de
graduação completo e sua certificação pode gerar alguns questionamentos, como, por exemplo, se ao ser
gratuito, teria o mesmo valor que um curso pago e ministrado presencialmente. Além disso, seria importante
analisar como os potenciais empregadores avaliam tais certificados [8;1].
Modelo pedagógico - A classificação mais aceita para a abordagem ou modelo pedagógico é a que divide os
MOOCs em duas categorias: cMOOCs e xMOOCs, de acordo com autores como [3;22;10;23;7]. Neste
contexto, os cMOOCs constituem-se como a primeira geração - início em 2008 - com foco na criação e na
geração de conhecimento através da interação entre os participantes. Neste modelo os participantes são
incentivados a usar uma variedade de tecnologias e a refletir sobre sua aprendizagem. Segue os princípios do
conectivismo, que considera a intensa interação entre os participantes como fundamental para a construção do
conhecimento. Já os xMOOCs são a segunda geração - início em 2012 - com abordagem pedagógica baseada
no behaviorismo, e formato mais tradicional. Apostam em conteúdos e avaliações baseados em materiais
didáticos previamente disponibilizados. Neste modelo, o monitoramento e as ações de tutoria são menos
sistemáticas, com fórum de discussão e avaliação automatizadas. Esse é o modelo que prevalece atualmente,
sendo adotado pelas principais plataformas Coursera e edX [25;24;26].
Qualidade – Para [27], a preocupação com a qualidade no MOOCs está relacionada ao problema das altas
taxas de abandono deste tipo de curso. Ainda segundo os mesmos autores, como os gestores dos MOOCs podem
declarar uma aprendizagem de qualidade em seus cursos, se os estudantes estão falhando em completar os
mesmos? Ainda segundo [27], os MOOCs devem seguir os mesmos princípios de qualidade aplicados aos
cursos tradicionais, pois, em grade parte, derivam de disciplinas da graduação, sendo produzidos pelo mesmo
corpo docente, com o mesmo material, porém, adaptado para o novo ambiente. Sendo assim, é importante a
preocupação com as questões envolvendo a garantia (quality assurance) e melhoria (quality enhancement) da
qualidade dos MOOCs. O processo de garantia de qualidade é mencionado nos trabalhos de [12] que trata de um
programa de qualidade denominado UNED MOOC e também por [27] que trata do modelo denominado
OpenupEd Quality Label.
Validação e plágio – de acordo com [1], um aspecto fundamental e um grande desafio para os MOOCs é
garantir que os trabalhos sejam originais e válidos. Para tanto, é necessário um sistema para prevenir e detectar o
plágio das atividades geradas pelos alunos. Ainda segundo os mesmos autores, a plataforma Coursera estuda
implantar um software para detecção de plágio, assim, como a Udacity e a Edx, que firmaram parceria com a
Pearson VUE, uma provedora de centros de testes, para validar os exames de forma supervisionada. Contudo, é
importante destacar que tal prática implica em gerar custo para os alunos.
A tabela 1 resume os seis problemas e os autor(es) que foram utilizados como referência.
Tabela 1: resumo dos problemas e autores
# Problema Autor(es)
1 Modelo de negócios 8;6;3
2 Taxa de conclusão dos cursos muito reduzida 14;15;3;13;18;4;5;16
3 Certificação 8;1
4 Modelo pedagógico 3;22;10;23;7;25;24;26
5 Qualidade 27;12
6 Validação e plágio 1
69
4 Resultados e Discussão
Esta seção se dedica à apresentação das relações entre os diferentes conceitos apresentados anteriormente.
O modelo de negócios adotado atualmente pelas grandes plataformas na oferta dos MOOCs, como Cousera,
Udacity e Edx, considera que tais cursos pretendem atingir um grande número de alunos, atraídos pela
possibilidade de participar de cursos oferecidos por grandes marcas do ensino superior, como Harvard, MIT e
Stanford [4]. Apesar de não haver cobrança de taxas de matrícula ou mensalidades, as instituições de ensino
podem ter uma nova fonte de recursos financeiros, provenientes da cobrança pela emissão de certificados. Por
exemplo, a Universidade de Washington, que faz parte da plataforma Coursera, está testando um modelo
híbrido, que apresenta mais rigor na concessão de créditos acadêmicos e, também, considera a cobrança de taxa
para emissão do certificado [6]. Contudo, a sustentabilidade de tal modelo pode ser comprometida se os cursos
tiverem uma taxa de abandono elevada, em torno de 90% [5]. Portanto, aumentar a retenção dos estudantes seria
uma medida de suma importância para garantir a sustentabilidade do modelo de negócios praticado atualmente.
O trabalho de [16] sugere algumas medidas para aumentar a taxa de retenção, tais como, atender os alunos de
acordo com o ritmo e perfil de cada indivíduo, professores que motivem o aluno a completar o curso, com a
utilização de técnicas como o reconhecimento dos resultados alcançados pelos alunos, além de aumentar a
participação e interação entre alunos e professores nos fóruns de discussão de cada curso. De forma adicional,
pensando em aumentar a retenção, os gestores dos MOOCs devem preocupar-se também com as questões
envolvendo a garantia da qualidade (quality assurance) e melhoria da qualidade (quality enhancement) dos
MOOCs.
A emissão, validade, forma e a aceitação pelo mercado dos certificados emitidos pelas instituições que
oferecem MOOCs é outro aspecto que tem causado preocupação e discussão entre os envolvidos no segmento
dos MOOCs. Na medida em que tais certificados forem aceitos pelos empregadores e por instituições de ensino,
é provável que tal fato afete a forma como os MOOCs são vistos em relação ao ensino tradicional.
De todos os problemas apontados na pesquisa, o principal desafio e problema central para os gestores dos
MOOCs esta relacionado com a taxa de conclusão muito reduzida deste tipo de curso. Tal problema é gerado
pela qualidade dos cursos e também pelo modelo pedagógico adotado. É necessário considerar também que
quanto maior for a taxa de conclusão de um determinado curso, mais alunos potencialmente poderão pagar pela
emissão de certificados de conclusão, contribuindo para que o modelo de negócios seja sustentável.
5 Conclusão
A pesquisa teve como objetivo a partir de um estudo bibliográfico, identificar e analisar os principais
problemas no projeto e gestão dos MOOCs. Após a pesquisa, foi possível identificar seis problemas relevantes,
como a taxa de conclusão muito reduzida, a certificação desses cursos, o modelo pedagógico, o processo
envolvendo a garantia e melhoria da qualidade dos MOOCs, a aceitação dos certificados, além da preocupação
com a validação e plágio nesse tipo de curso.
A análise mostrou que o principal desafio para os gestores dos MOOCs é aumentar a taxa de retenção de
seus cursos. Sob o ponto de vista da gestão, a diminuição da taxa de evasão, hoje em torno de 90%,
possibilitaria que o modelo de negócios se tornasse mais viável, pois permitiria que mais alunos conseguissem
concluir os cursos e, consequentemente, considerassem o pagamento das taxas para emissão dos certificados.
Além disso, seria importante que os empregadores conhecessem melhor os MOOCs e passassem a aceitar cada
vez mais tais certificados, da mesma maneira que são aceitos os certificados de cursos presencias.
A preocupação com a qualidade é outro aspecto a ser considerado pelos gestores, pois a adoção de
programas de garantia e melhoria da qualidade seria oportuna para atender às expectativas dos alunos e
aumentar as taxas de retenção dos cursos.
70
Numa análise geral, para o modelo de negócios dos MOOCs se consolidar, as questões envolvendo o modelo
pedagógico, o aumento da taxa de conclusão e a aceitação dos certificados precisam ser exaustivamente
questionadas e analisadas para atingir um nível de maturidade suficiente para garantir a sustentabilidade e a
continuidade desta modalidade de educação.
A principal contribuição da pesquisa foi relacionar os principais problemas no projeto e gestão dos MOOCs,
para em seguida identificar o problema mais significativo, no caso, a taxa de conclusão muito reduzida, além de
analisar como os problemas se relacionam entre si.
Em termos de trabalhos futuros, sugere-se um estudo mais profundo sobre os principais motivos para as
elevadas taxas de evasão nos MOOCs.
6. Referências bibliográficas
1. Cooper, S., Sahami, M.: Reflections on Stanford’s MOOCs. New possibilities in online education create new challenges.
Communications of the acm 56(2), 28-30 (2013)
2. Open Education Europa: European MOOCs Scoreboard., European Commission - Brussels - Belgium (2014)Available
at: http://openeducationeuropa.eu/en/european_scoreboard_moocs
3. Sandeen, C.: Integrating MOOCs into Traditional Higher Education: The emerging "MOOC 3.0" Era. The Magazine of
Higher Learning, 34-39 (2013)
4. Alraimi, K. M., Zo, H., Ciganek, A. P.: Understanding the MOOCs continuance: The role of openness and. Computers &
Education, 28-38 (2015)
5. Jordan, K.: Initial Trends in Enrolment and Completion of Massive Open Online Courses. The International Review of
Research in Open and Distance Learning, 133-160 (2014)
6. Dellarocas, C., Van Alstyne, M.: Money Models for MOOCs. Considering new business models for massive open online
courses. Communications of the acm 56(8), 25-28 (August 2013)
7. Vardi, M. Y.: Will MOOCs Destroy Academia? Communications of the acm 55(11), 5 (November 2012)
8. Hyman, P.: In the Year of Disruptive Education. Communications of the acm 55(12), 20-22 (December 2012)
9. Ong, B. S., Grigoryan, A.: MOOCs and Universities: Competitors or Partners? International Journal of Information and
Education Technology 5(5), 373-376 (2014)
10. Zutshi, S., O´Hre, S., Rodafinos, A.: Experiences in MOOCs: The Perspective of Students. American Journal of
Distance Education, 218-227 (2013)
11. Fournier, H., Kop, R., Durand, G.: Chalenges to Research in MOOCS. Journal of Online Learning and Teaching (2014)
12. Read, T., Rodrigo, C.: Toward a Quality Model for UNED MOOCs. eLearning Papers (2014)
13. Hew, K. F., Cheung, W. S.: Students and Instructors use of massive open online courses (MOOCs): motivations and
challenges. Educacional Research Review, 45-58 (2014)
14. Daniel, J.: Making Sense of MOOCs: musing in a maze of myth, paradox and possibility. Journal of Interactive Media in
Education, 1-20 (2012)
15. Morris, L. V.: MOOCs, Emerging Technologies and Quality. Innovative Higher Education, 251-252 (2013)
16. Khalil, H., Ebner, M.: MOOCs Completion Rates and Possible Methods to Improve Retention - A Literature Review. In
: Proceeding of World Conference on Educational Multimedia, Hypermidia and Telecommunications, Chesapeake,
VA, pp.1236-1244 (2014)
17. Little, G.: Massively Open? The Journal of Academic Librarianship, 308-309 (2013)
18. Wilkowski, J., Deutsch, A., Russell, D. M.: Student Skill and Goal Achievement in the Mapping with Google MOOC. In
: L@S 2014 - Student Skills and Behavior, Atlanta, Georgia, USA., pp.3-10 (2014)
19. Mallon, M.: MOOCs. Public Services Quarterly, 46-53 (2013)
20. Belanger, Y., Thornton, J.: Bioelectricity: A quantitative approach. Duke University First MOOC., Durham, NC (2013)
21. Fini, A.: The Technological Dimension of a Massive Open Online Course: The Case of the CCK08 Course Tools.
International Review of Research in Open and Distance Learning (2009)
22. Welsh, D. H. B., Dragusin, M.: The New Generation of Massive Open Online Course (MOOCS) and Entrepreneurship
Education. Small Business Institute Journal 9(1), 51-65 (2013)
23. Saadatmand, M., Kumpulainen, K.: Participants Perceptions of Learning and Networking in Connectivism MOOCs.
MERLOT Journal Online Learning and Teatching, 16-30 (2014)
71
24. Clow, D.: MOOCs and the Funnel of Participation. In : Proceedings LAK '13, Leuven, Bélgica, pp.186-189 (2013)
25. Blanco, A. F., Garcia-Penalvo, F. J., Sein-Echaluce, M.: A methodology proposal for developing adaptative cMOOC. In
: TEEM 2013 - Proceedings of the First International Conference on Technological Ecosystem for Enhancing
Multiculturality (ACM), Salamanca, Espanha, pp.553-558 (2013)
26. Kennedy, J.: Characteristics of Massive Open Online Courses (MOOCs): A research review, 2009-2012. Journal of
Interactive Online Learning, 1-16 (2014)
27. Rosewell, J., Jansen, D.: The OpenupEd quality label: Benchmarks for MOOCs. The International Journal for Innovation
and Quality in Learning, 88-100 (2014)
72
4.2 - Artigo 2 - “Uma revisão da literatura sobre os fatores responsáveis pela alta taxa
de evasão nos MOOCs” ou “A review of literature on the reasons that cause the high
dropout rates in the MOOCs”
Uma vez identificado que o problema mais significativo para a gestão dos MOOcs, o segundo
artigo, buscou, a partir de uma revisão da literatura, identificar os motivos responsáveis pela
evasão dos alunos nos cursos oferecidos como MOOCs. Os resultados apontaram 24 motivos
para a evasão nos MOOCs, que foram divididos em duas categorias: motivos inerentes às
próprias características dos MOOCs e os relacionados com o desenvolvimento dos alunos
durante o curso.
Em relação aos vinte e quatro motivos relacionados pelos autores, doze deles (50%) são
inerentes às próprias características dos MOOCs, que os gestores desses cursos têm pouca
margem de atuação no sentido de atenuar os seus efeitos em relação às altas taxas de evasão.
Por exemplo, é possível citar fatores como, a heterogeneidade dos alunos, falta de
conhecimento prévio, falta de um processo de admissão e custo baixo para o aluno.
Sobre a outra categoria, relacionada ao desenvolvimento do aluno durante o curso, foram
considerados outros doze motivos (50%). Tal categoria é a mais crítica e merece atenção
especial por parte dos gestores dos cursos, pois a partir do conhecimento prévio desses
motivos seria possível a adoção de mecanismos que possibilitem a diminuição das taxas de
evasão. Como exemplo, é possível citar motivos como: a falta de motivação por parte dos
alunos, a falta de tempo para acompanhar o curso, o modelo de avaliação, dificuldades com a
tecnologia e a falta de eficiência do material didático.
Por fim, foram apresentadas diversas soluções advindas da bibliografia consultada, para
enfrentar os motivos causadores da evasão.
A principal contribuição foi identificar a dificuldade de professores e gestores deste tipo de
curso em identificar o ponto de vista dos alunos. Os principais motivos relacionados ao
desenvolvimento do aluno durante o curso são os mais críticos e merecem atenção especial
por parte dos gestores dos cursos, pois a partir do conhecimento prévio desses motivos seria
possível a adoção de medidas no sentido de implementar mecanismos que possibilitem a
diminuição das taxas de evasão dos MOOCs.
73
A partir dos resultados desse artigo, considerou-se a necessidade de estudos sobre a adoção
de ferramentas computacionais, principalmente Learning Analytics (LA) e Educational Data
Mining (EDM) que permitissem aos gestores, a partir da análise dos dados gerados pelos
alunos no ambiente virtual de aprendizagem, uma análise sobre o padrão ou conjunto de
padrões de comportamento dos alunos. Tal análise permitiria aos gestores elaborar e definir
estratégicas de ação em cada domínio de aplicação, por exemplo, para identificar alunos em
situação de evasão ou melhorar o processo de ensino e aprendizagem.
A seguir o artigo é reproduzido na sua forma original.
74
UMA REVISÃO DA LITERATURA SOBRE OS MOTIVOS RESPONSÁVEIS PELA ALTA
TAXA DE EVASÃO NOS MOOCS
Luis Naito Mendes Bezerra [email protected]
Márcia Terra da Silva [email protected]
RESUMO
Diversos autores apontam que o maior desafio para a gestão dos MOOCs reside em sua elevada taxa de evasão, geralmente em torno de 90%. Este artigo tem por objetivo identificar os motivos que levam a uma maior evasão nos cursos oferecidos como MOOCs. Para esse fim, foi realizada uma revisão sistemática da literatura nas bases Springer, Science Direct, ERIC database e ACM Digital Library.
Os resultados apontam 24 motivos para a evasão nos MOOCs, que foram divididos em duas categorias: motivos inerentes às próprias características dos MOOCs e os relacionados com o desenvolvimento dos alunos durante o curso. A última categoria é a mais crítica e merece atenção especial por parte dos gestores dos cursos, pois a partir do conhecimento prévio desses motivos seria possível a adoção de mecanismos que possibilitem a diminuição das taxas de evasão. Por fim, foram apresentadas diversas soluções da bibliografia, para enfrentar os motivos causadores da evasão.
ABSTRACT
The main purpose of this article is to try to identify the reasons that lead to higher dropout rates in the courses offered as MOOCs. For this purpose, there has been a systematic review of the literature. The results suggest 24 different reasons for dropouts from MOOCS, and these reasons have been divided into two groups: reasons inherent to the very characteristics of the MOOCs and those related to the development of the students during the course. Finally, several solutions in the bibliography have been mentioned as ways to tackle the factors that have brought about the high dropout rates.
Keywords: distance education; MOOCs; MOOCs dropout; MOOCs management
75
1. Introdução
A educação a distância (EAD) tem percorrido um longo caminho nas últimas décadas, desde o
modelo inicial baseado em material impresso e ensino por correspondência, passando pela utilização
de rádio e televisão, sendo posteriormente impulsionada pela ampla utilização da Internet e das TICs
(tecnologias da informação e da comunicação) (Borba, Malheiros, & Amaral, 2011).
Recentemente surgiu uma nova modalidade de EAD conhecida como MOOC (Massive Open Online
Course, ou Curso Online Aberto e Massivo). Os MOOCs são cursos abertos, com formato totalmente
online, sem pré-requisitos, sem cobrança inicial de taxas e com potencial para distribuir a educação
em escala global, inclusive permitindo aos alunos oriundos de países em desenvolvimento terem
acesso a instituições e cursos de qualidade com baixo custo (Hyman, 2012; Cooper e Sahami 2013;
Ong e Grigoryan, 2014).
Outros autores, também, citam os MOOCs como um novo modelo de negócios para instituições de
ensino superior, pois embora os cursos sejam isentos de taxas para a inscrição e acesso ao
conteúdo, pode-se cobrar taxas para a emissão dos certificados. Considerando-se o elevado número
de alunos, que optam por essa modalidade de ensino, tal iniciativa poderia gerar um modelo de
negócios sustentável (Hyman, 2012; Dellarocas e Van Alstyne 2013; Alraimi, Zo, & Ciganek, 2015).
É importante considerar, no entanto, que o modelo de negócios dos MOOCs ainda não está
consolidado, pois neste momento, é acessível apenas a uma pequena parcela de instituições de
ensino, tais como: Harvard, Stanford e MIT (Massachusetts Institute of Technology), que ao se
utilizarem de sua longa tradição e excelente reputação acadêmica, receberam investimentos
suficientes para bancar os custos de criação de plataformas para produção e distribuição de
conteúdos em larga escala, tendo como resultado a criação de empresas inspiradas no modelo de
startups do Vale do Silício, como a Coursera (Universidade de Stanford) e Edx (MIT e Harvard)
(Sandeen, 2013).
O primeiro MOOC foi criado em setembro de 2008 no Canadá. Contudo, tal formato começou, de
fato, a despertar a atenção dos alunos a partir de 2011, quando Sebastian Thrun e Peter Norvig
criaram o curso de Inteligência Artificial na Universidade de Stanford que atraiu mais de 160.000
alunos de 190 países diferentes (Rodriguez, 2012; Ong e Grigoryan, 2014). A partir de 2011 o
crescimento desta modalidade de EAD tem sido vertiginoso, com o surgimento, inicialmente, de três
grandes plataformas para a oferta de MOOCS, já citadas anteriormente: Coursera, e EdX, além da
Udacity (Little, 2013; Mallon, 2013; Sandeen, 2013).
Tais plataformas tem conseguido distribuir os MOOCS em escala global. A título de exemplo, em
maio de 2015, a plataforma Coursera apresentava 1038 cursos, mantendo parcerias com 119
instituições de ensino superior de várias partes do mundo (Coursera , 2015). Atualmente o interesse
pelos MOOCS tem crescido, também, na Europa. Segundo o site da Open Education Europa que
agrega dados sobre os MOOCs nos países europeus, em setembro de 2014 foram oferecidos 770
cursos, sendo que em setembro de 2015 já eram 1771 cursos, números que apontam para um
crescimento de 130% (Open Education Europa, 2015).
Apesar da escala global ter sido atingida, do grande número de alunos atendidos e do crescimento
considerável do número de cursos, alguns desafios vêm-se apresentando ao universo dos MOOCs e
tem sido objeto de vários estudos. Diversos autores têm pesquisado aspectos como:
Modelo pedagógico dos MOOCs (Vardi, 2012; Fournier, Kop, & Durand, 2014)
Validação do certificado (Hyman, 2012; Cooper & Sahami, 2013);
Tipologia dos MOOCs (Welsh & Dragusin, 2013; Sandeen, 2013; Almenara, Cejudo, & Vazquez
Martinez, 2014; Rosselle, Caron, & Heutte, 2014; Conole, 2014)
76
Percepção e experiência dos alunos de MOOCs (Zutshi, O´Hre, & Rodafinos, 2013; Coffrin, Barba,
Corrin, & Kennedy, 2014; )
Qualidade dos MOOCs (Read & Rodrigo, 2014; Walker & Lock, 2014)
As pesquisas que abordam os temas relativos à percepção e experiência dos alunos e da qualidade
dos MOOCs tratam, frequentemente, de outro aspecto que deve ser considerado pelos responsáveis
pela gestão dos MOOCs, ou seja, o elevado índice de evasão apresentado por este tipo de curso.
Essa problemática, inclusive, tem sido tratada por diversos autores, que investigam os motivos que
levam muitos programas ao fracasso (Roval & Downey, 2010; Poy & Gonzalles-Aguilar, 2014), os
desafios da aprendizagem neste tipo de curso (Hew & Cheung, 2014) e as principais dificuldades dos
alunos em acompanhar o curso (Liu, et al., 2014).
Objetiva-se com esse trabalho, a partir de uma revisão sistemática da literatura, realizada nas bases
Springer, Science Direct, ERIC database, ACM Digital Library, identificar os motivos da elevada
evasão nos cursos oferecidos como MOOCs.
Além desta introdução, este trabalho foi dividido em mais cinco partes. Na seção inicial é
apresentado o processo de evasão nos MOOCs, para em seguida ser apresentada uma revisão
sistemática da literatura sobre os motivos que levam à evasão nos MOOCs. Na sequência,
apresentam-se os resultados e análise, as conclusões e, por último, as referências bibliográficas.
2. O processo de evasão nos MOOCs
No âmbito dos MOOCs, diversos autores apresentam evidências apontando que tais cursos têm
taxas de evasão muito expressivas, geralmente em torno de 90%. (Daniel, 2012; Morris, 2013;
Sandeen, 2013; Hew & Cheung, 2014; Jordan, 2014; Wilkowski, Deutsch, & Russell, 2014; Alraimi,
Zo, & Ciganek, 2015).
A problemática da evasão, também, pode ser apresentada para melhor entendimento, por meio de
exemplos. Segundo Coffrin, Barba, Corrin, & Kennedy (2014), o MOOC denominado Principles of
Macroeconomics, oferecido pela Universidade de Merlbourne atraiu 54.217 alunos, sendo que
32.598, participaram efetivamente do curso, destes, apenas, 1.412 alunos completaram o curso e
receberam o certificado (4,33%). A mesma preocupação relacionada com as altas taxas de evasão
consta da pesquisa de Rosewell & Jansen ( 2014), que apresentam o caso do primeiro MOOC da
Univesidade de Edinburgo em 2013 que teve apenas 12% de concluintes.
Na mesma linha, uma pesquisa mais ampla, apresentada por Jordan (2014), analisou 91 MOOCs,
com número de estudantes variando entre 4.500 a 226.652 (média de 42.844) com a maioria deles
apresentando taxa de conclusão inferior a 10%, sendo que a taxa de conclusão média foi de apenas
6,5%.
De acordo com Wilkowski, Deutsch, & Russell (2014), em função das caracteríticas dos MOOCs,
como a falta de cobrança de taxas e a ausência de pré-requisitos para a entrada de estudantes,
possibilita que os interessados, apenas, façam o registro e nunca mais voltem para o curso, fato que
certamente colabora para um considerável nível de evasão logo no início do curso. Para entender
melhor o perfil do aluno que decide matricular-se neste tipo de curso, os autores propuseram uma
classificação em quatro categoria:
a) No-shows – o estudante faz o registro no curso (muitas vezes antes do conteúdo estar
disponível) e nunca mais faz login no curso;
b) Observers – quer saber como é um curso online e como é o método de ensino;
77
c) Casual learners – precisa aprender um ou dois novos assuntos, seja por curiosidade ou por
necessidades relacionadas a questões de aprendizagem ou profissionais;
d) Completers - completar o maior número de requisitos do curso para concluir os projetos e
receber o certificado de conclusão.
É importante mencionar que o conhecimento de tal classificação permitiria aos gestores entender
melhor os motivos que levam os alunos a se inscreverem nos cursos, além de possibilitar, também, o
desenvolvimento de projetos que levem em consideração os objetivos de cada aluno. Pode, ainda,
influenciar em como os cursos podem ser oferecidos, possibilitando, por exemplo, a indicação de
apenas um subconjunto do curso para determnados alunos com base em suas preferências
declaradas ou experiências anteriores, possibilitando assim a diminuição da evasão.
De forma adicional, o trabalho de Clow (2013) apresenta o grau de participação que um aluno pode
atingir ao cursar um MOOC, processo que permite entender melhor a questão da evasão neste tipo
de curso. Tal processo composto por quatro etapas, foi apresentado pelo autor por meio de um
modelo que foi denominado de “funnel of participation” ou “funil de participação”, conforme pode ser
observado na figura 1.
Figura 1: O funil de participação – Adaptado de Clow (2013)
As etapas do modelo são detalhadas a seguir:
Etapa 1 – Awareness (conhecimento) – os alunos potenciais devem saber da existência do MOOC.
Etapa 2 – Registration (inscrição) - apenas uma fração daqueles que estão cientes vão querer se
inscrever e conseguem fazê-lo.
Etapa 3 – Activity (atividade) - Em seguida, uma fração dos inscritos vai continuar a se envolver em
alguma atividade ou outra e alguns destes vão atingir a etapa final, denominada (Progress – Progresso)
na qual ocorre uma aprendizagem significativa.
A evasão em todas as etapas já é bastante alta, acentua-se, no entanto, nas etapas 1 e 2.
Os trabalhos de Clow (2013) e Wilkowski, Deutsch, & Russell (2014), são importantes para explicar a
diminuição drástica do interesse e participação dos alunos através do tempo e das fases do curso.
Contudo, não elucidam com detalhes os principais motivos responsáveis pelas altas taxas de evasão
nos MOOCs. Sendo assim, na próxima seção será efetuada uma revisão sistemática da literatura para
identificar os motivos que levam os alunos a abandonarem o curso.
78
3. Revisão sistemática da literatura sobre evasão nos MOOCs
3.1 Procedimentos metodológicos
A revisão da literatura é uma ferramenta chave para tratar a diversidade de conhecimento em uma
área acadêmica específica. No caso desta pesquisa, utilizou-se como referência os trabalhos de
(Kennedy, 2014; Liyanagunawardena, Adams, Rassol, & Williams, 2014; Hew & Cheung, 2014).
Para atingir o objetivo proposto, foi realizado um levantamento bibliográfico que compreende o
período entre a oferta do primeiro MOOC em 2008 (Sandeen, 2013) até o ano em que a pesquisa
está sendo conduzida (2015). Os critérios para pesquisa estão relacionados na tabela 1:
Tabela 1: Critérios para construção da base de artigos
Critério Definição
Tipo de documento Artigos em revista e congressos
Palavras-chave “MOOCs dropout”; “MOOCs no completion rate”; “MOOCs attrition rate”
Periódicos / base de dados Springer Science Direct ERIC database ACM Digital Library
As palavras-chave utilizadas para busca nas bases de dados foram obtidas a partir do relatório de
Quinn (2013), que realizou um estudo para a Comissão Europeia de Educação, que teve como
objetivo, analisar a questão da evasão no ensino superior na modalidade de educação a distância.
A partir dos critérios definidos na tabela 1, foram obtidos os seguintes resultados, que são
apresentados na tabela 2:
Tabela 2: resultado das buscas nas bases de dados
Base de dados URL Resultado da busca - artigos
Springer www.springer.com 61
Science Direct www.sciencedirect.com 95
ERIC database
http://eric.ed.gov/ 14
ACM Digital Library www.acm.org 42
Em seguida, a pesquisa foi direcionada para a leitura dos títulos e abstracts, com o objetivo de
identificar os artigos aderentes aos objetivos do presente estudo. Após a leitura e análise dos títulos
e abstracts, foram selecionados 24 artigos que compõem esta análise.
4. Resultados e análise
A partir da análise das pesquisas acerca do tema foi possível a identificação de 24 motivos para a
não conclusão do curso e que estão relacionados na tabela 3. Em função desta tabela é possível
observar que para cada motivo estão destacados os autores que foram utilizados como referência,
sendo importante destacar que os motivos não foram apresentados em ordem de importância.
79
Tabela 3: Motivos para evasão nos MOOCs
# Motivo Autores
1 Falta de atividade cooperativa entre os alunos / trabalho em grupo
(Blanco, Garcia-Penalvo, & Sein-Echaluce, 2013) (Burd, Smith, & Reisman, 2014)
2 Heterogeneidade dos alunos (Blanco, Garcia-Penalvo, & Sein-Echaluce, 2013) (Gené, Nunes, & Blanco, 2014)
3 Falta de motivação por parte dos alunos
(Gené, Nunes, & Blanco, 2014) (Fini, 2009)
4 Falta de tempo suficiente para acompanhar o curso / dificuldade na gestão do tempo.
Fini, A. (2009) Belanger, Y. and Thornton, J. (2013) (Nawrot & Docet, 2014) (Burge, 2015) (Zheng, Rosson, Shih, & Carrol, 2015)
5 Falta de conhecimento prévio e preparo dos estudantes
(Belanger & Thornton, 2013) (Burd, Smith, & Reisman, 2014) (Maringe & Sing, 2014)
6 Dificuldade em relacionar os conceitos com as aplicações
(Belanger & Thornton, 2013)
7 Nível do curso diferente da expectativa inicial
(Gené, Nunes, & Blanco, 2014)
8 Modelo de avaliação (Garcia_Penalvo, Hermo, Blanco, & Sein-Echaluce, 2014)
9 Falta de retorno das atividades (Garcia_Penalvo, Hermo, Blanco, & Sein-Echaluce, 2014)
10 Dificuldade com a tecnologia (Fini, 2009) (Kennedy, 2014)
2
(Liyanagunawardena, Adams, Rassol, & Williams, 2014)
11 Dificuldade com a língua inglesa (Fini, 2009) (Liyanagunawardena, Adams, Rassol, & Williams, 2014)
12 O curso não correspondeu às expectativas
(Fini, 2009)
13 Diferença de fuso-horário (Kennedy, 2014) 3
14 Ausência de custo para o aluno (Chen, 2014) (Morris, 2013)
15 Falta de processo de admissão (Chen, 2014) (Morris, 2013)
16 Falta de eficácia do material – vídeos e exercícios
(Muñoz-Merino, Ruipérez-Valiente, Alario-Hoyos, Perez-Sanagustin, & Kloos, 2014) (Burge, 2015)
17 Falta de maturidade do aluno (Burd, Smith, & Reisman, 2014)
18 Matrícula em mais de um curso (Burge, 2015)
19 Carga de trabalho excessiva (Zheng, Rosson, Shih, & Carrol, 2015)
20 Demora em iniciar o curso (Zheng, Rosson, Shih, & Carrol, 2015)
21 Aprender apenas um ou mais tópicos do curso
(Brahimi & Sarirete, 2015)
22 Dificuldade em acompanhar o conteúdo do curso
(Zheng, Rosson, Shih, & Carrol, 2015)
23 Falta de urgência ou pressão para terminar o curso
(Zheng, Rosson, Shih, & Carrol, 2015)
24 Falta de um tutorial para orientar os usuários
(Gomes-Zermeno & De La Garza, 2016)
2 Fez referência ao artigo original de (Kop, Fournier, & Mak, 2011)
3 Fez referência ao artigo original de (Kop, Fournier, & Mak, 2011)
80
Na etapa seguinte, os motivos foram divididos em dois grupos para facilitar a análise, sendo
importante destacar que tal divisão foi inspirada nos trabalhos de Clow (2013) e Wilkowski, Deutsch,
& Russell (2014), como segue:
4.1 Motivos inerentes às próprias características do MOOCs
Conforme mencionado anteriormente, os MOOCs apresentam como características aspectos como:
serem cursos abertos, com formato totalmente online, sem pré-requisitos, sem cobrança inicial de
taxas e com potencial para distribuir a educação em escala global, inclusive, permitindo aos alunos
oriundos de países em desenvolvimento terem acesso a instituições de elevada reputação e cursos
de qualidade.
Contudo, características como a ausência de cobrança de taxas e o caráter aberto, propiciam que
um número considerável de alunos faça matrícula apenas por curiosidade ou com objetivo de
conhecer um curso, para desistir logo em seguida, contribuindo assim para elevar a taxa de evasão.
Em relação aos vinte e quatro motivos relacionados pelos autores, doze deles (50%) são inerentes
às próprias características dos MOOCs, sendo importante mencionar que os gestores desses cursos
têm pouca margem de atuação no sentido de atenuar os seus efeitos em relação às altas taxas de
evasão. É importante salientar, no entanto, que esses motivos, neste momento, não são objeto de
análise deste estudo. Os motivos são apresentados na tabela 4:
Tabela 4: Motivos inerentes às próprias características do MOOCs
# Motivo Autores
2 Heterogeneidade dos alunos (Blanco, Garcia-Penalvo, & Sein-Echaluce, 2013) (Gené, Nunes, & Blanco, 2014)
5 Falta de conhecimento prévio e preparo dos estudantes
(Belanger & Thornton, 2013) (Burd, Smith, & Reisman, 2014) (Maringe & Sing, 2014)
9 Falta de retorno das atividades (Garcia_Penalvo, Hermo, Blanco, & Sein-Echaluce, 2014)
11 Dificuldade com o idioma (inglês)
(Fini, 2009) (Liyanagunawardena, Adams, Rassol, & Williams, 2014)
12 O curso não correspondeu às expectativas
(Fini, 2009)
13 Diferença de fuso-horário (Kennedy, 2014)
14 Ausência de custo para o aluno (Chen, 2014) (Morris, 2013)
15 Falta de processo de admissão (Chen, 2014) (Morris, 2013)
18 Matrícula em mais de um curso (Burge, 2015)
20 Demora em iniciar o curso (Zheng, Rosson, Shih, & Carrol, 2015)
21 Aprender apenas um ou mais tópicos do curso
(Brahimi & Sarirete, 2015)
23 Falta de urgência ou pressão para terminar o curso
(Zheng, Rosson, Shih, & Carrol, 2015)
81
4.2 Motivos relacionados ao desenvolvimento do aluno durante o curso
Para esse conjunto de motivos é possível estabelecer uma relação com o modelo Clow (2013) na
etapa de Activity (atividade), na qual os alunos passam a se envolver com o curso, participando de
atividades, como, por exemplo, assistir a vídeos e responder a exercícios. Sendo assim, dos vinte e
quatro motivos relacionados pelos autores, doze deles (50%) são relacionados ao desenvolvimento
do aluno durante o curso. A tabela 5 apresenta os doze motivos:
Tabela 5: Motivos relacionados com o desenvolvimento do aluno durante o curso
# Motivo Autores
1 Falta de atividade cooperativa entre os alunos / trabalho em grupo
(Blanco, Garcia-Penalvo, & Sein-Echaluce, 2013) (Burd, Smith, & Reisman, 2014)
3 Falta de motivação por parte dos alunos
(Gené, Nunes, & Blanco, 2014) (Fini, 2009)
4 Falta de tempo suficiente para acompanhar o curso / dificuldade na gestão do tempo.
Belanger, Y. and Thornton, J. (2013) Fini, A. (2009)
6 Dificuldade em relacionar os conceitos com as aplicações
(Belanger & Thornton, 2013)
7 Nível do curso diferente da expectativa inicial
(Gené, Nunes, & Blanco, 2014)
8 Modelo de avaliação (Garcia_Penalvo, Hermo, Blanco, & Sein-Echaluce, 2014)
10 Dificuldade com a tecnologia (Fini, 2009) (Kennedy, 2014) (Liyanagunawardena, Adams, Rassol, & Williams, 2014)
16 Falta de eficácia do material – vídeos e exercícios
(Muñoz-Merino, Ruipérez-Valiente, Alario-Hoyos, Perez-Sanagustin, & Kloos, 2014)
17 Falta de maturidade do aluno (Burd, Smith, & Reisman, 2014)
19 Carga de trabalho excessiva (Zheng, Rosson, Shih, & Carrol, 2015)
22 Dificuldade em acompanhar o conteúdo do curso
(Zheng, Rosson, Shih, & Carrol, 2015)
24 Falta de um tutorial para orientar os usuários
(Gomes-Zermeno & De La Garza, 2016)
É importante ressaltar que os motivos apresentados na tabela 5, ou seja, aqueles relacionados ao
desenvolvimento do aluno durante o curso são os mais críticos em relação àqueles inerentes às
próprias características do MOOCs e deveriam receber um nível de atenção maior por parte dos
gestores do curso, pois a partir do conhecimento sobre quais motivos influenciam de maneira mais
acentuada a evasão de determinado curso, seria possível adotar estratégias para diminuir as taxas
de evasão.
É possível encontrar na literatura elementos que podem colaborar para propor soluções para tratar
dos motivos apontados na tabela 5. Inicialmente, para o fator 1 (falta de atividade cooperativa entre
os alunos e trabalhos em grupo), Khalil & Ebner (2014) sugerem que nos fóruns de discussão, além
da resposta do professor, de forma adicional, os estudantes sejam incentivados a responderem uns
aos outros, aumentando assim o compartilhamento de recursos suplementares e possibilitando,
também, que os alunos sintam-se parte de uma comunidade de aprendizagem virtual e que possam
recorrer a ela quando necessitarem de ajuda.
Para o motivo 4 (falta de tempo suficiente para acompanhar o curso), motivo 6 (dificuldade em
relacionar os conceitos com as aplicações) e motivo 22 (dificuldade em acompanhar o conteúdo do
82
curso), seria possível utilizar os princípios apontados no trabalho de Blanco, Garcia-Penalvo, & Sein-
Echaluce (2013), que propõe a utilização de uma abordagem adaptativa para o projeto do curso, em
contraste com o projeto rígido adotado pela maioria dos cursos atuais. A abordagem adaptativa leva
em consideração o aspecto heterogêneo dos alunos, sugerindo caminhos de aprendizagem
individualizados, onde uma determinada atividade pode ser interessante para um indivíduo ou grupo
de alunos, mas não para todos.
Ainda segundo os mesmos autores, o sistema adaptativo , a partir de uma avaliação diagnóstica dos
alunos, propõe atividades personalizadas para cada perfil de aluno, sendo possível, ainda, agrupar
os participantes por afinidade (contexto e objetivos de aprendizagem semelhantes) contribuindo
desta maneira para a realização de atividades colaborativas.
Para o motivo 8 (modelo de avaliação), a pesquisa de (Garcia_Penalvo, Hermo, Blanco, & Sein-
Echaluce, 2014) faz constar que os participantes demandam outros métodos de avaliação, diferentes
dos testes adotados pela maioria dos cursos. Por exemplo, sugere-se a adoção do método de
revisão pelos pares (peer reviewing) e mais retorno (feedback) em relação às falhas cometidas
durante o processo de avaliação. Um exemplo nesta direção é o curso Principles of Macroeconomics
da Universidade de Melbourne, no qual os estudantes colaboram entre si por meio de fóruns e redes
sociais. Há também a avaliação em pares, onde um determinado aluno escreve um texto de 1500
palavras que é avaliado por três outros estudantes (Coffrin, Barba, Corrin, & Kennedy, 2014).
Já em relação a falta de eficácia do material (motivo 16), principalmente vídeos e exercícios, o
sistema PES (Precise Effectiveness Strategy) é proposto como uma metodologia para medir a
efetividade dos alunos quando interagem com recursos educacionais e atividades. O sistema utiliza-
se para tanto de métricas para para calcular a efetividade dos alunos quando utilizam, por exemplo,
palestras em vídeo e correção automática de exercícios. O PES estabelece que a conclusão do
recurso (um vídeo, por exemplo) implica em uma interação correta com a atividade. Portanto, um
recurso é concluído quando um aluno resolve um exercício corretamente, mas não quando o aluno
tenta fazê-lo sem sucesso (Muñoz-Merino, Ruipérez-Valiente, Alario-Hoyos, Perez-Sanagustin, &
Kloos, 2014).
Para o motivo 17 (falta de maturidade do aluno), se as atividades de aprendizagem dependem de
ações em grupo, alunos que são imaturos ou despreparados podem prejudicar a aprendizagem dos
outros. Nesse caso, seria importante definir procedimentos de apoio e orientação realistas
(considerando a natureza dos MOOCs). Tipicamente , a única forma de ajuda oferecida na maioria
dos MOOCs é a assistência de pares (peer assistance), onde os alunos colaboram entre si, além da
possibilidade da atribuição de um moderador para colaborar com as discussões em grupo.
Os motivos 10 (dificuldade com a tecnologia) e 19 (carga de trabalho excessiva), apesar de em um
primeiro momento parecerem fora do controle dos gestores, deveriam receber atenção, no sentido de
propor mais atividades colaborativas, que diminuam o estudo individual e promovam o senso de
comunidade entre os alunos. Para a questão da dificuldade com a tecnologia, muitos alunos podem
enfrentar problemas em relação ao uso das ferramentas internas disponíveis, como, por exemplo,
para os fóruns de discussão. Nesse caso, seria possível a utilização de ferramentas externas, como
o Facebook e algumas soluções da Google (Google Docs e Google+) (Zheng, Rosson, Shih, &
Carrol, 2015).
Como exemplo final, para os motivos 3 (falta de motivação por parte dos alunos) e 7 (nível do curso
diferente da expectativa inicial), o trabalho de Gené, Nunes, & Blanco (2014), indica a aplicação do
conceito de gamificação para elevar o nível de motivação dos alunos e diminuir as taxas de evasão.
O termo gamificação (do inglês gamification), refere-se à prática de utilizar elementos de jogos
digitais em produtos e serviços para melhorar a experiência de seus usuários (de-Marcos,
Dominguez, & Saenz-de-Navarrete, 2014). Esse conceito pode ser implementado, por exemplo,
durante o processo de avaliação dos alunos, quando após a realização “quizzes” no ambiente
83
Moodle, os elementos de jogos foram utilizados, com a adoção, por exemplo, de “ranking ratings” para a
classificação dos alunos após cada atividade.
É importante considerar que o caráter heterogêneo e aberto dos MOOCs, permite a participação de
alunos com perfil de aprendizagem e interesses diversos. Sendo assim, seria fundamental para a
diminuição das elevadas taxas de evasão, a partir de uma avaliação diagnóstica para conhecer o
perfil de cada aluno, propor atividades personalizadas para cada aluno ou grupos de alunos. Neste
caso, seria possível propor atividades e selecionar materiais mais adequados aos alunos com
contexto e objetivos de aprendizagem semelhantes, em contraste com o modelo rígido que
prevalece, atualmente, e que trata todos os alunos da mesma maneira.
Neste sentido, são importantes os estudos e projetos de implantação de MOOCs adaptativos, que
permitem a partir de dados originados pelos alunos na utilização e interação com o ambiente de
aprendizagem, o estabelecimento de diferentes estratégias de aprendizagem individualizadas bem
como para grupos de alunos.
5. Conclusão
A pesquisa teve como objetivo identificar na literatura os motivos que levam os MOOCs a
apresentarem altas taxas de evasão. Após revisão sistemática na literatura nas bases Springer,
Science Direct, ERIC database, ACM Digital Library e Google Acadêmico, foram identificados 24
motivos, que na sequência foram divididos em dois grupos, ou seja, motivos inerentes às próprias
características do MOOCs e motivos relacionados com o desenvolvimento do aluno durante o curso.
A análise mostrou que doze dos vinte e quatro motivos são inerentes às próprias características dos
MOOCs, pois, por exemplo, o fato de tais cursos serem abertos e sem cobrança inicial de taxas
contribui de maneira importante para as altas taxas de evasão, pois muitos alunos fazem inscrição
apenas por curiosidade e logo desistem do curso. Para esse grupo de motivos, os gestores desses
cursos têm pouca margem de atuação no sentido de propor soluções para a redução das altas taxas
de evasão.
É importante salientar que os doze motivos relacionados ao desenvolvimento do aluno durante o
curso são os mais críticos e merecem atenção especial por parte dos gestores dos cursos, pois a
partir do conhecimento prévio desses motivos seria possível a adoção de medidas no sentido de
implementar mecanismos que possibilitem a diminuição das taxas de evasão dos MOOCs. Foram
apresentadas a partir da literatura, algumas possíveis soluções para enfrentar tais motivos, dentre
elas a utilização de abordagem adaptativa para o curso, a adoção do processo de gamificação, o
aumento das atividades de cooperação entre os alunos nos fóruns de discussão dos cursos e o
sistema PES (Precise Effectiveness Strategy) para medir a efetividade dos alunos quando interagem
com recursos educacionais e atividades
Em termos de trabalhos futuros, sugere-se a realização de pesquisas de campo com alunos para
verificar se os motivos apontados na literatura são compatíveis com as dificuldades relatadas por
eles durante o curso. Além disso, seria importante estudos sobre a adoção de ferramentas
computacionais, principalmente Learning Analytics (LA) e Educational Data Mining (EDM) que
permitiriam a análise dos dados gerados pelos alunos no ambiente virtual de aprendizagem e
possibilitariam aos gestores uma análise antecipada do comportamento dos alunos, com o objetivo
de prever quando o aluno poderá parar de frequentar o curso e adotar as medidas cabíveis com a
finalidade de diminuir a evasão no curso.
84
6. Referências bibliográficas
Almenara, J., Cejudo, M., & Vazquez Martinez, A. (2014). Las Tipologias de MOOC: Su Diseño e Implicaciones Educativas. Revista de curriculum y formación de profesorado, pp. 14-26.
Alraimi, K., Zo, H., & Ciganek, A. (2015). Understanding the MOOCs continuance: The role of openness and. Computers & Education, pp. 28-38.
Belanger, Y., & Thornton, J. (2013). Bioelectricity: A quantitative approach. Duke University First MOOC. Durham, NC.
Blanco, A., Garcia-Penalvo, F., & Sein-Echaluce, M. (2013). A methodology proposal for developing adaptative cMOOC. TEEM 2013 - Proceedings of the First International Conference on Technological Ecosystem for Enhancing Multiculturality (ACM), (pp. 553-558). Salamanca,
Espanha.
Borba, M., Malheiros, A., & Amaral, R. (2011). Educação a Distância Online. Belo Horizonte:
Autêntica.
Brahimi, T., & Sarirete, A. (2015). Learning outside the classroom through MOOCs. Computers in Human Behavior, 51 - parte B, pp. 604-609.
Burd, E., Smith, S., & Reisman, S. (2014). Exploring Business Models for MOOCs in Higher Education. Innovative Higher Education, pp. 1-13.
Burge, J. (2015). Insights into Teaching and Learning: Reflections on MOOC Experiences. SIGCSE '15 Proceedings of the 46th ACM Technical Symposium on Computer Science Education (pp.
600-603). Kansas City, MO, USA: ACM New York, NY, USA.
Chen, Y. (2014). Investigating MOOCs Through Blog Mining. The International Review of Research in Open and Distance Learning, pp. 85-106.
Clow, D. (2013). MOOCs and the Funnel of Participation. Proceedings LAK '13, (pp. 186-189).
Leuven, Bélgica.
Coetzee, D., Fox, A., Hearst, M., & Hartmann, B. (2014). Should your MOOC Forum use a reputation system? CSCW 2014 - Learning Analytics and Knowledge. Baltimore, Maryland, USA.
Coffrin, C., Barba, P., C.orrin, L., & Kennedy, G. (2014). Visuzalizing patterns of student engagement and performance in MOOCs. Proceedings - LAK2014 - Learning Analytics and Knowledge.
Indianapolis, USA.
Conole, G. (2014). A new classification schema for Moocs. The International Journal for Innovation and Quality in Learning (INNOQUAL), pp. 65-77.
Cooper, S., & Sahami, M. (2013). Reflections on Stanford’s MOOCs. New possibilities in online education create new challenges. Communications of the acm, 56(2), 28-30.
Coursera. (s.d.). Coursera. Acesso em 15 de maio de 2015, disponível em https://pt.coursera.org/
Daniel, J. (2012). Making Sense of MOOCs: musing in a maze of myth, paradox and possibility. Journal of Interactive Media in Education, 1-20.
Dellarocas, C., & Van Alstyne, M. (August de 2013). Money Models for MOOCs. Considering new business models for massive open online courses. Communications of the acm, 56(8), 25-28.
de-Marcos, L., Dominguez, A., & Saenz-de-Navarrete, J. P. (2014). An empirical study comparing gamification and social networking on e-learning. Computers & Education, pp. 82-91.
Fini, A. (2009). The Technological Dimension of a Massive Open Online Course: The Case of the CCK08 Course Tools. International Review of Research in Open and Distance Learning.
85
Fournier, H., Kop, R., & Durand, G. (2014). Chalenges to Research in MOOCS. Journal of Online Learning and Teaching.
Garcia_Penalvo, F., Hermo, V., Blanco, A., & Sein-Echaluce, M. (2014). Applied Educational Innovation MOOC: Learners Experience and Valorization of Strengths and Weaknesses. TEEM 2014 - Proceedings of the Second International Conference on Technological Ecosystem for Enhancing Multiculturality (ACM), (pp. 139-145). Salamanca, Espanha.
Gené, O., Nunes, M., & Blanco, A. (2014). Gamification in MOOC: Challenges, Oportunities and Proposal for Advancing MOOC Model. TEEM 2014 - Proceedings of the Second International Conference on Technological Ecosystem for Enhancing Multiculturality (ACM), (pp. 215-220).
Salamanca, Espanha.
Gomes-Zermeno, M., & De La Garza, L. (2016). Research Analysis on Mooc Course Dropout and Retention Rates. Turkish Online Journal of Distance Education-TOJDE, 17(2), p. (pp.) 3-14.
Guo, P., & Reinecke, K. (4-5 de march de 2014). Demographic Differences in How Students Navigate Through MOOCs. L@S - Student Skills and Behavior.
Hew, K., & Cheung, W. (2014). Students and Instructors use of massive open online courses (MOOCs): motivations and challenges. Educacional Research Review, pp. 45-58.
Hyman, P. (December de 2012). In the Year of Disruptive Education. Communications of the acm, 55(12), 20-22.
Jordan, K. (2014). Initial Trends in Enrolment and Completion of Massive Open Online Courses. The International Review of Research in Open and Distance Learning, pp. 133-160.
Kennedy, J. (2014). Characteristics of Massive Open Online Courses (MOOCs): A research review, 2009-2012. Journal of Interactive Online Learning, pp. 1-16.
Khalil, H., & Ebner, M. (2014). MOOCs Completion Rates and Possible Methods to Improve Retention - A Literature Review. Proceeding of World Conference on Educational Multimedia, Hypermidia and Telecommunications, (pp. 1236-1244). Chesapeake, VA.
Kop, R., Fournier, H., & Mak, J. (2011). A Pedagogy of Abundance or a Pedagogy to Support Human Beings? Participant Support on Massive Open Online Courses. The International Review of Research in Open and Distance Learning, pp. 75-93.
Little, G. (2013). Massively Open? The Journal of Academic Librarianship, pp. 308-309.
Liu, M., Kang, J., Cao, M., Lim, M., Ko, Y., Myers, R., et al. (2014). Understanding MOOCs as an Emerging Online Learning Too: Perspectives from the Students. American Journal of Distance Education, pp. 147-159.
Liyanagunawardena, T., Adams, A., Rassol, N., & Williams, S. (2014). Developing government policies for distance education: Lessons learnt from two Sri Lankan Case Studies. International Review of Educational, pp. 1-19.
Mallon, M. (2013). MOOCs. Public Services Quarterly, pp. 46-53.
Maringe, F., & Sing, N. (2014). Teaching large classes in increasingly internationalising higher education environment: pedagogical, quality and equity issues. Higher Education, pp. 761-782.
Morris, L. (2013). MOOCs, Emerging Technologies and Quality. Innovative Higher Education, 251-252.
Muñoz-Merino, P., Ruipérez-Valiente, J., Alario-Hoyos, C., Perez-Sanagustin, M., & Kloos, C. (2014). Precise Effectiveness Strategy for Analyzing the Effectiveness of Students. Computer in Human Behavior, pp. 1-11.
86
Nawrot, I., & Docet, A. (2014). Building Engagement for MOOC Students. Introducing Support for Time Management on Online Learning Platforms. Proceedings of the 23rd International
Conference on World Wide Web (pp. 1077-1082). Seul, Korea: ACM New York, NY, USA.
Ong, B., & Grigoryan, A. (2014). MOOCs and Universities: Competitors or Partners? International Journal of Information and Education Technology, 5(5), 373-376.
Open Education Europa. (2015). European MOOCs Scoreboard. Acesso em 23 de setembro de 2015, disponível em The European MOOCs Scoreboard: http://openeducationeuropa.eu/sites/default/files/images/scoreboard/Scoreboard_SEPTEMBER_2015.png
Poy, R., & Gonzalles-Aguilar, A. (2014). Factores de éxito de los MOOC: algunas consideraciones críticas. Revista Ibérica de Tecnologia y Sistemas de Información, pp. 105-118.
Quinn, J. (2013). Drop out and Completion in Higher Education in Europe. Acesso em 2015 de julho de 09, disponível em http://www.nesetweb.eu/sites/default/files/HE%20Drop%20out%20AR%20Final.pdf
Read, T., & Rodrigo, C. (2014). Toward a Quality Model for UNED MOOCs. eLearning Papers.
Rodriguez, O. (2012). MOOCs and the AI-Stanford like courses: Two successful and distinct course formats for Massive Open Online Courses. The European Journal of Open Distance and E-Learning, pp. 1-13.
Rosewell, J., & Jansen, D. (2014). The OpenupEd quality label: Benchmarks for MOOCs. The International Journal for Innovation and Quality in Learning, pp. 88-100.
Rosselle, M., Caron, P., & Heutte, J. (2014). A typology and dimensions of a description framework for MOOCs. Proceedings of the European MOOCs Stakeholoders Summit, (pp. 130-139).
Roval, A., & Downey, J. (2010). Why some distance education programs fail while others succeed in a global environment. Internet and Higher Education, pp. 141-147.
Saadatmand, M., & Kumpulainen, K. (2014). Participants Perceptions of Learning and Networking in Connectivism MOOCs. MERLOT Journal Online Learning and Teatching, pp. 16-30.
Sandeen, C. (2013). Integrating MOOCs into Traditional Higher Education: The emerging "MOOC 3.0" Era. The Magazine of Higher Learning, pp. 34-39.
Vardi, M. (November de 2012). Will MOOCs Destroy Academia? Communications of the acm, 55(11),
5.
Walker, L., & Lock, B. (2014). Academics Perception on the Quality of Moocs: an empirical study. The International Journal for Innovation and Quality (INNOQUAL), pp. 53-63.
Welsh, D., & Dragusin, M. (2013). The New Generation of Massive Open Online Course (MOOCS) and Entrepreneurship Education. Small Business Institute Journal, 9(1), 51-65.
Wilkowski, J., Deutsch, A., & Russell, D. (2014). Student Skill and Goal Achievement in the Mapping with Google MOOC. L@S 2014 - Student Skills and Behavior (pp. 3-10). Atlanta, Georgia,
USA.: ACM.
Zheng, S., Rosson, M., Shih, P., & Carrol, J. (2015). Understanding Student Motivation, Behaviors and Perceptions in MOOCs. CSCW '15 Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing (pp. 1882-1895). Vancouver, BC, Canada: ACM New York, NY, USA.
Zutshi, S., O´Hre, S., & Rodafinos, A. (2013). Experiences in MOOCs: The Perspective of Students. American Journal of Distance Education, pp. 218-227.
87
4.3 Artigo 3 - “A aplicação de mineração de dados educacionais na descoberta de
padrões de comportamento dos alunos de uma disciplina online: um caso
brasileiro” ou “Application of educational data mining to understand the online
students behavioral pattern: a brazilian case”
O terceiro artigo descreve a aplicação de técnicas de MDE em uma dimensão menor que a
considerada para o objetivo final da tese. Nesse caso foi escolhida uma disciplina online com
1.113 alunos.
O artigo foi concebido para descrever a aplicação de técnicas de MDE, com o objetivo de
extrair do AVA conhecimentos novos e relevantes a respeito dos padrões de comportamento
dos alunos.
A principal contribuição deste artigo foi constatar que a mineração de dados educacionais
mostrou-se útil na obtenção de conhecimento novo e relevante na análise da oferta inicial de
uma disciplina online. Após a aplicação de dois algoritmos bastante utilizados em contextos
educacionais, a árvore de decisão (decision tree) e o agrupamento (clustering), foi possível,
com a participação do especialista de domínio, revelar aspectos da disciplina que os gestores
desconheciam e acharam relevantes, como as atividades que contribuíram de maneira mais
expressiva para a aprovação dos alunos e os atributos mais significativos para o sucesso dos
mesmos.
Com base nesses resultados, constatou-se a necessidade da ampliação da quantidade de
experimentos, além da aplicação do processo de mineração de dados educacionais em cursos
com caráter massivo.
A seguir o artigo é reproduzido na sua forma original.
88
A APLICAÇÃO DE MINERAÇÃO DE DADOS EDUCACIONAIS NA
DESCOBERTA DE PADRÕES DE COMPORTAMENTO DOS ALUNOS DE UMA
DISCIPLINA ONLINE: UM CASO BRASILEIRO
Luis Naito Mendes Bezerra [email protected]
Márcia Terra da Silva [email protected]
RESUMO
Nos Ambientes Virtuais de Aprendizagem (AVAs) uma enorme quantidade de dados de navegação,
participação e progresso pode ser registrada e coletada, possibilitando que sejam feitas diversas
análises relacionadas ao padrão ou conjunto de padrões de comportamento dos alunos. Porém, essa
superabundância de dados tem excedido a capacidade de análise e extração de conhecimento por
meios convencionais. O objetivo deste artigo é descrever a aplicação de técnicas de mineração de
dados educacionais (MDE), com o objetivo de extrair do AVA conhecimentos novos e relevantes a
respeito dos padrões de comportamento dos alunos de uma disciplina online.
A aplicação de dois algoritmos bastante utilizados em contextos educacionais, a árvore de decisão
(decision tree) e o agrupamento (clustering), revelou aspectos da disciplina que os gestores
desconheciam e acharam relevantes, como as atividades que contribuíram de maneira mais
expressiva para a aprovação dos alunos e os atributos mais significativos para o sucesso dos
mesmos.
Palavras-chave: análise de dados, educação a distância, árvore de decisão, agrupamento
ABSTRACT
In Learning Management System (LMS) a large volume of data regarding online access, participation
and progress can be registered and collected allowing innumerous analyses based on students’
behavioral patterns. However, big volumes of data have exceeded the capacity of traditional methods
to extract knowledge from them. The objective of the present article is to describe the application of
educational data mining (EDM) aiming to obtain relevant knowledge of students’ behavioral patterns
in a LMS for an online course.
We applied two well-known algorithms on educational context, decision tree and clustering, unveiling
unknown relevant aspects to managers, such as the most important examinations that contribute to
students’ approval as well as the most significant attributes to their success.
Keywords: data analyzes, distance learning, decision tree, clustering
89
1. Introdução
Com os avanços no uso da tecnologia da informação e da comunicação (TIC) em diversas áreas do
conhecimento, tem crescido de forma muito acelerada o volume de dados gerados e armazenados
em diversos ambientes computacionais, fato que tem produzido uma superabundância de dados. A
quantidade extraordinariamente grande de dados tem sido considerada um problema, pois a
capacidade de coletar e armazenar esses dados tem superado a habilidade de analisar e extrair
conhecimento destes. De forma destacada, a área de mineração de dados tem sido utilizada para
transformar de maneira inteligente e automática, os dados disponíveis em informações úteis, que
representem conhecimento para a tomada de decisão em diversas áreas como, marketing, finanças,
manufatura e saúde. (de Castro & Ferrari, 2016)
Recentemente, com o crescimento e expansão da Educação a Distância (EaD), pesquisas têm sido
conduzidas visando a aplicação de técnicas de mineração de dados também no ambiente
educacional.
É importante citar, que no âmbito da educação superior, as matrículas no ensino a distância, no
Brasil, continuam a apresentar crescimento. De acordo com os dados do último censo, realizado pelo
Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira – INEP (2015), mais de 1,1
milhão de alunos estão matriculados nesta modalidade no Brasil, com crescimento de 24% no
período de 2010-2013 e crescimento médio de 6% ao ano. Nos EUA a situação não é diferente. Os
últimos dados apontam que no período de 2013 a 2014, a taxa de crescimento do número de
estudantes matriculados em pelo menos um curso a distância foi de 3,9%, acima, portanto, da taxa
de 3,7% para o ano anterior. Tal segmento apresentou um total de 5,8 milhões de alunos
matriculados em 2014. (de Baker, Isotani, & de Carvalho, 2011; Allen & Seaman, 2015)
No contexto da EaD, uma nova modalidade também deve ser considerada - os MOOCs (Massive
Open Online Course). Tais cursos são totalmente online, não exigem pré-requisitos para matrícula e
não há cobrança inicial de taxas, podendo ter um número bastante expressivo de alunos
matriculados, oriundos de diversos países (Hyman, 2012; Cooper & Sahami, 2013). Um exemplo é o
curso, Think Again: How to Reason and Argue, oferecido pela Universidade de Duke com parceria
com a provedora Coursera em 2012. Este é um MOOC que chegou a 226.652 alunos matriculados,
Contudo, não é comum cursos com mais de 100.000 alunos, sendo que um MOOC típico apresenta
em média 25.000 alunos matriculados. (Jordan, 2015)
Esse grande número de alunos utiliza normalmente os Ambientes Virtuais de Aprendizagem (AVA)
ou LMS (Learning Management System) comerciais e de código aberto, assim como os ambientes
virtuais utilizados pelas grandes provedoras para a oferta de MOOCs, como Cousera e Udacity.
Sendo assim, uma enorme quantidade de dados sobre a navegação e a respeito da participação e
progresso dos alunos podem ser registrados e coletados, possibilitando que sejam feitas diversas
análises relacionadas ao padrão de comportamento do aluno no ambiente. Tais ambientes incluem
módulos que registram automaticamente cada evento que ocorre no AVA. (Siemens & Long, 2011;
Pardo & Kloos, 2011; You, 2016).
É importante mencionar que no ensino presencial, em sala de aula, o professor tem a possibilidade
interagir com os alunos, tendo condições, portanto, de acompanhá-los e saber a respeito do
entendimento deles sobre o conteúdo e também sobre o desempenho dos mesmos. Considerando
também que o número de alunos que o professor atende no ensino presencial, é consideravelmente
menor que no EaD, é possível que a partir do feedback dos alunos, seja possível ao professor
realizar determinados ajustes na condução da disciplina.
90
Tal modelo não pode ser replicado para os cursos a distância, pois não existe a interação direta e
presencial entre professor e aluno. Nesse caso, há uma enorme quantidade de dados, gerados pelos
alunos nos AVAs, que podem ser coletados e armazenados, mas que não podem ser analisados
manualmente ou mesmo com o auxílio de recursos básicos de programas de computador, como, por
exemplo, uma planilha eletrônica. É importante mencionar que frequentemente os dados não podem
ser analisados por tais meios, em razão de fatores como a enorme quantidade de registros, elevado
número de atributos, valores ausentes, presença de dados qualitativos e não quantitativos, entre
outros. Para tal demanda é essencial a utilização de soluções computacionais mais sofisticadas. (de
Castro & Ferrari, 2016)
Em razão deste contexto, é mister a aplicação de sistemas computacionais adequados para que os
dados mencionados anteriormente sejam analisados, gerando, consequentemente, uma visão sobre
o padrão de comportamento dos alunos no AVA. (Muñoz-Merino, Ruipérez-Valiente, Alario-Hoyos, &
Perez-Sanagustin, 2014; Goldschmidt & Bezerra, 2015; de Castro & Ferrari, 2016)
Neste contexto, surgem as ferramentas da área de “mineração de dados educacionais” (educational
data mining - EDM), que possibilitam a transformação dos dados brutos, gerados pelos ambientes
educacionais, em informações úteis para a prática e a pesquisa educacional. (Romero & Ventura,
2010; Chatti, Dyckhoff, Schroeder, & Thüs, 2012; de Castro & Ferrari, 2016)
O objetivo do presente artigo é descrever a aplicação de métodos de mineração de dados
educacionais, para transformar dados em conhecimentos novos e relevantes, a respeito do padrão
ou conjunto de padrões de comportamento dos alunos de uma disciplina online.
Dessa forma, espera-se contribuir para melhorar o processo de análise e tomada de decisão por
parte dos professores e gestores, possibilitando aos mesmos atuarem de maneira antecipada,
principalmente para melhorar o processo de aprendizagem e aumentar o nível de permanência dos
alunos nos cursos.
Além desta introdução, este trabalho foi dividido em mais cinco partes. Na seção inicial é
apresentada uma fundamentação teórica sobre mineração de dados e mineração de dados
educacionais, além de um levantamento a respeito de trabalhos correlatos. Na sequência,
apresentam-se a metodologia da pesquisa, o estudo de caso, as conclusões e, por último, as
referências bibliográficas.
2. Fundamentação Teórica
2.1 O processo de KDD e mineração de dados
A análise de grandes volumes de dados sem o auxílio de recursos computacionais é impraticável,
pois muitas vezes o conhecimento está oculto em grades bases de dados. Sendo assim, é
fundamental a disponibilização de ferramentas que auxiliem as pessoas na tarefa de analisar,
interpretar e relacionar esses dados, com o objetivo de gerar conhecimento útil e relevante, para que
se possa elaborar e definir estratégias de ação em cada domínio de aplicação. (Goldschmidt &
Bezerra, 2015; de Castro & Ferrari, 2016)
Neste momento é importante definir as diferenças entre os termos dados, informação e
conhecimento. Os dados podem ser interpretados como itens elementares, captados e armazenados
em bases de dados. Já as informações representam os dados processados, com significados e
contextos bem definidos. No topo da pirâmide está o conceito de conhecimento, que pode ser
entendido como a consciência e compreensão de um conjunto de informações e maneiras como
essa informações podem ser úteis para apoiar uma tarefa específica ou para chegar a uma decisão.
91
Pode ser entendido também como um padrão ou conjunto de padrões cuja formulação pode envolver
e relacionar dados e informações. (Goldschmidt & Bezerra, 2015; Stair & Reynolds, 2015)
Neste contexto, existe uma área denominada Descoberta de Conhecimento em Banco de Dados ou
Knowledge Discovery in Databases (KDD). Uma das definições mais aceitas para KDD foi proposta
por Fayyad, Piatetsky-Shapiro, & Smyth (1996), que a trata como um processo não trivial, interativo e
iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir
de grandes conjuntos de dados.
A mineração de dados (data mining) é uma das etapas do processo de extração do conhecimento,
conforme ilustra a figura 1.
A seguir são descritas as etapas para o processo de descoberta do conhecimento: (Elmasri &
Navathe, 2011)
• Seleção – é a etapa que consiste na análise dos dados existentes e na seleção daqueles
a serem utilizados na busca por padrões e na geração de conhecimento novo. Por
exemplo, todos os alunos de uma determinada disciplina e de determinado semestre;
• Pré-processamento – consiste no tratamento e na preparação dos dados para uso pelos
algoritmos. Nesta etapa devemos identificar, corrigir e retirar valores inválidos,
inconsistentes ou redundantes.
• Transformação – consiste em aplicar, quando necessário, alguma transformação linear
ou mesmo não linear nos dados, de forma a encontrar aqueles mais relevantes para o
problema em estudo. Nesta etapa geralmente são aplicadas técnicas de redução de
dimensionalidade e de projeção dos dados.
• Mineração – consiste na busca por padrões através da aplicação de algoritmos e
técnicas computacionais específicas.
• Interpretação – consiste na análise dos resultados da mineração e na geração de
conhecimento pela interpretação e utilização dos resultados em benefício do negócio.
Etapa complexa, na qual são identificados os padrões pelo sistema, estes são
interpretados em conhecimentos e validados, para em seguida proporcionarem suporte a
tomada de decisões humanas
Figura 1: O processo de KDD. Adaptado de (Fayyad, Piatetsky-Shapiro, & Smyth, 1996)
92
2.2 Mineração de Dados (data mining) e Mineração de Dados Educacionais (educational
data mining)
A área de mineração de dados tem sido aplicada em diversos segmentos da sociedade, como por
exemplo, vendas, mercado financeiro, e segurança. Recentemente, com a expansão da EaD, muitos
pesquisadores da área de Informática na Educação têm mostrado interesse em utilizar mineração de
dados para investigar questões ou problemas científicos na área de educação, como, por exemplo,
identificar quais são os fatores que afetam a aprendizagem. (de Baker, Isotani, & de Carvalho, 2011)
Dentro deste contexto, surgiu uma nova área de pesquisa, conhecida como Mineração de Dados
Educacionais (MDE) ou Educational Data Mining (EDM), que tem como foco de pesquisa o
desenvolvimento de métodos para explorar conjuntos de dados coletados em ambientes
educacionais. Por meio dela, é possível compreender de forma mais clara e adequada o
comportamento dos alunos durante o processo de aprendizagem, como eles aprendem, o papel do
contexto na qual a aprendizagem ocorre, além de outros fatores que influenciam a aprendizagem.
(de Baker, Isotani, & de Carvalho, 2011)
2.2.1 Trabalhos na área de mineração de dados educacionais
Na literatura foi possível encontrar por meio de uma revisão da literatura trabalhos correlatos a
respeito do uso de mineração de dados em diversos contextos educacionais. O trabalho de Yadav,
Bharadwaj, & Pal (2012), utiliza a técnica de árvore de decisão, com a aplicação de três diferentes
algoritmos para analisar dados de 48 estudantes de turmas anteriores, com o objetivo de gerar um
modelo para previsão de desempenho dos estudantes da turma atual. Outra pesquisa que pode ser
mencionada é o trabalho de Shahiri, Husain, & Rashid (2015), que apresenta por meio de uma
revisão da literatura, quais algoritmos de predição seriam os mais utilizados para identificar os
atributos mais importantes para a performance em um determinado conjunto de dados de
estudantes. Após a pesquisa, os autores concluiram que os principais algoritmos citados para
predição da performace de alunos são os de Árvore de Decisão (decision tree) e Redes Neurais
(neural network). Além dos trabalhos anteriores, é possível citar, também, o trabalho de Ferguson &
Clow (2015), que explora a questão da dificuldade na escolha do método ou algoritmo de
agrupamento (clustering) no processo de mineração de dados educacionais e da necessidade de
novos estudos para resolver esta questão.
2.2.2 Principais técnicas para mineração de dados
A Mineração de Dados Educacionais emprega técnicas comuns de mineração de dados, sendo que
as principais técnicas são as seguintes:
Descoberta de Associações – neste caso, cada registro do conjunto de dados normalmente é
chamado de transação. Cada transação é composta por um conjunto de itens que
frequentemente ocorram de forma simultânea em transações do conjunto de dados. A tarefa
de descoberta de associações compreende a busca por itens que frequentemente ocorram
de forma simultânea em transações do conjunto de dados. Pode ser aplicado, por exemplo,
93
na área de marketing para se descobrir pessoas que compram de forma associada dois
produtos diferentes. Algoritmos tais como Apriori, GSP e DHP são exemplos da
implementação da tarefa de Descoberta de Associações. (GOLDSCHMIDT, PASSOS e
BEZERRA, 2015)
Classificação – nesta tarefa, os atributos do conjunto de dados são divididos em dois tipos,
ou seja, atributo-tipo e atributo-alvo. Para cada valor distinto do atributo-alvo tem-se uma
classe que normalmente corresponde a um rótulo categórico pertencente a um conjunto
predefinido. A tarefa de classificação consiste em descobrir uma função que mapeie um
conjunto de registros em um conjunto de classes. Uma vez descoberta, tal função pode ser
aplicada a novos registros de forma a prever a classe em que tais registros se enquadram.
Como exemplo, pode ser citada uma financeira que possui o histórico de seus clientes e o
comportamento destes em relação ao pagamento de empréstimos contratados no passado.
Com base nos clientes inadimplentes, a tarefa de Classificação consiste em descobrir uma
função que mapeie corretamente os clientes a partir de seus dados e seja usada para prever
o comportamento de novos clientes que desejem contrair empréstimos. (GOLDSCHMIDT,
PASSOS e BEZERRA, 2015)
Regressão – compreende a busca por uma função que mapeie os registros de um banco de
dados em um intervalo de valores reais. Esta tarefa é similar à tarefa de Classificação, com a
diferença de que o atributo-alvo assume valores numéricos. Por exemplo, predição do risco
de determinados investimentos ou a definição do limite do cartão de crédito para cada
cliente. (GOLDSCHMIDT, PASSOS e BEZERRA, 2015)
Agrupamento (clustering) - o objetivo principal é achar dados que se agrupam naturalmente,
classificando os dados em diferentes grupos e/ou categorias. Estes grupos e categorias não
são conhecidos incialmente. Através de técnicas de agrupamento os grupos/categorias são
automaticamente identificados através da manipulação das características dos dados. É
possível criar esses grupos/categorias utilizando diferentes unidades de análise, por
exemplo, é possível achar grupos de escolas (para investigar as diferenças e similaridades
entre escolas), ou achar grupos de alunos (para investigar as diferenças e similaridades
entre alunos). Uma vez que os grupos são formados, é possível fazer uma análise dos
elementos que compõem cada um deles, identificando as características comuns aos seus
elementos. Os métodos de Agrupamento podem ser divididos em três famílias básicas. A
primeira é a dos algoritmos baseados em distâncias. A segunda é a dos baseados em
distribuições de probabilidades e a última dos algoritmos baseados em densidade. (de Baker,
Isotani, & de Carvalho, 2011; Goldschmidt & Bezerra, 2015)
2.2.3 Ferramentas para mineração de dados
No mercado há uma série de ferramentas que fornecem suporte no processo de KDD, em especial
na etapa de mineração de dados. Tais ferramentas podem ser tanto comerciais, como, por exemplo,
Oracle Data Mining (ODM), IBM SPSS Modeler e SAS Enterprise Miner, quanto de código aberto,
com origem em pesquisas acadêmicas, como RapidMiner e Weka. (Ramamohan, Vasantharao,
Chakravarti, & Ratnam, 2012; Romero & Ventura, 2013)
Neste artigo, foi utilizado o software - RapidMiner Studio -, em sua versão 7.0. Tal ferramenta foi
escolhida por disponibilizar licença acadêmica de forma gratuita, além de estar disponível nas
principais plataformas e sistemas operacionais, como Windows e Linux, sendo importante mencionar
ainda que a citada ferramenta apresenta suas funcionalidades por meio de uma interface gráfica
intuitiva, incorporando, também, a biblioteca de algoritmos de aprendizagem do Weka, totalmente,
94
integrada e com acesso a diferentes fontes de dados, como: Excel, Oracle, Microsoft SQL Server,
MySQL, e outros
3. Metodologia
Neste estudo foram utilizados como referência os trabalhos de Pandey & Sharma (2013), Jeevalatha,
Ananthi, & Kumar (2014) e Selvan, Beleya, Muniandy, Heng, & Remendran (2015) que aplicaram as
etapas do processo de Descoberta de Conhecimento em Banco de Dados ou Knowledge Discovery
in Databases (KDD) em suas pesquisas.
Seguindo o processo de KDD, para a implantação do estudo de caso, em uma primeira etapa, foi
feita a importação dos dados do AVA – Blackboard - e a consequente seleção dos atributos que
serão utilizados, posteriormente, na etapa de mineração de dados. Em seguida, tais dados foram
submetidos à etapa de pré-processamento, e foram eliminados os dados com inconsistência ou
redundância. Na etapa seguinte, de transformação, foram criadas novas colunas calculadas, como
resultado e número de atividades. As duas últimas etapas foram a da mineração propriamente dita,
que consistiu na busca por padrões através da aplicação de algoritmos para árvore de decisão
(decision tree) e o agrupamento (clustering) com o uso da ferramenta RapidMiner. Por fim, foi
efetuada a interpretação dos resultados da etapa anterior.
O experimento teve como objetivo identificar se havia alguma atividade registrada no AVA importante
para caracterizar o grupo dos aprovados. Essa é uma questão importante para o professor entender
a relação dos alunos com o material e as consequências do comportamento do aluno para
aprovação no curso.
4. Estudo de Caso
4.1 Contextualização
No Brasil, há poucos trabalhos na área de mineração de dados educacionais. É possível citar a tese
de Kampff (2009), desenvolvida na Universidade Federal do Rio Grande do Sul (UFRGS), que aplica
técnicas de MDE aos dados de estudantes gerados pela interação em um Ambiente Virtual de
Aprendizagem (AVA), com objetivo de identificar comportamentos e características de estudantes
com risco de abandono ou reprovação.
Outro trabalho que pode ser citado é a tese de Manhães (2015), que apresenta uma proposta de
arquitetura baseada em MDE para predição do desempenho acadêmico de graduandos, com o
objetivo de fornecer aos gestores educacionais das universidades públicas brasileiras, não
especialista em EDM, uma abordagem que oferece informações úteis sobre o desempenho
acadêmico dos graduandos e predizer os que estão em risco de abandonar o sistema de ensino.
O presente trabalho será conduzido, por meio de um estudo de caso, que foi aplicado em uma
Instituição de Ensino Superior Privada (IESP), com diversos campi na cidade de São Paulo, Brasil. A
partir de agora tal instituição será denominada Alfa.
O estudo de caso tem como objetivo avaliar se a utilização dos recursos de MDE pode ser útil para
detecção de padrões de comportamento dos alunos no AVA ou LMS - Blackboard.
Neste estudo serão utilizados apenas dados acadêmicos oriundos do AVA, sem levar em
consideração nenhum dado social ou financeiro para a presente análise.
O modelo que será utilizado no estudo de caso, foi inspirado no processo de KDD, conforme pode
ser observado na figura 2.
95
Figura 2: Processo de descoberta do conhecimento. Fonte: autor
Em seguida são apresentadas as principais características da disciplina que foi utilizada no estudo
de caso.
4.2 Características da disciplina objeto do estudo
A disciplina escolhida para o presente estudo foi a de Língua Portuguesa (LPO), ofertada na
modalidade online, em 10 semanas, no período entre 15/02/2016 a 24/04/2016, contando
inicialmente com 1.978 alunos matriculados. A escolha dessa disciplina se deu em função do seu
número expressivo de alunos e também pelo fato dos alunos matriculados serem oriundos de
diversos cursos da instituição.
Essa base inicial de 1.978 alunos foi submetida a fase de pré-processamento, onde foram eliminados
os alunos inativos ou desistentes, ou seja, aqueles não tiveram qualquer participação nas atividades
durante o decorrer do curso. No seu encerramento, a disciplina contava com 1.113 alunos
matriculados (43,73% de inativos ou desistentes), dos quais 818 foram aprovados e 295 reprovados
Para finalizar esta etapa, foram analisadas as inconsistências do processo de avaliação no
Blackboard, com a retirada de mensagens de erro que permaneceram na planilha gerada pelo
sistema.
Depois desta primeira análise, partiu-se para a etapa de transformação, onde foram criadas novas
colunas calculadas, como resultado e número de atividades para aumentar o nível de detalhamento
do estudo.
Para a planilha com formato XLSX, importada do ambiente Blackboard, foram selecionados os
seguintes atributos:
• Curso
• Nome
• Nome do usuário (registro)
• AP_II e AP_IV, onde AP significa atividade de aprofundamento, com valor de 1,0 cada.
Essa atividade consiste na entrega de um arquivo com a atividade executada, ou seja,
trata-se de uma atividade de caráter dissertativo.
• AS_I até AS_VI, onde AS significa atividade de sistematização, com valor de 0,5 cada.
Essa atividade consiste na resposta de questões de múltipla-escolha.
• Num_ativ – número de atividades entregues pelos alunos
• Total (nota final) – 0 a 5,0
• Resultado – considerando 0 para reprovação e 1 para aprovação
96
Em seguida, foram utilizados os recursos para mineração de dados da ferramenta Rapidminer, com
os algoritmos de árvore de decisão (decision tree) e agrupamento (clustering). Tais algoritmos foram
selecionados, pois são aplicados com sucesso em contextos educacionais. (Baker, 2010; Romero &
Ventura, 2013)
A seguir serão apresentados os experimentos realizados.
4.3 Experimentos com mineração de dados educacionais
4.3.1 Experimento A – Árvore de Decisão (Decision Tree)
Na primeira etapa foi realizada a importação de dados em formato XLSX pela ferramenta
RapidMiner, por meio da utilização do operador Retrieve. O resultado da importação pode ser
observado na figura 3.
Figura 3: Dados após a importação pela ferramenta Rapid Miner
Em seguida, foram utilizados outros operadores da ferramenta Rapid Miner, como Set Role para
definir o atributo que será utilizado para a predição, no caso o atributo “Resultado”. Em seguida, foi
utilizado o operador Select Attributes para determinar quais atributos seriam utilizados no processo,
sendo desconsiderados atributos como, por exemplo, “Nome” e “Último Acesso” que não serão
utilizados no processo de classificação da árvore de decisão. Por fim, foi inserido no processo o
operador Decision Tree, que tem a função de gerar a árvore de decisão, cujo processo completo
pode ser visualizado na figura 4.
Figura 4: processo completo de árvore de decisão na ferramenta RapidMiner.
97
Uma árvore de decisão é simplesmente uma representação gráfica da descrição de cada classe ou
uma representação das regras de classificação. Cada caminho da árvore que parte do nó raiz e
termina em um nó folha corresponde a uma regra da forma SE <condições> ENTÃO <conclusão>. A
representação de modelos por meio de árvore de decisão é útil, pois se trata de um diagrama que
facilita a compreensão e análise do conhecimento pelas pessoas. (Elmasri & Navathe, 2011;
Goldschmidt & Bezerra, 2015)
O algoritmo analisa os diversos campos de forma interativa, buscando identificar aquele com maior
influência nos valores das classes, que serão as folhas das árvores, valores esses presentes em um
campo definido que deve ser informado previamente, Neste exemplo, as classes são aprovado (igual
a 1) e reprovado (igual a 0) do campo resultado.
O campo de maior influência é colocado no topo da arvore (raiz) e, então, o algoritmo continua
buscando novos campos significativos.
Após a execução do processo da figura 4, foram gerados dois resultados para a árvore de decisão. O
primeiro é na forma gráfica, conforme pode ser observado na figura 5.
Figura 5: árvore de decisão na forma gráfica
A segunda possibilidade de observação dos resultados é a forma textual que pode ser verificada na figura 6, que
pode ser chamada também de regras de decisão, pois estão no formato SE <condição> ENTÃO <classificação>.
98
Figura 6: árvore de decisão na forma textual
Com base nos resultados da experiência com o algoritmo de árvore de decisão, é possível interpretar
que o atributo mais significativo para o sucesso dos alunos foi a atividade AS_III. No gráfico podemos
visualizar isto por ser o nó raiz, colocado no topo da árvore, separando os alunos que obtiveram mais
de 0,35 de nota na atividade daqueles que obtiveram menos de 0,35. Para entender melhor este
resultado, calculamos a porcentagem de aprovados neste primeiro grupo de alunos que obtiveram
sucesso na AS_III (foram 768 aprovados e 142 reprovados), e verificamos que 84,4% deles foram
aprovados, independentemente do número de atividades entregues e dos resultados destas
atividades. Já para o grupo de alunos que obteve menos de 0,35 na atividade AS_III, apenas 24,6%
foram aprovados (50 aprovados e 153 reprovados).
A quantidade de atividades entregues não foi um fator significativo para aprovação dos alunos, pois o
caminho que considera os alunos que tiveram bom desempenho na atividade AS_III, desempenho
baixo na AS_VI e entregaram quase todas as atividades, resultou em apenas 06 alunos aprovados.
De acordo com a árvore gerada é possível interpretar ainda, que depois da AS_III, as atividades
AS_VI e AS_V foram as mais significativas para o sucesso dos alunos. Por exemplo, a incidência de
aprovação para os alunos que efetivaram as AS_III, AS_VI e AS_I foi bastante expressiva, visto que
748 alunos com esse perfil conseguiram aprovação, contra 90 reprovados.
Do outro lado da árvore, é possível observar que os alunos que não obtiveram boa nota na atividade
AS_III, mas foram bem nas atividades AS_V e AP_II, também obtiveram sucesso. Neste caso, 16
alunos foram aprovados e apenas 01 reprovado. Este poderia ser um caminho de recuperação para
quem não foi bem na atividade AS_III. No entanto, a nota divisória da atividade AS_V neste caso é
muito alta – 0,45 em 0,50 – e o gráfico mostra que daqueles que falharam na AS_III, um total de 28
alunos conseguiram esta nota na AS_V, enquanto 175 obtiveram nota menor que o necessário.
99
4.3.2 Experimento B – Agrupamento (Clustering)
A clusterização busca descobrir conhecimento de forma indireta, a partir da identificação de grupos
de dados com características semelhantes. Podem ser utilizados em aplicações educacionais, por
exemplo, para formação de grupos de trabalho.
Para o experimento com a técnica de clusterização, foi realizada a importação de dados em formato
XLSX pela ferramenta RapidMiner, por meio da utilização do operador Retrieve. Na sequência foi
utilizado o operador Select Attributes para determinar quais atributos seriam utilizados no processo,
sendo desconsiderados atributos como, por exemplo, “Nome” e “Último Acesso” que não serão
utilizados no processo de agrupamento ou clusterização.
No momento seguinte foi utilizado o operador Clustering com o algoritmo K-means, com parâmetro
de k = 4.
O processo completo pode ser observado na figura 7.
Figura 7: processo de agrupamento ou clustering
Após a execução do processo, o sistema gerou 4 grupos ou clusters com a seguinte distribuição de
alunos:
Cluster 0 com 76 alunos
Cluster 1 com 237 alunos
Cluster 2 com 742 alunos
Cluster 3 com 58 alunos
Como exemplo, a representação gráfica do cluster 0 pode ser observada na figura 8, sendo possível
notar as informações do aluno de id = 7 ou seja, a oitava linha da planilha, pois não está sendo
considerada a linha com o rótulo dos atributos.
Figura 8: Exemplo com fragmento do cluster 0 e um aluno em destaque
100
Outra análise pode ser obtida a partir da tabela que o sistema gerou, denominada Centroid Table ou
médias dos grupos, que traz informações sobre todos os clusters, conforme pode ser verificado na
figura 9.
Figura 9: tabela de centroides ou médias dos grupos
É possível observar que no cluster 1 e no cluster 3 estão agrupados todos os alunos que foram
reprovados, com 237 alunos e 58 alunos, respectivamente.
É possível observar também que os clusters 0 e 2 agruparam os alunos que foram aprovados, com
76 e 742 alunos, respectivamente.
Da mesma maneira que foi observado no experimento com o algoritmo de árvore de decisão, o
número de atividades entregues não foi fator determinante para o agrupamento entre aprovados e
reprovados, pois os alunos do cluster 2 que foram aprovados, entregaram menos atividades que os
alunos do cluster 1, que foram reprovados.
Outra análise possível, diz respeito às atividades de aprofundamento, denominadas AP_II e AP_IV
que têm maior pontuação (1,0 ponto cada) em relação às denominadas de ASs ou atividades de
sistematização, que valem 0,5 ponto cada uma. Uma primeira análise indicaria que as APs são mais
importantes, pois, obviamente, têm valor maior. Pelo resultado da mineração, é possível verificar que,
de fato, a AP_II é a nota mais relevante em cada agrupamento. Contudo, a percepção inicial não se
aplica à atividade AP_IV, pois com exceção do cluster 0, com apenas 76 alunos, todos os demais
clusters, que representam a maioria absoluta, com 1037 alunos, não fizeram a atividade, como é o
caso do cluster 2, ou praticamente não a fizeram, como é o caso dos clusters 1 e 3.
4.3.3 Análise do tutor e responsável pela disciplina
Neste momento é interessante contar o especialista de domínio, ou seja, uma pessoa que tem o
entendimento claro do domínio da aplicação na qual se insere o problema a ser resolvido.
(GOLDSCHMIDT, PASSOS e BEZERRA, 2015)
Com base nestas interpretações, e principalmente no fato de se ter encontrado, uma atividade que
em princípio se configurava como a mais importante do processo – AS_III – a responsável pela
produção do conteúdo e professora responsável pela disciplina foi consultada. A árvore de decisão
foi apresentada a ela para análise e interpretação das informações. Após estudo e algumas reflexões
a professora que reconheceu nunca ter tido contato com informações desse tipo e tampouco
imaginar que um conteúdo ou atividade pudesse ter mais ou menos importância no processo de
aprendizagem tentou buscar elementos que pudessem explicar o fato de a AS_III ser a mais
significativa para o sucesso do aluno. Numa análise rápida, chegou-se a duas primeiras suposições –
101
o fato de o conteúdo ser mais próximo a realidade do aluno já que esse conteúdo aborda questões
relativas a Coesão e Coerência e, portanto pode ser aplicado na vida cotidiana e profissional – e pelo
fato de a atividade estar exatamente na metade do cronograma de oferta dos conteúdos. O conteúdo
dessa disciplina é formado por seis unidades de conhecimento, com a disponibilização, em cada uma
das unidades, uma atividade de sistematização - AS e, uma atividade de aprofundamento AP. Além
disso, outra explicação para esse fenômeno pode estar relacionada ao desempenho do tutor na
condução do processo avaliativo. Pois o tutor pode intensificar o contato com os alunos em
determinadas atividades e em outras não, já que não há um protocolo que oriente, neste nível, a
atuação do tutor. Porém, para se chegar a esse refinamento de analise são necessários maiores
aprofundamentos, o que não foi o foco deste estudo que buscou em um primeiro momento testar os
algoritmos da mineração de dados.
A professora responsável pela produção do conteúdo e pela gestão da disciplina também foi
consultada sobre o resultado do agrupamento ou clusterização, mas teve dificuldade em interpretar
os dados, pois a clusterização é uma técnica indireta de descoberta do conhecimento e muitas vezes
os agrupamentos são de difícil interpretação pelos usuários, sendo necessário o apoio de um
especialista para a análise estatística dos diversos atributos.
5. Conclusão
No contexto educacional atual, com os diversos segmentos da EaD apresentando números muito
expressivos em relação a quantidade de alunos matriculados, uma enorme quantidade de dados
podem ser registrados e coletados nos AVAs, permitindo que diversas análises possam ser
conduzidas. Contudo, os métodos tradicionais de análise aplicados na educação tradicional não
podem ser replicados na EaD, em virtude dessa superabundância de dados, que tem superado a
capacidade humana de analisar e extrair conhecimento destes.
A pesquisa teve como objetivo transformar dados em conhecimentos novos e relevantes, a respeito
do padrão de comportamento dos alunos de uma disciplina online, a partir da aplicação de métodos
de mineração de dados educacionais, de maneira a contribuir para melhorar o processo de análise e
tomada de decisão por parte dos professores e gestores, visando reduzir o nível de evasão da
instituição.
Para alcançar os objetivos desta pesquisa, um estudo de caso foi definido, tendo como objeto de
estudo uma disciplina online com 1.113 alunos. Após a aplicação de dois algoritmos bastante
utilizados em contextos educacionais, - árvore de decisão e - agrupamento (clusterização), foi
possível observar que o objetivo da presente pesquisa foi atingido, pois com a aplicação de tais
algoritmos no mencionado grupo de alunos, foram descobertos elementos que não eram conhecidos
por parte dos responsáveis pela disciplina, como os atributos mais significativos para o sucesso dos
alunos e também padrões de comportamento, ou seja, atividades que contribuíram de maneira mais
expressiva para aprovação dos alunos. Além disso, o agrupamento de alunos permitiu a descoberta
de fatos também desconhecidos, como, por exemplo, que uma atividade avaliada inicialmente com
peso significativo para aprovação dos alunos, mostrou-se pouco relevante após a análise dos resultados
da mineração de dados.
Com base nessas informações, do ponto de vista da gestão, os responsáveis podem replanejar as
estratégias de avaliação, principalmente o peso de cada elemento e sua distribuição pelo
cronograma do curso. No âmbito operacional, a atuação do tutor da disciplina também poderia ser
reavaliada, pois não há um protocolo que oriente as intervenções do tutor por meio de avisos durante
o desenvolvimento da disciplina, sendo que no modelo atual, a intensificação de ações da tutoria
ficam restritas às iniciativas do próprio tutor. Caso o tutor disponha de elementos gerados pela
mineração de dados durante a disciplina, suas intervenções poderiam ser sistematizadas e
102
direcionadas para atender alunos com determinado padrão de comportamento e aumentar as
chances de aprovação e permanência desses alunos na disciplina.
É importante salientar que o processo conduzido neste estudo de caso precisaria ser repetido para
outras turmas, com o objetivo de verificar se há repetição dos padrões identificados.
Em termos de trabalhos futuros, sugere-se, além da replicação dos experimentos com novas turmas
da disciplina de Língua Portuguesa, a ampliação da quantidade de experimentos, além da aplicação
do processo de mineração de dados educacionais em turmas com caráter massivo.
103
6. Referências bibliográficas
Allen, I., & Seaman, J. (2015). Online Learning Consortium. Acesso em 10 de 03 de 2016, disponível em Online Report Card – Tracking Online Education in the United States, 2015: http://onlinelearningconsortium.org/read/online-report-card-tracking-online-education-united-states-2015/
Baker, R. (2010). Data mining for education. International encyclopedia of education, 7, 112-118.
Chatti, M., Dyckhoff, A., Schroeder, U., & Thüs, H. (2012). A reference model for learning analytics. International Journal of Technology Enhanced Learning, 4(5-6), pp. 318-331.
Cooper, S., & Sahami, M. (2013). Reflections on Stanford’s MOOCs. New possibilities in online education create new challenges. Communications of the ACM, 56(2), 28-30.
de Baker, R., Isotani, S., & de Carvalho, A. (2011). Mineração de dados educacionais: oportunidades para o Brasil. Revista Brasileira de Informática na Educação, 19(2), pp. 1-12.
de Castro, L., & Ferrari, D. (2016). Introdução à Mineração de Dados. São Paulo: Saraiva.
Elmasri, R., & Navathe, S. (2011). Sistemas de Banco de Dados (6a. ed.). São Paulo: Pearson
Addison Wesley.
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 39(11), pp. 27-34.
Ferguson, R., & Clow, D. (2015). Examining engagement: analysing learner subpopulations in massive open online courses (MOOCs). In: Proceedings of the Fifth International Conference on Learning Analytics And Knowledge (pp. 51-58). Poughkeepsie, NY: ACM - Association for Computing Machinery.
Goldschmidt, R., & Bezerra, E. (2015). Data mining: conceitos, técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsevier.
Hyman, P. (2012). In the Year of Disruptive Education. Communications of the acm, 55(12), 20-22.
INEP. (2015). Censo da educação superior 2013: resumo técnico. Fonte: Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira: http://portal.inep.gov.br/web/censo-da-educacao-superior/resumos-tecnicos
Jeevalatha, T., Ananthi, N., & Kumar, D. (2014). Performance Analysis of Undergraduate Students Placement Selection using Decision Tree Algorithms. International Journal of Computer Applications, 108(15), 27-31.
Jordan, K. (2015). Massive Open Online Course Completion Rates Revisited: Assessment, Length and Attrition. 16(3).
Kampff, A. (2009). Mineração de dados educacionais para geração de alertas em ambientes virtuais de aprendizagem como apoio à prática docente. Tese de Doutorado.
Manhães, L. (2015). Predição do desempenho acadêmico de graduandos utilizando mineração de dados educacionais. Tese de doutorado - Universidade Federal do Rio de Janeiro.
Muñoz-Merino, P., Ruipérez-Valiente, J., Alario-Hoyos, C., Perez-Sanagustin, M., & Kloos, C. (2014). Precise Effectiveness Strategy for Analyzing the Effectiveness of Students. Computer in Human Behavior, pp. 1-11.
Pandey, M., & Sharma, V. (2013). A decision tree algorithm pertaining to the student performance analysis and prediction. International Journal of Computer Applications, 61(13).
104
Pardo, A., & Kloos, C. (2011). Stepping out of the box: towards analytics outside the learning management system. In Proceedings of the 1st International Conference on Learning
Analytics and Knowledge (pp. 163-167). Banff, Canada: ACM.
Ramamohan, Y., Vasantharao, K., Chakravarti, C., & Ratnam, A. (2012). A study of data mining tools in knowledge discovery process. International Journal of Soft Computing and Engineering (IJSCE), 2(3), 2231-2307.
Romero, C., & Ventura, S. (2010). Educational Data Mining: A Review of the state of the art. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions, 40(6), pp. 601-
618.
Romero, C., & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 3(1), 12-27.
Selvan, A., Beleya, P., Muniandy, M., Heng, L., & Remendran, C. (2015). Minimizing Student Attrition in Higher Learning Institutions in Malaysia Using Support Vector Machine. Journal of Theoretical and Applied Information Technology, 71(3), 377-385.
Shahiri, A., Husain, W., & Rashid, N. (2015). A Review on Predicting Student's Performance Using Data Mining Techniques. Procedia Computer Science, 72, pp. 414-422.
Siemens, G., & Long, P. (2011). Penetrating the Fog: Analytics in Learning and Education. Educase Review, 46(5), pp. 30-40.
Stair, R., & Reynolds, G. (2015). Princípios de Sistemas de Informação (11ª ed.). São Paulo:
Cengage Learning.
Yadav, S., Bharadwaj, B., & Pal, S. (2012). Data Mining Applications: A comparative for predicting student's performance. International Journal of Innovative Technology & Creative Engineering, 1(12), pp. 13-19.
You, J. W. (2016). Identifying significant indicators using LMS data to predict course achievement in online learning. The Internet and Higher Education, 29, pp. 23-30.
105
4.4 Artigo 4 - “O processo de mineração de dados educacionais aplicado em um curso
massivo”
O terceiro artigo descreveu a aplicação de técnicas de MDE em uma dimensão menor que a
considerada para o objetivo final da tese. Foi escolhida uma disciplina online com 1.113
alunos. Já o quarto e último artigo amplia o volume de alunos analisados, no caso um curso
massivo com mais de 180.000 alunos.
O curso foi criado com base em uma pesquisa-ação, por uma equipe multidisciplinar
composta por especialista em conteúdo, produção e edição de vídeo, equipe técnica do LMS,
além do autor da tese. O curso conhecido como Carreira S/A teve 04 semanas de duração e o
objetivo de apresentar aos alunos diversos aspectos a respeito do mercado de trabalho, com
uma temática de interesse de alunos de diversos cursos e oferecido por um grupo educacional
privado.
O artigo foi concebido para analisar as contribuições e restrições da aplicação de métodos de
MDE em um grande conjunto de dados desse curso massivo. A partir da extração de dados
coletados e armazenados no ambiente Blackboard, foi possível com a utilização do processo
de KDD, utilizar algoritmos importantes em contextos educacionais, como árvore de decisão
e agrupamento, e descobertos conhecimentos relevantes, como o tipo de atributo que
contribuiu de maneira mais significativa para a aprovação dos alunos e o padrão de
comportamento de grupos de alunos reprovados.
Um aspecto bastante considerável a respeito dos cursos massivos é que o processo tradicional
de tutoria é impraticável devido ao grande número de alunos, pois seria economicamente
inviável manter o número de tutores suficientes para atender, por exemplo, um curso com
milhares de alunos matriculados. Em termos gerenciais, a utilização de MDE pode ser muito
útil, pois a partir da descoberta de quais grupos têm maior risco de evasão ou reprovação,
seria possível que a tutoria fosse direcionada prioritariamente para atender esses alunos que
precisam de mais atenção.
A seguir o artigo é reproduzido na sua forma original.
106
O PROCESSO DE MINERAÇÃO DE DADOS EDUCACIONAIS APLICADO EM UM
CURSO MASSIVO
Luis Naito Mendes Bezerra [email protected]
Márcia Terra da Silva [email protected]
RESUMO
No contexto atual da educação a distância, os LMSs (Learning Management System)
permitem o armazenamento de grande volume de dados sobre a navegação e atividades
realizadas. Para compreender a respeito do padrão de comportamento dos alunos nesse
tipo de ambiente, é preciso que os educadores e gestores repensem as abordagens
tradicionais para análise desses dados, sendo essencial a utilização de soluções
computacionais apropriadas, como a mineração de dados educacionais (MDE). Na
literatura, é possível encontrar trabalhos que utilizam MDE em conjuntos de dados
reduzidos. O presente artigo apresenta como contribuição principal a aplicação de
algoritmos de MDE e análise dos resultados em outra dimensão, no caso, um curso
massivo com 181.677 alunos matriculados. Após a aplicação de algoritmos importantes em
contexto educacionais, como árvore de decisão, agrupamento e regras de classificação,
foram descobertos conhecimentos relevantes, como o tipo de atributo que contribuiu de
maneira mais significativa para a aprovação dos alunos e o padrão de comportamento de
grupos de alunos reprovados.
Palavras-chave: análise de dados, curso massivo, educação a distância, árvore de
decisão, agrupamento
ABSTRACT
Within the current context of distance learning, the Learning Management Systems (LMSs)
allow the storage of a substantial volume of data on navigation and activities carried out. To
understand the standard of behaviour of students in this type of environment, it is necessary
for educators and managers to rethink the traditional approaches for the analysis of this
data, it also being essential to use appropriate computer solutions, such as educational data
mining (EDM). In the specialised literature it is possible to find papers that use EDM in small
sets of data. This article presents, as its main contribution, the application of EDM algorithms
and analysis of results in another dimension, in this case a massive course with a total of
181,677 students enrolled. After the application of some algorithms that are important within
educational contexts, such as decision trees, clustering, and rules of classification, there was
the discovery of relevant knowledge, such as the type of attribute that has made the most
significant contribution to students’ passes, and also the standards of behaviour of groups of
students who have failed.
Key Words: data analysis, massive course, distance learning, decision tree,
clustering
107
1. Introdução
No atual cenário do ensino superior, a modalidade a distância tem apresentado um
expressivo crescimento em relação ao número de alunos matriculados nos últimos
anos (Allen & Seaman, 2015). A partir do surgimento dos MOOCs (Massive Open
Online Course), ocorreu uma mudança de dimensão a respeito da quantidade de
alunos inscritos em um único curso, pois em razão de serem totalmente online, sem
pré-requisitos e também por não exigirem pagamento inicial de taxas, tais cursos
têm atraído, em geral, expressivo volume de alunos (Hyman, 2012; Cooper &
Sahami, 2013). O aspecto massivo presente em seu acrônimo pode ser destacado,
por exemplo, com o curso, Introduction to Computer Science I, oferecido pela
Universidade de Harvard com parceria com a provedora edX. Esse é um MOOC que
chegou a 150.349 alunos matriculados. Não é comum cursos com mais de 100.000
alunos, e um MOOC típico apresenta em média 25.000 alunos matriculados.
(Jordan, 2015)
Nos MOOCs, os Ambientes Virtuais de Aprendizagem (AVA) ou LMS (Learning
Management System) comerciais e de código aberto, assim como os ambientes
virtuais utilizados pelas grandes provedoras como Cousera e edX são o elemento
central de qualquer projeto. Esses cursos são ministrados de forma “automática”,
pois são baseados em videoaulas, atividades com correção automática e projetos
com avaliação pelos pares, sem o contato do aluno com um tutor. Os fóruns de
discussão são importantes para apoiar a colaboração entre os pares, permitindo aos
alunos obterem informações e também interação social com os outros alunos.
Apesar de existir uma trilha de aprendizagem previamente definida, os próprios
alunos podem gerenciar sua aprendizagem. (Nanfito, 2014; You, 2016).
Uma enorme quantidade de dados sobre a navegação, atividades realizadas,
interação com o material didático e com os outros alunos é registrada e coletada
possibilitando que sejam elaboradas análises relacionadas ao padrão de
comportamento dos alunos no ambiente, e atualmente os LMSs incluem módulos
que registram automaticamente cada evento ocorrido no ambiente. Essas análises
permitem direcionar melhor a relação do aluno com o curso e podem predizer suas
dificuldades e oferecer também reforço quando for necessário, sendo portanto um
material rico para permitir o autogerenciamento do curso.. (Pardo & Kloos, 2011;
Hu, Lo, & Shih, 2014; Nanfito, 2014; You, 2016).
Geralmente esses dados gerados pelos LMSs não podem ser analisados
adequadamente por softwares aplicativos básicos como uma planilha eletrônica ou
por mecanismos tradicionais de análise estatística ou ferramentas para acesso a
banco de dados transacionais, em razão de fatores como, a enorme quantidade de
registros, elevado número de atributos, valores ausentes, presença de dados
qualitativos e não quantitativos, entre outros. Os dados coletados de cursos
massivos possibilitam que os educadores e gestores repensem as abordagens
108
tradicionais de análise, e a utilização de soluções computacionais vem se
consolidando como o caminho mais apropriado (Bala & Ojha, 2012; Romero &
Ventura, 2013; Muñoz-Merino, Ruipérez-Valiente, Alario-Hoyos, & Perez-
Sanagustin, 2014; Crossley, Paquette, Dascalu, Mcnamara, & Baker, 2016)
O desenvolvimento e uso de ferramentas computacionais para a análise de dados,
como Data Mining e Learning Analytics, no campo da educação, foi bastante tardio,
em comparação com as áreas de ciências, como biologia e física, além de outras
como marketing, manufatura e finanças. A aplicação de tais técnicas tem enorme
potencial de transformação, para, por exemplo, prever o desempenho dos alunos e
também compreender o comportamento deles no processo de ensino e
aprendizagem. (Siemens & Long, 2011; Bala & Ojha, 2012; Romero & Ventura,
2013; Baker, 2014; Natek & Zwilling, 2014)
Há uma área de pesquisa, relativamente recente, conhecida como “mineração de
dados educacionais” (educational data mining - EDM), que possibilita a
compreensão do desempenho e padrão de comportamento dos alunos analisando
os dados do LMS. (Romero & Ventura, 2010; Chatti, Dyckhoff, Schroeder, & Thüs,
2012; Calders & Pechenizkiy, 2012; Campagni, Merlini, Sprugnoli, & Verri, 2015)
O objetivo do presente artigo é analisar as contribuições e restrições da aplicação
de métodos de mineração de dados educacionais em um grande conjunto de dados
de um curso massivo.
Muitos trabalhos envolvendo MDE foram direcionados para conjuntos reduzidos de
dados. (Natek & Zwilling, 2014; Campagni, Merlini, Sprugnoli, & Verri, 2015) No
caso desta pesquisa, a contribuição principal reside na aplicação de MDE em outra
dimensão em relação ao número de alunos matriculados, no caso, o curso Carreira
S/A com 181.677 alunos matriculados. Esse curso apresenta uma temática que
procurou atender aos interesses de alunos de diversas áreas e cursos de um grupo
educacional privado, não tendo, portanto, o mesmo nível de exigência para
aprovação de uma disciplina regular de um curso.
A oferta de um curso dessa magnitude representa um considerável desafio em
termos de gestão, pois essa enorme quantidade de alunos gerou,
consequentemente, grande quantidade de dados, além de toda a parte operacional,
como verificar os fóruns de discussão e responder as mensagens dos alunos sobre
diversos assuntos.
É importante mencionar que o número de alunos matriculados no curso Carreira S/A
o posiciona em lugar de destaque se comparado com MOOCs que tiveram grande
quantidade de matrículas. Ao analisar os dados de Jordan (2015), ele pode ser
classificado em terceiro lugar, os dois primeiros o Think Again: How to Reason and
Argue da provedora Coursera (Duke University), com 226.552 alunos matriculados
109
e o Social Psychology também da Coursera (Wesleyan University) com 200.000
alunos matriculados,
Dessa forma, espera-se contribuir para melhorar o processo de análise e tomada de
decisão por parte dos professores e gestores de cursos massivos, para melhorar o
processo de aprendizagem e aumentar o nível de permanência dos alunos nos
cursos.
Além desta introdução, este trabalho foi dividido em mais cinco partes. Na segunda
parte é apresentada uma fundamentação teórica sobre o processo de KDD e
mineração de dados educacionais. Na sequência, apresentam-se a metodologia da
pesquisa, os dados do curso Carreira S/A e a aplicação dos algoritmos de
mineração de dados, a discussão e considerações finais e, por último, as
referências bibliográficas.
1.1 Trabalhos na área de mineração de dados educacionais
Na literatura é possível encontrar trabalhos correlatos, ou seja, sobre a utilização de
mineração de dados em diversos contextos educacionais, predominantemente com
grupos reduzidos de alunos. O trabalho de Yadav, Bharadwaj & Pal (2012) utiliza a
técnica de árvore de decisão com a aplicação de três diferentes algoritmos para
analisar dados de 48 estudantes de turmas que já concluiram seus estudos, com o
objetivo de gerar um modelo para previsão de desempenho dos estudantes da
turma atual, possibilitando que os professores consigam identificar aqueles alunos
que necessitam de maior grau de atenção durante as atividades do semestre,
visando aumentar a taxa de aprovação e também avaliar medidas a serem adotadas
para os próximos semestres. Outro trabalho de pesquisa é o de Romero, Zafra,
Luna, & Ventura (2013), aplicando algoritmos de regras de associação como Apriori
e FP-Growth para descobrir associações entre os atributos de 104 alunos que
realizaram testes (quizzes) no LMS Moodle. A partir da descoberta de regras, foi
possível fornecer aos professores informações para melhorar os testes.
Em outra pesquisa, Natek & Zwilling (2014) concentram-se na mineração de dados
para pequenos conjuntos de dados (máximo de 106 alunos), utilizando diferentes
algoritmos de árvore de decisão para prever a taxa de sucesso dos alunos da turma
em curso, com base no desempenho de turmas anteriores da disciplina de
Informática de um curso de Economia. A conclusão da pesquisa indica que o uso
dessas técnicas em ambiente real pode ser útil e promissor, podendo fornecer aos
administradores ferramentas preciosas para a tomada de decisão.
A pesquisa de Campagni, Merlini, Sprugnoli, & Verri (2015) utiliza mineração de
dados educacionais para também analisar pequenos conjuntos de dados, no caso,
os percursos acadêmicos de 141 alunos de Ciência da Computação da
Universidade de Florença na Itália. No trabalho, foram utilizadas diferentes
110
abordagens baseadas em técnicas de agrupamento e padrões sequenciais para
identificar estratégias para melhorar o desempenho dos alunos e a programação
dos exames. Como resultado, os gestores puderam inserir alterações no curso,
como a inclusão de professores tutores para orientar os alunos na sua vida
acadêmica, como, por exemplo, na escolha de disciplinas.
Em relação especificamente aos algoritmos de mineração de dados educacionais,
outras pesquisas podem ser mencionadas, como o trabalho de Shahiri, Husain, &
Rashid (2015), que apresenta por meio de uma revisão da literatura, quais
algoritmos de predição seriam os mais utilizados para identificar os atributos mais
importantes para a performance em um determinado conjunto de dados de
estudantes. Após a pesquisa, os autores concluiram que os principais algoritmos
citados para predição da performace de alunos são os de Árvore de Decisão
(decision tree) e Redes Neurais (neural network).
Finalmente, o trabalho de Dutt, Aghabozrgi, Ismail, & Mahroeian (2015) apresenta
uma revisão da literatura a respeito dos principais algoritmos de agrupamento
(clustering), identificando que K-means é o mais utilizado em trabalhos envolvendo
MDE.
2. Fundamentação Teórica
2.1 KDD e mineração de dados
No cenário da educação superior com a grande difusão de sistemas informatizados,
cresce a cada dia o volume de dados gerados e armazenados em bases de dados
(Rigo, Cambruzzi, Barbosa, & Cazella, 2014). Ests grande volume de dados tem
propiciado a utilização em contextos educacionais de uma área denominada
Descoberta de Conhecimento em Banco de Dados ou Knowledge Discovery in
Databases (KDD). Uma das definições mais aceitas para KDD foi a proposta
inicialmente por Fayyad, Piatetsky-Shapiro, & Smyth (1996), conforme pode ser
observado na figura 1, que corresponde a um processo não trivial, interativo e
iterativo, para identificação de padrões compreensíveis, válidos, novos e
potencialmente úteis, a partir de grandes conjuntos de dados.
111
Figura 1: O processo de KDD. Adaptado de Romero & Ventura (2013)
O processo de KDD depende inicialmente do ambiente educacional (educational
environment), pois diferentes tipos de dados podem ser coletados, por exemplo, a
partir de um ambiente de educação presencial ou educação a distância, além do
tipo de LMS utilizado e também das fontes de dados disponíveis (dados
administrativos, do LMS, questionários, etc). Coletar e integrar esses dados brutos
não é uma tarefa trivial. A etapa seguinte de pré-processamento é essencial nesse
processo. (Romero & Ventura, 2013)
A etapa de pré-processamento (preprocessing) consiste no tratamento e na
preparação dos dados. Nessa etapa devem-se identificar, corrigir e retirar valores
inválidos, inconsistentes ou redundantes. Por exemplo, a limpeza dos dados trataria
da definição de um possível intervalo de valores (domínio) para um determinado
atributo. Caso surgisse algum valor diferente do definido no domínio, esse valor
deve ser corrigido ou mesmo eliminado da base de dados. Na sequência, a etapa
de transformação (modified data), abrange, quando necessário, alguma
transformação linear ou mesmo não linear nos dados, de forma a encontrar aqueles
mais relevantes para o problema em estudo. Geralmente são aplicadas técnicas de
redução de dimensionalidade e de projeção dos dados. (Elmasri & Navathe, 2011)
A etapa seguinte de mineração de dados (data mining) deve ser entendida como
uma das etapas do processo mais amplo de KDD e utiliza algoritmos específicos
para a extração de padrões dessas bases de dados. (Rigo, Cambruzzi, Barbosa, &
Cazella, 2014)
A etapa final de interpretação consiste na análise dos resultados da mineração e na
geração de conhecimento pela interpretação e utilização dos resultados em
benefício da aplicação em questão. Etapa complexa, em que são identificados os
padrões pelo sistema, estes são interpretados em conhecimentos e validados, para
em seguida proporcionarem suporte a tomada de decisões humanas. (Elmasri &
Navathe, 2011)
A Mineração de Dados Educacionais (MDE) ou Educational Data Mining (EDM) trata
da aplicação das técnicas da Mineração de Dados junto aos novos conjuntos de
dados obtidos nos diversos ambientes educacionais. A MDE utiliza
predominantemente as técnicas de classificação (classification), regras de
112
associação (association rules) e agrupamento (clustering). (Romero & Ventura,
2013; Hu, Lo, & Shih, 2014; Campagni, Merlini, Sprugnoli, & Verri, 2015)
2.2 Principais técnicas para MDE
A Mineração de Dados Educacionais emprega técnicas comuns de mineração de
dados, e as principais são as seguintes:
Na descoberta de Regras de Associação, o banco de dados é considerado um
conjunto de transações. Cada transação é composta por um conjunto de itens que
frequentemente ocorrem de forma simultânea em transações do conjunto de dados.
Uma regra de associação tem a forma X => Y, onde X = {x1, x2, ..., xn} e Y = { y1, y2,
..., yn} são conjuntos de itens , com xi e yj, sendo itens distintos para todo i e j. Essa
associação indica que, se um cliente compra X, provavelmente comprará Y. Pode
ser aplicado, por exemplo, na área de marketing para se descobrir pessoas que
compram de forma associada dois produtos diferentes. Algoritmos como Apriori,
GSP e DHP são exemplos da implementação da tarefa de Descoberta Regras de
Associação. (Elmasri & Navathe, 2011)
A classificação é uma forma de análise de dados que extrai modelos que descrevem
classes de dados importantes. A tarefa de classificação consiste em descobrir uma
função que mapeie um conjunto de registros em um conjunto de classes. Uma vez
descoberta, tal função pode ser aplicada a novos registros de forma a prever a
classe em que tais registros se enquadram. (Elmasri & Navathe, 2011) A árvore de
decisão é bastante representativa em relação à tecnica de classificação, sendo um
método adequado quando o objetivo da mineração é a classificação de dados ou
predição de saídas. Uma árvore de decisão possui uma estrutura de árvore, em que
cada nó interno (não-folha), pode ser entendido como um atributo de teste, e cada
nó-folha (nó-terminal) possui um rótulo de classe. O nó de mais alto nível numa
árvore de decisão é chamado de nó-raiz. (Han, Pei, & Kamber, 2011)
O agrupamento (clustering) tem como objetivo principal descobrir dados que se
agrupam naturalmente, classificando os dados em diferentes grupos e/ou
categorias, e os registros em um grupo devem ser semelhantes uns aos outros e
diferentes dos registros em outros grupos. Esses grupos e categorias não são
conhecidos incialmente. Em MDE é possível, por exemplo, descobrir grupos de
escolas (para investigar as diferenças e similaridades entre escolas), ou achar
grupos de alunos (para investigar as diferenças e similaridades entre alunos). Uma
vez que os grupos são formados, é possível fazer uma análise dos elementos que
compõem cada um deles, identificando as características comuns aos seus
elementos. (Elmasri & Navathe, 2011; Han, Pei, & Kamber, 2011)
113
3. Metodologia
Em relação às metodologias utilizadas em MDE é possível citar duas com maior
destaque. A primeira é a conhecida como CRISP-DM (Cross Industry Standard
Process for Data Mining), que propõe um modelo de processo para projetos de
mineração de dados, apresentando seis fases de maneira cíclica, e são as
seguintes: a) entendimento do negócio; b) entendimento dos dados; c) preparação
dos dados; d) modelagem; e) avaliação e f) aplicação. Tal metodologia é
apresentada como um padrão desenvolvido por empresas de software como SPSS
e NCR, além de indústrias como a Daimler-Benz.
A segunda é a metodologia já apresentada no item 2.1, conhecida como KDD, que
será utilizada na presente pesquisa, por ser um modelo voltado para pesquisas
acadêmicas e serviu como base para um bom número de trabalhos publicados,
como, por exemplo, Ramamohan, Vasantharao, Chakravarti, & Ratnam (2012),
Romero & Ventura (2013), Asif, Merceron, & Pathan, (2014), Jeevalatha, Ananthi, &
Kumar (2014) e Selvan, Beleya, Muniandy, Heng, & Remendran (2015) e Shaleena
& Shaiju (2015), que aplicaram as etapas do processo de Descoberta de
Conhecimento em Banco de Dados ou Knowledge Discovery in Databases (KDD)
em suas pesquisas.
Seguindo o processo de KDD, para a implantação do objetivo principal da presente
pesquisa, em uma primeira etapa, foi feita a importação dos dados do AVA –
Blackboard - e a seleção dos atributos que serão utilizados, posteriormente, na
etapa de mineração de dados. Em seguida, tais dados foram submetidos à etapa de
pré-processamento, e foram eliminados os dados com inconsistência ou
redundância. Na etapa seguinte, de transformação, foram criadas novas colunas
calculadas, como resultado e número de atividades. As duas últimas etapas foram a
da mineração propriamente dita, que consistiu na busca por padrões através da
aplicação de algoritmos para árvore de decisão (decision tree) e o agrupamento
(clustering) com o uso da ferramenta Rapidminer. Por fim, foi efetuada a
interpretação dos resultados da etapa anterior.
4. O curso Carreira S/A
O curso foi criado e ofertado no âmbito de um Grupo Educacional Privado a partir de
agora denominado Alfa, com atuação no estado de São Paulo e na região Centro-
Oeste do Brasil. A oferta desse curso representou a primeira experiência do grupo
com um curso que apresentou número tão elevado de alunos matriculados, além de
ser um projeto piloto para o lançamento no futuro de outros cursos no estilo dos
MOOCs. Tal curso preservou as principais características desse tipo de curso, como
não ter cobrança adicional de taxa, ser online, ter o caráter massivo, uso de material
114
didático, predominantemente na forma de vídeo e também pela utilização de fórum
de discussão.
O curso foi chamado de Carreira S/A e não teve do acrônimo MOOC, apenas o
aspecto de abertura (open), pois não foram utilizados recursos educacionais abertos
(REA) em seu projeto. O objetivo do curso foi apresentar aos alunos uma visão do
complexo mercado de trabalho tanto do ponto de vista profissional quanto das
empresas.
A criação desse curso oportunizou a análise dos dados gerados a partir de um curso
massivo, pois, em princípio, os dados originados nos ambientes virtuais de
aprendizagem utilizados pelos MOOCs das principais provedoras como Coursera e
edX, são de difícil acesso para consulta pública, sendo liberados, apenas para as
próprias provedoras e para as instituições de ensino conveniadas que oferecem os
cursos.
Neste estudo serão utilizados apenas dados acadêmicos oriundos do LMS
Blackboard, escolhido pelo fato de ser o ambiente utilizado por instituições de
ensino do grupo Alfa desde 2003.
4.1 Características do curso
O curso Carreira S/A teve duração de 04 semanas, com inicio em 20 de março de
2017 e término em 20 de abril de 2017, sendo oferecido no LMS Blackboard, de
forma gratuita e automática para todos os alunos do grupo Alfa. O curso foi
composto por 04 unidades de aprendizagem, conforme apresentado na figura 2:
Figura 2: Estrutura do Curso. Fonte: O autor
115
O processo de avaliação foi composto de testes de múltipla escolha, e cada unidade
correspondeu a 25% da nota final, ou seja, valendo até 2,5 (dois pontos e meio)
cada unidade. Para ser aprovado, o aluno deveria obter nota final igual ou maior que
6,0 (seis).
Cada unidade foi composta por um vídeo, material em formato texto, apresentado
em formato PDF e livro eletrônico, além de um fórum de discussão. A análise
desses materiais será efetuada no tópico a seguir.
4.2 Análise do material do curso
Vídeo – o curso utilizou tecnologia de vídeo da empresa Kaltura que apresenta uma
plataforma totalmente integrada ao LMS Blackboard, disponibilizando ainda uma
solução que adapta a reprodução do vídeo ao tipo de dispositivo do usuário
(computador desktop, celular e tablet), sendo compatível também com diversos
navegadores (browsers) disponíveis no mercado.
A Kaltura oferece também para os administradores do sistema uma ferramenta para
análise dos vídeos (analytics), que será utilizada nos próximos tópicos.
Na fase de projeto do curso foi considerado que os vídeos deveriam ter duração
média entre 05 e 07 minutos, sendo constituídos por entrevistas e depoimentos de
profissionais especializados, além de material de outras fontes, como trechos de
filmes. Contudo, por ter sido a primeira versão do curso e devido à quantidade e
qualidade do material coletado, a versão final dos vídeos ultrapassou o tempo
projetado. A tabela 1 apresenta os dados oriundos da ferramenta Analytics da
Kaltura.
Tabela 1: Dados relativos aos vídeos. Fonte: Kaltura Analytics
Unid Nome Duração Plays Tempo médio Média (drop-off)
I Planejamento de
Carreira
13:51 30.159 07:35 54,31%
II Competências
Profissionais
13:58 20.317 08:46 62,82%
III Processo seletivo
e recrutamento
11:34 14.357 08:06 70,15%
IV Empreendedorismo 22:19 15.538 13:24 60,12%
Total / Média 80.371 09:06 60,60%
116
Em relação ao tempo de duração dos vídeos é possível encontrar, na literatura,
pesquisas que apontam a média de tempo para reter melhor a atenção dos
estudantes. Na visão de Khan ( 2012), o tempo ideal para melhorar o engajamento
dos estudantes fica entre 10 a 15 minutos. A pesquisa de Khalil & Ebner (2017) foi
direcionada para um MOOC denominado “Social Aspects of Information
Technology” ofertado pela provedora iMooX na Áustria, que contou com 21 vídeos
de duração média de 17 minutos. Os dados de pesquisa da empresa Kaltura (2016)
com 1.500 respondentes (educadores, profissionais especializados em vídeo e
alunos) apontam o intervalo de 5 a 10 minutos como o mais indicado para a duração
de um vídeo. Contudo, é possível encontrar valor inferior como ideal para a duração
de vídeo. Por exemplo, o trabalho de Guo, Kim, & Rubin (2014) analisou os dados
de quatro MOOCs da provedora edX e chegou a conclusão que vídeos de até 06
minutos são muito mais envolventes para reter a atenção dos alunos.
No caso do curso Carreira S/A os alunos, considerando todos dos vídeos,
assistiram, em média, a 9min06s, valor que está coerente com a pesquisa da
Kaltura (2016) e acima do valor indicado por Guo, Kim, & Rubin (2014). Os dados
ainda apontam que os alunos assistem a aproximadamente 60% dos vídeos. A
partir da experiência dessa primeira edição do curso será possível rever a duração
total dos vídeos para a próxima edição.
• Material texto – formado por material elaborado por especialistas em arquivo
no formato PDF, artigos e também pela indicação de capítulos de livros;
• Fórum de discussão – o fórum de discussão não teve um tutor para mediar à
participação dos alunos, em razão do elevado número de alunos e também
por ser uma característica comum aos MOOCs. Para cada unidade, foi
lançado um tema para que alunos pudessem se manifestar e debater a
respeito do assunto, usando um modelo de discussão entre os pares para a
construção coletiva do conhecimento. Por exemplo, para o primeiro fórum foi
sugerida a seguinte questão: você acredita que a elaboração de um plano de
carreira bem feito pode influenciar a sua trajetória profissional? Foi possível
separar os alunos das modalidades presencial e EaD. No caso presencial,
foram postadas 678 publicações, das quais muitas eram comentários a
respeito da questão colocada, mas o espaço acabou também sendo utilizado
para esclarecer algumas dúvidas específicas e operacionais que foram
117
respondidas pelos próprios alunos, como a data de emissão do certificado e
também dúvidas gerais sobre a navegação na disciplina. Os alunos do EaD
com a mesma questão para discussão, tiveram uma participação muito maior,
com 4.367 publicações, a maior parte com comentários a respeito do tema
em questão. Ao final dos 04 fóruns foram 11.272 publicações do EaD e 1.469
dos alunos da modalidade presencial. É muito provável que essa diferença
possa ser explicada pelo fato dos alunos oriundos de cursos EaD já estarem
muito mais acostumados a participarem de fóruns de discussão.
5. Processo de mineração de dados educacionais
A presente etapa contemplará o processo para obtenção do padrão de
comportamento e desempenho dos alunos e será inspirado no modelo de KDD,
conforme ilustra a figura 3.
Figura 3: Processo baseado em KDD. Fonte: O autor
Na etapa inicial, os dados foram extraídos do LMS Blackboard a partir do seu centro
de notas gerando uma planilha em formato Excel com 181.677 linhas. Essa base
inicial foi submetida à fase de pré-processamento, em que foram eliminados os
alunos inativos ou desistentes, ou seja, aqueles que não tiveram qualquer
participação nas atividades durante o período de oferta do curso, além de eliminar
ou ajustar também os casos de alunos com inconsistências no processo de registro
das avaliações no Blackboard, com a retirada de mensagens de erro que
permaneceram na planilha gerada pelo sistema. Por exemplo, o aluno fez uma
atividade e fechou o navegador antes do sistema registrar tal ação definitivamente.
118
Nesse caso, o sistema registrou no lugar da nota, apenas a informação “Em
andamento” ou “Em andamento – nota”. Para corrigir tais problemas foram utilizados
os recursos nativos do Excel, como fórmulas e filtragem dos dados. No final, a
planilha apresentava quase 7 MB de dados, contando com 75.751 alunos que
efetivamente realizaram pelo menos uma avaliação durante o curso e 105.926 que
foram matriculados e não tiveram participação durante o curso. A taxa de
desistência foi de 58,30%. Para efeito de comparação, nos MOOCs a taxa de
evasão ou desistência em média é de 90%. (Sandeen, 2013; Hew & Cheung, 2014;
Alraimi, Zo, & Ciganek, 2015)
Depois dessa primeira análise, a etapa seguinte foi a de transformação, em que
foram criadas novas colunas calculadas, como o número de atividades e o resultado
(aprovado ou reprovado), além da criação de uma coluna para medir a frequência
de entrega das atividades. Para os alunos que enviaram apenas 01 atividade foi
atribuída a classificação “ruim”, para aqueles enviaram 02 atividades atribuiu-se a
classificação “regular”, para 03 atividades a classificação atribuída foi “bom” e,
finalmente, para aqueles que enviaram todas as quatro atividades a classificação foi
“excelente”. A presente classificação foi inspirada nos trabalhos de Clow (2013),
Coffrin, Barba, Corrin & Kennedy (2014) e Wilkowski, Deutsch & Russell (2014), que
criaram categorias para classificar os estudantes em função do modo como eles
interagem com o curso e pelo desempenho nas atividades.
O resultado dessa classificação foi o seguinte:
2.537 alunos classificados com o conceito “ruim” – 3,35%;
830 alunos classificados com o conceito “regular” – 1,10%;
1235 alunos classificados com o conceito “bom” – 1,63%
71.149 alunos classificados com o conceito “excelente” – 93,92%
Tal ação teve por objetivo melhorar a qualidade dos atributos e aumentar o nível de
detalhamento do estudo.
O curso teve alunos oriundos de cursos de graduação nas modalidades presencial e
a distância, e dos alunos que fizeram atividades, da modalidade presencial foram
41.593 e da EaD foram 34.158 alunos.
Em relação ao desempenho dos alunos, os dados obtidos indicam que dos 75.751
alunos que fizeram atividades e obtiveram pontuação durante o curso, 71.425 foram
aprovados (94,29%) e 4.326 foram reprovados (5,71%). Esse alto índice de
119
aprovação está relacionado com o curso ter caráter informativo, direcionado para
atender a um grande número de alunos de diferentes áreas do conhecimento e não
ter o nível de exigência das disciplinas integrantes da matriz curricular de um curso
da graduação.
Para a mineração foi utilizada a ferramenta RapidMiner em sua versão acadêmica
7.4 que permite trabalhar com número ilimitado de registros. Inicialmente ocorreu a
importação da planilha Excel gerada pelo Blackboard, com os seguintes atributos:
• Curso do usuário
• Nome
• AS_I até AS_VI, onde AS significa atividade de sistematização, com valor
de 2,5 cada. Essa atividade consiste na resposta de questões de múltipla-
escolha.
• Total (nota final) – 0 a 10,0
• Resultado – considerando 0 para reprovação e 1 para aprovação
Na etapa de transformação foram adicionadas as seguintes colunas:
• Modalidade – presencial ou EaD
• Num_ativ – número de atividades entregues pelos alunos
• Freq_atividades – classificados em ruim, regular, bom ou excelente
• Condição – aprovado ou reprovado
No processo de MDE, a primeira etapa foi realizada com a importação da planilha
em formato XLSX com 75.751 linhas pela ferramenta RapidMiner. A partir desse
momento, a ferramenta faz um processo de verificação com o objetivo de detectar
algum tipo de erro nos dados.
Em seguida, foram utilizados os recursos para mineração de dados da ferramenta
RapidMiner, com os algoritmos de árvore de decisão (decision tree), agrupamento
(clustering) e regras de associação (association rules). Tais algoritmos foram
selecionados, pois são aplicados com sucesso em contextos educacionais. (Baker,
2010; Romero & Ventura, 2013). Os experimentos e as análises estão relacionados
a seguir.
5.1 Experimento A – Árvore de Decisão (Decision Tree)
A árvore de decisão é representativa em relação à técnica de classificação, sendo
um método adequado quando o objetivo da mineração é a classificação de dados
ou predição de saídas.
120
Para esse primeiro experimento foi utilizado o operador Retrieve para importar os
dados da planilha gerada ao final das etapas de pré-processamento e
transformação, e na sequência utilizou-se o operador Set Role para definir o atributo
que será utilizado como classe, no caso o atributo Condição (aprovado ou
reprovado). Em seguida, foi utilizado o operador Select Attributes para determinar
quais atributos seriam utilizados no processo, sendo desconsiderados atributos
como, por exemplo, “Nome” e “Código do usuário” que não serão utilizados no
processo de classificação da árvore de decisão. Por fim, foi inserido no processo o
operador Decision Tree, com a função de gerar a árvore de decisão, apresentada na
figura 4.
O algoritmo analisa os diversos campos de forma interativa, buscando identificar
aquele com maior influência no resultado das classes (aprovado ou reprovado),
nesse caso indicado pelo atributo Condição. O atributo de maior influência é
colocado no topo da arvore (raiz) e, então, o algoritmo continua buscando novos
campos significativos. Nesse caso, o atributo mais significativo for Freq_Ativ.
Figura 4: Arvore de Decisão gerada pela ferramenta RapidMiner. Adaptada pelo autor
121
Uma árvore de decisão também pode ser representada como conjuntos de regras
do tipo se-então (if-then). As regras são escritas considerando o trajeto do nó raiz
até uma folha da árvore, conforme ilustra a figura 5.
Figura 5: Árvore de decisão - regras do tipo se-então (if-then)
O atributo mais significativo para o sucesso dos alunos foi Freq_Ativ (ruim, regular,
bom e excelente). No gráfico pode-se visualizar isso por ser ele o nó raiz, colocado
no topo da árvore e separando os alunos classificados como “Bom”, dos demais, ou
seja, “Excelente”, “Regular” e “Ruim”. Para o lado direito da árvore, os alunos que
fizeram todas as atividades, classificação “Excelente”, são 70.538 aprovações. Ou
seja, 98,76% dos aprovados. Como se tratou de um curso atípico, com objetivo de
atender alunos das mais diversas áreas e também não apresentou nível de
exigência significativo, o alto índice de aprovações influenciou na análise e geração
da árvore.
O foco principal da análise a partir desse momento se concentrará no conjunto de
alunos reprovados, ou seja, 4.326 alunos. Ainda do lado direito da árvore é possível
verificar que 618 alunos (14,28%) dos reprovados, fizeram todas as atividades e
mesmo assim não foram aprovados. Por outro lado, 2531 alunos realizaram apenas
01 atividade, ou seja, 58,5% do total de reprovados. Provavelmente são os alunos
que fizeram apenas a primeira atividade e desistiram do curso, assim como 829
(19,16%) alunos que avançaram um pouco mais, fazendo 02 atividades, mas
também não continuaram engajados no curso. Os que realizaram apenas 01 ou 02
atividades são 3.360 alunos e representam 77,67% dos reprovados. Esse grupo
significativo de reprovados precisaria com mais urgência de ações por parte da
gestão do curso para diminuir a desistência desses alunos.
Do lado esquerdo da árvore, com alunos classificados como “Bom”, também há
presença de alunos reprovados, mesmo tendo enviado 3 atividades. Após esse
atributo de frequência de entregas (Freq_Ativ), o mais importante foi a atividade
AS_III. Nesse caminho, há um pequeno grupo de 90 alunos que mesmo fazendo 3
122
atividades e AS_III com nota maior que 1,562 (62,48% da nota máxima de 2,5
pontos) não conseguiram aprovação. Desse grupo de 90 alunos, a maioria deles, ou
seja, 74 alunos (82,22%) não fizeram a AS_IV. Os outros 16 que fizeram AS_IV não
tiveram bom desempenho ou deixaram de fazer alguma atividade anterior. Há
também um grupo de 229 alunos que foram reprovados, obtendo nota menor ou
igual a 1,562 na AS_III e notas de AS_II (menor ou igual a 2,188) e AS_IV (menor
ou igual a 2,188). Os outros caminhos não foram significativos em termos do
número de alunos reprovados.
A árvore de decisão poderia ter gerado resultados mais detalhados, caso tivesse
sido possível agregar para a análise, outros atributos, principalmente de caráter
temporal, como a data do último acesso do aluno ao ambiente e a datas de entrega
das atividades. É provável que os dados não foram devidamente registrados, em
função do tamanho dos arquivos de log do Blackboard.
5.2 Experimento B – Agrupamento (Clustering)
Para o experimento com a técnica de clusterização foi utilizado o mesmo conjunto
de dados do experimento de árvore de decisão. Na sequência, foi utilizado o
operador Select Attributes para determinar os atributos utilizados no processo, e os
selecionados foram apenas atributos numéricos, como AS_I, AS_II, AS_III, AS_IV,
além de Num_Ativ e Resultado.
No momento seguinte, foi utilizado o operador Clustering com o algoritmo K-means,
com parâmetro de k = 4. Para definir o parâmetro mais adequado para esse caso,
foi consultada a especialista de domínio, ou seja, a profissional que participou do
projeto do curso e tem o entendimento claro do domínio da aplicação em que se
insere o problema a ser resolvido. Como valor de K foram utilizados os valores de 2
a 8 e consultada a especialista de domínio que ajudou na escolha do número mais
indicado para essa situação.
Após a execução do algoritmo k-means, o sistema gerou 4 grupos ou clusters com a
seguinte distribuição de alunos:
Cluster 0 com 14.168 alunos
Cluster 1 com 3.651 alunos
Cluster 2 com 10.658 alunos
Cluster 3 com 41.274 alunos
A saída gerada pela ferramenta RapidMiner, denominada Centroid Table ou médias
dos grupos, traz informações sobre todos os clusters, conforme pode ser verificado
na figura 6.
123
Figura 6: Tabela Centroid Table. Adaptada pelo autor.
Em relação aos alunos aprovados, no cluster 0 e no cluster 3 estão agrupados todos
esses alunos, com 14.168 alunos e 47.274 alunos, respectivamente. O cluster 3 é o
que reúne maior número de alunos aprovados e com melhor desempenho geral,
pois todos fizeram as 04 atividades e apresentaram maior média em relação à nota
final com 9,844 (98,44% da nota máxima). Os alunos do cluster 0 também fizeram
todas as atividades, mas tiveram desempenho inferior aos alunos do cluster 3 em
todas elas. Os alunos do cluster 3 mantiveram um aproveitamento em relação à
nota máxima de cada atividade (2,5 pontos) de 98,44% em média. Já os alunos do
cluster 0 tiveram aproveitamento de 84,68%.
Os alunos do cluster 3 mantiveram, desse modo, um padrão de comportamento
mais homogêneo nos resultados das 04 atividades, inclusive na última, ocasião em
que muitos já estavam aprovados. Na AS_IV, o aproveitamento desse grupo foi de
97,48% e 98,52% na atividade AS_III. Para os alunos do cluster 0, o aproveitamento
caiu de 87,12% da AS_III para 77,20% na AS_IV. Portanto, os alunos do cluster 3
permaneceram mais engajados até o final.
O cluster 2 com 10.658 alunos apresenta como característica principal, agrupar
alunos aprovados e reprovados. Com total de 10.658 alunos, o cluster 2 tem 9.983
aprovados e 675 reprovados. No caso desse agrupamento há alunos com notas
variando de 4,375 até 7,50 e número de 3 ou 4 atividades entregues no decorrer do
curso.
No cluster 1 somente com alunos reprovados, há um conjunto de 3651 alunos
representando 84,39% do total de reprovados. Os alunos desse grupo obtiveram
nota final média de 2,30, valor muito inferior à nota para aprovação (6,0). Levando-
se em conta que cada aluno precisaria pelo menos de nota 1,5 em cada avaliação,
nesse grupo é possível observar também que de todas as quatro atividades, os
alunos tiveram maior aproveitamento na AS_I com 1,69, pouco acima do mínimo,
representando 67,88% da nota máxima possível nessa primeira atividade (máximo
2,5). Nas atividades seguintes, os alunos continuaram a apresentar um
comportamento em termos de desempenho, bastante inferior aos outros grupos,
124
com queda contínua nas notas das atividades AS_II, AS_III e AS_IV, com média
igual a 0,451, 0,095 e 0,059, respectivamente. Sendo assim, após a entrega e
resultado inferior na primeira atividade, os alunos foram perdendo o interesse e
abandonando o curso.
Os clusters 1 com somente reprovados e o cluster 2 com uma parcela de
reprovados despertaram atenção para entender melhor o padrão de comportamento
desse grupo de alunos. Para refinar um pouco mais a análise foi gerado um novo
agrupamento somente com os 4.326 alunos reprovados. Nesse caso foram gerados
dois clusters e os alunos foram distribuídos da seguinte maneira.
Cluster 0 com 1.462 alunos
Cluster 1 com 2.864 alunos
A Centroid Tables apenas com esses dois clusters pode ser observada na figura 7.
Figura 7: Agrupamento somente dos alunos reprovados. Adaptada pelo autor
Por esse agrupamento, o cluster 0 representa 33,80% dos reprovados e o cluster 1
representa a maioria da base total de alunos, com 66,20%.
Uma análise possível aponta que para permanecer na média de aprovação,
considerando-se a nota final maior ou igual a 6,0 para aprovação, cada aluno
precisaria de nota igual mínima de 1,5 em cada atividade. No cluster 0, que
representa o menor grupo de reprovados, os alunos superaram esse valor nas
atividades AS_I e AS_II, com notas médias de 1,729 e 1,565 respectivamente. A
partir da terceira atividade, esse grupo começou a apresentar desempenho bastante
inferior a nota mínima, com 0,772 na AS_III e 0,541 na AS_IV. Outro aspecto
relevante é que mesmo entregando em média 03 atividades os alunos desse grupo
foram reprovados.
No cluster 1 que representa a maioria dos reprovados, os alunos tiveram nota média
na AS_I de 1,643, pouco acima da nota mínima de 1,5. A partir da atividade AS_II,
os alunos desse grupo praticamente não tiveram aproveitamento nas atividades,
125
representando um abandono do curso, e quase todos entregaram apenas a primeira
atividade.
5.3 Experimento C – Regras de Associação (Association Rules)
A regra de associação é uma técnica usada na construção de relações sob a forma
de regras entre os itens de uma base de dados, ou seja relações entre os atributos.
No caso desse experimento não foi possível utilizar o algoritmo FP-Growth (Frequent
Pattern Growth) da ferramenta RapidMiner, pois o mesmo utiliza apenas atributos
binominais ou binários (duas categorias). (de Castro & Ferrari, 2016) No caso, os
atributos AS_I a AS_V não são adequados, pois são do tipo numérico contínuo.
Sendo assim, o algoritmo de regra de associação não se mostrou adequado a base
de dados desse curso.
6. Conclusão
A pesquisa teve como objetivo analisar as contribuições e restrições da aplicação de
métodos de mineração de dados educacionais em um grande conjunto de dados de
um curso massivo. Para atingir tal objetivo, foi criado e ofertado no âmbito de um
grupo educacional privado, um curso dessa natureza com mais de 180.000
matrículas. Foram considerados na etapa de mineração de dados algoritmos,
bastante utilizados em contextos educacionais, principalmente árvore de decisão e
agrupamento. Após os experimentos, os resultados trouxeram uma clareza maior a
respeito do assunto, pois foram descobertos conhecimentos novos e que podem ser
úteis para os professores e gestores do curso.
Foram considerados para análise, 75.751 alunos que realizaram pelo menos uma
atividade durante o curso. Essas duas primeiras fases do processo de KDD, pré-
processamento e transformação, foram muito trabalhosas, pois mesmo com os
recursos de filtros e fórmulas nativos da planilha Excel, as tarefas, envolvendo uma
base de dados tão volumosa, levaram aproximadamente 60% do tempo total do
processo de KDD.
Antes da análise a respeito da mineração de dados, o curso apresentou 71.425
alunos aprovados (94,29%). Esse alto índice de aprovação é reflexo do nível de
abrangência e profundidade do curso, pois foi concebido para despertar interesse e
atender a alunos das mais variadas áreas e cursos, com o objetivo de ser
informativo, sem o nível de exigência de uma disciplina regular.
No experimento com a árvore de decisão foi possível verificar alguns padrões de
comportamento dos alunos. Por meio desse algoritmo foram destacados 02 grupos
de alunos reprovados que necessitam de maior nível de atenção. Provavelmente
são os 2531 alunos reprovados (58,5%), que fizeram apenas uma atividade e
desistiram do curso, assim como outro conjunto de 829 alunos (19,16%) dos
126
reprovados, que fizeram apenas duas atividades e interromperam o curso. Tais
grupos demonstraram baixo nível de engajamento e seria oportuno para as
próximas edições, o desenvolvimento de um modelo de predição, que baseado
nessas regras, pudesse prever o comportamento dos novos alunos. Aqueles com
comportamento semelhante aos indicados anteriormente, deveriam receber atenção
maior por parte dos professores e gestores do curso, por exemplo, recebendo
mensagens específicas e atividades adicionais.
O algoritmo de agrupamento trouxe contribuições mais significativas em relação ao
de árvore de decisão. Em um primeiro momento, toda a base de dados foi utilizada,
sendo empregado o algoritmo k-means com 04 clusters. Dos grupos gerados, foi
possível verificar que foram 02 clusters de aprovados, 01 de reprovados e outros
com a grande maioria de aprovados. Em relação aos clusters de aprovados, embora
todos tenham entregado as 04 atividades, os alunos do cluster 3 mantiveram um
padrão de comportamento mais homogêneo e engajado, com ótimo aproveitamento
até a última atividade.
Contudo, é o grupo de reprovados que merece mais atenção. No cluster 1, que
reuniu a maioria dos reprovados, os alunos tiveram aproveitamento aceitável
somente na AS_I. A partir dela, os alunos foram diminuindo o aproveitamento e
abandonando o curso. A partir da constatação que o cluster 2 também apresentava
uma pequena parcela de reprovados, foi feito um novo agrupamento (k=2) com uma
nova base somente de reprovados (4.326) para entender melhor esse grupo. Nessa
nova análise, o cluster 0 (1.462 alunos) tem alunos que tiveram nota superior a 1,5
apenas nas AS_I e AS_II e no cluster 1 (2.864 alunos), o desempenho foi ainda pior,
pois a maioria teve aproveitamento satisfatório somente na AS_I, e a partir dela os
alunos praticamente não tiveram aproveitamento nas disciplinas. Esse padrão de
comportamento é semelhante ao da árvore de decisão. Nesse caso, conhecer o
comportamento de cada grupo pode apoiar o gestor ou professor das próximas
turmas. Seria importante analisar semanalmente o comportamento dos alunos a fim
de verificar se o comportamento da turma anterior se repete. Por exemplo, analisar
aqueles que não entregaram atividades 1 e 2 até determinada data. Tal
comportamento poderia indicar um aluno com alto potencial de evasão ou
reprovação.
Esse conhecimento gerado após a utilização de algoritmos de MDE pode ser útil em
cursos a distância e, especialmente, em cursos massivos, principalmente para
compreender o ponto de vista dos alunos. Em um curso a distância, a tutoria tem
papel preponderante no contato com os alunos, orientações, solução de dúvidas,
etc. No caso dos cursos massivos, essa questão da tutoria torna-se inviável para a
gestão do curso, em razão do número de tutores necessários para atender, por
exemplo, mais de 180.000 alunos. Desse modo, os recursos de tutoria deveriam ser
investidos quando são mais necessários. Conhecendo o comportamento de
determinados grupos, os professores e gestores podem enviar mensagens ou
127
propor atividades específicas para esse grupo de alunos, por exemplo, com risco de
abandonar o curso.
A oferta de um curso dessa magnitude representou um considerável desafio em
termos de gestão, pois essa enorme quantidade de alunos gerou além da grande
quantidade de dados, aspectos envolvendo a parte operacional do curso, como
responder as centenas de mensagens dos alunos sobre diversos assuntos e
verificar os temas mais citados nos fóruns de discussão.
O desafio tecnológico também esteve presente, pois é preciso considerar que
alguns aspectos previstos pela equipe de participantes do projeto do curso, como a
integração de quizzes aos vídeos e o registro pelos arquivos de log do Blackboard,
por exemplo das datas de entrega de atividades, datas de acesso do aluno ao
ambiente, não funcionaram como o esperado. Sobre o Blackboard, os dados não
foram devidamente registrados, provavelmente em função do tamanho dos arquivos
de log Em relação aos quizzes, infelizmente um problema na integração e
atualização da versão do software da empresa Kaltura com tal funcionalidade não
estava disponível e não funcionou em tempo para esse curso. Os quizzes
integrados teriam sido úteis, por possibilitariam que as perguntas fossem colocadas
em qualquer ponto do vídeo.
Uma análise superficial dos fóruns de discussão mostrou que os alunos da
modalidade EaD utilizam o espaço com mais frequência e apresentam dúvidas e
colocações em sua maior parte relacionadas com a questão que foi colocada para
discussão. Os alunos da modalidade presencial interagem menos no fórum e
também utilizam o espaço para esclarecer dúvidas a respeito de navegação e
outros aspectos do material e do ambiente. Os alunos da modalidade EaD no caso
desse curso, foram mais participativos e tiveram menos dúvidas a respeito da
utilização do ambiente Blackboard, provavelmente por estarem mais habituados a
utilizarem esse tipo espaço para discussão e por utilizarem com mais intensidade o
ambiente virtual de aprendizagem.
Uma contribuição importante desse trabalho é mostrar a possibilidade da criação de
um sistema de alertas para professores e gestores que, a partir das regras geradas
pelos algoritmos de MDE, como árvore de decisão, identifique alunos com risco de
evasão e possibilite ao professor ou gestor atuar de maneira antecipada, enviando
mensagens de acordo com os alertas recebidos pelo sistema. Em termos de
trabalhos futuros, sugerem-se novos estudos a respeito da aplicação de outros
algoritmos em contextos educacionais, como redes neurais, regressão linear e
regras de classificação.
128
7. Referências bibliográficas
Allen, I., & Seaman, J. (2015). Online Learning Consortium. Acesso em 10 de 03 de 2016, disponível em Online Report Card – Tracking Online Education in the United States, 2015: http://onlinelearningconsortium.org/read/online-report-card-tracking-online-education-united-states-2015/
Alraimi, K., Zo, H., & Ciganek, A. (2015). Understanding the MOOCs continuance: The role of openness and. Computers & Education, pp. 28-38.
Asif, R., Merceron, A., & Pathan, M. (2014). Predicting student academic performance at degree level: a case study. International Journal of Intelligent Systems and Applications, 7(1), 49-61.
Baker, R. (2010). Data mining for education. International encyclopedia of education, 7, 112-118.
Baker, S. (2014). Educational data mining: An advance for intelligent systems in education. IEEE Intelligent systems, 29(3), pp. 78-82.
Bala, M., & Ojha, D. (2012). Study of applications of data mining techniques in education. International Journal of Research in Science and Technology, 1(4), 1-10.
Calders, T., & Pechenizkiy, M. (2012). Introduction to The Special Section onEducational Data Mining. ACM SIGKDD Explorations Newsletter, 13(2), 3-6.
Campagni, R., Merlini, D., Sprugnoli, R., & Verri, M. (2015). Data mining models for student careers. Expert Systems with Applications, 42(13), 5508-5521.
Chatti, M., Dyckhoff, A., Schroeder, U., & Thüs, H. (2012). A reference model for learning analytics. International Journal of Technology Enhanced Learning, 4(5-6), pp. 318-331.
Clow, D. (2013). MOOCs and the Funnel of Participation. Proceedings LAK '13, (pp. 186-189). Leuven, Bélgica.
Coffrin, C., Barba, P., Corrin, L., & Kennedy, G. (2014). Visuzalizing patterns of student engagement and performance in MOOCs. Proceedings - LAK2014 - Learning Analytics and Knowledge. Indianapolis, USA.
Cooper, S., & Sahami, M. (2013). Reflections on Stanford’s MOOCs. New possibilities in online education create new challenges. Communications of the acm, 56(2), 28-30.
Crossley, S., Paquette, L., Dascalu, M., Mcnamara, D., & Baker, R. (2016). Combining Click-Stream Data with NLP Tools to Better. Proceedings of the Sixth International Conference on Learning Analytics & Knowledge. ACM (pp. 6-14). Edinburgh, U.K.: ACM - Association for Computing Machinery.
Dutt, A., Aghabozrgi, S., Ismail, M., & Mahroeian, H. (2015). Clustering Algorithms Applied in Educational Datamining. International Journal of Information and Electronics Engineering, 5(2), 112-116.
Elmasri, R., & Navathe, S. (2011). Sistemas de Banco de Dados (6a. ed.). São Paulo: Pearson Addison Wesley.
129
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 39(11), pp. 27-34.
Guo, P., Kim, J., & Rubin, R. (2014). How video production affects student engagement: An empirical study of mooc videos. Proceedings of the first ACM conference on Learning@ scale conference (pp. 41-50). Atlanta, Georgia, USA: ACM - Association for Computing Machiinery.
Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques (3. ed.). Waltham, MA: Elsevier.
Hew, K., & Cheung, W. (2014). Students and Instructors use of massive open online courses (MOOCs): motivations and challenges. Educacional Research Review, pp. 45-58.
Hu, Y., Lo, C., & Shih, S. (2014). Developing early warning systems to predict students’ online learning. Computers in Human Behavior, 36, pp. 469-478.
Hyman, P. (2012). In the Year of Disruptive Education. Communications of the acm, 55(12), 20-22.
Jeevalatha, T., Ananthi, N., & Kumar, D. (2014). Performance Analysis of Undergraduate Students Placement Selection using Decision Tree Algorithms. International Journal of Computer Applications, 108(15), 27-31.
Jordan, K. (2015). Massive Open Online Course Completion Rates Revisited: Assessment, Length and Attrition. The International Review of Research in Open and Distributed Learning, 16(3).
Kaltura. (2016). The State of Video in Education 2016: A Kaltura Report. Acesso em 20 de abril de 2016, disponível em Kaltura: https://corp.kaltura.com/sites/default/files/The%20State%20of%20Video%20in%20Education%202016%20-%20A%20Kaltura%20Report.pdf?aliId=165316164
Khalil, M., & Ebner, M. (2017). Clustering patterns of engagement in Massive Open Online Courses (MOOCs): the use of learning analytics to reveal student categories. Journal of Computing in Higher Education, 29(1), 1-19.
Khan, S. (2012). The one world schoolhouse: Education reimagined. New Yourk: Twelve.
Muñoz-Merino, P., Ruipérez-Valiente, J., Alario-Hoyos, C., Perez-Sanagustin, M., & Kloos, C. (2014). Precise Effectiveness Strategy for Analyzing the Effectiveness of Students. Computer in Human Behavior, pp. 1-11.
Nanfito, M. (2014). MOOCs: Opportunities, impacts, and challenges: massive open online courses in colleges and universities. Createspace - Amazon.
Natek, S., & Zwilling, M. (2014). Student data mining solution–knowledge management system related. Expert Systems with Applications, 41(14), 6400-6407.
Pardo, A., & Kloos, C. (2011). Stepping out of the box: towards analytics outside the learning management system. In Proceedings of the 1st International Conference on Learning Analytics and Knowledge (pp. 163-167). Banff, Canada: ACM.
Ramamohan, Y., Vasantharao, K., Chakravarti, C., & Ratnam, A. (2012). A study of data mining tools in knowledge discovery process. International Journal of Soft Computing and Engineering (IJSCE), 2(3), 2231-2307.
130
Rigo, S., Cambruzzi, W., Barbosa, J., & Cazella, S. (2014). Aplicações de Mineração de Dados Educacionais e Learning Analytics com foco na evasão escolar: oportunidades e desafios. Revista Brasileira de Informática na Educação, 22(1), 132-146.
Romero, C., & Ventura, S. (2010). Educational Data Mining: A Review of the state of the art. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions, 40(6), pp. 601-618.
Romero, C., & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 3(1), 12-27.
Romero, C., Zafra, A., Luna, J., & Ventura, S. (2013). Association rule mining using genetic programming using genetic programming to provide feedback to instructors from multiple‐choice quiz data. Expert Systems, 30(2), 162-172.
Sandeen, C. (2013). Integrating MOOCs into Traditional Higher Education: The emerging "MOOC 3.0" Era. The Magazine of Higher Learning, pp. 34-39.
Selvan, A., Beleya, P., Muniandy, M., Heng, L., & Remendran, C. (2015). Minimizing Student Attrition in Higher Learning Institutions in Malaysia Using Support Vector Machine. Journal of Theoretical and Applied Information Technology, 71(3), 377-385.
Shahiri, A., Husain, W., & Rashid, N. (2015). A Review on Predicting Student's Performance Using Data Mining Techniques. Procedia Computer Science, 72, pp. 414-422.
Shaleena, K., & Shaiju, P. (2015). Data Mining Techniques for Predicting Student Performance. Engineering and Technology (ICETECH) (pp. 1-3). Coimbatore, TN, India: IEEE.
Siemens, G., & Long, P. (2011). Penetrating the Fog: Analytics in Learning and Education. Educase Review, 46(5), pp. 30-40.
Wilkowski, J., Deutsch, A., & Russell, D. (2014). Student Skill and Goal Achievement in the Mapping with Google MOOC. L@S 2014 - Student Skills and Behavior (pp. 3-10). Atlanta, Georgia, USA.: ACM.
Yadav, S., Bharadwaj, B., & Pal, S. (2012). Data Mining Applications: A comparative for predicting student's performance. International Journal of Innovative Technology & Creative Engineering, 1(12), pp. 13-19.
You, J. W. (2016). Identifying significant indicators using LMS data to predict course achievement in online learning. The Internet and Higher Education, 29, pp. 23-30.
131
5 DISCUSSÃO E CONSIDERAÇÕES FINAIS
A presente tese foi desenvolvida no formato de artigos em sequência, e cada um deles está
alinhado com os objetivos, geral e específicos, apresentados no primeiro capítulo.
Para responder ao primeiro objetivo específico proposto, ou seja, identificar os principais
problemas na gestão de cursos massivos e destacar o mais significativo deles, foram
elaborados dois artigos a partir de uma exaustiva revisão da literatura. O primeiro identificou
os principais problemas no projeto e gestão dos MOOCs, A análise mostrou que o principal
desafio para os gestores dos MOOCs é diminuir a taxa de evasão de seus cursos, em média de
90%. Para entender melhor a questão das altas taxas de evasão nesses cursos, o segundo
artigo identificou os principais fatores que contribuem para a evasão. Nessa etapa da
pesquisa, foram identificados 24 (vinte e quatro) motivos, e na sequência, foram divididos em
dois grupos: motivos inerentes às próprias características do MOOCs; motivos relacionados
com o desenvolvimento do aluno durante o curso.
Este último é o mais importante, pois permite que os gestores atuem para eliminar ou
diminuir seus efeitos.
Para que os gestores de cursos a distância tradicionais e de cursos massivos possam ter
conhecimentos a respeito do comportamento dos alunos nos ambientes virtuais de
aprendizagem e detectar aqueles alunos com dificuldades de aprendizagem ou risco de
abandonar o curso, foi necessário realizar estudos com foco em possíveis soluções
computacionais apropriadas para essa finalidade.
Na etapa seguinte, para responder ao segundo objetivo específico – estudar técnicas de
mineração de dados aplicando-as a um estudo de caso – um terceiro artigo foi elaborado. O
referido artigo apresentou os resultados de um estudo que aplicou as principais técnicas de
MDE com o objeto de analisar uma disciplina online com 1.113 alunos. Após a aplicação de
dois algoritmos bastante utilizados em contextos educacionais, - árvore de decisão (decision
tree) e agrupamento (clustering) - foi possível identificar elementos que não eram
conhecidos por parte dos responsáveis pela disciplina, como os atributos mais significativos
para o sucesso dos alunos e também os padrões de comportamento dos alunos. Além disso,
foi possível identificar, também, as atividades que contribuíam de maneira mais expressiva
para aprovação dos alunos. O agrupamento permitiu, ainda, a descoberta de fatos
desconhecidos, como, por exemplo, uma atividade avaliada, pelos responsáveis pelo
conteúdo da disciplina, como preponderante para a aprovação dos alunos, por ter peso maior
132
na avaliação, mostrou-se pouco relevante após a análise dos resultados da mineração de
dados.
Para atender ao último objetivo específico e também ao geral da presente tese, foi
desenvolvido mais um artigo que apresentou o processo de criação e implantação de um
curso massivo no âmbito de um grupo educacional privado com mais de 180.000 matrículas.
Foram considerados na etapa de mineração de dados novamente algoritmos apropriados para
uso em contextos educacionais, principalmente árvore de decisão e agrupamento. Após os
experimentos, foram descobertos conhecimentos que podem ser úteis para os professores e
gestores do curso, para atender prioritariamente grupos de alunos com dificuldades em
acompanhar o curso.
Os dois últimos artigos trataram de experiências com classificação e agrupamento aplicados
em bases de dados de cursos que já estavam encerrados. O conhecimento obtido a partir
dessas aplicações pode ser útil para os gestores repensarem suas estratégias para os próximos
cursos. Por exemplo, em relação aos 4.326 alunos reprovados no curso massivo, foi
identificado um mesmo padrão de comportamento em 2531 (58,5%) alunos que realizaram
apenas a primeira atividade (AS_I) e em 829 alunos (19,16%) que realizaram apenas as duas
primeiras atividades e interromperam o curso.
A análise sugere baixo nível de engajamento-interesse por parte desses alunos sendo
oportuno que para as próximas edições do curso, os gestores pudessem atuar de forma
antecipada.
Outro viés que merece destaque, do ponto de vista da gestão, diz respeito às estratégias ou
itens de avaliação, afinal, foram mais de 94% de aprovação o que não é comum para cursos
com essas características.
Em um curso a distância tradicional, a tutoria exerce papel importante no contato com os
alunos, já que consegue interagir e perceber algumas situações inerentes ao processo de
ensino e aprendizagem. No contexto de cursos massivos, ainda que houvesse a figura do
tutor, as análises seriam limitadas, em virtude da grande quantidade de dados gerados pelo
ambiente virtual de aprendizagem.
Nos cursos massivos, o uso dos recursos da MDE configura-se como uma ação relevante e
absolutamente útil, para se compreender o ponto de vista dos alunos, suas principais
características e comportamentos, como aprendem e quais as suas dificuldades.
133
No caso da gestão dos cursos massivos, essa questão da tutoria para todos os alunos torna-se
inviável economicamente, em razão do número de tutores necessários para atender, por
exemplo, mais de 180.000 alunos. Desse modo, os recursos de tutoria poderiam ser revertidos
onde são mais necessários e para aqueles alunos que precisam de mais atenção. Conhecendo
o comportamento de determinados grupos de alunos, os professores e gestores poderiam
enviar mensagens específicas ou propor atividades específicas e direcionadas para cada grupo
de alunos, por exemplo, num grupo com baixo desempenho acadêmico e risco de abandonar
o curso, os tutores poderiam sugerir atividades de nivelamento ou reforço de conteúdos.
O presente estudo ocupou-se de analisar dados de cursos já encerrados, contudo, para
aumentar a efetividade, do uso das técnicas da MDE poderia-se criar um sistema de alertas
para diagnóstico precoce e encaminhamento de intervenções durante o decorrer do curso,
para que professores e gestores, a partir das regras geradas pelos algoritmos de MDE,
pudessem identificar aqueles alunos em dificuldades ou risco de abandonar o curso. Os
responsáveis pelos cursos seriam orientados a atuar de maneira antecipada, enviando
mensagens de acordo com os alertas recebidos pelo sistema para grupos específicos de
alunos.
Em termos de trabalhos futuros e complementares ao desenvolvido nesta tese, em primeiro
lugar, seria relevante destacar a necessidade de utilização dessas técnicas de MDE em um
processo que envolva outros fatores não puramente acadêmicos. No processo aplicado aos
dois cursos, foram considerados apenas atributos relativos ao desempenho acadêmico dos
alunos. Para uma solução mais ampla, seria necessário promover a integração de dados de
outras fontes, como dados financeiros, por exemplo. Afinal os alunos não abandonam um
curso, exclusivamente, em função de problemas acadêmicos, questões financeiras - nas IES
privadas - são justificativas para trancamento de cursos bastantes presentes.
Em segundo lugar, é preciso dar atenção aos fóruns de discussão. Nesta tese foi realizada
uma análise superficial dos quatro fóruns de discussão. Contudo, dado o volume de texto
presente em fóruns com milhares de participações de alunos, seria importante como trabalho
futuro, aplicar mineração de textos para uma análise qualitativa, com o objetivo de identificar
informações úteis e implícitas que, normalmente, não poderiam ser recuperadas com métodos
tradicionais.
134
6 REFERÊNCIAS BIBLIOGRÁFICAS
ALRAIMI, K. M.; ZO, H.; CIGANEK, A. P. Understanding the MOOCs continuance:
The role of openness and reputation. Computers & Education, v.80,. 28-38. 2015
ANDERSON, T.; MCGREAL, R. Disruptive Pedagogies and Technologies in
Universities. Educational Technology & Society, v.15, n. 4,. 380-389, 2012.
APARICIO, M.; BACAO, F.; OLIVEIRA, T. MOOC's business models: turning black
swans into gray swans. Proceedings of the International Conference on Information Systems
and Design of Communication. Lisboa: ACM - Association for Computing Machinery. p. 45-
49, 2014.
ARIMOTO, M. M. B.; BARBOSA, E. F. Recursos Educacionais Abertos: Aspectos de
desenvolvimento no cenario brasileiro. Computação Brasil - Revista da SBC, v. 2, n. 12, p.
17-21, 2014.
ATENAS, J. Model for democratisation of the contents hosted in MOOCs. Revista de
Universidad y Sociedad del Conocimiento, v. 12, n. 1, p. 3-14, 2015.
ATKINS, D. E.; BROWN, J. S.; HAMMOND, A. L. A review of the open educational
resources (OER) movement: Achievements, challenges, and new opportunities. Menlo
Park, CA, p. 1-84. 2007.
BAKER, R. S. J. D. et al. Panel: educational data mining meets learning analytics.
In: Proceedings Of International Conference On Learning Analytics & Knowledge. 2012.
BAKER, R. S. J.; ISOTANI, S.; DE CARVALHO, A. M. J. B. Mineração de dados
educacionais: oportunidades para o Brasil. Revista Brasileira de Informática na Educação,
v.19, n. 2, p. 1-12, 2011.
BATES, A. W. Educar na Era Digital: design, ensino e aprendizagem. São Paulo:
Artesanato Educacional / ABED, 2016.
BATURAY, M. H. An overview of the world of MOOCs. Procedia - Social and Behavioral
Sciences, v. 174, p. 427-433, 2015.
BENLAMRI, R.; KLETT, R. Emerging trends for open access learning. Research and
Practice in Technology Enhanced Learning, v. 10, n. 1, p. 1-7, 2015.
BURGE, J. Insights into teaching and learning: Reflections on MOOC experiences.
In: Proceedings of the 46th ACM Technical Symposium on Computer Science Education.
ACM, p. 600-603, 2015.
CABERO ALMENARA, J.; LLORENTE CEJUDO, M. D. C.; VÁZQUEZ MARTÍNEZ, A.
I. Las tipologías de MOOC: su diseño e implicaciones educativas. Revista de curriculum y
formación del profesorado, v. 18, n. 1, p. 13-26, 2014.
135
CAMPAGNI, R. et al. Data mining models for student careers. Expert Systems with
Applications, v.42, n.13, p. 5508-5521, 2015.
CHATTI, M. A. et al. A reference model for learning analytics. International Journal of
Technology Enhanced Learning, v. 4, n. 5-6, 2012. 318-331.
CHAUHAN, A. Massive open online courses (MOOCS): Emerging trends in assessment
and accreditation. Digital Education Review, v.25, 2014. 7-17.
CLOW, D. The learning analytics cycle: closing the loop effectively. In Proceedings of the
2nd international conference on learning analytics and knowledge. Vancouver - Canadá:
ACM.. p. 134-138, 2012.
COFFRIN, C. et al. Visuzalizing patterns of student engagement and performance in
MOOCs. Proceedings - LAK2014 - Learning Analytics and Knowledge. Indianapolis, USA:
2014.
COMBÉFIS, S.; BIBAL, A.; VAN ROY, P. Recasting a Traditional Course into a MOOC
by Means of a SPOC. In: Proceedings of the European MOOCs Stakeholders Summit.
Lausanne (Switzerland),. p. 205-208, 2014.
COOPER, S.; SAHAMI, M. Reflections on Stanford’s MOOCs. New possibilities in
online education create new challenges. Communications of the ACM, v. 56, n. 2, p. 28-30,
2013. ISSN DOI:10.1145/2408776.2408767.
COSTA, E.; BAKER, R.S.J.; AMORIM, L.; MAGALHÃES, J.; MARINHO, T. Mineração
de Dados Educacionais: Conceitos, Técnicas, Ferramentas e Aplicações. Jornada de
Atualização em Informática na Educação, v. 1, n. 1, p. 1-29, 2013.
COURSERA. Coursera, 2016. Disponivel em: <https://pt.coursera.org/>. Acesso em: 10 fev.
2016.
DALSGAARD, C.; K., T. Dimensions of Openness: Beyond the Course as an Open
Format in Online Education. The International Review of Research in Open and
Distributed Learning, v.6, n. 16, 2015.
DANIEL, J. Making Sense of MOOCs: musing in a maze of myth, paradox and
possibility. Journal of Interactive Media in Education, v. 2012, n.13, p. 1-20, 2012.
DILLENBOURG, P. et al. Massive Open Online Courses: Current state and
perspectives. Dagstuhl Perspectives Workshop 14112, v.4, n.1, p. 1-27, 2014.
DE CASTRO, L. N.; FERRARI, D. G. Introdução à Mineração de Dados. São Paulo:
Saraiva, 2016.
DEJAEGER, K. et al. Gaining insight into student satisfaction using comprehensible
data mining techniques. European Journal of Operational Research, v. 218, n. 2, p. 548-562,
2012.
136
ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. 6a. ed. São Paulo: Pearson
Addison Wesley, 2011.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The KDD process for extracting
useful knowledge from volumes of data. Communications of the ACM, v.39, n. 11, p. 27-
34, 1996.
FERREIRA, S. A.; ANDRADE, A. Academic analytics: Mapeando o genoma da
Universidade. VAEP-RITA, v.1, n.3, p. 167-174, 2013.
FERGUSON, R.; CLOW, D. Examining engagement: analysing learner subpopulations
in massive open online courses (MOOCs). In: Proceedings of the Fifth International
Conference on Learning Analytics And Knowledge. Poughkeepsie, NY: ACM - Association
for Computing Machinery, p. 51-58, 2015.
FILVÀ, D. A.; GUERRERO, M. J. C.; FORMENT, M. A. The effects of massiveness on
the participation in social technologies: a MOOC in secondary education. In Proceedings
of the Second International Conference on Technological Ecosystems for Enhancing
Multiculturality. [S.l.]: ACM, p. 397-402, 2014.
FINI, A. The Technological Dimension of a Massive Open Online Course: The Case of
the CCK08 Course Tools. International Review of Research in Open and Distance Learning,
v.10, n.5, 2009.
FINKLE, T. A.; MASTERS, E. Do MOOCs pose a threat to higher education? Research
in Higher Education Journal, v.26, p. 1-10, 2014
FOX, A. From MOOCs to SPOCs. Communications of the ACM, v. 56, n. 12, p. 38-40,
2013.
GENÉ, O. B.; NUNES, M. M.; BLANCO, A. F. Gamification in MOOC: Challenges,
Oportunities and Proposal for Advancing MOOC Model. TEEM 2014 - Proceedings of
the Second International Conference on Technological Ecosystem for Enhancing
Multiculturality (ACM). Salamanca, Espanha, p. 215-220, 2014.
GERREIRO, D. S. MOOCs: Introdução à discussão. Computação Brasil - Revista da SBC,
p. 30-36, 2013.
GOLDSCHMIDT, R.; PASSOS, E; BEZERRA, E. Data mining: conceitos, técnicas,
algoritmos, orientações e aplicações. Rio de Janeiro: Elsevier, 2015.
GONÇALVES, V.; GONÇALVES, B. M. F. Avaliação de plataformas para criação e
distribuição de MOOC para a formação contínua de professores. International
Conference on Innovation Documentation and Teaching Technologies. Valência, Espanha:
Universidad Politecnica de Valencia. p. 1-11, 2015.
HALL, M. et al. The WEKA data mining software: an update. ACM SIGKDD
explorations newsletter, v.11, n. 1, p.10-18, 2009.
137
HAN, J.; PEI, J.; KAMBER, M. Data mining: concepts and techniques. Waltham, MA:
Elsevier, 2011.
HEW, K. F.; CHEUNG, W. S. Students and Instructors use of massive open online
courses (MOOCs): motivations and challenges. Educacional Research Review, v.12, p. 45-
58, 2014.
HOOD, N.; LITLEJOHN, A.; MILLIGAN, C. Context counts: How learners context
influence learning in a MOOC. Computers & Education, v. 91, p. 83-91, 2015.
HYMAN, P. In the Year of Disruptive Education. Communications of the ACM, v. 55, n.
12, p. 20-22, 2012.
JACOBY, J. The disruptive potential of the Massive Open Online Course: A literature
review. Journal of Open, Flexible and Distance Learning, v.18, p. 73-85, 2014.
JORDAN, K. Initial Trends in Enrolment and Completion of Massive Open Online
Courses. The International Review of Research in Open and Distance Learning, v.15, n.1, p.
133-160, 2014.
JORDAN, K. Massive Open Online Course Completion Rates Revisited: Assessment,
Length and Attrition. The International Review of Research in Open and Distributed
Learning, v.16, n. 3, 2015.
KAMPFF, A. J. C. Mineração de dados educacionais para geração de alertas em
ambientes virtuais de aprendizagem como apoio à prática docente. Tese de Doutorado -
UFRGS, 2009.
KAPLAN, A. M.; HAENLEIN, M. Higher education and the digital revolution: about
MOOCs, SPOCs, social media, and the cookie monster. Business Horizons, n. 59, p. 441-
450, 2016.
KAY, J. et al. MOOCs: So many learners, so much potential. IEEE Intelligent Systems, v.
52, n. 1, p. 49-67, 2013.
KENNEDY, J. Characteristics of Massive Open Online Courses (MOOCs): A research
review, 2009-2012. Journal of Interactive Online Learning, v.13, n.1, p. 1-16, 2014.
KESIM, M.; ALTINPULLUK, H. A theoretical analysis of MOOCs types from a
perspective of learning theories. Procedia-Social and Behavioral Sciences, v. 186, p. 15-19,
2015.
LAUDON, K.; LAUDON, J. Sistemas de Informações Gerenciais. 9ª. ed. São Paulo:
Pearson - Prentice Hall, 2010.
LIÑÁN, L. C.; PÉREZ, A. A. J. Educational Data Mining and Learning Analytics:
differences, similarities, and time evolution. Revista de Universidad y Sociedad del
Conocimiento, v.12, n. 3, p. 98-112, 2015.
138
LITTLE, G. Massively Open? The Journal of Academic Librarianship, v. 39, p.308-309,
2013.
LIYANAGUNAWARDENA, T. R. et al. Developing government policies for distance
education: Lessons learnt from two Sri Lankan Case Studies. International Review of
Educational, v. 60, n.6, p. 1-19, 2014.
MANHÃES, L. M. B. Predição do desempenho acadêmico de graduandos utilizando
mineração de dados educacionais. Tese de doutorado - Universidade Federal do Rio de
Janeiro, 2015.
MARTINS, R. A. Abordagens Quantitativa e Qualitativa. In: CAUCHICK, M. P. A.
Metodologia de pesquisa para engenharia de produção e gestão. Rio de Janeiro: Elsevier,
Abepro, 2012.
MIT. Massachussets Institute of Technology - MIT. MIT OPENCOURSEWARE, 2016.
Disponivel em: <http://ocw.mit.edu/about/our-history/>.
MUÑOZ-MERINO, P. J. et al. Precise Effectiveness Strategy for Analyzing the
Effectiveness of Students. Computer in Human Behavior, v.47, p. 108-118, 2015.
NANFITO, M. MOOCs: Opportunities, impacts, and challenges: massive open online
courses in colleges and universities. Createspace - Amazon, 2014.
NATEK, S.; ZWILLING, M. Student data mining solution–knowledge management
system related. Expert Systems with Applications, v.41, n.14, p. 6400-6407, 2014.
NAWROT, I.; DOUCET, A. Building engagement for MOOC students: introducing
support for time management on online learning platforms. In Proceedings of the
companion publication of the 23rd international conference on World wide web companion.
Seoul, Korea: ACM., p. 1077-1082, 2014.
OLMOS, M. M.; CORRIN, L. Learning analytics: A case study of the process of design of
visualizations. Journal of Asynchronous Learning Network, v.16, n. 3, p.39-49, 2012.
ONG, B. S.; GRIGORYAN, A. MOOCs and Universities: Competitors or Partners?
International Journal of Information and Education Technology, v. 5, n. 5, p. 373-376, 2014.
OPEN EDUCATION EUROPA. (2015). European MOOCs Scoreboard. Acesso em 23 de
setembro de 2015, disponível em The European MOOCs Scoreboard:
http://openeducationeuropa.eu/sites/default/files/images/scoreboard/Scoreboard_SEPTEMBE
R_2015.png
PAPPANO, L. The Year of the MOOC. The New York times, v. 2, n. 12, 2012.
PARDO, A.; KLOOS, C. D. Stepping out of the box: towards analytics outside the
learning management system. In Proceedings of the 1st International Conference on
Learning Analytics and Knowledge. Banff, Canada: ACM., p. 163-167, 2011.
139
PIEDRA, N. et al. Seeking Open Educational Resources to Compose Massive Open
Online Courses in Engineering Education An Approach based on Linked Open Data.
Journal of Universal Computer Science, v. 21, n. 5, p. 679-711, 2015.
POMEROL, J. C.; EPELBOIN, Y.; THORY, C. MOOCs: Design, Use and Business
Models. New Jersey: John Wiley & Sons, 2015.
PRODANOV, C. C.; FREITAS, E. C. Metodologia do Trabalho Científico: Métodos e
Técnicas da Pesquisa e do Trabalho Acadêmico. 2ª. ed. Novo Hamburgo - RS: Editora
Feevale, 2013.
RAPIDMINER Studio, 2016. Disponivel em: <https://rapidminer.com/>.
RIFKIN, J. Sociedade com custo marginal zero. São Paulo: M. Books, 2016.
RODRIGUES, R. L. et al. A literatura brasileira sobre mineração de dados educacionais.
In: Anais dos Workshops do Congresso Brasileiro de Informática na Educação, p. 621, 2014.
RODRIGUEZ, O. MOOCs and the AI-Stanford like courses: Two successful and distinct
course formats for Massive Open Online Courses. The European Journal of Open Distance
and E-Learning, v.15, n.2, p. 1-13, 2012.
ROMERO, C.; VENTURA, S. Educational Data Mining: A Review of the state of the art.
IEEE Transactions Systems, Man, and Cybernetics, Part C: Applications and Reviews. v. 40,
n. 6, p. 601-618, 2010.
ROMERO, C.; VENTURA, S. Data mining in education. Wiley Interdisciplinary Reviews:
Data Mining and Knowledge Discovery, v. 3, n. 1, p. 12-27, 2013.
SAADATMAND, M.; KUMPULAINEN, K. Participants Perceptions of Learning and
Networking in Connectivism MOOCs. MERLOT Journal Online Learning and Teatching,
v. 10, n.1, p. 16-30, 2014.
SA'DON, N. F.; ALIAS, R. A.; OHSHIMA, R. Nascent research trends in MOOCs in
higher educational institutions: A systematic literature review. In Web and Open Access
to Learning (ICWOAL). On IEEE., p. 1-4, 2014.
SANCHEZ-GORDON, S.; LUJÁN-MORA, S. MOOCs gone wild. Proceedings of
INTED2014 Conference, pp. 1449-1458, Valencia, Espanha, 2014.
SANDEEN, C. Integrating MOOCs into Traditional Higher Education: The emerging
"MOOC 3.0" Era. The Magazine of Higher Learning, v. 45, n. 6, p. 34-39, 2013..
SANTANA, B.; ROSSINI, C.; PRETTO, N. D. L. Recursos Educacionais Abertos:
praticas colaborativas e políticas públicas.. 1ª. ed. São Paulo/Salvador: Edufba; Casa da
Cultura Digital, 2012.
140
SANTOS, F. D. Descoberta do desânimo de alunos em ambientes virtuais de ensino e
aprendizagem: um modelo a partir da mineração de dados educacionais.. Tese de
Doutorado - UFRGS, 2016.
SCORTEGAGNA, L.; DA SILVEIRA, L. Massive Open Online Course (MOOC) na
Educação Matemática: Possibilidades. XXV Seminário de Investigação em Educação
Matemática, (pp. 449-452). Braga - Portugal, 2014.
SHAH, D. By The Numbers: MOOCS in 2015. Class Central, 2016. Disponivel em:
<https://www.class-central.com/report/moocs-2015-stats/>. Acesso em: 26 setembro 2016.
SIEMENS, G. MOOCs are really a platform. Elearnspace, 2012. Disponivel em:
<http://www.elearnspace.org/blog/2012/07/25/moocs-are-really-a-platform/>. Acesso em: 12
junho 2015.
SIEMENS, G.; LONG, P. Penetrating the Fog: Analytics in Learning and Education.
Educase Review, v.46, n. 5, p. 30-40, 2011.
SILVA, L. A.; PERES, S. M.; BOSCARIOLI, C. Introdução à Mineração de Dados. Com
aplicações em R. Rio de Janeiro: Elsevier, 2016.
SINGH, S.; KUMAR, V. Classification of student’s data using data mining techniques
for training & placement department in technical education. International Journal of
Computer Science and Network, v. 1, n. 4, p. 121-126, 2012.
SMITH, V. C.; LANGE, A.; HUSTON, D. R. Predictive Modeling to Forecast Student
Outcomes and Drive Effective Interventions in Online Community College Courses.
Journal of Asynchronous Learning Networks, v.16, n. 3,. p.51-67, 2012.
STAIR, R. M.; REYNOLDS, G. W. Princípios de Sistemas de Informação. 11ª. ed. São
Paulo: Cengage Learning, 2015.
TANEJA, S.; GOEL, A. MOOC Providers and their Strategies. International Journal of
Computer Science and Mobile Computing, v. 3, n. 5, p. 222-228, 2014.
TURRIONI, J. B.; MELLO, C. H. P. Pesquisa-ação na Engenharia de Produção. In:
CAUCHICK, M. P. A. Metodologia de pesquisa para engenharia de produção e gestão de
operações. Rio de Janeiro: Elsevier, Abepro, 2012.
TUTEJA, G. S. Need in Management Education. International Journal of Innovative
Research and Development, v.3, n. 11, p. 183-188. 2014.
VARDI, M. Y. Will MOOCs destroy academia? Communications of the ACM, v. 55, n. 11,
p. 5, 2012.
VEDUCA. Veduca Pra Você, 2017. Disponivel em: <https://veduca.org/>. Acesso em: 10
mar. 2017.
141
WEILAND, S. Open Educational Resources: American Ideals, Global Questions. Global
Education Review, v. 2, n. 3, p. 4-22, 2015.
WELSH, D. H. B.; DRAGUSIN, M. The New Generation of Massive Open Online Course
(MOOCS) and Entrepreneurship Education. Small Business Institute Journal, v. 9, n. 1, p.
51-65, 2013.
WILEY, D. A.. The access compromise and the 5th R. Acesso em: 27 de abril de 2016,
disponível em: http://opencontent.org/blog/archives/3221, 2014.
WILKOWSKI, J.; DEUTSCH, A.; RUSSELL, D. M. Student Skill and Goal Achievement
in the Mapping with Google MOOC. L@S 2014 - Student Skills and Behavior. Atlanta,
Georgia, USA.: ACM.. p. 3-10, 2014.
WULF. J. et al. Massive Open Online Courses. Business Information System &
Engineering, v. 6, n. 2, p. 111-114, 2014.
XING, W. et al. Temporal predication of dropouts in MOOCs: Reaching the lowhanging
fruit through stacking generalization. Computers in Human Behavior, v. 58, p. 119-129,
2016.
YEAGER, C.; HURLEY-DASGUPTA, B.; BLISS, C. A. cMOOCs and Global Learning:
An Authentic Alternative. Journal of Asynchronous Learning Networks, v.17, n. 2, p. 133-
147, 2013.
YOU, J. W. Identifying significant indicators using LMS data to predict course
achievement in online learning. The Internet and Higher Education, v.29, p. 23-30, 2016.
YOUSEF, A. M. F. et al. MOOCs. A Review of the State-of-the-Art. CSEDU 2014-6th
International Conference on Computer Supported Education, p. 9-20, 2014.
YUAN, L; POWELL, S. MOOCs and open education: Implications for higher education.
A White Paper. JISC Cetis, 2013. Disponível em: http://publications.cetis.org.uk/2013/667.
Acesso em: 13 de março de 2016.
YUAN, L; POWELL, S. Partnership Model for Entrepreneurial Innovation in Open
Online Learning. eLearning Papers, n.41, 2015.
ZHANG, M. et al. Educational Evaluation in the PKU SPOC Course "Data Structures
and Algorithms. In Proceedings of the Second (2015) ACM Conference on Learning@
Scale. Vancouver, Canadá: ACM - Association for Computing Machinary., p. 237-240, 2015.
ZUTSHI, S.; O´HRE, S.; RODAFINOS, A. Experiences in MOOCs: The Perspective of
Students. American Journal of Distance Education, v.27, n.4, p.218-227, 2013.