Análisis de cociente triádico para procesos de admisión de estudiantes en la fundación Insutec...
-
Upload
jmrson3167 -
Category
Documents
-
view
221 -
download
0
Transcript of Análisis de cociente triádico para procesos de admisión de estudiantes en la fundación Insutec...
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
1/19
Anlisis de cociente tridico paraprocesos de admisin de estudiantesen la fundacin Insutec medianteminera de datos
Triadic ratio analysis for student admission processes in thefoundation Insutec through data mining
John Petearson Anzola Anzola*
Fecha de recepcin: octubre 1 de 2010
Fecha de aceptacin: noviembre 9 de 2010
Resumen
Actualmente, el proceso de admisin en las instituciones de educacin superior anivel nacional e internacional se ha convertido en un factor de-terminante. La seleccin de un programa profesional a travsde las diferentes ofertas y demandas de formacin representa,
a menudo, un problema en el momento de elegir una carreraprofesional. As mismo, dentro del proceso de aprendizaje in-terferen mltiples variables externas que pueden conducir a lano culminacin de una carrera profesional.
El cociente tridico es una herramienta de caracterizacin deindividuos cuyo fn es analizar las variables internas del ser, lascualesal combinarse con las externasmodelan un ambien-te incierto y especulativo frente al comportamiento de los sereshumanos en el proceso de seleccin y admisin de una carreraprofesional. Es justo en este punto donde converge la minerade datos, un conjunto de tecnologas que permite descubrir einferir conocimiento a partir de diferentes tcnicas.
Palabras clave: Cociente Mental Tradico, minera de datos,caracterizacin, agrupacin de datos, Weka.
* Aspirante a Magister en Ciencias de la Informacin y Comunicacin de la Universidad Distrital Francisco Jos deCaldas. Docente investigador de la Fundacin Universitaria Los Libertadores. Miembro del grupo de investigacinIdeas de la Universidad Distrital. Correo electrnico: [email protected]
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
2/19
ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS
44
I + D I N V E S T I G A C I N Y D E S A R R O L L O
Abstract
Currently, the process of admission to higher educationinstitutions nationally and internationally, has become a keyfactor. Selecting a professional program through the vari-ous offers and demands of training, is often a problem when
selecting a career, interfering in the process of forming mul-tiple external variables that can lead to non-completion of acareer training in Colombia.
The striated ratio is a tool for characterization of individuals,which analyzes the internal variables of being, which com-bined with external variables, model an environment of un-certainty and speculation against the behavior of individualsin the process of selection and admission of a career. It is atthis point that converges data mining, tool in which we candiscover and infer knowledge from different techniques.
Keywords:Mental Ratio Triadic, Data Mining, characterization,Data Association, Weka.
Introduccin
Felder y Silverman [1] clasican a los estu-
diantes segn su forma de aprendizaje y de
acuerdo a un conjunto de pares dicotmi-
cos: observando y escuchando, pensando y
analizando, reexionando y actuando, razo-
nando lgica e intuitivamente, memorizan-
do y visualizando, construyendo analogas
y modelos de asociacin que, por lo gene-
ral, son matemticos. Por su parte, los estu-
diantes adoptan mtodos de enseanza que
se encuentran denidos por el estilo y la for-
macin de los docentes; es decir, algunos de
ellos leen; otros, demuestran; unos discuten
o se centran en principios y en leyes univer-
sales; muchos otros, en aplicaciones; algunos
enfatizan en la memorizacin y otros, en la
comprensin, etc. Entonces, lo que cada es-
tudiante aprenda en una clase depender de
la habilidad innata que posea, de su prepara-
cin previa y, adems, de la compatibilidad
entre su estilo de aprendizaje y el de la ense-
anza del docente [2].
Como profesor de la Facultad de Ingeniera
de la Fundacin de Educacin Superior (In-
sutec), consider de gran utilidad determinar
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
3/19
JOHNPETEARSON ANZOLAANZOLA
55
L O S
J U L I O - D I C I E M B R E D E 2 0 1 0
V O L U M E N 7 N M E R O 2
UCNV
las caractersticas del perl de aprendizaje de
los estudiantes; en funcin de ellas pueden
adecuarse las estrategias de enseanza. Bajo
esta premisa y empleando el test propuesto
por Felder y Soloman [3], fueron encuestadosochenta y nueve estudiantes de la misma fa-
cultad. As mismo, con el n de descubrir el
conocimiento implcito en las respuestas, se
sigui el proceso de descubrimiento de cono-
cimiento en bases de datos (KDD-Knowledge-
discovery in databases) y, a travs de tcnicas
de minera de datos, pudo caracterizarse un
estudiante en el proceso de admisin.
Objetivos del anlisis
Un paso previo al anlisis lo constituy la
fuente de informacin (base de datos), en
la cual se establecieron los siguientes objeti-
vos: extraccin de bsqueda de relaciones,
identicacin de modelos subyacentes en los
datos y comprensin del dominio de los mis-
mos. Lo anterior con el n de establecer una
idea clara sobre la caracterizacin de un estu-
diante en el proceso de admisin. As mismo,
antes de comenzar con el anlisis fue elegida
la plataforma de software para aprendizaje
automtico y minera de datos Weka(Waikato
EnvironmentforKnowledgeAnalysis ), la cual est
escrita en Java y fue desarrollada en la Uni-
versidad de Waikato [4].
Adems, el uso de Weka en el proceso de
anlisis de datos (KDD) permitir dirigir la
bsqueda y el renamiento de la informa-
cin mediante una interpretacin adecuada
de los resultados generados. Cabe resaltarque los anlisis efectuados no
de los datos, sino que deben ser considerados
e interpretados con detenimiento como pri-
mer paso del estudio.
El objetivo principal de este artculo es rela-
cionar los resultados obtenidos en las prue-
bas con las caractersticas o los perles de
los estudiantes en el proceso de admisin (si
bien la descripcin e informacin de la base
de datos disponible no es muy amplia y pro-
bablemente habr que adaptarse y sujetar-
se al contenido con el que se cuenta). Por suparte, las siguientes son algunas premisas
que se pueden plantear y responder como
objetivos del anlisis:
Qu caractersticas cerebrales tienen los
estudiantes de cada programa?
Existen grupos de estudiantes, no co-
nocidos de antemano, con caractersticas
similares?
Existen diferencias signicativas en los
resultados obtenidos segn las pregun-tas A0, A1, A2 y A3?
La eleccin de una carrera profesional
depende del entorno o de qu variable?
Es posible predecir la seleccin de un
programa mediante alguna variable pre-
viamente conocida?
Cules son las relaciones ms signica-
tivas entre variables?
Como se observar ms adelante, en los resul-
tados obtenidos pueden encontrarse relacio-
nes triviales, conocidas previamente o, inclu-
so, no hallarse ninguna signicativa; situacin
que sera relevante para el proceso de inter-
pretacin. A continuacin dos ejemplos poten-
ciales: a)determinar, despus de un anlisis
exhaustivo, que la clase social no condicio-
na la escogencia de una carrera profesional; y
b)que la prueba de ingreso debe considerar-
se homognea sin importar su estraticacin
social (resultados como los anteriores podraninterpretarse como conclusiones vlidas). Por
otra parte, este anlisis tiene un enfoque intro-
ductorio e ilustrativo que permite acercarse
a las tcnicas disponibles y a su misma ma-
nipulacin desde la herramienta Weka, hecho
que deja abierto para el investigador el
estudio del dominio de datos a resultados y
conclusiones ms elaborados.
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
4/19
ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS
66
I + D I N V E S T I G A C I N Y D E S A R R O L L O
Por su parte, la siguiente tabla contiene la can-tidad de estudiantes por periodo acadmico:
Periodo Nmero de estudiantes
matriculados
2008-II
2009-I
2009-II
2010-I
483
607
497
668
CT - Revelador del cociente tridico
El Test Revelador del Cociente Mental Tradi-co (Rcmt) fue diseado y validado por Wal-
demar de Gregory para diagnosticar las ma-nifestaciones del cerebro triuno (tridico).ste, a su vez, se caracteriza por poseer cier-tas manifestaciones, en el comportamientoproporcional o desproporcional, que incidenen el desempeo educativo y social del es-tudiante identifcadas mediante el uso del
Rcmt. As mismo, la aplicacin de este testpuede incidir conscientemente en el desarro-llo de las operaciones, habilidades y facul-tades mentales (en especial las relacionadas
con el pensar: crear-imaginar-sentir y concre-tar-actuar) [5].
Manifestaciones del cerebro triuno
Fuente de datos
La principal fuente de datos utilizada en estainvestigacin la constituyeron los estudiantesque presentaron los exmenes de admisinen los periodos acadmicos comprendidosdesde 2008-II hasta 2010-I. En total fueron2.255 jvenes, de ambas jornadas (diurnay nocturna), cuyas edades oscilan entre los16 y los 27 aos. As mismo, la mayor partede estos estudiantes se encuentran becados ypertenecen a estratos socioeconmicos bajos[6]. El conjunto de datos consta de 26 atribu-
tos y un total de 2.255 registros.
Anlisis estadstico de losdatos en Weka
La fgura 1 ilustra el anlisis de la clase-pe-riodo, la cual contiene cuatro atributos quese destacan grfcamente:
Tabla 1.Manifestacionesdel cerebro triuno.
CEREBRO
Izquierdo Central Derecho
Verbal,numrico,
analtico,
lgico
descompositor,
racional,
abstracto,
alerta,
vigilante,
articulador,
crtico,
investigador,visual y lineal.
Instintivo,vegetativo,
motor,
concreto,
administra-
dor, regulador,
trabajador,
profesional,
negociante,
apropiador,
planifcador,
econmico,poltico,
mercader y
ecosistmico.
Proverbial,magntico,
intuitivo,
sinttico,
reintegrador,
holstico,
emocional,
sensorial,
espacial,
espontneo,
relajado, libre,
asociativo,artstico,
contemplativo,
sonoro y
no lineal.
Figura 1.Clase-periodo acadmico.
Tabla 2.Estudiantespor periodo acadmico.
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
5/19
JOHNPETEARSON ANZOLAANZOLA
77
L O S
J U L I O - D I C I E M B R E D E 2 0 1 0
V O L U M E N 7 N M E R O 2
UCNV
En seguida es expuesta la cantidad de es-
tudiantes durante los cuatro periodos de
observacin:
Sexo Cantidad
Masculino
Femenino
1152
1103
La fgura 3, que expone el anlisis de la clase-
estrato, contiene tres atributos:
Entre tanto, la fgura 2 ilustra el anlisis de la
clase-sexo:
Estrato Cantidad
1
2
3
739
754
762
A continuacin se ilustra el anlisis de la clase-
edad, el cual se caracteriza por ser una variablede tipo entero:
Figura 2.Clase-sexo.
Tabla 3.Cantidad de hombres y
mujeres durante los cuatro periodos.
Tabla 4.Estratos de la totalidad
de la poblacin de muestra.
Figura 3.Clase-estrato
Figura 4.Clase-edad.
As mismo, la siguiente tabla evidencia la
cantidad total de estudiantes, durante
los cuatro periodos, acorde a su estrato
socioeconmico:
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
6/19
ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS
88
I + D I N V E S T I G A C I N Y D E S A R R O L L O
La tabla 6 contiene los datos estadsticos de
la clase jornada:
N Jornada Cantidad
1
2
Diurna
Nocturna
1124
1131
En la siguiente fgura se ilustra el anlisis de
la clase-programa, una variable categrica
cuya distribucin se observa a continuacin:
En la siguiente tabla pueden observarse los
datos estadsticos de la clase-edad, desta-
cando que fueron tomados de los cuatro pe-
riodos acadmicos:
Los datos estadsticos de la clase-programa
conforman la tabla 7. Cabe resaltar que se to-
maron de los cuatro periodos acadmicos:
Tabla 5.Datos estadsticos
de la clase-edad.
Tabla 6.Cantidad de
estudiantes por jornada.
Tabla 7.Cantidad deestudiantes por programa.
Edad Valor
Mnimo
Mximo
Promedio
Desviacin Estndar
16
27
21.514
3.539
La fgura 5 ilustra el anlisis de la clase-
jornada. Esta es una variable categrica:
Figura 5.Clase-Jornada.
Figura 7.Clase A0.
Figura 6.Clase-programa.
N Programa Cantidad
1
2
3
4
5
6
7
Produccin
Administracin
Seguridad
Modas
Electrnica
Sistemas
Diseo grfco
272
352
320
346
325
330
311
En la siguiente fgura se ilustra el anlisis de
la clase A0 correspondiente a la pregunta:
se encuentra trabajando actualmente?
En seguida, los datos estadsticos del cuestio-
namiento A0:
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
7/19
JOHNPETEARSON ANZOLAANZOLA
99
L O S
J U L I O - D I C I E M B R E D E 2 0 1 0
V O L U M E N 7 N M E R O 2
UCNV
N A0 Cantidad
1
2
S
NO
487
1768
Figura 8: clase A1, vive con sus padres?
Datos estadsticos de la clase A2:Tabla 8.Datos totales
de la pregunta A0. Tabla 10.Datos totalesde la pregunta A2.
Tabla 11.Datos totalesde la pregunta A3.
Tabla 9.Datos totalesde la pregunta A1.
Figura 8.Clase A1. Figura 10.Clase A3.
Figura 9.Clase A2.
Datos estadsticos de la clase A1:
N A1 Cantidad
1
2
S
NO
2109
146
En la siguiente fgura se ilustra el anlisis de
la clase A2, el cual corresponde a la pregunta:tiene hijos?
N A2 Cantidad
1
2
S
NO
163
2092
La fgura 10 ilustra la pregunta de la clase
A3: cuntos hijos tiene? La tabla 11 exponela totalidad de los datos de la clase A3:
Estadsticas Cantidad
Mnimo
Mximo
Promedio
Des. Estndar
0
2
0.106
0.401
Aplicacin de fltros
Weka contiene fltros integrados que permi-ten realizar manipulaciones sobre los datosen dos niveles: atributos e instancias. Las ope-raciones de fltrado pueden aplicarse , de manera que cada fltro tome
como entrada el conjunto de datos resultan-te de uno anterior y guarde los resultados
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
8/19
ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS
1010
I + D I N V E S T I G A C I N Y D E S A R R O L L O
de aplicar ltros en nuevos cheros que
tambin sern de tipo Attribute-Relation File
FormatARFF para manipulaciones poste-
riores [7].
Filtros de atributos
A continuacin se indica entre todas las
posibilidades implementadas la utilizacin
de ltros para eliminar atributos, discretizar
atributos numricos y aadir nuevos atribu-
tos con expresiones segn por la frecuencia
con la que se realizan estas operaciones.
Al aplicar el ltro Remove se eliminan los
atributos correspondientes a id, epistemolo-ga, act_cientifca, clasifcaciones, comunicacin,
administracin, planeacin, pro_empresa, imp_
sobrevivencia, espiritualidad, estado_alfa, crea-
tividad y afectividad. Por tal motivo, slo se
trabajarn los atributos: p_academico, sexo,
estrato, edad, jornada, programa, A0, A1, A2,
A3, cerebro_izq, cerebro_dery cerebro_cen.
Otro ltro aplicado antes de implementar
algunos algoritmos que se detallarn pos-
teriormente es Discretize, el cual transfor-
ma los atributos numricos seleccionados
en atributos simblicos con una serie de eti-quetas que resultan tras dividir la amplitud
total del atributo en intervalos. Por ejemplo,
una vez empleado este ltro, si se dividen
los intervalos del cerebro_deren
cuatro de igual frecuencia, se obtendrn los
rangos delimitados por (29.5, 32.5, 35.5), des-
tacando cmo el 31.2 % de los estudiantes
desarrolla el cerebro izquierdo.
Visualizacin
La herramienta de visualizacin de Weka
se utiliza para representar grcas 2D que
relacionan pares de atributos. La gura 11 re-
presenta el rango del atributo cerebro_dercon
la totalidad de los estudiantes que presenta-
ron la prueba de admisin en el lapso 2008-
II 2010-I.
Figura 11.Filtro de discretizacin (4 Bins).
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
9/19
JOHNPETEARSON ANZOLAANZOLA
1111
L O S
J U L I O - D I C I E M B R E D E 2 0 1 0
V O L U M E N 7 N M E R O 2
UCNV
En la fgura 12 se observa la tendencia de
los estudiantes que desarrollaron el cerebro
derecho durante los cuatro periodos acad-
micos:
A continuacin, en la fgura 13, se compara la
tendencia de los estudiantes que desarrolla-
ron el cerebro derecho durante los cuatro
periodos acadmicos pero sin la aplicacin
del fltro de discretizacin.
Figura 12.cerebro_der Vs p_academico.
Figura 13.Cerebro_der Vs p_academico (sin discretizar).
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
10/19
ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS
1212
I + D I N V E S T I G A C I N Y D E S A R R O L L O
Luego de comparar la fgura 12 con la 13
puede apreciarse la forma en que los datos
estn dispersos por cada periodo acadmi-
co (teniendo una media en 32); mientras que
en la fgura 12 persiste la misma tendenciapero con una dispersin menos, facilitando,
as mismo, la caracterizacin de los estudian-
tes por periodo acadmico.
A continuacin se observarn algunas ten-
dencias de los atributos sin discretizar:
La fgura 14 expone la distribucin de la
edad frente al atributo del cerebro izquierdo.Al interior del grfco se destaca la pregunta
A1: vive con sus padres? Los que respondie-
ron afrmativamente son expuestos en color
azul; los que contestaron no estn en rojo.
Figura 14.edad Vs cerebro_izq.
Figura 15.cerebro_izq Vs cerebro_der.
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
11/19
JOHNPETEARSON ANZOLAANZOLA
1313
L O S
J U L I O - D I C I E M B R E D E 2 0 1 0
V O L U M E N 7 N M E R O 2
UCNV
En la gura 15 se compara la caracterizacin
de los individuos que desarrollaron el cere-
bro izquierdo y el derecho. As mismo, en
su interior estn distribuidas, en color rojo y
azul, las personas que tienen hijos.
En la gura 16 son comparadas la caracteri-
zaciones de los individuos por programa
acadmico y cerebro derecho con la distri-
bucin interna de la pregunta A0: vive con
sus padres?. Sin embargo, fue aadida la ca-
racterstica que se discretiz en tres grupos
(manteniendo la frecuencia). La mayor par-
te de los individuos se encuentran en la parte
central.
Otra etapa de ltrado consiste en la normali-
zacin, proceso en el cual se dejan todos los
trminos numricos en un rango de 0 a 1.
Entonces, el rango de valores se transforma
en un intervalo determinado (normalmente
[0,1]) y est dado por [8]:
Entre tanto, la normalizacin es necesaria
si se van a aplicar algoritmos de aprendiza-
je basados en distancias para que todos los
atributos estn en el mismo rango. Con las
variables normalizadas pueden estimarse visualmente el estado de las variables y
su distribucin. Adems, con el n de apli-
car este ltro de transformacin para usar los
datos experimentales, su lectura se interpre-
ta sectorizada y en porcentaje (de esta forma
se normalizan para eliminar los efectos de las
fuentes de sesgo). Si la normalizacin se lle-
va a cabo correctamente, el proceso no alte-
rar el contenido de los datos; simplemente
corregir las desviaciones que surgan duran-
te la de recoleccin de informacin.
Agrupamiento
Los algoritmos de agrupamiento buscan gru-
pos de instancias con caractersticas simila-
res segn un criterio de comparacin entre
valores de atributos de las instancias deni-
dos en los algoritmos.
Figura 16.P_academico Vs cerebro_der (discretizado con blins en 3).
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
12/19
ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS
1414
I + D I N V E S T I G A C I N Y D E S A R R O L L O
Agrupamiento numrico
Algoritmo K-Medias::k-means es un mtodo
de anlisis de conglomerados que apunta a
la particin de nobservaciones en kgrupos;en la que cada observacin pertenece al gru-
po ms cercano con la media. Es similar a la
expectativa de algoritmo de optimizacin de
mezclas de gaussianas porque ambos inten-
tan encontrar los centros de las agrupaciones
naturales en los datos [9].
Dado un conjunto de observaciones
, donde cada una es un d-vector
real dimensin, a continuacin, k-means tiene
por objeto dividir las n observaciones enseries K (K < N)S =(S
1, S
2, S
3, ..., S
K)con el fn
de reducir al mnimo la suma de los cuadra-
dos:
Donde es el punto medio en .
Existen dos versiones del algoritmo k-me-
dias. La primera es similar al Algoritmo EM
y se basa en dos pasos iterativos: primero,
reasigna todos los puntos a sus centros y de-
ms cercanos; y segundo, vuelve a calcularlos centroides de los nuevos grupos creados
en el anterior. El proceso contina hasta al-
canzar un criterio de parada (por ejemplo,
que no se realicen nuevas reasignaciones).
Esta versin se conoce como Algoritmo de
Forgy [10]. Por su parte, la segunda [11] rea-
signa los puntos basndose en un anlisis
ms detallado de los efectos causados sobre
la funcin del objetivo al mover un punto de
su clustera otro nuevo. Si el traslado es posi-tivo, se realiza, y en caso contrario, se queda
como est. A diferencia de los anteriores al-
goritmos (COBWEBy EM, k-medias) ste ne-
cesita la especifcacin previa del nmero de
clustersque se desean obtener. La implemen-
tacin utilizada del Algoritmo de Forgy en el
trabajo presente tambin es la ofrecida por
Wekay se aplicar a los siguientes datos:
Se va a comprobar si el atributop_academico
divide naturalmente a los alumnos en grupos
Figura 17. Algoritmo SimpleKMeans, con numCluster = 5.
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
13/19
JOHNPETEARSON ANZOLAANZOLA
1515
L O S
J U L I O - D I C I E M B R E D E 2 0 1 0
V O L U M E N 7 N M E R O 2
UCNV
Figura 18.Resultados del agrupamiento SimpleKMeans con k = 5.
similares, para lo cual se seleccionar el algo-
ritmo SimpleKMeanscon un nmero de clus-
tersigual a cinco. A continuacin, aparecern
los cinco grupos de ejemplos ms similares
y sus centroides (promedios para atributosnumricos y valores ms repetidos en cada
grupo para atributos simblicos). Por ejem-
plo, para tres de los cinco clusters, el progra-
ma ms repetido es TP.Administraciony, para
los otros dos, son TP.Seguridady TP.Diseno.
En todos los clusters, el periodo de mayor
auencia de estudiantes fue el 2010-I. El n-
mero de instancias agrupadas en cada cluster
se observa en la gura 17.
La implementacin de este algoritmo deagrupamiento permiti clasicar los progra-
mas ms relevantes y sirvi como ltro
puesto que la primera instancia que se obtu-
vo en los cinco grupos fue:
No seleccion el periodo acadmico
2009-II.
Los periodos acadmicos en los que se
agruparon mayor cantidad de hombres
fueron 2008-II y 2009-I.
El estrato socioeconmico 1 no fue rele-
vante en la agrupacin.
El grupo con mayor edad fue el 1, que
perteneci al periodo acadmico 2008-II.
Su promedio fue de 23 aos.
En la siguiente gura se describen los resulta-dos obtenidos por el algoritmo SimpleKMeans
en Weka.
En la gura 19 se encuentra ausente el perio-
do acadmico 2009-II. Por este motivo slo
aparecen cuatro grupos.
El Algoritmo Esperanza-Maximizacin (EM)
se utiliza en estadstica para encontrar estima-
dores de mxima verosimilitud de parme-
tros en modelos probabilsticos que depen-den de variables no observables. Adems,
alterna pasos de esperanza (E) donde se com-
puta la
mediante la inclusin de variables latentes
como si fueran observables; y un paso de
maximizacin (M), en el que se computan
estimadores de mxima verosimilitud de los
parmetros mediante la maximizacin de la
verosimilitud esperada de E. Los parmetros
que se encuentran en M se usan para comen-
zar el siguiente paso E. De esta forma, el pro-
ceso se repite [12].
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
14/19
ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS
1616
I + D I N V E S T I G A C I N Y D E S A R R O L L O
Implementando en Weka el algoritmo EM,
cin N = 5se puede extraer e inferir la siguien-
te informacin, que se muestra en las guras
20, 21 y 22:
La gura 21 se destaca por el Algoritmo EM
con N = 5 y una desviacin estndar de 1x10-6
Entonces, se tiene:
Figura 19.p_academico vs. periodo.
Figura 20.Algoritmo EM en Weka.
El grupo dos es el mayor. En l se encuen-
tra concentrada el 72% de la informacin.
Cuando los atributos son de tipo num-
rico, la informacin arrojada se centra
en el promedio y en la desviacin estn-
dar. Una caracterstica llamativa es que
los cinco grupos tienen una predominan-
cia del cerebro derecho; es decir, que la
caracterizacin en promedio de toda
la poblacin est desarrollada en su he-
misferio derecho.
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
15/19
JOHNPETEARSON ANZOLAANZOLA
1717
L O S
J U L I O - D I C I E M B R E D E 2 0 1 0
V O L U M E N 7 N M E R O 2
UCNV
Figura 21.Algoritmo
EM (promedios).
Figura 22.cerebro_der vs
p_academico.
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
16/19
ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS
1818
I + D I N V E S T I G A C I N Y D E S A R R O L L O
COBWEB[7] es un algoritmo de clusteringje-
rrquico que se caracteriza por utilizar apren-
dizaje incremental; en otras palabras, realiza
las agrupaciones .
As mismo, durante la ejecucin del algorit-mo se forma un rbol (de clasicacin) en
el que las hojas representan los segmentos y el
nodo-raz engloba, por completo, el conjunto
de datos de entrada.
En el inicio, el rbol consiste en un nico
nodo-raz. Luego, las instancias se van aa-
diendo una a una y el rbol empieza a ac-
tualizarse en cada paso. La actualizacin,
a su vez, consiste en encontrar el mejor si-
tio para incluir la nueva instancia, operacinque puede requerir de la reestructuracin de
todo el rbol (incluyendo la generacin
de un nuevo nodo-antrin para la instancia
y/o la fusin/particin de nodos existentes)
o simplemente la inclusin de la instancia en
un nodo existente. La clave para saber cmo
y dnde se debe actualizar el rbol la propor-
ciona una medida denominada utilidad de ca-
tegora, la cual valora la calidad general de
una particin de instancias en un segmento.
Por su parte, la reestructuracin que mayor
utilidad de categora proporciona es la adop-
tada en ese paso. El algoritmo, adems, es
muy sensible a otros dos parmetros:
Acuity: este parmetro es necesario ya que la
utilidad de categora se basa en una estima-
cin de la media y la desviacin estndar del
valor de los atributos. Sin embargo, cuando
se estima la desviacin estndar del valor deun atributo para un nodo en particular, el re-
sultado es cero (0) si dicho nodo slo contie-
ne una instancia. As pues, el parmetro acui-
tyrepresenta la medida de error de un nodo
con una sla instancia; es decir, establece la
varianza mnima de un atributo.
Cut-off: valor empleado para evitar el creci-
miento desmesurado del nmero de segmen-tos. Indica el grado de mejora que se debe
producir en la utilidad de categora para que
la instancia sea tenida en cuenta de manera
individual.
En otras palabras, cuando el incremento de
la utilidad de categora no es suciente al
aadir un nuevo nodo, ste se corta conte-
niendo la instancia de otro ya existente.
Adems, COBWEBpertenece a los mtodosde aprendizaje conceptuales o basados en
modelos. Esto signica que cada cluster, ms
que un ente formado por una coleccin de
puntos, es considerado un modelo que pue-
de describirse intrnsecamente. Al algoritmo
COBWEBno hay que proporcionarle el n-
mero exacto de clusters deseados, pues en
base a los parmetros mencionados encuen-
tra el nmero ptimo. La implementacin
utilizada en este trabajo es la adoptada por el
algoritmo implementado en Weka.
Aplicando el algoritmo de COBWEBen Weka,
con los parmetros por defecto y solamente a
los siguientes atributos:
Sexo.
Estrato.
Programa.
Cerebro_izq
Cerebro_der
Cerebro_cen
Entonces, el programa arroja los resultados
mostrados en la gura 23 y en la visualiza-
cin del rbol en la gura 24.
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
17/19
JOHNPETEARSON ANZOLAANZOLA
1919
L O S
J U L I O - D I C I E M B R E D E 2 0 1 0
V O L U M E N 7 N M E R O 2
UCNV
Figura 23.AlgoritmoCOWEB en Weka.
Figura 24.rbolAlgoritmo COWEB.
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
18/19
ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS
2020
I + D I N V E S T I G A C I N Y D E S A R R O L L O
Conclusiones
La aplicacin del proceso de KDD posibili-t determinar la existencia de un alto grado
de homogeneidad en la poblacin estudiantilpromedio que integra la Fundacin Insutec.As mismo, mediante el anlisis por cluster,se identic el estilo dominante de la pobla-cin: en el 72% predomina el uso del lbuloderecho. Este resultado se comprob apli-cando el Algoritmo EM.
Por otra parte, en este trabajo tambin seplantearon lineamientos generales para ade-cuar las pruebas de admisin y seleccin del
programa acadmico respecto al estilo domi-nante que caracteriza a la poblacin de estu-diantes. Cabe resaltar que dichos lineamien-tos debern ser particularizados dentro delmarco de cada programa acadmico.
El algoritmo COBWEB, perteneciente a lafamilia clustering jerrquico, no result ade-cuado para la segmentacin de los datos tra-bajados en este artculo; tiende a agrupara la mayora en un slo segmento, accinpoco efectiva si se pretende la mejora en laestimacin de la caracterizacin estudiantil.No obstante, EMy k-mediasalgoritmos departicionado y recolocacin ofrecen me-jores resultados que COBWEB, pues indi-can tareas de segmentacin y clasicacin
en estudiantes, ya sea por programa acad-mico, tendencia cerebral o caracterizacinsocioeconmica.
Luego de comparar EMcon k-mediaspudie-ron apreciarse varias diferencias entre sussegmentos: k-mediasagrupa en un slo clus-ter los mismos programas acadmicos queEM divide en varios; es decir, EM realizauna divisin ms especca que k-medias. En-tonces EM, siendo un algoritmo que realizaclustering probabilstico, es ms adecuado quek-mediaspara segmentar poblaciones de datos
que se distribuyen normalmente. Lo anteriorcon el n de mejorar la estimacin de los pro-medios poblacionales de cada clase.
Referencias
[1] Felder, R.M. y Silverman, L.K. (1988),Learning Styles and Teaching Styles inEngineering Education, en Engr. Edu-cation, vol. 78, nm. 7, pp. 674-681.
[2] Durn E. y Costaguta R. (2007), Mine-ra de Datos para Descubrir Estilos deAprendizaje, en Revista Iberoamericanade Educacin, VOL. NM. PP.
[3] Felder, F.M. y Soloman, B.A. (1991), In-
dex of Learning Styles.North CarolinaState University.Disponibleon-line, [enlnea], disponible en:
-
7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d
19/19
2121
L O S
J U L I O - D I C I E M B R E D E 2 0 1 0
V O L U M E N 7 N M E R O 2
UCNV
[10] Garre, M., et. al. (2007), Comparacin
de diferentes algoritmos de clustering
en la estimacin de coste en el desarro-
llo de software, en Revista Espaola de
Innovacin, Calidad e Ingeniera de Soft-ware, vol. 3, nm. 1, pp. 18854486.
[11] Duda, R. Hart, P., Pattern Classifca-
tion and Scene Analysis, Wiley & Sons,
1973.
[12] Gmez Garca, J.; PalareaAlbaladejo, J.
y Martn Fernndez, J.A. (2006). Mto-
dos de Inferencia Estadstica con datos fal-
tantes, en Estadstica espaola, vol. 48,
pp. 240 -275.