Modelo predictivo para el rendimiento académico en la asignatura de matemáticas
Cargando...
Fecha
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Fundación Universitaria Los Libertadores. Sede Bogotá.
Resumen
The purpose of this article was to apply Machine Learning algorithms to classify the
achievement in mathematics of secondary school students in Ecuador, which allowed
determining the attributes of the studied database that best contribute when proposing a
predictive model. Three modles were developed to identify the presence of behavior patterns
such as passing or non-passing achievement, analyzing numerical variables such as grades in
exams for other subjects or for admission to higher eduaction, and categories such as
financing of the institution, student ethnicity, sex between other. The applied methodology
refers to 7 of the 8 steps used in data science proposed by SUNK With the support of the
Python library sklearn, the generation of the models was proposed. As a result of the work,
the best model corresponding to a random forest was selected with 92% in precision,
accuracy in addition to having 98% in memory or Recovery and an Accuracy of 97%. They
identified attributes to the model mentioned as: higher education entrance exam grade,
undergraduate exam and achievement grades in linguistic, scientific and social studies
domain. Additionally, it was possible to improve the balance in the database by making a cut
with the score of 8 and consequently a better interpretation of the results
Descripción
El presente artículo tuvo la finalidad de aplicar algoritmos de Aprendizaje Automático para
lograr clasificar el aprovechamiento en matemática de los estudiantes de secundaria en el
Ecuador, lo que permitió determinar los atributos de la base de datos estudiada que mejor
contribuyen a la hora de proponer un modelo predictivo. Se elaboro tres modelos para
identificar la presencia de patrones de comportamiento como aprovechamiento aprobatorio o
no aprobatorio, analizando variables numericas como notas en examenes de otras asignaturas
o de ingreso a la educacion superior y categoricas como financiamiento de lai nstitucion,
etnia del estudiantes, sexo entre otras. La metodología aplicada se refiere a 7 de los 8 pasos
usados en ciencia de datos propuestos por SUNK. Con el apoyo de la librería de Python,
Sklearn, se propuso la generación de los modelos. Como resultado de este trabajo se
seleccionó el mejor modelo mismo que corresponde a un bosque aleatorio (Random Forest)
con un 92% de Precisión además de tener un 98% de Memoria o Recuperación y un
Accuracy de 97%, por otra parte, se identificaron atributos que mejor contribuyen al modelo
mencionado como:nota examen de ingreso a educación superior, examen de grado y notas de
aprovechamiento en dominio lingüístico, científico y estudios sociales. Adicionalmente, se
logró mejorar el balanceo en la base de datos haciendo un corte con la nota de 8 y en
consecuencia una mejor interpretación de los resultados.