Zona gris, un experimento para entrenar un modelo de clasificación a partir de valores extremos.

dc.contributor.advisorGonzález Veloza, José John Fredy
dc.contributor.authorEnriquez Sanchez, Dany Alexander
dc.coverage.spatialBogotá, D.C. - Colombiaspa
dc.creator.emaildaenriquezs@libertadores.edu.cospa
dc.date.accessioned2023-11-09T20:07:16Z
dc.date.available2023-11-09T20:07:16Z
dc.date.created2023-09-15
dc.descriptionEn Machine Learning, a menudo convertimos problemas de regresión supervisada en problemas de clasificación dicotómica según la definición de la variable objetivo, lo que simplifica la toma de decisiones. Nuestra hipótesis en este trabajo es que entrenar un modelo de clasificación dicotómica usando solo los valores extremos de la variable objetivo, descartando el resto (zona gris), produce mejores resultados que utilizar todos los datos de la población de desarrollo en la fase de entrenamiento. Esto podría beneficiar a investigadores y profesionales en términos de tiempo, ahorro de recursos computacionales y posiblemente un mejor rendimiento en la fase de entrenamiento. Además, esta investigación puede servir como un primer paso para comprender mejor la influencia de los valores extremos en el entrenamiento de modelos de clasificación y abrir un nuevo campo de estudio. Para evaluar esta hipótesis, utilizamos una base de datos de los resultados de las pruebas saber pro del año 2019 del Ministerio de Tecnologías de la Información y las Comunicaciones "Datos Abiertos". Realizamos dos pruebas de entrenamiento de modelos: un esquema simétrico que equilibra los valores de clasificación 0 y 1 y un esquema asimétrico que desequilibra estos valores. Los mejores resultados se obtuvieron al entrenar el modelo en la franja del 0% al 30% de la zona gris utilizando un esquema asimétrico. Sin embargo, no se observaron resultados significativos que respaldaron la hipótesis.spa
dc.description.abstractIn Machine Learning, we often convert supervised regression problems into dichotomous classification problems based on the definition of the target variable, which simplifies decision making. Our hypothesis in this work is that Training a dichotomous classification model using only the extreme values ​​of the target variable, discarding the rest (gray zone), produces better results than using all the data from the development population in the training phase. This could benefit researchers and practitioners in terms of time, savings in computational resources, and possibly better performance in the training phase. Furthermore, this research can serve as a first step to better understand the influence of extreme values ​​on training classification models and open a new field of study. To evaluate this hypothesis, we use a database of the results of the saber pro tests from the year 2019 of the Ministry of Information and Communications Technologies "Open Data". We perform two model training tests: a symmetric scheme that balances the classification values ​​0 and 1 and an asymmetric scheme that imbalances these values. The best results were obtained when training the model in the range from 0% to 30% of the gray zone using an asymmetric scheme. However, no significant results were observed that supported the hypothesis.spa
dc.formatPDFspa
dc.identifier.urihttp://hdl.handle.net/11371/6412
dc.publisherFundación Universitaria Los Libertadores. Sede Bogotá.spa
dc.rights.accessrightsOpenAccessspa
dc.subject.lembAprendizaje automático
dc.subject.lembMachine learningspa
dc.subject.lembBase de datos - Administraciónspa
dc.subject.lembCompresión de datosspa
dc.subject.proposalZona grisspa
dc.subject.proposalSegmentación simétricaspa
dc.subject.proposalSegmentación Asimétricaspa
dc.subject.proposalSegmentación variable objetivospa
dc.subject.subjectenglishGray zonespa
dc.subject.subjectenglishSymmetric segmentationspa
dc.subject.subjectenglishAsymmetric Segmentationspa
dc.subject.subjectenglishTarget variable segmentationspa
dc.titleZona gris, un experimento para entrenar un modelo de clasificación a partir de valores extremos.spa
dc.title.titleenglishGray zone, an experiment to train a classification model from extreme values.spa
Archivos