Zona gris, un experimento para entrenar un modelo de clasificación a partir de valores extremos.
dc.contributor.advisor | González Veloza, José John Fredy | |
dc.contributor.author | Enriquez Sanchez, Dany Alexander | |
dc.coverage.spatial | Bogotá, D.C. - Colombia | spa |
dc.creator.email | daenriquezs@libertadores.edu.co | spa |
dc.date.accessioned | 2023-11-09T20:07:16Z | |
dc.date.available | 2023-11-09T20:07:16Z | |
dc.date.created | 2023-09-15 | |
dc.description | En Machine Learning, a menudo convertimos problemas de regresión supervisada en problemas de clasificación dicotómica según la definición de la variable objetivo, lo que simplifica la toma de decisiones. Nuestra hipótesis en este trabajo es que entrenar un modelo de clasificación dicotómica usando solo los valores extremos de la variable objetivo, descartando el resto (zona gris), produce mejores resultados que utilizar todos los datos de la población de desarrollo en la fase de entrenamiento. Esto podría beneficiar a investigadores y profesionales en términos de tiempo, ahorro de recursos computacionales y posiblemente un mejor rendimiento en la fase de entrenamiento. Además, esta investigación puede servir como un primer paso para comprender mejor la influencia de los valores extremos en el entrenamiento de modelos de clasificación y abrir un nuevo campo de estudio. Para evaluar esta hipótesis, utilizamos una base de datos de los resultados de las pruebas saber pro del año 2019 del Ministerio de Tecnologías de la Información y las Comunicaciones "Datos Abiertos". Realizamos dos pruebas de entrenamiento de modelos: un esquema simétrico que equilibra los valores de clasificación 0 y 1 y un esquema asimétrico que desequilibra estos valores. Los mejores resultados se obtuvieron al entrenar el modelo en la franja del 0% al 30% de la zona gris utilizando un esquema asimétrico. Sin embargo, no se observaron resultados significativos que respaldaron la hipótesis. | spa |
dc.description.abstract | In Machine Learning, we often convert supervised regression problems into dichotomous classification problems based on the definition of the target variable, which simplifies decision making. Our hypothesis in this work is that Training a dichotomous classification model using only the extreme values of the target variable, discarding the rest (gray zone), produces better results than using all the data from the development population in the training phase. This could benefit researchers and practitioners in terms of time, savings in computational resources, and possibly better performance in the training phase. Furthermore, this research can serve as a first step to better understand the influence of extreme values on training classification models and open a new field of study. To evaluate this hypothesis, we use a database of the results of the saber pro tests from the year 2019 of the Ministry of Information and Communications Technologies "Open Data". We perform two model training tests: a symmetric scheme that balances the classification values 0 and 1 and an asymmetric scheme that imbalances these values. The best results were obtained when training the model in the range from 0% to 30% of the gray zone using an asymmetric scheme. However, no significant results were observed that supported the hypothesis. | spa |
dc.format | spa | |
dc.identifier.uri | http://hdl.handle.net/11371/6412 | |
dc.publisher | Fundación Universitaria Los Libertadores. Sede Bogotá. | spa |
dc.rights.accessrights | OpenAccess | spa |
dc.subject.lemb | Aprendizaje automático | |
dc.subject.lemb | Machine learning | spa |
dc.subject.lemb | Base de datos - Administración | spa |
dc.subject.lemb | Compresión de datos | spa |
dc.subject.proposal | Zona gris | spa |
dc.subject.proposal | Segmentación simétrica | spa |
dc.subject.proposal | Segmentación Asimétrica | spa |
dc.subject.proposal | Segmentación variable objetivo | spa |
dc.subject.subjectenglish | Gray zone | spa |
dc.subject.subjectenglish | Symmetric segmentation | spa |
dc.subject.subjectenglish | Asymmetric Segmentation | spa |
dc.subject.subjectenglish | Target variable segmentation | spa |
dc.title | Zona gris, un experimento para entrenar un modelo de clasificación a partir de valores extremos. | spa |
dc.title.titleenglish | Gray zone, an experiment to train a classification model from extreme values. | spa |