Especialización en Estadística Aplicada

URI permanente para esta colecciónhttp://hdl.handle.net/11371/46

Examinar

Envíos recientes

Mostrando 1 - 20 de 428
  • Ítem
    Evaluación De Un Modelo Predictivo De La Viscosidad En Emulsiones De Agua En Crudo (W/O) Basado En Aprendizaje Automatizado (Machine Learning): Efecto De La Distribución Del Tamaño De Gota Y El Contenido De Agua
    (2024-10) Tunarosa Rodríguez, Fabián Alexander; González Veloza, José John Fredy
    Las emulsiones de agua en crudo (W/O) pueden impactar sensiblemente la producción de un campo petrolero al incrementar costos y reducir el flujo de la producción. El efecto de la distribución del tamaño de gota (DSD) en el comportamiento reológico de una emulsión no se ha establecido claramente. Para abordar esta necesidad, el presente estudio evalúa la utilidad de un modelo predictivo basado en Machine Learning para estimar la viscosidad de emulsiones W/O, utilizando datos experimentales de DSD y contenido de agua (% vol.). Se desarrolló un modelo de red neuronal densa con hiperparámetros optimizados mediante un algoritmo genético estándar. El desempeño del modelo se evaluó mediante validación cruzada k-fold, con métricas MSE, MAE, RMSE y R². Aunque el modelo alcanzó una precisión aceptable en algunos conjuntos de muestras y en relación con modelos del ámbito de la producción de hidrocarburos, la capacidad predictiva fue limitada (MSE: 0.27, R²: 0.52) debido a una baja correlación entre DSD y viscosidad. A pesar de que el modelo no generaliza adecuadamente, los hallazgos son de gran utilidad en etapas exploratorias y diagnósticas. Se recomienda ampliar el conjunto de muestras e incorporar variables composicionales y de comportamiento de interfase.
  • Ítem
    Zona Gris, Un Experimento Para Entrenar Un Modelo De Clasificación A Partir De Valores Extremos
    (2024-10) Bolaños Ruíz, Jhoan Andres; González Veloza, José John Fredy
    Entrenar un modelo de clasificación dicotómica derivado de un problema de regresión, utilizando únicamente los valores extremos de la variable objetivo y excluyendo el resto (la zona gris), produce mejores resultados que emplear todos los datos disponibles de la población de desarrollo en la fase de entrenamiento. Esta estrategia podría ofrecer a investigadores y profesionales del área un mejor rendimiento de los modelos, optimizando aspectos como el tiempo, la eficiencia de los recursos computacionales, y potencialmente mejorando el desempeño durante la fase de entrenamiento
  • Ítem
    Eficiencia De Los Servicios Prestados En Los Sistemas Integrados De Transporte Maviso Sitm En Colombia Entre Losaños2016-2023
    (2024-10) Cardona Arriaga, Juan Carlos; Romero Cárdenas, Oscar Alfonso
    La eficiencia de los servicios prestados en los sistemas integrados de transporte masivo (SITM) en Colombia depende de factores como la accesibilidad, la frecuencia, las tarifas integradas y el uso de tecnologías avanzadas de gestión. Estos aspectos, gestionados adecuadamente, pueden ofrecer una movilidad urbana más eficiente y sostenible. Este estudio compara los seis SITM de Colombia: Mio Cali, Megabus Pereira, Metrolínea Bucaramanga, Transmetro Barranquilla, Metroplús Medellín, Transcaribe Cartagena, para evaluar su eficiencia y determinar las mejores prácticas aplicables a otros contextos urbanos. Se realizó una matriz con los servicios prestados por los SITM entre los años 2016 – 2023 para determinar los servicios en común y aplicar el Procedimiento de Cointegración de Soren Johansen. Especificar Vector Auto Regresivo VAR, Estimar el modelo vector de Corrección de errores. Determinar la relación causal entre las variables del modelo. Pronostico del año siguiente 2024. De donde se puede concluir que los Sistemas Integrados de Transporte Masivos SITM son fundamentales para el desarrollo urbano, económico y social de la ciudad donde prestan sus servicios, porque mejoran el tráfico, la movilidad, fomenta el desarrollo sostenible, mejora la calidad de vida.
  • Ítem
    Análisis De La Tasa Ajustada de Mortalidad en San José de Cúcuta (2005-2020)
    (2024-10) Parada Contreras, Alexis Miguel; González Veloza, José John Fredy
    San José de Cúcuta, ubicada en la frontera entre Colombia y Venezuela, ha enfrentado desafíos en salud pública en los últimos veinte años. Entre 2005 y 2020, la ciudad ha experimentado un aumento significativo en la mortalidad, especialmente en comparación con ciudades similares como Pasto y Valledupar. Este estudio analiza las principales causas de mortalidad, clasificadas según la lista 6/67 de la Organización Panamericana de la Salud (OPS), que incluye enfermedades infecciosas y parasitarias, neoplasias, enfermedades del sistema circulatorio, respiratorio y digestivo, además de causas externas como lesiones y violencia. Se utilizaron modelos de regresión lineal y análisis descriptivos. Los resultados indican que las enfermedades del sistema circulatorio y las neoplasias son las principales causas de muerte, mientras que los hombres se ven más afectados por causas externas, como accidentes y homicidios. Estos hallazgos sugieren la necesidad de mejorar el acceso a servicios de salud y fortalecer las políticas preventivas. para reducir la mortalidad en la región
  • Ítem
    Modelamiento De Gastos Para La Operación De Centro De Atención Farmacéuticos
    (2024-10) Trujillo Sánchez, Jorge Hernán; González Veloza, José John Fredy
    La investigación se centró en predecir los gastos de centros de atención farmacéuticos, crucial para la planificación financiera en salud. Se evaluaron varios modelos predictivos para identificar el más preciso, buscando un margen de error por debajo del 10 % de MAPE. Se utilizaron datos ajustados de gastos farmacéuticos para construir y evaluar modelos como Regresión Lineal, Regresión Ridge, Random Forest, (GBM) y modelos de ensamble. Se aplicaron técnicas de reducción dimensional como PCA y ajustes en los datos, incluyendo la filtración de valores extremos. Las métricas de desempeño evaluadas incluyeron R2, MAE y MAPE. Los modelos de ensamble, especialmente Random Forest y el modelo de Ensamble aplicados al Modelo Ambulatorio, mostraron los menores errores. La reducción dimensional con PCA no mejoró la precisión y, en algunos casos, la redujo. Aunque no se alcanzó el objetivo de un MAPE del 10 %, se logró una mejora significativa respecto a otros modelos, obteniendo un MAPE del 16 %. Se concluye que los modelos de ensamble son los más efectivos para predecir gastos farmacéuticos debido a su capacidad para manejar la complejidad de los datos. Se recomienda explorar técnicas adicionales y ajustes en los datos para mejorar la precisión de los modelos
  • Ítem
    Optimización del Riesgo Crediticio: Predicción de Morosidad a través de Machine Learning
    (2024-10) Guerrero Bernal, Luis Carlos; González Veloza, José John Fredy
    El objetivo de este proyecto de investigación es crear modelos de predicción de clientes morosos utilizando técnicas de aprendizaje automático para que las entidades financieras tengan la capacidad de reducir el riesgo de morosidad. Los préstamos morosos plantean un grave problema para el sector financiero, ya que pueden provocar pérdidas considerables. En el caso de la empresa de estudio, se observa que solo se está recaudando aproximadamente el 62% del total esperado de las cuotas mensuales. De los 8.000 millones de pesos COP que se proyecta recaudar cada mes, únicamente se están recibiendo 5.000 millones de pesos COP. Se recopilarán y procesarán datos históricos de los clientes, tanto financieros como personales, con el fin de conocer los factores más importantes con respecto al incumplimiento. Existen varias técnicas de aprendizaje automático, como árboles de decisión y redes neuronales, se realizarán y se evaluará su eficacia en función de medidas de precisión y sensibilidad, entre otras medidas.
  • Ítem
    Implementación de Banderas Rojas en la Contratación Pública en Colombia utilizando Datos Abiertos
    (2024-10) Gutiérrez Vanegas, Kevin Fernando; González Veloza, José John Fredy
    Este trabajo de grado examina la contratación pública en Colombia, destacando la importancia de mejorar su transparencia y eficiencia mediante técnicas de aprendizaje automático. El estudio utiliza datos abiertos del SECOP II y algoritmos como Isolation Forest para detectar anomalías en los contratos públicos, enfocándose en tres banderas rojas: NF003, que identifica licitaciones con períodos inusualmente cortos; NF016, que detecta valores de licitación anómalos; y NF018, que señala procesos con una sola oferta. Los resultados indican que el 45.16% de los contratos presentan al menos una bandera roja, siendo NF018 la más frecuente. La metodología aplicada permite generar alertas tempranas para facilitar intervenciones oportunas y fortalecer la supervisión de los recursos públicos.
  • Ítem
    Predicción De Comportamientos De Marcas Mediante El Modelo K-Nearest Neighbors (KNN)
    (2024-10) Caicedo Hernández, Karen Julieth; Pulido Urrego, Julián David; González Veloza, José John Fredy
    Contexto. Este proyecto aborda la necesidad de analizar marcas en las categorías (aviación, automóviles y bancos) utilizando datos históricos y predictivos para mejorar las estrategias de marketing y optimizar recursos. Para esto, se identifican tres atributos clave en el ciclo de vida de las marcas: CX (Custumer experience), BX (Brand experience) y CO (commerce), que proporcionan una visión integral del comportamiento de la marca. El objetivo principal es desarrollar modelos predictivos que permitan anticipar el comportamiento de las marcas en base a estas tres variables clave. Hasta ahora, la mayoría de los estudios realizados con el Brand Asset Valuator (BAV) se han centrado en diagnosticar el estado actual de las marcas, sin abordar cómo evolucionarán en el futuro. Este proyecto busca ir más allá del diagnóstico, ofreciendo herramientas para anticipar cambios y mejorar la planificación estratégica. Se implementaron diversos modelos, incluyendo ARIMA, Holt-Winters y el modelo K-Nearest Neighbors (KNN) y como punto de referencia el modelo simple (Naive). Se evaluó la precisión de estos modelos utilizando métricas como RMSE y R². Se optimizaron las predicciones mediante análisis de residuos y pruebas con datos históricos.
  • Ítem
    Análisis predictivo y optimización de la resistencia a compresión del concreto mediante métodos avanzados de modelado estadístico.
    (2024-12-03) Rojas Minotta, Lina María
    Contexto. El presente proyecto analiza la resistencia a la compresión del concreto según las características de su composición, en el contexto de optimizar el diseño de mezclas, mejorando la calidad, durabilidad y eficiencia del material utilizado en la construcción, mediante la aplicación de técnicas de machine learning. Propósito. Este trabajo tuvo como objetivo identificar las variables más influyentes en la resistencia del concreto y comparar el desempeño de diferentes modelos de regresión. Metodología. Se adoptó el enfoque metodológico CRISP-DM, comenzando con un análisis exploratorio de los datos, utilizando una matriz de correlación y gráficos de dispersión para identificar las variables más relevantes. Posteriormente, se implementaron y evaluaron varios modelos de regresión, como CatBoost Regressor (CBR), Random Forest (RF), Regresión Lineal (RL), Regresión Polinómica (RP), Support Vector Regression (SVR), XGBoost (XGB), Decision Tree Regressor (DT) y Perceptrón Multicapa (MLP), empleando herramientas computacionales como Python y bibliotecas como scikit-learn y PyCaret, así como métricas de evaluación como MAE, MSE, RMSE y R². Resultados. Los análisis mostraron que el contenido de cemento, escoria de alto horno, la edad y el uso de súper-plastificante son las variables más influyentes en la resistencia a la compresión del concreto, siendo estas las que presentaron la mayor correlación con la variable objetivo. Además, se determinó que el modelo CatBoost Regression (CBR) fue el más preciso, superando al Perceptrón Multicapa (MLP) en precisión y generalización. Conclusiones. Este estudio demuestra la aplicabilidad de los métodos estadísticos y de machine learning en la optimización del diseño de mezclas de concreto, contribuyendo a metodologías más eficientes en la ingeniería civil.
  • Ítem
    Diseño experimental de la verificación de la vida útil de un medio de cultivo mediante comparaciones múltiples: Un enfoque experimental basado en el crecimiento microbiano de cinco especies.
    (2024-10) Muñoz Toro, Daniela; Bermúdez Rubio, Dagoberto
    Contexto. El proyecto evalúa la vida útil de un medio de cultivo utilizando un diseño experimental que permite demostrar estadísticamente su capacidad para la recuperación óptima de microorganismos, mediante la comparación de las unidades formadoras de colonia (UFC) obtenidas a lo largo del ensayo. Propósito. Demostrar que el medio de cultivo conserva su eficacia y calidad a lo largo de su vida útil, aspectos esenciales para asegurar la fiabilidad y consistencia de los resultados microbiológicos en los laboratorios. Metodología. Se realizó un Test de Promoción de Crecimiento (TPC) mensual para cinco microorganismos en un medio de cultivo nutritivo, evaluando las diferencias entre los tiempos inicial, medio y final (T=0, T=3, T=6). Este enfoque permitió verificar mediante evidencia estadística la eficacia del medio de cultivo en la recuperación de los microorganismos a lo largo del tiempo. Resultados. Las bacterias tienen un crecimiento más consistente en todos los tiempos de análisis, las diferencias de recuperación de UFC pueden atribuirse a varios factores no propios del medio de cultivo. Conclusiones. El medio de cultivo permite la recuperación óptima de los microorganismos durante los 6 meses de análisis. Con base en estos resultados, también podemos concluir que la evaluación cuantitativa de medios de cultivo debe realizarse de manera individual para cada microorganismo inoculado, debido a que las diferencias en la morfología y en las concentraciones usadas de los microorganismos pueden afectar los resultados del análisis cuando se consideran en conjunto.
  • Ítem
    Valoración Patrimonial y Seguro Patrimonial: Aplicación del Diseño Factorial Fraccionado 2K-P en Inmuebles
    (2024-10) Corpus Gaitan, Johan Alejandro; Bermúdez Rubio, Dagoberto
    Este estudio aborda la importancia de la valoración precisa de bienes patrimoniales para determinar el valor adecuado del seguro patrimonial y así proteger estos activos culturales. Utilizando el método de Diseño Factorial Fraccionado 2K-P, se exploran las influencias de varias características de los inmuebles incluyendo tipo de inmueble, época de construcción, estado de conservación, ubicación y área del terreno en el valor del seguro patrimonial. Los resultados muestran que las interacciones entre el tipo de inmueble y su ubicación son los principales determinantes del valor asegurado, lo que tiene implicaciones importantes para la gestión de riesgos en el sector asegurador.
  • Ítem
    Descripción epidemiológica de las intoxicaciones accidentales con sustancias químicas en Bogotá entre los años 2008-2016.
    (2024-06) Moreno Rodríguez, Cristian Andrés; Romero Ospina, Manuel Francisco
    Contexto. En Colombia las intoxicaciones son sustancias químicas son un problema de salud pública significativo y el segundo tipo con más reportes es las intoxicaciones de tipo accidental y del cual se obtienen boletines detallados sobre el tema, es por eso que este estudio se centra en ese tipo de intoxicaciones. Propósito. Caracterizar epidemiológica y sociodemográficamente las intoxicaciones accidentales en Bogotá, Colombia, mediante el análisis de datos reportados al sistema de vigilancia en salud pública (SIVIGILA) entre 2008 y 2016. Metodología. Se realizó un estudio descriptivo observacional retrospectivo analizando 8,195 reportes de intoxicaciones accidentales. Se evaluaron variables como edad, sexo, grado de escolaridad y tipo de sustancia involucrada. Se utilizaron técnicas de análisis descriptivo, análisis de correspondencia múltiple y pruebas de independencia (chi-cuadrado y test exacto de Fisher) para explorar asociaciones entre variables. Resultados. Las intoxicaciones afectaron principalmente a niños menores de 10 años, con la mayoría de los casos ocurriendo en aquellos de 1 a 10 años (48%). La intoxicación más frecuente fue por medicamentos y "otras sustancias", predominando en preescolares y primaria. El análisis de correspondencia múltiple reveló asociaciones significativas entre el tipo de sustancia y el grupo etario, así como entre el tipo de sustancia y el grado de escolaridad, indicando una influencia del entorno educativo y la edad en el tipo de exposición. Conclusiones. Las intoxicaciones accidentales en Bogotá presentan afectación en menores de 10 años, con una asociación notable entre el grado de escolaridad y el tipo de sustancia.
  • Ítem
    Impacto del nuevo método de recolección de datos en las estadísticas de homicidios por accidentes de tránsito en colombia: un análisis de series de tiempo.
    (2024-06) Estupiñán Mora, Lina Fernanda; Cruz Pinto, José Yesid; Romero Cárdenas, Oscar Alfonso
    Contexto. Los accidentes de tránsito son una problemática de salud pública global, con 3,200 muertes diarias reportadas por la OMS. En Colombia, esta situación se agrava por factores como el crecimiento urbano derivado de conflictos armados y desplazamientos forzados, lo cual ha incrementado la circulación vehicular y la necesidad de políticas efectivas de seguridad vial. La calidad de los datos es crucial para diseñar estas políticas, con la policía de tránsito desempeñando un rol fundamental en la recolección de información en el SIEDCO (Sistema de Información Estadístico, Delincuencial, Contravencional y Operativo de la Policía Nacional). En 2022, para mejorar la calidad de estos datos, la Policía Nacional y la Fiscalía alinearon sus directrices con las de Interpol, permitiendo una colaboración más efectiva y estadísticas unificadas . Propósito. Este estudio evalúa el impacto del nuevo método de recolección de datos sobre las cifras reportadas de homicidios en accidentes de tránsito en Colombia en 2023. Metodología. Se utilizó un análisis de series de tiempo univariadas, implementado en R, para modelar y pronosticar las cifras de homicidios utilizando datos históricos de 2010 a 2022 y compararlos con los datos reales de 2023. Resultados. El modelo SARIMA(1, 0, 1)(1, 0, 0)[12] mostró una serie temporal estacionaria y estacional, con un error de pronóstico de 15,66 fallecidos. Se encontraron discrepancias significativas entre los pronósticos y los datos reales de 2023, especialmente en los primeros siete meses del año. Conclusiones. Los resultados sugieren que el nuevo método de recolección de datos ha mejorado la visibilidad y clasificación de los homicidios en accidentes de tránsito, destacando la necesidad de continuar refinando las metodologías de recolección de datos para obtener cifras más precisas y efectivas para la formulación de políticas públicas.
  • Ítem
    Relación de la práctica de ajedrez y el rendimiento en matemáticas de los estudiantes del colegio comunal orquídeas, Bogotá-Colombia.
    (2024-06) Malavé Catellano, Irvin Gregorio; Romero Cárdenas, Oscar Alfonso
    Contexto. La investigación se enfoca en la relación entre la práctica regular del ajedrez y el rendimiento en matemáticas. Propósito.Establecer y analizar la correlación entre la práctica frecuente del ajedrez y el desarrollo de habilidades matemáticas, utilizando datos históricos recopilados a lo largo de once años. Metodología. Se utilizó un modelo VAR para explorar la relación entre los puntajes obtenidos en ajedrez y las calificaciones en matemáticas. Los análisis estadísticos se llevaron a cabo con el software R-Studio. Resultados. Se encontró una correlación significativa entre la práctica de ajedrez y los puntajes en matemáticas, respaldada por un R-cuadrado del 96.19 % para ajedrez y 97.12 % para matemáticas. Conclusiones. Basado en los datos analizados, se sugiere implementar la práctica del ajedrez como asignatura en el programa del CCO para potenciar el desarrollo de habilidades matemáticas y cognitivas en los estudiantes.
  • Ítem
    Metodología para el análisis de competitividad a corto plazo de la exportación de productos emergentes en Colombia. Caso de estudio aguacate.
    (2024-06) Guiza Parra, Daniella; Molina Rodriguez, Camilo Andrés; Romero Cárdenas, Oscar Alfonso
    Contexto.Dentro de las políticas públicas del Gobierno de Colombia desde el año 2022, se ha establecido la necesidad de implementar un modelo económico y social más inclusivo y sostenible para diversificar la economía Colombiana, más allá de los productos tradicionales como el café, el petróleo y las flores; los productos emergentes representan una oportunidad para incrementar la competitividad y la innovación en el país.Propósito. Por esta razón es fundamental establecer una metodología que permita estudiar la toma de decisiones en la exportación de productos emergentes y evaluar la competitividad de Colombia frente a otros países en el corto plazo; para este estudio se analiza las exportaciones de aguacate en el bloque económico de la Alianza del Pacífico. Metodología. En este análisis se utiliza el modelo de vectores autoregresivos (VAR) aplicado a series de tiempo multivariadas, que permite pronosticar y comparar el comportamiento de las exportaciones de aguacate para el año 2024. Conclusiones.Finalmente, con metodología utilizada, se logra identificar que tan competitivo es Colombia en la exportación de aguacate en relación con los países de la Alianza del Pacifico. Además de reconocer la importancia de continuar con políticas públicas que contribuyan al desarrollo de dicha competitividad en el mercado internacional.
  • Ítem
    Metodología Box Jenkins para pronosticar mediante series de tiempo el número de afiliados a las cajas de compensación familiar en el departamento de Atlántico, Colombia.
    (2024-06) Salinas Caranton, José Javier; Rodriguez Guerrero, Erwin Mauricio; Romero Cárdenas, Óscar Alfonso , Co-director
    Contexto. Las Cajas de Compensación Familiar en Colombia son fundamentales en el sistema de bienestar social, proporcionando subsidios y beneficios en salud, educación, vivienda y recreación a los trabajadores y sus familias. Propósito. El objeto de esta investigación es validar mediante series de tiempo la proyección de los afiliados a las cajas de compensación familiar teniendo en cuenta la información histórica de afiliados al sistema de protección social para el departamento Atlántico, Colombia. Además, se busca validar la precisión del modelo predictivo en comparación con los datos reales de afiliación del primer bimestre 2024. Metodología. Se recopilaron datos mensuales de ocho años de la población afiliada a las cajas de compensación, los cuales fueron revisados y analizados para verificar la estacionalidad, estacionariedad y tendencia. Con el fin de lograr el objetivo trazado, se generaron diversos modelos para identificar cuál satisface los supuestos requeridos y prediga información no espuria. Resultados. Se escogió un esquema ARIMA, el cual satisfizo las diferentes pruebas, estimando una diferencia para enero de 2024 en 0.94 % y para febrero de 2024 en 1.42 % en comparación con los datos publicados por la Superintendencia de Subsidio Familiar. Conclusiones. Las afiliaciones a las cajas de compensación en Colombia han mostrado un comportamiento positivo para el periodo 2015 y 2023. No obstante, la pandemia de COVID-19 generó una disminución significativa en el número de afiliados. El modelo desarrollado, proyecta un crecimiento de afiliados de forma lineal para el departamento.
  • Ítem
    Pronóstico en series de tiempo de los hurtos a personas en Bogotá para 2024.
    (2024-06) Velásquez Sanabria, Andrés Felipe; Prada León, Sergio Andrés; Romero Cárdenas, Oscar Alfonso
    Contexto: Entre 2018 y 2023, Bogotá vio un incremento sostenido en los hurtos a personas, alcanzando más de 147,000 incidentes en 2023. Este aumento refleja una creciente preocupación por la seguridad ciudadana. La evaluación de modelos de series de tiempo es clave para analizar tendencias y predecir incidentes futuros, ayudando a diseñar estrategias preventivas efectivas. Propósito: Generar conocimiento en ciencia de datos y estadística aplicada con base en un análisis de serie temporal de hurtos en Bogotá mediante técnicas avanzadas de estadística para identificar sus principales componentes y proporcionar una modelación robusta de sus patrones. Metodología: Se recolecto los datos públicos del a Secretaría de Seguridad, Convivencia y Justicia de Bogotá, y con base en la metodologia Box-Jenkins fue posible el modelaje SARIMA para el pronóstico de hurtos en la ciudad. Resultados: Se determino que un modelo SARIMA (0,1,1)(1,0,0) el cual tiene un equilibiro optimo con un AIC de 1215.06 y un error promedio de 1183.63 puntos (hurtos) en su predicción, adicionalmente hace un pronostico estable y en concordacia con los datos del año 2024. El modelo presento un ajuste cercano a la distribución normal, con facultades de homocedasticidad y sin auto correlaciones en sus residuos. Conclusiones: El modelo SARIMA propuesto genera un pronostico estable, y permite entender que la cantidad de hurtos en la ciudad, como reflejo de la creciente inseguridad se ve afectado por factores políticos, demográficos y que los datos futuros depende en buena media de sus periodos inmediatamente anteriores.
  • Ítem
    Análisis correlacional de gestión escolar, liderazgo directivo y calidad educativa basado en el modelo de ecuaciones estructurales. Estudio de caso.
    (2024-06) Palomino Murcia, Julián Andrés; González Veloza, José John Fredy
    Contexto. El Ministerio de Educación Nacional de Colombia viene implementando, desde hace más de dos décadas, diversas estrategias que buscan mejorar la calidad de la educación desde diversos aspectos de la Gestión Escolar. No obstante, a pesar de que se cuenta con orientaciones para la implementación de acciones situadas en dichos aspectos, año tras año, los resultados de medición de la calidad educativa siguen siendo bajos, lo que evidencia acciones de gestión escolar poco eficientes. Propósito. En atención a lo anterior, este estudio formuló una estrategia de análisis correlacional a partir de el estudio de variables endógenas asociadas a las características de estudiantes del nivel de educación media, percepción del liderazgo directivo, gestión escolar y calidad educativa en la Institución Educativa Oficial Monseñor Ramón Arcila. Metodología. Para ello, se aplicó, bajo la metodología CRISP-DM, la modelación de ecuaciones estructurales PLS-SEM utilizando la herramienta R Studio. Resultados. Se encuentra que las variables de origen, experiencia e identidad no influyen de manera significativa en los resultados de las pruebas externas (SABER 11) y la correlación entre los constructos Gestión Escolar, Liderazgo Directivo y Calidad Educativa en el mejor modelo de ecuaciones estructurales evidencia una influencia dominante entre los dos primeros y débil entre estos y la valoración de Calidad Educativa. Conclusiones. El modelo de ecuaciones estructurales sugiere que la institución educativa requiere focalizar la atención en los aspectos de dimensión académica y dimensión directiva para mejorar la percepción sobre Gestión Escolar, la cual presenta alta correlación con el Liderazgo Directivo que se explica con mayor fuerza por la capacidad de consideración personal del equipo directivo. Además, es preciso un diagnóstico de las necesidades de la comunidad y seguimiento al egresado para orientar las acciones hacia un mayor impacto, como indicador principal de la percepción de Calidad Educativa.
  • Ítem
    Predicción de la deserción estudiantil en la Universidad Tecnológica de Pereira mediante la implementación de modelos de machine learning.
    (2024-06) Tobón Ruales, Melissa; González Veloza, José John Fredy
    Contexto. La Vicerrectoría de Responsabilidad Social y Bienestar Universitario de la Universidad Tecnológica de Pereira (UTP) lidera un plan de acompañamiento integral que brinda apoyo a los jóvenes desde el momento en que se inscriben en la universidad. Según el Observatorio Social de la UTP, se han identificado condiciones específicas que impiden que algunos jóvenes se integren a la vida universitaria o, si ya están dentro del sistema, que deserten. Sin embargo, hasta el momento, en la UTP no se ha llevado a cabo un estudio estadístico que analice las diferentes condiciones socioeconómicas de los estudiantes y con la permanencia o deserción. Propósito. Desarrollar un modelo predictivo para determinar la deserción o permanencia escolar de los estudiantes que ingresan a la UTP; este modelo se basará en un análisis de las características socioeconómicas de los estudiantes que ingresan desde primer semestre. Metodología. Se entrenaron 15 modelos de clasificación de machine learning con datos de 13,000 estudiantes que ingresaron entre 2015 y 2019. Resultados. El modelo de Gradient Boosting Classifier (GBC) obtuvo el mejor puntaje de AUC (AUC=0.77 con un umbral de 0.50). Sin embargo, se optó por elegir el modelo de Regresión Logística (RL), que a pesar de obtener un AUC 3 puntos porcentuales menos que el GBC (AUC=0.74 con un umbral de 0.70) puede ser de mayor utilidad por su facilidad de aplicación. Conclusiones. Dada la sencillez de interpretación del modelo de Regresión Logística, se considera que este podría ser especialmente útil para predecir la deserción escolar. Mediante la exploración y ajuste de sus parámetros, este modelo puede identificar a los estudiantes en riesgo de abandonar los estudios desde su ingreso. La implementación de esta herramienta en el Programa de Apoyo Integral (PAI) permitirá la detección temprana de deserción, facilitando el diseño y la aplicación de estrategias de retención que aumenten significativamente la probabilidad de éxito. Esto no solo mejorará la retención estudiantil, sino que también optimizará los recursos destinados a la educación.
  • Ítem
    Predicción de insolvencia económica en PYMES Colombianas mediante modelos de aprendizaje automático.
    (2024-06) Molina Urrego, Miguel Santiago; González Jiménez, Kathleen; González Veloza, José John Fredy
    La insolvencia económica en las Pequeñas y Medianas Empresas (PYMES) representa un desafío significativo en Colombia, dado que constituyen el 99 % del tejido empresarial, generan el 80 % del empleo y aportan el 35 % al PIB nacional. Por tanto, esta investigación se enfocó en desarrollar un modelo predictivo basado en aprendizaje automático para anticipar la insolvencia económica en las empresas, utilizando datos financieros y sociodemográficos de PYMES colombianas. Se emplearon datos de la Superintendencia de Sociedades (2021-2022), que abarcaron 10,952 PYMES no insolventes y 477 insolventes en 2021, y 11,030 no insolventes y 470 insolventes en 2022. Se compararon dos modelos de Bosques Aleatorios con diferentes técnicas de muestreo, en particular submuestreo y sobremuestreo, y se encontró que el desbalanceo de clases se mitigó de manera efectiva con el submuestreo. El primer modelo de Bosques Aleatorios logró clasificar correctamente al 85 % de las empresas solventes y al 81 % de las insolventes. Es importante destacar que nuestro modelo demostró su capacidad de replicación exitosa al utilizar una base de datos de un año distinto, lo que destaca su robustez y capacidad de generalización. Estos resultados refuerzan la confianza en la eficacia y aplicabilidad del modelo en diversos contextos y periodos, consolidándolo como una herramienta sólida para anticipar la insolvencia económica en las PYMES colombianas, y proporcionando un valioso apoyo a las Cámaras de Comercio y otros actores económicos en la identificación temprana y la mitigación del riesgo de insolvencia en estas empresas.