Especialización en Estadística Aplicada
URI permanente para esta colecciónhttp://hdl.handle.net/11371/46
Examinar
Envíos recientes
2025-12Ítem Construcción de un Modelo Predictivo para la Detección Temprana de Fraude Financiero en Ecosistemas de PagoVelasco Angulo , Juan Camilo; Alejandro Duitama LealEl aumento de los pagos digitales ha generado nuevos riesgos de fraude en las transacciones financieras. Aunque los casos fraudulentos son pocos, representan un impacto significativo para las entidades. Por esta razón, se buscan métodos más precisos y rápidos para detectarlos, entre ellos los modelos de aprendizaje automático. Propósito. El propósito de este estudio es desarrollar un modelo que permita identificar transacciones con posible fraude y comparar el desempeño de dos algoritmos supervisados —Random Forest y XGBoost— para determinar cuál ofrece una detección más eficaz en un escenario altamente desbalanceado. Metodología. Se generó un dataset sintético de 80.000 transacciones con casos limitados de fraude. Los datos fueron limpiados, codificados y balanceados . Luego se entrenaron Random Forest y XGBoost, evaluando su desempeño con métricas clásicas de clasificación. Finalmente, se aplicó SHAP para interpretar las variables más influyentes. Resultados. El modelo XGBoost presentó el mejor desempeño, alcanzando un F1-score de 0.55, un recall del 38 porciento para la clase fraudulenta y un ROC-AUC de 0.73, superando al Random Forest cuyo recall fue del 33 porciento y su ROC-AUC de 0.66. Las variables más influyentes estuvieron asociadas a montos anómalos, reversos, patrones sospechosos y horarios de operación.. Conclusiones. Los resultados evidencian que XGBoost posee mayor capacidad para identificar transacciones fraudulentas en datasets desbalanceados, aunque la detección sigue siendo limitada debido a la complejidad inherente al fenómeno del fraude. Se recomienda ampliar la diversidad de datos y ajustar estrategias de balanceo para mejorar la sensibilidad del sistema. 2024-12Ítem Estrategia para mejorar el desempeño académico en los resultados de las pruebas Saber 11 del Colegio Tomás Carrasquilla implementando el algoritmo de vecinos cercanosSánchez Mejía, Felipe Alberto; Torres Ferrer, Camilo José; González Veloza,José John FredyContexto: Este estudio aborda las dificultades que enfrentan los colegios para identificar y superar los desafíos relacionados con la mejora de los puntajes en las pruebas Saber 11, reconoce que muchas instituciones carecen de herramientas y enfoques claros para analizar las causas de su desempeño y, al mismo tiempo, implementar estrategias efectivas que impulsen resultados académicos superiores. Propósito: Diseñar de un modelo utilizando la técnica de K-Nearest Neighbors (K-NN), con el objetivo de aportar a la mejora en los resultados académicos de las Pruebas Saber 11. Metodología: Se identifican los 10, 25 y 50 vecinos más cercanos del colegio a analizar con base en variables demográficas similares y el puntaje global obtenido en las pruebas, se transforman las variables categóricas a formato numérico y se aplica un Análisis de Componentes Principales (PCA), se emplea la técnica de K-Nearest Neighbors (KNN) para determinar los vecinos cercanos con los valores especificados y se evalúa la calidad del modelo utilizando el puntaje de silueta, luego se selecciona el colegio con mayor puntaje para analizar posibles acciones de mejora. Resultados: con la tecnica KNN se permiten identificar hasta 50 vecinos cercanos al colegio de interés, manteniendo un puntaje de silueta bueno, con el análisis de Componentes principales se puede identificar a grandes rasgos 3 agrupaciones de colegios que podrían compartir características similares. Conclusiones: El análisis PCA identifica tres agrupaciones principales de colegios con características similares. El grupo con mayor densidad, que incluye al Colegio Tomás Carrasquilla, presenta una mayor inercia y un puntaje de silueta significativo (0.55) incluso al considerar hasta 150 vecinos cercanos, representando aproximadamente una sexta parte de los colegios evaluados. 2024-12Ítem Análisis y comparación de modelos de series de tiempo univariadas del recaudo del gravamen a los movimientos financieros en ColombiaRomero Pérez, Zujel Enrique; Romero Cardenas, Oscar AlfonsoEl recaudo del gravamen a los movimientos financieros (GMF) en Colombia ha sido un tema clave para los estudios f iscales debido a su impacto en la economía del país. Sin embargo, los modelos estadísticos aplicados al análisis de series de tiempo para predecir este recaudo han sido limitados, y muchos enfoques previos no han considerado una modelización univariada detallada. Este estudio tiene como objetivo analizar y comparar tres modelos de series de tiempo univariadas (ARIMA, SARIMA y Holt-Winters) para predecir el recaudo del GMF en Colombia, con el fin de identificar el modelo más adecuado para la predicción de su comportamiento futuro. Se utilizó el enfoque Box-Jenkins para ajustar los modelos a datos históricos mensuales del GMF de 2014 a 2023, evaluando su desempeño mediante métricas estándarizadas. Los resultados mostraron que, si bien todos los modelos presentaron pronósticos adecuados, el modelo ARIMA con transformación logarítmica presentó una ligera ventaja en cuanto a la normalidad de los residuos y la precisión de las predicciones, destacándose por un mejor ajuste en la captura de la dinámica temporal del recaudo. Los tres modelos son viables para la predicción del recaudo del GMF, pero el modelo ARIMA, seguido muy de cerca por el Modelo SARIMA con transformación Box-Cox, resultaron ser los más robustos en términos de adecuación de los residuos y capacidad predictiva. Se recomienda su aplicación para futuras predicciones fiscales, considerando las limitaciones de la serie temporal utilizada en este estudio y las posibilidades de mejorar los modelos con técnicas más complejas en investigaciones posteriores. 2024-11Ítem Amenidades y precios en Airbnb en América: Explorando la relación entre las características de hospedajes con experiencia y sus costos mediante Machine LearningParra Rodríguez, Cristian David; Duitama Leal, AlejandroContexto. La digitalización del sector turístico ha dado lugar a un auge de plataformas como Airbnb, transformando la oferta y demanda de hospedaje en todo el mundo. Las características de las propiedades y la experiencia de los anfitriones no han sido suficientemente exploradas, especialmente en el contexto de América. Propósito. El propósito de este estudio se centra en analizar la relación entre las características físicas y de ocupación de las propiedades en Airbnb y los precios de los hospedajes, utilizando modelos de Machine Learning. Metodología. Se aplicaron modelos de regresión, incluyendo Bayesian Ridge, Ridge Regression y Linear Regression, para analizar una base de datos extraída del repositorio de Kaggle con registros de hospedajes a nivel mundial. Resultados. Los resultados muestran una correlación significativa entre las características físicas de las propiedades, como el número de baños, camas y la capacidad de huéspedes. Conclusiones. A pesar de que los modelos de Machine Learning son efectivos para analizar el comportamiento de la información, es necesario mejorar la calidad y la segmentación de los datos, así como incorporar información georreferencial más precisa para analizar tendencias regionales y estacionales pudiendo fortalecer los criterios de selección de hospedaje. 2024-12Ítem Aplicación de técnicas de machine learning para la identificación de eventos de interés en salud pública en Colombia: un estudio exploratorio basado en datos de una EPSRojas Gutierrez, Willian Alexander; Duitama Leal, AlejandroContexto. La vigilancia epidemiológica en salud pública es importante para la toma de decisiones informadas y la gestión de los recursos en el sistema de salud. En Colombia, el Sistema Nacional de Vigilancia en Salud Pública (SIVIGILA) recopila datos sobre eventos de interés que requieren análisis detallado para mejorar las respuestas del sector sanitario. Propósito. Este estudio tiene como objetivo realizar un analisis exploratorio para identificar la relación de variables predictoras que influyen en la aparición de eventos de salud pública en registros de una Entidad Promotora de Salud (EPS), con el fin de optimizar las estrategias de intervención y manejo. Metodología. Se analizaron 46,494 registros de datos demográficos y de salud mediante técnicas de machine learning, incluyendo desde la curación de los datos, como balanceo de clases, la normalización de variables y la codificación de variables categóricas. Los modelos predictivos fueron evaluados utilizando métricas como la precisión, F1-score y la curva ROC/AUC. Resultados. Los modelos desarrollados demostraron que variables como género, ciclo de vida y condiciones de salud específicas tienen un impacto significativo en la predicción de eventos categorizados en problemas de salud pública y violencia, accidentes y traumas, y enfermedades crónicas e infecciosas. Conclusiones. Los hallazgos resaltan la importancia de implementar técnicas de machine learning en la vigilancia epidemiológica para mejorar la capacidad de respuesta y la asignación de recursos en el sector salud en Colombia. 2024-11Ítem Factores determinantes en los resultados de las pruebas Saber 11 en estudiantes del municipio de Cumbal – Nariño: Un análisis a través de técnicas de Machine LearningRivera Villarreal, Darwin Arbey; Duitama Leal, AlejandroContexto. Las pruebas estandarizadas ICFES Saber 11 son una herramienta clave para medir las competencias académicas de los estudiantes al finalizar la educación media en Colombia. Diversos estudios han demostrado que factores académicos, familiares e institucionales son determinantes en los resultados de estas pruebas, afectando las oportunidades de acceso a la educación superior y, en consecuencia, el futuro laboral de los jóvenes. Propósito. Este estudio tuvo como objetivo identificar y analizar los factores que influyen en el desempeño académico de los estudiantes del municipio de Cumbal, en el departamento de Nariño, mediante las pruebas Saber 11 presentados en el año 2020-B. Además, se desarrolló un modelo predictivo basado en Machine Learning para estimar el puntaje global de los estudiantes, utilizando las variables más relevantes. Metodología. Se siguió el enfoque de minería de datos propuesto por la metodología CRISP-DM (Cross-Industry Standard Process for Data Mining). Los datos fueron procesados y evaluados mediante la librería PyCaret, lo que permitió seleccionar el modelo de regresión lineal, gracias a su buen desempeño en métricas de evaluación. Resultados. El modelo de regresión lineal presentó un coeficiente de determinación igual a 0.94, un Error Absoluto Medio (MAE) de 0.03, y un error cuadrático medio (MSE) de 0.001, lo que indica una alta capacidad explicativa y un error bajo en las predicciones. Conclusiones. El análisis reveló que el modelo de regresión lineal tiene un buen ajuste y explica una gran parte de la variabilidad en el puntaje de las pruebas saber 11, ademas, Las variables explicativas que se evaluaron: Lectura critica, Ciencias Sociales, acceso a internet y la zona geografica de la intitución educativa son los factores más relevantes y significativos para predecir el puntaje global y la educación de los padres no tienen mayor significancia en este contexto. 2024-12Ítem Análisis de la Relación entre la Incidencia de Dengue y las Lluvias Acumuladas en Bogotá D.C.Rodríguez Rueda, Inés Esperanza; Romero Cárdenas, Oscar AlfonsoEste estudio tiene como objetivo analizar la relación entre los casos reportados de dengue y las lluvias acumuladas en la región de Bogotá D.C entre los años 2007 y 2023. El dengue, una enfermedad viral transmitida por mosquitos del género Aedes, ha experimentado un aumento en su incidencia en diversas zonas urbanas, incluidas las de Bogotá, lo cual se ha vinculado con factores climáticos, especialmente las precipitaciones. Para este análisis, se emplearon datos históricos sobre los casos de dengue reportados por las autoridades sanitarias y las precipitaciones acumuladas proporcionadas por el Instituto de Hidrología, Meteorología y Estudios Ambientales (IDEAM). Mediante un enfoque estadístico, se exploró la posible correlación entre ambos fenómenos, con el fin de identificar patrones o tendencias que puedan ser útiles para la predicción de brotes de dengue y la implementación de medidas preventivas. Los resultados obtenidos proporcionan información valiosa sobre cómo las lluvias intensas o prolongadas pueden influir en la proliferación de los mosquitos vectores, ayudando a mejorar las estrategias de control y prevención de esta enfermedad en la región. 2025-06Ítem Evaluación empírica de modelos econométricos VAR y VEC en la predicción de la siniestralidad agregada en ColombiaSalina Rodríguez, Jeison Alejandro; Romero Cárdenas, Oscar AlfonsoContexto. La economía global actual se caracteriza por una creciente incertidumbre derivada de conflictos geopolíticos, tensiones comerciales y la volatilidad de los mercados financieros International Association of Insurance Supervisors, 2025.. En este contexto, resulta fundamental comprender el comportamiento de las variables macroeconómicas tanto de las economías desarrolladas como de los entornos locales. Este análisis permite entender mejor sectores clave como el asegurador, el cual desempeña un papel crucial al ofrecer protección financiera frente a siniestros y riesgos asociados a diversas actividades económicas. Propósito. Este estudio tiene como objetivo analizar la relación entre la siniestralidad agregada y variables macroeconómicas en Colombia mediante modelos de series de tiempo. Asimismo, se busca comparar el desempeño predictivo de tres enfoques econométricos: el modelo VAR, el modelo VEC de Engle-Granger y el modelo VEC de Johansen, con el fin de identificar el más adecuado para la realidad económica analizada. Metodología. Se utilizaron datos mensuales desde enero de 2016 hasta diciembre de 2024, obtenidos de fuentes oficiales como Fasecolda, el DANE y el Banco de la República. El análisis incluyó pruebas de estacionariedad (ADF), estimación de modelos VAR y VEC, pruebas de diagnóstico (autocorrelación, heterocedasticidad y normalidad), pruebas de causalidad de Granger, y comparación del desempeño predictivo mediante la raíz del error cuadrático medio (RMSE). Resultados. Los modelos VAR, VEC de Engle-Granger y VEC de Johansen fueron comparados bajo criterios econométricos y de capacidad predictiva. Aunque el modelo VAR(12) mostró un buen ajuste global (R2 = 78,9 %) y residuos bien comportados, presentó el mayor error de predicción (RMSE = 4,83). En contraste, el modelo VEC-Johansen presentó un RMSE intermedio (4,02), mientras que el modelo VEC basado en Engle-Granger, en su versión con rezagos, obtuvo el menor error (RMSE = 3,38). Conclusiones. El análisis evidenció que los tres modelos estudiados son herramientas útiles para explorar la relación entre variables macroeconómicas y la siniestralidad agregada del sector asegurador colombiano. Los resultados subrayan la importancia de combinar criterios estadísticos con fundamentos teóricos para seleccionar modelos que sean tanto precisos como coherentes con la estructura económica del fenómeno analizado 2025-06Ítem Evaluación de métodos de imputación de datos faltantes ocasionados por la pandemia de COVID-19 en el pronóstico de la calidad del agua en Ibagué, Colombia, mediante series de tiempo multivariadasRuiz Montilla, Ana Marcela; Romero Cárdenas, Oscar AlfonsoContexto. Durante la pandemia de COVID-19, múltiples sistemas de monitoreo ambiental —incluidos los de calidad del agua— experimentaron interrupciones en la recolección de datos debido a restricciones logísticas y operativas. Propósito. En este trabajo se evaluaron diferentes métodos de imputación de datos (media, mediana, knn y mice) para el pronóstico de la calidad del agua en una planta de tratamiento ubicada en Ibagué, Colombia, considerando las variables pH, turbiedad, Escherichia coli y coliformes totales como parámetros críticos.Metodología. Como criterios de evaluación de la calidad de las imputaciones, se analizó la desviación estándar, los valores de media, mediana y moda, así como la distribución de los datos y correlaciones. Para los pronósticos se empleó un modelo VAR. Resultados. El mejor método de imputación dependío de la varianza en los datos, cuando los datos presentaron poca diferencia, se viabilizó el uso de la media y cuando se presentó variación entre los datos, el menor error se evidenció con mice Conclusiones. De esta forma, se hace necesario implementar estrategias como las descritas en este proyecto para la toma de decisiones y como estrategia afrontar situaciones imprevistas en PTAP y PTAR del país. 2025-06Ítem Estimación de la demanda de agua en el acueducto ASUARU usando series de tiempo en el marco de la normatividad vigenteTorrijos Lavado, Julio César; Romero Cárdenas, Oscar AlfonsoContexto. En Colombia, la gestión del recurso hídrico en zonas rurales requiere sustentar técnica y normativamente las solicitudes de concesión de agua, conforme al artículo 2.2.3.2.7.1 del Decreto 1076 de 2015. El Acueducto ASUARU, como sistema comunitario, debe demostrar una demanda proyectada basada en datos y modelos confiables, considerando además el Índice de Agua No Contabilizada (IANC) establecido en la Resolución 0330 de 2017. Propósito. Estimar la demanda bimestral de agua potable mediante modelos estadísticos de series de tiempo, como insumo técnico en el trámite de concesión de aguas superficiales. Metodología. Se emplearon modelos univariados (ARIMA, SARIMA, Holt-Winters) y multivariados (VAR, VEC, VECM) aplicados a series bimestrales de consumo real, suscriptores y valor económico. Las validaciones incluyeron pruebas de estacionariedad (ADF), cointegración (Johansen), autocorrelación (Ljung-Box), heterocedasticidad (ARCH), normalidad (Shapiro-Wilk y Mardia) y estabilidad (CUSUM), además del contraste con datos reales del primer cuatrimestre de 2025. Resultados. Los modelos ARIMA y SARIMA, generaron pronósticos planos poco representativos. El modelo Holt-Winters capturó con mayor precisión la estacionalidad bimestral y mostró alta coherencia con valores observados. El modelo VAR integró múltiples variables explicativas con buen desempeño predictivo y validación estadística. Ambos modelos fueron ajustados por IANC (+25 %) y traducidos a caudales medios diarios (Qmd) para estimar el número de habitantes abastecidos. Conclusiones. Holt-Winters se posiciona como el modelo más adecuado para proyecciones normativas del sistema ASUARU, por su capacidad de reflejar patrones estacionales reales. El modelo VAR es un complemento robusto para análisis multivariables. Ambos modelos fortalecen la sustentación técnica de la demanda hídrica exigida por la autoridad ambiental, en cumplimiento de la normativa vigente. 2025-06Ítem Series de tiempo de homicidios y lesionados por siniestralidad vial para Colombia (2014-2024)Navarrete Calderón, Antonio José; Romero Cárdenas, Oscar AlfonsoContexto. La siniestralidad vial, con sus homicidios y lesionados, es un desafío de salud pública en Colombia. Comprender su dinámica temporal es esencial para la prevención. Este estudio aborda dicha problemática en Colombia de 2014 a 2024. Propósito. Se busca describir patrones temporales de Homicidios y Lesionados por siniestralidad vial. Además, estimar un modelo VAR con Diferencias para generar pronósticos. Esto ofrecerá una herramienta analítica en seguridad vial. Metodología. La investigación empleó un diseño de series de tiempo con datos mensuales. Se realizaron pruebas ADF para estacionariedad (Homicidios I(0) con tendencia, Lesionados I(1)). Se estimó un VAR(3) para Homicidios y la primera diferencia de Lesionados, generando pronósticos a 12 meses. Resultados. Homicidios es estacionaria con tendencia y Lesionados es I(1); el VAR(3) fue estable. La VDC mostró que cada serie explica casi totalmente su variabilidad (Homicidios ∼99 %, Lesionados ∼94-95 %). Los pronósticos sugieren estabilización o ligera disminución en Homicidios y Lesionados viales a corto plazo. Conclusiones. Se infiere que las dinámicas de Homicidios y Lesionados por siniestralidad vial en Colombia son predominantemente autónomas. Esta independencia predictiva, a pesar de posible ocurrencia simultánea, sugiere intervenciones específicas para cada indicador. 2025-06Ítem Análisis predictivo de secuestro y desaparición en Colombia: un enfoque con series de tiempoSuárez Padilla, Luis Carlos; Romero Cárdenas, Oscar AlfonsoContexto. El secuestro y la desaparición en Colombia son delitos persistentes que afectan gravemente los derechos humanos, con mayor incidencia en regiones marcadas por conflictos armados y economías ilegales. Estos crímenes generan impactos psicosociales y económicos significativos, y su evolución ha sido heterogénea en el tiempo y el territorio. A pesar de los esfuerzos institucionales, su prevención requiere enfoques predictivos avanzados. Propósito. Este estudio busca proyectar los datos de secuestro y desaparición forzada en Colombia para el año 2025, utilizando un modelo de corrección de errores basado en su relación de largo y corto plazo entre 2015 y 2024. Metodología. Se analizaron datos mensuales de secuestros y desapariciones forzadas en Colombia (2015–2024), obtenidos de SIEDCO y del portal de Datos Abiertos del Gobierno de Colombia, transformados en series temporales con R (versión 4.3.3). Las pruebas de estacionariedad (ADF) y cointegración (Engle–Granger) confirmaron que las series son I(1) y están cointegradas. Un modelo ECM con transformación logarítmica capturó dinámicas de corto y largo plazo. Se evaluaron los supuestos de normalidad (Jarque–Bera) y homocedasticidad (Breusch–Pagan), generando pronósticos mensuales para 2025 con intervalos de confianza. Resultados. Las series temporales de secuestros y desapariciones (2015– 2024) son no estacionarias en niveles (ADF, p > 0,05), pero estacionarias en primeras diferencias (p < 0,01), siendo I(1). La prueba de Engle-Granger confirmó la cointegración, soportando el uso del modelo ECM con transformación logarítmica. Los residuos mostraron no normalidad (p < 0,05), pero homocedasticidad (p > 0,05). Los pronósticos para 2025 estiman entre 27,89 y 37,03 secuestros mensuales, y entre 427,68 y 434,39 desapariciones, con errores RMSE de 5,07 y 39,38, respectivamente, indicando mayor precisión en secuestros. La comparación con los valores reales de enero a marzo de 2025 arrojó un APE del 15,77 % (29,48 vs. 35) para secuestros y 8.81,53 % (433,17 vs. 475) para desapariciones. Conclusiones. El modelo ECM (Engle-Granger) resultó efectivo para predecir secuestros y desapariciones en Colombia (2015–2024), capturando dinámicas de corto y largo plazo en series I(1) con cointegración confirmada. Los pronósticos para 2025 (27,89–37,03 secuestros; 427,68–434,39 desapariciones) mostraron mayor precisión en secuestros (RMSE 5,07) que en desapariciones (RMSE 39,38). A pesar de la no normalidad de los residuos, la homocedasticidad valida el modelo, sugiriendo su utilidad para políticas preventivas, aunque se recomienda incluir variables exógenas para mejorar la precisión futura. 2025-06Ítem Evaluación de Modelos de Series de Tiempo para el Pronóstico del Turismo: El Caso de la Ocupación Hotelera en ColombiaPeña Agudelo, Gisell Natalia; Romero Cárdenas, Oscar AlfonsoEl turismo en Colombia constituye un sector estratégico para el desarrollo económico, con una notable capacidad de recuperación tras el impacto de la pandemia. Este estudio analiza su comportamiento a través de la tasa de ocupación hotelera, utilizada como variable representativa del dinamismo turístico. El objetivo principal es estimar y comparar modelos econométricos multivariados para pronosticar dicha tasa, empleando series temporales del PIB, IPC, visitantes no residentes y pasajeros nacionales entre los años 2012 y 2024. Se implementaron tres enfoques: el modelo VAR (Vector Autorregresivo), el ECM (Modelo de Corrección de Errores multivariado) y el VEC (Vector de Corrección de Errores multivariado). Los resultados indican que el modelo VEC presentó el mejor desempeño predictivo en términos de error cuadrático medio (RMSE), lo que resalta su capacidad para capturar relaciones de largo plazo entre variables cointegradas. No obstante, este modelo no superó completamente las pruebas de diagnóstico, especialmente en lo referente a normalidad y autocorrelación. Estos hallazgos reafirman la utilidad de los modelos VEC en contextos donde existen relaciones estructurales entre variables económicas, y permiten contrastar su desempeño frente a otros enfoques que, si bien superaron más pruebas estadísticas, no lograron una mejor capacidad de pronóstico. El estudio aporta así una herramienta valiosa para la toma de decisiones en el ámbito turístico, basada en análisis econométrico riguroso. 2025-06Ítem Modelos de Predicción del Hurto a Personas en Bogotá D.C. (2015–2024): Un Enfoque Comparativo entre MCE y VECMGarzón Acosta, John Jairo; Romero Cardenas, Oscar AlfonsoEl hurto a personas en Bogotá D.C. ha venido presentando un fuerte incremento después de la pandemia por COVID19. Este aumento representa importantes afectaciones para la integridad y la economía personal de los ciudadanos, ya que se genera una economía ilegal que incentiva el hurto como fuente de ingreso para los delincuentes, posiblemente impulsada por el desempleo y el Índice de Precios al Consumidor (IPC) y limitada por la capacidad operativa del Estado, representada en las capturas a personas realizadas por parte de la Polícia Nacional. El propósito de esta investigación es identificar cuál es el mejor modelo para la proyección de hurtos a personas en la ciudad de Bogotá D.C., evaluando dos enfoques: Modelo de Corrección de Errores (MCE) y el Modelo de Vectores de Corrección de Errores (VECM), con el fin de determinar cuál se ajusta mejor a los datos observados. Como primer paso, se aplicaron pruebas de raíz unitaria Dickey-Fuller (ADF), las cuales indicaron que las series de Hurtos, IPC, Capturas y Tasa de Desempleo requieren una diferenciación de primer orden para alcanzar la estacionariedad. Posteriormente, se aplicaron pruebas de causalidad de Granger, encontrando relaciones de causalidad con rezago. A continuación, se evaluó la existencia de relaciones de largo plazo mediante pruebas de cointegración, concluyéndose que existen relaciones de largo plazo entre las variables analizadas. Finalmente, se estimaron y compararon los modelo VECM y MCE evaluando tanto el cumplimiento de los supuestos estadísticos clásicos como la capacidad predictiva de cada modelo comparado con los datos reales observados de enero a mayo de 2025. 2025-06Ítem Clasificación empírica de hogares pobres y vulnerables en la Región Pacífico de Colombia mediante clustering no supervisado y selección de características socioeconómicas para optimizar la focalización de política socialPiñeros Pinto, Jonathan; Duitama Leal, AlejandroContexto. En Colombia, la superación de la pobreza ha sido una prioridad de política pública en las últimas décadas, abordada a través de instrumentos y metodologías como el Sisbén y el Índice de Pobreza Multidimensional (IPM). Sin embargo, persisten desafíos importantes para identificar y atender la diversidad de condiciones que enfrentan los hogares, especialmente en regiones con alta desigualdad estructural como el Pacífico colombiano. Propósito. La investigación propone la construcción de una tipología empírica de hogares en la Región Pacífico a partir de variables asociadas al acceso a servicios, composición demográfica y privaciones sociales, con el fin de ofrecer insumos para una mejor focalización de políticas sociales. Metodología. Se utilizó una base de más de 2.4 millones de hogares provenientes del Sisbén IV 2024. A partir de un conjunto de variables estandarizadas, se aplicaron técnicas de análisis de componentes principales (PCA) y clustering no supervisado mediante K-Means, seleccionando cuatro grupos como estructura óptima. La caracterización de los clústeres se realizó con promedios por grupo, visualizaciones tipo radar y etiquetas interpretativas. Resultados. El análisis permitió identificar cuatro perfiles diferenciados: (i) hogares con exclusión digital y rezago moderado; (ii) hogares con pobreza estructural y alta vulnerabilidad; (iii) hogares con pobreza material severa y exclusión tecnológica; y (iv) hogares con integración social y acceso a servicios. Estas categorías revelan desigualdades profundas que no siempre son captadas por las clasificaciones institucionales convencionales. Conclusiones. La tipología generada aporta una mirada complementaria a los mecanismos oficiales de focalización, permitiendo reconocer trayectorias diferenciadas de vulnerabilidad. Los resultados ofrecen evidencia útil para disenñar estrategias más precisas y territorializadas de intervención social, especialmente en contextos con alta heterogeneidad como la Región Pacífico. 2025-01Ítem Aplicación técnicas de machine learning para la predicción de costos de seguros de salud: un modelo automatizado, interactivo y listo para producciónSierra Santos, Israel; Duitama Leal, AlejandroContexto y objetivo: La predicción de costos médicos en seguros de salud es una tarea crítica para la gestión de riesgos y la tarificación de primas. Si bien los métodos estadísticos tradicionales han sido ampliamente utilizados, presentan limitaciones frente a conjuntos de datos complejos y no lineales. Este estudio tuvo como objetivo desarrollar un modelo automatizado basado en PyCaret para predecir los costos de seguros de salud, integrando todas las etapas del pipeline de aprendizaje automático. Metodología: Se empleó un conjunto de datos público con variables demográficas y clínicas. Se aplicó una transformación logarítmica a la variable objetivo y se utilizó PyCaret para automatizar el preprocesamiento, comparación de modelos, ajuste de hiperparámetros y evaluación visual. Las métricas de desempeño se extrajeron tras validación cruzada. Resultados: El modelo optimizado alcanzó un coeficiente de determinación (R2) de 0.82, con una reducción sustancial del MAE y MSE en comparación con modelos no transformados. Las variables con mayor influencia fueron el índice de masa corporal (IMC) y el hábito de fumar. El modelo final fue exportado, probado con nuevos datos y demostró capacidad de generalización. Conclusión: La automatización mediante PyCaret demostró ser un enfoque eficiente, reproducible y listo para producción. El modelo permite tomar decisiones basadas en datos con menor esfuerzo técnico y mayor escalabilidad en entornos reales del sector asegurador. 2025-06Ítem Aplicabilidad de métodos estadísticos bayesianos en la determinación de los intervalos de calibración en metrologíaMurcia Fandiño, Mario Andrés; Duitama Leal, AlejandroLa determinación de los intervalos de calibración de los instrumentos de medida es una actividad crucial dentro de los sistemas del aseguramiento metrológico, ya que permite garantizar la validez de los resultados de medición y su trazabilidad al Sistema Internacional de Unidades (SI). Tradicionalmente, estos intervalos se establecen siguiendo métodos definidos en documentos normativos internacionales, como el ILAC-G24:2022 -Guía para la Determinación de intervalos de recalibración de equipos de medición- o el RP-1:2010 -Establishment and Adjustment of Calibration Intervals- Sin embargo, la aplicación de estas guías se basa principalmente en enfoques estadísticos estocásticos. En este contexto, el presente trabajo propone un enfoque alternativo basado en métodos bayesianos, que permite integrar información a priori —como el error máximo permitido— con los datos obtenidos en nuevas calibraciones (error mas la incertidumbre de medida) como la verosimilitud del enfoque, facilitando así un ajuste dinámico y más flexible de la periodicidad de las recalibraciones. 2025-06Ítem Modelos de clasificación multiclase para la predicción del estado sanitario y tipo de daño en el arbolado urbano de Bucaramanga, SantanderLoaiza Flórez, Federico; Duitama Leal, AlejandroContexto. En ciudades como Bucaramanga, el arbolado urbano enfrenta múltiples factores de estrés y deterioro, mientras que su monitoreo se basa en herramientas descriptivas sin capacidad predictiva. El uso de modelos de aprendizaje automático permite anticipar daños y mejorar la gestión arbórea. Propósito. Este estudio busca predecir el estado sanitario del arbolado urbano en seis categorías de daño, e identificar las variables más influyentes en dicha predicción, a partir de datos del censo forestal urbano. Metodología. Se aplicó la metodología SEMMA sobre datos geográficos, dendrométricos y taxonómicos, utilizando modelos de ensamble como Random Forest, XGBoost y LightGBM. Se aplicaron técnicas de balanceo, codificación y validación cruzada, y se evaluó el desempeño con métricas como F1-score, AUC y MCC. Resultados. El modelo optimizado de Random Forest logró un F1-score de 0.7769 y un AUC de 0.9203, superando a su versión original. Las variables más influyentes fueron la comuna, la ubicación geográfica y el tipo de emplazamiento. Conclusiones. Los modelos de clasificación multiclase permiten predecir con buen desempeño el estado sanitario de los árboles. Sin embargo, persisten dificultades en clases similares o poco representadas, por lo que se recomienda explorar modelos especializados o jerárquicos para mejorar la discriminación entre tipos de daño y optimizar decisiones de manejo urbano. 2025-06Ítem Análisis de Varianza ANOVA de Edad por Clúster PAM sobre espacio MCA en el Hospital General de MedellínMinotta Valencia, Carlos Kamal; Natalia; Romero Ospina, Manuel Francisco, Salamanca Bernal, Julián AndrésAntecedentes: La comprensión de los patrones de mortalidad hospitalaria es clave para mejorar la atención en salud pública. Este estudio identificó perfiles de pacientes fallecidos en el Hospital General de Medellín, basados en sus causas antecedentes y estados patológicos. Objetivos: Identificar grupos homogéneos de fallecidos por causas y patologías, y evaluar si la edad es un factor diferenciador entre estos grupos. Métodos: Se realizó un Análisis de Correspondencias Múltiples (MCA) sobre variables de causas antecedentes y estados patológicos para reducir la dimensionalidad. Luego, se aplicó un clustering PAM con k = 3 clústeres a las coordenadas del MCA; la calidad del clustering fue de 0,54 de coeficiente de silueta. Se comparó la edad entre clústeres usando ANOVA y Kruskal-Wallis. Resultados: El MCA explicó el 27,4 % de la inercia en dos dimensiones. Se identificaron tres clústeres: Clúster 1 (n=1105): Predominio de PARO CARDIORESPIRATORIO (72–75 %) y Otros (aprox. 15 %) como causas directas, asociado a registros SIN INFORMACIÓN y DISFUNCIÓN ORGÁNICA MÚLTIPLE. Clúster 2 (n=1016): Caracterizado por PARO CARDIORESPIRATORIO (55–60 %), FALLA RESPIRATORIA (10–12 %) y CHOQUE SÉPTICO (aprox. 5 %), fuertemente ligado a CHOQUE SÉPTICO y DISFUNCIÓN ORGÁNICA MÚLTIPLE. Clúster 3 (n=563): PARO CARDIORESPIRATORIO (aprox. 70 %) junto con CHOQUE CARDIOGÉNICO (cercano al 5 %) y FALLA RESPIRATORIA (aprox. 8 %), relacionado con HIPERTENSIÓN ARTERIAL y FALLA MULTIORGÁNICA. No se hallaron diferencias significativas en la edad promedio (ANOVA p = 0,484) ni mediana (Kruskal-Wallis p = 0,3186) entre los clústeres. Conclusiones: Se identificaron tres perfiles de mortalidad específicos, cuyas diferencias se basan en la patología subyacente y no en la edad del fallecido. 2025-06Ítem Monitoreo y control estadístico de la calidad del aire en estaciones urbanas mediante cartas de controlAlmario Ruíz, José David; Varela Perea, Raúl EmilioEste estudio presenta un análisis estadístico enfocado en la calidad del aire en una zona urbana, a partir de los datos recolectados por la estación de monitoreo EST. LAGOS I F/BLANCA. Esta estación registra variables clave relacionadas con la contaminación atmosférica, específicamente material particulado (PM10 y PM2,5) y gases contaminantes (NO2 y O3).El objetivo principal es evaluar la estabilidad y el comportamiento de estos contaminantes mediante el uso de cartas de control, una herramienta esencial del Control Estadístico de Procesos (SPC, por sus siglas en inglés). Estas cartas permiten detectar variaciones inusuales en el proceso, identificar posibles anomalías ambientales y establecer un diagnóstico oportuno sobre la calidad del aire en el área de estudio.Este enfoque estadístico permite no solo supervisar el comportamiento de los contaminantes a lo largo del tiempo, sino también identificar eventos atípicos que podrían requerir intervención o medidas preventivas por parte de las autoridades ambientales o sanitarias.