Modelo de aprendizaje automático aplicado a la desaparición forzada en Colombia
Cargando...
Archivos
Fecha
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Fundación Universitaria Los Libertadores. Sede Bogotá.
Resumen
Context. Forced disappearance is framed as a crime against human rights, which has been
recurring within Colombian history as a way to hide a crime or impose a notice of violence in a
determined territory. There the fact breaks into daily life both in a family and community field. Of the
In the same way, it is important to understand and address it because of how difficult it is to carry out the investigation of a case of
these. Purpose. The present study sought to identify the sociodemographic factors in Colombia that benefit
the appearance of a person within a context of enforced disappearance through a machine model
classification learning. Methodology. Where, based on the analysis of open data on disappearances
in Colombia from 1970 to December 2019 (n = 55,145), various classification models were trained to
forecast the appearance of people (alive or dead) reported as enforced disappearances. Results. The
Classification models with the best performance in the test data were the Light Gradient Boosting models
Machine and Extreme Gradient Boosting, which obtained the highest AUC (0.7493 and 0.7485 respectively). By
On the other hand, the variables that contributed the most to the prediction of the event were: Municipality where the disappearance occurred,
age and studies of the disappeared person. conclusions. The present results showed that the municipality
of residence is what most impacts the probability of appearance of a person, where the probabilities are
they increase if they reside in main cities such as Bogotá, Medellín and Barranquilla. Similarly, it is suggested
to the owners of the database to improve the dimensionality of the variable "classification of disappearance";
but if it is intended to make a model of the same research problem, it is suggested to do it by means of a
different methodology.
Descripción
Contexto. La desaparición forzada se enmarca como un crimen en contra de los derechos humanos, el cual ha sido
recurrente dentro de la historia colombiana como forma de ocultar un delito o imponer un aviso de violencia en un
territorio determinado. Allí el hecho inrumpe en la cotidianidad tanto en un campo familiar como comunitario. De la
misma manera, es importante entenderla y abordarla debido a lo difícil que es llevar la investigación de un caso de
estos. Propósito. El presente estudio buscó identificar los factores sociodemográficos en Colombia que benefician
la aparición de una persona dentro de un contexto de desaparición forzada por medio de un modelo de machine
learning de clasificación. Metodología. En donde a partir del análisis de datos abiertos sobre las desapariciones
en Colombia desde 1970 a diciembre de 2019 (n = 55.145), se entrenaron diversos modelos de clasificación para
pronosticar la aparición de personas (vivas o muertas) reportadas como desaparecidas forzadas. Resultados. Los
modelos de clasificación con el mejor desempeño en los datos de prueba fueron los modelos Light Gradient Boosting
Machine y Extreme Gradient Boosting, los cuales obtuvieron el AUC más alto (0.7493 y 0.7485 respectivamente). Por
otro lado, las variables que más contribuyeron a la predicción del hecho fueron: Municipio donde ocurre la desaparición,
edad y estudios de la persona desaparecida. Conclusiones. Los presentes resultados arrojaron que el municipio
de residencia es lo que más impacta la probabilidad de aparición de una persona, en donde las probabilidades se
aumentan si se residen en ciudades principales como lo son Bogotá, Medellín y Barranquilla. De igual forma se sugiere
a los propietarios de la base de datos mejorar la dimensionalidad de la variable "clasificación de la desaparición";
pero si se pretende realizar un modelo del mismo problema de investigación, se sugiere realizarlo por medio de una
metodología distinta.