Análisis de los factores más influyentes en la esperanza de vida mediante Machine Learning

Roca García, Miguel (2021). Análisis de los factores más influyentes en la esperanza de vida mediante Machine Learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Análisis de los factores más influyentes en la esperanza de vida mediante Machine Learning
Author/s:
  • Roca García, Miguel
Contributor/s:
  • Lara Cabrera, Raúl
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: June 2021
Subjects:
Freetext Keywords: Aprendizaje automático; Procesos ETL; Machine learning; Redes neuronales
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB)
[img] Archive (ZIP) - Users in campus UPM only
Download (664B)

Abstract

En este Trabajo de Fin de Grado se expone un análisis de la influencia de diversos indicadores económicos, de desarrollo, alimenticios, sanitarios y políticos en la esperanza de vida mediante modelos de aprendizaje automático. Los factores a estudiar se han obtenido mediante un proceso ETL. Provienen de diferentes organizaciones internacionales de prestigio y están organizados por país, año y género. Se ha llevado a cabo un preprocesamiento del conjunto de datos de partida especialmente caracterizado por la imputación de valores desconocidos. Se han implementado varios modelos de machine learning que sean capaces de obtener la esperanza de vida para cada caso mediante los factores suministrados. Los mejores resultados han sido obtenidos mediante una red neuronal artificial, el perceptrón multicapa. El estudio del comportamiento de la red de neuronas se ha aplicado mediante tres estrategias con el fin de determinar el efecto de los factores sobre el cálculo de la esperanza de vida. En el primer enfoque, ha sido la técnica de selección de features wrapper methods, con la que se ha determinado el conjunto mínimo de factores con los que se puede obtener un modelo con un error aceptable. En segundo lugar, se ha implementado una función de calidad para el algoritmo genético que maximizase la esperanza de vida para un caso en concreto con un cierto margen de cambio. Así se determinarán los factores más influyentes para cada situación. Finalmente, se ha hecho un estudio del modelo con SHAP, obteniendo los factores que más afectan a nivel general, individual y en comparaciones entre casos, pudiendo también visualizar la contribución de cada factor sobre el resultado final en un caso determinado. Sobre los resultados obtenidos cabe destacar la diferencia entre correlación y causalidad, concluyendo que este estudio identifica de qué forma afectan los factores al cálculo de la esperanza de vida, no pudiendo demostrar que sean su causa, si bien puede servir de base de partida para su estudio por parte de las autoridades sanitarias o políticas. Abstract: This Final Degree Project uses machine learning models to analyse the influence of various factors on life expectancy, such as economic, development, food diet, health and political indicators. The factors that are studied have been obtained through an ETL process from different international organizations of prestige and organized by country, year and gender. A preprocessing of the dataset characterized by the imputation of missing values was required. Several machine learning models have been implemented in order to predict the life expectancy of each case with the provided indicators. The best results were obtained by an artificial neural network, the multilayer perceptron. The study of the behaviour of the neural network has been approached with three different strategies in order to determine the effect of the indicators on the calculation of life expectancy. The first approach was the feature selection technique wrapper methods, with which the minimal set of indicators required to get an acceptable error has been determined. Secondly, a fitness function for the genetic algorithm has been implemented in order to maximize the life expectancy of a specific case with a certain margin change. This algortihm provides the most influential factors for each situation. Finally, the model has been carried out with SHAP, obtaining the factors that most affect at a general and individual level and in comparisons between cases. The contribution of each factor to the final result in an individual case has been provided as well. It is important to mention the difference between correlation and causality for the results obtained. This study identifies the effect of the indicators on the calculation of life expectancy, not being able to demonstrate if their values are the cause in real life, although it can serve as a basis for consideration by health or political authorities.

More information

Item ID: 67521
DC Identifier: https://oa.upm.es/67521/
OAI Identifier: oai:oa.upm.es:67521
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 29 Jun 2021 09:17
Last Modified: 29 Jun 2021 09:17
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM