Practical aspects of missing data imputation in R

Camarena Torres, Lucas (2023). Practical aspects of missing data imputation in R. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Practical aspects of missing data imputation in R
Author/s:
  • Camarena Torres, Lucas
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Ciencia de Datos
Date: July 2023
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_LUCAS_CAMARENA_TORRES.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (6MB)

Abstract

El objetivo de este TFM ha sido doble, por un lado se ha evaluado el impacto de los diferentes mecanismos en la falta de datos y se ha estudiado qué otros factores influyen en los resultados de un modelo de predicción (relacionados con la falta de datos). Con esto se pretende probar que es necesario un estudio profundo del conjunto datos faltantes antes de realizar un modelo, para lo cual y como segundo objetivo, se ha evaluado la librería de Naniar como herramienta para la exploración y análisis de los patrones en la falta de datos.

A la hora de plantear el experimento se han tenido en cuenta las metodologías seguidas habitualmente en el estado del arte, que recomiendan partir de un grupo de control, en este caso se ha seleccionado el conjunto de datos del Titanic, sobre el cual se ha utilizado un Random Forest como modelo de predicción, obteniendo así una accuracy del 88 %.

Sobre estos datos se han realizado múltiples amputaciones aplicando los diferentes mecanismo que se pueden encontrar en la literatura: MCAR (eliminación aleatoria de los datos), MAR (la falta de datos depende de otra variable del conjunto) y MNAR (es la propia variable la que influye en esa omisión de datos o alguna variable desconocida).

Estas amputaciones se han aplicado a todas las variables utilizadas en el modelo original, utilizando en el caso de MAR cada una de las no amputadas como referencia. Sobre estas se han aplicado diferentes técnicas de imputación simple, como imputación de medias, listwise deletion, hot_deck o Least Square (LS).

Tras los experimentos, como se puede ver en la tabla de resultados 5, se ha comprobado que en general, los mejores métodos de imputación son los Least Square (LS) con una accuracy media en todas las instancias del 75 %. En particular la variante LS_combined, que mediante ensamble aprovecha las imputaciones de LS_array y LS_gene para obtener una ligera mejora sobre el resto (inferior al 1 %). El tipo de mecanismo también afecta a la accuracy (Figura 4.12), siendo el MCAR el que mejores resultados obtiene (de media un 2 % más de accuracy), seguido de MAR (1 %) y MNAR.

Respecto al resto de variables implicadas en los resultados caben destacar: el número de datos faltantes al impactar directamente sobre los resultados, empeorando la accuracy a mayor porcentaje de ellos. En particular, esta caída ha sido más intensa en el mecanismo MNAR sobre todo al eliminar los registros faltantes obteniendo con diferencia los perores resultados (gráfico 4.10). Al amputar las variables más relevantes del modelo (gráfico 4.14) se observa que el error es más alto y su variabilidad más baja.

Para las pruebas de Naniar se toma como referencia un modelo de Gradient Boosting entrenado con un conjunto de datos al que se le ha aplicado un listwise deletion (eliminación de toda las filas que contengan algún dato faltante). Sobre ese conjunto de datos se aplican las funciones de Naniar para analizar los patrones y posteriormente se imputan con las recomendaciones obtenidas en el primer experimento.

Tras la aplicación de las funciones de Naniar y el proceso propuesto por el autor, se ha conseguido realizar una apropiada imputación teniendo en cuenta las características del con junto de datos y se han detectado los mecanismos que producían la falta de datos. Alcanzando así una reducción del 20 % en el error de la predicción.

More information

Item ID: 75895
DC Identifier: https://oa.upm.es/75895/
OAI Identifier: oai:oa.upm.es:75895
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 15 Sep 2023 09:59
Last Modified: 15 Sep 2023 09:59
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM