Continuous data imputation applied to massive instances

Zapatero Sánchez, Jorge (2019). Continuous data imputation applied to massive instances. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Continuous data imputation applied to massive instances
Author/s:
  • Zapatero Sánchez, Jorge
Contributor/s:
  • Bielza Lozoya, Concepción
  • Larrañaga Múgica, Pedro
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: October 2019
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

La presencia de datos faltantes es, más que una excepción, una regla. Existentes en la mayoría de datasets que contienen datos reales, el tratamiento de estos datos desconocidos es prácticamente inevitable en proyectos basados en el uso de datos extraidos del mundo real. Pese a la cómoda inclinación hacia métodos de eliminación de estos datos, evitando un tratamiento más concienzudo de éstos, la literatura existente recomienda en la gran mayoría de los casos intentar inducir el valor que tendrían dichos datos si no fueran desconocidos mediante técnicas de imputación. Debido a la falta de trabajos en el campo de la imputación sobre datasets que contienen un gran número de instancias, este projecto fin de máster propone un estudio aplicativo, en el cual se usan y evalúan tanto técnicas de imputación como de regresión con el objetivo de obtener un dataset completo a partir de uno incompleto el cual contiene 556.950 instancias con 31 variables continuas a imputar. Con el propósito de un estudio sistemático y diverso de cómo se comportan las diferentes técnicas usadas, se propone un marco de trabajo donde se evalúa la calidad de la imputación bajo diferentes porcentajes de instancias conteniendo valores faltantes y diferentes mecanismos por los cuales éstos se producen.---ABSTRACT---The presence of missing values is more a rule than an exception. Existing in the majority of datasets containing real data, the treatment of these unknown values is all but inevitable in projects based on data extracted from real life. Despite the seemingly tantalizing option of removing such data, which would prevent any further treatment, the existing literature on the matter suggests to infer the value they would take if they were not unknown through the use of imputation methods. Given the relative scarcity of research on imputation over datasets containing a large amount of instances, this master’s thesis puts forth an applicative study in which both, imputation and regression techniques are used to impute the missing values over an incomplete dataset containing 556,950 instances with 31 continuous variables to be imputed. Intent on expounding on the behaviour of the different selected methods in a systematic and diverse study, a validation framework is designed with the purpose of evaluating imputation quality under different amounts of incomplete instances and missing data mechanisms.

More information

Item ID: 57093
DC Identifier: http://oa.upm.es/57093/
OAI Identifier: oai:oa.upm.es:57093
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 28 Oct 2019 14:28
Last Modified: 28 Oct 2019 14:28
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM