A comparative study of SLMVP dimensionality reduction technique applied to classification and regression problems

Cabargas Carvajal, Pablo Antonio (2022). A comparative study of SLMVP dimensionality reduction technique applied to classification and regression problems. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: A comparative study of SLMVP dimensionality reduction technique applied to classification and regression problems
Author/s:
  • Cabargas Carvajal, Pablo Antonio
Contributor/s:
  • García Cuesta, Esteban
  • Corcho García, Óscar https://orcid.org/0000-0002-9260-0753
Item Type: Thesis (Master thesis)
Masters title: Ciencia de Datos
Date: July 2022
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_PABLO_ANTONIO_CABARGAS_CARVAJAL.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB)

Abstract

Los modelos de reduccion de dimensionalidad son algoritmos matemáticos que tiene por objetivo reducir la cantidad de características necesarias para representar la información. Cada modelo de reducción prioriza una variable distinta para preserver la mayor cantidad de information del conjunto de datos inicial, por ejemplo: "Principal Component Analysis" (PCA) preserva las componentes que concentran la mayor cantidad de varianza, Kernel Principal Component Analysis (KPCA) sostiene los mismos principios que PCA pero corrige el hecho que las componentes encontradas pueden no separar la información eficientemente dado que son una combinacion lineal de las características de entrada y por tanto propone que podría existir una dimension mas alta en la que si fuese posible encontrar ejes que separen de mejor manera la información, "Localilty Preserving Projection" genera una grilla que une cada muestra a sus k-vecinos mas cercanos asignando un peso de acuerdo a la distancia siendo posible luego proyectar los datos en un subespacion generado por la matriz de pesos, "Local Linear Embedding" genera aproximaciones lineales cerca de cada muestra proponiendo que si la data vive en una estructura entonces puede ser desdoblada. Este documento explora el comportamiento y cuan efectivos son los algoritmos de reduccion de dimensionalidad mencionados, y toma especial consideracion en el nuevo algoritmo de reducción "Supervised Local Variance Maximum preserving" (SLMVP), que no solo intenta preservar la información de cada punto respecto a su entorno sino que tambien incorporar la informacion de la cercanía de las muestras entre sus etiquetas. Para abordar el primer objetivo, un conjunto de datos artificiales de 1000 muestras y 300 características con 4 clusters gausianos fue creado y sobre el se han aplicado todos los algoritmos de dimensionalidad ya comentados para obtener una reducción de solo 2 características, posteriormente se ha evaluado el desempeño de las reducciones usando un clasificador SVM. El escenario antes descrito es usado como escenario base y comparado con otros 3 escenarios, uno donde se duplica la distancia entre clusters para evaluar la capacidad de los modelos de reducción para preservar la separación de clusters, otro escenario donde se han reemplazado características por otras redundantes para evaluar la tolerancia información ya presente, y finalmente un tercer escenario al cual se le añade ruido a un quinto de las muestras ara evaluar la tolerancia ante outliers En segunda instancia, para evaluar la efectividad de los modelos de reducción para distintas características de salida, cada modelo es puesto a prueba en 2 problemas de clasificación y 3 de regresion de datos reales, usando las formas correspondientes de Arbol de decisión, Support Vector Machine (SVM),K-Neighbors , Gaussian Naive Bayes and XGboost de acuerdo al problema estudiado y se analiza el comportamiento segun número de características reducidas y siempre tomando especial consideracion a los resultados comparativos respecto del modelo presentado SLMVP. Los resultados sobre el primer experimento descrito muestran que SLMVP se comporta adecuadamente cuando es sometido a la preservacion de la separación de clusters y además el algoritmo es robusto ante la información redundante y la presencia de outliers, lo cual es atribuido a la inclusion de información en etiquetas. Mientras que en el segundo experimento, se observa que SLMVP tiende a estar en el top 3 de algoritmos evaluados y 2 descubrimientos relevantes son descritos, primero el hecho de que SLMVP tiende a obtener mejores resultados en comparación a otros modelos mientras menos muestras se usen, tomando ventaja de la informacion de etiquetas, y segundo el hecho de que la calibración de SLMVP es un desafío abierto debido a los rangos con los que satura uno de los parámetros del modelo.---ABSTRACT---Reduction Models are mathematical algorithms that seek to reduce the amount of features required to represent the information. Each reduction model prioritizes a different variable to preserve the maximum ammount of information of the original dataset, for instance: Principal Component Analysis (PCA) tries to preserve the components that hold the maximum variance , Kernel Principal Component Analysis (KPCA) holds the same principle as PCA but repairs on the fact that components found do not separate the information efficiently since they are linear combination of the input features and ,that it would be more efficient to split data ,to perform the calculations on a higher dimension, Locality Preserving Projection generates a grid that joins every sample to their k closest neighbors with a certain weight and projects the original data on the subspace spanned by the weight matrix, Local Linear Embedding generates linear approximations close to each point proposing that, if data lives on a manifold then this could be unfolded. This document explores the behaviour and how effective are the reduction algorithms mentioned and takes special consideration on the novel reduction algorithm Supervised Local Variance Maximum Preserving (SLMVP), which not just tries to preserve how is the spread of input data is but also its relation with the labels and their spread on the label subspace. To address the first objective, an artificial database with 1000 samples and 300 features and 4 gaussian distributed clusters has been created and over it has been applied all the reduction algorithms aforementioned to obtain a dataset of only 2 features, and then evaluated its performance with a SVM classifier, this base scenario performance has been compared with other 3 scenarios, one where clusters distance has been doubled to evaluate reduction models capacity to preserve separation of clusters, another scenario where redundant features have been added to evaluate tolerance to redundant information and finally a third scenario adding noise to a fifth part of the samples to evaluate tolerance against outliers. Secondly in order to evaluate Reduction Models effectiveness when reducing for different output dimensions, each algorithm is tested on 2 classification and 3 regression real data problems , using the corresponding form of Tree model, Support Vector Machine (SVM), K-Neighbors, Gaussian Naive Bayes and XGboost according to the studied problem and analyzed their behaviour per number of reduced features and always taking special consideration to the comparative against the novel model presented SLMVP. The results regarding the first experiment show that SLMVP behaves appropiately when it comes to preserving clusters separation and is robust against redundant information and outliers due to the inclusion of label information. While on the second experiment its observed that SLMVP tends to be on the top 3 evaluated algorithms and 2 relevant insights are described, the fact that SLMVP tends to get better results compared to other models while less features are used, taking advantage of label information and that its calibration is an open challenge since one of its parameters saturates.

More information

Item ID: 71382
DC Identifier: https://oa.upm.es/71382/
OAI Identifier: oai:oa.upm.es:71382
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 26 Jul 2022 11:38
Last Modified: 26 Jul 2022 11:38
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM