Aportación a la extracción de conocimiento aplicada a datos mediante agrupamientos y sistemas difusos

Ojeda Magaña, Benjamín (2010). Aportación a la extracción de conocimiento aplicada a datos mediante agrupamientos y sistemas difusos. Thesis (Doctoral), E.T.S.I. Telecomunicación (UPM).

Description

Title: Aportación a la extracción de conocimiento aplicada a datos mediante agrupamientos y sistemas difusos
Author/s:
  • Ojeda Magaña, Benjamín
Contributor/s:
  • Andina de la Fuente, Diego
  • Ruelas Lepe, Rubén
Item Type: Thesis (Doctoral)
Date: 2010
Subjects:
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Señales, Sistemas y Radiocomunicaciones
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB) | Preview

Abstract

Resumen Los avances en la tecnología en los últimos años han propiciado que se generen y se recolecten grandes cantidades de datos principalmente numéricos, y hay un gran interés en procesarlos para extraer información y conocimiento de ellos, con el principal objetivo de hacer más eficientes los sistemas de donde se han obtenido estos datos. La información en una base de datos se encuentra implícita en los valores que representan los diferentes estados de los sistemas, mientras que el conocimiento está implícito en las relaciones entre los valores de los diferentes atributos o características presentes en las bases de datos. Dichas relaciones se identifican mediante grupos (estructura interna) que hay que descubrir y que describen las relaciones entre los estados de entrada y de salida. Para ello se han desarrollado diferentes técnicas, una de las cuales es mediante los algoritmos de agrupamiento particionales. En esta Tesis se propone una aportación a la extracción de información y de conocimiento a partir de bases de datos numéricas, usando para ello algoritmos de agrupamiento particionales híbridos difusos. La información se extrae mediante la agrupación y la caracterización de datos en típicos, atípicos y ruido, así como en la aplicación a la sub-segmentación de imágenes, donde se propone un nuevo enfoque con características interesantes para la detección de píxeles atípicos, que pueden ser relacionados a microcalcificaciones para la detección de cáncer de mama, o a los nudos en la madera para evaluar su calidad, ambos casos tratados en esta tesis, o en cualquier otra aplicación de salud o industrial por ejemplo, en donde no importa si los píxeles a encontrar están presentes en muy pequeñas cantidades. El conocimiento se extrae mediante el establecimiento de dos modelos difusos de tipo Takagi-Sugeno que permiten la clasificación y caracterización automática de datos nuevos. Con ello se tiene un sistema capaz de producir información acerca de los datos numéricos procesados con estos modelos. En este trabajo hemos utilizado principalmente el algoritmo de agrupamiento híbrido PFCM (Possibilistic Fuzzy c- Means) al que hemos incorporado una mejora, cuyo algoritmo hemos denominado GKPFCM (Gustafson-Kessel Possibilistic Fuzzy c-Means), y que permite encontrar grupos con formas más aproximadas a las distribuciones naturales de los grupos de datos. Esto queda de manifiesto en un aprendizaje no supervisado para la identificación de plátanos y tomates maduros y verdes que se presentan también en este documento. Entre los principales resultados obtenidos en el desarrollo de esta tesis podemos citar: Se propone un nuevo enfoque para la sub-segmentación de imágenes digitales, aquí basado en el algoritmo de agrupamiento PFCM. El propósito es poder determinar subgrupos de datos (píxeles) de interés que pueden ser los datos típicos o los atípicos, aunque en muchas aplicaciones, particularmente en diagnóstico, son estos últimos los de más interés. En esta tesis mostramos dos aplicaciones a casos reales. Se mejora el algoritmo PFCM (GKPFCM) al incorporar la distancia de Mahalanobis ya que los grupos encontrados tienen una mejor aproximación a la distribución natural de los datos. Asimismo, se propone la construcción de un clasificador que permite obtener automáticamente información de datos nuevos al clasificarlos y caracterizarlos como típicos, atípicos o ruido. El clasificador está basado en dos modelos difusos de tipo Takagi-Sugeno, el cual obtiene sus parámetros a partir de los resultados generados por el algoritmo GKPFCM Abstract In recent years technological advances have led to the generation and collection of large amount of mainly numerical data, and there is a great interest on processing them for extract knowledge and information with the main objective of making systems more efficient where these data were obtained from. Information in a database is found implicit in the values that represent the system different states while knowledge is implicit in relations between the different attribute values or features of the data base. Those relations are identified by groups (internal structure) that must be discovered and that describe relations between input and output states. For this purpose different techniques have been developed, one of which is through partitional clustering algorithms. In this thesis a contribution to knowledge is proposed and information extraction from numerical databases through fuzzy hybrid partitional clustering algorithms. Information is extracted by grouping and characterizing data in typical, atypical and noise, as well as application to image sub-segmentation where a new approach is proposed with interesting characteristics for detecting atypical pixels that could be linked to microcalcifications in order to detect breast cancer, or wood knots for assess its quality, both cases treated on this thesis, or in any other application for industry or health, in example, where it does not matter if pixels to find are in very small quantities. Knowledge is extracted through setting up two fuzzy models of type Takagi-Sugeno that allows automatic characterization and classification of new data. This will gives a system able to produce information about the processed numerical data with these models. On this job we have mainly used the hybrid clustering algorithm PFCM (Possibilistic Fuzzy c-Means) where which we have added an improvement whose algorithm were called GKPFCM (Gustafson-Kessel Possibilistic Fuzzy c-Means) and that allows to find groups with patterns more approximated to natural distributions of the data groups. This is reflected in an unsupervised learning for identification of bananas, ripe and unripe tomatoes also presented in this document. Within major achievements of this thesis development we can cite: Is proposed a new approach for sub-segmentation of digital images based on the clustering algorithm PFCM. The purpose is to identify data sub-groups of interest that could be atypical or typical data while in many applications, particularly in diagnosis, these last are the more interesting ones. In this thesis we show up two applications for real cases. Is improved the PFCM (GKPFCM) algorithm by embodying the Mahalanobis distance because the found groups have a better approximation to the data distribution. Also is proposed a construction of a classifier that makes possible to obtain information automatically from new data by classifying and characterising them as typical, atypical or noise. Classifier is based on two fuzzy models of type Takagi-Sugeno which obtains its parameters from results generated by the GKPFCM algorithm. vi

More information

Item ID: 4838
DC Identifier: http://oa.upm.es/4838/
OAI Identifier: oai:oa.upm.es:4838
Deposited by: Archivo Digital UPM
Deposited on: 05 Nov 2010 11:58
Last Modified: 20 Apr 2016 13:54
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM