Aportación a la extracción de conocimiento aplicada a datos mediante agrupamientos y sistemas difusos

Ojeda Magaña, Benjamín (2010). Aportación a la extracción de conocimiento aplicada a datos mediante agrupamientos y sistemas difusos. Tesis (Doctoral), E.T.S.I. Telecomunicación (UPM).

Descripción

Título: Aportación a la extracción de conocimiento aplicada a datos mediante agrupamientos y sistemas difusos
Autor/es:
  • Ojeda Magaña, Benjamín
Director/es:
  • Andina de la Fuente, Diego
  • Ruelas Lepe, Rubén
Tipo de Documento: Tesis (Doctoral)
Fecha: 2010
Materias:
Escuela: E.T.S.I. Telecomunicación (UPM)
Departamento: Señales, Sistemas y Radiocomunicaciones
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (4MB) | Vista Previa

Resumen

Resumen Los avances en la tecnología en los últimos años han propiciado que se generen y se recolecten grandes cantidades de datos principalmente numéricos, y hay un gran interés en procesarlos para extraer información y conocimiento de ellos, con el principal objetivo de hacer más eficientes los sistemas de donde se han obtenido estos datos. La información en una base de datos se encuentra implícita en los valores que representan los diferentes estados de los sistemas, mientras que el conocimiento está implícito en las relaciones entre los valores de los diferentes atributos o características presentes en las bases de datos. Dichas relaciones se identifican mediante grupos (estructura interna) que hay que descubrir y que describen las relaciones entre los estados de entrada y de salida. Para ello se han desarrollado diferentes técnicas, una de las cuales es mediante los algoritmos de agrupamiento particionales. En esta Tesis se propone una aportación a la extracción de información y de conocimiento a partir de bases de datos numéricas, usando para ello algoritmos de agrupamiento particionales híbridos difusos. La información se extrae mediante la agrupación y la caracterización de datos en típicos, atípicos y ruido, así como en la aplicación a la sub-segmentación de imágenes, donde se propone un nuevo enfoque con características interesantes para la detección de píxeles atípicos, que pueden ser relacionados a microcalcificaciones para la detección de cáncer de mama, o a los nudos en la madera para evaluar su calidad, ambos casos tratados en esta tesis, o en cualquier otra aplicación de salud o industrial por ejemplo, en donde no importa si los píxeles a encontrar están presentes en muy pequeñas cantidades. El conocimiento se extrae mediante el establecimiento de dos modelos difusos de tipo Takagi-Sugeno que permiten la clasificación y caracterización automática de datos nuevos. Con ello se tiene un sistema capaz de producir información acerca de los datos numéricos procesados con estos modelos. En este trabajo hemos utilizado principalmente el algoritmo de agrupamiento híbrido PFCM (Possibilistic Fuzzy c- Means) al que hemos incorporado una mejora, cuyo algoritmo hemos denominado GKPFCM (Gustafson-Kessel Possibilistic Fuzzy c-Means), y que permite encontrar grupos con formas más aproximadas a las distribuciones naturales de los grupos de datos. Esto queda de manifiesto en un aprendizaje no supervisado para la identificación de plátanos y tomates maduros y verdes que se presentan también en este documento. Entre los principales resultados obtenidos en el desarrollo de esta tesis podemos citar: Se propone un nuevo enfoque para la sub-segmentación de imágenes digitales, aquí basado en el algoritmo de agrupamiento PFCM. El propósito es poder determinar subgrupos de datos (píxeles) de interés que pueden ser los datos típicos o los atípicos, aunque en muchas aplicaciones, particularmente en diagnóstico, son estos últimos los de más interés. En esta tesis mostramos dos aplicaciones a casos reales. Se mejora el algoritmo PFCM (GKPFCM) al incorporar la distancia de Mahalanobis ya que los grupos encontrados tienen una mejor aproximación a la distribución natural de los datos. Asimismo, se propone la construcción de un clasificador que permite obtener automáticamente información de datos nuevos al clasificarlos y caracterizarlos como típicos, atípicos o ruido. El clasificador está basado en dos modelos difusos de tipo Takagi-Sugeno, el cual obtiene sus parámetros a partir de los resultados generados por el algoritmo GKPFCM Abstract In recent years technological advances have led to the generation and collection of large amount of mainly numerical data, and there is a great interest on processing them for extract knowledge and information with the main objective of making systems more efficient where these data were obtained from. Information in a database is found implicit in the values that represent the system different states while knowledge is implicit in relations between the different attribute values or features of the data base. Those relations are identified by groups (internal structure) that must be discovered and that describe relations between input and output states. For this purpose different techniques have been developed, one of which is through partitional clustering algorithms. In this thesis a contribution to knowledge is proposed and information extraction from numerical databases through fuzzy hybrid partitional clustering algorithms. Information is extracted by grouping and characterizing data in typical, atypical and noise, as well as application to image sub-segmentation where a new approach is proposed with interesting characteristics for detecting atypical pixels that could be linked to microcalcifications in order to detect breast cancer, or wood knots for assess its quality, both cases treated on this thesis, or in any other application for industry or health, in example, where it does not matter if pixels to find are in very small quantities. Knowledge is extracted through setting up two fuzzy models of type Takagi-Sugeno that allows automatic characterization and classification of new data. This will gives a system able to produce information about the processed numerical data with these models. On this job we have mainly used the hybrid clustering algorithm PFCM (Possibilistic Fuzzy c-Means) where which we have added an improvement whose algorithm were called GKPFCM (Gustafson-Kessel Possibilistic Fuzzy c-Means) and that allows to find groups with patterns more approximated to natural distributions of the data groups. This is reflected in an unsupervised learning for identification of bananas, ripe and unripe tomatoes also presented in this document. Within major achievements of this thesis development we can cite: Is proposed a new approach for sub-segmentation of digital images based on the clustering algorithm PFCM. The purpose is to identify data sub-groups of interest that could be atypical or typical data while in many applications, particularly in diagnosis, these last are the more interesting ones. In this thesis we show up two applications for real cases. Is improved the PFCM (GKPFCM) algorithm by embodying the Mahalanobis distance because the found groups have a better approximation to the data distribution. Also is proposed a construction of a classifier that makes possible to obtain information automatically from new data by classifying and characterising them as typical, atypical or noise. Classifier is based on two fuzzy models of type Takagi-Sugeno which obtains its parameters from results generated by the GKPFCM algorithm. vi

Más información

ID de Registro: 4838
Identificador DC: http://oa.upm.es/4838/
Identificador OAI: oai:oa.upm.es:4838
Depositado por: Archivo Digital UPM
Depositado el: 05 Nov 2010 11:58
Ultima Modificación: 20 Abr 2016 13:54
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM