Modelo de descubrimiento de conocimiento para series temporales numéricas aplicando métodos simbólicos

Santamaría Falcón, Agustín (2011). Modelo de descubrimiento de conocimiento para series temporales numéricas aplicando métodos simbólicos. Tesis (Doctoral), Facultad de Informática (UPM) [antigua denominación].

Descripción

Título: Modelo de descubrimiento de conocimiento para series temporales numéricas aplicando métodos simbólicos
Autor/es:
  • Santamaría Falcón, Agustín
Director/es:
  • Caraça-Valente Hernández, Juan Pedro
  • Pérez Pérez, Aurora
Tipo de Documento: Tesis (Doctoral)
Fecha: 2011
Materias:
Escuela: Facultad de Informática (UPM) [antigua denominación]
Departamento: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (4MB) | Vista Previa

Resumen

La tesis presenta un Marco para el Descubrimiento de Conocimiento en series temporales, abordando el análisis de las mismas desde el punto de vista de la semántica de las series. La mayor parte de los trabajos realizados hasta el momento en el campo del análisis de series temporales proponen el análisis numérico de los valores de la serie, lo que permite obtener buenos resultados pero no ofrece la posibilidad de formular las conclusiones obtenidas en un lenguaje similar al que utilizaría un experto en el dominio del problema. Esto puede dificultar la justificación y la interpretación de los resultados obtenidos. Esta tesis se plantea con el objetivo de realizar el análisis de las series temporales desde un punto de vista similar al que utiliza un experto para analizarlas, incorporando conocimiento del dominio para interpretar las series temporales en términos cualitativos y no tanto cuantitativos. De esta forma se consigue explicar los resultados de una manera entendible para el experto, utilizando los mismos conceptos que él utiliza en su trabajo diario. Un sistema de estas características genera más confianza y recibirá, sin duda, una mejor acogida entre los usuarios finales. Para abordar el objetivo propuesto se plantea, en primer lugar, un mecanismo para extraer, de la serie temporal, la información que resulta de interés para el experto. Para poder hacerlo, primero se formaliza, mediante un alfabeto, el conjunto de comportamientos relevantes en el dominio. Usando este alfabeto de símbolos, el método que se ha diseñado e implementado transforma una serie temporal numérica en una secuencia simbólica que recoge toda la semántica de la serie temporal de partida y resulta más intuitiva y fácil de interpretar por el experto. Una vez que se dispone de un mecanismo para transformar las series numéricas en secuencias simbólicas, se pueden plantear todas las tareas de análisis sobre dichas secuencias de símbolos. La tesis propone una medida de la similitud entre dos secuencias simbólicas como punto de partida para la tarea de comparación, básica en cualquier actividad de data mining. Esta medida permite comparar las secuencias desde el punto de vista de la información semántica que contienen. Por otra parte, la tesis propone un método para la creación de modelos de referencia, entendiendo como modelo de un conjunto de secuencias simbólicas correspondientes a un determinado grupo de población, una secuencia simbólica representativa de todo el grupo. Este método utiliza la Programación Genética Guiada por Gramáticas para obtener el modelo de referencia, destacándose lo innovador de aplicar dicha técnica a series temporales. Con el objetivo de validar el trabajo realizado se ha aplicado al dominio médico de la isocinesia (series temporales que miden la fuerza realizada por un paciente al mover una articulación) y, en concreto, dentro de un sistema informático llamado I4 (Interfaz Inteligente para la Interpretación de una máquina de Isocinéticos). ABSTRACT This thesis presents a framework for knowledge discovery in time series, addressing time series analysis from the viewpoint of the semantics of the series. Most of the research conducted to date in the field of time series analysis recommends analysing the values of the series numerically. This outputs good results but prevents the conclusions from being formulated in a language that is familiar to the expert in the problem domain. This can be an obstacle to the justification and interpretation of the results. The purpose of this thesis is to emulate the approach that an expert would take to time series analysis, including domain knowledge to interpret the time series in qualitative rather than quantitative terms. This way, the results can be explained in a manner that is understandable to the expert, using the same concepts that experts use in their routine work. Such a system generates more confidence and will unquestionably be better accepted by the end users. The design of a mechanism to extract the information that is of interest to the expert from the time series was the first step towards achieving the proposed objective. To do this, an alphabet is used to formalize all the key behaviours in the domain. The designed and implemented method uses the symbol alphabet to transform a numerical time series into a symbolic sequence that takes in all the semantics of the original time series and is more intuitive and easier for the expert to interpret. Once a mechanism for transforming the numerical series into symbolic sequences is in place, the symbolic sequences are ready for analysis. The thesis proposes a similarity measure between two symbolic sequences as a starting point for that task of comparison. Comparison is a critical task in any data mining activity. This measure is capable of comparing the sequences from the viewpoint of the semantic information that they contain. The thesis also proposes a method for creating reference models, where a model of a set of symbolic sequences corresponding to a particular population group is defined as a symbolic sequence that is representative of the whole group. This method uses grammar-guided genetic programming to output the reference model. Note that the application of this technique to time series is an innovative development. With the aim of validating the research, it was applied to the medical domain of isokinetics (time series that measure the strength applied by a patient during joint movement) and, specifically, within a computer system called I4 (Intelligent Interface for Isokinetics Interpretation).

Más información

ID de Registro: 8762
Identificador DC: http://oa.upm.es/8762/
Identificador OAI: oai:oa.upm.es:8762
Depositado por: Archivo Digital UPM
Depositado el: 30 Ago 2011 09:56
Ultima Modificación: 20 Abr 2016 17:26
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM