Extensiones de PMML para el preproceso de datos en proyectos de data mining

Beato Castro, Lisibonny (2008). Extensiones de PMML para el preproceso de datos en proyectos de data mining. Thesis (Master thesis), Facultad de Informática (UPM).

Description

Title: Extensiones de PMML para el preproceso de datos en proyectos de data mining
Author/s:
  • Beato Castro, Lisibonny
Contributor/s:
  • Menasalvas Ruiz, Ernestina
Item Type: Thesis (Master thesis)
Masters title: Tecnologías de la Información (extinguido)
Date: September 2008
Subjects:
Faculty: Facultad de Informática (UPM)
Department: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

Desde hace algunos años CRISP-DM se ha establecido como el modelo de procesos por excelencia para el planeamiento y la ejecución de proyectos de Data Mining, describiendo las tareas más comúnmente utilizadas por los expertos en Data Mining para atacar los problemas. Una de las fases de este es la de Data Understanding que busca que el analista se familiarice con el dato, obtenga impresiones iniciales de su estado e identifique problemas de calidad del mismo previas a su preparación y posterior modelado. Se estima que el 80% del esfuerzo desde el inicio de esta fase hasta la compleción del modelo se invierte preparando el dato para el modelado [Sas00], lo que indica que esta fase, como primera parte del proceso de preparación, es clave en el éxito de los proyectos de Data Mining. Esta fase establece fuertes relaciones de colaboración con las fases de Business Understanding y Data Preparation en orden de que el dato que llegue a la fase de Modelling esté en un estado óptimo para su procesamiento. Dado que los avances en computación ubicua permiten abordar proyectos de Minería de Datos de gran tamaño, las tareas pueden ser realizadas por varios sujetos ubicados en puntos geográficos distintos, utilizando una gran variedad de técnicas, dispositivos y herramientas para desempeñar sus funciones. Es por esta razón que se hace necesario que los sujetos hablen un lenguaje común que les permita comunicar los resultados de sus tareas a los demás sujetos involucrados en el proceso. Si bien es cierto que CRISP-DM facilita la ejecución de los proyectos de Data Mining, carece del rigor formal necesario para la comunicación entre sistemas de software, por lo que la necesidad de un estándar para la limpieza, transformación y preparación de los datos a ser modelados es uno de los retos que aún sigue enfrentado la minería de datos en términos de estandarización [Grossman06]. Actualmente existe PMML [Dmg07], un lenguaje basado en XML que provee una manera para definir modelos de Data Mining y compartir estos modelos entre las distintas aplicaciones. Aparte de las ventajas de que está basado en XML, su código abierto e independiente de plataformas y su flexible mecanismo de extensiones, lo hacen un lenguaje modelo para su adaptación a otras fases del proceso de Data Mining. Esta es la motivación principal de esta tesis de master en la que se proponen extensiones a PMML para adaptarlo a las necesidades de especificación y transmisión de resultados de la fase de Data Understanding, facilitando la interacción entre los diversos actores del proceso y permitiendo mejorar el flujo de trabajo de la fase cuando dichos actores deben trabajar bajo condiciones de ubicuidad y colaboración.

More information

Item ID: 1345
DC Identifier: http://oa.upm.es/1345/
OAI Identifier: oai:oa.upm.es:1345
Deposited by: Archivo Digital UPM
Deposited on: 23 Jan 2009
Last Modified: 23 Dec 2016 08:46
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM