Extensiones de PMML para el preproceso de datos en proyectos de data mining

Beato Castro, Lisibonny (2008). Extensiones de PMML para el preproceso de datos en proyectos de data mining. Tesis (Master), Facultad de Informática (UPM) [antigua denominación].

Descripción

Título: Extensiones de PMML para el preproceso de datos en proyectos de data mining
Autor/es:
  • Beato Castro, Lisibonny
Director/es:
  • Menasalvas Ruiz, Ernestina
Tipo de Documento: Tesis (Master)
Título del máster: Tecnologías de la Información (extinguido)
Fecha: Septiembre 2008
Materias:
Escuela: Facultad de Informática (UPM) [antigua denominación]
Departamento: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa

Resumen

Desde hace algunos años CRISP-DM se ha establecido como el modelo de procesos por excelencia para el planeamiento y la ejecución de proyectos de Data Mining, describiendo las tareas más comúnmente utilizadas por los expertos en Data Mining para atacar los problemas. Una de las fases de este es la de Data Understanding que busca que el analista se familiarice con el dato, obtenga impresiones iniciales de su estado e identifique problemas de calidad del mismo previas a su preparación y posterior modelado. Se estima que el 80% del esfuerzo desde el inicio de esta fase hasta la compleción del modelo se invierte preparando el dato para el modelado [Sas00], lo que indica que esta fase, como primera parte del proceso de preparación, es clave en el éxito de los proyectos de Data Mining. Esta fase establece fuertes relaciones de colaboración con las fases de Business Understanding y Data Preparation en orden de que el dato que llegue a la fase de Modelling esté en un estado óptimo para su procesamiento. Dado que los avances en computación ubicua permiten abordar proyectos de Minería de Datos de gran tamaño, las tareas pueden ser realizadas por varios sujetos ubicados en puntos geográficos distintos, utilizando una gran variedad de técnicas, dispositivos y herramientas para desempeñar sus funciones. Es por esta razón que se hace necesario que los sujetos hablen un lenguaje común que les permita comunicar los resultados de sus tareas a los demás sujetos involucrados en el proceso. Si bien es cierto que CRISP-DM facilita la ejecución de los proyectos de Data Mining, carece del rigor formal necesario para la comunicación entre sistemas de software, por lo que la necesidad de un estándar para la limpieza, transformación y preparación de los datos a ser modelados es uno de los retos que aún sigue enfrentado la minería de datos en términos de estandarización [Grossman06]. Actualmente existe PMML [Dmg07], un lenguaje basado en XML que provee una manera para definir modelos de Data Mining y compartir estos modelos entre las distintas aplicaciones. Aparte de las ventajas de que está basado en XML, su código abierto e independiente de plataformas y su flexible mecanismo de extensiones, lo hacen un lenguaje modelo para su adaptación a otras fases del proceso de Data Mining. Esta es la motivación principal de esta tesis de master en la que se proponen extensiones a PMML para adaptarlo a las necesidades de especificación y transmisión de resultados de la fase de Data Understanding, facilitando la interacción entre los diversos actores del proceso y permitiendo mejorar el flujo de trabajo de la fase cuando dichos actores deben trabajar bajo condiciones de ubicuidad y colaboración.

Más información

ID de Registro: 1345
Identificador DC: http://oa.upm.es/1345/
Identificador OAI: oai:oa.upm.es:1345
Depositado por: Archivo Digital UPM
Depositado el: 23 Ene 2009
Ultima Modificación: 23 Dic 2016 08:46
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM