Método de adquisición de modelos de dominio a partir de corpus textuales y su aplicación en la integración de bases de datos y fuentes de información

García Remesal, Miguel (2006). Método de adquisición de modelos de dominio a partir de corpus textuales y su aplicación en la integración de bases de datos y fuentes de información. Tesis (Doctoral), Facultad de Informática (UPM) [antigua denominación].

Descripción

Título: Método de adquisición de modelos de dominio a partir de corpus textuales y su aplicación en la integración de bases de datos y fuentes de información
Autor/es:
  • García Remesal, Miguel
Director/es:
  • Billhardt, Holger
  • Maojo García, Víctor
Tipo de Documento: Tesis (Doctoral)
Fecha: Febrero 2006
Materias:
Escuela: Facultad de Informática (UPM) [antigua denominación]
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa

Resumen

La llamada “sociedad de la información” y el rápido crecimiento de la Web han favorecido la aparición de numerosas fuentes “on-line” que contienen grandes cantidades de datos e información. Es por ello que se hace necesaria la creación de nuevos métodos y herramientas para facilitar el acceso integrado a todos estos recursos a través de Internet. En esta tesis doctoral se presentan una serie de métodos y herramientas cuyo propósito es llevar a cabo la integración de fuentes estructuradas (normalmente bases de datos relacionales) con fuentes no estructuradas (como colecciones de documentos de texto “plano”). Para ello, se parte del trabajo previo realizado por el autor de esta tesis en el desarrollo de OntoFusion, un sistema que permite llevar a cabo la integración de fuentes estructuradas siguiendo un enfoque basado en repositorios virtuales y el uso de modelos de dominio. A priori, los métodos y herramientas proporcionados por OntoFusion no pueden ser utilizados para integrar ambos tipos de fuentes, ya que las fuentes no estructuradas carecen de 1) un modelo de datos físico que las describa, y 2) un mecanismo de recuperación de información que permita ejecutar preguntas formuladas en base al modelo de datos. Para solucionar estos problemas, en este trabajo se propone: 1) crear un método que permita obtener, a partir de una fuente no estructurada, un modelo de dominio que describa su contenido, y 2) definir un modelo de recuperación de información para fuentes no estructuradas que pueda integrarse con la recuperación de datos en fuentes estructuradas. Este modelo de recuperación, denominado “Modelo de índices ontológicos” o MIO está basado en el modelo de recuperación más utilizado durante las últimas décadas: el modelo del espacio vectorial (MEV). La utilización conjunta de estos dos componentes, y de los métodos y herramientas desarrollados en el contexto de INFOGENMED, sugiere que es posible lograr la integración de fuentes estructuradas y no estructuradas siguiendo para ello un enfoque basado en repositorios virtuales y el uso de modelos de dominio. De cara a comprobar experimentalmente que la hipótesis anterior era cierta, se llevó a cabo un experimento de integración con un conjunto de fuentes estructuradas y no estructuradas, concluyéndose que es posible lograr la integración de ambos tipos de fuentes siguiendo la aproximación propuesta en este trabajo. Asimismo, con el propósito de evaluar el rendimiento del nuevo modelo de recuperación de información, se realizó un experimento comparativo entre el MIO y el MEV. Los resultados de este experimento demuestran empíricamente que el rendimiento del MIO es superior al del MEV para dos colecciones de documentos de prueba. La conclusión obtenida tras estos experimentos es que el uso del conocimiento contenido en los modelos de dominio asociados a las colecciones de prueba influye positivamente en el proceso de recuperación de información.

Más información

ID de Registro: 1245
Identificador DC: http://oa.upm.es/1245/
Identificador OAI: oai:oa.upm.es:1245
Depositado por: Archivo Digital UPM
Depositado el: 28 Nov 2008
Ultima Modificación: 20 Abr 2016 06:45
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM