Método de adquisición de modelos de dominio a partir de corpus textuales y su aplicación en la integración de bases de datos y fuentes de información

García Remesal, Miguel (2006). Método de adquisición de modelos de dominio a partir de corpus textuales y su aplicación en la integración de bases de datos y fuentes de información. Thesis (Doctoral), Facultad de Informática (UPM).

Description

Title: Método de adquisición de modelos de dominio a partir de corpus textuales y su aplicación en la integración de bases de datos y fuentes de información
Author/s:
  • García Remesal, Miguel
Contributor/s:
  • Billhardt, Holger
  • Maojo García, Víctor
Item Type: Thesis (Doctoral)
Date: February 2006
Subjects:
Faculty: Facultad de Informática (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

La llamada “sociedad de la información” y el rápido crecimiento de la Web han favorecido la aparición de numerosas fuentes “on-line” que contienen grandes cantidades de datos e información. Es por ello que se hace necesaria la creación de nuevos métodos y herramientas para facilitar el acceso integrado a todos estos recursos a través de Internet. En esta tesis doctoral se presentan una serie de métodos y herramientas cuyo propósito es llevar a cabo la integración de fuentes estructuradas (normalmente bases de datos relacionales) con fuentes no estructuradas (como colecciones de documentos de texto “plano”). Para ello, se parte del trabajo previo realizado por el autor de esta tesis en el desarrollo de OntoFusion, un sistema que permite llevar a cabo la integración de fuentes estructuradas siguiendo un enfoque basado en repositorios virtuales y el uso de modelos de dominio. A priori, los métodos y herramientas proporcionados por OntoFusion no pueden ser utilizados para integrar ambos tipos de fuentes, ya que las fuentes no estructuradas carecen de 1) un modelo de datos físico que las describa, y 2) un mecanismo de recuperación de información que permita ejecutar preguntas formuladas en base al modelo de datos. Para solucionar estos problemas, en este trabajo se propone: 1) crear un método que permita obtener, a partir de una fuente no estructurada, un modelo de dominio que describa su contenido, y 2) definir un modelo de recuperación de información para fuentes no estructuradas que pueda integrarse con la recuperación de datos en fuentes estructuradas. Este modelo de recuperación, denominado “Modelo de índices ontológicos” o MIO está basado en el modelo de recuperación más utilizado durante las últimas décadas: el modelo del espacio vectorial (MEV). La utilización conjunta de estos dos componentes, y de los métodos y herramientas desarrollados en el contexto de INFOGENMED, sugiere que es posible lograr la integración de fuentes estructuradas y no estructuradas siguiendo para ello un enfoque basado en repositorios virtuales y el uso de modelos de dominio. De cara a comprobar experimentalmente que la hipótesis anterior era cierta, se llevó a cabo un experimento de integración con un conjunto de fuentes estructuradas y no estructuradas, concluyéndose que es posible lograr la integración de ambos tipos de fuentes siguiendo la aproximación propuesta en este trabajo. Asimismo, con el propósito de evaluar el rendimiento del nuevo modelo de recuperación de información, se realizó un experimento comparativo entre el MIO y el MEV. Los resultados de este experimento demuestran empíricamente que el rendimiento del MIO es superior al del MEV para dos colecciones de documentos de prueba. La conclusión obtenida tras estos experimentos es que el uso del conocimiento contenido en los modelos de dominio asociados a las colecciones de prueba influye positivamente en el proceso de recuperación de información.

More information

Item ID: 1245
DC Identifier: http://oa.upm.es/1245/
OAI Identifier: oai:oa.upm.es:1245
Deposited by: Archivo Digital UPM
Deposited on: 28 Nov 2008
Last Modified: 20 Apr 2016 06:45
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM