@unpublished{upm1245, month = {February}, title = {M{\'e}todo de adquisici{\'o}n de modelos de dominio a partir de corpus textuales y su aplicaci{\'o}n en la integraci{\'o}n de bases de datos y fuentes de informaci{\'o}n}, school = {Informatica}, author = {Miguel Garc{\'i}a Remesal}, year = {2006}, url = {http://oa.upm.es/1245/}, abstract = {La llamada ?sociedad de la informaci{\'o}n? y el r{\'a}pido crecimiento de la Web han favorecido la aparici{\'o}n de numerosas fuentes ?on-line? que contienen grandes cantidades de datos e informaci{\'o}n. Es por ello que se hace necesaria la creaci{\'o}n de nuevos m{\'e}todos y herramientas para facilitar el acceso integrado a todos estos recursos a trav{\'e}s de Internet. En esta tesis doctoral se presentan una serie de m{\'e}todos y herramientas cuyo prop{\'o}sito es llevar a cabo la integraci{\'o}n de fuentes estructuradas (normalmente bases de datos relacionales) con fuentes no estructuradas (como colecciones de documentos de texto ?plano?). Para ello, se parte del trabajo previo realizado por el autor de esta tesis en el desarrollo de OntoFusion, un sistema que permite llevar a cabo la integraci{\'o}n de fuentes estructuradas siguiendo un enfoque basado en repositorios virtuales y el uso de modelos de dominio. A priori, los m{\'e}todos y herramientas proporcionados por OntoFusion no pueden ser utilizados para integrar ambos tipos de fuentes, ya que las fuentes no estructuradas carecen de 1) un modelo de datos f{\'i}sico que las describa, y 2) un mecanismo de recuperaci{\'o}n de informaci{\'o}n que permita ejecutar preguntas formuladas en base al modelo de datos. Para solucionar estos problemas, en este trabajo se propone: 1) crear un m{\'e}todo que permita obtener, a partir de una fuente no estructurada, un modelo de dominio que describa su contenido, y 2) definir un modelo de recuperaci{\'o}n de informaci{\'o}n para fuentes no estructuradas que pueda integrarse con la recuperaci{\'o}n de datos en fuentes estructuradas. Este modelo de recuperaci{\'o}n, denominado ?Modelo de {\'i}ndices ontol{\'o}gicos? o MIO est{\'a} basado en el modelo de recuperaci{\'o}n m{\'a}s utilizado durante las {\'u}ltimas d{\'e}cadas: el modelo del espacio vectorial (MEV). La utilizaci{\'o}n conjunta de estos dos componentes, y de los m{\'e}todos y herramientas desarrollados en el contexto de INFOGENMED, sugiere que es posible lograr la integraci{\'o}n de fuentes estructuradas y no estructuradas siguiendo para ello un enfoque basado en repositorios virtuales y el uso de modelos de dominio. De cara a comprobar experimentalmente que la hip{\'o}tesis anterior era cierta, se llev{\'o} a cabo un experimento de integraci{\'o}n con un conjunto de fuentes estructuradas y no estructuradas, concluy{\'e}ndose que es posible lograr la integraci{\'o}n de ambos tipos de fuentes siguiendo la aproximaci{\'o}n propuesta en este trabajo. Asimismo, con el prop{\'o}sito de evaluar el rendimiento del nuevo modelo de recuperaci{\'o}n de informaci{\'o}n, se realiz{\'o} un experimento comparativo entre el MIO y el MEV. Los resultados de este experimento demuestran emp{\'i}ricamente que el rendimiento del MIO es superior al del MEV para dos colecciones de documentos de prueba. La conclusi{\'o}n obtenida tras estos experimentos es que el uso del conocimiento contenido en los modelos de dominio asociados a las colecciones de prueba influye positivamente en el proceso de recuperaci{\'o}n de informaci{\'o}n. } }