Evaluación de búsquedas mediante términos compuestos en corpus de dominios diversos

Sainz del Nogal, Álvaro (2020). Evaluación de búsquedas mediante términos compuestos en corpus de dominios diversos. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Evaluación de búsquedas mediante términos compuestos en corpus de dominios diversos
Author/s:
  • Sainz del Nogal, Álvaro
Contributor/s:
  • Corcho García, Óscar
  • Rico Almodóvar, Mariano
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 2020
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB) | Preview

Abstract

En este proyecto se exponen los resultados obtenidos en una extensa evaluación de dos tecnologías de búsqueda: Quanteda y Solr. Estos motores de búsqueda se han usado en el ámbito de la búsqueda de términos complejos en corpus de toda clase de dominios. Se ha usado el lenguaje de programación R para la arquitectura de las búsquedas, y se han integrado con la aplicación keyQ-Airbus, una aplicación de búsqueda del AI.nnovation Space, un centro de innovación de la Universidad Politécnica de Madrid (UPM) situado en la ETSIINF, cuya labor es la de desarrollar ideas innovadoras en el campo de la inteligencia artificial y llevarlas al mercado. Se ha realizado un estado del arte de tres tecnologías diferentes: (1) Shiny, una tecnología de RStudio diseñada para R que permite crear servidores de R y aporta un sistema con un funcionamiento reactivo de entradas y salidas, (2) Quanteda, un motor de búsqueda específicamente diseñado para R que permite crear y modificar corpus de documentos, realizar búsquedas en contexto en ellos, extraer sus estadísticas y realizar análisis avanzados en ellos, y (3) Solr, una tecnología de búsqueda independiente de R que permite realizar búsquedas verticales en colecciones de documentos, y con la funcionalidad de poder realizar búsquedas parciales. Se ha encontrado un problema respecto a la escalabilidad de los corpus, observando que los tiempos de respuesta de las búsquedas crecían respecto al número de tokens de los mismos, y resultaban ser demasiado elevados a medida que crecían en tamaño. Para intentar solucionar el problema se ha realizado una investigación y se ha propuesto utilizar Solr como nuevo motor de búsqueda para intentar obtener unos tiempos de respuesta mejores. Por otra parte, si la integración de Solr tuviese éxito se ha propuesto combinar ambas tecnologías para obtener lo mejor de cada una, y poder realizar búsquedas rápidas con la funcionalidad extra que ofrece Quanteda. Se ha realizado una evaluación de los tiempos de respuesta en ambas tecnologías con corpus de diferente tamaño, se ha demostrado la hipótesis que confirmaba el problema de escalabilidad con Quanteda y se han obtenidos resultados positivos con las búsquedas de Solr. La evaluación se ha realizado mediante una serie de experimentos desarrollados en la fase de desarrollo, y que han permitido tanto evaluar las tecnologías de búsqueda como la integración y combinación de Solr. Se han expuesto y explicado los resultados de analizar la evaluación realizada, se ha propuesto una solución basada en búsquedas parciales con Solr, y se muestran ejemplos de uso dentro de la aplicación keyQ-Airbus. Para finalizar, se mencionan las conclusiones finales que se han obtenido tras el análisis de los resultados, y se proponen nuevas líneas de investigación y desarrollo para el futuro.---ABSTRACT---This project presents the results obtained in an extensive evaluation of two search technologies: Quanteda and Solr. These search engines have been used in the field of searching for complex terms in corpus in different domains. The R programming language has been used for the architecture of the searches, and they have been integrated with the keyQ-Airbus application, a search application of AI.nnovation Space, an innovation center of the Universidad Politécnica de Madrid (UPM) located in the ETSIINF, whose task is to develop innovative ideas in the field of artificial intelligence and bring them to the market. Three different technologies have been developed in a state of the art way: (1) Shiny, an RStudio technology designed for R that allows to create R servers and provides a system with a reactive operation of inputs and outputs, (2) Quanteda, a search engine specifically designed for R that allows to create and modify document corpora, to perform context searches on them, to extract their statistics and to perform advanced analysis on them, and (3) Solr, an R-independent search technology that allows to perform vertical searches on document collections, and with the functionality of being able to perform partial searches. A problem has been found regarding corpus scalability, noting that search response times were increasing with respect to the number of corpus tokens, and were becoming too high as they grew in size. To try to solve the problem, research has been done and it has been proposed to use Solr as a new search engine to try to obtain better response times. On the other hand, if the integration of Solr is successful, it is proposed to combine both technologies to get the best of each, and to be able to perform fast searches with the extra functionality offered by Quanteda. An evaluation of the response times in both technologies has been carried out with different size corpus, the hypothesis confirming the scalability problem with Quanteda has been demonstrated and positive results have been obtained with Solr searches. The evaluation has been carried out through a series of experiments developed in the development phase, which have allowed both the evaluation of the search technologies and the integration and combination of Solr. The results of analyzing the evaluation have been presented and explained, a solution based on partial searches with Solr has been proposed, and examples of use within the keyQ-Airbus application are shown. Finally, the final conclusions obtained from the analysis of the results are mentioned, and new lines of research and development are proposed for the future.

More information

Item ID: 63698
DC Identifier: http://oa.upm.es/63698/
OAI Identifier: oai:oa.upm.es:63698
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 09 Sep 2020 17:08
Last Modified: 09 Sep 2020 17:08
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM