Sistema interactivo para la creación de terminologías basado en patrones morfosintácticos

Hernández Vegas, Pedro (2019). Sistema interactivo para la creación de terminologías basado en patrones morfosintácticos. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Sistema interactivo para la creación de terminologías basado en patrones morfosintácticos
Author/s:
  • Hernández Vegas, Pedro
Contributor/s:
  • Corcho García, Óscar
  • Rico Almodóvar, Mariano
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 2019
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview

Abstract

La extracción de terminologías (TE, del inglés, Term Extraction) es un componente esencial en muchas aplicaciones del Procesamiento del Lenguaje Natural. En la actualidad, existen multitud de técnicas desarrolladas en este proceso que emplean métodos supervisados y no supervisados en función del contexto del problema que se desea afrontar. Centrándonos en los métodos no supervisados, más concretamente aquellos que emplean expresiones regulares, han demostrado ser de gran utilidad en dominios con terminologías técnicas y jergas muy especializada [1] y/o aquellos dominios en los que no se dispone de un conjunto de datos etiquetado con su terminología asociada. En este trabajo de n de máster se pretende abordar el problema que supone la creación de expresiones regulares de dominio específico desarrollando una herramienta interactiva que permite a los expertos la creación de terminologías a través de la elección del modelo de etiquetado morfosintáctico (Part Of Speech) y la creación de expresiones regulares completamente personalizables. Otro problema persistente reside en las dificultades de clasificar terminologías provenientes de diversos métodos cuando las diferencias entre los resultados no son notables a simple vista. Para abordar este problema se emplean técnicas de clasificación de términos [2] que facilitan el trabajo a expertos que son capaces de comparar y clasificar las terminologías, pero este proceso requiere la inversión de una gran cantidad de tiempo y esfuerzo. En este trabajo, se pretende incorporar en la herramienta de creación de terminologías la capacidad de generar clasificaciones de términos de manera automática a través de varios métodos diferentes, facilitando así el proceso de comparación de terminologías de manera interna en la propia herramienta, sin importar el método que se ha empleado para su obtención. Para terminar, en este trabajo se propone la utilización de métodos de etiquetado universales (UPOS), más ricos y específicos, en el proceso de extracción de términos a través de expresiones regulares, y se pretenden poner a prueba empleando la herramienta desarrollada, enfrentando los resultados con terminologías extraídas a través de enfoques diferentes. ---ABSTRACT---Term extraction is an essential component in many Natural Language Processing (NLP) applications. Currently, there are numerous techniques which have been developed in that process and which employ supervised and unsupervised methods depending on the context of the problem to be solved. Focusing on the unsupervised methods, and to be more speci c on those that utilize regular expressions, they have proved to be very useful in domains whose technical terminology and jargon are highly specialised [1] and/or in fields for which no data set, labelled with its associated terminology is available. The purpose of this master thesis is to tackle the problem arising from the creation of regular expressions belonging to specific domains, by developing an interactive tool which permits experts to create terminologies by means of tagging and regular expressions which are completely customisable. An additional persistent problem lies in the difficulties in classifying terminologies from various methods when the differences between the results are not noticeable at a glance. In order to address this problem, techniques for the classification of terms are employed [2]. Such techniques make it easier for experts to work on comparing and classifying terminologies, but this process requires large amounts of time and e ort. In this master thesis, I will attempt to incorporate, in the tool for the creation of terminologies, the ability to generate classifications of terms automatically by means of several different methods, thus facilitating the process of comparison of terminologies internally in the tool itself, regardless of the method employed to obtain them. To conclude, in this master thesis I suggest the use of universal, richer and more specific labelling methods in the process of term extraction by the use of regular expressions; and I attempt to test them employing the developed tool, comparing the results with the terminologies drawn by means of different approaches.

More information

Item ID: 63747
DC Identifier: http://oa.upm.es/63747/
OAI Identifier: oai:oa.upm.es:63747
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 10 Sep 2020 10:54
Last Modified: 10 Sep 2020 10:54
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM