Adaptación automática de oraciones subordinadas a lectura fácil en español

Antona Palacios, Julia (2023). Adaptación automática de oraciones subordinadas a lectura fácil en español. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Adaptación automática de oraciones subordinadas a lectura fácil en español
Author/s:
  • Antona Palacios, Julia
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: July 2023
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_JULIA_ANTONA_PALACIOS.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB)

Abstract

La adaptación de textos supone una de las principales tareas del procesamiento del lenguaje natural, siendo una herramienta fundamental para aumentar la accesibilidad de los textos. El proyecto presentado propone utilizar técnicas de simplificación de texto automático para adaptar oraciones subordinadas en español y es parte de una línea de investigación que busca automatizar las pautas de adaptación.

Para ello, se plantea una combinación entre la metodología de Lectura Fácil, la cual ofrece pautas para la adaptación de textos en español a una versión adaptada y comprensible, con herramientas de procesamiento del lenguaje natural como Spacy y modelos basados en transformers y BERT como XLM- RoBERTA para automatizar la adaptación sintáctica de oraciones subordinadas.

En primer lugar, se detectan y clasifican las oraciones subordinadas combinando enfoques basados en reglas y enfoques basados en aprendizaje automático, empleando el corpus anotado en español AnCora para hacer el ajuste del modelo a la tarea específica. Una vez detectadas las oraciones subordinadas sustantivas y adverbiales concesivas y consecutivas, se transforman estos dos últimos grupos con reglas de adaptación.

La evaluación del sistema se realiza empleando métricas de evaluación automática específicas de la simplificación de textos como SARI, BELU y BERTScore además de las métricas de evaluación clásicas empleadas para la clasificación.

ABSTRACT

Text adaptation is one of the main tasks in natural language processing, serving as a fundamental tool to increase text accessibility. The presented project proposes the use of automatic text simplification techniques to adapt subordinate sentences in Spanish and is part of a research line aiming to automate adaptation guidelines.

To achieve this, a combination is proposed between the methodology of "Lectura Fácil"(Easy Reading), which offers guidelines for the adaptation of texts in Spanish to a version that is adapted and comprehensible, with natural language processing tools like Spacy and models based on transformers and BERT like XLM-RoBERTa to automate the syntactic adaptation of subordinate sentences.

Firstly, subordinate sentences are detected and classified by combining rule-based approaches and machine learning-based approaches, using the annotated Spanish corpus AnCora to make adjustments to the model for the specific task. Once noun and adverbial concessive and consecutive subordinate sentences are detected, these last two groups are transformed using adaptation rules.

The system evaluation is performed using specific automatic text simplification evaluation metrics such as SARI, BELU, and BERTScore, in addition to classic evaluation metrics used for classification.

More information

Item ID: 75855
DC Identifier: https://oa.upm.es/75855/
OAI Identifier: oai:oa.upm.es:75855
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 14 Sep 2023 08:26
Last Modified: 14 Sep 2023 08:26
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM