Development of a software for generating summaries of scientific articles via Deep Learning architectures

Cal García, Luis de la (2022). Development of a software for generating summaries of scientific articles via Deep Learning architectures. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Development of a software for generating summaries of scientific articles via Deep Learning architectures
Author/s:
  • Cal García, Luis de la
Contributor/s:
  • Gómez Canaval, Sandra
  • Díaz Álvarez, Alberto
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: June 2022
Subjects:
Freetext Keywords: Aprendizaje Profundo; Aprendizaje automático; Generación de resúmenes; Textos científicos; Transformers; Evaluación de calidad
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB)

Abstract

Este trabajo de fin de grado pretende ofrecer una vista general de los avances del Machine Learning y Deep Learning en el área de la generación de resúmenes automáticos de documentos y aplicar las soluciones más novedosas para generar una herramienta que fácilmente resuma textos científicos. La investigación del estado del arte se centra especialmente en la arquitectura Transformers que revolucionó el campo de la generación automática de resúmenes en 2017. El proyecto contiene comparaciones de varios modelos de Deep Learning preentrenados para resumir textos. De los modelos comparados, se hace un análisis más profundo del modelo Distil-BART ya que para el dataset seleccionado, está entre los que genera resúmenes de más calidad y además su tiempo de inferencia de nuevos resúmenes es el menor de todos. A partir de este modelo y experimentaciones previas para adaptar los algoritmos a documentos de cualquier tamaño se genera una API que provee el servicio de resumir textos. Esta API es consumida desde una web propia creada para ser fácil de utilizar y permitir a los usuarios abstraerse de la implementación. Últimamente, este trabajo explora consideraciones éticas del campo del NLP y posibles puntos de mejora o exploración más profunda que podrían expandir sobre este proyecto. Abstract: This final degree work aims to overview the advances of Machine Learning and Deep Learning in the area of automatic text summarization and to apply current state-of-the-art solutions to generate a tool that easily summarizes scientific texts. The state-of-the-art research focuses especially on the Transformers architecture that revolutionized the field of automatic summarization in 2017. The project contains comparisons of several pre-trained Deep Learning models for summarizing texts. Of the compared models, a deeper analysis of the DistilBART model is made since for the selected dataset, it is among those that generates summaries of the highest quality and also its inference time of new summaries is the shortest of all. From this model and previous experiments to adapt the algorithms to documents of any size, an API is generated to provide the service of summarizing texts. This api is consumed from a proprietary web site created to be easy to use and allow users to abstract from the implementation. Ultimately, this work explores ethical considerations of the NLP field and possible points of improvement or further exploration that could expand upon this project.

More information

Item ID: 70619
DC Identifier: https://oa.upm.es/70619/
OAI Identifier: oai:oa.upm.es:70619
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 18 Jun 2022 05:59
Last Modified: 21 Nov 2022 11:21
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM