Entrenamiento de modelos Deep Learning para descripción multilingüe de imágenes

García Hernán, Carlos (2019). Entrenamiento de modelos Deep Learning para descripción multilingüe de imágenes. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Entrenamiento de modelos Deep Learning para descripción multilingüe de imágenes
Author/s:
  • García Hernán, Carlos
Contributor/s:
  • Serrano Fernández, Emilio
  • Baumela Molina, Luis
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 2019
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

Este trabajo aborda el problema de entrenar un sistema image-to-text que describa imágenes en español, utilizando un conjunto de datos en inglés, ya que no existen conjuntos de datos en español de dimensiones similares que permitan un entrenamiento de la misma calidad. Para poder implementar un modelo de estas características se plantean dos aproximaciones distintas, la primera de ellas, conocida como post-traducción que consiste en entrenar el modelo en inglés con las descripciones originales, para posteriormente traducir de forma automática las descripciones generadas al español. La segunda aproximación, denominada pre-traducción consiste en traducir de forma automática el conjunto de datos original para entrenar un modelo en español. En este trabajo se ha realizado una comparativa rigurosa y honesta, para conocer que aproximación es superior, donde las diferentes aproximaciones se han entrenado con conjuntos de descripciones equivalentes para asegurar entrenamientos comparables. Las evaluaciones se han realizado con una batería de métricas estándar en la traducción automática que permite evaluar su desempeño desde diferentes puntos de vista y han sido realizadas sobre conjuntos de validación y test anotados por humanos que permitan detectar el sesgo sumado a los modelos por parte de los traductores automáticos. Además se han realizado tres comparaciones con diferentes modelos image to text que componen el estado del arte para poder realizar una comparación independiente del modelo usado. Por último se ha propuesto una tercera vía donde se ha realizado fine-tuning a un modelo en español utilizando descripciones traducidas de forma manual, planteamiento innovador en español, ya que junto a este trabajo se ha liberado, hasta donde sabemos, el primer conjunto de descripciones para entrenamiento en español creado por anotadores humanos. Con este fine-tuning se pretende comparar con el resto de aproximaciones y determinar si la transferencia de conocimiento y el uso de un pequeño conjunto de descripciones traducidas manualmente ofrecen una mejoría frente a las otras dos aproximaciones entrenadas únicamente con descripciones traducidas automáticamente. El código fuente producido en este trabajo ha sido liberado y adaptado como material docente.---ABSTRACT---This work addresses the problem of training a image-to-text system that describes images in Spanish, using an English dataset, since there are no Spanish datasets of similar dimensions to the English datasets that allow training of the same quality. In order to implement a model of these characteristics, two different approaches are proposed. The first, known as post-translation which consists of training the model in English with the original descriptions, and then automatically translating the descriptions generated into Spanish. The second approach, called pre-translation, consists of automatically translating the original data set to train a model in Spanish. In this work, a rigorous and honest comparison has been made, to know which approach is superior, where the different approaches have been trained with equivalent sets of descriptions to ensure similar trainings. The evaluations have been carried out with a battery of standard metrics in machine translation that allow to evaluate its performance from different points of view and have been made on sets of validation and test annotated by humans that allow to detect the bias added to the models by the machine translators. In addition, three comparisons have been made with different image to text models that make up the state of the art in order to make an independent comparison of the model used. Finally, a third way has been proposed where fine-tuning has been done to a model in Spanish using descriptions translated manually, an innovative approach in Spanish, since together with this work has been released, as far as we know, the first set of descriptions for training in Spanish created by human note-takers. For this purpose, the aim is to compare with the other approaches and to determine whether transfer learning and the use of a small set of manually translated descriptions offer an improvement over the other two approaches trained only with automatically translated descriptions. The source code produced in this work has been released and adapted as teaching material.

More information

Item ID: 63705
DC Identifier: http://oa.upm.es/63705/
OAI Identifier: oai:oa.upm.es:63705
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 10 Sep 2020 06:42
Last Modified: 10 Sep 2020 06:42
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM