Procesamiento automático de ilustraciones: Clasificación multi-etiqueta de cómics con Deep Learning

Iglesias Hernández, Guillermo (2020). Procesamiento automático de ilustraciones: Clasificación multi-etiqueta de cómics con Deep Learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Procesamiento automático de ilustraciones: Clasificación multi-etiqueta de cómics con Deep Learning
Author/s:
  • Iglesias Hernández, Guillermo
Contributor/s:
  • Talavera Muñoz, Edgar
Item Type: Final Project
Degree: Doble Grado en Ingeniería del Software y en Tecnologías para la Sociedad de la Información
Date: June 2020
Subjects:
Freetext Keywords: Inteligencia artificial; Generative Adversarial Neural Networks (GAN)
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB)

Abstract

El presente trabajo de fin de grado (TFG) se enmarca en el campo de la inteligencia artificial y cómo se relaciona dicho campo con el datascience. Se presenta un proyecto dividido en dos grandes bloques con un único objetivo, la creación de sistemas inteligentes capaces de realizar una clasificación de varios elementos presentes en una ilustración de tipo cómic japonés. Con el desarrollo del proyecto se pretende constatar la posibilidad de procesar ilustraciones gracias al uso de deep learning para que en un futuro se pueda realizar un segundo trabajo de fin de grado en el que se desarrolle una inteligencia artificial capaz de generar ilustraciones a partir de una definición introducida por un usuario humano. Se realiza la obtención, estudio, documentación y preprocesado de un dataset para el entreno de inteligencias artificiales. Una vez obtenido el conjunto de datos se hace uso del deep learning para conseguir el resultado buscado. Para ello se define previamente el tipo de salida a buscar y se realizan diversas aproximaciones hasta encontrar una arquitectura final con la que se obtienen los resultados buscados. A medida que se desarrolla la inteligencia artificial el conjunto de datos es modificado para maximizar la eficiencia del sistema, primero unificando los canales de color en un único canal en blanco y negro y posteriormente reduciendo la dimensionalidad de las imágenes. Una vez obtenido un modelo adecuado se pasan a realizar entrenos en la nube haciendo uso de una tarjeta gráfica potente que maximice la velocidad de los entrenos, los resultados de dichos entrenos son estudiados y comparados entre sí. Abstract: The present end-of-degree work (TFG) is framed in the field of artificial intelligence and how it is related to datascience. The project is divided into two large blocks with a single objective, the creation of intelligent systems capable of classifying various elements present in a Japanese comic book type illustration. With the development of the project it is pretended to verify the viability of processing illustrations thanks to the use of deep learning so that in the future a second end-of-dregree work can be carried out in which an artificial intelligence that is capable of generating illustrations from a definition introduced by a human user can be developed. The obtaining, study, documentation and pre-processing of a dataset for the training of artificial intelligence is carried out. Once the set of data has been obtained deep learning is used to achieve the desired result. To do this, the type of output to be sought is defined beforehand and various approaches are made until a final solution is found with which the desired results are obtained. As artificial intelligence develops, the data set is modified to maximize the efficiency of the system, first unifying the color channels into a single black and white channel and then reducing the dimensionality of the images. Once a suitable model is obtained, training sessions are carried out in the cloud using a powerful graphic card that maximises the speed of the sessions. The results of these sessions are studied and compared with each other.

More information

Item ID: 64638
DC Identifier: http://oa.upm.es/64638/
OAI Identifier: oai:oa.upm.es:64638
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 14 Oct 2020 10:47
Last Modified: 14 Oct 2020 10:47
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM