Estimación precisa de la orientación del rostro humano utilizando redes de neuronas

Amador Domínguez, Elvira (2017). Estimación precisa de la orientación del rostro humano utilizando redes de neuronas. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Estimación precisa de la orientación del rostro humano utilizando redes de neuronas
Author/s:
  • Amador Domínguez, Elvira
Contributor/s:
  • Baumela Molina, Luis
Item Type: Final Project
Degree: Grado en Ingeniería Informática
Date: June 2017
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (596kB) | Preview

Abstract

Desde el año 2012, las redes de neuronas se han convertido en una de las herramientas más utilizadas a la hora de resolver problemas de visión por computador. El desarrollo de mejores sistemas cómputo tales como las GPU, sumado a las distintas facilidades a nivel de software desarrolladas y, sobre todo, a la versatilidad que tiene este paradigma, han propiciado que el uso de las redes de neuronas haya experimentado un gran crecimiento desde inicios de década hasta el día de hoy. Son muchos los problemas que se pueden resolver utilizando este método. Su uso más extendido es la resolución de problemas de clasificación de imágenes, es decir, asignar a una imagen una etiqueta discreta. Además de los problemas de clasificación, las redes de neuronas permiten resolver otros tipos de problemas, tales como la segmentación o la localización de objetos. Otra gran ventaja de las redes de neuronas respecto a otros paradigmas, es que permite el transfer learning o aprendizaje por transferencia, lo que significa que, partiendo de una red ya entrenada, se pueda optimizar para resolver un problema completamente distinto al que originalmente fue entrenado realizando modificaciones mínimas en la arquitectura de la misma y empleando un conjunto de datos de entrenamiento más pequeño. Esto es especialmente útil, ya que muchas veces la cantidad de datos disponible para resolver el problema es insuficiente para conseguir una precisión suficiente, o bien la capacidad de cómputo necesaria es mayor de la disponible. En vista tanto de la versatilidad como de las ventajas que ofrecen, las redes de neuronas resultan un método muy adecuado para resolver el problema que nos atañe en este caso: la orientación del rostro. Este problema se puede ver como un problema de regresión en el que, a partir de una serie de imágenes etiquetadas, generamos un modelo capaz de predecir los ángulos de rotación de la cabeza, que definen la pose. Para el entrenamiento y manejo de las redes, se ha utilizado el framework Caffe, desarrollado por la Universidad de Berkley, así como distintas bases de datos (AFLW, AFW y 300W) para entrenar y probar las redes.---ABSTRACT---Since 2012, neural networks have been one of the most spready used paradigms in computer vision. The development of better computational systems such as GPU, added to the newly developed software facilities, and especially to the diversity of uses of this paradigm, have encouraged the increment of the use of neural networks from the beginning of the decade until these days. Neural networks can solve a huge diversity of problems. Its most common use is for image classification tasks, in which the net assigns a discrete label to an image. Apart from classification, neural networks can solve some other kinds of problems, such as image segmentation or object localization. Another great advantage of neural networks in comparison to the rest of paradigms, is that they allow transfer learning. This means that, starting from a net that is already trained, we can retrain that net to solve a completely different problem by making minor modifications on the net architecture and using a smaller training dataset. This is especially useful, as usually the number of labeled data available to solve the problem is not enough to obtain precise results, or the computational power needed is bigger than the available. Due to the versatility and the advantages neural networks offer, they represent an optimal method to solve the problem we are treating: pose estimation. This problem can be seen as a regression problem in which, from a set of labeled images, we generate a model capable of predicting the rotation angles of the head, that is what defines the pose. For the training and handling of the nets, we have used the framework Caffe, developed by the University of Berkley, and also a diversity of databases (AFLW, AFW and 300W) used to train and test the nets.

More information

Item ID: 47220
DC Identifier: http://oa.upm.es/47220/
OAI Identifier: oai:oa.upm.es:47220
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 13 Jul 2017 12:43
Last Modified: 13 Jul 2017 12:43
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM