Full text
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (596kB) | Preview |
Amador Domínguez, Elvira ORCID: https://orcid.org/0000-0001-6838-1266
(2017).
Estimación precisa de la orientación del rostro humano utilizando redes de neuronas.
Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.
Title: | Estimación precisa de la orientación del rostro humano utilizando redes de neuronas |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Final Project |
Degree: | Grado en Ingeniería Informática |
Date: | June 2017 |
Subjects: | |
Faculty: | E.T.S. de Ingenieros Informáticos (UPM) |
Department: | Inteligencia Artificial |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (596kB) | Preview |
Desde el año 2012, las redes de neuronas se han convertido en una de las herramientas más utilizadas a la hora de resolver problemas de visión por computador. El desarrollo de mejores sistemas cómputo tales como las GPU, sumado a las distintas facilidades a nivel de software desarrolladas y, sobre todo, a la versatilidad que tiene este paradigma, han propiciado que el uso de las redes de neuronas haya experimentado un gran crecimiento desde inicios de década hasta el día de hoy.
Son muchos los problemas que se pueden resolver utilizando este método. Su uso más extendido es la resolución de problemas de clasificación de imágenes, es decir, asignar a una imagen una etiqueta discreta. Además de los problemas de clasificación, las redes de neuronas permiten resolver otros tipos de problemas, tales como la segmentación o la localización de objetos.
Otra gran ventaja de las redes de neuronas respecto a otros paradigmas, es que permite el transfer learning o aprendizaje por transferencia, lo que significa que, partiendo de una red ya entrenada, se pueda optimizar para resolver un problema completamente distinto al que originalmente fue entrenado realizando modificaciones mínimas en la arquitectura de la misma y empleando un conjunto de datos de entrenamiento más pequeño. Esto es especialmente útil, ya que muchas veces la cantidad de datos disponible para resolver el problema es insuficiente para conseguir una precisión suficiente, o bien la capacidad de cómputo necesaria es mayor de la disponible.
En vista tanto de la versatilidad como de las ventajas que ofrecen, las redes de neuronas resultan un método muy adecuado para resolver el problema que nos atañe en este caso: la orientación del rostro.
Este problema se puede ver como un problema de regresión en el que, a partir de una serie de imágenes etiquetadas, generamos un modelo capaz de predecir los ángulos de rotación de la cabeza, que definen la pose.
Para el entrenamiento y manejo de las redes, se ha utilizado el framework Caffe, desarrollado por la Universidad de Berkley, así como distintas bases de datos (AFLW, AFW y 300W) para entrenar y probar las redes.---ABSTRACT---Since 2012, neural networks have been one of the most spready used paradigms in computer vision. The development of better computational systems such as GPU, added to the newly developed software facilities, and especially to the diversity of uses of this paradigm, have encouraged the increment of the use of neural networks from the beginning of the decade until these days.
Neural networks can solve a huge diversity of problems. Its most common use is for image classification tasks, in which the net assigns a discrete label to an image. Apart from classification, neural networks can solve some other kinds of problems, such as image segmentation or object localization.
Another great advantage of neural networks in comparison to the rest of paradigms, is that they allow transfer learning. This means that, starting from a net that is already trained, we can retrain that net to solve a completely different problem by making minor modifications on the net architecture and using a smaller training dataset. This is especially useful, as usually the number of labeled data available to solve the problem is not enough to obtain precise results, or the computational power needed is bigger than the available.
Due to the versatility and the advantages neural networks offer, they represent an optimal method to solve the problem we are treating: pose estimation.
This problem can be seen as a regression problem in which, from a set of labeled images, we generate a model capable of predicting the rotation angles of the head, that is what defines the pose.
For the training and handling of the nets, we have used the framework Caffe, developed by the University of Berkley, and also a diversity of databases (AFLW, AFW and 300W) used to train and test the nets.
Item ID: | 47220 |
---|---|
DC Identifier: | https://oa.upm.es/47220/ |
OAI Identifier: | oai:oa.upm.es:47220 |
Deposited by: | Biblioteca Facultad de Informatica |
Deposited on: | 13 Jul 2017 12:43 |
Last Modified: | 13 Jul 2017 12:43 |