Modelos profundos para estimación de puntos de interés en imágenes del rostro humano

López Maroto, Pedro Diego (2018). Modelos profundos para estimación de puntos de interés en imágenes del rostro humano. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Modelos profundos para estimación de puntos de interés en imágenes del rostro humano
Author/s:
  • López Maroto, Pedro Diego
Contributor/s:
  • Baumela Molina, Luis
  • Pardo Martín, José Manuel
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 2018
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_PEDRO_DIEGO_LOPEZ_MAROTO.pdf]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

Este trabajo propone resolver el problema de alineamiento facial mediante el
uso de redes neuronales. Concretamente se ha construido un modelo que estima la
localización de un conjunto de puntos de interés en el rostro. Para ello se propone
una red neuronal convolucional construida a partir de la concatenación, en forma
de cascada, de las predicciones de dos redes. En comparación con otros algoritmos
similares, se proponen una serie de mejoras que, en conjunto, permiten una localización
de los puntos de interés que iguala o mejora a los algoritmos más avanzados
en el estado del arte.
La mejora principal consiste en el desarrollo de un modelo de red neuronal que
permita aprender la forma de la cara, para ello se propone un entrenamiento en dos
fases donde en cada fase se entrena un modelo de red neuronal distinto. Como este
tipo de redes no tienen información a priori de la cara, en la segunda fase se trata de
mejorar la predicción de puntos a partir de la salida de la primera. A diferencia de la
primera fase se fuerza a este segundo modelo a predecir todos los puntos cuando se
le ocultan algunas salidas del primero. Con esto se consigue que entre ambas redes se
obtengan tanto características de la presencia de cada punto, como el conocimiento
de como la disposición relativa de los mismos en el espacio para que representen una
cara.
La segunda propuesta es el uso de una estrategia de aumento de datos agresiva
que permita no repetir las muestra en ningún momento. Para ello se hace uso de un
generador de imágenes y etiquetas que continuamente va aplicando transformaciones
a las imágenes y por tanto genera nuevas muestras de entrenamiento para la red.
Otra de las propuestas que se presentan es en la obtención del píxel donde se
encuentra un punto en concreto. La salida de la red propuesta es una matriz por
cada punto, donde cada píxel representa la probabilidad de presencia del punto. Se
propone mejorar la estimación de la posición de los puntos de interés realizando un
filtrado del mapa de probabilidad predicho por la red. Con esto se consigue una
mayor robustez en la estimación.
Por último se ha modificado la función de pérdidas de la red para que pueda
ser entrenada en bases de datos con imágenes donde la etiqueta de algunos puntos
no existe. Esto permite entrenar en bases de datos donde no existe la etiqueta de
ciertos puntos sin que quede afectado el rendimiento general del sistema.
Para la evaluación del modelo se han utilizado las bases de datos mas relevantes
en la literatura para este problema. Esto permite la comparación con otros trabajos
donde en casi todas las bases de datos obtenemos unos resultados que mejoran los
obtenidos por las propuestas publicadas hasta ahora.---ABSTRACT---In this work I propose to resolve the face alignment problem with convolutional
neural network (CNN). The algorithm concatenates the outputs of two baseline
CNNs and shows excellent results in landmark location. With respect to other solutions,
with this algorithm I propose improvements that achieve results equal or
better than the most advanced algorithms in the state of the art.
The main proposal is to build a model that is able to learn the face shape.
To achieve this, a two phases model is proposed. After a first neural network is
completed, an equal second network tries to improve first prediction output. The
improvement comes when some outputs of first stage are deleted and the second
network has to predict with missing inputs. This forces the network to learn how
landmarks have to be placed for formming a face.
The second proposal is to use hard data augmentation that allows the network
to use different images and labels. For this purpose a generator of images and labels
with different transformations is used and new input data is generated.
Another proposal is about obtaining the pixel location from output maps. This
output is a matrix for each landmark and, each element, represents the probability
that the landmark is there. I propose to improve landmark estimation by applying
a gaussian filter to output maps.
The last proposal is to adapt the loss function to handle missing labels in a
database. With this improvement the algorithm can train in databases like AFLW
where some images have missing landmarks.
For model evaluation the most relevant databases in the literature for face aligment
are used. These databases are commonly used and they allow the comparison
between this model and other works proposals. We obtain better results than other
works in almost all databases.

More information

Item ID: 51631
DC Identifier: https://oa.upm.es/51631/
OAI Identifier: oai:oa.upm.es:51631
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 16 Jul 2018 05:28
Last Modified: 16 Jul 2018 05:28
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM