Modelos profundos para estimación de puntos de interés en imágenes del rostro humano

López Maroto, Pedro Diego (2018). Modelos profundos para estimación de puntos de interés en imágenes del rostro humano. Tesis (Master), E.T.S. de Ingenieros Informáticos (UPM).

Descripción

Título: Modelos profundos para estimación de puntos de interés en imágenes del rostro humano
Autor/es:
  • López Maroto, Pedro Diego
Director/es:
  • Baumela Molina, Luis
  • Pardo Martín, José Manuel
Tipo de Documento: Tesis (Master)
Título del máster: Inteligencia Artificial
Fecha: 2018
Materias:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa

Resumen

Este trabajo propone resolver el problema de alineamiento facial mediante el uso de redes neuronales. Concretamente se ha construido un modelo que estima la localización de un conjunto de puntos de interés en el rostro. Para ello se propone una red neuronal convolucional construida a partir de la concatenación, en forma de cascada, de las predicciones de dos redes. En comparación con otros algoritmos similares, se proponen una serie de mejoras que, en conjunto, permiten una localización de los puntos de interés que iguala o mejora a los algoritmos más avanzados en el estado del arte. La mejora principal consiste en el desarrollo de un modelo de red neuronal que permita aprender la forma de la cara, para ello se propone un entrenamiento en dos fases donde en cada fase se entrena un modelo de red neuronal distinto. Como este tipo de redes no tienen información a priori de la cara, en la segunda fase se trata de mejorar la predicción de puntos a partir de la salida de la primera. A diferencia de la primera fase se fuerza a este segundo modelo a predecir todos los puntos cuando se le ocultan algunas salidas del primero. Con esto se consigue que entre ambas redes se obtengan tanto características de la presencia de cada punto, como el conocimiento de como la disposición relativa de los mismos en el espacio para que representen una cara. La segunda propuesta es el uso de una estrategia de aumento de datos agresiva que permita no repetir las muestra en ningún momento. Para ello se hace uso de un generador de imágenes y etiquetas que continuamente va aplicando transformaciones a las imágenes y por tanto genera nuevas muestras de entrenamiento para la red. Otra de las propuestas que se presentan es en la obtención del píxel donde se encuentra un punto en concreto. La salida de la red propuesta es una matriz por cada punto, donde cada píxel representa la probabilidad de presencia del punto. Se propone mejorar la estimación de la posición de los puntos de interés realizando un filtrado del mapa de probabilidad predicho por la red. Con esto se consigue una mayor robustez en la estimación. Por último se ha modificado la función de pérdidas de la red para que pueda ser entrenada en bases de datos con imágenes donde la etiqueta de algunos puntos no existe. Esto permite entrenar en bases de datos donde no existe la etiqueta de ciertos puntos sin que quede afectado el rendimiento general del sistema. Para la evaluación del modelo se han utilizado las bases de datos mas relevantes en la literatura para este problema. Esto permite la comparación con otros trabajos donde en casi todas las bases de datos obtenemos unos resultados que mejoran los obtenidos por las propuestas publicadas hasta ahora.---ABSTRACT---In this work I propose to resolve the face alignment problem with convolutional neural network (CNN). The algorithm concatenates the outputs of two baseline CNNs and shows excellent results in landmark location. With respect to other solutions, with this algorithm I propose improvements that achieve results equal or better than the most advanced algorithms in the state of the art. The main proposal is to build a model that is able to learn the face shape. To achieve this, a two phases model is proposed. After a first neural network is completed, an equal second network tries to improve first prediction output. The improvement comes when some outputs of first stage are deleted and the second network has to predict with missing inputs. This forces the network to learn how landmarks have to be placed for formming a face. The second proposal is to use hard data augmentation that allows the network to use different images and labels. For this purpose a generator of images and labels with different transformations is used and new input data is generated. Another proposal is about obtaining the pixel location from output maps. This output is a matrix for each landmark and, each element, represents the probability that the landmark is there. I propose to improve landmark estimation by applying a gaussian filter to output maps. The last proposal is to adapt the loss function to handle missing labels in a database. With this improvement the algorithm can train in databases like AFLW where some images have missing landmarks. For model evaluation the most relevant databases in the literature for face aligment are used. These databases are commonly used and they allow the comparison between this model and other works proposals. We obtain better results than other works in almost all databases.

Más información

ID de Registro: 51631
Identificador DC: http://oa.upm.es/51631/
Identificador OAI: oai:oa.upm.es:51631
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 16 Jul 2018 05:28
Ultima Modificación: 16 Jul 2018 05:28
  • GEO_UP4
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • InvestigaM
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM