eprintid: 51631 rev_number: 12 eprint_status: archive userid: 2047 dir: disk0/00/05/16/31 datestamp: 2018-07-16 05:28:14 lastmod: 2018-07-16 05:28:44 status_changed: 2018-07-16 05:28:44 type: thesis metadata_visibility: show creators_name: López Maroto, Pedro Diego contributors_name: Baumela Molina, Luis contributors_name: Pardo Martín, José Manuel contributors_orcid: 0000-0001-6910-4359 contributors_orcid: 0000-0002-5281-2516 title: Modelos profundos para estimación de puntos de interés en imágenes del rostro humano ispublished: unpub subjects: informatica abstract: Este trabajo propone resolver el problema de alineamiento facial mediante el uso de redes neuronales. Concretamente se ha construido un modelo que estima la localización de un conjunto de puntos de interés en el rostro. Para ello se propone una red neuronal convolucional construida a partir de la concatenación, en forma de cascada, de las predicciones de dos redes. En comparación con otros algoritmos similares, se proponen una serie de mejoras que, en conjunto, permiten una localización de los puntos de interés que iguala o mejora a los algoritmos más avanzados en el estado del arte. La mejora principal consiste en el desarrollo de un modelo de red neuronal que permita aprender la forma de la cara, para ello se propone un entrenamiento en dos fases donde en cada fase se entrena un modelo de red neuronal distinto. Como este tipo de redes no tienen información a priori de la cara, en la segunda fase se trata de mejorar la predicción de puntos a partir de la salida de la primera. A diferencia de la primera fase se fuerza a este segundo modelo a predecir todos los puntos cuando se le ocultan algunas salidas del primero. Con esto se consigue que entre ambas redes se obtengan tanto características de la presencia de cada punto, como el conocimiento de como la disposición relativa de los mismos en el espacio para que representen una cara. La segunda propuesta es el uso de una estrategia de aumento de datos agresiva que permita no repetir las muestra en ningún momento. Para ello se hace uso de un generador de imágenes y etiquetas que continuamente va aplicando transformaciones a las imágenes y por tanto genera nuevas muestras de entrenamiento para la red. Otra de las propuestas que se presentan es en la obtención del píxel donde se encuentra un punto en concreto. La salida de la red propuesta es una matriz por cada punto, donde cada píxel representa la probabilidad de presencia del punto. Se propone mejorar la estimación de la posición de los puntos de interés realizando un filtrado del mapa de probabilidad predicho por la red. Con esto se consigue una mayor robustez en la estimación. Por último se ha modificado la función de pérdidas de la red para que pueda ser entrenada en bases de datos con imágenes donde la etiqueta de algunos puntos no existe. Esto permite entrenar en bases de datos donde no existe la etiqueta de ciertos puntos sin que quede afectado el rendimiento general del sistema. Para la evaluación del modelo se han utilizado las bases de datos mas relevantes en la literatura para este problema. Esto permite la comparación con otros trabajos donde en casi todas las bases de datos obtenemos unos resultados que mejoran los obtenidos por las propuestas publicadas hasta ahora.---ABSTRACT---In this work I propose to resolve the face alignment problem with convolutional neural network (CNN). The algorithm concatenates the outputs of two baseline CNNs and shows excellent results in landmark location. With respect to other solutions, with this algorithm I propose improvements that achieve results equal or better than the most advanced algorithms in the state of the art. The main proposal is to build a model that is able to learn the face shape. To achieve this, a two phases model is proposed. After a first neural network is completed, an equal second network tries to improve first prediction output. The improvement comes when some outputs of first stage are deleted and the second network has to predict with missing inputs. This forces the network to learn how landmarks have to be placed for formming a face. The second proposal is to use hard data augmentation that allows the network to use different images and labels. For this purpose a generator of images and labels with different transformations is used and new input data is generated. Another proposal is about obtaining the pixel location from output maps. This output is a matrix for each landmark and, each element, represents the probability that the landmark is there. I propose to improve landmark estimation by applying a gaussian filter to output maps. The last proposal is to adapt the loss function to handle missing labels in a database. With this improvement the algorithm can train in databases like AFLW where some images have missing landmarks. For model evaluation the most relevant databases in the literature for face aligment are used. These databases are commonly used and they allow the comparison between this model and other works proposals. We obtain better results than other works in almost all databases. date: 2018 date_type: completed full_text_status: public pages: 64 institution: ETSI_Informatica department: Inteligencia_Artificial thesis_type: masters rights: by-nc-nd master_title: Inteligencia Artificial citation: López Maroto, Pedro Diego (2018). Modelos profundos para estimación de puntos de interés en imágenes del rostro humano. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM) . document_url: https://oa.upm.es/51631/1/TFM_PEDRO_DIEGO_LOPEZ_MAROTO.pdf