@unpublished{upm51631, note = {Unpublished}, year = {2018}, title = {Modelos profundos para estimaci{\'o}n de puntos de inter{\'e}s en im{\'a}genes del rostro humano}, school = {ETSI\_Informatica}, abstract = {Este trabajo propone resolver el problema de alineamiento facial mediante el uso de redes neuronales. Concretamente se ha construido un modelo que estima la localizaci{\'o}n de un conjunto de puntos de inter{\'e}s en el rostro. Para ello se propone una red neuronal convolucional construida a partir de la concatenaci{\'o}n, en forma de cascada, de las predicciones de dos redes. En comparaci{\'o}n con otros algoritmos similares, se proponen una serie de mejoras que, en conjunto, permiten una localizaci{\'o}n de los puntos de inter{\'e}s que iguala o mejora a los algoritmos m{\'a}s avanzados en el estado del arte. La mejora principal consiste en el desarrollo de un modelo de red neuronal que permita aprender la forma de la cara, para ello se propone un entrenamiento en dos fases donde en cada fase se entrena un modelo de red neuronal distinto. Como este tipo de redes no tienen informaci{\'o}n a priori de la cara, en la segunda fase se trata de mejorar la predicci{\'o}n de puntos a partir de la salida de la primera. A diferencia de la primera fase se fuerza a este segundo modelo a predecir todos los puntos cuando se le ocultan algunas salidas del primero. Con esto se consigue que entre ambas redes se obtengan tanto caracter{\'i}sticas de la presencia de cada punto, como el conocimiento de como la disposici{\'o}n relativa de los mismos en el espacio para que representen una cara. La segunda propuesta es el uso de una estrategia de aumento de datos agresiva que permita no repetir las muestra en ning{\'u}n momento. Para ello se hace uso de un generador de im{\'a}genes y etiquetas que continuamente va aplicando transformaciones a las im{\'a}genes y por tanto genera nuevas muestras de entrenamiento para la red. Otra de las propuestas que se presentan es en la obtenci{\'o}n del p{\'i}xel donde se encuentra un punto en concreto. La salida de la red propuesta es una matriz por cada punto, donde cada p{\'i}xel representa la probabilidad de presencia del punto. Se propone mejorar la estimaci{\'o}n de la posici{\'o}n de los puntos de inter{\'e}s realizando un filtrado del mapa de probabilidad predicho por la red. Con esto se consigue una mayor robustez en la estimaci{\'o}n. Por {\'u}ltimo se ha modificado la funci{\'o}n de p{\'e}rdidas de la red para que pueda ser entrenada en bases de datos con im{\'a}genes donde la etiqueta de algunos puntos no existe. Esto permite entrenar en bases de datos donde no existe la etiqueta de ciertos puntos sin que quede afectado el rendimiento general del sistema. Para la evaluaci{\'o}n del modelo se han utilizado las bases de datos mas relevantes en la literatura para este problema. Esto permite la comparaci{\'o}n con otros trabajos donde en casi todas las bases de datos obtenemos unos resultados que mejoran los obtenidos por las propuestas publicadas hasta ahora.---ABSTRACT---In this work I propose to resolve the face alignment problem with convolutional neural network (CNN). The algorithm concatenates the outputs of two baseline CNNs and shows excellent results in landmark location. With respect to other solutions, with this algorithm I propose improvements that achieve results equal or better than the most advanced algorithms in the state of the art. The main proposal is to build a model that is able to learn the face shape. To achieve this, a two phases model is proposed. After a first neural network is completed, an equal second network tries to improve first prediction output. The improvement comes when some outputs of first stage are deleted and the second network has to predict with missing inputs. This forces the network to learn how landmarks have to be placed for formming a face. The second proposal is to use hard data augmentation that allows the network to use different images and labels. For this purpose a generator of images and labels with different transformations is used and new input data is generated. Another proposal is about obtaining the pixel location from output maps. This output is a matrix for each landmark and, each element, represents the probability that the landmark is there. I propose to improve landmark estimation by applying a gaussian filter to output maps. The last proposal is to adapt the loss function to handle missing labels in a database. With this improvement the algorithm can train in databases like AFLW where some images have missing landmarks. For model evaluation the most relevant databases in the literature for face aligment are used. These databases are commonly used and they allow the comparison between this model and other works proposals. We obtain better results than other works in almost all databases.}, author = {L{\'o}pez Maroto, Pedro Diego}, url = {https://oa.upm.es/51631/} }