@unpublished{upm64643, month = {October}, title = {M{\'e}todos de aprendizaje profundo para la segmentaci{\'o}n sem{\'a}ntica de personas}, author = {Eduardo Temprano Coleto}, year = {2020}, keywords = {Machine Learning, Deep Learning, Inteligencia Artificial, detecci{\'o}n, clasificaci{\'o}n, personas, CNN, U-Net, Segnet, Mobilenet, Resnet, Deeplab}, url = {http://oa.upm.es/64643/}, abstract = {El objetivo principal del proyecto es el desarrollo de un algoritmo de detecci{\'o}n de personas en im{\'a}genes a nivel p{\'i}xel para conocer si es posible su incorporaci{\'o}n en aplicaciones de b{\'u}squeda y rescate de personas. En el desarrollo de la aplicaci{\'o}n se estudian las opciones dentro del campo de visi{\'o}n por computadora. {\'E}ste estudia las caracter{\'i}sticas de una imagen para extraer la localizaci{\'o}n de la informaci{\'o}n que est{\'a} contenida en la propia imagen. Dentro de este campo se estudian los m{\'e}todos de aprendizaje profundo debido a su viabilidad para obtener el objetivo principal. El objetivo de este proyecto se consigue mediante el desarrollo de una aplicaci{\'o}n de aprendizaje profundo (DL del ingl{\'e}s Deep learning) para la segmentaci{\'o}n sem{\'a}ntica (del ingl{\'e}s semantic segmentation) de personas para su reconocimiento en im{\'a}genes. Para poder lograr este objetivo se han estudiado diferentes redes neuronales convolucionales (convolutional neural networks o CNN) y su implementaci{\'o}n en algoritmos de aprendizaje profundo para desarrollar un marco comparativo de los resultados de dichas t{\'e}cnicas En materia de algoritmos de aprendizaje cabe hacer la distinci{\'o}n entre aprendizaje autom{\'a}tico (ML del ingl{\'e}s Machine learning) y aprendizaje profundo. El primero de ellos, t{\'i}picamente hace uso de algoritmos de una menor demanda de recursos computacionales, haciendo uso de elementos como modelos de regresi{\'o}n sobre conjuntos de datos procesados, siendo las redes que conforman los algoritmos de pocas capas y normalmente superficiales. Dentro del ML cuando las redes neuronales adquieren un mayor n{\'u}mero de capas aumentando su profundidad se comienza a hablar de aprendizaje profundo. La demanda computacional de las aplicaciones de aprendizaje profundo por lo tanto es mayor, lo que facilita su uso en aplicaciones m{\'a}s complejas y novedosas. La versatilidad de las redes neuronales convolucionales para la segmentaci{\'o}n sem{\'a}ntica permite la obtenci{\'o}n de resultados excelentes en aplicaciones de visi{\'o}n por computadora, siendo posible el desarrollo de aplicaciones tan novedosas como la conducci{\'o}n aut{\'o}noma. La detecci{\'o}n de regiones se hace por lo tanto a nivel p{\'i}xel, siendo las agrupaciones de {\'e}stos los que componen las regiones de la imagen. La principal aplicaci{\'o}n del sistema propuesto en este proyecto es la de misiones de b{\'u}squeda y rescate aut{\'o}nomo (Search and rescue missions en ingl{\'e}s) existiendo el suficiente modularidad en el proyecto para que en un futuro se pueda expandir hacia aplicaciones de mayor complejidad como la circulaci{\'o}n aut{\'o}noma. En la experimentaci{\'o}n de la comparativa de redes neuronales se han escogido diferentes redes que entre ellas presentan variaci{\'o}n morfol{\'o}gica, de operaciones VI elementales o en la forma de pasar la informaci{\'o}n del mapa de caracter{\'i}sticas entre sus capas . Se les ha dado una mayor importancia a los mecanismos de aprendizaje residual. Esto se debe a los progresos incrementales que se est{\'a}n consiguiendo en la actualidad con estos mecanismos. En las redes residuales se va a hacer un estudio para comparar el efecto de su incorporaci{\'o}n en algunas redes neuronales conocidas, para poder estudiar su efecto y extraer las conclusiones pertinentes. La detecci{\'o}n se va a realizar a nivel p{\'i}xel, siendo conocido este m{\'e}todo como segmentaci{\'o}n sem{\'a}ntica. Tras una etapa de aprendizaje en la que se va a incluir el grueso de la colecci{\'o}n de im{\'a}genes, se va a realizar una etapa de evaluaci{\'o}n de los resultados aplicando las m{\'e}tricas de precisi{\'o}n (accuracy), Valor-F (f1score), recuento (recall) y media de la intersecci{\'o}n sobre la uni{\'o}n (mIoU). Se ha entrenado con una divisi{\'o}n del conjunto de datos de COCO en el que se va a clasificar a personas, siendo este uno de los conjuntos de datos de acceso p{\'u}blico m{\'a}s utilizados en la bibliograf{\'i}a para el estudio de resultados. Finalmente se hace una reflexi{\'o}n anal{\'i}tica de los resultados obtenidos para concluir la viabilidad del proyecto adem{\'a}s de las posibles l{\'i}neas de futuro que pueda tener} }