Métodos de aprendizaje profundo para la segmentación semántica de personas

Temprano Coleto, Eduardo (2020). Métodos de aprendizaje profundo para la segmentación semántica de personas. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Industriales (UPM).

Description

Title: Métodos de aprendizaje profundo para la segmentación semántica de personas
Author/s:
  • Temprano Coleto, Eduardo
Contributor/s:
  • Campoy Cervera, Pascual
Item Type: Final Project
Degree: Grado en Ingeniería en Tecnologías Industriales
Date: October 2020
Subjects:
Freetext Keywords: Machine Learning, Deep Learning, Inteligencia Artificial, detección, clasificación, personas, CNN, U-Net, Segnet, Mobilenet, Resnet, Deeplab
Faculty: E.T.S.I. Industriales (UPM)
Department: Automática, Ingeniería Eléctrica y Electrónica e Informática Industrial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

El objetivo principal del proyecto es el desarrollo de un algoritmo de detección de personas en imágenes a nivel píxel para conocer si es posible su incorporación en aplicaciones de búsqueda y rescate de personas. En el desarrollo de la aplicación se estudian las opciones dentro del campo de visión por computadora. Éste estudia las características de una imagen para extraer la localización de la información que está contenida en la propia imagen. Dentro de este campo se estudian los métodos de aprendizaje profundo debido a su viabilidad para obtener el objetivo principal. El objetivo de este proyecto se consigue mediante el desarrollo de una aplicación de aprendizaje profundo (DL del inglés Deep learning) para la segmentación semántica (del inglés semantic segmentation) de personas para su reconocimiento en imágenes. Para poder lograr este objetivo se han estudiado diferentes redes neuronales convolucionales (convolutional neural networks o CNN) y su implementación en algoritmos de aprendizaje profundo para desarrollar un marco comparativo de los resultados de dichas técnicas En materia de algoritmos de aprendizaje cabe hacer la distinción entre aprendizaje automático (ML del inglés Machine learning) y aprendizaje profundo. El primero de ellos, típicamente hace uso de algoritmos de una menor demanda de recursos computacionales, haciendo uso de elementos como modelos de regresión sobre conjuntos de datos procesados, siendo las redes que conforman los algoritmos de pocas capas y normalmente superficiales. Dentro del ML cuando las redes neuronales adquieren un mayor número de capas aumentando su profundidad se comienza a hablar de aprendizaje profundo. La demanda computacional de las aplicaciones de aprendizaje profundo por lo tanto es mayor, lo que facilita su uso en aplicaciones más complejas y novedosas. La versatilidad de las redes neuronales convolucionales para la segmentación semántica permite la obtención de resultados excelentes en aplicaciones de visión por computadora, siendo posible el desarrollo de aplicaciones tan novedosas como la conducción autónoma. La detección de regiones se hace por lo tanto a nivel píxel, siendo las agrupaciones de éstos los que componen las regiones de la imagen. La principal aplicación del sistema propuesto en este proyecto es la de misiones de búsqueda y rescate autónomo (Search and rescue missions en inglés) existiendo el suficiente modularidad en el proyecto para que en un futuro se pueda expandir hacia aplicaciones de mayor complejidad como la circulación autónoma. En la experimentación de la comparativa de redes neuronales se han escogido diferentes redes que entre ellas presentan variación morfológica, de operaciones VI elementales o en la forma de pasar la información del mapa de características entre sus capas . Se les ha dado una mayor importancia a los mecanismos de aprendizaje residual. Esto se debe a los progresos incrementales que se están consiguiendo en la actualidad con estos mecanismos. En las redes residuales se va a hacer un estudio para comparar el efecto de su incorporación en algunas redes neuronales conocidas, para poder estudiar su efecto y extraer las conclusiones pertinentes. La detección se va a realizar a nivel píxel, siendo conocido este método como segmentación semántica. Tras una etapa de aprendizaje en la que se va a incluir el grueso de la colección de imágenes, se va a realizar una etapa de evaluación de los resultados aplicando las métricas de precisión (accuracy), Valor-F (f1score), recuento (recall) y media de la intersección sobre la unión (mIoU). Se ha entrenado con una división del conjunto de datos de COCO en el que se va a clasificar a personas, siendo este uno de los conjuntos de datos de acceso público más utilizados en la bibliografía para el estudio de resultados. Finalmente se hace una reflexión analítica de los resultados obtenidos para concluir la viabilidad del proyecto además de las posibles líneas de futuro que pueda tener

More information

Item ID: 64643
DC Identifier: http://oa.upm.es/64643/
OAI Identifier: oai:oa.upm.es:64643
Deposited by: Biblioteca ETSI Industriales
Deposited on: 01 Dec 2020 14:13
Last Modified: 16 Dec 2020 23:30
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM